数据分析秘籍在这里Kaggle六大比赛

AI研习社按,在数据分析秘籍在这里:Kaggl六大比赛最全面解析(上)一文中,AI研习社介绍了结构化数据和NLP数据的处理方式,其中包括对Titanic,房价预测,恶意评论分类,恐怖小说家身份识别四个比赛的详细分析。

本文将介绍图像类比赛的数据处理经验,以树叶分类竞赛(LafClassification)和肺癌检测比赛(DataScincBowl)为例。

正文如下,雷锋网AI研习社编译整理:

图像

到目前为止,我介绍的都是文本(语言、字符串或数字)数据集,最后我将带来两个图像数据集的分析。

我选的这两个比赛(肺癌检测和树叶分类)比我看过的其他比赛更具专业特色,这里的分析不再是基本分析,着重于探索不同技术,因此适用于更高阶的读者。

在可视化技术以及特征构建方面,我看到了很多变化。特别是肺癌比赛中,一些作者利用现有的医学知识构建极具专业特色的特征,虽然不能说这些特征的效果有多好,但是这里可视化效果令人惊叹。

树叶分类

竞赛中提供的数据集包括个按品种分类的被标记的树叶图像,参赛者需要建立一个对标记之外树叶图像分类的模型。

我选择用于分析的EDA是lorinc的FaturExtractionFromImags,slfishgn的VisualizingPCAwithLafDatast以及JosAlbrto的FastImagExploration。

第一步最好先仔细瞧一瞧树叶的图像。

slfishgn检查树叶标本

Jos绘制出各个种类的树叶,并指出每个种类有10张图片。他还观察了同类树叶间的相似性。

lorinc直接跳入分析阶段,定位每片叶子的中心并应用边缘检测技术,他还将叶子的轮廓转换为极坐标,以便更有效地测量叶子的中心:

之后,当我们使用边与中心之间的距离从形状生成时间序列时,我们可能想要转换到另一种中心性度量——根据该中心的有效性。一种方法是测量中心和边缘之间的(欧几里德)距离......但是有一个更好的方法——我们将笛卡尔坐标投影到极坐标中。

slfishgn选择看图像的方差方向:

在高维图像空间中,每个图像都可以被看成是不同的「方向」。

Slfishgn看到的树叶图像的方差

slfishgn也花费了一些时间来研究图像重建、平均图像周围的模型变化以及特征向量,他解释道:

最上面一行包含每个特征向量的数据分布(沿着「方向」的直方图),第二行包含了我们在前面的图中已经看到的方差方向,第四行包含了树叶的中值图像,值得注意的是,这一行对于所有的特征向量是相同的。

slfishgn看到的模型变形

特征检测

lorinc建议将每个样例分成两部分,并将它们作为两个样例处理(尽管他不采用这种方法)。lorinc从时间序列中找到局部最大值和最小值(例如,绘制在极坐标中的树叶)并记录道:

我很惊讶于这个方法表现得相当不错。我认为我可以从中构建出一个非常有效的特征。但是这种方法的鲁棒性不是很好:

对于树叶#19,它没有找到树叶的末端,只找到了与中心距离最远的点。对于树叶#78,可以看到在更复杂或有旋转的叶片上效果很差。

lorinc绘制在极坐标中所测叶子的最小值和最大值

在发现每片树叶周围存在噪音之后,lorinc谈到数学形态学。他花了一些时间弄清楚如何去除图像中的噪点,并用可爱的图像来显示叠加在树叶上的距离图:

lrinc测量距离叶子中心的距离

肺癌

我选择的EDA是GuidoZuidhof的FullPrprocssingTutorial,MiklBobr-Irizar的ExploratoryDataAnalysis和AlxandruPapiu的ExploratoryAnalysisVisualization。

anokas检查单个图像的元数据,可以看到病人出生日期被隐匿()

年的DataScincBowl比赛要求参赛者通过检测一组图像来预测患者是否患有癌症。虽然在这一竞赛中确实有结构化数据(自动嵌入图像中的标签信息),但其中一些数据是匿名的,也就是说,那些原本具有预测价值的特征(比如患者的年龄)用不了。这意味着所有的krnl只专注于图像分析。

在三个krnl作者中,Guido是唯一一个结合医学图像来讨论的人,这点在他对数据集的分析中可以看出来:

Di







































北京中科白癜风医院医生
得白癜风的原因



转载请注明:http://www.92nongye.com/zyjs/204620327.html