数据分析秘籍在这里Kaggle六大比赛

AI研习社按，在数据分析秘籍在这里：Kaggl六大比赛最全面解析（上）一文中，AI研习社介绍了结构化数据和NLP数据的处理方式，其中包括对Titanic，房价预测，恶意评论分类，恐怖小说家身份识别四个比赛的详细分析。

本文将介绍图像类比赛的数据处理经验，以树叶分类竞赛（LafClassification）和肺癌检测比赛（DataScincBowl）为例。

正文如下，雷锋网AI研习社编译整理：

图像

到目前为止，我介绍的都是文本（语言、字符串或数字）数据集，最后我将带来两个图像数据集的分析。

我选的这两个比赛（肺癌检测和树叶分类）比我看过的其他比赛更具专业特色，这里的分析不再是基本分析，着重于探索不同技术，因此适用于更高阶的读者。

在可视化技术以及特征构建方面，我看到了很多变化。特别是肺癌比赛中，一些作者利用现有的医学知识构建极具专业特色的特征，虽然不能说这些特征的效果有多好，但是这里可视化效果令人惊叹。

树叶分类

竞赛中提供的数据集包括个按品种分类的被标记的树叶图像，参赛者需要建立一个对标记之外树叶图像分类的模型。

我选择用于分析的EDA是lorinc的FaturExtractionFromImags，slfishgn的VisualizingPCAwithLafDatast以及JosAlbrto的FastImagExploration。

第一步最好先仔细瞧一瞧树叶的图像。

slfishgn检查树叶标本

Jos绘制出各个种类的树叶，并指出每个种类有10张图片。他还观察了同类树叶间的相似性。

lorinc直接跳入分析阶段，定位每片叶子的中心并应用边缘检测技术，他还将叶子的轮廓转换为极坐标，以便更有效地测量叶子的中心：

之后，当我们使用边与中心之间的距离从形状生成时间序列时，我们可能想要转换到另一种中心性度量——根据该中心的有效性。一种方法是测量中心和边缘之间的（欧几里德）距离......但是有一个更好的方法——我们将笛卡尔坐标投影到极坐标中。

slfishgn选择看图像的方差方向：

在高维图像空间中，每个图像都可以被看成是不同的「方向」。

Slfishgn看到的树叶图像的方差

slfishgn也花费了一些时间来研究图像重建、平均图像周围的模型变化以及特征向量，他解释道：

最上面一行包含每个特征向量的数据分布（沿着「方向」的直方图），第二行包含了我们在前面的图中已经看到的方差方向，第四行包含了树叶的中值图像，值得注意的是，这一行对于所有的特征向量是相同的。

slfishgn看到的模型变形

特征检测

lorinc建议将每个样例分成两部分，并将它们作为两个样例处理（尽管他不采用这种方法）。lorinc从时间序列中找到局部最大值和最小值（例如，绘制在极坐标中的树叶）并记录道：

我很惊讶于这个方法表现得相当不错。我认为我可以从中构建出一个非常有效的特征。但是这种方法的鲁棒性不是很好：

对于树叶＃19，它没有找到树叶的末端，只找到了与中心距离最远的点。对于树叶＃78，可以看到在更复杂或有旋转的叶片上效果很差。

lorinc绘制在极坐标中所测叶子的最小值和最大值

在发现每片树叶周围存在噪音之后，lorinc谈到数学形态学。他花了一些时间弄清楚如何去除图像中的噪点，并用可爱的图像来显示叠加在树叶上的距离图：

lrinc测量距离叶子中心的距离

肺癌

我选择的EDA是GuidoZuidhof的FullPrprocssingTutorial，MiklBobr-Irizar的ExploratoryDataAnalysis和AlxandruPapiu的ExploratoryAnalysisVisualization。

anokas检查单个图像的元数据，可以看到病人出生日期被隐匿（）

年的DataScincBowl比赛要求参赛者通过检测一组图像来预测患者是否患有癌症。虽然在这一竞赛中确实有结构化数据（自动嵌入图像中的标签信息），但其中一些数据是匿名的，也就是说，那些原本具有预测价值的特征（比如患者的年龄）用不了。这意味着所有的krnl只专注于图像分析。

在三个krnl作者中，Guido是唯一一个结合医学图像来讨论的人，这点在他对数据集的分析中可以看出来：