所在的位置：数据结构 >> 学习内容 >> 数据探索综合指南

数据探索综合指南

作者:SUNILRAY时间:JANUARY10,翻译：Jason.YETalkingData前述

如果你还有机器学习能够帮助你轻易解决数据问题的想法，那我将泼你冷水了。

也许你经过多次的试练后才会意识到：提高模型精度的真正挑战并不在于机器学习算法，而是在于数据探索的技术。

我能够如此确信地说，因为我也经历过了这样的想法转换。

内容目录

数据探索的步骤和准备

缺失值处理

为什么需要进行缺失值处理

数据为什么会有所缺失

缺失值处理有什么方法

离群点的判断和处理技术

什么是离群点

离群点都有什么类别

造成离群点有什么原因

离群点对数据集有什么影响

怎么检测离群点

怎么移除离群点

特征工程的艺术

什么是特征工程

特征工程的处理流程

什么是变量转换

我们什么时候应该使用变量转换

变量转换的常用技术

特征变量创造及其优势

让我们开启学习.

1.数据探索的步骤和准备

牢记输入的质量决定了输出的质量。

所以，如果你已经假设好了你的业务假设，在数据探索这一步就需要花费大量的时间和精力。

根据我个人经验估计，这部分的时间占整个工程项目约70%的时间。

遵循以下的流程能够帮助你如何为你预测的模型理解、处理和准备数据。

数据识别

单变量分析

联合变量分析

缺失值处理

离群点处理

变量转变

变量创造

在第四到第七步会需要多次反复进行才能生产出预定义的模型。

数据识别

F首先，要明确特征（输入）和目标（输出）变量。其次，明确数据类型和数值类型。

让我们用一个例子来详细说明初始步骤。

例子一：假设我们需要预测学生会不会打篮球（根据以下数据集）。这里你就需要明确目标变量、数据类型和变量种类。

以下，变量被定义到不同的类别中:

单变量分析

在这一个阶段，我们将会一个一个变量分析探索。进行单变量分析的方法将取决于变量类型是分类型还是连续性数值。那么这两种类型的变量都有什么方法和统计衡量来处理:

连续型变量：连续型的变量中，我们需要知道该变量的中心趋势和分布。这些可以用下面的可视化方式展示：

分类变量:对于分类变量来说，我们会使用频度表来识别分类变量的分布，或者用百分比的形式查看每一变量的分布。也就是说有这样两种方式,总量或者百分比％。这个时候适合用条形图来展示数据。

联合变量分析

B多变量分析是分析两个变量之间的相关关系.这里,我们会根据事先定义的重要程度寻找变量间的联系与区别。我们能够结合任意分类型或者连续性进行多变量分析。在分析过程中，将使用不同的方法来处理这些不同组分析。这种结合能够是:

分类型分类型

分类型连续型

连续型连续型

连续型连续型:在对两个连续性变量进行联合变量分析时,我们应该看散点图.这是发现两个连续型变量之间关系非常漂亮的一种方式。散点图的模式指示出了变量间的关系。这种关系可能是线性或者非线性的

散点图能够展示两者之间的关系却不能够表示之间的关系强度.为了得到两者之间的关系强度,我们使用相关系数。

相关系数的值在－1与＋1之间。

-1:表示两者呈现完美的负线性相关关系

+1:表示两者呈现完美的正线性相关关系

0:表示没有关系