数据探索综合指南

作者:SUNILRAY时间:JANUARY10,翻译:Jason.YETalkingData前述

如果你还有机器学习能够帮助你轻易解决数据问题的想法,那我将泼你冷水了。

也许你经过多次的试练后才会意识到:提高模型精度的真正挑战并不在于机器学习算法,而是在于数据探索的技术。

我能够如此确信地说,因为我也经历过了这样的想法转换。

内容目录

数据探索的步骤和准备

缺失值处理

为什么需要进行缺失值处理

数据为什么会有所缺失

缺失值处理有什么方法

离群点的判断和处理技术

什么是离群点

离群点都有什么类别

造成离群点有什么原因

离群点对数据集有什么影响

怎么检测离群点

怎么移除离群点

特征工程的艺术

什么是特征工程

特征工程的处理流程

什么是变量转换

我们什么时候应该使用变量转换

变量转换的常用技术

特征变量创造及其优势

让我们开启学习.

1.数据探索的步骤和准备

牢记输入的质量决定了输出的质量。

所以,如果你已经假设好了你的业务假设,在数据探索这一步就需要花费大量的时间和精力。

根据我个人经验估计,这部分的时间占整个工程项目约70%的时间。

遵循以下的流程能够帮助你如何为你预测的模型理解、处理和准备数据。

数据识别

单变量分析

联合变量分析

缺失值处理

离群点处理

变量转变

变量创造

在第四到第七步会需要多次反复进行才能生产出预定义的模型。

数据识别

F首先,要明确特征(输入)和目标(输出)变量。其次,明确数据类型和数值类型。

让我们用一个例子来详细说明初始步骤。

例子一:假设我们需要预测学生会不会打篮球(根据以下数据集)。这里你就需要明确目标变量、数据类型和变量种类。

以下,变量被定义到不同的类别中:

单变量分析

在这一个阶段,我们将会一个一个变量分析探索。进行单变量分析的方法将取决于变量类型是分类型还是连续性数值。那么这两种类型的变量都有什么方法和统计衡量来处理:

连续型变量:连续型的变量中,我们需要知道该变量的中心趋势和分布。这些可以用下面的可视化方式展示:

分类变量:对于分类变量来说,我们会使用频度表来识别分类变量的分布,或者用百分比的形式查看每一变量的分布。也就是说有这样两种方式,总量或者百分比%。这个时候适合用条形图来展示数据。

联合变量分析

B多变量分析是分析两个变量之间的相关关系.这里,我们会根据事先定义的重要程度寻找变量间的联系与区别。我们能够结合任意分类型或者连续性进行多变量分析。在分析过程中,将使用不同的方法来处理这些不同组分析。这种结合能够是:

分类型分类型

分类型连续型

连续型连续型

连续型连续型:在对两个连续性变量进行联合变量分析时,我们应该看散点图.这是发现两个连续型变量之间关系非常漂亮的一种方式。散点图的模式指示出了变量间的关系。这种关系可能是线性或者非线性的

散点图能够展示两者之间的关系却不能够表示之间的关系强度.为了得到两者之间的关系强度,我们使用相关系数。

相关系数的值在-1与+1之间。

-1:表示两者呈现完美的负线性相关关系

+1:表示两者呈现完美的正线性相关关系

0:表示没有关系

相关系数的公式:

Correlation=Covariance(X,Y)/SQRT(Var(X)*Var(Y))

有非常多的工具有函数或者能力去识别变量之间的相关系数。在Excel里,CORREL()函数用于返回两个变量之间的相关系数。SAS是用PROCCORR程序来确定相关系数。这些函数返回了PearsonCorrelation值:

在上述的表格中,我们得到了X变量与Y变量之间有满好的正相关系数(0.65)。

分类型分类型变量联合分析:为了得到分类与分类型变量之间的相关关系,我们可以用以下的方法:

列联表:我们能够使用联合表来分析两个分类型变量的关系:count和count%。行代表了每种单变量的分类,纵列代表了其他种类的变量。这样就获取了每一种类.

堆叠柱状图:这是源自列联表的可视化展示方式。

C卡方检验:这种检验能够获取两种变量的统计关系。同时,它也能够测试样本有没有足够强的关系去推导大规模数据下的分布。卡方检验是基于在一个或者多个的联合表中理论和现实数据分布的不同上分析。它返回了计算卡方检验时候的自由度。

概率为0:这表示两个分类变量之间时相互依赖的。概率为1:这表示两个分类变量之间相互独立。概率小于0.05:这表示变量之间的相关性有95%的置信度

卡方检验统计基于一下的公式:

其中O代表观测到的频数.E是假设期待下的理论频数,由以下公式计算:

分类型连续型:当探索分类型和连续型变量之间的关系时,我们能够画出Boxplots来描述每一层分类变量。如果层数数量较少,将无法显示统计关系。为了得到统计关系,我们可以使用Z-test,T-test或者ANOVA.

Z-Test/T-Test:-这两种方法都通过两组信息的平均值计算得出信息。

Z值越小表示两者之间关系越密切。T-test非常接近于Z-test,但只适合应用于分类数量少于30种的情况。

ANOVA

至此,我们明白了DataExploration的头三步,变量识别,单变量分析和联合变量分析。我们也接触了多种统计学方法和可视化技术来处理这三步。

现在,让我们更多地







































中科白癜风黄金周公益援助
口碑好的白癜风医院



转载请注明:http://www.92nongye.com/xxnr/xxnr/204619063.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了