从1维到6维,一文读懂多维数据可视化策略

选自towardsdatascinc

作者:DipanjanSarkar

机器之心编译

参与:JanW、乾树、黄小天

数据聚合、汇总和可视化是支撑数据分析领域的三大支柱。长久以来,数据可视化都是一个强有力的工具,被业界广泛使用,却受限于2维。在本文中,作者将探索一些有效的多维数据可视化策略(范围从1维到6维)。

介绍

描述性分析(dscriptivanalytics)是任何分析生命周期的数据科学项目或特定研究的核心组成部分之一。数据聚合(aggrgation)、汇总(summarization)和可视化(visualization)是支撑数据分析领域的主要支柱。从传统商业智能(BusinssIntllignc)开始,甚至到如今人工智能时代,数据可视化都是一个强有力的工具;由于其能有效抽取正确的信息,同时清楚容易地理解和解释结果,可视化被业界组织广泛使用。然而,处理多维数据集(通常具有2个以上属性)开始引起问题,因为我们的数据分析和通信的媒介通常限于2个维度。在本文中,我们将探索一些有效的多维数据可视化策略(范围从1维到6维)。

动机

「一图胜千言」

这是一句我们熟悉的非常流行的英语习语,可以充当将数据可视化作为分析的有效工具的灵感和动力。永远记住:「有效的数据可视化既是一门艺术,也是一门科学。」在开始之前,我还要提及下面一句非常相关的引言,它强调了数据可视化的必要性。

「一张图片的最大价值在于,它迫使我们注意到我们从未期望看到的东西。」

——JohnTuky

快速回顾可视化

本文假设一般读者知道用于绘图和可视化数据的基本图表类型,因此这里不再赘述,但在本文随后的实践中,我们将会涉及大部分图表类型。著名的可视化先驱和统计学家EdwardTuft说过,数据可视化应该在数据的基础上,以清晰、精确和高效的方式传达数据模式和洞察信息。

结构化数据通常包括由行和特征表征的数据观测值或由列表征的数据属性。每列也可以被称为数据集的某特定维度。最常见的数据类型包括连续型数值数据和离散型分类数据。因此,任何数据可视化将基本上以散点图、直方图、箱线图等简单易懂的形式描述一个或多个数据属性。本文将涵盖单变量(1维)和多变量(多维)数据可视化策略。这里将使用Python机器学习生态系统,我们建议先检查用于数据分析和可视化的框架,包括pandas、matplotlib、saborn、plotly和bokh。除此之外,如果你有兴趣用数据制作精美而有意义的可视化文件,那么了解D3.js(







































白癜风介绍
北京市中科医院好不好



转载请注明:http://www.92nongye.com/zyjs/204620335.html