今天我们来讲一讲数据可视化的历史。
不要以为数据可视化听起来很潮,可视化其实是一个非常古老的东西。从欧洲中世纪开始,人们就使用包含等值线的地图、表示海上风向的箭头图等。
可视化发展的历史与测量、绘画、人类现代文明的启蒙和科技的发展是一脉相承滴。在地图、科学制图、工程制图、统计图表中,可视化理念与技术已经应用和发展了数百年。[陈为,]
Prof.MinChen,CSOxford,VisualAnalytics-Lecture1
以上这张史诗级的图片取自我在牛津的时候,教授在可视化分析课的第一课的课件。我们可以看到,人类与可视化,已经是千年之恋。今天我们就一起来看一看可视化这门科学的历史演变。
“创刊号”
那么我们正式开始考古。首先让我们来看这张图,也是史诗幻灯片中的第一张图。这张图来头不小,据说是人类有据可考的第一个可视化作品。这是公元10世纪一位不愿意透露姓名的(不知道叫什么的)天文学家绘制的,人类文献中最古老的线形图。它被用来描绘行星轨道随时间变化的趋势。更多的线形图在17世纪才被发现。[Friendly,]
17世纪之前:图表萌芽
16世纪时,人类就已经掌握了精确的观测技术和设备,也采用手工的方式制作可视化作品。说是可视化作品,其实有的也就更像是一些洞穴壁画一样的东西记录了部落的地形之类的,比如说下面这种:
啊对不起。。。
是下面这种:
这是公元前年的人类地图。
还有一些呢,比如说人类历史上第一幅城市交通图,呈现了罗马城的交通状况:
-年:物理测量
17世纪最重要的科学进展是对物理基本量(也就是时间、距离和空间)的测量设备与理论的完善,它们被广泛用于航空、测绘、制图、浏览和国土勘探等。同时,制图学理论与实践也随着分析几何、测量误差、概率论、人口统计和政治版图的发展而迅速成长。17世纪末,甚至产生了基于真实测量数据的可视化方法。从这时起,人类开始了可视化思考的新模式。[陈为,]
上图是诞生于年表达太阳黑子随时间变化的图。在一个视图上同时可视化多个小图序列,是现代可视化技术中称为邮票图表法(smallmultiples)的雏形。
这是年绘制的历史上第一幅天气图,显示了地球的主流风场分布。这也是向量场可视化的鼻祖。
-年:图形符号
进入18世纪,绘图师不再满足于在地图上展现几何信息,发明了新的图形化形式,比如等值线、轮廓线,以及其他物理信息的概念图,比如地理、经济、医学。随着统计理论、实验数据分析的发展,抽象图和函数图被广泛发明。
上图左图是年地球等磁线可视化。我们可以看到其中已经运用了等值线。即同一条线上某项数值是相同的,我们通过线与线之间的距离和疏密程度,可以在总体上感知一个分布情况。
右图是年Lambert完成的三维金字塔颜色体统的可视化。
上图是年JosephPriestley发明的时间线图。采用了单个线段表现某个人的一生,同时比较了公元前年到公元年间个著名人物的生平。更重要的是,这幅作品直接激发了柱状图的诞生。
18世纪是统计图形学的繁荣时期,其奠基人WilliamPlayfair发明了折线图、柱状图、显示局部与整体关系的饼状图和圆图等今天最常用的统计图表。
比如这就是WilliamPlayfair老爷子的一个作品,这是丹麦和挪威-年间的贸易进出口序列图。
这张柱状图描述的是年苏格兰与17个国家之间的进出口情况。这副柱状图是第一个既不固定空间(比如坐标或表格)也不固定时间(比如之前提到的Priestley时间线)的数量上的图形化形式。它建立了一个“离散数量比较”问题的纯粹的解决方案。
左边是WilliamPlayfair在年制作的世界上第一幅饼图,显示了年土耳其帝国在亚欧非的疆土比例。
右图是德国物理学家Lambert用于表达水的蒸发和时间之间的关系的线图可视化。
-年:数据图形
随着工艺设计的完善,19世纪上半叶,统计图形、概念图等迅猛爆发,此时人们已经掌握了整套统计数据可视化工具,包括柱状图、饼图、直方图、折线图、时间线、轮廓线等。采用统计图表来辅助思考的诞生同时衍生了可视化思考的新方式:图表用于表达数学证明和函数;列线图用于辅助计算;各类可视化显示用于表达数据的趋势和分布,便于交流、获取和可视化观察。
上图的左图是年人类历史上第一幅流图,用可变宽度的线段显示了交通运输的轨迹和乘客数量。
右图是年的现代天气图,采用图标展现了各地的气压变化。这幅图直接导致人类发现了低压区域中风场的反气旋移动。
19世纪下半叶,系统地构建可视化方法的条件日渐成熟,进入了统计图形学的黄金时期。值得一提的是法国人CharlesJosephMinard,他是将可视化应用于工程和统计的先驱者。其最著名的工作室年发布的描绘-年拿破仑进军莫斯科大败而归的历史事件的流图,这幅图如实地呈现了军队的位置和行军方向、军队汇聚、分散和重聚的地点与时间、军队减员的过程、撤退时低温造成的减员等信息。就是下面这张图。
-年:现代启蒙
20世纪上半叶对于可视化而言是一个缺乏创新的时期,但是可视化随着统计图形的主流化开始面向政府、商业和科学走向应用普及,人们第一次意识到图形显示的方式能为航空、物理、天文和生物等科学与工程领域提供新的洞察和发现机会。多维数据可视化和心理学的介入称为这个时期的重要特点。[陈为,]
上图是年关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性。
而这张图是年HenryBeck设计的伦敦地铁图称为地铁路线的标准可视化方法,沿用至今。今天我们看到的北京或上海地铁线路图也是沿用这种设计。
-年:多维信息的可是编码
年,法国人JacquesBertin出版了SemiologyofGraphics《图形符号学》一书[Bertin,],确定了构成图形的基本要素,并且描述了一种关于图形设计的框架。这本书现在在国内基本买不到,我在牛津的时候觅了一本。
相当厚重的一本书,内容很有趣,有机会的话我选取一些在这里聊一聊。这本书中的理论奠定了信息可视化的理论基石。比如下面这两张图。
上图左侧是针对点、线和区域数据采用不同视觉通道的图形符号表示方案,而右侧就是视觉通道的示意图。在将来的推文中我会重点提到视觉通道的重要概念。
随着个人计算机的普及,人们逐渐开始采用计算机编程生成可视化。比如最早的年发明的圆形图标,采用线段及其朝向编码多维数据。
-年:多维统计图形
20世纪70年代以后,桌面操作系统、计算机图形学、图形显示设备、人机交互等技术的发展激发了人们编程实现交互式可视化的热情。处理范围从简单的统计数据扩展为更复杂的网络、层次、数据库、文本等非结构化与高位数据。与此同时,高性能计算、并行计算的理论与产品正处于研制阶段,催生了面向科学与工程的大规模计算方法。数据密集型计算开始走上历史舞台,也造就了对数据分析和呈现的更高需求。
年,美国著名统计学家JohnTukey发表了“探索式数据分析”的基本框架,它的重点并不是可视化的效果,而是将可视化引入统计分析,促进对数据的深入理解。年,EdwardTufte出版了TheVisualDisplayofQuantitativeInformation一书[Tufte,],构建了关于信息的二维图形显示理论,强调有用信息密度的最大化问题。这些理论会同JacquesBertin的图形符号学,逐渐推动信息可视化发展成一门学科[Cleveland][Cleveland]。
左图是年统计图形学家发明的增强散点图表达(三条移动统计均线);右图是JohnHartigan发明的散点图矩阵。
上图是年发明的表达高维数据的平行坐标。
这是年发明的表达多变量数据的星形图。
以上这些都是这个阶段具有里程碑意义的信息可视化方法。
-年:交互可视化
这一阶段是可视化蓬勃发展的时期,年美国召开的“图形学、图像处理及工作站专题讨论”研讨会正式命名了“科学计算中的可视化”(VisualizationinScientificComputing,ViSC)。
年,美国首次召开有关科学可视化的会议,并正式命名并定义了“科学可视化”(scientificvisualizaiton),认可了可视化的巨大潜力。同年,在图形学顶会ACMSIGGRAPH上,来自GE公司的WilliamLorensen和HarveyCline发表了“移动立方体法”(MarchingCubes)一文,开创了科学可视化的热潮。
年,国际期刊Computer发表了一期关于科学计算中可视化研究的专刊。同年,美国国家医学图书馆利用计算机断层扫描(CT)和核磁共振图像(MRI)技术,实施可视化人体计划,扫描了一男一女两具尸体,得到共56GB的数据集。这两套数据集极大地促进了三维医学可视化的发展,今天的我们仍在受用。
年,IEEE举办了首届IEEEVisualizationConference,汇集了一个由物理、化学、生物医学、图像处理等交叉学科领域研究人员组成的学术群体。年更名为IEEEConferenceonScientificVisualization。
同时,针对抽象信息的视觉表达手段仍在创新。上图是年BenShneideman教授发明的树图,用级联嵌套的平面化树状结构表达层次结构。
数字化的非几何的抽象数据如金融交易、社交网络、文本数据等大量涌现,促生了多维、时变、非结构化信息的可视化需求。上图是年美国施乐公司研究人员发明的表格透镜技术。它允许人们以凸透镜的方式来获得对大尺度表格焦点和上下文的体验。
20世纪80年代末,实创系统的问世使得人们能够直接和信息进行交互。年,著名统计图形学学者WilliamCleverland在其著作DynamicGraphicforStatistics中详细总结了面向多变量统计数据的动态可视化手段。
年,Card、Mackinaly和Robertson等人采用“informationvisualization”(信息可视化)命名这个学科,其研究思想和范畴是对统计图形学的升华。年开始,出现了单独面向信息可视化的会议——IEEEInformationVisualization,于年更名为IEEEConferenceonInformationVisualization。[陈为,]
自此,科学可视化和信息可视化的门派形成了。
年至今:可视分析学
进入21世纪,随着大数据时代到来,现有的可视化技术已经难以应对海量、高维、多源和动态数据的分析挑战,需要综合可视化、图形学、数据挖掘理论与方法,研究新的理论模型、新的可视化方法和新的用户交互手段,辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息,以便做出有效决策。这门新兴的学科称为可视分析学。
比如上图是由美国马萨诸塞大学洛威尔分校的InstituteforVisualizationandPerceptionResearch和OpenIndicatorsConsortium组织开发的开源软件Weaver。图中展示了联合国千年发展计划的部分数据。左上区域采用不同颜色显示国家的就业率,右上区域则采用散点图表示就业率和妇女参与率等二维属性;而下图显示了HIV和就业率统计直方图。[陈为,]
传说中神秘的由硅谷创业教父彼得蒂尔(国内超级畅销书《从0到1》的作者)支持的公司Palantir也在从事相关的工作。它允许用户连接多个网络数据库,交互地分析数据,建立人、事件、地点之间的联系,解决复杂问题,发现隐藏规律。
年,IEEE开设了可视化分析相关的专业会议,于年更名为IEEEConferenceonVisualAnalyticsScienceandTechnology。
自此,可视化分析会议IEEEVisualAnalyticsScienceandTechnology(VAST),信息可视化会议IEEEInformationVisualization(InfoVis),科学可视化会议IEEEScientificVisualization(SciVis)皆已成立,形成三足鼎立之势,数据可视化三大类型完备。
啊!多磨波澜壮阔的一部可视化发展史!
今天,可视化在国际上仍然是尚在形成和需要发展的前沿科学问题,我在牛津研修这门学科时,教授尚且找不出一本能够涵盖各方面知识的系统性的教材。而国内的发展水平更是与国际尚有距离。令人欣慰的是,近年来相关的讨论和材料越来越多。
比如需要特别注明的是:本文中大量内容编纂自浙江大学陈为教授与沈则潜博士、陶煜波博士等编著的《数据可视化》一书。此书非常系统全面地介绍了数据可视化的相关知识。
我在之后的博客内容中还会继续引用这本大作中的内容。
书中陈为教授指出:“从20世纪90年代开始,我国的各大可见单位和科研人员已经在可视化领域投入了极大地精力,为应用领域认识和使用可视化奠定了坚实的基础。尽管如此,先进的可视化分析软件和算法在国内尚未得到普遍的理解。应注意我国的数据采集、分析与应用应当通过自主研发,不能任由国外垄断公司来采集和处理,否则将危及国民生活与国防安全。我国急需对可视化分析的基础理论和方法展开研究,对涉及国家大工程、国家安全、国民经济等重要领域数据的可视分析研究应自主进行。”
要实现这一目标,第一步就需要普及可视化知识和概念,让更多人了解可视化、古代白癜风偏方治疗白癜风用什么药最好