年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪。
刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。书本上的内容变成了网络上的数字文本,所以任何地方的任何人都可以方便地进行查阅了。然而,这还是需要用户要么知道自己要找的内容在哪本书上,要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。谷歌所拥有的只是一些图像,这些图像只有依靠人的阅读才能转化为有用的信息。
谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。而“数据化”就是指一种把现象转变为可制表分析的量化形式的过程。
现实世界中的各种现象经过数字化后,成为数据沉淀到赛博空间中,而进一步经过数据化后,成为可以方便计算机分析的模式化数据(Patterneddata)。模式化后的数据可以有多种多样的形式:
数据的多媒体类型:文本、图形、图像、音频、视频、……
数据的文件类型:doc、pdf、ppt、txt、……
数据的结构化类型:结构化、半结构化、非结构化
数据的程序表达类型:数值、字符、文本、向量、树、表、集合、关系、图、有限自动机、正则表达式、……
其中,最后一种分类类型最为重要。因为在计算领域,我们将现实世界中的事实或信息用编程语言提供的符号化手段进行表示,这种符号化表示就称为数据,它是数据进行计算机处理的必经途径,而在这个过程中最重要就是数据模型(Datamodel)。数据模型又可以从不同的层次去看:程序语言中的数据模型、系统软件中的数据模型、集成电路中的数据模型等。本章重点讲解程序语言中的数据模型,它是数据思维和问题求解核心之一,另一个则是我们下节课要讲的算法。
预览时标签不可点收录于话题#个上一篇下一篇