1、引言
中国大数据技术大会(BDTC)于年12月10日在北京召开,会上中国计算机学会(CCF)大数据专家委员会(taskforceonbigdata,TFBD,以下简称大专委)发布了中国大数据技术与产业发展报告(),并对年大数据发展趋势进行了展望。
自年10月CCF大专委成立,在每年12月的大数据技术大会上都会发布对第二年大数据发展趋势的预测。从预测年到预测年,现在已经是第4次年度预测。每次预测都是基于对大专委专家委员观点的收集整理、投票、汇总、解读,最终形成年度预测,此预测是大专委群体智慧的结晶。在年和年的两次预测中,还邀请了中关村大数据产业联盟的联盟成员参加了投票和汇总,也部分反映了产业联盟的趋势判断。
年底做出的年预测,参加投票的大专委专家和产业联盟成员是位。根据这位专家投票结果,汇总形成了对年大数据发展十大趋势的预测,下面对这十大发展趋势进行详细介绍。
2、年大数据发展十大趋势
2.1趋势一:可视化推动大数据平民化
“可视化”虽然已是连续第三次入选大数据发展十大趋势,但今年能占据第一位,实在是意料之外的意料之中。
这几年,大数据这一概念迅速深入大众人心,大众直接看到的大数据更多是以可视化的方式体现。可视化实际上已经极大拉近了大数据和普通民众的距离,即使对IT技术不了解的普通民众和非技术专业的常规决策者也能够更好地理解大数据及其分析的效果和价值,从而可以从国计、民生两方面都充分发挥大数据的价值。
可视化是通过把复杂的数据转化为可以交互的图形,帮助用户更好地理解分析数据对象,发现、洞察其内在规律。数据是人类对于客观事物的抽象。人类对于数据的理解和掌握是需要经过学习训练才能达到的。理解更为复杂的数据,必须要越过更高的认知壁垒,才能对客观数据对象建立相应的心理图像,完成认知理解过程。好的可视化就能够极大地降低这个认知壁垒,将复杂未知数据的交互探索变得可行。
可视化技术的进步和广泛应用对大数据走向平民来说,意义是双向的。一方面,可视化作为人和数据之间的界面,结合其他数据分析处理技术,为广大使用者提供了强大的理解、分析数据的能力。可视化使得大数据能够被更多人理解、使用。可视化使得大数据的使用者从少数专家扩展到更广泛的大众。另一方面,可视化也为大众提供了方便的工具,可以主动分析处理与个人工作、生活、环境有关的数据。大约在10年前,可视化研究界已经开始讨论为大众服务的可视化。在今天的大数据背景下,可视化将进一步推动大数据平民化。在这一过程中,急需更方便且适合大众使用需要的可视化方法和工具。可视化也将进一步和个人使用的移动通信设备(手机)结合。在这一过程中,将有更多面向大众的大数据可视化公司涌现出来。
建议在大数据相关的研究、开发和应用中,保持相应的比例用于可视化和可视分析。尤其建议利用产业生态中的已有成果。
2.2趋势二:多学科融合与数据科学的兴起
很多与数据相关的专门实验室、专项研究院所相继出现,《数据学》等专门著作也纷纷出版,大家认为数据科学的雏形已经出现。
如图1所示,大数据并不是简单的“大的数据”。在近年对大数据的阐述中,至少有两种典型的对应提法:一种是点出“小数据”的重要性;另一种是去掉“大”字而强调“数据”本身,强调数据科学、数据技术、数据治理、数据产业等。
图1大数据与小数据
大数据技术是多学科多技术领域的融合,数学和统计学、计算机类技术、管理类等都有涉及,大数据应用更是与多领域产生交叉。这种多学科之间的交叉融合,呼唤并催生了专门的基础性学科——数据学科。基础性学科的夯实,将让学科的交叉融合更趋完美。
在大数据领域,许多相关学科从表面上看,研究的方向大不相同,但是从数据的视角看,其实是相通的。随着社会的数字化程度逐步加深,越来越多的学科在数据层面趋于一致,可以采用相似的思想进行统一研究。从事大数据研究的人不仅仅是计算机领域的科学家,也包括数学等方面的科学家。
大专委希望业界对于大数据的边界采取一个更宽泛、更包容的姿态,包容所谓的“小数据”,甚至将领域的边界泛化到“数据科学”所对应的整个数据领域和数据产业。
建议共同支持“数据科学”的基础研究,并努力将基础研究的成果导入技术研究和应用的范畴中。
2.3趋势三:大数据安全与隐私令人忧虑
安全和隐私每次调研都会出现在十大趋势中,这表示大家对于大数据所带来问题的深刻忧虑,这样的忧虑至少包括以下3个方面。
第一,大数据所受到的威胁也就是常说的安全问题。这里并不是指利用大数据进行安全分析的“安全大数据”应用,而是指当大数据技术、系统和应用聚集了大量价值的时候,必将成为被攻击的目标。虽然,现在影响巨大的针对大数据的攻击还没有出现,但是可以预见这样的攻击必将发生。
第二,大数据的过度滥用所带来的问题和副作用,比较典型的就是个人隐私泄露。在传统采集分析模式下,很多可以保护的隐私在大数据分析能力下变成了裸奔。类似的问题还包括大数据分析能力带来的商业秘密泄露和国家机密泄露。
第三,心智和意识上的安全问题。这包括两个极端:一个极端是忽视安全问题的盲目乐观;另一个极端是过度担忧所带来的对于大数据应用发展的掣肘。比如,大数据分析对于隐私保护的副作用,促使大家必须对于隐私保护的接受程度有一个新的认识和调整。
对大数据的威胁、大数据的副作用、对大数据的极端心智都会阻碍和破坏大数据的发展。
如图2所示,大数据技术分别作用在业务、威胁、保障措施3个要素之上,带来保护大数据、对抗大数据级威胁、大数据用于安全3方面的安全发展空间。
图2大数据技术作用于业务、威胁、保障措施之上
建议在大数据相关的研究和开发中,必须保持一个基础的比例用于相对应的安全研究,而让安全方面产生实质性进步的驱动力可能是对于大数据的攻击和滥用的“负面”研究。
2.4趋势四:新热点融入大数据多样化处理模式
大数据的处理模式更加多样化,Hadoop不再成为构建大数据平台的必然选择。在应用模式上,大数据处理模式持续丰富,批量处理、流式计算、交互式计算等技术面向不同的需求场景,将持续丰富和发展;在实现技术上,内存计算将继续成为提高大数据处理性能的主要手段,相对传统的硬盘处理方式,在性能上有了显著提升。特别是开源项目Spark,目前已经被大规模应用于实际业务环境中,并发展成为大数据领域最大的开源社区。Spark拥有流计算、交互查询、机器学习、图计算等多种计算框架,支持Java、Scala、Python、R等语言接口,使得数据使用效率大大提高,吸引了众多开发者和应用厂商的治疗白癜风的费用北京中科皮肤病医院