大数据架构和技术链分析一

一、大数据概述

当下,互联网+、云计算、大数据、O2O、可穿戴智能设备……一个个热词扑面而来。信息技术的变革已经渗透到当今每一个行业和业务职能领域,改变着我们的生活乃至思维方式。

乱花渐欲迷人眼,当我们抛开各种炒作,各种软文,各种轰炸,一层一层剥开这些“洋葱”时,总会发现数据的身影。人们渴望通过海量数据的挖掘和运用,释放出其所蕴含的巨大价值。

据报道,年,国家统计局与阿里巴巴、百度在内的17家大数据企业签署大数据战略合作框架协议。在生产资料价格统计、CPI调查、贸经统计、建设领域统计、交通运输统计等领域,广泛利用网上公共平台搜集、整理数据。

大数据绝对算得上是当今技术密集度最高的产业之一,由众多的框架、产品、组件、算法组成,或资深或初创的大小公司活跃其中。各种概念满天飞,初入行的技术人员特容易钻到技术的大海里,摸不清方向。而大数据的使用者,如政府或企业客户,却不知所云,一头雾水。

本文主要从技术的角度,首先介绍一下大数据的产生,再分析一下大数据架构Hadoop。最后从大数据技术生态链(采集、存储、计算、分析、可视化)的角度,介绍一下每个环节可用的技术选择。

二、大数据的产生

传统的企业级应用中,数据的存储和计算主要是使用关系型数据库RDBMS,以oracl、sqlsrvr为代表的数据库产品以优秀的事务性、可靠性、安全性,支撑起日常业务处理所对应的频繁的增删改查和报表统计、BI分析。当时数据量较小,运行多年的系统积累的数据可能也就几T。RDBMS运行速度也是有保障的。

随着互联网的兴起,数据规模不断增长,数据格式丰富多彩。竞争的加剧也导致管理者需要做更多的用户研究、提供更好的用户体验。更多的数据需要更大的存储空间。而更高的数据计算量、分析时效性,则需要分布式计算来解决。同时,适当的价格也是重要的因素,比如在以往处理大量数据,可选的方案有IBM的大型机,目前银行系统还有很大一部分在使用大型机上,但价格昂贵。

另外对数据的处理方式也发生了重大变化,传统的RDBMS







































北京最好的白癜风专科医院
青海治疗白癜风医院



转载请注明:http://www.92nongye.com/tlfc/204614924.html

  • 上一篇文章:
  •   
  • 下一篇文章: