大数据平台架构及主流技术栈

刘云涛做客CCTV品牌影响力 http://www.bdfyy999.com/zhuanjiatuandui/102987.html

互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文GFS(),MapReduce(),Bigtable()为大数据技术奠定了理论基础。随后,基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。在此过程中,无数互联网工程师基于自己的实践,不断完善和丰富Hadoop技术生态。经过十几年的发展,如今的大数据技术生态已相对成熟,围绕大数据应用搭建的平台架构和技术选型也逐渐趋向统一。

上图是目前国内各大互联网公司普遍采用的大数据平台架构和技术选型。康威定律指出,技术架构与组织架构是相匹配的(延伸阅读《从康威定律看技术管理》)。许多互联网公司的大数据平台部门的组织架构也会长成这样。大型互联网公司中,上图中的每个组件甚至都会对应一个团队。当然对于大部分公司而言,技术主要是为了解决业务问题,构建庞大的大数据平台成本太高,还是需要根据实际情况灵活设计。下面对各个组件做一个简单介绍,希望能对实际场景的技术取舍提供帮助。

数据采集

“巧妇难为无米之炊”,没有数据也就没有后面的一切,数据采集作为基础至关重要。采集的数据主要由业务系统产生,包括存储在关系型DB中的结构化数据和记录在日志文件中的半结构化数据。Sqoop用于从关系型DB中采集数据,Flume用于日志采集。实时计算由于对时效性要求比较高,它一般采用Kafka和业务系统建立实时数据通道,完成数据传输。

Sqoop是Apache的一个独立项目,始于年。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。其官方地址是


转载请注明:http://www.92nongye.com/zyjs/204621895.html