【大数据】大数据架构的典型方法和方式

【大数据】大数据架构的典型方法和方式

大量的IT组织如今都已自己的数据架构,因为都依赖于传统的数据架构。处理多数据源已不再新鲜;这些架构已经连接了多维度的数据源例如CRM系统,文件系统和其他商用系统。主要运行的关系型数据库有Oracle,DB2和MicrosoftSQL。

如今,一般的数据分析周期是运行一些周期性脚本直接从数据库提取和处理数据。这些主要由ETL工具如Informatica或者Talend.目标是将这些提炼的数据加载到数据仓库用于将来的分析。

不幸的是,这一方法在周期结束后可能不适合商务的需要了。这些数据流水线可能需要几个小时,几天甚至几周才能完成,但是商务决策的需求可能已经变了。除了处理时间,还有一些数据的自然改变使这些架构难于处理,例如数据结构重构变化导致数据模型的重构或者数据容量导致的伸缩性考虑。

由于不是分布式系统,所以系统扩展比较困难。数据库需要高性能的CPU,RAM和存储方案,对于硬件的依赖使系统的扩展性部署非常昂贵。现在大多数IT组织已经切换到基于Hadoop的数据架构了。实际上,不仅是灵活性和技术成本,主要目标是一组商用主机分散处理负载,以及摄取海量的不同类型数据。

Figure3-1给出了这一架构的拓扑图。

Figure3-1.基于Hadoop的数据架构

下面看一下数据流水线的涵盖范围,包含了哪些技术,以及这种类型架构的通用实践。

处理数据源

如Figure3-1所示,数据可以来自各种内部或者外部的源,但是大数据还可以特殊地来自内部应用和设备的日志,例如社交网络,开放数据,甚至传感器。以社交网络为例,IT组织感兴趣的信息数据会像洪水般流入,但是其中包含了大量无用的信息。

因此,第一是存储数据,然后对提取的重要信息进行处理。这些数据对销售非常有用,尤其是当运行情感分析的时候,可以感知整个社交系统对产品或品牌的感受。

依赖于提供商,数据可能是结构化的,半结构化,或者非结构化的。Listing3-1给出了一个半结构化消息的示例.

从例子中可以看到,这个文档是一个JSON,有一组字段,其中字符串的元数据来描述tweet。但有些字段非常复杂;有点数组有时候是空的,有时候有包含了一个数据集合,也有纯文本来表示tweet的内容。这就需要思考如何存储这样的数据。把数据放到HDFS是不足够的;必须在技术的顶层建立一个元数据结构来支持数据结构的复杂性。这就是有时需要使用Hive的原因。

当处理海量成分混杂数据的时候,社交网络是复杂性的代表。除了数据结构,还需要将数据分类成逻辑上的子集以便增强数据处理的效果。考虑以情绪分析的例子,从大数据集的非结构化数据中得到有价值信息的位置来组成数据。例如,通用的方法是对数据进行时间分片使数据处理更加聚焦,比方说一年数据中的某个特定周。

也必须注意到要安全地访问数据,多数采用象Kerberos或其他的认证提供者。但是如果数据平台涉及到新的使用场景,首先要处理的是多租户技术的安全性。然后,周期性地创建数据镜像以便故障发生时从中提取。所有这些考虑都是标准的,而且可以幸运地由大量供应商提供。这些开箱即用的软件可以保证,或帮助你实现或者配置管理这些概念。

本文来源:大数据









































北京哪里治疗白癜风不用开又便宜
北京中科白癜风医院路线



转载请注明:http://www.92nongye.com/xxnr/204612332.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了