大数据技术核心之ETL

大数据技术核心之ETL

抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。

核心技术

架构挑战:

1.对现有数据库管理技术的挑战。

2.经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。

3.实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模,运行1-2天获得结果依然没什么问题。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。

4.网络架构、数据中心、运维的挑战:随着每天创建的数据量爆炸性的增长,就数据保存来说,我们能改进的技术却不大,而数据丢失的可能性却不断增加。如此庞大的数据量存储就是首先面临的非常严峻的问题,硬件的更新速速将是大数据发展的基石,但效果确实不甚理想。

分析技术:

1.数据处理:自然语言处理技术(NLP)

2.统计和分析:A/Btest、topN排行榜、地域占比、文本情感分析

3.数据挖掘:关联规则分析、分类、聚类

4.模型预测:预测模型、机器学习、建模仿真

存储:

1.结构化数据:海量数据的查询、统计、更新等操作效率低

2.非结构化数据:图片、视频、word、PDF、PPT等文件存储、不利于检索,查询和存储

3.半结构化数据:转换为结构化数据存储、按照非结构化存储

解决方案:

1.存储:HDFS、HBASE、Hive、MongoDB等

2.并行计算:MapReduce技术

3.流计算:twitter的storm和yahoo的S4

大数据与云计算:

1.云计算的模式是业务模式,本质是数据处理技术

2.数据是资产,云为数据资产提供存储、访问和计算

3.当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用。但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策方案和服务,是大数据核心议题,也是云计算的最终方向。

大数据平台架构:

我想这幅架构图,对大数据处理的人来说,应该不是很陌生。

IaaS:基础设施即服务。基于Internet的服务(如存储和数据库)。

PaaS:平台即服务。提供了用户可以访问的完整或部分的应用程序。

SaaS:软件即服务。则提供了完整的可直接使用的应用程序,比如通过Internet管理企业资源。

这里也不多涉及这方面的概念,在接下来的几篇文章中,会对下图中相关的部分(主要介绍PaaS模块中涉及的部分)以及上面提及的技术挑战和相关技术的介绍。

提纲:

数据采集:ETL

数据存储:关系数据库、NoSql、SQL等

数据管理:(基础架构支持)云存储、分布式文件系统

数据分析与挖掘:(结果展现)数据的可视化

本文章的目的,不是为了让大家对ETL的详细过程有彻底的了解。只需要知道,这是数据处理的第一步,一切的开端。

大数据技术之数据采集ETL:

这里不过多的说数据采集的过程,可以简单的理解:有数据库就会有数据。

这里我们更







































白癜风早期症状
白癜风治疗的医院



转载请注明:http://www.92nongye.com/xxmb/204613466.html

  • 上一篇文章:
  •   
  • 下一篇文章: