x86服务器与大数据的不解之缘
随着时期和技术的进步,“SoLoMo(Social、Local、Mobile)”型社会正不断发展和完善,3者的结合与互动产生了愈来愈多的数据,企业通过对这些数据进行发掘和分析,从而发现新的商机,或用以支持商业决策,或规避减少业务风险。
随着互联的发展,一批互联企业率先开始针对”SoLoMo”产生的大量半结构化、非结构化数据进行发掘和分析,产生了大数据的商业机会。至此,“大数据”这1概念正式诞生,并由互联向传统企业市场蔓延,与原来的结构化数据分析结合,产生了“大数据分析”。
大数据分析也被认为是重要的新兴产业,得到了国家层面的重视,年9月6日国务院印发了《增进大数据发展行动纲领》,进一步增进了大数据市场的火热。据IDC相干报告显示,年,有关大数据和商业分析的收入已高达亿美元;预计到年,全部行业的收入将高达亿美元。
大数据运用明显已成为关系到行业、企业和每个人的事情。作为中国互联领域的代表型企业,百度、阿里和腾讯(以下简称“BAT”),他们每天都要应对百PB级的新增数据;传统大型企业中每天产生的数据超过TB级的也都不在少数。部份IT基础设施领先的企业(包括互联和传统企业)已能对50TB级别的大数据进行实时分析,和可以实现每天对TB级别的数据进行分析。
输入大数据三分天下大数据分析除针对数据结构有所辨别外,更重要的是依照数据范围产生了各种不同的大数据分析系统。大数据的分析方法是一件使人纠结的事情。好在大数据工具,根据用户的业务场景、数据来源特性和分析需求的不同,早已计划好了自己的领域。用户可以按数据范围来选择合适的大数据分析工具:
50TB以上的超大规模数据:Hadoop,大型数据处理以离线数据分析为主,数据处理时间以小时计;
20~TB大规模数据:Spark,典型的大数据批处理分析工具,正在向流处理的方向扩大,数据处理时间以分钟计;
GB~50TB数据:SAPHANA,内存型数据库的代表,处理数据时间可达秒级。
今天,提到大数据首先会想到的就是Hadoop、Spark和SAPHANA。前二者都诞生于互联,得益于互联公司的经验分享,和英特尔(Intel)等硬件公司的大力支持,迅速在传统企业市场传播;HANA则是SAP公司推出的内存型数据库方案。
HadoopHadoop的渊源可以追溯到Google公司,源自Google开源的分布式架构,经过Yahoo公司的大力推动,和Apache组织的不断改进和完善,用时超过十年的发展,已得到市场认可。Hadoop本质上是一个离线数据分析解决方案,其由HDFS、MapReduce、Hive、Zookpeer和HBase等组件构成,通过分布式集群将大型数据分析任务进行分解,分散到各个节点上进行处理,然后返回结果。
Hadoop的架构决定了其很难做到实时的数据分析,其偏向于针对大数据集的“事后处理”,通常由成百上千个服务器节点组成的集群共同协作完成某一数据分析任务,同时采取3副本机制来保证数据的可用性和全部集群的可靠性,这使得集群范围进一步增大。目前英特尔等公司正不断努力改进完善Hadoop,例如通过处理器性能的提升(比如至强E5v4处理器中的AVX2指令集等),和将纠删码(EC)引入Hadoop集群中,可比3副本机制节省一半以上的存储空间,以此到达提升全部集群效力的目的。
目前在国内,中国联通省级运营商、京东电商平台等行业都部署了大量Hadoop系统,以对每天产生的海量数据进行分析。
SparkSpark是加州大学伯克利分校AMPLab开源的类HadoopMapReduce通用并行计算框架,基于MapReduce实现的分布式计算,具有HadoopMapReduce的优点;不同点是MapReduce的中间输出和结果可以保存在内存中,从而不需要读写HDFS,进而实现处理、迭代速度更快,因此Spark能更好地适用于数据发掘与机器学习等需要迭代的MapReduce算法。
Spark一样在互联公司发扬光大,而互联公司一向的本钱为先的特点,一样体现在Spark本身的分布式架构设计特点上,主要基于双路x86服务器,走横向扩大(Scale-out)线路。针对双路服务器支持内存容量相对不足的问题,业内相干厂商也在研究以大容量非易失性存储作为内存使用的补充办法,比如英特尔公司的3DXPoint,性能和耐久性可达传统NAND闪存的0倍,密度则10倍于内存,可以有效的扩大单机的容量。
SAPHANA内存计算已成为一个新的技术领域,愈来愈多的公司已参与其中。比如Oracle与微软(SQLServer)也已或将要推出内存数据分析解决方案。在这其中,SAPHANA无疑是其中的先行者和领头羊。其内存数据分析解决方案HANA一经推出,就在企业级市场引发了强烈反响。
SAPHANA是第一个被市场广泛接受并认可的内存数据分析解决方案产品,通过高性能处理器和大容量内存的结合,可以对企业关键业务数据进行实时分析处理,例如最新的英特尔至强处理器E7v4产品家族可提供4到八路支持和充足的扩大空间。通过第三方节点控制器最多可扩大至32路配置。至强E7v4借助业内最大的24TB内存容量,用户可以通过内存访问TB乃至PB级的数据集。
内存型数据分析工具可以帮助决策者实时掌控企业业务信息,快速做出决策。例如农夫山泉部署的SAPHANA解决方案,为其瓶装水销售进行实时决策分析,每一瓶水在系统内都被跟踪,记录并处理分析这些信息,以优化其业务流程。另外,联想、中国石油等跨国型团体企业也都前后部署了相应的SAPHANA解决方案。
与前面的Hadoop、Spark分布式架构不同的是,SAPHANA使用的更多是企业级所经常使用的纵向扩大(Scale-up)系统,整体性能效力更高。至强E7处理器也具有更先进的RAS特性,例如最新的英特尔至强处理器E7v4产品家族集成包括英特尔可靠运行技术(Intel?RunSureTechnology)在内的70项特性,可提供先进的数据完整性和关键业务系统的敏捷性,以下降服务器宕机的频次与本钱。另外,通过改良内存镜像等毛病恢复机制和特性,可以在不增加全部系统内存需求的条件下提供超凡的数据可靠性。与Hadoop、Spark所使用的分布式、多副本相比,技术上孰优孰劣很难比较,但明显整套系统中组件越少,可靠性就越高。
固然,性能也是很重要的1大因素。例如公有云服务巨头——AWS在近期正式上线了基于4路至强E7v3平台的X1实例。
4路英特尔至强E7-v3处理器,提供个vCPU;
2TBDDR4内存;
3.84TBSSD存储,随机读IOPS;
10Gbps络带宽。
X1已通过SAP验证。从X1实例来看,即便是公有云,也需要强大计算性能、大内存容量的主机来满足高端运用。像SAPHANA这样对硬件性能有全面需求的运用,也已成为公有云争取的阵地了。
其实无论是大量分布式节点Hadoop平台,还是批处理的Spark,抑或内存型数据库,系统处理响应时间千差万别,但是有一点是相同的,在大数据时期,这些优秀的大数据技术都基于x86服务器平台,无论是两路服务器组成的多节点分布式大数据集群,还是单台计算性能超强的计算节点,英特尔均在借助至强E5和E7构建的IT基础架构,为大数据提供有力的支持。
企事录需要你你懂点企业级,听说过云计算,也知道甚么叫2B,有一双爱码字的手,有一颗用文章传道的心。
企事录欢迎你,作为致力于企业级新产品新技术推行传播的第三方机构,需要你这样的小火伴。我们提供优于业内平均水准的待遇,有超过业内多数的假期,还有宽阔的发展空间,你是来呢,还是来呢,还是来呢?给我们留言吧,有推荐成功的发红包感谢。
长按,选择“辨认图中
北京白癜风专业的医院北京哪个专家治疗白癜风好