“悦分享”微杂志:基于大数据技术浅谈未来

“悦分享”微杂志:基于大数据技术浅谈未来

作者:李凯

深圳分中心开发二部

摘要与传统金融相比,大数据技术给商业银行不但带来了金融服务和产品创新,创造了新的业务处理和经营管理模式,同时对商业银行的组织结构、数据需求与管理、用户特点、产品创新力来源、信誉和风险特点等方面产生了重大影响,显著提升了客户深度体验,为未来体验式银行的建设奠定技术基础。

?关键字:大数据;Hadoop;Spark;体验式银行1

绪论

随着“体验”变成可以销售的经济商品,“体验消费”旋风开始席卷全球产业,同时伴随着物联时期行将到来,如何提供更好地深度体验服务成为商业竞争的核心竞争力。

对未来的银行建设更是如此,我自己有一个想象,未来的商业银行线上或线下点就是一个体验式服务站,这里不需要很多客户经理推销,也不需要很多柜员处理业务,大多数银行业务和金融产品的销售完全是顾客自主体验,自助完成。而建立在深度体验式服务背后基础是什么?大数据!所以未来体验式银行就是通过对大数据模型的计算和设计而成,全部银行系统就会变成基于数据收集、数据分析、数据建模的数据运用体系,加上数字货币,依照数据分析和发掘结果,为客户设计和提供体深度验式金融产品、服务、授信额度,对银行内部管理来讲,大数据可以更好地贯穿银行所有业务线条和管理线条当中比如风险管理、客户管理、渠道优化、运营优化等,这样就可以构成未来体验式银行。

所以,对中国银行来讲要完成未来体验式银行的建设需要一个完全的大数据处理系统,基于我行的银行系统架构及前文介绍的大数据处理架构,我们需要在现有基础架构的基础上改造我们的架构,同时根据我行业务特点建设一个新的处理架构。

目前,多数大数据处理技术架构都是基于集群计算,而集群环境对编程来讲带来了很多挑战,第一个挑战是并行化,这需要我们以并行化的方式重写应用程序,以便我们可以使用更大范围的节点的计算能力;第二个挑战是对单点失败的处理,节点宕机和一些节点计算缓慢是集群环境普遍存在的问题,这将极大影响程序的性能;最后一个挑战是集群在大多数情况下会被多个用户分享,动态进行计算资源的分配,也会干扰程序的履行。

针对集群环境出现了大量的大数据处理框架,当前较流行的两种处理框架是Hadoop和Spark计算框架,本文通过比较两种计算框架的特点,以银行业对数据处理的要求,基于我行的架构现状提出一种解决框架。

2

相干技术

1Hadoop技术简介

全部Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MapReduce来实现对分布式并行任务处理的程序支持。HDFS和MapReduce共同组成Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理进程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、履行等工作,并搜集结果,两者相互作用,完成分布式集群的主要任务。

2SPARK技术简介

Spark是伯克利大学推出的全新的统一大数据处理框架,主要是为了解决MapReduce模型及各种专有系统中出现的不足,在某种程度上说,Spark是对MapReduce模型的一种扩大,MapReduce模型在处理某些数据计算比如迭代式、交互式、流式计算效力很低,主要原因是在并行计算的各个阶段不能进行有效数据同享,而在Spark中主要使用一种新的抽象弹性数据集RDD,可以很好地解决数据同享问题,同时Spark还尽量地把数据存储在内存中处理,所以相对Hadoop来讲,Spark性能有较大的提升,而且也为批处理、交互式、流式、机器学习、图计算提供一个统一的数据处理平台。

3Hadoop与Spark比较

Hadoop实质是分布式批处理计算,强调批处理,常用于数据发掘分析。而Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark是一种与Hadoop类似的开源集群计算环境,但是二者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越。换句话说,Spark启用了内存散布数据集,除能够提供交互式查询外,它还可以优化迭代工作负载。

虽然Spark与Hadoop有类似之处,但Spark提供了一个新的具有差异的集群计算框架。首先,Spark是为集群计算中特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负载,Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。其次相对Hadoop的MapReduce计算模型,Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作,如map,filter,flatMap,union,join等多种操作类型(Transformations操作),同时还提供Count,save,collect,reduce,lookup等多种actions,这些多种多样的数据集操作类型,给上层运用者提供了方便,每一个处理节点之间的通讯模型不再像Hadoop那样就是唯一的数据Shuffle一种模式,用户可以命名、物化、控制中间结果的分区等,可以说编程模型比Hadoop更灵活。

3

未来体验式银行技术架构

1银行核心系统现状

目前,我行采取的是一种集中式的处理架构,即单个银行核心系统处理,多个外围系统与核心系统交互,所有系统服务器都放在总部数据中心,针对目前金融交易发起愈来愈频繁,银行核心系统负载愈来愈高,处理时间愈来愈长,加上数据传输络带宽的消耗,致使业务人员处理金融业务时等待时间太长,客户体验愈来愈差。还有我行对所存储的金融数据利用率过低,没有太多的创新型产品,推出的金融产品大多数是市场标准化的产品,毫无竞争力。

对此,一方面是改变现有集中式的布局,建设分布式系统和存储,第二个方面是把核心系统进行瘦身,把一些实时性较低(目前大数据处理架不太合适处理实时性较高的业务,未来随着大数据技术的发展这个问题会得到解决)或次重要的一些处理迁移到分布式处理系统中,第三个方面,利用第三方平台数据如征信数据、互联企业数据进行分析。

2系统整体结构

分布式系统架构

如图所示,新的银行系统采取多主节点管理的分布式架构,把原核心银行系统中的日志处理、报表处理、批量处理、客户关系处理进行剥离,放到大数据分布式处理系统中,核心银行系统只处理实时的金融交易,这样大大下降核心银行系统的处理时间,提高性能。新的数据中心根据分行的物理位置采取蜂窝方式建设,某几家分行同享一个数据分中心,所有的数据分中心受总行数据中心控制,数据存储采取HDFS架构存储,数据处理采取RDD操作,每一个数据分中心相当于一个大的块存储数据,总行数据中心与数据分中心的络总线均采取大带宽的络,这可以大大下降全部络传输耗时,减少分行处理业务的延时,同时各个数据中心接入第三方平台便于本地化数据分析工作。

调度管理

如图所示,客户端发起操作要求,所有的数据操作均采取RDD的相干操作,数据中心的主节点通过对数据的依赖关系把RDD操作拆分成不同的Stage,不同的Stage根据依赖关系进行调度,以下图例所示,Stage2依赖Stage0和Stage1,Stage3依赖于Stage2,所以在作业调度时要按顺序进行批量处理各个阶段,这个进程是一个串行的进程。

在所有的Stage完成以后,终究会构成一个任务集,根据相干业务规则和最优资源平衡调度方式任务集通过主节点发送给数据分中心的从主节点,从主节点根据任务管理器的调度分配计算资源,任务管理器定时更新任务状态,并把状态结果返回给状态监控管理器,待所有任务履行完后,把履行结果存储在数据块中,并把数据块的相干信息比如块索引等信息寄存在BlockManager中,主节点根据BlockManager寄存的结果块信息访问结果并反馈给客户端。

存储管理

如下图所示,从技术的角度来看,在全部架构中,所有的数据均存储到内存或硬盘中,数据文件被划分为多个数据块,块的大小根据实际情况进行调剂(一般主要参考性能指标),BlockManager存储数据块的索引等信息。RDD中的每个分区对应的数据块优先存储在内存缓存中,这样可以加快数据处理效力内存缓存在其内部保护了一个以数据块名称为键、块内容为值的哈希表,当存储的块超过内存阈值,一般为内存容量的60%,会把部份数据块存储到磁盘中。在存盘缓存中,一般会把数据块寄存在特定的目录下,每一个数据块对应着文件系统的一个文件,文件名和数据块名称的映照关系通过哈希算法计算所得,这样每次通过数据块名称计算出哈希值来找到对应的文件。

从业务的角度来看,根据业务规则、账户信息、地理信息等关联数据进行分析,尽可能采取与分行物理位置较近的数据中心进行存储,尽量下降传输数据络带宽引发的延迟。

数据备份

数据备份采取HDFS文件系统备份机制(通常备份三份数据),一个是数据本地备份,这样可以在存储节点宕机时尽快恢复源数据;另一个是分别在数据中心主节点和数据分中心从节点进行双机备份进行灾备,同时如果计算任务较大,耗时较长,主节点可以评估计算资源耗时与络传输耗时比,合理安排分计算资源进行分布式跨数据中心运行任务,提升整体的性能。

4

总结与展望

与传统金融相比,大数据技术给商业银行不但带来了金融服务和产品创新,创造了新的业务处理和经营管理模式,同时对商业银行的组织结构、数据需求与管理、用户特点、产品创新力来源、信誉和风险特点等方面产生了重大影响,显著提升了客户深度体验,为未来体验式银行的建设奠定技术基础。

参考文献Hadoop权威指南[M].TomWhite著周敏奇、王晓玲、金澈清、钱卫宁译.北京:清华大学出版社,:10-.

Spark大数据处理技术[M].夏俊栾、刘旭晖、邵赛赛、程浩、史鸣飞、黄浩著.北京:机械工业出版社,:1-

深入理解计算机系统[M].yant、DavidR.O’Hallaron著龚奕利、雷迎春译.北京:机械工业出版社,:-

分布式系统:概念与设计[M].GeorgeCoulouris、JeanDollimore、TimKindberg、GordonBlair著.金蓓弘、马应龙等译.北京:机械工业出版社,:55-

大规模分布式存储系统:原理解析与架构实战[M].杨传辉著.北京:机械工业出版社,:55-

IBM:拥抱新常态,共赢新金融[EB/OL].









































女人脸上长白癜风
乌鲁木齐最好的白癜风医院



转载请注明:http://www.92nongye.com/xxmb/1931.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了