背景
11月10日,具有计算奥运会之称的SortBenchmark全球排序竞赛公布了年最终成绩,腾讯云大数据联合团队用时不到99秒(98.8秒)就完成TB的数据排序,打破了阿里云去年创造的秒的记录。在更早前,百度创造的纪录是秒,Hadoop的记录是秒。
在这次竞赛中,腾讯云数智分布式计算平台,夺得SortBenchmark大赛GraySort和MinuteSort的冠军,这也体现了腾讯云数智分布式计算平台在数据处理上的优越性能。在竞赛结果公布之后,InfoQ也对腾讯云大数据联合团队进行了采访,从技术层面报道腾讯云数智分布式计算平台的实现原理,以及竞赛结果所带来的长远意义。
关于腾讯云大数据联合团队
此次参赛的腾讯云大数据联合团队是由腾讯云存储产品中心、腾讯数据平台部组成,这个团队在大数据技术和应用管理上有丰富的实践经验,尤其是腾讯数据平台部一直在管理的腾讯大数据集群,是世界上最大的大数据集群之一。多年的技术积累,再加上团队不断的苦练内功,都为整个团队在全球计算奥运会上取得瞩目成绩打下了坚实的基础。
解析腾讯云数智分布式系统软件架构
对于腾讯云分布式系统软件架构,可以从海量数据分布式存储、计算任务切片调度、节点通信协调同步、数据计算监控容灾等,以及硬件架构能力,包括服务器硬件选配、网络架构调优、IDC规划建设等角度来进行剖析。
在硬件和网络方面,分布式系统采取了IBM的Power和迈络思的Gb网络技术,机器配置选型如下:
网络架构采用了三层架构:
腾讯云大数据服务的实时计算平台能提供单集群上千台规模实时流式计算,在数据存储方面,支持多重数据备份,万亿数据的存储能力。在任务调度方面,支持百万级任务的毫秒级调用。而且支持故障节点自动发现、自动剔除、业务自动迁移、关键节点主从热备,以及故障秒级切换。
本次竞赛中的排序分为Partition、Shuffle和Sort三个阶段:
Partition阶段,从本地磁盘中读入分片的输入数据,然后对输入数据进行RangePartition操作,将数据进行无重叠区间的分片,RangePartition结束后,输出按照Range大小排序的RangeFile。
Shuffle阶段,将按照Range大小排序的RangeFile文件发送给对应的Sort程序。
Sort阶段,Sort任务等待所需的数据都到齐了,就启动基于基数排序的排序操作,将排序结果写入磁盘。
Partition和Sort阶段是并行执行的,待Sort完成后,输出多个排序文件,由于Shuffle的时候已经按照Range大小进行了排序,最终输出的排序文件在全局是有序的。
软件算法优化
参加这次比赛,腾讯云在软件方面也做了不少优化,重点如下:
1、更高效的调度系统。此次比赛,腾讯云参加了GraySort和MinuteSort二个大项的比赛,GraySort比拼的是完成TB的数据排序的耗时,主要评测的是系统对大规模数据的处理能力,MinuteSort比拼的是1分钟内的排序数量,主要评测的是系统的效率。
为了在1分钟内完成尽可能多的数据排序,系统任务调度的开销不容忽视,调度效率显得尤为关键,在系统上消耗的时间越少,越利于比赛成绩的提高。得益于平台强大的调度能力,团队在1分钟内完成了55.3TB数据的排序,是之前最好纪录的5倍。腾讯云的调度系统曾做了大量的优化,在腾讯的内部系统上,每天调度达2亿次,在海量系统上得到了验证。
2、内存存储的最大化利用。在排序过程中的中间数据,尽量存储在内存中,当内存中数据达到一定阈值,快要占满整个内存空间的时候,才会启动向磁盘中写入数据,最大化利用内存存储。而腾讯云的系统具备调度感知的能力,当系统内存充足的时候,会让该环节的计算任务完全在内存中完成计算,无需落地到磁盘,极大的提升了系统的处理能力。
值得一提的是,腾讯云数智提供的强大数据分析与挖掘探索能力,多维分析引擎可在数秒内完成在亿万级数据、万级维度量级下的分析作业。除了数据分析引擎,数智还囊括了机器学习引擎,内置的算法库均经过腾讯海量数据的训练实操,支持图计算、高性能并行计算、深度学习等。
3、并行操作和IO优化。在Partition阶段和Sort阶段,我们都采取了多任务的并行操作。在这里我们会根据机器和网络的性能来调整机器上的并发数,来提高整个系统的运行效率。为了提升网络的传输效率,优化了整个网络传输系统。在网络的传输中,过小的分片数据会带来额外的控制信息的传输,造成网络带宽实际上并不能完全跑满。对此我们采用大数据块的传输,在发送端对小的数据片进行合并,在接收端,对收到的数据包进行聚合后再传递给上层协议栈,来提高整个系统的数据传送能力,从而榨干这些机器间的网络带宽,通过优化,集群的整体吞吐可以得到极大的提升。
如何应对非结构化数据?
本次竞赛是对数据进行排序,那么在未来,图像、音频等非结构化数据将激增,腾讯云如何更快、更准来进行数据清洗,以应对未来的趋势和挑战?
实际上,目前许多企业都面临着收集到的图像与音频无法高效智能处理的问题。为此,腾讯云的解决方案就是对外开放一系列AI产品,如万象优图、人脸识别、语音识别、智能客服等服务。优图系列产品能够快速完成对图片的鉴黄、内容识别、人脸检测;智能语音识别服务可高效地满足语音识别、语音合成、声纹识别等语音处理需求;微金小云客服通过大数据与深度学习训练,可让企业拥有自己专属的AI客服。优图的人脸识别准确率已高于人工的识别,微众银行已经将该技术运用到开户流程中,在保证安全性的前提下,极大的提升了开户效率并显著降低成本。企业和开发者可以有效的借助腾讯云开放的腾讯大数据和AI能力,来快速分析其存储的非结构化数据,提升企业的核心竞争力。