时间如白驹过隙,过得飞快,转眼就过去了。在这一年里,大数据领域发生了些什么?又有什么大数据技术变得火热?让我们做一个大数据的回顾吧。
大数据技术在年继续取得高速的发展,并且在大数据相关的每个细分的环节,都有不同的创新的点。让我们来看看这一年,大数据技术的一些重要进展和趋势。
立于年的一家创业公司,年获得了万美金的A轮融资。
大数据应用平台化
随着大数据处理技术的进一步发展,如何整合大数据不同的底层大数据处理技术,将数据集管理、数据加工流水线、数据应用管理融合在一个统一的平台无疑能够大大降低大数据从数据引入到数据变成有价值的产品的复杂度。
CDAPCDAP是CASK公司开源的大数据应用平台。通过将数据接入、数据管理、数据处理流水线和数据应用开发管理集成在一个统一的平台,CDAP可以使得企业象开发普通的应用一样开发大数据的应用产品,降低开发的复杂度。如果做一个类比,CDAP的整体思路类似于在J2EE时代的WebLogic,是一个针对数据应用的中间件平台产品。
StreamSetsStreamSets是一个侧重数据集成、数据加工流程构建的平台,也是一个开源的产品。通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。SteamSets有可视化的数据流构建工具,并且能够对运行态的数据应用进行监控。相对于CDAP,StreamSets更侧重于数据的接入和数据流的构建、监控和管理。
大数据流式处理成为趋势
在年,大数据流式处理技术取得了飞速的发展,并且逐渐的变成了大数据处理的新的趋势。在这个大数据流式处理大潮中,几个关键的开源项目逐渐的取得了更多人的注意。
FlinkApacheFlink并不是一个新的开源项目,但是随着大数据流式处理的日益重要,Flink因为其对流式处理的支持能力,得到了越来越多的人的重视。在年,几乎所有的大数据技术大会上,都能够看到Flink的身影。
在Flink的设计理念中,数据流是一等公民,而批量操作仅仅是流式处理的一种特殊形式。Flink的开发接口的设计和Spark非常的相像,支持Java,Scala等编程语言,并且也有支持SQL的TableAPI,因此有非常好的易用性。另外Flink支持将已经存在的MapReduce任务直接运行在Flink的运行环境上。
同Spark一样,Flink也是期望基于它的核心打造一个大数据的生态系统,它的核心是支持流式的DataStreamAPI和支持批量计算的DataSetAPI。
年Flink在国内也逐渐的引起了大数据同仁们的重视,阿里巴巴针对Flink对Yarn支持的不足做了很多的优化和修改,开发了Blink,并且积极的与Flink社区进行沟通,希望能够将一些核心的修改merge回社区。而TalkingData也在对Flink进行尝试,相信在Flink社区,会有越来越多的中国人的身影和贡献。
Beam提到流式处理,不得不提的一个项目是ApacheBeam。这是一个仍旧在孵化器中的项目,但是其出发点和背景使得我们不在早期就对它保持持续的北京专业治白癜风的医院白癜风初期治疗方法