Natalie 作者
王海涛 编辑
Natalie AI前线导读:做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就不得不提Spark和Flink。Spark从年左右开始迅速流行,刚推出时除了在某些场景比HadoopMapReduce带来几十到上百倍的性能提升外,还提出了用一个统一的引擎支持批处理、流处理、交互式查询、机器学习等常见的数据处理场景。凭借高性能和全面的场景支持,Spark早已成为众多大数据开发者的最爱。正在Spark如日中天高速发展的时候,年左右Flink开始进入大众的视野并逐渐广为人知。在人们开始使用Spark之后,发现Spark虽然支持各种常见场景,但并不是每一种都同样好用。数据流的实时处理就是其中相对较弱的一环。Flink凭借更优的流处理引擎,同时也支持各种处理场景,成为Spark的有力挑战者。当然,Spark也在不断增强其实时流处理能力,在今年2月份发布的2.3版本中引入了持续流式处理模型,可将流处理延迟降低至毫秒级别。本文对Spark和Flink的技术与场景进行了全面分析与对比,且看下一代大数据计算引擎之争,谁主沉浮?后续作者还将撰写文章进一步探讨二者的开源生态、近期动态以及未来发展前景。更多优质内容请德国强力白蚀消能不能治好白癜风哪里看白癜风专业