Facebook怎么做到每秒索引数百万条

  企业互联网开发者都在看!

来源:雷锋网

编者按:作者PedroEugênioRocha现任Facebook系统工程师,年毕业于巴西巴拉那州联邦大学信息学专业,研究兴趣包括数据库与存储系统,尤其是与分布式系统和大数据相关的数据库与存储系统。作者在文章中介绍了Cubrick:一种多维内存数据管理系统。Cubrick是由Facebook开发的新型分布式多维内存数据库管理系统,其目的在于解决大量数据资源并行运行所存在的问题。为达到交互式分析高度动态数据集这一目的,Cubrick运用一种用于管理柱形内存数据的新策略,这种策略允许在数据集的每一个维度中进行索引过滤,并有效地实时更新。

大数据集实时分析已经成为众多互联网公司的广泛需求。最大限度缩小数据生成与数据分析之间的时间差使得数据驱动的互联网公司能够及时形成见解,做出决策,最终能够促进自身快速发展。为了实现实时分析,需要构建一个数据库系统,保证该系统能够连续不断地获取由网络日志生成的数据流,在数据生成几秒后应答查询需求。鉴于有一些实时数据流每秒钟能够释放出几百万条记录,大规模获取这些高动态化数据集将面临越来越多的挑战。

此外,所有的数据库查询需要在数百毫秒内完成,为用户提供一种真实的交互式体验,以便充分挖掘数据的利用价值,但是,事实上,在如此短的时间内浏览大型数据集要求大量并行运行,因而庞大的数据资源成为必须的硬件条件。但是,在Facebook过去几年的工作中,我们观察过一些实用案例,在这些案例中所有的查询都经过过度过滤,此外,我们只







































白癜风治疗效果
治疗白癜风医院哪家好



转载请注明:http://www.92nongye.com/hxjs/hxjs/204613014.html