许俊是极光的第一位严格意义上的大数据工程师,目前是大数据平台的负责人,见证了极光大数据平台从0到1,迅速发展到现在规模的历程。他给开发者带来的是大数据架构下对于业务监控的几点思考。通过类比地球地质演进的过程,来描述大数据架构下的业务监控架构的演进历史。
寒武纪——搭建Hadoop集群/Zabbix对机器基本指标监控
几亿年前的地球处于寒武纪,北半球大部分被海水淹没,地球上的生物比较匮乏,主要是一些类似蓝藻、红藻这样的低等生物。这时极光有了第一个Hadoop集群,集群规模非常小,业务、数据也比较少。这样对应到监控上的压力也很小,所以只用业界比较流行的Zabbix做一些基本的机器层面的监控。
Zabbix对机器基本指标监控
但业务、数据不多,不代表没有问题,有时候会等到第二天,甚至是第三天,业务部门反馈出来,才知集群出现问题。如上图是传统的监控图,比较被动。这刚刚开始,并没有投入太多的精力做这个事情。
侏罗纪——开始重视监控/定时检查CDH监控
侏罗纪时期,有造山运动和剧烈的火山活动。爬行动物非常发达,出现了巨大的恐龙、空中飞龙和始祖鸟,植物中苏铁、银杏最繁盛。这是极光的集群规模随着业务的增长逐渐扩大,开始重视监控问题。
CDH监控
许俊表示,当时极光选用的是Cloudera的CDH,如上图,是CDH监控上的部分截图,监控是非常详细和细致,能满足当时大部分需求。因此在这个基础上做了一些定制,对接到监控系统和报警系统,达到知晓集群状况的目的。
白垩纪——引入Kafka等组件/基于Zabbix监控做定制
白垩纪时期,造山运动非常剧烈,我国许多山脉都在这时形成。动物中恐龙最盛,鱼类和鸟类很发达,哺乳动物开始出现。植物中显花植物很繁盛,也出现了热带植物和阔叶树。此时,极光集群规模继续扩大,业务的复杂度继续提升,故对监控的要求越来越高,并且因业务需要引进很多新组建,类似Kafka等。
基于Zabbix定制的业务监控
针对需求,监控也应随之进步。CDH满不能满足需求的情况下,因有Zabbix传统监控,就在已有的系统前提下做一些定制和开发。如上图,在Zabbix框架前提下做的一些定制化开发,可以看到监控的是其中一个zabbix节点内存使用的情况,也同样对接到告警系统,这样能够覆盖到之前覆盖不到的业务层级。这个过程持续了比较长的时间,但在用的过程中发现两个问题:其一,Zabbix更哪里医院治疗白癜风较好北京治疗白癜风疗效最好的皮肤病医院