年8月13日下午,软件中心的人员及其他大数据爱好者参加了珊瑚群创新加速器举办的创新沙龙活动,本次活动主题为“大数据平台架构及应用实践”,四位主讲嘉宾分别分享了腾讯、华为、达飞金融、魅族等公司的大数据平台架构及其相关的应用实践。
我行人员聆听演讲
在嘉宾签到之后,来自腾讯的高级工程师张俊为大家讲述了腾讯大数据的前世今生。他首先介绍了腾讯大数据平台的核心系统,而随着数据规模的膨胀以及腾讯数据挖掘应用的多元化,腾讯大数据平台的构架也在资源管理、搜索引擎、数据分析等方面不断优化演进。为了提升平台调度效率,腾讯内部研发的资源管理系统Gaia通过弹性内存控制、单独线程来调度心跳等优化,使得调度器平均吞吐率提高50倍,下发效率达到毫秒级,同时Gaia可达到单集群支撑上万节点,扩展性明显由于YARN。查询引擎模块,也从最初的Hive与SparkSQL查询MpaReduce、Spark升级到全新的搜索引擎。数据实时分析平台Hermes的存储记录达十万亿,通过嵌套列存储、数据压缩、引入索引位图运算等,数据实时分析对近10亿的用户数据进行用户画像,延迟仅为3秒,而Hadoop离线分析查询需大于15分钟。最后,张工程师介绍了腾讯内部研发的拖拽式任务流设计的机器学习平台Tesla和精准推荐平台TPR。
张俊腾讯数据平台介绍
涂丹丹博士负责华为分布式算法实验室,演讲初始简要介绍了Google、微软等公司的商用分布式深度学习平台,并分享开源深度学习平台Petuum、Mxnet、Tensorflow架构优缺点和应用现状,她指出MXnet支持符号编程和命令式编程,但缺点是只支持数据并行,不支持模型并行。而Tensorflow,在华为主要应用于内部翻译,需要对其内存通信优化。随后,她介绍了深度学习的应用场景,如预测出租车目的地、新歌推荐、文本情绪识别、拥挤现场洞察等。
短暂的茶歇中,我们软件中心的同事积极与主讲嘉宾沟通交流
达飞金融"金融大数据风险控制"系统介绍
茶歇过后,达飞金融风控技术负责人介绍公司的金融大数据风险控制系统,通过三方平台黑名单、其他社交数据挖掘、网络公开数据、问答系统提问本人才知道的问题等方式进行反欺诈及信审,系统对用户进行画像帮助加快人工审批,系统催收大幅降低坏账率。针对一人多贷情况设置黑灰名单,分析用户特征如教育背景、信用表现(银行流水)、社交稳定性、工作稳定性、收入情况、关系链特征、贷款行为等,进行授信、额度设定、额度调整等。
最后的魅族大数据平台架构师介绍了ApacheKylin在魅族的实践和应用。他首先对基本概念进行了介绍,并分析指出麒麟只支持星形结构模型,底层基于hbase,hive,hadoop,通过空间换时间的思路达到妙计查询返回。虽然多处关键设计思路并非创新但由于体系比较完整体系,性能比较好因此广受推崇。随后介绍了新版本1.5的改进,如可扩展插件式架构,parallescan等,应用常见场景。最后分享了魅族的cube优化实践,如活用聚合、关键字段如日期等截取压缩、层级维度、派生维度等。
软件中心参与人员现场合影
沙龙活动心得:本次的沙龙中,四位分享者主要是对平台优化及应用进行介绍,软件中心在大数据平台搭建开发阶段,也可借鉴腾讯的发展模式,在初建大数据平台时,主要是利用现有开源平台实现功能和应用,随后再在已有基础上进行优化或自主研发取代部分开源模块。四家公司掌握资源及需求不一致,对应的开发思路侧重也有所不同,达飞金融在一手资源不充裕的情况下仍能建立完整快速有效的风控系统,值得我们思考。与中国银行相比,达飞金融虽不能拿到完整的银行流水,加上中国人的信用卡普及率低人行并未有完整的征信数据,但其巧妙运用第三种方式获取多家银行流水——用户短信中银行流水信息的提取,达到低成本高信息量的获取。同时,通过结合社交关系数据挖掘和达飞金融用已有千万级的历史借贷用户,达飞金融建立用户的关系图谱,利用用户亲密度对信用进行扩散,最后定型计算,从而判断其他客户的信用情况。与平台构建思路相同的是,达飞金融对数据分析中机器学习算法目前主要是应用而非创新,该部门负责人指出重要的是数据的特征提取而非建模,而在特征提取过程中以数据挖掘和专家结合的方式进行,中国银行拥有充足详细的一手资源、众多一线客户经理的丰富经验,在风险控制、精准营销等特征提取方面具备更大优势,建立对应的系统也将会更加精准与专业化。
深圳分中心创新协会
哈尔滨白癜风医院哈尔滨白癜风医院