“如何成为一名卓越的数据科学家?”是我们讨论的主题。
所谓卓越,不是那些纸上谈兵、喜欢“3V”、“4D”、“大时代”的理论家,也不仅是一名手脚利索的码农去实现别人脑袋中的逻辑。
所谓卓越,是只专注最有挑战的问题,并且能将问题解决掉的能力。
卓越的数据科学家,不仅需要建立收集数据原材料的合理机制,还需要用数据材料提炼价值,并且将数据创造价值的过程标准化、自动化。出色的数据科学家是多面手,不仅需要理解业务问题,还需要将业务问题转化为数据科学问题,并且让计算机可以持续从数据中学习,最终建立一套完整的智能系统。一言以蔽之,数据科学家的核心职责是设计“业务、数据、算法”三位一体的闭环体系。
在数据科学家的工作流程中,“设计”是关键词。数据科学家工作中最核心的部分是设计,而不是操作。许多文章给工程师列出数据科学家的修炼清单,告诉我们数据科学家需要擅长Hadoop,Spark,C++,也需要懂统计学,计算机科学……这个清单没人能真正完成,真正完成的人不是数据科学家,是神。
现实中,完整实施一个数据科学项目需要一个团队,其中不仅包括数据科学家,还包括业务专家、数据库专家、算法专家和系统专家。在这个团队中,数据科学家的核心角色是设计出一个将业务、数据、算法串联起来的闭环体系,其他团队成员则基于数据科学家设计的蓝图将数据解决方案转化为解决业务问题的智能系统。
这个数据科学闭环体系包括七个步骤,我称之为“数据科学七剑”。
第一剑,问题定义根据我的经验,80%以上的数据科学项目失败在问题定义这个环节。我经常看到,客户的问题是,“我有这么多数据,到底能怎么用?”、“这个业务问题数据模型能发挥作用吗,还是靠人去解决更有效?”真正需要回答这些问题的数据科学家,需要具备抽象的能力,将那些看似零散的业务问题抽象为通用的数据科学问题。回答这些问题的数据科学家,还需要具备出色的沟通能力,能将复杂晦涩的机器逻辑转化为简单、清晰的通俗逻辑。
以银行风控业务为例,不同的业务场景往往对风控模型的需求是截然不同的。对于大客户信贷审批,数据模型没有实际作用,因为大客户审批的工作量完全可以由业务人员来承担,并且大额审批一定是靠人决策。即使一个富翁请了10个保姆去打理花园和厨房,也仍会让自己老婆去管理房产证。但是,在小微商户的信贷业务的贷后管理中,数据模型便可以发挥举足轻重的作用,银行没有大量人力去在贷后的每一个月都去派业务人员进行大量企业的贷后风险管理。
而在公安大数据应用中,数据模型的可解释性远大于预测的准确性。你不能因为安全模型给本拉登打分为99分就将他枪毙,总需要一些客观的根据(数据)。公安数据模型最大价值就是从大量原始数据中缩小范围,提供可解释的关键数据。这些关键数据,正是公安中的证据。
第二剑,数据准备巧妇难为无米之炊。数据科学家需要非常北京市看白癜风哪家医院好北京哪里有白癜风专科医院