大数据文摘作品,转载要求见文末
作者
MaximeBeauchemin
编译团队
YaweiXia,邱猛,赖小娟,张礼俊
的时候年我以商业智能工程师的身份加入脸书(Facebook),但在13年离开时我的职位却是数据工程师。这期间我并没有升职也没有被调到一个新职位上,我只是意识到我们的工作已经超越了传统商业智能的范畴,并且我们为自己创造的这个角色属于一个全新的领域。
由于我的团队处在这种转变的最前沿,我们正在培养新的技能、新的做事风格、开发新工具,并基本放弃了旧有的方法。我们是这个领域的开拓者。我们是数据工程师!
什么是数据工程?
▼
现在,当数据科学领域正在经历它的青春期时,数据工程在肯定和定义它自己,同时它也像数据科学的“同胞兄弟”一样也经历着类似的事情。数据工程一边借鉴着数据科学,一边也从数据科学的对立面去定义它自己,找到它的身份。
就像数据科学家似的,数据工程师也编程。他们善于分析,并且对数据可视化感兴趣。但他们也不像数据科学家,数据工程师受到一位更成熟的“父亲”–软件工程师–启发。数据工程师创造工具、基础、框架和服务。事实上,相比于数据科学家,数据工程师可以说是更接近于软件工程师。
联系到过去已有的职位,数据工程领域可以被当作是从软件工程衍生出的,包含了商业智能和数据仓储的一个超集。同时,这个学科也整合了“大数据”分布系统相关的特色,以及拓展了的Hadoop生态系统、流处理、大规模计算有关的概念。
在一些还没有正式数据基础设施团队的小型公司里,数据工程方面的工作也涵盖了建设和运作数据基础设施。具体任务类似于建设和运作像Hadoop/Hive/HBase、Spark之类的平台。注意到在更小的环境里,人们倾向于使用由亚马逊、Databricks提供的托管服务,或者从Cloudera、Hortonworks这样的公司得到技术支持。这样的小企业本质上是将数据工程转包给了其他公司。但在更大的环境里,企业对数据基础设施团队的需求会不断增加,这使得它们更倾向于创建正式的职位来负责这类工作。在那些组织里,自动化某些数据工程过程的任务一般是由数据工程和数据基础设施团队负责。这些团队通常也会合作解决一些更高层次的问题。
随着数据工程角色的工程一面在范围上不断提升,旧有商业工程的一些方面慢慢变成次要的了。创建并维护产品组合报告和面板并不是一个数据工程师的主要白癜风早期什么症状白癜风北京