DataScientist面试的组成部分
电话面试
一开始会让面试者谈谈自己的项目经历,一般是挑一个项目,具体讲讲是如何做的,之后会问一些技术问题,其中Coding问题可能会问也可能不会问,一般会问机器学习方面的问题,对你谈到的一些点进行深挖,可能会问到直到你回答不出来。还会涉及统计和概率方面的问题。
现场面试
与电话面试较为接近。区别是现场面试会让你做CaseStudy,给出一个新的问题,问你如何把它endtoend解决。如果有五个面试者,可能两道三个都会被问到CaseStudy,而可能会有一个被问到算法的Coding问题。
DataScientist面试的趋势
13年之前,许多IT公司会把DataScientist当做工程师来面,十分注重算法与数据结构的编程。但最近的DataScientist面试的趋势是问题更偏实际,不会有那么多的Coding问题。五个面试者中,0~1个面试者会在电话面试中被问到Coding问题,1~2个面试者会在现场面试中被问到Coding问题。Coding问题需要准备,但是不必像软件工程师那样去准备。
面试中常见的问题
面试者不能达到面试官要求的原因可能有以下几点:
简历中写了自己并不熟悉的技能
对自己的项目中提到的方法理解并不深刻,当面试官追问时,很容易就会暴露各种问题
许多人带着侥幸的心理,认为Coding不需要怎么准备,导致Coding能力薄弱,当问及并不难的Coding问题时回答不好
对项目中涉及的领域知识掌握得并不好
不同DataScientist职位面试
本文主要讲解两种DataScientist的工作,即做Modeling和Analytics的DataScientist
做Modeling的DataScientist
其主要任务就是建立机器学习或统计模型来解决商业问题。这类工作也有不同的title,在DataScientist这个词出现之前,公司里做建模这一工作的人被称为Statistician或ModellingSpecialist。其职责主要包括以下几点:
建构出机器学习或统计模型,由此作为实际问题的解决方案。当一个待解决的问题出现时,首先要识别这是一个分类问题(classificationproblem)还是回归问题(regressionproblem),并且哪些Feature是最重要的,怎么去建这些Feature,并评估模型的性能
构建DataPipeline,为模型计算Feature
有了Feature后,接下来是构建模型。根据不同类型的问题选择不同的方法,同时要考虑如何建label,如何选取算法,各种算法的比较,如何调整模型,如何评估构建好的模型(使用NDCG等指标)
构建好model后,思考如何运用这个模型,帮助Business或产品经理去理解这个模型,并根据模型为商业提供实际建议
Modeling工作的实际应用有许多方面,比如最常见的是搜索,运用的是相关模型、排序算法,又比如在广告里用模型预测点进率和转化率。在金融方面,modeling可以用在信用风险评估或信用卡交易中的欺诈侦查。这些都是一些经典的应用。
做Analytics的DataScientist
主要任务是为商业或产品提供insight。之前这个职位一般叫做DataAnalyst,现在有些公司就把比DataAnalyst更偏工程的职位称为DataScientist,其主要职责包括:
设计KPI等指标去监测商业或产品的performance,这需要拥有一些对商业问题的见解
构建Dashboard更好地使指标可视化
构建DataPipeline来计算KPI等。其需要的最主要的技能是写SQLQuery或HAPQuery,运用可视化的一些工具
运用Ad-hocanalysis从数据中提取insight
其主要应用包括为商业或产品提供insight,Facebook就会招很多Analytics的DataScientist来了解用户是怎样使用产品的。
不同职位面试的区别
两种DataScientist的面试是有一定区别的。
做Modeling的DataScientist。对Coding,Modeling和Problemsolving三方面涉及较为均衡,因此这三方面都要掌握好。需要机器学习算法理解较为深刻,这就需要大家平时多多积累。
做Analytics的DataScientist。对于SQL一定要非常熟练,做到又快又准。还会涉及到Casestudy,设计metrics。而Modeling和Coding不会问太多甚至可能不会问。
数据科学家要求的知识与技能非常全面。BitTiger再次推出权威课程,助你事半功倍成为顶尖数据科学家,并与与未来顶尖数据科学家为伍,冲刺百万美元奖金。
课程目标
三个月学习,硅谷一线资深数据科学家带路,基础知识+项目经验,将学员能力提升到工业界水平,成为数据科学家。
课程安排
第一阶段·R的知识梳理与项目实战
以Zillow在Kaggle上奖金为1.2M的homevaluepredictionproject为例,详解在面试以及实际工作中最需要理解掌握的知识点,涵盖统计学(statistic)和机器学习majorsupervisedmachinelearning模型内容。丰富简历的同时,可以努力成为topperformer争取第二轮的比赛资格。
提前感受DataScientist的workroutine,例如面对最初大量房子的原始数据,如何开展,如何理解数据,从而有效提取有predictive的feature,并建立priceprediction模型。
第二阶段·Python的知识梳理与项目实战
以Yelpdatasetchallenge开放实战挑战为例,围绕dataset提出有商业价值的datascience问题,并开发出相应解决方案。
从structuredunstructureddata中提取信息,运用包括NaturalLanguageProcessing在内的方法,对dataset进行深度挖掘。从而建立clusteringmodel,rankingsystem,及re哪家医院治白癜风最好北京去哪个医院看白癜风好