神策数据桑文锋:数据驱动与指标体系的构建

神策数据桑文锋:数据驱动与指标体系的构建

『拓扑秀』是拓扑社旗下的一档线上活动,每期邀请一位嘉宾,以语音或文字形式,分享和交流toB领域的热点及趋势。

本文为8月10日拓扑秀第35期嘉宾的分享小结。

口述丨桑文锋

编辑丨拓扑社赵凡

分享嘉宾

桑文锋,神策数据创始人CEO。

浙江大学计算机科学与技术专业硕士,擅长领域-云计算,大数据及大数据分析。曾在在百度任职8年,从年底开始组建并带领团队,从零实现了百度用户日志的大数据平台,覆盖数据收集,传输,元数据的管理,作业流调度,海量数据查询引擎,数据可视化等。

历任软件工程师,高级软件工程师,高级软件工程师,项目经理,高级项目经理,技术经理,离职百度前曾带领一个35人的研发团队。

关于神策数据

神策数据(SensorsData),隶属于神策网络科技(北京)有限公司,是一家专业的大数据分析服务公司,致力于帮助客户实现数据驱动。

团队核心成员(桑文锋,曹犟,刘耀洲,付力力)均来自百度大数据部,从零构建了百度的日志分析大数据处理平台,有多年的大数据处理经验。公司针对互联网企业提供大数据分析产品和完整解决方案,以及针对传统企业提供大数据相关咨询和完整解决方案。

目前,针对互联网创业公司推出了深度数据分析产品神策分析(SensorsAnalytics),支持私有化部署、全端数据接入,并作为PaaS平台支持二次开发,客户包括爱鲜蜂、秒拍、多盟、AcFun、快快鱼、51offer等。

以下是嘉宾分享全部内容,enjoy~

/关于数据驱动/

最近一段时间,我在听评书楚汉争霸,楚怀王曾经和刘邦、项羽约定,先入咸阳者为关内王。结果刘邦率先进入了咸阳,但并没有把咸阳洗劫一空,他的手下萧何则将一些典籍、税收之类的记录都给拿回去做研究,做数据分析。后来,项羽到了咸阳以后,开始分封各路诸侯,将刘邦分到了巴蜀之地。萧何就向刘邦提议,应该和项羽商量一下,看能不能将汉中这块地方分给他。为什么他想要汉中这块地方呢?因为萧何通过大量的数据分析发现,汉中这个地方虽然不起眼,但税收在秦国占据很大的比例。这件事情项羽并不知道,项羽只是一介武夫,去咸阳之后只知道烧杀,也不知道各地的情况,于是项羽就同意了。结果,刘邦凭借汉中之地,几个月之后就打到三秦,也就是之前秦国关中这一带。几年之后,刘邦就把项羽给打败了。从这件事情可以看出,数据分析不管在什么时代都是很重要的。

我们可以回想一下,自己平时都是怎么去做决策的。最直接的决策方式就是凭感觉、拍脑袋,这是很常见的。但是,实际结果如何是不能确定的。如果在实际在工作中,单靠这种方式来做决策其实是不够理想的。

后来,我们就强调因果驱动,就是去想清楚原因,然后再去讲逻辑。当然,这种方式比起拍脑袋决策肯定要科学很多。但是,它有一个很大的问题,就是效率比较低。很多事情等你想清楚原因再做决策,可能最佳时机都已经错过了。

那么,有没有更好的方式呢?更好的方式就是我们今天聊的数据驱动。很多事情我们可能还没弄清楚原因,但我们知道在什么样的情况下效果最好,那我们就可以直接把最好的效果用起来。至于原因是什么,我们可以慢慢去想。比如一个网站页面,是绿色背景好,还是蓝色背景好,你可能很难去做决定。但是,我们可以去做A/B测试,分析哪边的点击率高。如果绿色背景的点击率高,那我们就选择他,至于为什么会这样,我们可以慢慢去想,但是先要让大家使用点击率高的方式查看。

如何去实现数据驱动决策呢?其实挑战还是很大的,至少到现在为止还做不到很理想。比如一个创业公司最开始决定要做一个什么样的产品,这时候其实没办法拿到很多的数据,还是需要凭直觉做决策。但是,这个阶段尽量让它缩短,让它更可控一些,通过更少的代价去达到一个验证的效果。

如果一家公司的产品已经开始被用户使用,整个公司已经正常运作了,这个时候通过拍脑袋决策而不是看数据,这种方式就不够理想了。

/现实中VS理想中的数据驱动/

创业公司在数据驱动这件事情上会遇到三个常见的问题:

第一、排队等待某个工程师跑数据。不管是产品、市场、运营等等,大家会有各种各样的数据需求。对于公司来说,不可能安排很多工程师去满足数据需求,那怎么办?一般就是排队,一个一个需求去响应。一般这个流程是:数据工程师先跟需求提出者沟通,弄清楚需求是什么;然后再看数据源里面有没有,如果没有,再去升级系统,然后再响应这个需求。这样一来一回,可能需要几天甚至一两周时间,效率是非常低的。

第二、只有仪表盘可以看。通过仪表盘可以看到整体的宏观数据,比如销售额、用户数等,这些数据对于老板做商业决策还是非常有用的。但是,对于具体干活的人来说,只有宏观的数据是不够的。比如我们发现昨天的用户量或者活跃用户数跌了20%,这种情况下,你肯定是要去做数据分析的,只有宏观的数据是远远不够的。我们一般可以按照渠道、地域等维度对数据进行分解,然后再去看是不是有某个渠道或者某个地域有大的波动,这时我们就能更快地去解决问题。

第三、存在多个数据孤岛。对于相对比较大的公司,特别是偏传统一点的公司来说,会有很多部门,每个部门都会有一部分数据。如果你去做数据分析,就要跟不同的部门去打交道,获得审批权限。等审批下来,可能都需要花一段时间。到最后真正审批下来,把这些数据统计到一起去,又是很难搞定的事。

那么,理想状态应该是什么样?我认为应该是实现自助式的数据分析,让业务人员真正掌握数据。就像下图中,我们前面讲的问题就是左边这张图,我把它归结为需求驱动。每次来一个需求,数据工程师从杂乱的数据里面去满足这个需求,整体效率是比较低的,这是一个串行的事情,每一个需求可能需要几天甚至一两周时间。理想状态是右侧这张图,就是反着来。首先把数据源建好,然后提供更强大的数据分析工具,让业务需求者自助式的去满足自己的需求。从一件串行的事情变成一件并行的事情,从一件几天或者几周时间的事情变成一件几分钟甚至几秒钟的事情。那么,我们如何去达到这一点呢?其实这里的挑战还是非常大的。

/数据金字塔的三层:采集、建模、分析/

我们把数据分析平台的建设简化一下,可以分为三层:

第一层:数据采集。

第二层:数据建模,就是把数据进行再组织。

第三层:数据分析,也就是真正去使用数据。

对于非技术人员来说,往往只会







































山东治疗白癜风最好的医院
白癜风疾病



转载请注明:http://www.92nongye.com/hxjs/204612524.html