找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 2844|回复: 4
收起左侧

[Data Science] Data Scientist、Data Analyst、Data Engineer 的区别是什么?

[复制链接]
发表于 3-11-2016 02:05 PM | 显示全部楼层 |阅读模式

亲!马上注册或者登录会查看更多内容!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
也许我可以从所需技能的角度来回答一下。读前注意:很多技术性的地方我自己也是一知半解,是从观察公司里不同职位的人做的事情得出的结论,不能作为专业大牛的参考。这个回答是基于传统零售行业,虽然偏向于大数据,但并非互联网相关行业,而不同行业可能出现相当不同的职业职责范围界定,务必注意。=======干货分割线(其实多半还是水货。。。)========= Data Engineer: 职责:主要考虑怎么多快好省地储存,导入,导出数据,怎么生成可以用来给Data analyst 或者Data scientist作分析的data set,怎么向前端面向用户的工具(front-end tools, e.g. microstrategy)提供数据,等等主要工作:database architecture,data modeling,data quality check, data cleaning, data enrichment/transformation(aggregation, join...) 等等后端(back-end)的工作. (e.g., 小店的每日销售表有A果汁的当天销售记录,但是A果汁的当天库存由另外的库存表记录,而A果汁的进货价格也是由另外的进货表记录,于是现在需要把这三张表整合成一张包含当天A果汁销售记录,库存和进价的表。)技能:所以除了传统的数据库知识(SAP,Oracle,能编程(SQL, MySQL, JAVA, Python...)),大数据背景下,最好要知道hadoop相关的技术知识并且不断更新(随便列一点比较热门的:Spark, Kafka, Lambda architecture...),然后专精一两个。Data analyst: 职责:这个职位通常存在于商业部门而不是IT部门,所需要的技术深浅也跨度挺大。相同点是,通产个这个职位是有日常任务的,也就是要定期出一些报告来分析季度数据,支撑日常决策(e.g,小店下个月/下半年多上架A果汁还是B果汁)。但同时,也会做一些有趣的项目(e.g, 是不是更多的消费者开始喝矿泉水/碳酸盐料/啤酒,而不是果汁,原因是什么。)主要工作技能 A:比较简单的Data analyst的日常职责是reporting(生产dashboard,比如这个月我们卖了多少A果汁,多少B果汁,可能的原因是XXX(这个结论通常并不来自于统计分析,而是定性分析))。这时,skill set中对于本行业的了解的重要性要远高于对于统计分析方法的了解的重要性。Excel和ppt肯定要玩得好,当然啦,reporting和visualization工具还是知道多一些的比较好,比如老牌的microstrategy和比较新的Tableau。重点是:要能快速的产生漂亮且简单易懂,直切重点的分析报告。主要工作技能 B:比较复杂的Data analyst的日常职责是使用聚类或者回归等等基本统计分析来解决例如:打折对销量的影响,分类不同的消费者的问题。这时,skill set中就需要你会一些基本的统计知识,你可以不用知道背后的原理(比如K-means cluster到底有多少种决定组间差异的方法,各有什么优缺点;相关系数的计算公式到底是什么等等),但是首先你得会解释最终结果(比如,最基础的,p-value的意义),其次,你要会用一些工具(基础的比如SPSS,也有人用excel干回归分析的。。,或者高级一点SAS(最好还能写点code))。Data scientist: 职责:这个职位更经常存在于IT部门,或者干脆自己组成一个部门。职责是解决一切Data analyst解决不了的比较复杂的问题。且他们通常是不需要负责定期出报告来分析季度数据的。他们的终极目标是搞出一个高大上的模型,然后可以自动的预测未来趋势.(e.g., 根据过去两年A果汁和B果汁的销售记录和主要外部影响因素(打折,放假,夏天。。。),预测未来每天A果汁和B果汁的销量,并据此调整货价;根据客人XXX所买的各种商品和各种行为,决定要不要在下一期的商品目录向他推荐果汁A)主要工作:从business部门那里收集有趣的/亟待解决的问题,询问Data analyst“你们部门平时都用那些数据,那些前端系统”,然后和Data Engineer商量我们需要从数据库X,Y,Z里面获取M,L,N表,最后生成一个包含A,B,C变量的表来给我作分析。然后用各种升起的统计方法解决问题。同时也还是要生成好看/好用的最终报告。技能:这里有个经典图:The Data Science Venn Diagram实际而言,统计分析知识最好要接近于Statistical PHD的等级(深入了解时间序列啦(比如ARIMAX), Decision Tree啦,等等)。技术知识要能写R,写Python,不仅仅是写普通的统计分析程序,至少要能为这其中一个写点企业专用的package,最好还能和Data Engineer就数据库和R之间的架构和代码转换问题干上一架。PS:其实像google这种能把大数据分析玩的登峰造极的毕竟是少数。许多传统行业的商业部门看见data scientist做出来的统计分析结果(任何纯文字或者excel里面不存在的图表)就会想睡觉或者昏倒。。。所以实际上,也不用特别高大上的统计分析方法,而且有的时候现有数据根本无法支持那些分析方法。。。。
我们始终相信IT会持续改造甚至创新传统行业,我们始终全面看好咱们的CS专业!

0

主题

0

精华

2

积分

新米人

Rank: 1

积分
2
发表于 3-12-2016 03:53 AM 来自美国米群网手机版 | 显示全部楼层
戴西回帖支持!~~~
回复 支持 反对

使用道具 举报

39

主题

2

精华

253

积分

高级会员

Rank: 3Rank: 3

积分
253
发表于 3-14-2016 08:12 AM | 显示全部楼层
谢谢楼主,终于弄懂了这三个职位了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表