找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 4029|回复: 10
收起左侧

[Data Science] 大数据工程师DE vs 大数据科学家DS - 数据行业岗位内幕

[复制链接]
发表于 4-15-2016 02:07 AM | 显示全部楼层 |阅读模式

亲!马上注册或者登录会查看更多内容!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据行业岗位内幕 Data Engineer vs. Data Scientist
看更多大数据的文章,请大家点击全站每个页面右下角的 数据应用学院
http://www.datalaus.com/  最专业的大数据课程)

大数据招哪些人?这么多公司需要大数据人才,小伙伴们也纷纷跃跃欲试投身这场数据革命中。可到底大数据有哪些岗位需求呢?对用人的要求是怎样的呢?我们今天来仔细看一看。




数据行业里面,跟数据有关的岗位一般有三种:1. Data Analysis, 2. Data Engineer, 3. Data Scientist.1Data AnalysisData Analysis是比较entry level的数据分析师,也指传统的数据分析岗位,用用regression model,做做回归分析,或者拿Excel处理一下几页的数据,出一张QQplot的图,甚至就算用的是Tableau画出很高大上的效果图,其实岗位也还是Data Analysis。这种岗位的需求存量较大,但不是本文的重点。本文重点介绍后两种,Data Engineer 和Data Scientist。2Data EngineerData Engineer主要职责是经营,维护数据仓库。在岗位上做的很多是“我吃的是草,挤出来的是奶”的活儿。对,就是数据的ETL (Extraction, transform, Load),将所需的数据从不同来源不同格式的数据源中提取出来,转换类型以方便使用,然后归档入数据仓库。传统的Data Engineer使用很多SQL的工具,包括MySQL,Oracle SQL等来协助完成这项任务。一般来说,Data Engineer需要有一定的CS背景,需要能够编程,而且指不定什么时候服务器又down了,你还得会修。现在不会?学嘛~。



However, 在‘大数据’时代,面对动辄每天几百G的数据规模,仅仅掌握传统的数据工具,最终结果只能是‘臣妾不能够’。于是越来越多的Data Engineer需要掌握新的技能,利用分布式的系统来完成对数据的ETL。 现在用得最广泛的就是Hadoop和Spark。分布式架构的Hadoop生态系统包含很多组件和应用工具,分布式文件系统HDFS,分布式SQL工具Hive,流处理工具Storm,消息分发工具Kafka,系统资源管理工具Yarn等。Data Engineer们需要利用这些工具配合程序开发来完成数据处理的工作。
所以对于Data Engineer来说,在掌握一定的计算机编程能力的同时,还需要对于Hadoop生态系统及相关工具应用有相当的熟悉程度。
就像右图中的招聘要求一样。

0

主题

0

精华

2

积分

新米人

Rank: 1

积分
2
发表于 4-15-2016 02:07 AM | 显示全部楼层
HellenSong回帖支持!~~~
回复 支持 反对

使用道具 举报

3

主题

0

精华

69

积分

资深会员

Rank: 2

积分
69
发表于 4-15-2016 02:41 AM | 显示全部楼层
感谢分享,赞一个
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表