本文长度为4970字,建议阅读6分钟
本文为你提供如何切实参与到数据科学和/或大数据职业道路的建议。
最近有许多人联系我(大部分都是通过领英)寻求着手数据科学和/或大数据的建议。这些人普遍对切入这个“领域”感兴趣,并且需要些关于如何切入方面的指导。
然而,我怀着极大的尊重来说这个话,这些请求的中心含义体现出请求者对自己所要求的事情其实并不理解。是的,不论在学习什么,每个人都需要从某个地方开始。我不会再一个个去回答这些相似的问题,这篇文章会列出和数据科学和/或大数据职业道路相关的一些基本的概念,并且,很希望提供一点如何切实参与到这个复杂领域的建议。
预备阅读
在我们继续深入之前,读一读这些文章。我是说真的,读,这些,文章。
解析数据科学谜题
(http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)
再析数据科学谜题
(http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)
解析数据科学和大数据
(http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)
预测性科学 VS 数据科学
(http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)
第一篇文章概览数据科学中一些最主要的概念,而第二篇文章则是今年早些时候对这些概念的更新。第三篇文章更深入地解析了数据科学和大数据之中的概念。最后一篇文章对比了一些其他术语,对“数据科学”这个术语的复杂性和微妙性进行了简短的探讨。
我将众多的职业可能性拆分成五条能够轻松掌控的道路。虽然可能有很多人强烈反对这种角色划分并且因此感到恐慌,但它确实对技能和职业责任进行了高度的分类。因此,我相信接下来的内容能有效地帮助新来者在这个专业领域中所存在的令人混淆和迷惑的无数机会之中确认方向。
数据管理专员
这本质上是一个IT职业,类似于数据库管理员。数据管理专员被认为和管理数据以及支持数据管理的设施有关。这个职位和数据分析只有很少关联,也类似Python和R语言的使用也不是很必要。可能会用到SQL语言,以及和Hadoop相关的查询语言,比如Hive和Pig。
关键技术以及需要关注的技能:
Apache Hadoop和它的生态系统
Apache Spark和它的生态系统
SQL以及关系数据库
NoSQL数据库
延伸阅读:
解析大数据关键术语
(http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)
解析数据库关键术
(http://www.kdnuggets.com/2016/07/database-key-terms-explained.html)
解析Hadoop关键术语
(http://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)
解析Apache Spark关键术语
(http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)
解析云计算关键术语
(http://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)
七步理解NoSQL数据库(http://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)
七步掌握数据科学所需的SQL
(http://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)
数据工程师
这是一条非分析大数据职业道路。记得在刚刚的职业道路之中提到的数据设施吗?是的,它们需要被设计和执行,数据工程师就承担了这部分工作。如果说数据管理专员是汽车修理师,那么数据工程师就是汽车工程师。不过不要搞错了,这两个角色都对你的汽车的行驶和持续工作至关重要,对你从A点驾驶到B点同样重要。
说句实话,数据工程师和数据管理专员所需要的技术和技能是相似的,然而,他们各自在不同的层次理解和使用同样的概念。我不会重复之前一种职业中所提到的那些信息(所有这些信息对数据工程师都很重要),但我会专门给数据工程师补充延伸阅读的清单。
延伸阅读:
顶级NoSQL数据库引擎
(http://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)
顶级大数据处理框架
(http://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)
顶级Spark系统环境项
(http://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)
Hadoop和大数据:对于前六大问题的回答
(http://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)
为什么数据科学家和数据工程师需要理解云中的虚拟化
(http://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)
商业分析师
在本文里,商业分析师指的是与数据分析和数据呈现紧密相关的角色。包括报告,仪表板和任何被称为“商业智能”的东西。 这种角色通常要求与关系数据库和非关系数据库以及大数据框架的交互(或查询)。
虽然前两种角色与设计基础设施来管理数据以及实际管理数据有关,但商业分析师主要关注从那些或多或少存在的数据中提取信息。 这与以下两个角色(机器学习研究者/从业者和以数据为导向的专业人员)形成对比,两者都侧重于从数据或数据以外已知的一些表面信息中获得洞察力。 因此,商业分析师需要在所呈现的这些角色中具有独特的技能。
关键技术以及需要关注的技能:
SQL和关系型数据库
NoSQL数据库
经常会用到商业报告和仪表盘封装技术
报告从本质来讲是没有固定模式的,快速掌握工具的使用是关键
数据仓库
延伸阅读:
2016年人工智能的10大趋势
(http://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)
嵌入式分析:人工智能的未来
(http://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)
自建还是购买–分析表盘(可视化分析)
(http://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)
机器学习研究员/从业者
机器学习研究人员和从业者指的是那些制作和使用预测和相关工具进行数据利用的人。 机器学习算法允许以较高的速度应用统计分析,并且那些操作这些算法的人不满足于让数据以其当前形式呈现出来。 数据询问是机器学习爱好者的工作方式,但是具有足够的统计理解才能知道何时推进的足够远,以及什么时候提供的答案不可信。
统计和编程是机器学习研究者和实践者最大的财富。
关键技术以及需要关注的技能:
统计学!
代数与演算(从业者的中级水平,研究员的高级水平)
编程技能:Python,C ++或其他一些通用语言
学习理论(从业者的中级,研究员的高级水平)
理解机器学习算法的内部工作原理(算法越多越好,理解越深越好!)
领取专属 10元无门槛券
私享最新 技术干货