发布
社区首页 >问答首页 >数据科学领域最重要的课程/科目是什么?

数据科学领域最重要的课程/科目是什么?
EN

Data Science用户
提问于 2015-08-29 00:46:37
回答 4查看 9.8K关注 0票数 6

我已经承担起了开始换工作的责任。我有良好的数学背景,但缺乏编程或数据科学的特定技能(如数据处理)。我一直在研究数据科学课程,并且已经被一门适当的数据科学课程所包含的大量学科所淹没了。仅举几个例子:自然语言处理、机器学习、R、Python、SQL、NoSQL、概率、统计、数值方法、算法和列表。

我负担不起回学校,但如果我的目标是进入数据科学,我应该集中注意力在哪些科目?

我完全理解“数据科学”是一个很大的领域,但肯定有几门学科对所有的人来说都是重要的,即使不是绝大多数,这些子领域也是如此。我想这基本上就是我的问题。我还没有获得足够的曝光量来确定我想要专攻的领域,所以在这一点上,我关心的是获得一个基金会,它不会限制我进入任何特定的子领域,或者换句话说,研究对所有子领域都有好处的学科。

注:与其他科目相比,数学对我来说不是那么重要。

EN

回答 4

Data Science用户

发布于 2015-08-30 03:20:29

也许最有用(也最有趣)的答案是由优秀的Swami Chandrasekaran提供的.以地铁地图的形式:

我只想补充一点:学校(或为了学习而学习)不能提供与解决一个真正的问题相同的经验。因此,要学习,找到真正的问题,你可以解决。为了保持动力,让他们成为你真正关心的问题。卡格尔比赛是一个很好的起点。即使是复制一个成功的解决方案(可能有一些变化,或者在一个新的数据集上),也将是一次巨大的学习体验。

票数 5
EN

Data Science用户

发布于 2015-08-30 02:27:31

“数据科学”不是一个很好的术语,人们用它来表达不同的意思。对某些人来说,这可能意味着在分布式系统上使用庞大的数据集;对某些人来说,这基本上是数据分析;对于某些人来说,这意味着使用稀疏矩阵编写预测模型(这就是我)。因此,你应该接近你感兴趣的东西。你不必什么都知道。

一般来说,数据科学是由计算机科学和统计两个领域组成的。对两者的基本理解至关重要。

票数 3
EN

Data Science用户

发布于 2015-09-10 00:41:26

我和你一样,把自己的职业道路变成了数据科学这一日益增长的领域。作为背景,我在一个神经科学研究实验室工作,研究等位基因变异对老年痴呆症和创伤后应激障碍的啮齿动物模型蛋白质转运的影响。我是一个有能力的R,bash和Matlab黑客,知道一点C和Java。当我开始申请神经科学PhD课程时,我改变了主意。

在接下来的一年里,我修了几门研究生水平的统计课程,并恢复了我的编程技能。去年,我开始了一个CS的MS项目,目的是在工业界找到一份数据科学家的工作,2)学习如何用算法/数学方法思考数据,3)真正提高我的基本CS技能--在这个过程中得到一些乐趣。

我不会列出有帮助的具体课程,但对我来说主要的获奖主题是:

  • 算法
    • 两种基本标志
      • 复杂性分析,排序和搜索,图算法,动态规划,随机算法等。提姆·鲁格花园有一个很好的过程。

代码语言:javascript
代码运行次数:0
复制
- data mining/massive dataset/stream algorithms  
    - locality sensitive hashing, sketch algorithms, kd/ball trees, reservoir sampling, sliding window methods, etc. 
  • 数据库/数据流:
    • noSQL、SQL、hadoop等。与它们一起工作迫使您开始意识到,您将处理的大多数数据完全不适合内存,并且需要独特的方法来从其中提取信息,而且只需要对其进行处理和检查。了解如何通过构建网络刮刀或数据收割机来填充数据库(或其他任何您想要的.)

  • 机器学习
    • 学习该领域的基本方法,如基于树的方法、优化、神经网络、svms、回归、马尔可夫链、图解方法、集成方法、过拟合、正则化、聚类、k-均值、knn等。吴家祥的课程可能是这一领域最好的开源解决方案。
    • 编辑:课程很好,如果你用真实版本(讲座备注)的东西来补充它的话。我认为Cour血清类对ML中的主题有一点简单和很好的概述,但对这些主题的机制还不够深入。汤姆·米切尔的也是一个很好的资源。

  • 数据可视化
    • 没有什么是完全必要的,但是知道如何可视化多维数据是非常有用的。学习一个很好的绘图包,也许还可以尝试其他技术,比如D3.js或映射可视化。如果你得到了真的很擅长这个,你可能永远都有一份很棒的工作。

  • “真实世界”体验
    • 我在一家大型网络公司做数据科学的三个月里学到的东西,比我在过去1.5~ 3年的研究生院和自学中学到的还要多。这可以通过进行Kaggle竞赛之类的方式来近似,但老实说,与Kaggle上的大多数数据相比,野外的数据要难得多(请注意,微软的恶意软件检测项目或一些计算机视觉项目对于学习处理同样“大”的杂乱数据更为有用)。

请注意,我没有提到“学习R--这是最好的”或“学习python --它比R更好”之类的东西。我使用Python、C、MySQL、MongoDB和R来完成我的大部分工作和当前的研究(尽管我现在非常喜欢python生态系统)。我相信这种情况将来会改变的。

这有点超出了你的问题,但作为一名行业数据科学家,最关键的事情可能是能够以一种几乎没有监督的方式工作,并向一组非专家清楚地传达结果/方法。有一个科学研究的背景有助于这一点,因为你试图回答的问题是困难的,通常是非结构化的,并且经常处于你的领域的知识的悬崖边缘。我的朋友、熟人和过去在工业界担任数据科学家的同事几乎都是有硕士或博士学位的前学术门路人士,而且至少有一些出版物在他们的腰包里。我绝对不相信这是一个严格的要求,如果我处于招聘职位,我绝不会选择仅仅因为某人没有高级学位就把他们排除在外,但行业招聘似乎倾向于要求获得硕士/博士学位或同等经验。

请记住,所有这一切都来自于一个来自无名氏的家伙,他没有在球场上呆那么久,但他的转变似乎很顺利。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/6937

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档