原标题 | How to avoid rookie mistakes in the field of Data Science?
作 者 | Pritha Saha
翻 译 | CONFIDANT(福建师范大学)
编 辑 | Pita
我最近开始通过自学成为数据科学家的旅程,这条路并不总是一帆风顺的,因为没有人给我详细而有序的教学大纲。我尝试做了几件事,都没有很成功,但后来又有所收获。如果您是一位有抱负的数据科学家,本文可能会帮助您避免犯我曾经所犯的错误。
首先,永远不要试图通过死记硬背学习机器学习算法,大脑只保留了其中的一部分,掌握它们的最好方法是不断练习,没有捷径!
我犯了一个错误,在 Udemy上修“机器学习 A-Z:Python 和 R 在数据科学中的应用”这门课时我学会了课程的前半部分,但作为一个初学者,读完剩下的部分最终变得单调乏味。我确实对大多数算法有了直观的认识,但现在回头看,我觉得我本可以不学这门课。
其次,不要忽视编程,这是掌握数据科学的关键部分。你最好精通编程语言,特别是最受欢迎的Python,因为它拥有大量的库,这有助于数据科学家随时部署可用的工具。此外,大多数课程和比赛都要求我们用Python编写代码。因此,“python式”的思维模式对于数据科学的职业生涯是至关重要的!
我得到了两个资源的帮助——开始的Codecademy和后来的Datacamp。我很快就放弃了Codecademy,因为它从一个非常基本的层次开始——可能是为那些不是来自技术领域的人准备的。我订阅了一年的Datacamp,从数据科学的角度来看,这是一个很好的学习Python的资源。你最终要学习的图书馆课程有numpy、scipy等有关于数据分析和可视化的项目。同样,我们没有必要记住语法,熟悉该语言的函数和包是很重要的,而准确的语法你可以在google上搜索到。Stack Overflow是一个很好的资源,可以找到查询的答案,也可以回答其他人的问题。
此外,在不分析数据集的情况下,人们甚至不应该考虑机器学习算法。机器学习部分只有2-3行代码,其余部分用于详细的数据分析和可视化。如果不知道数据中的模式,就不可能确定哪些输入对输出很重要,从而消除数据中的噪声,最后转换数据,使其为模型使用做好准备。Kaggle是一个很好的资源,可以让您开始进行简单的机器学习练习(Titanic和房价预测),并着手进行数据清理和转换。
在后面的文章中,我将更多地介绍数据工程。在那之前,保持对成为数据科学家的憧憬,努力寻找解决遇到的任何问题!
via https://towardsdatascience.com/how-to-avoid-rookie-mistakes-in-the-field-of-data-science-3076017cdab1
封面图来源:https://www.adcreview.com/articles/big-data-in-science-which-business-model-is-suitable/