原作者:理查德·瓦勒潘(warepam)。小草编译。 推荐理由:实用。原文地址:https://medium.com/illumination/how-to-effectively-learn-data-science-in-2024-b3f508db4f67
一直以来我都是一个靠自己学习的人。关于编程和商业的一切都是在没有导师的情况下学到的。当然,这并不容易,但我喜欢自学之旅的每一步。
你呢?也在走自学之路吗?
接着来与您分享一些令人兴奋的事情。与早年相比,今天的自学是轻而易举的事。那么游戏规则的改变者是什么呢?— AI 工具,尤其是 ChatGPT。
这就是一位助手、导师合而为一。
在本文中,我将深入探讨“从哪些主题开始”和“如何处理它们”,此外我还将提供一些超级有用的提示。
准备好踏上这段旅程了吗?让我们深入了解吧!
在这里,不会解释所有的主题;相反,将指出需要学习的内容才能开始数据科学之旅。
现在,先来谈谈很多自学者在深入研究数据科学时遇到的一个大问题。
通常,他们会跳过“统计学习”,直接转向 Python、SQL 或其他技术内容。
但我的建议是:从“统计学习”开始
在进入其他领域之前,要真正花时间在上面并认真对待它。这是成为出色的数据向导的关键一步。
🎯统计待办事项清单:A.概率论 B.描述性统计 C.推论统计 D.统计机器学习
那么,你握了统计的窍门吗?接下来,是时候选择一种编程语言来提高您的数据科学技能了。
这里有两个非常好的选择:Python和R。
现在,应该选择哪一个?这完全取决于感觉舒服的程度。
但是,如果你问我,我会说Python 是一个超级选择。
为什么? — 因为它超级通用且易于掌握。另外,Python 还包含大量库。这些就像工具包一样,可以让您的工作变得更加轻松,无论您是在处理数据、进行复杂的计算还是其他任何事情。
另一方面,还有 R。R 非常棒,特别是如果您只关心统计的话。它就像统计分析的首选语言。但请记住,这主要是关于统计数据。
因此,请考虑您需要什么并选择适合您的。
如果您想成为数据科学领域的多面手,Python 可能是您最好的选择!
🎯 Python 待办事项清单
Python基础知识Pandas 和 NumPy 库(DataFrame 基础知识和操作)
可视化(Matplotlib 和 Seaborn 库)
数据抓取(BeautifulSoup、Scrapy、Selenium 或 Requests 库)错误处理和调试
3. EDA——数据整理和可视化
刚刚迈出了进入 Python 世界的第一步——恭喜!现在,来谈谈接下来会发生什么。
作为数据科学的新手,很容易认为这就是深入研究数据以找到那些令人大开眼界的见解。
可能会想将大部分时间花在分析数据或构建复杂模型上。
但首先需要学习一些更基础的东西:EDA,即探索性数据分析。
EDA 是每个公司数据科学工作的支柱。
它涉及清理、总结、转换和可视化数据。
这些任务听起来可能不像构建模型那么迷人,但它们至关重要。
事实上,对于像您这样的初学者来说,掌握 EDA 是在该领域找到第一份工作的关键一步。
虽然分析趋势和构建模型是数据科学的一部分,但它们通常由更有经验的专业人士负责。因此,专注于成为 EDA 领域的佼佼者—这是您在数据科学领域成功起步的门票!
🎯 EDA 待办事项清单 A.数据汇总 B.数据清理 C.数据转换 D.数据可视化
4. SQL(数据操作和提取)
除了Python之外,编程世界中还有另一个关键角色:SQL(结构化查询语言)。
如果您已经掌握了 SQL,您猜接着怎么着?刚解锁了工作机会的宝库!SQL 是所有行业都急需的技能。它是查询和操作数据库的首选工具。
能够读取、写入和优化 SQL 查询对于提取和调整数据至关重要。
这是一项真正提升你的数据游戏能力的技能!
🎯 SQL 待办事项清单 A. 6 大语句:(SELECT、FROM、WHERE、GROUP BY、HAVING 和 ORDER BY )连接 B.窗口函数 C.存储过程
好吧,如果您掌握了我们讨论的所有技能,那么您就有望成为一名“数据分析师”。
不过,请注意- 不要忘记学习可视化或报告生成工具,例如PowerBI或Tableau。它们至关重要!
但是,目标是成为“数据科学家”还是“数据工程师”?这是一场不同的球赛。您将需要一些额外的、更高级的技能。现在让我们深入探讨一下。
从这里开始,学习路径变得更加困难和复杂,因为这些主题不太适合初学者。
对于这些技能,人们需要更好地理解数学主题,如线性代数、微积分, 甚至一些先前的计算理论知识。让我们深入了解一下。
现在您已经掌握了基础知识,您已经具备了数据抓取、清理和统计分析等技能。
您知道该怎么做:将原始数据转化为有用的东西。
下一步是什么?
使用这些数据构建模型,解锁更深入的内容并推动明智的业务选择。
这就是“机器学习”发挥作用的地方。这一切都是为了教计算机像人类一样思考和从数据中学习。
这个旅程涉及理解各种算法,从简单的线性回归到复杂的神经网络(这对你来说是深度学习)。
当然,这些概念可能看起来很难,但它们是尖端技术。
接受挑战并学习,否则就有落后的风险。这是你的选择!
🎯机器学习待办事项清单 A.特征工程 B.监督学习和无监督学习 C.回归算法(线性回归、逻辑回归等) D.分类算法(逻辑分类、SVM、朴素贝叶斯等) E.聚类算法(主要是 K 均值) F.深度学习概念(ANN、CNN、RNN、Transformers、PyTorch/张量流基础知识)
创建机器学习模型后,您很自然会想知道它们的表现如何。
这很棘手,因为这些模型内部发生的事情可能非常复杂。
这就是评估模型的重要性所在。
在数据科学中,确保模型正常工作至关重要。这意味着您绝对应该了解“模型评估方法”。
它们是理解和改进模型的关键!
您需要了解的信息是:
这些信息将指导改进模型以实现您的预期目标。
🎯模型评估待办事项清单 A. 混淆矩阵 B.精确率、召回率和 F1 分数 C.交叉验证 D.过拟合、欠拟合
现在,为那些梦想成为数据科学家的人讨论两个高级主题。
如果已经做到了这一步,那么您就快要开始作为数据科学家的旅程了。
但是等等,还有一件事。除了基础知识之外,还有一个对于数据工程师来说非常关键的高级主题。那就是:
让我们深入探讨数据工程师的角色。
他们的主要工作?
处理数据的“工程”方面。这涉及到从各种来源收集数据和建立自动化流程等任务。
本质上,他们构建了一个数据流或管道来将所有这些数据收集到一个地方。这就是学习“大数据技术”变得至关重要的地方。
问为什么要“大数据”?
当今世界数据泛滥,而且数量巨大,这就是为什么它被称为“大数据”。
为了解决这个问题,您必须熟悉几种技术。我知道这听起来需要接受很多东西。
但这里有一个友好的建议:当您学习这些技术时,请集中精力理解它们的基本概念。
尽管技术本身总是在发展和变化,但这些基本概念保持不变。
这种方法将为您提供适应技术并与技术一起成长的坚实基础。
🎯大数据技术待办事项清单 A.大数据简介 B.分布式系统 C.Hadoop(映射缩减) D.火花 E.云计算chatgpt for learning Data Science
“请以具有该领域[基础/中级/高级]知识的人可以理解的方式解释[主题]的概念。专注于简化复杂的方面并提供[选择:类比/示例/两者]以使其更具相关性。
附加说明:[可选:指定您是否需要该主题的简要历史、应用程序或含义]”
“您能为[问题类型]任务提供[ Python代码示例/统计问题解决方案]吗?该任务应该适合具有[初级/中级/高级]技能的人。请在代码中添加注释或分步解释以阐明思考过程。
具体内容:[可选:包括具体要求,例如要使用的数据集、算法、统计方法或库]”
“请提供[算法名称]的详细解释。这应该包括[选择:其工作原理、用例、优点、局限性和/或与其他类似算法的比较]。针对具有[基础/中级/高级]算法理解的人进行解释。
视觉辅助:[可选:如果需要,请求图表或伪代码] 具体问题:[可选:包括您想要解决的算法的任何具体问题或方面]”
语言/框架:[例如Python、JavaScript、React ] 代码描述:简要描述您的代码的用途。 问题描述:清楚地描述您遇到的问题(例如,错误消息、异常输出、性能问题)。 代码片段:[在此处插入您的代码片段。确保其简洁且与问题相关。 ]
以前的尝试:[可选:提及您已采取的任何故障排除步骤。] 具体问题:[可选:询问与您的调试问题相关的具体问题。 ]
好了,你的自学路线图已经准备好了。但请记住,仅学习这些技能并不能立即让您找到工作。以下是您还需要做的事情: