Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >6 个核心理念!诠释了吴恩达新书《Machine Learning Yearning》

6 个核心理念!诠释了吴恩达新书《Machine Learning Yearning》

作者头像
红色石头
发布于 2022-01-12 07:24:43
发布于 2022-01-12 07:24:43
6630
举报

编译 | 红色石头

吴恩达的《Machine Learning Yearning》主要讲的是如何构建好的机器学习项目。这本书包含了很难在其他地方找到的实际见解,其格式很容易与队友和合作者分享。大多数人工智能技术课程都会向你解释不同的 ML 算法如何在框架下工作,但是这本书教你如何实际使用它们。如果你渴望成为人工智能的技术领导者,这本书将帮助你的道路。历史上,学习如何对人工智能项目做出战略决策的唯一方法是参加研究生课程或获得在公司工作的经验。《Machine Learning Yearning》是有助于你快速获得这种技能,这使你能够更好地建立复杂的人工智能系统。

关于作者

吴恩达是一位计算机科学家、执行官、投资者、企业家,也是人工智能领域的 Top 专家之一。他是百度的前副总裁兼首席科学家,斯坦福大学的兼职教授,最受欢迎的机器学习在线课程之一的创建者,coursera.com 的联合创始人和谷歌大脑的前任负责人。在百度,他曾将人工智能团队扩展到数千人。

介绍

《Machine Learning Yearning》这本书从一个小故事开始。想象一下,你想在公司里建立一个性能领先的猫识别系统。您已经构建了一个原型,但不幸的是,您的系统的性能没有那么好。您的团队提出了几个关于如何改进系统的想法,但是您对遵循哪个方向感到困惑。你可能建立世界领先的猫识别系统,或者在错误的方向上浪费数月的时间。

这本书是要告诉你如何在这样的情况下作出决定,找到最优解决方案。吴恩达提出大多数机器学习问题都会留下关于下一步该如何做的线索,以及你应该避免做的事情。他继续解释说,学习“阅读”这些线索是我们领域的一项关键技能。

简而言之,ML Yearning 为你提供一份关于如何设置机器学习项目技术方向的深层次的理解。

由于你的团队成员在你提出新想法时可能会持怀疑态度,所以吴恩达把这些章节写得很短(1-2 页),这样你的团队成员就可以在几分钟内读懂它来理解这些概念背后的概念。如果你有兴趣读这本书,请注意,它不适合完全初学者,因为它需要基本熟悉监督学习和深入学习。

在这篇文章中,我将用我自己的语言总结这本书的 6 个核心理念。

1. 迭代、迭代、再迭代

吴恩达在书中强调,快速迭代非常重要,因为机器学习是一个迭代过程。不要考虑如何为您的问题构建完美的 ML 系统,您应该尽可能快地构建一个简单的原型。如果你不是问题领域的专家,这一点尤其正确,因为很难正确猜测最有希望的方向。

你应该在几天内构建第一个原型,然后弹出提示,向你展示改进原型性能的最有希望的方向。在下一个迭代中,你将根据其中的一个提示继续改进系统,并构建下一个版本的系统。你会一次又一次地这样做。

吴恩达继续解释说,迭代的越快,你将取得更多的进展。这本书的其它概念,都是建立在这一原则的基础上。但请注意,这是为那些只想构建基于人工智能的应用程序而不想在该领域进行研究的人设计的。

2. 使用单一的评价指标

这个概念建立在前一个概念的基础上,关于为什么选择单个数字的评估度量的解释非常简单:它使您能够快速评估算法,因此您能够更快地迭代。使用多个评估指标只会使比较算法变得更加困难。

假设你有两个算法。第一个具有 94% 的精确率和 89% 的召回率。第二种方法的精确率为 88%,召回率为 95%。

如果你没有选择一个评估指标,那么不知道哪个分类器是更好的,因此可能需要花费一些时间来弄清楚。问题是,在每次迭代中都会为这个任务浪费大量时间,并且从长远来看,累积起来耗费的时间更多。你将尝试许多关于体系结构、参数、功能等想法。如果使用单个数字评估指标(如精确率或 F1 分数),则可以根据模型的性能对所有模型进行排序,并快速确定哪个模型最有效。改进评估过程的另一种方法是将多个度量合并为一个度量,例如,通过平均多个错误度量。

然而,仍然存在需要满足多个指标的 ML 问题,例如:运行时间。吴恩达解释说,你应该定义一个“可接受的”运行时间,这使你能够快速地整理出速度太慢的算法,并根据你的单个评估指标得到令人满意的算法。

简言之,单个评估指标能使你能够快速评估算法,从而更快地迭代。

3. 错误分析是关键

错误分析是查看分析算法输出错误的过程。例如,假设你的猫识别器把鸟误认为猫,并且你已经对如何解决这个问题有了一些想法。

通过适当的错误分析,你可以估计改进的想法实际上会提高系统性能的程度,而无需花费数月的时间来实现这个想法,然后发现它对提升系统并不重要。这使你能够决定哪种想法是值得花最多的资源去实现的。如果你发现错误分类的图像中只有 9% 是鸟,那么无论你多大程度上改进算法在鸟分类上的性能,结果并不重要,因为它不会提高超过 9% 的性能。

此外,吴恩达提出几个使你能够快速进行错误分析的想法。您只需要创建一个电子表格,然后从验证集中选取 100 个错误分类的图像。在电子表格中,为每一个错误分类的图像创建一行,为每一个需要改进的想法创建一列。然后你检查每一个错误分类的图像,并记录哪些改进想法能够使该错误图像被正确分类。

比如,这样做之后你会发现,使用 IDEA-1,系统将正确分类 40% 的错误分类图像,使用 IDEA-2,正确分类 12%,使用 IDEA-3,正确分类只有 9%。然后你就会知道,IDEA-1 是你的团队应该做的最有希望的改进。

此外,一旦你开始查看这些错误分类的图像,你还可能会发现改进算法的新想法。

4. 定义一个最佳错误率

最佳错误率有助于指导您接下来的步骤。在统计学中,它也经常被称为贝叶斯误差率。

想象一下,你正在构建一个语音转文本的系统,你发现用户提交的 19% 的音频文件有比较大的背景噪音,甚至人都无法识别其中所说的内容。如果是这样的话,即使是最好的系统也可能有高达 19% 的误差。相反,如果你处理的是一个最佳错误率接近 0% 的数据集,你的系统应该会表现得更好。

定义一个最佳错误率还会帮助你检测算法是否存在高偏差或方差,这有助于你定义下一步改进算法。

但我们如何知道最佳错误率是多少呢?对于人类擅长的任务,您可以将系统的性能与人类的性能进行比较,从而估计出最佳错误率。在其他情况下,通常很难定义一个最佳错误率,这就是为什么你应该研究人类在某些问题上能够做得很好的问题,我们将在下一部分讨论。

5. 努力解决人类能做得很好的问题

在整本书中,吴恩达解释了好几次为什么建议专注于人类擅长的领域上研究机器学习。例如语音识别、图像分类、目标检测等。这有几个原因。

首先,更容易获得或创建一个标记的数据集,因为如果人们能够自己解决问题,那么他们很容易为你的学习算法提供高精度的标签。

其次,你可以使用人工性能作为希望用机器算法达到的最佳错误率。吴恩达解释说,定义了一个合理且可实现的最佳错误有助于加快团队的进度。它还可以帮助你检测你的机器算法是否存在高偏差或方差。

第三,它能使你能够根据人类直觉进行错误分析。例如,如果你正在构建语音识别系统,并且你的模型对输入进行了错误的分类,那么你可以尝试了解人类将使用哪些信息来获得正确的识别,并使用这些信息相应地修改学习算法。虽然算法在越来越多的任务上超过了人类,而人类自己却做不好,但是你应该尽量避免这些问题。

总的来说,你应该避免这些人类不擅长的任务,因为这会使你的数据更难获得标签,你不能再依靠人类的直觉,而且很难知道最佳错误率是什么。

6. 如何划分数据集

吴恩达还提出了一种如何分割数据集的方法。他建议如下:

训练集:使用它,你可以训练你的算法,而不需要其他任何东西。

验证集:这个集合用于进行超参数调整、选择和创建适当的特性以及进行错误分析。它基本上是用来决定你的算法的。

测试集:测试集用于评估系统的性能,但不用于做决定。它只是用来评估的,没有别的。

验证集和测试集允许你的团队快速评估算法的性能。它们的目的是指导你对系统进行最重要的更改。

吴恩达建议使用验证集和测试集,以便在未来系统部署之后,你希望在哪个数据集上表现得更好。如果你实际用到的数据与当前训练的数据不同,这一点尤其重要。例如,你训练模型的时候使用的普通相机拍摄的图片,但实际应用中系统将只接收手机拍摄的照片,因为它是一个手机 app 应用。如果你没有足够的手机照片来训练你的系统,这可能就会出问题。因此,您应该选择测试集,这些测试集反映出你希望在以后的实际情况中表现出色的数据类型,而不是用于训练的数据。

另外,您应该选择来自同一分布的验证集和测试集。否则,你的团队有可能会在验证集上构建一些性能良好的模型,结果发现它在测试数据上的性能非常差,这是你最关心的。

总结

现在你知道了,为什么快速迭代很重要,为什么应该使用单个评估指标,以及什么是错误分析,为什么它至关重要。此外,你还了解了最佳错误率、为什么你应该处理人类可以做得很好的机器学习问题以及如何划分数据。另外,您应该选择来自同一分布的验证集和测试集。希望这篇文章能给你介绍一下这本书的一些关键概念,我可以肯定地说这本书值得一读。

原文链接:

https://towardsdatascience.com/6-concepts-of-andrew-ngs-book-machine-learning-yearning-abaf510579d4

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/03/02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Andrew Ng的《Machine Learning Yearning》中六个重要概念
Andrew NG是计算机科学家,执行官,投资人,企业家,也是人工智能领域的领先专家之一。 他是百度的前任副总裁兼首席科学家,是斯坦福大学的兼职教授,是最受欢迎的机器学习在线课程的创建者之一,Coursera.com的联合创始人以及Google Brain的前负责人。 在百度,他的积极参与将人工智能团队扩展到数千人。
AI研习社
2019/05/14
5750
吴恩达新书《Machine Learning Yearning》中7个实用建议(附论文)
《Machine Learning Yearning》是人工智能和深度学习界的专家吴恩达写的一本书,这本书致力于讲明白机器学习算法是怎样工作的,以及如何构建一个机器学习项目。这里我们选取了这本书中7个非常有用的建议向大家介绍。
数据派THU
2018/07/30
3480
吴恩达新书《Machine Learning Yearning》中7个实用建议(附论文)
从六大概念总结吴恩达新书:做好工程实践应该这样走
《机器学习训练秘籍》(Machine Learning Yearning)这本书讲的是如何构建机器学习项目的开发流程。该书包括了许多在别处难得一见的实用见解,讲述的形式又非常适合分享给团队中的其他成员以及合作者。大多数人工智能方面的课程会向你阐释不同机器学习算法的工作原理,而这本书教授的是如何实际使用它们。
机器之心
2019/03/12
3550
从六大概念总结吴恩达新书:做好工程实践应该这样走
吴恩达《机器学习训练秘籍》:7 条关于项目实践的实用建议
翻译 | shawn 出品 | 人工智能头条(公众号ID:AI_Thinker) 《机器学习训练秘籍》(Machine Learning Yearning)是吴恩达的新作,主要讲的是如何应用机器学习算法以及如何构建机器学习项目。本文从这本书中选出了 7 条非常有用的建议。 近年来,人工智能、机器学习和深度学习迅猛发展,给许多行业带来了变革。吴恩达是业内的领军人物之一,他是在线课程项目 Coursera 的联合创始人,前百度 AI Group 领导人,前 Google Brain 项目负责人。目前他正在编写
用户1737318
2018/06/05
5130
吴恩达新书《机器学习训练秘籍》六大要点总结 | 资源
近日,一位名叫Niklas Donges的工程师小哥发表了一篇博客文章,提炼出了《机器学习训练秘籍》中的六大要点。
量子位
2019/04/23
3390
吴恩达新书《机器学习训练秘籍》六大要点总结 | 资源
教你构建机器学习项目:吴恩达新书《Machine Learning Yearning》
【导读】本文主要介绍吴恩达最近正在编写的新书《Machine Learning Yearning》,旨在教你如何构建机器学习项目,它与吴恩达之前机器学习课程有所不同,这本书更加倾向于教你如何组织一个A
WZEARW
2018/04/13
1.1K0
教你构建机器学习项目:吴恩达新书《Machine Learning Yearning》
吴恩达《ML Yearning》| 基础的误差分析& 偏差、方差分析
MachineLearning YearningSharing 是北京科技大学“机器学习研讨小组”旗下的文献翻译项目,其原文由Deep Learning.ai 公司的吴恩达博士进行撰写。本部分文献翻译工作旨在研讨小组内部交流,内容原创为吴恩达博士,学习小组成员只对文献内容进行翻译,对于翻译有误的部分,欢迎大家提出。欢迎大家一起努力学习、提高,共同进步!
马上科普尚尚
2020/05/14
2840
吴恩达《ML Yearning》| 基础的误差分析& 偏差、方差分析
吴恩达|机器学习秘籍(Machine Learning Yearning)
人工智能(AI)、机器学习(Machine Learning )和深度学习(Deep Learning )正在改变很多行业,吴恩达(Andrew Ng)老师编写了一本书:《Machine Learning Yearning》,目的是教你如何构建机器学习项目。
abs_zero
2018/07/25
7360
吴恩达|机器学习秘籍(Machine Learning Yearning)
【重磅首发】吴恩达《ML Yearning》| 分部误差分析(附完整版中英文PDF)
MachineLearning YearningSharing 是北京科技大学“机器学习研讨小组”旗下的文献翻译项目,其原文由Deep Learning.ai 公司的吴恩达博士进行撰写。本部分文献翻译工作旨在研讨小组内部交流,内容原创为吴恩达博士,学习小组成员只对文献内容进行翻译,对于翻译有误的部分,欢迎大家提出。欢迎大家一起努力学习、提高,共同进步!
马上科普尚尚
2020/05/14
6420
【重磅首发】吴恩达《ML Yearning》| 分部误差分析(附完整版中英文PDF)
资源 | 吴恩达《ML Yearning》52章译文,一份很有诚意的GitHub项目
在该 GitHub 项目中,读者可直接下载各章节译文的 MarkDown 文档,也可以下载 PDF 版的英文原版。此外为了有更好的阅读体验,作者为这个项目构建了 GitBook,读者可直接在线阅读。
机器之心
2018/07/26
4490
重磅:吴恩达最新的机器学习书籍《Machine Learning Yearning》
吴恩达在AI教育上,继《Machine Learning》和《Deep Learning Specialization》和和视频课程后,再出力作《Machine Learning Yearning》,旨在教你如何使用机器学习算法 前戏 Amusi凌晨在配置某框架时,突然收到一封邮件,题目叫“Get my free machine learning book - Machine Learning Yearning”,打开一看来自Machine Learning Course Team,再一看内容,我去,这不是
Amusi
2018/04/12
1.3K0
重磅:吴恩达最新的机器学习书籍《Machine Learning Yearning》
吴恩达《ML Yearning》| 关于开发集、测试集的搭建
MachineLearning Yearning Sharing 是北京科技大学“机器学习研讨小组”旗下的文献翻译项目,其原文由Deep Learning.ai 公司的吴恩达博士进行撰写。本部分文献翻译工作旨在研讨小组内部交流,内容原创为吴恩达博士,学习小组成员只对文献内容进行翻译,对于翻译有误的部分,欢迎大家提出。欢迎大家一起努力学习、提高,共同进步!
马上科普尚尚
2020/05/14
5690
吴恩达《ML Yearning》| 关于开发集、测试集的搭建
Macheine Learning Yearning学习笔记(三)
Chapter 13、Build your first system quickly, then iterate(快速构建第一个系统,然后再一步步迭代)
yuquanle
2019/07/23
3100
Macheine Learning Yearning学习笔记(三)
从吴恩达深度学习课程中学到的21个心得
本文介绍了深度学习的21个心得,包括训练和验证数据的划分、选择合适的网络架构、调参、使用预训练模型、使用迁移学习、使用多任务学习、使用端到端学习、使用生成对抗网络、使用自监督学习、使用强化学习、使用对抗样本、使用正则化、使用模型剪枝、使用缓存、使用量化、使用多GPU训练、使用梯度累积、使用学习率调度器、使用Horovod、使用PyTorch和TensorFlow等。
企鹅号小编
2018/01/08
7870
从吴恩达深度学习课程中学到的21个心得
吴恩达-Machine learning Yearning-机器学习训练秘籍-中文完整版
吴恩达的新书出来了,在之前的文章中已经提到过了 吴恩达机器学习新书:MACHINE LEARNING YEARNING免费获取
老潘
2023/10/19
3330
吴恩达-Machine learning Yearning-机器学习训练秘籍-中文完整版
解读吴恩达新书的全球第一帖 (上)
在教完深度学习系列后,吴恩达 (之后称大神) 最近在继续完成他原来编写的《Machine Learning Yearning》一书 (翻译成机器学习秘籍)。该书现在只完成到第 19 章 (总共有 55 章),我读完目录总结出该书要讲的七个要点,如下:
用户5753894
2019/07/08
3570
解读吴恩达新书的全球第一帖 (上)
吴恩达教你如何使用“锤子”?机器学习新书免费领
作者 | 阿司匹林 来源 | AI科技大本营(公众号:rgznai100) 喜大普奔! 继今年 2 月 Deep Learning Specialization 最后一课上线之后,吴恩达又捡起了之前
用户1737318
2018/06/05
5640
Macheine Learning Yearning学习笔记(六)
Chapter 33、Why we compare to human-level performance(为什么我们要比较人类水平的表现)
yuquanle
2019/07/23
3120
快去注册!吴恩达新书《机器学习思维》免费预定开启
大数据文摘作品 作者:魏子敏 “一些技术类的AI课程会给你一个锤子,而这本书会告诉你,如何使用机器学习这把锤子。” 国内清明假期第一天,也是美国很多高校春季学期的第一周,闲不住的吴恩达老师从斯坦福大学给广大机器学习的学习者,特别是AI团队领导者带来了一个不大不小的利好:一本关于机器学习战略思维的新书。 如果你是一位AI团队的技术领导者,你或许常苦于如何制定一个靠谱的AI决策:比如如何确定最有前途的人工智能方向,如何诊断机器学习系统中的错误。 这些决策一方面对公司和团队发展意义重大,另一方面又必须通过长期的实
大数据文摘
2018/05/23
6083
我是如何赢得吴恩达首届 Data-centric AI 竞赛的?
吴恩达(英文名 Andrew Ng,是人工智能和机器学习领域国际上最权威的学者之一)在今年 6 月的时候宣布首届以数据为中心的人工智能(Data-centric AI)竞赛即将开赛,参赛“作品”的提交日期截止到9月初。10月初,吴恩达在其个人社交平台Twitter上向我们宣布了此次竞赛的获奖者,随后,也在其个人微信公众号上向我们简要介绍了竞赛的参与情况。
NewBeeNLP
2021/11/19
7600
我是如何赢得吴恩达首届 Data-centric AI 竞赛的?
推荐阅读
相关推荐
Andrew Ng的《Machine Learning Yearning》中六个重要概念
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文