本次翻译内容对应以下章节:
1 Why Machine Learning Strategy
2 How to use this book to help your team
3 Prerequisites and Notation
4 Scale drives machine learning process
1 为什么要使用机器学习策略
机器学习是众多重要应用的基础,比如网页搜索、反垃圾邮件、语音识别、商品推荐等等。如果你或者你的团队正在从事机器学习方面的工作,并且想取得巨大进步,这本书将大有裨益。
例子:猫图片的创业项目
这个项目可以源源不断地将猫图片提供给爱猫人士。
基于神经网络构建计算机视觉应用系统,用于识别图片中的猫。
不幸的是,系统的识别准确率不够好。作为一个创业项目,自然需要顶着巨大的压力去优化效果。该怎么做呢?
想法很多,比如:
获取更多的数据(收集更多猫的图片)
获取更丰富的训练数据集。例如,图片中猫的姿势、颜色很特殊,图片质量参差多样
模型训练时间更长(增加梯度下降迭代次数)
尝试更大的神经网络(增加层数、隐藏单元)
尝试小规模的神经网络
尝试增加正则项(比如L2正则)
改变神经网络结构(激活函数,隐藏单元的个数等等)
...
选择正确的方向,才可能构建一个优秀的猫图片平台,带领团队走向成功。相反,只会浪费数月的时间。但是,该如何选择呢?
这本书会教给你方法。通过大多数机器学习问题总结出经验,哪些做法可能有效,哪些做法可能没用。学习这些经验将会节省你数月甚至数年的开发时间。
2、如何使用这本书帮助团队
看完这本书,你将会深入理解,如何为一个机器学习项目设定技术方向。
你的团队可能不太理解你为项目设定一个方向,比如为项目设定单一量化评价指标。该如何说服他们呢?
这就是我将所有章节写得非常简短的原因。你可以将内容打印出来,让小伙伴们读一读。
任务优先级的微小改变可能会极大地影响团队的生产效率。我希望你能帮助团队做出这些改变,成为团队的superhero。
3、知识背景
学习过机器学习课程,比如Coursera网站上的机器学习MOOC课程,或者有监督学习使用经验,你就会明白这部分内容。
监督学习是基于标签训练数据(x,y)学习到从x映射到y的关系。监督学习算法包括线性回归、逻辑回归和神经网络。机器学习形式多种多样,但是大多数都以监督学习形式运用到实际生产中。
文中会频繁地提到神经网络(也称为“深度学习”),对这个概念有初步认识即可。
如果你不知道上面提及到的概念,可以看一下Machine Learning课程(http://ml-class.org)中的前三周的教学视频。
4、规模驱动机器学习发展
许多深度学习(神经网络)的概念已经存在了数十年,为什么现在才迅猛发展呢?
有两个最大的驱动因素:
数据可用性。人们正在电子设备(手提电脑、移动手机)上花费更多的时间,这些设备能够产生的海量数据,用于训练学习算法。
计算能力。知道几年前我们才能训练复杂神经网络,充分利用大规模数据集的优势。
传统机器学习算法,比如逻辑回归,随着更多数据的积累,它的性能最终提升到一个平稳状态,这意味着此时训练再多的数据,模型性能也不会得到提升。
传统机器学习算法似乎无法应对如今海量的数据。
同一个监督学习任务,如果替换成一个简单神经网络,性能可能会略有提升。
这里的简单神经网络指的是一个只有少量隐藏单元/隐藏层/参数的神经网络。随着神经网络规模逐渐复杂,模型性能也将会得到进一步的提升。
【这张图显示神经网络在小规模数据集上表现更好,这和神经网络在大规模数据集中表现更好的现象不一致。在小数据集场景,效果主要依赖特征工程,传统算法甚至会更胜一筹。比如,对于一个20个训练样本的任务,使用逻辑回归还是神经网络,无关紧要,特征工程带来的收益会远大于算法。但是如果是一个100万样本的任务,我更倾向神经网络。】
因此,拥有一个大规模的数据集和一个非常大的神经网络,会让效果更好。
一些其他因素,比如神经网络的结构,也非常重要,但是当前提升算法性能最可靠的方法还是训练更大的网络和获取更多的数据。
训练更大的网络和获取更多的数据,这个过程非常复杂。本书将会详细讨论这些问题。首先,从对传统机器学习算法和神经网络都有用的角度提出一些通用的策略,然后过渡到构建深度学习系统使用的策略。
领取专属 10元无门槛券
私享最新 技术干货