介绍
什么是机器学习?
有两种定义。Arthur Samuel如此描述机器学习:一个领域的研究,旨在研究,在不进行编程的情况下,让计算机具有学习能力。
Tom Mitchell给出了一个更为现代的定义:一个计算机程序从经验E以及评判标准P中学习如何完成任务T,随着E的累积,P得到提升。
例如,下棋游戏中:
E:在很多盘棋局中的经验
T:下棋任务
P:程序赢得下一盘棋的可能性
总体来说,任何机器学习问题可以分为和
监督学习
在监督学习中,给定一个数据集,并且我们已经知道输出看起来是什么样子的,知道数据和输出之间是存在联系的。
监督学习可分为和两种类型的问题。在回归问题中,我们试图预测连续的结果,换句话说,我们试图将输入变量映射到某种连续函数。在分类问题中,却试图预测离散结果,换句话说,我们试图将输入变量映射进离散的类别中。
例子1:
给定一组关于房子大小的数据,预估出价格。从大小推算价格的函数的输出是连续的,所以这是个回归问题。
如果换一种问法:“预估房价与指定价格的大小关系”。这个问题就转化为分类问题了,因为我们试图将房价分为两种离散的类别中(大于或小于)。
例子2:
a) 回归:给定一张男性或女性的照片,推算年龄。
b) 分类:给定一张男性或女性的照片,估计他/她是高中生还是大学生。另一个分类的例子:银行需要根据跟人信用历史,判断是否要给其贷款。
无监督学习
无监督学习是指在几乎对结果一无所知的情况下,趋近结果。在对输入数据的变量缺少必要的认识的情况下,从中获取一些结构。通过将数据中变量的关联,将数据进行聚类,从而获取这些结构。无监督学习对于预测结果是没有反馈的。
例如:
聚类:从1,000,000个不同的基因中,找到某种方式,能够自动将具有某种相似性或关联的基因进行分组,这些变量可能是寿命,位置,功能等。
非聚类:“鸡尾酒算法”,能否从嘈杂环境中识别不同的声音。(例如,在鸡尾酒会上,从混合的声音中区分人声或音乐声)
模型和代价函数
模型表示
稍微正规的解释一下监督学习是什么。监督学习的目标是,给定一个训练数据集,尝试学习一个函数,使得成为好的预测y的函数。由于历史原因,这个h函数称为,下图说明了这个流程:
如果我们要预测的目标值是一个连续值时,例如房价预测问题,我们称这种机器学习问题为;如果y值只在少数的离散值中取值(例如,假设给定面积,预测这是个house还是apartment),我们称为。
代价函数
我们可以使用来衡量的精准性。代价函数实际上计算的就是每一个经由假设函数计算而来的y,与实际的y的差值的平均值。当这个差值最小时,假设函数最优。
如果如下:
这个代价函数也称为或。将均方除以2,是为了梯度下降算法的计算。下图总结了:
梯度下降
在决定下一步往哪里走的时候,我们采取的方式是,找到当前这个点的切线方向(切线即导数),切线方向告诉我们应该往哪个方向走;另一个影响因素是,每一步大小,这个参数我们称为。单次梯度下降迭代得到的往往是,即上图的A,B两点是对于不同的起始点来说的最优解。
梯度下降算法描述如下:
具体的推导过程省略。
夏洛克 AIOps
Make Data Think
人工智能 | 机器学习 | IT运维
领取专属 10元无门槛券
私享最新 技术干货