Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习入门系列02,Regression 回归:案例研究

机器学习入门系列02,Regression 回归:案例研究

作者头像
MelonTeam
发布于 2018-01-04 09:47:03
发布于 2018-01-04 09:47:03
7370
举报
文章被收录于专栏:MelonTeam专栏MelonTeam专栏

引用课程:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

先看这里,可能由于你正在查看这个平台行间公式不支持很多的渲染,所以最好在我的CSDN上查看,传送门:(无奈脸)

CSDN博客文章地址:http://blog.csdn.net/zyq522376829/article/details/66577532

为什么要先进行案例研究?

没有比较好的数学基础,直接接触深度学习会非常抽象,所以这里我们先通过一个预测 Pokemon Go 的 Combat Power (CP) 值的案例,打开深度学习的大门。

Regression (回归)

应用举例(预测Pokemon Go 进化后的战斗力)

比如估计一只神奇宝贝进化后的 CP 值(战斗力)。 下面是一只妙蛙种子,可以进化为妙蛙草,现在的CP值是14,我们想估计进化后的CP值是多少;进化需要糖果,好处就是如果它进化后CP值不满意,那就不用浪费糖果来进化它了,可以选择性价比高的神奇宝贝。

输入用了一些不同的 $x$ 来代表不同的属性,比如战斗力用 $x_{cp}$ 来表示,物种 $x_{s}$ 来表示… 输出就是进化后的CP值

三个步骤

上一篇提到了机器学习的三个步骤: Step1.确定一组函数(Model)。 Step2.将训练集对函数集进行训练。 Step3.挑选出“最好”的函数 $f^{}$ 然后就可以使用 $f^{}$ 来对新的测试集进行检测。

Step1: Model

这个model 应该长什么样子呢,先写一个简单的:我们可以认为进化后的CP值 $y$ 等于进化前的CP值 $x_{cp}$ 乘以一个参数 $w$ 再加上一个参数 $b$ 。

$w$ 和 $b$ 是参数,可以是任何数值。

可以有

这个函数集中可以有无限多的 function。所以我们用 $y = b + w \cdot x_{cp} $ 代表这些 function 所成的集合。还有比如上面的 $f_{3}$ ,明显是不正确的,因为CP值有个条件都是正的,那乘以 $-1.2$ 就变成负的了,所以我们接着就要根据训练集来找到,这个 function set 里面,哪个是合理的 function。

我们将式1-1 称作 Linear model, Linear model 形式为:

$x_{i}$ 就是神奇宝贝的各种不同的属性,身高、体重等等,我们将这些称之为 “feature(特征)”;$w_{i}$ 称为 weight(权重),b 称为 bias(偏差)。

Step2: 方程的好坏

现在就需要搜集训练集,这里的数据集是 Supervised 的,所以需要 function 的输入和输出(数值),举例抓了一只杰尼龟,进化前的CP值为612,用 $x^{1}$ 代表这只杰尼龟进化前的CP值,即用上标标示一个完整对象的编号;进化后的CP值为 979,用 $\hat{y}^{1}$ 表示进化后的CP值,用 hat(字母头顶的上尖符号)来表示这是一个正确的值,是实际观察到function该有的输出。

下面我们来看真正的数据集(来源 Source: https://www.openintro.org/stat/data/?data=pokemon

来看10只神奇宝贝的真实数据,$x$ 轴代表进化前的CP值,$y$ 轴代表进化后的CP值。

有了训练集,为了评价 function 的好坏,我们需要定义一个新的函数,称为 Loss function (损失函数),定义如下:

Loss function $L$ :

input: a function, output: how bad it is

Loss function是比较特别的函数,是函数的函数,因为它的输入是一个函数,而输出是表示输入的函数有多不好。 可以写成下面这种形式:

损失函数是由一组参数 w和b决定的,所以可以说损失函数是在衡量一组参数的好坏。

这里用比较常见的定义形式:

将实际的数值 $\hat{y}^{n}$ 减去 估测的数值 $b + w\cdot x_{cp}^{n}$,然后再给平方,就是 Estimation error(估测误差,总偏差);最后将估测误差加起来就是我们定义的损失函数。

这里不取各个偏差的代数和$\sum_{n=1}^{10}\hat{y}^{n} -(b + w\cdot x_{cp}^{n})$ 作为总偏差,这是因为这些偏差($\hat{y}^{i} -(b + w\cdot x_{cp}^{i})$)本身有正有负,如果简单地取它们的代数和,就可能互相抵消,这是虽然偏差的代数和很小,却不能保证各个偏差都很小。所以按照式1-2,是这些偏差的平方和最小,就可以保证每一个偏差都很小。

为了更加直观,来对损失函数进行作图:

图上每个点都代表一个方程,比如红色的那个点代表 $y=-180-2\cdot x_{cp}$ 。颜色代表用这个点的方程得到的损失函数有多不好,颜色越偏红色,代表数值越大,越偏蓝色蓝色,代表方程越好。最好的方程就是图中叉叉标记的点。

Step3:最好的方程

定好了损失函数,可以衡量每一个方程的好坏,接下来需要从函数集中挑选一个最好的方程。将这个过程数学化:

由于这里举例的特殊性,对于式1-3,直接使用最小二乘法即可解出最优的 w 和 b,使得总偏差最小。

简单说一下最小二乘法,对于二元函数 $f(x,y)$,函数的极值点必为 $\frac{\partial f}{\partial x}$ 及$\frac{\partial f}{\partial y}$ 同时为零或至少有一个偏导数不存在的点;这是极值的必要条件。用这个极值条件可以解出w 和 b。(详情请参阅《数学分析,第三版下册,欧阳光中 等编》第十五章,第一节)

但这里会使用另外一种做法,Gradient Descent(最速下降法),最速下降法不光能解决式1-3 这一种问题;实际上只要 $L$ 是可微分的,都可以用最速下降法来处理。

Gradient Descent(梯度下降法)

简单来看一下梯度下降法的做法。

考虑只有一个参数 $w$ 的损失函数,随机的选取一个初始点,计算 $w = w^{0}$ 时 $L$ 对 $w$ 的微分,然后顺着切线下降的方向更改 $w$ 的值(因为这里是求极小值),即斜率为负,增加$w$ ;斜率为正,减小$w$ .

那么每次更改 $w$ ,更改多大,用 $\eta \frac{\mathrm{d}L}{\mathrm{d}w}

_{w=w^{0}}$ 表示,$\eta$ 被称为“learning rate”学习速率。

由于这里斜率是负的,所以是 $w^{0} - \eta \frac{\mathrm{d}L}{\mathrm{d}w}

_{w=w^{0}}$ ,得到 $w^{1}$;接着就是重复上述步骤。

直到找到一个点,这个点的斜率为0。但是例子中的情况会比较疑惑,这样的方法很可能找到的只是局部极值,并不是全局极值,但这是由于我们例子的原因,针对回归问题来说,是不存在局部极值的,只有全局极值。所以这个方法还是可以使用。

下面来看看两个参数的问题。

两个参数的区别就是每次需要对两个参数求偏微分,然后同理更新参数的值。

关于梯度可以参阅《数学分析,第三版下册,欧阳光中 等编》,第十四章第六节。也可以大概看看百度百科又或者wikipedia

将上述做法可视化:

同理梯度下降的缺陷如下图:

可能只是找到了局部极值,但是对于线性回归,可以保证所选取的损失函数式1-2是 convex(凸的,即只存在唯一极值)。上图右边就是损失函数的等高线图,可以看出是一圈一圈向内减小的。

结果怎么样呢?

将求出的结果绘图如下

可以计算出训练集上的偏差绝对值之和为 31.9

但真正关心的并不是在训练集上的偏差,而是Generalization的情况,就是需要在新的数据集(测试集)上来计算偏差。如下图:

使用十个新的神奇宝贝的数据作为测试集计算出偏差绝对值之和为35.

接下来考虑是否能够做的更好,可能并不只是简单的直线,考虑其他model的情况:

比如重新设计一个model,多一个二次项,来求出参数,得到Average Error为15.4,在训练集上看起来更好了。在测试集上得出的Average Error是18.4,确实是更好的Model。

再考虑三次项:

得到的结果看起来和二次项时候的结果差别不大,稍微好一点点。也可以看到$w_{3}$已经非常小了,说明三次项影响已经不大了。

再考虑四次项:

此时在训练集上可以做的更好,但是测试集的结果变差了。

再考虑五次项:

可以看到测试集的结果非常差。

Overfitting(过拟合,过度学习)

将训练集上的Average Error变化进行作图:

可以看到训练集上的 Average Error 逐渐变小。

上面的那些model,高次项是包含低次项的function。理论上确实次幂越高越复杂的方程,可以让训练集的结果越低。但加上测试集的结果:

观察得出结果:虽然越复杂的model可以在训练集上得到更好的结果,但越复杂的model并不一定在测试集上有好的结果。这个结论叫做“Overfitting(过拟合)”。

如果此时要选model的话,最好的选择就是三次项式子的model。

实际生活中典型的学驾照,学驾照的时候在驾校的训练集上人们可以做的很好,但上路之后真正的测试集就完全无法驾驭。这里只是举个训练集很好,而测试集结果很差的例子^_^

如果数据更多会怎样?

考虑60只神奇宝贝的数据

可以看出物种也是一个关键性的因素,只考虑进化前的CP值是太局限的,刚才的model就设计的不太好。

新的model如下

将这个model写成linear model的形式:

来看做出来的结果:

不同种类的神奇宝贝用的参数不同,用颜色区分。此时model在训练集上可以做的更好,在测试集上的结果也是比之前的18.1更好。

还有其他因素的影响吗?

比如对身高,体重,生命值进行绘图:

重新设计model:

考虑上生命值($x_{hp}$)、高度($x_{h}$)、重量($x_{w}$)

这么复杂的model,理论上训练集上可以得到更好的结果,实际为1.9,确实是更低。但是测试集的结果就过拟合了。

Regularization(正则化)

对于上面那么多参数结果并不理想的情况,这里进行正则化处理,将之前的损失函数进行修改:

式1-5 中多加了一项: $\lambda \sum (w_{i})^{2}$ ,结论是$w_{i}$越小,则方程(式1-4)就越好。还可以说当 $w_{i}$ 越小,则方程越平滑。

平滑的意思是当输入变化时,输出对输入的变化不敏感。比如式1-5 中输入增加了 $\Delta x_{i}$ 则输入就增加了 $w_{i}\Delta x_{i}$ ,可以看出当$w_{i}$越小,输出变化越不明显。还比如测试集的输入有一些噪音数据,越平滑的方程就会受到更小的影响。

上图是对 $\lambda$进行调整得出的结果。当 $\lambda$ 越大的时候, $\lambda \sum (w_{i})^{2}$ 这一项的影响力越大,所以当$\lambda$ 越大的时候,方程越平滑。

训练集上得到的结果是:当 $\lambda$ 越大的时候,在训练集上得到的Error 是越大的。这是合理的现象,因为当 $\lambda$ 越大的时候,就越倾向于考虑 $w$ 本身值,减少考虑error。但是测试集上得到的error 是先减小又增大的。这里喜欢比较平滑的function,因为上面讲到对于噪音数据有很好的鲁棒性,所以开始增加 $\lambda$ 的时候性能是越来越好;但是又不喜欢太平滑的function,最平滑的function就是一条水平线了,那就相当于什么都没有做,所以太平滑的function又会得到糟糕的结果。

所以最后这件事情就是找到最合适的 $\lambda$ ,此时带进式1-5 求出$b$ 和 $w_{i}$,得到的function就是最优的function。

对于Regularization 的时候,多加的一项:$\lambda \sum (w_{i})^{2}$,并没有考虑 $b$ ,是因为期望得到平滑的function,但bias这项并不影响平滑程度,它只是将function上下移动,跟function的平滑程度是没有关系的。

总结

  • Pokemon:原始的CP值极大程度的决定了进化后的CP值,但可能还有其他的一些因素。
  • Gradient descent:梯度下降的做法;后面会讲到它的理论依据和要点。
  • OverfittingRegularization:过拟合和正则化,主要介绍了表象;后面会讲到更多这方面的理论

新博客地址:http://yoferzhang.com/post/20170326ML02Regression

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression
【导读】我们在上一节的内容中已经为大家简介了台大李宏毅老师的机器学习课程内容,本节我们开始跟大家聊一聊其中的具体技术。今天我们要介绍的就是回归分析(regression),回归分析是机器学习重要的技术之一,被广泛应用于预测问题(如,股票市场预测、推荐系统等)。本文将主要介绍回归分析的问题,包括:损失函数、梯度下降、过拟合、正则化等。希望通过简明的介绍能让大家直观地掌握这些回归分析中最关键的问题。 春节充电系列:李宏毅2017机器学习课程学习笔记01之简介 课件网址: http://speech.ee.ntu
WZEARW
2018/04/13
8800
春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression
李宏毅《机器学习》丨2. Regression(回归)
在线性模型里面都是一个碗的形状(山谷形状),梯度下降基本上都能找到最优点,但是再其他更复杂的模型里面,就会遇到 问题2 和 问题3 。
AXYZdong
2022/08/30
4010
李宏毅《机器学习》丨2. Regression(回归)
机器学习入门系列04,Gradient Descent(梯度下降法)
引用课程:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html 先看这里,可能由于你正在查看这个平台行间公式不支持很多的渲染,所以最好在我
MelonTeam
2018/01/04
7350
机器学习入门系列04,Gradient Descent(梯度下降法)
Logistic Regression
**二项逻辑斯谛回归模型(binomial logistic regression model)**是一种分类模型,并且还是一种二类分类模型。 来源于 Logistic 分布 。
为为为什么
2023/10/17
3380
神经网络入门基础知识
1943年心理学家W.S. McCulloch和数理逻辑学家W.Pitts研究出人工神经元,称为M-Р模型。
timerring
2023/07/05
1.8K0
神经网络入门基础知识
李航《统计学习方法》笔记之感知机perceptron
感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的输入实例进行分类。感知机1957年由Rosenblatt提出,是神经网络与支持向量机的基础。
timerring
2022/09/21
6830
李航《统计学习方法》笔记之感知机perceptron
线性模型 -1- 线性回归
​ 1 \geq \rho \geq 0 为比例系数, 调整 L_{1} 正则化与 L_{2} 正则化的比例。
为为为什么
2022/08/06
9190
线性模型 -1- 线性回归
【机器学习入门系列】梯度下降法
作者介绍:张耀琦,现腾讯即通应用部iOS工程师一枚;数学出身,CSDN博客专家(YoferZhang的专栏);目前爱好钻研机器学习。 什么是梯度下降法?学习速率的引入;如何调整学习速率;Adagra
张耀琦
2017/04/27
3K1
机器学习一:线性回归
视频及 PPT 原教程:https://pan.baidu.com/s/1geFro9H 密码:50sc 线性回归中维基百科的定义如下:
小之丶
2018/07/27
8210
机器学习一:线性回归
机器学习入门系列06,logistic regression逻辑回归
引用课程:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ml16.html 先看这里,可能由于你正在查看这个平台行间公式不支持很多的渲染,所以最好在我的c
MelonTeam
2018/01/04
1.4K0
机器学习入门系列06,logistic regression逻辑回归
机器学习经典问题:如何理解欠拟合和过拟合问题
从数学和统计学的角度来理解过拟合和欠拟合,我们需要考虑模型的参数数量和拟合数据的程度。
皮大大
2023/05/05
1.5K0
6 逻辑回归(Logistic Regression)
6 逻辑回归(Logistic Regression) 6.1 分类(Classification) 6.2 假设函数表示(Hypothesis Representation) 6.3 决策边界(Decision Boundary) 6.4 代价函数(Cost Function) 6.5 简化的成本函数和梯度下降(Simplified Cost Function and Gradient Descent) 6.6 进阶优化(Advanced Optimization) 6.7 多类别分类: 一对多(Multiclass Classification: One-vs-all) 7 正则化(Regularization) 7.1 过拟合问题(The Problem of Overfitting) 7.2 代价函数(Cost Function) 7.3 线性回归正则化(Regularized Linear Regression) 7.4 逻辑回归正则化(Regularized Logistic Regression)
用户2188327
2020/07/02
8030
6 逻辑回归(Logistic Regression)
机器学习 | 线性回归
计划好久,还欠下的债。 问题一: 最小二乘法和梯度下降法的区别 在回答这个问题前,有必要来推导下线性回归的公式,方能说到实处。 开始公式 如一元线性回归,即只有一个自变量,那也只有两个参数w1w_{1}和w0w_{0},表达式如下: f(x)=w0+w1∗x1 f(x) = w_{0} + w_{1}*x_{1} 其损失函数为: J(w)=∑i=1N(yi−w0−w1∗xi)2 J(w) = \sum_{i=1}^{N} (y_{i} - w_{0} - w_{1}*x_{i})^{2} 改为矩阵
努力在北京混出人样
2018/05/14
6660
【机器学习】第二部分上:线性回归
线性模型是自然界最简单的模型之一,它描述了一个(或多个)自变量对另一个因变量的影响是呈简单的比例、线性关系.例如:
杨丝儿
2022/02/17
1.9K0
【机器学习】第二部分上:线性回归
机器学习入门系列05,classification: probabilistic generative model(分类:概率生成模型)
该文介绍了如何通过基于数据增强和迁移学习的GAN,在训练过程中利用生成器生成图像,并将这些图像与原始图像进行混合,从而获得更高质量的训练数据。同时,文章还介绍了一种称为“自监督学习”的零样本学习技术,该技术旨在从原始图像中提取有用的特征,并将其用于训练检测器。这些技术结合在一起,可以在不使用任何额外标注数据的情况下,训练出更准确的图像分类器。
MelonTeam
2018/01/04
1.6K0
机器学习入门系列05,classification: probabilistic generative model(分类:概率生成模型)
【机器学习的基本思想】模型优化与评估
  在前几篇文章中,我们介绍了k近邻算法和线性回归两个基本的机器学习模型。或许已经注意到,除了模型本身以外,要训练一个好的机器学习模型,还有许多需要注意的地方。例如,我们将数据集分为训练集和测试集,在前者上用不同参数训练,再在后者上测试,以选出效果最好的模型参数。此外,在线性回归一文中,我们还对数据集做了预处理,把每个特征下的数据分别做归一化,放缩到同一数量级上。诸如此类的细节在机器学习中还有很多,它们虽然本身和算法关系不大,但对模型最终效果的好坏又有着至关重要的影响,而把握好这些细节的前提是深入理解机器学习的基本思想。本文就来讲解这些机器学习模型的基本思想。
Francek Chen
2025/01/22
920
【机器学习的基本思想】模型优化与评估
【机器学习入门系列】 Error 的来源:偏差和方差
本文介绍了机器学习中的偏差和方差问题,以及如何解决这些问题。首先介绍了偏差和方差的定义以及它们对模型的影响,然后介绍了如何通过增加训练数据、使用正则化方法、采用交叉验证等方法来降低偏差和方差,最后给出了这些方法在实际应用中的效果和优缺点。
张耀琦
2017/04/25
1.6K0
【机器学习入门系列】 Error 的来源:偏差和方差
【机器学习-监督学习】集成学习与梯度提升决策树
  本文将会首先介绍集成学习的思路以及一些常用的集成学习方法,然后介绍梯度提升决策树模型。在前面的文章中,我们讲解了许多不同的机器学习算法,每个算法都有其独特的优缺点。同时,对于同一个任务,往往有多种算法可以将其解决。例如我们要将平面上的一些点分类,假设算法一和算法二的正确率是75%,算法三是50%。3种算法都已经通过调参达到了其最优表现,已经无法再进一步了。那么,我们是否能通过组合这些算法,得到比75%更高的正确率呢?看上去组合之后,算法三会拖算法一和二的后腿,反而会拉低整体表现,更别说提升了。然而,我们考虑表1中的例子。
Francek Chen
2025/01/22
1790
【机器学习-监督学习】集成学习与梯度提升决策树
【机器学习基础】线性回归
  本文将逐步引入一些数学工具,讲解另一个较为简单的机器学习算法——线性回归(linear regression)。与上一篇文章介绍的k近邻算法不同,线性回归是一种基于数学模型的算法,其首先假设数据集中的样本与标签之间存在线性关系,再建立线性模型求解该关系中的各个参数。在实际生活中,线性回归算法因为其简单易算,在统计学、经济学、天文学、物理学等领域中都有着广泛应用。下面,我们从线性回归的数学描述开始,讲解线性回归的原理和实践。
Francek Chen
2025/01/22
2240
【机器学习基础】线性回归
图解AI数学基础 | 微积分与最优化
教程地址:http://www.showmeai.tech/tutorials/83
ShowMeAI
2022/02/25
6170
图解AI数学基础 | 微积分与最优化
推荐阅读
相关推荐
春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档