机器学习之 scikit-learn 开发入门 -
监督学习 -Ridge 回归介绍
曹华
个人介绍:曹华,2018 年加入去哪儿网技术团队。目前在火车票事业部/技术部小组。个人对图像处理、数据挖掘、图论、VR 等有浓厚兴趣。
一、概要
本文主要讲解 Ridge 回归的实践与原理,主要内容包括:
Ridge 回归的介绍
Ridge 回归算法类库介绍
Ridge 回归应用示例
Ridge 回归的原理
总结
通过文本的介绍,希望大家可以掌握 Ridge 回归的使用与了解 Ridge 回归的原理。
二、Ridge 回归的介绍
Ridge 回归简称岭回归、脊回归、吉洪诺夫正则化,它属于 L2 正则化方案,和一般线性回归的区别是在损失函数上增加了一个 L2 正则化的项。这里损失函数就是我们第一期提到的最小二乘法。那么为什么要加入 L2 正则化的项呢?在机器学习中如何才能确定算法判定的结果的优劣呢?其实机器学习中存在着两个词语是来说明模型的优劣的,即过拟合和欠拟合。
2.1 过拟合和欠拟合的介绍
过拟合:机器学习模型训练的过于复杂,导致在验证数据集中表现不佳。 欠拟合:机器学习模型训练的不够复杂,导致在验证数据集中表现不佳。
这里我们会有疑问,过于简单的模型会表现不佳,但是过于复杂为何会表现不佳呢? 打个比喻我要建立一个识别狗的模型,我需要对这个模型进行训练。恰好,我训练样本中的所有训练图片都是二哈,那么经过多次迭代训练之后,模型训练好了,并且在训练集中表现得很好。基本上二哈身上的所有特点都涵括进去,那么问题来了!假如我的测试样本是一只金毛呢?将一只金毛的测试样本放进模型中,很有可能模型最后输出的结果就是金毛不是一条狗(因为这个模型基本上是按照二哈的特征去打造的)。所以这样就造成了模型过拟合,虽然在训练集上表现得很好,但是在测试集中表现得恰好相反。
2.2 偏差、方差与欠拟合和过拟合的关系
偏差是预测结果与真实值的距离大小;
方差是预测结果是否扎堆;
低偏差低方差时,是我们所追求的效果,此时预测值正中靶心(最接近真实值),且比较集中(方差小);
低偏差高方差时,预测值基本落在真实值周围,但很分散,此时方差较大,说明模型的稳定性不够好;
高偏差低方差时,预测值与真实值有较大距离,但此时值很集中,方差小,模型的稳定性较好,但预测准确率不高;
高偏差高方差时,是我们最不想看到的结果,此时模型不仅预测不准确,而且还不稳定,每次预测的值都差别比较大。
一言以蔽之,过拟合大多方差比较高,欠拟合大多偏差比较高。 欠拟合就不多说了,下面主要介绍过拟合的情况。
2.3 过拟合的常见原因
建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;
样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;
参数太多,模型复杂度过高。
2.4 常见的解决方法
选取合适的停止训练标准,使对机器的训练在合适的程度;
保留验证数据集,对训练成果进行验证;
获取额外数据进行交叉验证;
正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有 L1 正则与 L2 正则等。
三、scikit-learn Ridge 回归算法类库介绍
scikit-learn 逻辑回归算法类库对应的是 Ridge。下面就对 Ridge 的重要参数做一个总结。
四、Ridge 回归应用示例
4.1 导入头文件
4.2 样本数据
数据是一个循环发电场的数据,共有 9568 个样本数据,每个数据有 5 列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。下载地址:
http://archive.ics.uci.edu/ml/machine-learning-databases/00294/
4.3 训练模型
4.4 预测验证
4.5 训练得到的 Ridge 模型
可知 Ridge 模型为:
4.6 获取最优的 alpha
4.7 画出预测值与真实值的线形图
五、Ridge 回归的原理
首先我们回顾下
线性回归
的标准方程:
我们需要求得 w 和 b 的值。在线性回归中我们利用最小二乘法求得 w 和 b,但是最小二乘法没有对特征的罚分机制,很容易过拟合,所以 Ridge 在线性回归的基础上增加了正则化项为 w 指定罚分机制,标准函数如下:
其中α为常数系数,可以通过它来调优。
为 L2 范数。这里的 α 近似于应用示例中的 alpha。 Ridge 回归主要还是使用最小二乘法。推倒公式详见第一期线性回归。 令 J(θ) 的导数为 0,得到下式:
整理即可得到最后的 θ 的结果:
其中 E 为单位矩阵。 从求导后公式可以看到 α 越大,得到回归系数 θ 就越小,最终趋近于 0。而如果 α 越小,即正则化项越小,那么回归系数 θ 就越来越接近于普通的线性回归系数。
六、总结
Ridge 解决了线性回归中最小二乘法的过拟合问题。
领取专属 10元无门槛券
私享最新 技术干货