概要:
正则化:
首先来讲过拟合问题,如果我们有非常多的特征,我们通过学习得到的假设能够非常好的适应训练集(即J=0),但是对于新数据的预测没有好效果,我们称为不能泛化新数据。相反地,也有欠拟合这一说法。线性回归和逻辑回归都存在该问题。对于过拟合的问题解决,我们往往用正则化来解决,对于代价函数我们做了改动:在原先的后面加了个
只有选取合理的lambda值,才能更好的应用正则化。在以后,会讲到如何选lambda值。
接下来以个实例来说明正则化的逻辑回归。
实例:
假设你是工厂的产品经理,你有两个不同测试的一些微芯片的测试结果。从这两个测试中,你想确定微芯片应该接受还是拒绝。为了帮助你做出决定,你有一个关于过去微芯片的测试结果的数据集,你可以从它建立一个逻辑回归模型。
第一步,数据的预处理
查看结果
第二步,绘图,二维还能绘制,维度往后更高的话,就绘不出来了,所以第二步可与可无。
图形结果
第三步,特征映射。因为从图中看,数据很复杂,这种分类可不是线性就能搞定的,我们要拟合出这分类曲线,就得需要更多多项式特征,不仅仅单是Test1和Test2,定义个特征映射函数,以最高次项为6次,共28个特征来尝试拟合。
查看结果
第四步,定义正则化的代价函数和梯度下降,我们先设lambda=1,看看情况
查看结果
第五步,采用高级优化,使用求解器来计算、
查看结果
哎呀,发现警告,说明求解有点问题,不过我暂时没找出问题所在,有误差,不过并不影响最后结果。
继续来看模型准确度如何,并绘制边界
查看结果
84%的准确度还算不错。再看看边界曲线如何
也还是可以的。恰当拟合
领取专属 10元无门槛券
私享最新 技术干货