L1:会将很多权重约束为0,稀疏特征。 L2:会使很多权重得到小值,这样就会使网络大部分工作在线性部分,减弱网络的能力。 early stoping:将权重初始化为小值,这时,只会用到神经网络的线性部分,网络能力比较弱。随着训练时间的增长,会越来越多的用到网络的非线性部分,网络的能力逐渐增强。这时观察验证集错误率,如果持续增加的话,就可以提早停止训练。 输入加噪声:相当于L2 权值加噪声:会使权值取极值
将多个模型bias
小的模型平均,会得到一个variance
小的模型。
对权值进行采样,然后对采样的权值分别预测输出,然后平均输出值。