这里后面也可以加上 b 的正则化参数,即
.但是 Ng 常常胜省略不写,因为 W 已经是一个高维参数矢量,已经可以表达高偏差问题....直观上理解,当
设置的很大时,足够大,权重矩阵 w 被设置为接近于 0 的值,因为正则项十分大,则前一项的影响被降低到很小....直观上理解就是把多隐藏层单元的权重设为 0,于是基本上消除了这些隐藏单元的许多影响(如图中所表示的样子)
此时这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,但是深度却很大,它会使...高方差的状态,如同最右边的图接近于左图的高偏差状态,但是
会存在一个中间值,于是会有接近于"Just right"的状态....J 每次迭代后都会下降.因为使用 dropout 方法后我们所优化的代价函数 J 实际上并没有明确定义或者很难被计算,所以我们很难绘制出代价函数 J 的下降趋势图形.
1.8 其他正则化方法
方法 1