在Dropout的情况下,模型是共享参数的,其中每个模型继承的父神经网络参 数的不同子集。参数共享使得在有限可用的内存下代表指数数量的模型变得可能。...目前为止,Bagging和Dropout的描述中没有要求模型 具有明确的概率。现在,我们假定该模型的作用是输出一个概率分布。...即使是 10 − 20 个掩码就 足以获得不错的表现。
然而,有一个更好的方法能得到一个不错的近似整个集成的预测,且只需一个 前向传播的代价。...不出意外的话,使 用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭 代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。...Dropout强大的大部分是由于施加到隐藏单元的掩码噪声,了解这一事实是重要的。这可以看作是对输入内容的信息高度智能化、自适应破坏的一种形式,而不是 对输入原始值的破坏。