来自:ICLR 2018
作者:Konrad Zołna, Devansh Arpit, Dendi Suhubdy, Yoshua Bengio
背景
递归神经网络( RNNs )是用于语言建模和序列预测的一类重要的神经网络模型。然而,优化RNNs比优化前馈神经网络更难。文献中已经提出了许多技术来解决这个问题。本文提出了一种简单的技术,称为Fraternal Dropout,利用dropout来实现这一目标。
本文方法
Fraternal Dropout:
训练具有不同dropout值的RNN (共享参数)的两个相同副本,同时最小化它们(进行softmax操作之前的)预测值之间的差异。通过这种方式,我们的正则化操作鼓励RNNs的表示对于不同的dropout值是不变的。
公式描述:
在每个时间步t,我们同时前馈输入样本X,通过共享相同参数θ但具有不同dropout mask sti和stj的RNN的两个相同拷贝。这在每个时间步t处产生两个损失值,由lt(pt(zt,sti;θ),Y)和lt(pt(zt,stj;θ),Y)给出。
Fraternal Dropout的整体损失函数如下:
其中k是正则化系数。m是pt(zt,sti;θ)的维度。RFD(zt;θ)由下得到:
我们使用蒙特卡洛采样来逼近RFD(zt;θ)。
我们注意到,我们的目标的正则化等同于使用不同的dropout mask最小化预测函数的方差,如下所示。
sti和stj独立同分布。
实验
language models:文中对模型进行了评估,并在两个基准数据集( Penn Treebank和Wikitext - 2 )上,取得了序列建模任务的最优结果。(tabel 1和tabel 2)
image captioning:我们还证明,我们的方法可以显著提高图像标注( Microsoft COCO )和半监督( CIFAR - 10 )任务的性能。(tabel 3)
总结
本文研究了一种dropout的变体,称为fraternal dropout。该方法与期望线性dropout密切相关,因此具有一定的增量性。尽管如此,fraternal dropout确实将PTB和wikitext-2上语言模型最优结果提高了约0.5 - 1.7个perplexity 。
领取专属 10元无门槛券
私享最新 技术干货