来源:CSIG文档图像分析与识别专委会
本文简要介绍CVPR 2019的Oral论文:Why ReLU Networks Yield High-Confidence Predictions Far Away From the Training Dataand How to Mitigate。该文章主要解决的问题是:在已知分布以外的样本上,神经网络预测结果的置信度过高。开源代码:https://github.com/max-andr/relu_networks_overconfident
一、研究背景
神经网络拟合能力极强。通常来说,提供足够多的训练样本,神经网络的鲁棒性能极大提高。然而,神经网络的鲁棒性提高了,也带来了风险。例如,将一个在CIFAR 10数据集(10类普通物体)上训练的神经网络,放到SVHN数据集(街景门牌)上做测试,该模型竟然能够以100%的置信度将门牌识别为狗、鸟和飞机等。这个现象引发了一个问题:神经网络的预测什么时候是可靠的,具体来讲,当这个样本在已知分布以外时,神经网络能不能以较低的置信度表示没有学习过这种样本,避免高置信度的错误预测?
图1.高置信度错误样本示例(图像来源:https://github.com/max-andr/relu_networks_overconfident)
二、主要贡献
这篇文章主要通过理论建模,解释ReLU带来的高置信度问题,并提出两种训练方式,即confidence enhancing data augmentation(CEDA)和adversarial confidence enhancingtraining (ACET),来缓解上述的不良情况。
三、基本理论
首先,作者先给出定义,什么是piecewise affine functions[1] :
这里的线性区域的显式上界已经在[2] 中讨论。与[3] 类似,带有ReLU的线性变换(如全连接层)可以写为:
作者引入两个对角矩阵:
则线性变换可以表示为:
为了进一步简化表示,作者将上述式子简写为:
其中,
四、高置信度问题
在解释ReLU带来的高置信度问题前,作者先给出引理:
紧接着是数值上的讨论:
上述的证明过程请见该论文的补充材料。
五、两种训练方式
作者提出了两种训练方式,一种是从数据层面来改善,例如攻击样本,另一种是在loss方程上的改进。两种方法的名称分别是confidence enhancingdata augmentation(CEDA)和adversarialconfidence enhancing training (ACET)。
数据增广CEDA上,每个batch加入λB张噪声图像,服从pout分布,这个做法类似[4] :
其中,
另一种ACET方法最小化下列的表达式:
其中,p设置为正无穷大,即与u差距最大的z起重要作用:
六、实验结果
作者在MNIST, SVHN, CIFAR-10 和CIFAR100上进行实验。在一个数据集上训练,在其余的数据集上测试,观察置信度的分布情况。实验发现,CEDA和ACET都能显著缓解本文开头阐述的问题,即神经网络对已知分布以外的样本置信度过高的问题。在CIFAR-100上,最好的指标均来自ACET方法。
为了进一步阐述该文章的效果,作者在项目主页上(https://github.com/max-andr/relu_networks_overconfident),给出了Two Moon Dataset上的二分类可视化结果。对于图2中红色和绿色两个半月形的训练样本,简单的分类器只会在两个类别中间画出N字型的低置信度区域。虽然模型并没有见过左上部分和右下部分的数据,但它仍然会在这一大片区域给出100%置信度的分类预测。
图2.简单的二分类模型的置信度
作者使用CEDA的方法训练模型,由图3能够得知,对于训练数据以外的大部分数据,模型都能给出比较低置信度的预测。
图3.基于CEDA的二分类模型的置信度
由于CEDA增加了额外训练样本,消耗更多训练时间,且对训练样本临近域的样本的甄别效果依然较差,所以作者使用ACET方法训练的模型,它的高置信度数据区域会更少,如图4所示。
图4.基于ACET的二分类模型的置信度
七、总结与讨论
本文提出了一个重要问题:带有ReLU的神经网络模型在已知分布以外的样本上置信度过高。这是一个需要权衡的问题,模型首先不能过拟合于训练集(overfitting),但是也不能对训练集以外的未知分布的样本过度自信(over confidence)。本文提出的CEDA和ACET通过挖掘训练集分布边缘的样本来提高模型对分布边缘的敏感度,抑制模型过度自信。这是一个很重要却少有学者思考的问题,该论文初步缓解了这个问题,也给未来更多的问题带来启发,例如少样本或零样本学习问题、类别分布不均匀(拖尾)问题等。
参考文献
[1] R. Arora, A.Basuy, P. Mianjyz, and A. Mukherjee.Understanding deep neural networks withrectified linear unit. In ICLR, 2018.
[2] G. Montufar, R.Pascanu, K. Cho, and Y. Bengio. On the number of linear regions of deep neuralnetworks. In NIPS, 2014.
[3] F. Croce and M.Hein. A randomized gradient-free attack on relu networks. In GCPR, 2018.
[4] D. Hendrycks, M.Mazeika, and T. Dietterich. Deep anomaly detection with outlier exposure. InICLR, 2019.
原文作者:Matthias Hein,Maksym Andriushchenko,Julian Bitterwolf
撰稿:罗灿杰/陈向乐
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。