AI 研习社按:这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。
原标题:One Pixel Attack Defeats Neural Networks | Two Minute Papers #240
翻译 | 于泽平 字幕 | 凡江 整理 | 李逸凡 吴璇
骗过神经网络,我们最少需要改变多少像素(pixel)呢?猜猜是多少,可能你会觉得,怎么着都要 100 才够,但论文证明了,攻击大多数神经网络只需要修改一个像素就行。
在这篇《One pixel attack for fooling deep neural networks》论文中,研究人员分析了一种在极端限制情形下(只修改一个像素)的攻击。他们提出了一种基于差分进化(differential evolution)的单像素对抗干扰新方法。
结果表明,70.97%的自然图像至少有一个分类目标会被干扰,而造成干扰只需要修改置信均值为 97.47%的一个像素。因此,在极端限制情形下,攻击探索出了不同的对抗机器学习方法。这也表明当前的深度神经网络也容易受到这类低维攻击。
神经网络通常不直接判断一个类别,而是通过一些置信值来判别。置信值代表神经网络它有多确信看到的是只拉布拉多犬还是一只老虎猫。我们通常对比所有的置信值,并选出最高的,查看它们使神经网络对正确类别的置信值下降了多少,接着我们抛弃效果不好的像素,并继续搜索最有希望的像素,我们将这个过程称为差异进化。
如果这个过程实现的很好,最终正确类别的置信值将会变的很低,因为神经网路将能预测另一个类别,一旦发生这种情况,代表神经网络成功被欺骗了,这也意味我们需要查看神经网路,并获得其置信值。
当然,也有大量关于训练鲁棒性的神经网络的研究,使这些神经网络可以承受更多对抗攻击,对抗攻击有着许多地方值得我们去挖掘以及探索。
论文:
https://arxiv.org/abs/1710.08864
Github:
https://github.com/Hyperparticle/one-pixel-attack-keras
领取专属 10元无门槛券
私享最新 技术干货