忽悠AI图像识别系统的新方法：随机复制并粘贴

文章来源：企鹅号 - 雷锋网

文 | 图普科技编辑 | 杨晓凡

来自雷锋网（leiphone-sz）的报道

雷锋网 AI 科技评论按：本文由「图普科技」编译自AI image recognition systems can be tricked by copying and pasting random objects

你并不总是需要构建复杂的算法来扰乱图像识别系统——你只要在随机位置添加对象就行了。

大多数情况下，可以用对抗模型更改一些像素以扭曲图像，从而使目标识别出现错误。一些例子包括用一张小贴纸让香蕉图像秒变烤面包机，或戴傻眼镜忽悠面部识别系统。乌龟被误认为是一支步枪的经典案例证明了欺骗人工智能是一件多么容易的事情。

然而，约克大学和加拿大多伦多大学的研究人员现已证实，将物体图像复制并粘贴到原图像中，就可以误导神经网络，无需耍任何花招。

目标移植

他们利用 Tensorflow 物体识别 API 中的模型进行了一系列实验。Tensorflow 物体识别 API 是一个由 Google 工程师构建的开源框架，用于执行图像识别任务。该 API 是构建在 TensorFlow 代码之上的另一层，描述了卷积神经网络的架构。

研究人员从某张图像中获取一个对象并将其添加到另一图像的不同位置，然后将这些图片输入到 API 中。arXiv 在发表的论文中将此技术称为「目标移植（object transplanting）」。

在第一个例子中，研究人员在一名男性坐在其起居室的图像中添加了一张大象的图像。该模型在不同目标周边输出了一系列彩色边界框，并计算了不同目标识别结果的可能性。它识别出目标是一名人类和笔记本电脑的可能性为99％，椅子为81％，手提袋为67％，书籍和杯子为50％。

到目前为止该模型的表现还不错。但当将大象的图片添加到同一图像中时，模型识别开始出现混乱。当大象图片被粘贴在红色窗帘上时，模型对于图中椅子的识别突然变得不那么自信了，评级从81％下降到了76％，但它对于桌面上有一个杯子的可能性从50％增加到了54％。

更奇怪的是，当大象图片被直接复制并粘贴在人的头顶上时，它被识别为椅子。当将动物的图片粘贴在场景中的不同位置时，它只在两个地方被正确识别：当它被放置在笔记本电脑和书柜的顶部时。

当大象的图片粘贴在场景中的不同位置时，API难以正常识别。在许多情况下，它完全无法识别。

图片来源：Rosenfeld等。

尽管如此，但该API仍可能正确识别物体，因为很少出现大象与一些客厅中的常见物品混在一起的图像。“神经网络从未见过两个不同类别物体在同一图片中组合，我们不可能指望神经网络能够在测试时成功处理这类图像”该论文写道。

但该测试并不是一个不公平的测试，它凸显了神经网络的脆弱性，他们无法轻松适应不在其训练数据内的新图像。研究人员写道：“我们认为要求不同物体类别在训练集中成对出现是不合理的，无论是在实践还是理论层面。”

人工智能很难识别重复图像

当该研究团队复制图像中已有的目标对象时，API仍然难以识别。

该模型可以毫不费力地从原图片中挑选出在显示器前面的键盘上躺着的猫。然而，当在图片上再添加一张该猫的照片，并重新调整使它看起来像是直接放在第一只猫后面时，猫的脚掌被识别为狗，键盘的一角被识别为一本书。

该团队用不同的图像重复进行了实验，结果牛头成了马，棒球棍成了笔记本电脑，手提包成了杯子 - 你现在明白了吧。

添加图像中已有的相同对象也具有相同的效果。图片来源：Rosenfeld等。

该论文解释说，从不属于真正目标区域内的像素中获取的特征会使图像中的物体变得混乱。“对于目标感兴趣区域ROI内部的像素以及ROI之外的像素，都是如此。”

这是所有图像分类模型都面临的难题。它们都是通过给定区域上一系列像素的特征来识别对象，但这意味着来自其他对象的像素可以与之重叠，从而使它们混淆。

研究人员将此问题称为“局部遮挡”。“局部遮挡被普遍认为是物体检测面临的一大挑战。成功解决局部遮挡问题将是实现泛化的好兆头。”

“这里生成的图像可以看作是对抗样本的一种变体，其中一些小图像带来的干扰（人类难以察觉）会导致神经网络的输出结果出现大幅度变化，”该论文总结道。

- END -

◆◆◆

相关快讯