机器之心发布
清华大学人工智能创新团队
清华大学张钹院士带领的人工智能创新团队在 NIPS 2017 AI 对抗性攻防竞赛中获得冠军(指导教师:朱军、胡晓林、李建民、苏航),战胜来自斯坦福、约翰霍普金斯大学等世界著名高校在内的 100 多支代表队,在人工智能技术的鲁棒性和安全性应用方面迈出了重要一步。
以深度学习为代表的人工智能系统近年来在图像分类、目标识别等诸多任务中都获得了突破性进展,但是研究发现深度学习模型在鲁棒性上存在严重的不足,很多在特定数据集上测试性能良好的模型反而会被一些人眼不容易识别的「对抗」样本欺骗,导致出现高可信度的错误判断,这就给未来人工智能技术的应用带来严重的安全隐患,引起了国内外诸多研究机构的广泛关注。
针对这一问题,谷歌大脑(Google Brain)于 NIPS2017 上组织了面向对抗样本攻防(Adversarial Attacks and Defenses)的竞赛。清华大学计算机系博士生董胤蓬、廖方舟和庞天宇(指导教师:朱军、胡晓林、李建民、苏航)所组成的代表队在全部三项比赛任务中(有/无特定目标攻击;攻击检测),全部获得冠军,战胜了包括斯坦福、约翰霍普金斯大学等世界著名高校在内的 100 多支代表队,在人工智能模型的鲁班性和安全性应用方面迈出了重要一步。
对抗样本是指攻击者通过向真实样本中添加人眼不可见的噪声,导致深度学习模型发生预测错误的样本,如下图所示:给定一张图片(雪山或河豚),攻击方给图片添加了微小的扰乱,尽管人眼很难发觉,但是模型却高概率的将其误分(狗或螃蟹)。
对抗样本示例,左列为真实样本,中间列为噪声,右列为对抗样本。
随着深度学习在各个领域发挥着日益重要的作用, 防止对抗样本对深度学习系统的干扰、提高模型的鲁棒性和可靠性成为关键的研究课题, 特别是在一些对于可靠性要求很高的应用领域, 例如自动驾驶、医疗、金融、安全等。
正是由于对抗样本具有重要的学术研究和实际应用价值,谷歌在 NIPS2017 上组织了首届对抗性攻防竞赛,旨在推动此领域的发展。比赛分为三个项目,包括无目标地生成对抗样本(分类错误即可)、有目标地生成对抗样本(分类错误为指定类别)和防御对抗样本。比赛采用对抗式模式,通过攻击者和防守者互相对抗,计算攻击和防御的成绩。
清华大学团队在全部三个项目中取得了第一名的成绩,并在有目标攻击和防御两个项目上取得了远超过第二名的得分。在比赛中,该团队提出了基于动量的迭代式攻击方法和高层特征指导的降噪器,展示出了很好的攻击和防御效果,为此领域的发展做出了突出的贡献,为人工智能系统在实际应用中的鲁棒性和安全性检验提供了新的验证基准。技术细节在后续的报道中会进一步跟进。
清华大学团队部分成员与竞赛组织者 Ian Goodfellow、Alexey Kurakin 的合影
NIPS 是机器学习领域的顶级国际会议,于 12 月 4 日-9 日在美国洛杉矶的长滩举行,该团队今年有 4 篇论文被录用。至今,该团队已经连续 8 年均有论文在 NIPS 发表。
本文为机器之心发布,转载请联系本公众号获得授权。