前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >麻省理工学院的新系统TextFooler, 可以欺骗Google的自然语言处理系统及Google Home的音频

麻省理工学院的新系统TextFooler, 可以欺骗Google的自然语言处理系统及Google Home的音频

作者头像
AI科技大本营
发布2020-02-20 20:27:36
5330
发布2020-02-20 20:27:36
举报
文章被收录于专栏:AI科技大本营的专栏

来源 | news.mit

编译 | 武明利

责编 | Carol

出品 | AI科技大本营(ID:rgznai100)

两年前,Google的AI还不太成熟。一段时间以来,有一部分计算机科学研究一直致力于更好地理解机器学习模型如何处理这些“对抗性”攻击,这些攻击是故意用来欺骗或愚弄机器学习算法而创建的输入。

尽管大部分工作都集中在语音和图像上,但最近,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个团队针对文本的边界进行了测试。他们提出了“ TextFooler”这一通用框架,该框架可以成功地攻击自然语言处理(NLP)系统——这类系统使我们能够与Siri和Alexa语音助手进行交互,并“愚弄”它们以做出错误的预测。

可以想象将TextFooler用于许多与Internet安全相关的应用程序的情形,例如电子邮件垃圾邮件过滤,仇恨言论标记或敏感政治言论文本检测,这些都是基于文本分类模型的。可以想象将TextFooler用于许多与Internet安全相关的应用程序,例如电子邮件垃圾邮件过滤,仇恨言论标记或“敏感”政治言论文本检测,这些都是基于文本分类模型。

“如果这些工具容易受到有目的的对抗攻击,那么后果可能是灾难性的。” 麻省理工学院博士研究生Di Jin、同时也是一篇有关TextFooler的新论文的主要作者说到。 “这些工具需要有有效的防御方法来保护自己,为了建立这样一个安全的防御系统,我们首先需要研究对抗方法。”

TextFooler分为两个部分:修改给定的文本,然后使用该文本测试两个不同的语言任务,查看系统是否可以成功欺骗机器学习模型

该系统首先识别将影响目标模型预测的最重要的单词,然后选择符合上下文的同义词。 这一切都是在保持语法和原始含义足够看起来“人性化”的同时,直到预测被改变。

然后,将该框架应用于两个不同的任务——文本分类和蕴含(句子中文本片段之间的关系),目的是更改分类或使原始模型的蕴含判断无效。

在一个示例中,TextFooler的输入和输出为:

输入:

“The characters, cast in impossibly contrivedsituations, are totally estranged from reality.”

输出:

“The characters, cast in impossibly engineeredcircumstances, are fully estranged from reality.”

在这种情况下,当在NLP模型上进行测试时,它会正确输入示例输入,但随后得出的修改输入是错误的。

总之,TextFooler成功地攻击了三种目标模型,包括流行的开源NLP模型“ BERT”。 通过仅更改给定文本中10%的单词,它以90%以上至20%以下的准确性欺骗了目标模型。 该团队根据以下三个标准评估了成功程度:更改模型对分类或蕴涵的预测;与原始示例相比,它在意义上与人类读者是否相似以及文字是否看起来足够自然。

研究人员指出,虽然攻击现有模型不是最终目标,但他们希望这项工作将有助于更抽象模型泛化到新的、看不见的数据。

Di Jin说:“该系统可用于或扩展来攻击任何基于分类的NLP模型,以测试其健壮性。另一方面,生成的对手可通过对抗训练来提高深度学习模型的鲁棒性和泛化能力,这是这项工作的关键方向。”

【end】

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档