前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >prompt攻防战!哥伦比亚大学提出BPE造词法,可绕过审核机制,DALL-E 2已中招

prompt攻防战!哥伦比亚大学提出BPE造词法,可绕过审核机制,DALL-E 2已中招

作者头像
新智元
发布于 2022-08-26 07:42:05
发布于 2022-08-26 07:42:05
5590
举报
文章被收录于专栏:新智元新智元


新智元报道  

编辑:LRS

【新智元导读】最近哥伦比亚大学的研究人员发现用多语言的subword组合出的新词,在DALL-E 2系统中仍然能生成预期图像,或可绕过审查系统!

2022年什么最值钱?prompt!

基于文本的图像生成(text-guided image generation)模型,如DALL-E 2大火后,网友们也是乐此不疲地生成各种搞怪图像。

但想要让模型生成清晰、可用的目标图像,必须得掌握正确的「咒语」才行,也就是prompt须得精心设计之后才能用,甚至还有人架设网站卖起了prompt

要是prompt是邪恶咒语,那生成的图片可能会「涉嫌违规」。

虽然DALL-E 2发布之初就设立了各种机制来避免模型被滥用,比如从训练数据中删除暴力、仇恨或少儿不宜的图像;使用技术手段防止生成人脸的超写实照片,尤其是一些公众人物。

在生成阶段,DALL-E 2还设置了一个prompt过滤器,不允许用户输入的提示词中包含暴力、成人或政治内容。

但最近哥伦比亚大学的研究人员发现,可以在prompt添加一些看似胡言乱语的单词,使得过滤器无法识别出词义,但AI系统最终还是能返回有意义的生成图像。

论文链接:https://arxiv.org/pdf/2208.04135.pdf

作者提出两种构造prompt的方法,第一种称之为macaronic prompting,其中macaronic一词的原意指多种语言的单词进行混合后生成新的词汇,比如说在巴基斯坦,乌尔都语和英语的混合词就很常见。

而DALL-E 2的训练语料通常是从互联网上收集的数据,文本和图像之间建立概念联系的过程中多多少少都会涉及到多语言学习,使得训练后的模型具有同时识别多语言概念的能力。

所以可以利用多语言组合成新词,绕过人类设计的prompt过滤器,达到对抗攻击的目的。

比如鸟(birds)这个词在德语里是Vögel,用意大利语是uccelli,用法语是oiseaux,西班牙语是pájaros,在CLIP模型使用byte pair encoding(BPE)算法对输入提示句进行分词后,可以拆分成多个subword。

把subword重新排列组合成新词后,比如输入uccoisegeljaros,DALL-E 2仍然能够生成鸟类的图像,但人类却完全无法读懂这个词的含义。

甚至不严格遵守subword的边界,比如再换成voiscellpajaraux和oisvogajaro,模型仍能生成鸟类图。

除了鸟类,研究人员发现组合多语言这个方法在不同的图像域都能取得不错的效果,图像生成结果展现出相当高的一致性。

从动物界到风景、交通工具、场景、情绪的相关图像的生成都不在话下。

虽然不同的文本指导的图像生成模型有不同的架构、训练数据和分词方法,但原则上,macaronic提示可以应用于任何在多语言数据上训练的模型,比如在DALL-E mini模型中也能发现相同的效果。

值得注意的是,尽管名字相似,但DALL-E 2和DALL-E mini是相当不同的。它们有不同的架构(DALL-E mini没有使用扩散模型),在不同的数据集上训练,并使用不同的分词程序(DALL-E mini使用BART分词器,可能会以不同于CLIP分词器的方式分割单词)。

尽管有这些差异,macaronic提示仍然能够在两种模型上都能发挥作用,背后的原理还需要再深入研究。

但并非所有的macaronic提示都能在不同的模型间适当地转移,比如虽然farpapmaripterling按照预期产生了DALL-E 2的蝴蝶图像,但在DALL-E mini中生成的却是蘑菇图像。

研究人员推测,可能在更大的数据集上训练出来的更大的模型更容易受到macaronic提示的影响,因为它们在不同语言的子词单元和视觉概念之间学习到了更强的关联关系。

这可能可以解释为什么一些在DALL-E 2中产生预期结果的macaronic提示在DALL-E mini中不起作用,却几乎找不到相反的例子。

这种趋势可能不是什么好消息,因为大规模模型可能更容易受到使用macaronic提示的对抗性攻击。

除了将单个合成词作为prompt以外,合成词也可以嵌入到英语句法中组成句子,生成图像的效果和原始词汇相似。

并且合成词还有一个优势,就是组合起来可以产生更具体和复杂的场景。虽然复杂的macaronic提示需要符合英语的句法结构,从而使生成结果比使用合成字符串的提示更容易解释,但传达给模型的信息仍然相对模糊。

对于大多数人来说,如果没有事先接触过macaronic提示和用于杂交的语言知识,要猜出用提示语An eidelucertlagarzard eating a maripofarterling会产生什么样的场景可能是很困难的。

此外,这种成分复杂的提示不会触发基于黑名单的内容过滤器,尽管它们使用的是普通英语单词,只要使用macaronic方法对受审查的概念进行充分「加密」即可。

macaronic提示也不一定非在多语言中组合subword,在单一语言内进行合成也能产生有效的视觉概念,不过熟悉英语的人可能会猜测到该字符串的预期效果,比如happeerful这个词很容易猜到是happy和cheerful的合成词。

第二种方法称为Evocative Prompting,和macaronic不同的是,evocative不需要从现有的词中组合触发视觉联想,而是由特定领域中某些字母组合的统计学意义进行「唤起」,创造出一个新词。

参照生物学分类里的二名法(Binomial Nomenclature),可以根据「属名」和「种加词」来创造一个新的「伪拉丁词」,DALL-E就能够根据相应的主题生成对应的物种。

根据药物的命名规律也可以生成新的药物图片。

evocative提示也可以应用于语言的特定特征和与相应语言的地点和文化有关的视觉特征之间的关联。比如根据建筑名称,模型就可以推断是哪个国家的风格,如Woldenbüchel生成的场景看起来像德国或奥地利村庄;Valtorigiano看起来像意大利古镇;Beaussoncour则像法国的历史城镇。

不过也不一定都是建筑物,比如最后一个用DALL-E mini生成的图像则是17世纪的法国肖像,而非法国的地点,但与法国文化的联系还是被保留了下来。

evocative提示也可以与词汇杂交结合起来,以获得对输出的具体特征的更多控制。

在伪拉丁命名法中引入英语词块会使DALL-E 2生成具有特定属性的动物图像,比如提示词scariosus ferocianensis将可怕(scary)和凶猛(ferocious)与伪拉丁词条结合起来,可以生成传统上可怕的「爬行动物」的图像,如蝎子。

cutiosus adorablensis将可爱(cute)和adorable与伪拉丁词条结合起来,能够生成传统意义上可爱的哺乳动物的图像;watosus swimensis将水(water)和游泳(swimming)与伪拉丁词缀结合起来,能够生成水生动物的图像;flyosus wingensis将飞行(fly)和有翼(winged)与伪拉丁词缀结合起来能够生成飞行昆虫的图像。

从原理上来看,macaronic方法生成的词汇可以提供一种简单的、看似可靠的方法来绕过prompt过滤器,别有用心者可以用来生成有害的、攻击性的、非法的或其他敏感的内容,包括暴力、仇恨、种族主义、性别歧视或色情图片,以及可能侵犯知识产权或描述真实个人的图片。

虽然提供图像生成服务的公司已经根据其内容政策,在防止生成这类输出方面做出了大量的努力,但macaronic提示仍然能够对商业图像生成系统的安全协议的造成巨大威胁。

而evocative提示带来的威胁不那么明显,因为它没有提供一种十分有效且可靠的方法来触发特定视觉联想的字符串,它大多局限于与单词或语言的广泛形态特征有关的概念的模糊联想。

总的来说,macaronic的提示比evocative提示的可操作性更强,基于关键词的黑名单在此类模型中的内容过滤不足以抵御攻击。

难道DALL-E 2要开始黑化了?

参考资料:

https://www.unite.ai/the-nonsense-language-that-could-subvert-image-synthesis-moderation-systems/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
万一DALL·E-2是在向人类发出什么了不得的信号呢?这门语言快学起来! 作者|李梅、刘冰一 编辑|陈彩娴 DALL·E 和 DALL·E-2从文本生成图像的魔力,想必大家都已经见识过了。作为深度生成模型,它们能够将文本作为输入,生成匹配给定文本的超逼真图像。 不过,DALL·E-2 的一个众所周知的局限性是它在生成带文本的图像时很吃力。 例如,给出文本提示:Two farmers talking about vegetables,with subtitles.(两个农民在谈论蔬菜,有字幕) DALL·E-
AI科技评论
2022/06/02
1.1K0
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
骗过83%网友!图像生成界天花板DALL-E 2竟然通过了图灵测试?
---- 新智元报道   编辑:好困 袁榭 【新智元导读】关于DALL-E 2的各种争议八卦,自其面世时就没断过。最近,听说它还通过了图灵测试?! 前几天,一位正在度假的网友得知了自己获得了「DALL-E 2」的访问权限。 在思考了两秒之后,他决定搞一波事情。 DALL-E 2通过了图灵测试? 旅游嘛,肯定是少不了各种游客照的。 现在既然有了DALL-E 2,那是不是意味着可以不用亲自去拍照,而是用模型生成一个「度假经历」出来。 反正,其他人应该也分辨不出来? 为了验证自己的想法,这位名叫Matt
新智元
2022/05/20
5900
骗过83%网友!图像生成界天花板DALL-E 2竟然通过了图灵测试?
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于——它不说人话。 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像。例如,Apoploe vesrreaitais 似乎是指鸟类,而 Contarra ccetnxniams luryca tanniounons 有时指虫子。我们发现这些 prompt 通常在孤立的情况下是一致的,但有时也是组合的,」研究人员写道。 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么
机器之心
2022/06/02
1.1K0
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
作者 | 维克多 自从今年1月份OpenAI祭出120亿参数魔法模型DALL·E,众多科研工作者开始对其进行多方位的剖析,希望也能做出给定“自然语言文字描述直接生成对应图片”的程序或软件。 120亿参数.........这意味着只有“顶级玩家”才能入局。如果缩小模型参数,程序还能跑出高质量的结果么? 今日,谷歌和Hugging Face的研究员们开放了一款DALL·E mini的小程序。顾名思义,作为DALL·E的复刻版,模型规模比原版小了27倍,且只在单个TPU v3-8上训练了3天。 mini版的DAL
AI科技评论
2023/04/26
4030
迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
DALL-E 2语文水平被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯,失误率超80%
而且这不是偶然的失误,如果输入“a person is hearing a bat”,画出来的还是蝙蝠和球棒都存在。
量子位
2022/12/08
2210
DALL-E 2语文水平被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯,失误率超80%
哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
---- 新智元报道   编辑:LRS 【新智元导读】DALL-E 2生成的图像确实令人惊叹,但它也有弊端,哈佛大学最新研究表明,文本提示内的关系它根本都不懂,生成图像的正确率仅有22%! DALL-E 2刚发布的时候,生成的画作几乎能完美复现输入的文本,高清的分辨率、强大的绘图脑洞也是让各路网友直呼「太炫酷」。 但最近哈佛大学的一份新研究论文表明,尽管DALL-E 2生成的图像很精致,但它可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系! 论文链接:https://arx
新智元
2022/08/26
2560
哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
AI画画催生新职业:现在出售DALL·E 2提示词就能赚钱,平台抽成20%
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI DALL·E 2、GPT-3提示词在线交易平台,了解一下? 最近,一家初创公司PromptBase,允许用户在该平台买卖提示词(Prompt),提示词售价为1.99美元。PromptBase将向卖家抽成20%。 平台上已上架不少提示词,生成内容范围从新闻标题、运动队标志、针织娃娃到动物的正装照,应有尽有。 △用户尝试用DALL·E 2生成包含皮卡丘形象的图片 拿“Knitted Doll”这款来说,它能保证让AI生成可爱且风格一致的针织娃娃,但每次生成
量子位
2022/08/26
4090
AI画画催生新职业:现在出售DALL·E 2提示词就能赚钱,平台抽成20%
读完 DALL-E 论文,我们发现大型数据集也有平替版
内容提要:OpenAI 团队的新模型 DALL-E 刷屏,这一新型神经网络,使用 120 亿参数,经过「特训」,任意描述性文字输入后,都可以生成相应图像。如今,团队将这一项目的论文和部分模块代码开源,让我们得以了解这一神器背后的原理。
HyperAI超神经
2021/03/10
1.4K0
读完 DALL-E 论文,我们发现大型数据集也有平替版
OpenAI引入了DALL·E:一种通过文本描述创建图像的神经网络
OpenAI最近训练了一个名为DALL·E的神经网络,该神经网络通过文本描述为自然语言可表达的各种概念创建图像。
代码医生工作室
2021/01/14
1K0
OpenAI引入了DALL·E:一种通过文本描述创建图像的神经网络
OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
终于,「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后,一位网友感叹说。
机器之心
2023/10/24
4340
OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
万字长文!DeepMind科学家总结2021年的15个高能研究
2021年,借助更强大的算力、数据和模型,机器学习和自然语言处理的技术发展依然十分迅速。
新智元
2022/02/24
6190
万字长文!DeepMind科学家总结2021年的15个高能研究
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
前者使用文本的字符、位置和掩码图像等输入来为文本生成或编辑生成潜在特征。后者采用OCR模型将笔划数据编码为嵌入,与来自分词器的图像描述嵌入相结合,以生成与背景无缝融合的文本。作者在训练中采用了文本控制扩散损失和文本感知损失,以进一步提高写作准确性。据作者所知,AnyText是第一个解决多语言视觉文本生成的工作。 值得一提的是,AnyText可以与社区现有的扩散模型相结合,用于准确地渲染或编辑文本。经过广泛的评估实验,作者的方法在明显程度上优于其他所有方法。 此外,作者还贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,该数据集包含300万个图像-文本对,并带有多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成准确性和质量。 代码:https://github.com/tyxsspa/AnyText
公众号-arXiv每日学术速递
2023/11/15
1.2K0
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」
过去的一年里,随着DALL-E 2,Stable Diffusion等图像生成模型的发布,text-to-image模型生成的图像在分辨率、质量、文本忠实度等方面都得到了飞跃性提升,极大促进了下游应用场景的开发,人人都成了AI画家。
新智元
2023/01/09
4770
不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」
简洁、生动,图解「老画师」DALL-E 2的工作原理
选自assemblyai 作者:Ryan O'Connor 机器之心编译 编辑:蛋酱 效果惊艳的 DALL-E 2,到底是怎么工作的? 2022 年 4 月初,OpenAI 的开创性模型 DALL-E 2 登场,为图像生成和处理领域树立了新的标杆。只需输入简短的文字 prompt,DALL-E 2 就可以生成全新的图像,这些图像以语义上十分合理的方式将不同且不相关的对象组合起来,就像通过输入 prompt「a bowl of soup that is a portal to another dimensi
机器之心
2022/04/24
1.4K0
简洁、生动,图解「老画师」DALL-E 2的工作原理
DALL·E 3辣眼图流出!OpenAI 22页报告揭秘:ChatGPT自动改写Prompt
不仅不用烧脑去想Prompt,而且还能直接配文,出图惊艳效果着实碾压了Midjourney。
新智元
2023/10/20
5630
DALL·E 3辣眼图流出!OpenAI 22页报告揭秘:ChatGPT自动改写Prompt
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
---- 新智元报道   编辑:LRS 【新智元导读】大艺术家重磅升级!最近OpenAI发布升级版DALL·E 2,不仅分辨率提升了4倍,准确率更高,业务也更广了:除了生成图像,还能二次创作! 2021年1月,OpenAI放了一个大招:DALL-E模型,让自然语言和图像成功牵手,输入一段不管多离谱的文本,都能生成图片! 比如经典的「牛油果形状的扶手椅」,还有新奇生物「一个长颈鹿乌龟」。 当时看着已经够神奇了吧? 时隔一年,OpenAI结合另一个多模态模型CLIP,发布了第二个版本DALL·E 2!
新智元
2022/04/11
5170
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”
时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。
AI科技评论
2023/09/24
6430
DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”
重新起航:利用DALL-E 3 设计“桐铭的技术小屋”新Logo
好久不见了各位!自从我创业已有一年多了,主要专注于AI与运营系统的业务。由于忙碌,很久没有和社区里的朋友们联络了。今天登录久久没有打开的微信公众号和B站账号,发现自己的社交媒体账号居然还是实名上网,过去2年发现社区中各种资料也是青黄不接的。因此,决定利用假期把这些内容好好整理一下。
角落的白板报
2024/10/21
2190
重新起航:利用DALL-E 3 设计“桐铭的技术小屋”新Logo
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。
AIGC 先锋科技
2025/02/20
1390
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
---- 新智元报道   编辑:LRS 【新智元导读】给一个文本提示就能生成3D模型! 自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。 但目前的模型,如DALL-E 2, Imagen等仍然停留在二维创作(即图片),无法生成360度无死角的3D模型。 想要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但三维合成并不存在如此大规模的标注数据,也没有一个高效的模型架构对3D数据进行降噪。
新智元
2022/10/08
1.3K0
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
推荐阅读
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
1.1K0
骗过83%网友!图像生成界天花板DALL-E 2竟然通过了图灵测试?
5900
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
1.1K0
迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
4030
DALL-E 2语文水平被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯,失误率超80%
2210
哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
2560
AI画画催生新职业:现在出售DALL·E 2提示词就能赚钱,平台抽成20%
4090
读完 DALL-E 论文,我们发现大型数据集也有平替版
1.4K0
OpenAI引入了DALL·E:一种通过文本描述创建图像的神经网络
1K0
OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
4340
万字长文!DeepMind科学家总结2021年的15个高能研究
6190
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
1.2K0
不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」
4770
简洁、生动,图解「老画师」DALL-E 2的工作原理
1.4K0
DALL·E 3辣眼图流出!OpenAI 22页报告揭秘:ChatGPT自动改写Prompt
5630
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
5170
DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”
6430
重新起航:利用DALL-E 3 设计“桐铭的技术小屋”新Logo
2190
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
1390
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
1.3K0
相关推荐
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档