Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E

打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E

作者头像
AI科技评论
发布于 2021-12-27 13:03:18
发布于 2021-12-27 13:03:18
7550
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 莓酊、杏花

编辑 | 青暮

以前,当我们想拥有一副图像时,首先会做的就是找专业画师,将我们对图画的要求逐一描述,画师再根据需求醉墨淋漓一番。但这种方式需要耗费一定的时间和人力成本,且成果不一定尽如人意。

如今,基于自然语言生成逼真图像的工具使我们能够以一种全新的方式轻松创建大量的高质量图像。使用自然语言编辑图像的能力进一步允许迭代细化和细粒度控制,这两者对于现实世界的应用程序都至关重要。

目前,GANs(对抗生成网络)在大多数图像生成任务上拥有最先进的技术,这些技术是通过样本质量来衡量的,例如FID,Inception Score 和 Precision等指标。

然而,其中一些指标不能完全捕获生成图像的多样性,且与最先进的基于似然度的模型相比,GANs捕获的多样性较少。此外,如果没有精心选择的超参数和正则化器,GANs在训练中经常翻车。

针对这些问题,OpenAI的两位研究人员Prafulla Dhariwal和Alex Nichol便着眼于其他体系架构。2021年5月,这两名学者发表了名为《Diffusion Models Beat GANs on Image Synthesis》的论文,证明了扩散模型在图像合成上优于目前最先进的生成模型的图像质量。

论文地址:https://openreview.net/pdf?id=AAWuCvzaVt

半年多的时间,Alex Nichol 和Prafulla Dhariwal再度携手,带领团队于2021年12月20日发布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》

论文地址:https://arxiv.org/pdf/2112.10741v1.pdf

以文本“萨尔瓦多·达勒(salvador daĺı)的超现实主义梦幻油画,画的是一只猫在跳棋”为例,GLIDE模型生成如下具有阴影和反射的逼真图像,并以正确的方式组合多个概念,产生新颖概念的艺术效果图。

文章一出即在推特上引起广泛关注,收获了无数业内人士的鲜花和掌声。

名为Kyle的网友表示,他觉得这项研究跨越了“渐进式增长GAN”到“StyleGAN”的界限。从满是笨拙的机器学习人工伪造物,到现在突然变得与它模仿的真实物体几乎无法分辨。

连GLIDE的失败案例都透着满满的优秀感:它不会画有 8 条腿的猫......

有网友提问:如果对它提出指令“没人见过的东西”会生成什么?

Em......结果是没见过,但也不是完全没见过。

1

生成能力超越DALL-E

实验证明,扩散模型(Diffusion Models)可以生成高质量的合成图像,尤其在与引导技术结合使用时,能够在保真度上权衡多样性。

作者们为文本条件下的图像合成问题的扩散模型,对比了两种不同的指导策略:CLIP guidance 和classifier-free guidance。而后发现,在写实度和主题相似度方面,后者更受人类评估参与者的青睐,并且经常获得逼真的样本。

使用classifier-free guidance的35亿参数文本条件扩散模型的样本收到的评价更高,令来自DALL-E的样本完全“黯然失色”。GLIDE模型微调后还可以修复图像,出色完成文本驱动的图像编辑任务。

已有的最新文本条件图像模型已经可以做到根据格式多样的文本中合成图像,甚至可以“理解”语义,按照合理的逻辑组合毫不相关的客体。但在捕捉相应文本并生成逼真图像方面,还略逊一筹。

毋庸置疑,扩散模型是前景大为可观的生成模型系列,在诸多图像生成任务上达到了最先进的样本质量基准。

为了在类条件设置中实现真实感,作者们利用分类器指导增强扩散模型,扩散模型以分类器的标签作为条件。分类器首先在有噪声的图像上进行训练,在扩散采样过程中,使用分类器提供的梯度引导样本朝向标签。Salimans等人曾通过使用无分类器的指导,未单独训练的分类器中获得了类似结果,这给研究者们带来了灵感,在有标签扩散模型和无标签扩散模型的预测之间进行插值。

受引导扩散模型生成逼真样本的能力以及文本到图像模型处理自由形式提示的能力的启发,研究人员将引导扩散应用于文本条件图像合成问题。首先,作者们训练了一个 35 亿参数扩散模型,该模型使用文本编码器以自然语言描述为条件。接下来,他们比较了两种将扩散模型引导至文本提示的技术:CLIP 引导和无分类器引导。使用人工和自动评估,发现无分类器的指导产生更高质量的图像。

研究人员发现GLIDE模型中,无分类器指导生成的样本栩栩如生,图像还蕴涵着广泛的世界知识。由人类参与者评估后,普遍给出评价:GLIDE“创造”的效果优于 DALL-E

2

扩散模型的潜力

在论文《Diffusion Models Beat GANs on Image Synthesis》中,研究人员通过一系列的消融实验,以找到更好的扩散模型架构,实现无条件的图像合成。对于条件图像合成,则使用分类器指导(利用分类器的梯度以来权衡样本质量-多样性)进一步提高了样本质量。

论文的作者们分别在ImageNet 128×128上达到2.97的FID,在ImageNet 256×256上达到4.59的FID,在ImageNet512×512上达到7.72的FID,并且即使每个样本只有25次正向传递,其生成图像质量依然可以匹配BigGAN-deep,同时保持了更好的分布覆盖率(多样性)。

最后,作者团队发现分类器指导与上采样扩散模型可以很好地结合在一起,从而将ImageNet512×512上的FID进一步降低到3.85。

DeepMind曾于2018年在一篇 ICLR 2019 论文中提出了BigGAN,当时一经发表就引起了大量关注, 很多学者都不敢相信AI竟能生成如此高质量的图像,这些生成图像的目标和背景都相当逼真,边界也很自然。

由BigGAN模型生成的512x512分辨率图像

如今,Alex Nichol和Prafulla Dhariwal两位学者提出的扩散模型,终于可在图像合成上匹敌BigGAN。

从最佳ImageNet512×512模型(FID3.85)中选择的样本

扩散模型是一类基于似然度的模型,最近被证明可用于生成高质量图像,同时保留理想的属性,如更高的分布覆盖率、稳定的训练目标和更好的可扩展性。这些模型通过逐步去除信号中的噪声来生成样本,其训练目标可以表示为一个重新加权的变分下界。

Nichol和Dhariwal发现,随着计算量的增加,这些模型不断改进,即使在高难度ImageNet256×256数据集上也能生成高质量的样本。

再来看看GLIDE的生成效果。下图是GLIDE基于不同的文本提示生成的16个图像集,例如“使用计算器的刺猬”、“戴着红色领带和紫色帽子的柯基”等等,如图所示,生成的图像基本符合文本描述。

美中不足的是,这项研究发布的较小模型的准确性不如全尺寸模型那么完美。下图是由“刺猬”文本提示生成的16个样本。

除了图文转换,该论文还包括一个交互式系统的原型,用于逐步细化图像的选定部分。这些图像中的一切都是自动生成的,从整个房间开始,对绿色区域进行迭代细化。

在下图中,研究人员将他们的模型与之前最先进的基于MS-COCO字幕的文本条件图像生成模型进行了比较,发现其模型在无需CLIP 重新排序或挑选的情况下生成了更逼真的图像。对于XMC-GAN,从用于文本到图像生成的跨模态对比学习采集了样本。对于DALL-E,在温度0.85下生成样本,并使用CLIP重新排序从256个样本中选择最好的。对于GLIDE,使用2.0刻度的CLIP引导和3.0刻度的无分类器引导。作者没有为GLIDE执行任何CLIP重新排序或挑选。

研究人员使用人类评估协议将GLIDE与DALL-E进行比较(如下表所示)。请注意,GLIDE使用的训练计算与DALL-E大致相同,但模型要小得多(35亿对120亿参数)。此外,它只需要更少的采样延迟,并且没有CLIP 重新排序。

研究人员在DALL-E和GLIDE之间执行三组比较。首先,当不使用CLIP重新排序时,比较两种模型。其次,只对DALL-E使用CLIP重新排序。最后,对DALL-E使用CLIP重新排序,并通过DALL-E使用的离散VAE投影GLIDE样本。后者允许研究者评估DALLE模糊样本如何影响人类的判断。他们使用DALL-E模型的两个温度来进行所有的评估,其模型在所有设置中都受到人类评估人员的青睐,即使在非常支持DALL-E的配置中,也允许它使用大量的测试时间计算(通过CLIP重新排序)同时降低GLIDE样本质量(通过VAE模糊)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
扩散模型的极简介绍
在计算机视觉中,生成模型是一类能够生成合成图像的模型。例如,一个被训练来生成人脸的模型,每次都会生成一张从未被该模型或任何人看到过的人脸。生成模型最著名的例子是GAN(生成对抗网络)。它有生成器和鉴别器,它们相互对抗,然后生成图像。由于模型本身具有对抗性,因此很难进行训练。这使得很难达到一个最优的平衡。利用扩散模型可以解决这个问题。(下图为常见的生成模型的基本架构)
deephub
2022/11/11
9150
扩散模型的极简介绍
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向。现在 OpenAI 又有了新的进展——35 亿参数的新模型 GLIDE。
机器之心
2021/12/27
8980
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
OpenAI新论文称打败GAN达到SOTA!这个霸气扩散模型是噱头还是干货?
自从2014年诞生以来,尤其是在人脸生成方面的Deepfake,GAN几乎完全主导了图像生成领域的研究和应用。
新智元
2021/05/28
7160
OpenAI新论文称打败GAN达到SOTA!这个霸气扩散模型是噱头还是干货?
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于——它不说人话。 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像。例如,Apoploe vesrreaitais 似乎是指鸟类,而 Contarra ccetnxniams luryca tanniounons 有时指虫子。我们发现这些 prompt 通常在孤立的情况下是一致的,但有时也是组合的,」研究人员写道。 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么
机器之心
2022/06/02
1.1K0
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!
最近,无分类器的指导扩散模型(classifier-free guided diffusion models)在高分辨率图像生成方面非常有效,并且已经被广泛用于大规模扩散框架,包括DALL-E 2、GLIDE和Imagen。
新智元
2023/01/06
5810
斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
---- 新智元报道   编辑:LRS 【新智元导读】大艺术家重磅升级!最近OpenAI发布升级版DALL·E 2,不仅分辨率提升了4倍,准确率更高,业务也更广了:除了生成图像,还能二次创作! 2021年1月,OpenAI放了一个大招:DALL-E模型,让自然语言和图像成功牵手,输入一段不管多离谱的文本,都能生成图片! 比如经典的「牛油果形状的扶手椅」,还有新奇生物「一个长颈鹿乌龟」。 当时看着已经够神奇了吧? 时隔一年,OpenAI结合另一个多模态模型CLIP,发布了第二个版本DALL·E 2!
新智元
2022/04/11
5380
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
DALL-E发明者受访:我对其两年来产生的影响感到惊讶
选自VentureBeat 作者:Sharon Goldman 机器之心编译 编辑:袁铭怿 DALL-E 等生成式模型的「高光时刻」已经出现,作为发明者,Ramesh 表示:「我们第一次尝试这个研究方向,是想看看能有什么作为。现在想来,恍如昨日。」 OpenAI 研究员、DALL-E 发明者和 DALL-E 2 联合开发者 Aditya Ramesh(图源自 OpenAI)。 在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图
机器之心
2023/03/29
5660
DALL-E发明者受访:我对其两年来产生的影响感到惊讶
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
本周论文包括OpenAI 文本生成图像新模型 GLIDE 用 35 亿参数媲美 DALL-E;黑客帝国「缸中之脑」有眉目了?培养皿中百万人脑细胞学会打乒乓球,仅用了 5 分钟。
机器之心
2021/12/28
6700
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
文本到图像扩散模型,使得生成多样且高质量的图像成为可能。然而,这些图像往往在描绘细节方面不够精细,并且容易出现由于输入文本的歧义导致的错误。缓解这些问题的一种方法是在带类标签的数据集上训练扩散模型。这种方法有两个缺点:(i)监督数据集通常与大规模抓取的文本-图像数据集相比较小,影响生成图像的质量和多样性,或者(ii)输入是一个硬编码标签,而不是自由形式的文本,限制了对生成图像的控制。
公众号机器学习与AI生成创作
2024/01/10
4.7K0
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
DALL-E 2的工作原理原来是这样!
CLIP+修改版GLIDE双管齐下。 作者 | Ryan O'Connor 编译丨王玥 编辑 | 陈彩娴 OpenAI的模型DALL-E 2于本月初发布,刚一亮相,便在图像生成和图像处理领域卷起了新的风暴。 只需要给到寥寥几句文本提示,DALL-E 2就可以按文本指示生成全新图像,甚至能将毫不相关的物体以看似合理的语义方式组合在一起。 比如用户输入提示“一碗汤是另一个次元的入口”后,DALL-E 2便生成了以下的魔幻图片。 “一碗汤是另一个次元的入口” 图源:https://openai.com/dal
AI科技评论
2022/04/21
1.4K0
DALL-E 2的工作原理原来是这样!
OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳
新模型在ImageNet512×512上实现了3.85FID,甚至在每个样本只有25次正向传递的情况下,其生成图像质量可匹敌DeepMind提出的BigGAN。
AI科技评论
2021/05/20
4.6K0
文本生成图像这么火,你需要了解这些技术的演变
选自 Intento 作者:Grigory Sapunov 机器之心编译 机器之心编辑部 目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 u
机器之心
2022/06/07
2K0
文本生成图像这么火,你需要了解这些技术的演变
OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩
大家仔细看这效果,“使用计算器的刺猬”、“星空下的狐狸”、“彩色玻璃窗风格的熊猫吃竹子”、“太空升降舱蜡笔画”:
量子位
2021/12/24
8500
OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩
图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS
---- 新智元报道   编辑:桃子 好困 【新智元导读】OpenAI重磅研究「一致性模型」项目开源,不仅一步瞬时生图,还能图像编辑,连最能打的扩散模型也得让步了。 ChatGPT、Midjourney的火爆,让其背后技术扩散模型成为「生成式AI」革命的基础。 甚至,还受到业内研究者极力追捧,其风头远远盖过曾经逆袭天下的GAN。 就在扩散模型最能打的时候,竟有网友突然高调宣布: Diffusion models时代终结!Consistency models加冕为王! 这究竟是怎么回事??? 原来,
新智元
2023/05/09
3070
图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS
简洁、生动,图解「老画师」DALL-E 2的工作原理
选自assemblyai 作者:Ryan O'Connor 机器之心编译 编辑:蛋酱 效果惊艳的 DALL-E 2,到底是怎么工作的? 2022 年 4 月初,OpenAI 的开创性模型 DALL-E 2 登场,为图像生成和处理领域树立了新的标杆。只需输入简短的文字 prompt,DALL-E 2 就可以生成全新的图像,这些图像以语义上十分合理的方式将不同且不相关的对象组合起来,就像通过输入 prompt「a bowl of soup that is a portal to another dimensi
机器之心
2022/04/24
1.4K0
简洁、生动,图解「老画师」DALL-E 2的工作原理
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
作者|李梅、王玥 编辑|陈彩娴 文本生成图像模型界又出新手笔! 这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的DALL·E 2更强! 话不多说,我们来欣赏这位AI画师的杰作~ A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。) A dragon fruit wearing karate belt in th
AI科技评论
2022/05/25
7710
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
---- 新智元报道   编辑:LRS 【新智元导读】GAN模型也有变大的潜力! AIGC爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。 随着OpenAI发布DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。 从GAN切换到扩散模型的架构转变也引出了一个问题:能否通过扩大GAN模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗? 最近,针对增加StyleGA
新智元
2023/03/29
8950
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
Diffusion Model的演进 NeurIPS 2022最佳论文:Imagen
标题:Imagen:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
BBuf
2022/12/29
2.5K0
Diffusion Model的演进 NeurIPS 2022最佳论文:Imagen
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心  授权 OpenAI:DALL・E 2 就是最好的。谷歌:看下我们 Imagen 生成的柴犬? 多模态学习近来受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在,来自谷歌的研究者也在这一方向做出了探索,提出了一种文本到图像的扩散模型 Imagen。 Imagen 结合了 Transfor
OpenCV学堂
2022/05/25
6990
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为五分之一
选自arXiv 作者:AXEL SAUER 机器之心编译 编辑:蛋酱 StyleGAN-XL 首次在 ImageNet 上实现了 1024^2 分辨率图像合成。 近年来,计算机图形学领域的研究者一直致力于生成高分辨率的仿真图像,并经历了一波以数据为中心的真实可控内容创作浪潮。其中英伟达的 StyleGAN 在图像质量和可控性方面为生成模型树立了新的标杆。 但是,当用 ImageNet 这样的大型非结构化数据集进行训练时,StyleGAN 还不能取得令人满意的结果。另一个存在的问题是,当需要更大的模型时,或扩
机器之心
2022/05/31
8270
英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为五分之一
推荐阅读
扩散模型的极简介绍
9150
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
8980
OpenAI新论文称打败GAN达到SOTA!这个霸气扩散模型是噱头还是干货?
7160
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
1.1K0
斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!
5810
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
5380
DALL-E发明者受访:我对其两年来产生的影响感到惊讶
5660
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
6700
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
4.7K0
DALL-E 2的工作原理原来是这样!
1.4K0
OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳
4.6K0
文本生成图像这么火,你需要了解这些技术的演变
2K0
OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩
8500
图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS
3070
简洁、生动,图解「老画师」DALL-E 2的工作原理
1.4K0
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
7710
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
8950
Diffusion Model的演进 NeurIPS 2022最佳论文:Imagen
2.5K0
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
6990
英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为五分之一
8270
相关推荐
扩散模型的极简介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档