Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

作者头像
deephub
发布于 2023-02-01 02:27:18
发布于 2023-02-01 02:27:18
7050
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

基于文本提示的生成图像模型近年来取得了惊人的进展,这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用,以及新的扩散和基于掩码的模型的发展。

在23年1月新发布的论文 Muse中:Masked Generative Transformers 生成文本到图像利用掩码图像建模方法来达到了最先进的性能,零样本 COCO 评估的 FID 分数为 7.88,CLIP 分数为 0.32——同时明显快于扩散或传统自回归模型。

google团队总结了它们的主要贡献如下:

  • 提出了一个最先进的文本到图像生成模型,该模型获得了出色的 FID 和 CLIP 分数(图像生成质量、多样性和与文本提示对齐的定量测量)。
  • 由于使用了量化图像标记和并行解码,模型明显快于同类模型。
  • 架构支持开箱即用的零样本编辑功能,包括inpainting, outpainting和free mask编辑。

Muse构建在谷歌的T5之上,T5是一个大型语言模型,它接受各种文本到文本任务的训练,可通过掩码transformer 架构生成高质量图像。Muse 从 T5 嵌入中继承了有关对象、动作、视觉属性、空间关系等的丰富信息;并学习将这些丰富的概念与生成的图像相匹配。

Muse一共包含八个核心组件,例如它的语义标记化,它使用VQGAN模型的编码器和解码器对来自不同分辨率的图像进行编码,并输出离散的标记,这些标记捕获图像的更高级别语义,而不受低级别噪声的影响。

超分辨率模型将较低分辨率的潜在映射转换为更高分辨率的潜在映射,并通过更高分辨率的 VQGAN 解码生成最终的高分辨率图像。研究人员还在保持编码器的容量固定的前提下向 VQGAN 解码器添加额外的残差层和通道,然后微调这些新层,同时保持 VQGAN 编码器的权重等固定。由于视觉标记“语言”保持不变,因此可以在不重新训练任何其他模型组件的情况下可以改善生成图像的细节和视觉质量。

为了改进 Muse 的文本图像对齐,还使用了一种无分类器指导 (classifier-free guidance) 的方法,该方法线性增加引导尺度,在低引导或无引导的情况下对早期标记进行采样,对后面的标记逐渐增加条件提示的影响。还采用并行解码来减少推理时间。

在他们的实证研究中,Muse与各种文本到图像生成任务的流行基准模型进行了比较。Muse 900M参数模型在CC3M数据集上实现了新的SOTA, FID评分为6.06(越低越好),而Muse 3B参数模型在零样本COCO获得了7.88的FID评分,CLIP 分数为 0.32。

Muse展示了令人印象深刻的无需微调的零样本编辑功能,进一步证实了冻结的大型预训练语言模型作为文本到图像生成的强大而高效的文本编码器的潜力。

这是一篇非常值得推荐的论文,并且google还为他制作了专门的网站:

https://muse-model.github.io/

https://arxiv.org/abs/2301.00704

作者:Synced

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
---- 新智元报道   编辑:LRS 【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer! 最近谷歌又发布了全新的文本-图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。 论文链接:https://arxiv.org/pdf/2301.00704.pdf 项目链接:https://muse-mod
新智元
2023/02/24
9090
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
机器之心报道 机器之心编辑部 图像生成领域越来越卷了! 文本到图像生成是 2022 年最火的 AIGC 方向之一,被《science》评选为 2022 年度十大科学突破。最近,谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度关注。 论文地址:https://arxiv.org/pdf/2301.00704v1.pdf 项目地址:https://muse-model.github.i
机器之心
2023/03/29
4160
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
效率碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS
Alex 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 新年伊始,谷歌AI又开始发力文字-图像生成模型了。 这次,他们的新模型Muse(缪斯)在CC3M数据集上达成了新SOTA(目前最佳水平)。 而且其效率远超火爆全球的DALL·E 2和Imagen (这俩都属于扩散模型),以及Parti (属于自回归模型)。 ——单张512x512分辨率图像的生成时间被压缩到仅1.3秒。 在图像编辑方面,只需一句文字指令,就可以对原始图像进行编辑。 (貌似不用再为学ps头秃了~) 如果想要效果更精准,还能选定
量子位
2023/02/28
2820
效率碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
机器之心报道 机器之心编辑部 继 Imagen 后,谷歌又推出了文本 - 图像生成模型 Parti。 你见过一只小狗破壳而出吗?或者用飞艇俯瞰蒸汽朋克中的城市?又或者两个机器人在电影院像人类一样看电影…… 这些听起来可能有些天马行空,但一种名为「文本到图像生成」的新型机器学习技术使这些成为可能。 谷歌研究院的科学家和工程师一直致力于探索使用各种 AI 技术生成文本到图像的方法。 今年 5 月底,谷歌推出 AI 创作神器 Imagen,它结合了 Transformer 语言模型和高保真扩散模型的强大功能,在
机器之心
2022/06/27
5150
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
选自arXiv 作者:AXel Sauer 机器之心编译 编辑:赵阳 扩散模型在文本到图像生成方面是最好的吗?不见得,英伟达等机构推出的新款 StyleGAN-T,结果表明 GAN 仍具有竞争力。 文本合成图像任务是指,基于文本内容生成图像内容。当下这项任务取得的巨大进展得益于两项重要的突破:其一,使用大的预训练语言模型作为文本的编码器,让使用通用语言理解实现生成模型成为可能。其二,使用由数亿的图像 - 文本对组成的大规模训练数据,只要你想到的,模型都可以合成。 训练数据集的大小和覆盖范围持续飞速扩大。因
机器之心
2023/03/29
4720
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
文本生成图像这么火,你需要了解这些技术的演变
选自 Intento 作者:Grigory Sapunov 机器之心编译 机器之心编辑部 目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 u
机器之心
2022/06/07
2K0
文本生成图像这么火,你需要了解这些技术的演变
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向。现在 OpenAI 又有了新的进展——35 亿参数的新模型 GLIDE。
机器之心
2021/12/27
8920
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
这篇论文探讨了一个当前在图像合成领域中的核心问题:如何在保持生成图像质量的同时,减少计算资源的消耗。目前的先进扩散模型,如Stable Diffusion和DALL·E 2,虽然能够生成接近真实的高质量图像,但它们对计算资源的需求非常高,这在一定程度上限制了它们的应用范围和可达性。例如,Stable Diffusion 1.4版本的训练就耗费了150,000 GPU小时。
BBuf
2024/04/12
2660
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心  授权 OpenAI:DALL・E 2 就是最好的。谷歌:看下我们 Imagen 生成的柴犬? 多模态学习近来受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在,来自谷歌的研究者也在这一方向做出了探索,提出了一种文本到图像的扩散模型 Imagen。 Imagen 结合了 Transfor
OpenCV学堂
2022/05/25
6850
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
3340
论文解读 - 统一的多模态理解和生成模型综述(上)
借文本语义驱动 Token 化:TexTok 突破图像重建与生成,实现 93.5 倍的推理速度提升 !
近年来,图像生成取得了显著进展,使其在多种应用中能够合成高质量的图像。这一成功的核心在于图像分词技术的发展,该技术通过训练自编码器将原始图像数据压缩为一种紧凑且富有表达力的潜在表示。分词使得生成模型,如扩散模型和自回归模型可以直接在压缩的潜在空间中操作,而不是在高维像素空间中操作,从而大幅提高计算效率并增强生成质量和保真度。
AIGC 先锋科技
2025/02/10
2420
借文本语义驱动 Token 化:TexTok 突破图像重建与生成,实现 93.5 倍的推理速度提升 !
每日学术速递1.30
作者: Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila
AiCharm
2023/05/15
2230
每日学术速递1.30
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
来源:机器之心本文约2200字,建议阅读5分钟一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。 来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。‍ 生成式 transformer 在合成高保真和高分辨率图像方面得到了快速普及。但迄今为止最好的生成式 transformer 模型仍是将图像视为一系列 token,并按照光栅扫描顺序(即逐行)解码图像。然而这
数据派THU
2022/03/18
4950
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
机器之心报道 机器之心编辑部 来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。 生成式 transformer 在合成高保真和高分辨率图像方面得到了快速普及。但迄今为止最好的生成式 transformer 模型仍是将图像视为一系列 token,并按照光栅扫描顺序(即逐行)解码图像。然而这种策略既不是最优的,也不高效。 近日,来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型
机器之心
2022/03/14
4090
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9
最近,正处于评议阶段的 ICLR 2025 论文真是看点连连,比如前些天爆出的 ICLR 低分论文作者硬刚审稿人的事件以及今天我们要介绍的这个通过 rebuttal(反驳)硬是将自己的平均分拉高 2 分,直接晋升第 9 名的论文。
机器之心
2025/02/14
1230
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
本文略长,需一定耐心看完!不当处望指出。 前言 扩散模型(DMs)将生成过程顺序分解,基于去噪自动编码器实现,在图像数据和其它数据上实现了先进的生成结果。此外,它们可以添加引导机制来控制图像生成过程而无需再训练。 然而,由于这些模型直接在像素空间中操作,优化扩散模型DM消耗数百个GPU天,且由于一步一步顺序计算,推理非常昂贵。为在有限的计算资源上进行DM训练,同时保持其质量和灵活性,本文应用了预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型,可以在复杂性降低和细节保留之间达到一个接近最
公众号机器学习与AI生成创作
2022/10/31
2.7K0
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。
中杯可乐多加冰
2024/04/21
1.9K0
字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 一个文本-图像对数据都不用,也能让AI学会看文作图? 来自字节的最新text2image模型,就做到了。 实验数据显示,它的效果比VQGAN-CLIP要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。 嗯?不给文字注释AI怎么知道每一张图片代表什么? 这个模型到底咋训练出来的? 不用文字训练也能根据文本生成图像 首先,之所以选择这样一种方式,作者表示,是因为收集大量带文字的图像数据集的成本太高了。 而一旦摆脱对文本-图像对数
量子位
2022/03/24
9700
谷歌提出MaskGIT:掩码生成图像Transformer
生成式 transformer 在合成高保真和高分辨率图像方面得到了快速普及。但迄今为止最好的生成式 transformer 模型仍是将图像视为一系列 token,并按照光栅扫描顺序(即逐行)解码图像。然而这种策略既不是最优的,也不高效。
Amusi
2022/04/18
9930
谷歌提出MaskGIT:掩码生成图像Transformer
从文本到图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !
重要的模型,包括DALL-E 3(Betker等人,2023年)、Stable Diffusion 3(Esser等人,2024年)和SoRA(Brooks等人,2024年),在基于扩散式生成模型的连续潜在图像特征的实时成像和视频生成方面,表现出了优越的性能。相比之下,依靠"下一个 Token 预测"的自回归(AR)生成模型,已经在文本生成领域革命性地改变了 groundbreaking reasoning abilities,例如由 GPT-4(Achiam等人,2023年)和Gemini(团队,2023年)等模型,在离散 Token 表示方面展现出前所未有的推理能力。然而,基于向量化图像特征的 AR 生成模型,在实现光鲜且可控的图像生成方面,与基于扩散的对应模型相比,仍相差甚远。
AIGC 先锋科技
2024/08/19
5000
从文本到图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !
推荐阅读
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
9090
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
4160
效率碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS
2820
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
5150
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
4720
文本生成图像这么火,你需要了解这些技术的演变
2K0
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
8920
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
2660
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
6850
论文解读 - 统一的多模态理解和生成模型综述(上)
3340
借文本语义驱动 Token 化:TexTok 突破图像重建与生成,实现 93.5 倍的推理速度提升 !
2420
每日学术速递1.30
2230
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
4950
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
4090
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9
1230
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
2.7K0
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
1.9K0
字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!
9700
谷歌提出MaskGIT:掩码生成图像Transformer
9930
从文本到图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !
5000
相关推荐
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档