Loading [MathJax]/jax/output/CommonHTML/jax.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文解读 Open-Set Grounded Text-to-Image Generation

论文解读 Open-Set Grounded Text-to-Image Generation

作者头像
BBuf
发布于 2023-08-21 13:03:20
发布于 2023-08-21 13:03:20
1.3K0
举报
文章被收录于专栏:GiantPandaCVGiantPandaCV

CVPR 2023:GLIGEN: Open-Set Grounded Text-to-Image Generation

1. 论文信息

论文题目:GLIGEN: Open-Set Grounded Text-to-Image Generation

作者:Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee

论文链接:https://arxiv.org/abs/2301.07093

代码地址:https://github.com/gligen/GLIGEN

2. 引言

首先介绍一下open-set Grounded Text2Img Generation,它是一个框架,它可以根据文本描述和定位指令生成图像。定位指令提供有关图像的附加信息,例如边界框、深度图、语义地图等。所提出的框架可以在不同类型的定位指令上进行训练,例如检测数据、检测+字幕数据和定位数据。该模型在COCO2014数据集上进行评估,同时在图像质量和定位准确性方面均取得了最先进的性能。本文的一个限制是,虽然到目前为止的描述集中于使用文本作为实体e和边界框作为l(本文的主要setting),但是提出的定位指导是以一般形式表示的。然而,提出的框架可以扩展到其他定位条件。

如何做到这些呢?近年来,图像生成研究取得了巨大进展。过去几年,GANs是最先进的技术,其latent space和conditional inputs已经得到了深入研究,以实现可控的修改和生成。文本条件自回归和扩散模型已经展示出惊人的图像质量和概念覆盖,这是由于它们更稳定的学习目标和基于网络图像-文本对数据的大规模训练所致。这些模型甚至引起了公众的关注,因为它们具有实用的用例(例如艺术设计和创作)。尽管取得了令人兴奋的进展,但现有的大规模文本到图像生成模型不能以除文本之外的其他输入模态为条件,因此缺乏精确定位概念、使用参考图像或其他条件输入来控制生成过程的能力。目前的输入,即仅限自然语言,限制了信息表达的方式。例如,使用文本描述一个物体的精确位置是困难的,而边界框/关键点可以很容易地实现这一点。虽然存在以其他输入模态进行修复、布局到图像生成等的条件扩散模型和GANs,但它们很少将这些输入组合起来进行可控的文本到图像生成。

此外,先前的生成模型(不论生成模型家族)通常是在每个任务特定的数据集上独立训练的。相比之下,在识别领域,长期以来的范例是以在大规模图像数据或图像-文本对上预训练的基础模型为起点构建识别模型。由于扩散模型已经在数十亿个图像-文本对上进行了训练,自然而然的问题是:我们能否在现有预训练的扩散模型基础上构建新的条件输入模态?通过这种方式,类似于识别文献,由于预训练模型已经具有丰富的概念知识,我们可能能够在其他生成任务上实现更好的性能,同时获得对现有文本到图像生成模型的更多可控性。

基于上述目标,我们提出了一种方法,为预训练的文本到图像扩散模型提供新的基础条件输入。我们仍然保留文本标题作为输入,但还启用其他输入模态,如边界框用于定位概念、引用图像用于定位、部分关键点定位等。关键挑战是在学习注入新的定位信息的同时保留预训练模型的原始丰富概念知识。为了防止知识遗忘,我们建议冻结原始模型权重,并添加新的可训练门控Transformer层,以接收新的定位输入(例如边界框)。在训练期间,我们逐渐使用门控机制将新的定位信息融合到预训练模型中。这种设计可在生成过程中实现灵活性,以提高质量和可控性;例如,我们展示了在前半部分采用全模型(所有层)进行采样步骤,而在后半部分仅使用原始层(不包括门控Transformer层)可以导致生成结果准确反映基础条件,同时具有高品质图像。

3. 方法

3.1 Grounding Instruction Input

定位指令输入是提供有关图像的信息的附加输入,例如边界框、深度图、语义地图等。该输入表示为一系列定位tokens,其中每个tokens对应于特定类型的定位信息。定位指令输入包括以下步骤:

  1. 从输入序列中提取定位tokens。
  2. 将每个tokens映射到其对应的定位信息。

对于每个使用边界框表示的定位文本实体,我们将位置信息表示为l = [αmin, βmin, αmax, βmax],其中包含其左上角和右下角坐标。对于文本实体e,我们使用相同的预训练文本编码器来获取其文本特征ftext(e)(图2中的浅绿色标记),然后将其与其边界框信息融合以生成定位令tokens:

而keypoints相较于bounding box有什么特点呢?keypoints比bounding box的泛化能力要差,因为关键点表示物体的部分,在不同类别之间不能总是共享。另一方面,边界框仅指定图像中物体的粗略位置和大小,并可以跨所有对象类别共享。这意味着,虽然关键点比边界框提供了更细粒度的控制,但它们的泛化能力较差。本文的作者还提到,他们测试了人类学习的关键点定位信息是否可以转移到其他非人型类别,如猫或灯,用于关键点定位生成,但他们发现即使使用了计划采样,他们的模型在这些情况下也会遇到困难。

  1. 从Closed-set转换成Open-set:相较于open set的方法,现有的这种close-set环境下的布局到图像生成方法仅适用于封闭集设置,限制了模型推广到新实体的能力,也缺乏语言指令的语义结构。提出的定位指令采用通用形式,可以扩展到其他定位条件,例如图像提示、关键点和空间对齐条件。图像提示可以用于描述更抽象和精细的概念,而关键点和空间对齐条件则提供了更细粒度的可控性。而如图所示,采用了UNet的结构,其可以通过将条件映射输入到第一个卷积层中来加速。
3.2 Continual Learning for Grounded Generation

基于连续学习的定位生成是一种方法,使生成模型能够从新的定位信息中学习而不会忘记以前学习的信息。基于连续学习的定位生成的步骤包括:

  1. 在大型图像和captioning数据集上预训练生成模型。
  2. 在包含额外定位信息的较小图像和captioning数据集上fine-tuning模型。
  3. 使用回放缓冲区存储之前学习的信息,并在学习新的定位信息时使用它来防止遗忘。
  1. 使用连续学习方法训练模型,平衡学习新信息的重要性和保留以前学习的信息。
  2. 使用生成模型将文本描述与提取的定位信息相结合生成最终图像。

为了加快推理过程中的节奏,本文还提出了一种新的迭代模式,Scheduled Samplin。Scheduled Samplin是GLIGEN模型中使用的一种技术,通过设置一个称为beta的参数来安排推理时间的采样,其中beta可以设置为1(使用额外的定位信息)或0(降低到原始预训练扩散模型)。这允许模型在不同阶段利用不同的知识。通过将tau设置为0.2,可以使用计划采样来改善图像质量,并扩展模型以生成具有类似人形形状的其他对象。

计划采样的主要好处是提高了视觉效果的质量,因为粗略的概念位置和轮廓在早期阶段被确定,后续阶段则是细节的精细化处理。它还可以让我们将在一个领域(人类关键点)训练的模型扩展到其他领域(猴子卡通人物),如图1所示。

4. 实验

这段突出显示的文本呈现了表格1,该表格显示了在COCO2014验证集上图像质量和布局对应性的评估结果。表格中的数字来自相应的论文,

是在COCO数据集上进行微调的模型。GLIGEN是建立在

之上的模型。COCO2014数据集是文本到图像生成领域中使用的标准基准,用于在封闭集设置中评估模型的生成质量和定位准确性。评估不同类型的定位指令以查看它们对模型性能的影响。比较的指标就是Inception Score(IS)、Fréchet Inception Distance(FID)和Layout Distance Metric(LDM)这些常用的生成模型客观性评价指标。IS衡量生成图像的质量,FID衡量生成图像与真实图像的相似性,而LDM衡量生成的图像与给定布局的对应性。然后比较了使用COCO2014数据集的不同论文的结果,例如StackGAN++、AttnGAN和DM-GAN。这些论文对上述指标得分的表现不同。

是在COCO数据集上进行微调的模型,它的得分比原始的LDM模型更好。GLIGEN是建立在L.DM之上的模型,它的得分比表格中提到的其他模型都要好。可见本文提出方法的有效性。

结合实验来看,本文提出的方法,在性能和泛化性上,都有特别出彩的点。

5. 讨论

本文的贡献在于提出了一种新的文本到图像生成方法GLIGEN,它赋予了现有的文本到图像扩散模型新的定位可控性。该模型使用边界框输入实现了开放世界的定位文本到图像生成,即合成训练中未观察到的新的局部概念。该模型在布局到图像任务的零样本表现显著优于之前的最新技术水平,展示了在大型预训练生成模型的基础上进行下游任务建模的强大能力。本文总结认为,GLIGEN是推进文本到图像合成领域和扩展预训练模型在各种应用中能力的有前途的方向。

本文的一个limitation是,所提出的GLIGEN模型需要大量的训练数据才能实现良好的性能。另一个限制是,模型的性能高度依赖于提供的定位信息的质量。此外,模型生成具有细节的图像的能力也受到限制。作者建议未来的工作重点应该放在改进模型处理复杂定位信息和生成更逼真、更详细图像的能力上。

6. 结论

GLIGEN是本文提出的一种方法,用于扩展预训练的文本到图像扩散模型的定位能力。该方法使用边界框、关键点、参考图像和空间对齐条件(例如边缘图、深度图等)来从文本描述生成图像。该模型使用多层感知机来提取定位信息,并将其与文本描述相结合生成最终图像。基于连续学习的定位生成被用于允许模型从新的定位信息中学习而不会忘记以前学习的信息。作者展示了GLIGEN在开放世界泛化方面的有效性,并表明它可以轻松扩展到其他定位条件。本文总结认为,GLIGEN是推进文本到图像合成领域和扩展预训练模型在各种应用中能力的有前途的方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GiantPandaCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【他山之石】CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型!!!
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
马上科普尚尚
2024/05/06
5650
【他山之石】CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型!!!
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
---- 新智元报道   编辑:LRS 【新智元导读】再也不用担心图像生成的位置错乱了! ‍随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。 其主要原因还是在于「输入接口」只有自然语言,无法做到对画面的精细控制。 最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法GLIGEN,以grounding输入为条件,对现有「预训练文本到图像扩散模型」的功能进行扩
新智元
2023/03/29
8720
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
每日学术速递1.30
作者: Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila
AiCharm
2023/05/15
2300
每日学术速递1.30
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。
公众号机器学习与AI生成创作
2024/04/18
3.9K0
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
【他山之石】CVPR 2024 | NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
马上科普尚尚
2024/05/14
2260
【他山之石】CVPR 2024 | NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
内容和风格(Content and style disentanglement,C-S)解耦是风格迁移的一个基本问题和关键挑战。基于显式定义(例如Gram矩阵)或隐式学习(例如GANs)的现有方法既不易解释也不易控制,导致表示交织在一起并且结果不尽如人意。
公众号机器学习与AI生成创作
2024/02/29
3.9K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。
中杯可乐多加冰
2025/01/05
2400
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
本文略长,需一定耐心看完!不当处望指出。 前言 扩散模型(DMs)将生成过程顺序分解,基于去噪自动编码器实现,在图像数据和其它数据上实现了先进的生成结果。此外,它们可以添加引导机制来控制图像生成过程而无需再训练。 然而,由于这些模型直接在像素空间中操作,优化扩散模型DM消耗数百个GPU天,且由于一步一步顺序计算,推理非常昂贵。为在有限的计算资源上进行DM训练,同时保持其质量和灵活性,本文应用了预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型,可以在复杂性降低和细节保留之间达到一个接近最
公众号机器学习与AI生成创作
2022/10/31
2.7K0
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
---- 新智元报道   编辑:LRS 【新智元导读】GAN模型也有变大的潜力! AIGC爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。 随着OpenAI发布DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。 从GAN切换到扩散模型的架构转变也引出了一个问题:能否通过扩大GAN模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗? 最近,针对增加StyleGA
新智元
2023/03/29
9050
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.6K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
8.3K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
Transformer架构[45]在各种应用中推动了突破,其中扩散模型成为近期的重要受益者。尽管U-Net[42]作为去噪 Backbone [22; 43; 41; 39]的成功,但近期基于 Transformer 的扩散模型,如 Diffusion Transformers(DiT)[37],在性能上又取得了新的飞跃。这一点由最近的生成模型,如Stable Diffusion 3[13]和Sora[6]得到证明。开源模型如DiT[37]及其文本引导的后续者PixArt-[8]相较于先前的U-Net基于的扩散模型,质量也有所提高。考虑到Transformer的可扩展性,Diffusion Transformers预计将成为图像生成的新的标准,尤其是在互联网规模的数据集上进行训练时。
AIGC 先锋科技
2024/12/03
3400
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
Text to image论文精读PDF-GAN
文章讲解了(1)fork进程写时复制机制。(2)redis的四种持久化方式。其中redis淘汰策略可以通过maxmemory-policy参数来选择。默认是禁止淘汰,如果数据达到了最大内存限制,在向redis中写入数据时会报错。redis有四种持久化技术,其中有三种需要fork进程。这就涉及到内核fork进程写时复制机制。进程是通过页表操作内存的,fork复制的是页表而不是物理内存,它和父进程指向相同的内存块。
中杯可乐多加冰
2024/11/19
1500
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
Grounding-DINO 是一种创新的视觉-语言模型,旨在提升视觉推理和对象检测任务的表现。Grounding-DION的独特之处在于其能够“感知”并与语言中的实体或属性对应,从而精确定位图像中的目标,并根据文本描述进行分类和推理。该模型不仅提高了多模态任务的准确性,还在跨模态推理领域展示了卓越的应用潜力,适用于复杂的视觉理解和交互场景。
CoovallyAIHub
2025/01/09
9700
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
每周AI论文速递(240610-240614)
最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此,我们提出了一种新的方法,通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先,而GPT-4 Omni的得分为57.5%。
叶子的技术碎碎念
2025/04/08
1150
每周AI论文速递(240610-240614)
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025/05/30
3290
论文解读 - 统一的多模态理解和生成模型综述(下)
Text to image论文精读GigaGAN: 生成对抗网络仍然是文本生成图像的可行选择
在文章开始之前,推荐一篇值得阅读的好文章!感兴趣的也可以去看一下,并关注作者!特征工程、降维和超参数调优是提升机器学习模型性能的三大关键技术。特征工程通过提取、转换和选择重要特征,为模型提供更有意义的数据这篇文章讲解了特征工程通过处理和选择数据特征,使模型能够更有效地从数据中学习。
中杯可乐多加冰
2024/11/18
2820
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
1.2K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
每日学术速递10.1
1.FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner
AiCharm
2024/10/05
2250
每日学术速递10.1
AI_Papers周刊:第四期
作者:Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv
AiCharm
2023/05/15
3550
AI_Papers周刊:第四期
推荐阅读
【他山之石】CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型!!!
5650
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
8720
每日学术速递1.30
2300
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
3.9K0
【他山之石】CVPR 2024 | NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型
2260
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
3.9K0
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers
2400
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
2.7K0
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
9050
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.6K1
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
8.3K0
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !
3400
Text to image论文精读PDF-GAN
1500
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
9700
每周AI论文速递(240610-240614)
1150
论文解读 - 统一的多模态理解和生成模型综述(下)
3290
Text to image论文精读GigaGAN: 生成对抗网络仍然是文本生成图像的可行选择
2820
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
1.2K0
每日学术速递10.1
2250
AI_Papers周刊:第四期
3550
相关推荐
【他山之石】CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型!!!
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档