前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >使用预先训练的扩散模型进行图像合成

使用预先训练的扩散模型进行图像合成

作者头像
数据科学工厂
发布于 2023-08-10 04:32:48
发布于 2023-08-10 04:32:48
4530
举报

文本到图像的扩散模型在生成符合自然语言描述提示的逼真图像方面取得了惊人的性能。开源预训练模型(例如稳定扩散)的发布有助于这些技术的民主化。预先训练的扩散模型允许任何人创建令人惊叹的图像,而不需要大量的计算能力或长时间的训练过程。

尽管文本引导图像生成提供了一定程度的控制,但获得具有预定构图的图像通常很棘手,即使有大量提示也是如此。事实上,标准的文本到图像扩散模型几乎无法控制生成图像中描绘的各种元素。

在这篇文章[1]中,我将解释基于论文 MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 的最新技术。该技术使得可以在将元素放置在由文本引导的扩散模型生成的图像中时获得更大的控制。论文中提出的方法更通用,并且允许其他应用,例如生成全景图像,但我将在这里限制为使用基于区域的文本提示的图像合成的情况。这种方法的主要优点是它可以与开箱即用的预训练扩散模型一起使用,而不需要昂贵的重新训练或微调。

为了用代码补充这篇文章,我准备了一个简单的 Colab 笔记本和一个 GitHub 存储库,其中包含我用来生成本文中图像的代码实现。该代码基于 Hugging Face 扩散器库中包含的稳定扩散管道,但它仅实现了其功能所需的部分,以使其更简单、更易于阅读。

Diffusion 模型

在本节中,我将回顾有关扩散模型的一些基本事实。扩散模型是生成模型,通过反转将数据分布映射到各向同性高斯分布的扩散过程来生成新数据。更具体地说,给定图像,扩散过程由一系列步骤组成,每个步骤都向该图像添加少量高斯噪声。在无限步数的限制下,噪声图像将与从各向同性高斯分布采样的纯噪声无法区分。

扩散模型的目标是通过在给定步骤 t 的噪声图像的扩散过程中尝试猜测步骤 t-1 的噪声图像来反转该过程。例如,这可以通过训练神经网络来预测在该步骤中添加的噪声并从噪声图像中减去它来完成。

一旦我们训练了这样的模型,我们就可以通过从各向同性高斯分布中采样噪声来生成新图像,并使用该模型通过逐渐消除噪声来反转扩散过程。

文本到图像的扩散模型反转扩散过程,试图到达与文本提示的描述相对应的图像。这通常由神经网络完成,该神经网络在每个步骤 t 预测步骤 t-1 的噪声图像,该图像不仅以步骤 t 的噪声图像为条件,而且还以描述其尝试重建的图像的文本提示为条件。

许多图像扩散模型(包括稳定扩散)不在原始图像空间中运行,而是在较小的学习潜在空间中运行。通过这种方式,可以以最小的质量损失减少所需的计算资源。潜在空间通常是通过变分自动编码器学习的。潜在空间中的扩散过程与以前完全相同,允许从高斯噪声生成新的潜在向量。由此,可以使用变分自动编码器的解码器获得新生成的图像。

使用多重扩散进行图像合成

现在让我们来解释如何使用 MultiDiffusion 方法获得可控的图像合成。目标是通过预先训练的文本到图像扩散模型更好地控制图像中生成的元素。更具体地说,给定图像的一般描述(例如,封面图像中的客厅),我们希望通过文本提示指定的一系列元素出现在特定位置(例如,中心的红色沙发,左边是室内植物,右上角是一幅画)。这可以通过提供一组描述所需元素的文本提示和一组基于区域的二进制掩码来指定必须在其中描述元素的位置来实现。例如,下图包含封面图像中图像元素的边界框。

MultiDiffusion可控图像生成的核心思想是将针对不同指定提示的多个扩散过程组合在一起,以获得在预定区域中显示每个提示内容的连贯且平滑的图像。与每个提示关联的区域是通过与图像尺寸相同的二进制掩码指定的。如果必须在该位置描绘提示,则遮罩的像素设置为 1,否则设置为 0。

更具体地说,让我们用 t 表示在潜在空间中运行的扩散过程中的通用步骤。给定时间步 t 处的噪声潜在向量,模型将预测每个指定文本提示的噪声。从这些预测噪声中,我们通过在时间步 t 处从先前的潜在向量中删除每个预测噪声,获得时间步 t-1 处的一组潜在向量(每个提示一个)。为了获得扩散过程中下一个时间步骤的输入,我们需要将这些不同的向量组合在一起。这可以通过将每个潜在向量乘以相应的提示掩码,然后采用掩码加权的每像素平均值来完成。遵循此过程,在特定掩模指定的区域中,潜在向量将遵循相应局部提示引导的扩散过程的轨迹。在预测噪声之前,在每一步将潜在向量组合在一起,确保生成图像的全局内聚性以及不同屏蔽区域之间的平滑过渡。

MultiDiffusion 在扩散过程开始时引入了引导阶段,以更好地粘附紧密掩模。在这些初始步骤期间,对应于不同提示的去噪潜在向量不会组合在一起,而是与对应于恒定颜色背景的一些去噪潜在向量组合。这样,由于布局通常是在扩散过程的早期确定的,因此可以获得与指定蒙版的更好匹配,因为模型最初可以仅关注蒙版区域来描绘提示。

实例

在本节中,我将展示该方法的一些应用。我使用 HuggingFace 托管的预训练稳定扩散 2 模型来创建本文中的所有图像,包括封面图像。

如所讨论的,该方法的直接应用是获取包含在预定义位置中生成的元素的图像。

该方法允许指定要描述的单个元素的样式或一些其他属性。例如,这可用于在模糊背景上获得清晰的图像。

元素的风格也可以非常不同,从而产生令人惊叹的视觉效果。例如,下图是通过将高质量照片风格与梵高风格的绘画混合而获得的。

总结

在这篇文章中,我们探索了一种将不同扩散过程结合在一起的方法,以改善对文本条件扩散模型生成的图像的控制。此方法增强了对生成图像元素的位置的控制,并且还可以无缝组合以不同风格描绘的元素。

所述过程的主要优点之一是它可以与预先训练的文本到图像扩散模型一起使用,而不需要微调,这通常是一个昂贵的过程。另一个优点是,可控图像生成是通过二进制掩模获得的,与更复杂的条件相比,二进制掩模更容易指定和处理。

这项技术的主要缺点是,它需要在每个扩散步骤中为每个提示传递一个神经网络,以便预测相应的噪声。幸运的是,这些可以批量执行以减少推理时间开销,但代价是更大的 GPU 内存利用率。此外,有时一些提示(尤其是仅在图像的一小部分中指定的提示)被忽略,或者它们覆盖的区域比相应蒙版指定的区域更大。虽然可以通过引导步骤来缓解这种情况,但过多的引导步骤会显着降低图像的整体质量,因为可用于将元素协调在一起的步骤较少。

值得一提的是,组合不同扩散过程的想法并不限于本文中描述的内容,它还可以用于进一步的应用,例如全景图像生成,如论文 MultiDiffusion: Fusing Diffusion Paths for Controlled图像生成。

我希望您喜欢这篇文章,如果您想深入了解技术细节,您可以查看此 Colab 笔记本和 GitHub 存储库以及代码实现。

往期推荐

Reference

[1]

Source: https://towardsdatascience.com/image-composition-with-pre-trained-diffusion-models-772cd01b5022

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 冷冻工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
最近对文本到图像(T2I)扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子,可以为固定的文本提示生成各种图像。在技术上,种子控制着初始噪声,并且在多步扩散推理中,在反向扩散过程的中间时间步骤中用于重参数化的噪声。然而,随机种子对生成的图像的具体影响仍然相对未知。
AIWalker
2024/06/26
1200
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
由于社交媒体平台的进步,照片的创意编辑成为了普遍需求。基于人工智能的技术极大地降低了炫酷图像编辑的门槛,不再需要专业软件和耗时的手动操作。深度神经网络通过学习丰富的配对数据,可以产生令人印象深刻的结果,如图像修复、构图、上色和美化。然而,语义图像编辑仍然具有挑战性,它旨在操纵图像内容的高级语义并保持图像的真实性。目前,大规模语言图像模型能够以文本提示为指导实现图像操作,但是详细的文本描述常常不够准确,很难描述细粒度的物体外观。因此,需要开发一种更直观的方法来方便新手和非母语使用者进行精细的图像编辑。
用户1324186
2023/10/28
9200
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
DreamSparse: 利用扩散模型的稀疏图的新视角合成
最近的工作开始探索稀疏视图新视图合成,特别是专注于从有限数量的具有已知相机姿势的输入图像(通常为2-3)生成新视图。其中一些试图在 NeRF 中引入额外的先验,例如深度信息,以增强对稀疏视图场景中 3D 结构的理解。然而,由于在少数视图设置中可用的信息有限,这些方法难以为未观察到的区域生成清晰的新图像。为了解决这个问题,SparseFusion 和 GenNVS 提出学习扩散模型作为图像合成器,用于推断高质量的新视图图像,并利用来自同一类别内其他图像的先验信息。然而,由于扩散模型仅在单个类别中进行训练,因此它在生成看不见的类别中的对象时面临困难,并且需要对每个对象进行进一步的提炼,这使得它仍然不切实际。
用户1324186
2023/10/17
5750
DreamSparse: 利用扩散模型的稀疏图的新视角合成
扩散模型概述:应用、引导生成、统计率和优化
An overview of diffusion models: Applications, guided generation, statistical rates and optimization 扩散模型概述:应用、引导生成、统计速率和优化
CreateAMind
2024/07/05
5720
扩散模型概述:应用、引导生成、统计率和优化
ICCV 2023 | TF-ICON: 基于扩散的免训练跨域图像合成
图像合成任务(Image composition)涉及将不同照片中的对象融入到特定的视觉环境中,以创建一个和谐的图像,也即图像引导合成。这项任务本身就极具挑战性,因为它要求保持光照一致性并保留识别特征。当图像来自不同域时,任务的挑战就会进一步加剧。
用户1324186
2023/11/02
1.2K0
ICCV 2023 | TF-ICON: 基于扩散的免训练跨域图像合成
概率扩散模型讲义 (Probabilistic Diffusion Models)
Lecture Notes in Probabilistic Diffusion Models
CreateAMind
2024/05/14
5360
概率扩散模型讲义 (Probabilistic Diffusion Models)
扩散模型最新综述!
本文综述了深度生成模型,特别是扩散模型(Diffusion model),如何赋予机器类似人类的想象力。扩散模型在生成逼真样本方面显示出巨大潜力,克服了变分自编码器中的后分布对齐障碍,缓解了生成对抗网络中的对抗性目标不稳定性。
算法进阶
2024/03/26
1.2K0
扩散模型最新综述!
什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
也许过去十年在计算机视觉和机器学习方面的突破是GANs(生成式对抗网络)的发明——这种方法引入了超越数据中已经存在的内容的可能性,是一个全新领域的敲门砖,现在称为生成式建模。然而,在经历了一个蓬勃发展的阶段后,GANs开始面临平台期,其中大多数方法都在努力解决对抗性方法面临的一些瓶颈。这不是单个方法的问题,而是问题本身的对抗性。GANs的一些主要瓶颈是:
小白学视觉
2024/10/11
3650
什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
6.4K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下的一致性方面也不足。大部分相关工作应用了隐式神经表示(INR)到去噪扩散模型中,以获得连续分辨率的多样化且高质量的SR结果。由于该模型在图像空间中操作,所以产生分辨率越大的图像,需要的内存和推理时间也越多,并且它也不能保持尺度特定的一致性。
公众号机器学习与AI生成创作
2024/04/12
3.9K0
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
详解 Diffusion (扩散) 模型
扩散模型是跨不同深度学习领域使用的生成模型。目前,它们主要用于图像和音频生成。最值得注意的是,这些模型是令人印象深刻的图像生成模型(例如 Dalle2 和稳定扩散)背后的驱动力。我相信您已经看过这些模型生成的闪烁图像。令人惊叹的结果证明了深度学习的进步是多么令人兴奋。
数据科学工厂
2023/10/25
9750
详解 Diffusion (扩散) 模型
生成式之Diffusion扩散模型
基于denoising diffusion probabilistic model (DDPM)的扩散模型,该模型已在图像/音频/视频生成领域取得显著成果。目前比较受欢迎的例子包括GLIDE、DALL-E 2、潜在扩散和图像生成。生成模型的扩散概念最早在2015年由Sohl-Dickstein等人介绍,但直到2019年和2020年分别在斯坦福大学和Google Brain才各自独立地改进了这种方法。本文是基于PyTorch框架的复现,并迁移到MindSpore AI框架上实现。
查拉图斯特拉说
2024/07/20
1040
生成式之Diffusion扩散模型
清华 & 华为 开源U-DiTS | 利用 U-Net 架构提升扩散 Transformer 的性能和效率!
感谢注意力机制建立了长距离的空间依赖关系,Transformers 在各种视觉任务中,包括图像分类 、目标检测、分割 和图像恢复 ,都证明了其高效性。DiTs 将完整的Transformer架构引入到扩散模型中,这在小鼠图像空间和潜在空间生成任务上展示了卓越的性能和可扩展性。最近的后续工作通过将扩散Transformer的应用扩展到灵活分辨率的图像生成 、真实视频生成等领域,展示了其前景广阔。
AIGC 先锋科技
2024/07/08
4400
清华 & 华为 开源U-DiTS | 利用 U-Net 架构提升扩散 Transformer 的性能和效率!
草图指导的文生图扩散模型
文本到图像模型是机器学习发展中的一次飞跃,展示了根据给定文本提示的图像的高质量合成的能力。然而,这些强大的预训练模型缺乏可以指导合成图像的空间属性的控制方法。在这项工作中,作者引入了一种通用方法,通过在推理期间使用来自另一个域(例如草图)的空间图来指导预训练的文本到图像扩散模型。该方法不需要为任务训练专用模型或专门的编码器。
用户1324186
2023/09/19
7350
草图指导的文生图扩散模型
DiffBIR:用生成式扩散先验实现盲图像恢复
图像恢复的目的是从低质量的观测中重建出高质量的图像。典型的图像恢复问题,如图像去噪、去模糊和超分辨率,通常是在受限的环境下定义的,其中退化过程是简单和已知的(例如,高斯噪声和双三次降采样)。为了处理现实世界中退化的图像,盲图像恢复(BIR)成为一个很有前途的方向。BIR的最终目标是在具有一般退化的一般图像上实现真实的图像重建。BIR不仅扩展了经典图像恢复任务的边界,而且具有广泛的实际应用领域。BIR的研究还处于初级阶段。根据问题设置的不同,现有的BIR方法大致可以分为三个研究方向,即盲图像超分辨率(BSR)、零次图像恢复(ZIR)和盲人脸恢复(BFR)。它们都取得了显著的进步,但也有明显的局限性。BSR最初是为了解决现实世界的超分辨率问题而提出的,其中低分辨率图像包含未知的退化。根据最近的BSR调查,最流行的解决方案可能是BSRGAN和Real-ESRGAN。它们将BSR表述为一个有监督的大规模退化过拟合问题。为了模拟真实的退化,分别提出了退化洗牌策略和高阶退化建模,并用对抗性损失来以端到端方式学习重建过程。它们确实消除了一般图像上的大多数退化,但不能生成真实的细节。此外,它们的退化设置仅限于×4或者×8超分辨率,这对于BIR问题来说是不完整的。第二组ZIR是一个新出现的方向。代表有DDRM、DDNM、GDP。它们将强大的扩散模型作为附加先验,因此比基于GAN的方法具有更大的生成能力。通过适当的退化假设,它们可以在经典图像恢复任务中实现令人印象深刻的零次恢复。但是,ZIR的问题设置与BIR不一致。他们的方法只能处理明确定义的退化(线性或非线性),但不能很好地推广到未知的退化。第三类是BFR,主要研究人脸修复。最先进的方法可以参考CodeFormer和VQFR。它们具有与BSR方法相似的求解方法,但在退化模型和生成网络上有所不同。由于图像空间较小,这些方法可以利用VQGAN和Transformer在真实世界的人脸图像上取得令人惊讶的好结果。然而,BFR只是BIR的一个子域。它通常假设输入大小固定,图像空间有限,不能应用于一般图像。由以上分析可知,现有的BIR方法无法在一般图像上实现一般退化的同时实现真实图像的重建。因此需要一种新的BIR方法来克服这些限制。本文提出了DiffBIR,将以往工作的优点整合到一个统一的框架中。具体来说,DiffBIR(1)采用了一种扩展的退化模型,可以推广到现实世界的退化;(2)利用训练良好的Stable Diffusion作为先验来提高生成能力;(3)引入了一个两阶段的求解方法来保证真实性和保真度。本文也做了专门的设计来实现这些策略。首先,为了提高泛化能力,本文将BSR的多种退化类型和BFR的广泛退化范围结合起来,建立了一个更实用的退化模型。这有助于DiffBIR处理各种极端退化情况。其次,为了利用Stable Diffusion,本文引入了一个注入调制子网络-LAControlnet,可以针对特定任务进行优化。与ZIR类似,预训练的Stable Diffusion在微调期间是固定的,以保持其生成能力。第三,为了实现忠实和逼真的图像重建,本文首先应用恢复模块(即SwinIR)来减少大多数退化,然后微调生成模块(即LAControlnet)来生成新的纹理。如果没有这个部分,模型可能会产生过度平滑的结果(删除生成模块)或生成错误的细节(删除恢复模块)。此外,为了满足用户多样化的需求,本文进一步提出了一个可控模块,可以实现第一阶段的恢复结果和第二阶段的生成结果之间的连续过渡效果。这是通过在去噪过程中引入潜在图像引导而无需重新训练来实现的。适用于潜在图像距离的梯度尺度可以调整以权衡真实感和保真度。在使用了上述方法后,DiffBIR在合成和现实数据集上的BSR和BFR任务中都表现出优异的性能。值得注意的是,DiffBIR在一般图像恢复方面实现了很大的性能飞跃,优于现有的BSR和BFR方法(如BSRGAN、Real-ESRGAN、CodeFormer等)。可以观察到这些方法在某些方面的差异。对于复杂的纹理,BSR方法往往会产生不真实的细节,而DiffBIR方法可以产生视觉上令人愉悦的结果。对于语义区域,BSR方法倾向于实现过度平滑的效果,而DiffBIR可以重建语义细节。对于微小的条纹,BSR方法倾向于删除这些细节,而DiffBIR方法仍然可以增强它们的结构。此外,DiffBIR能够处理极端的退化并重新生成逼真而生动的语义内容。这些都表明DiffBIR成功地打破了现有BSR方法的瓶颈。对于盲人脸恢复,DiffBIR在处理一些困难的情况下表现出优势,例如在被其他物体遮挡的面部区域保持良好的保真度,在面部区域之外成功恢复。综上所述,DiffBIR首次能够在统一的框架内获得具有竞争力的BSR和BFR任务性能。广泛而深入的实验证明了DiffBIR优于现有的最先进的BSR和BFR方法。
用户1324186
2024/02/21
1K0
DiffBIR:用生成式扩散先验实现盲图像恢复
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
这篇论文探讨了一个当前在图像合成领域中的核心问题:如何在保持生成图像质量的同时,减少计算资源的消耗。目前的先进扩散模型,如Stable Diffusion和DALL·E 2,虽然能够生成接近真实的高质量图像,但它们对计算资源的需求非常高,这在一定程度上限制了它们的应用范围和可达性。例如,Stable Diffusion 1.4版本的训练就耗费了150,000 GPU小时。
BBuf
2024/04/12
2340
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw
机器之心报道 机器之心编辑部 为了让 AI 生成的图像里带有真正的文字,人们想尽了办法。 近来,文本生成图像领域取得了很多意想不到的突破,很多模型都可以实现基于文本指令创建高质量和多样化图像的功能。虽然生成的图像已经很逼真,但当前模型往往善于生成风景、物体等实物图像,但很难生成带有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像。 为了解决这个问题,来自 OPPO 等机构的研究者们提出了一个通用学习框架 GlyphDraw,旨在让模型能够生成嵌入连贯文本的图像,这是图像合成领域首个解决汉字生成问题的工作
机器之心
2023/04/11
5550
扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw
Diffusion 和Stable Diffusion的数学和工作原理详细解释
扩散模型的兴起可以被视为人工智能生成艺术领域最近取得突破的主要因素。而稳定扩散模型的发展使得我们可以通过一个文本提示轻松地创建美妙的艺术插图。所以在本文中,我将解释它们是如何工作的。
deephub
2023/02/01
2.8K0
Diffusion Model 扩散模型 速览
近年来,AI生成艺术领域取得了长足的进步,其中Diffusion Model的兴起可以说是一个重要的里程碑。Diffusion Model是一种生成模型,它使用了一个深度神经网络来建模图像的像素级别分布。相较于传统的生成模型,Diffusion Model不需要计算任何显式的概率分布,而是采用一个简单的随机游走过程来生成图像。这种方法能够处理高维度、复杂的数据,并且可以产生高质量的图像。因此,Diffusion Model已经成为生成艺术领域最受欢迎的技术之一。通过使用Diffusion Model,人们能够生成逼真的图像、视频、音频等内容,进一步推动了AI在艺术创作中的应用。在本文中,我将解释它如何使用说明。
AiCharm
2023/05/15
1.1K0
Diffusion Model 扩散模型 速览
DiffuRec: 如何使用扩散模型进行序列推荐
TLDR:针对传统推荐算法存在的表征能力有限、不确定性等挑战,本文提出一种利用扩散模型进行序列推荐的工作,该工作能够实现高质量、多样性的推荐效果。
张小磊
2023/08/22
7120
DiffuRec: 如何使用扩散模型进行序列推荐
推荐阅读
相关推荐
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文