Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw

扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw

作者头像
机器之心
发布于 2023-04-11 01:11:59
发布于 2023-04-11 01:11:59
5560
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

为了让 AI 生成的图像里带有真正的文字,人们想尽了办法。

近来,文本生成图像领域取得了很多意想不到的突破,很多模型都可以实现基于文本指令创建高质量和多样化图像的功能。虽然生成的图像已经很逼真,但当前模型往往善于生成风景、物体等实物图像,但很难生成带有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像。

为了解决这个问题,来自 OPPO 等机构的研究者们提出了一个通用学习框架 GlyphDraw,旨在让模型能够生成嵌入连贯文本的图像,这是图像合成领域首个解决汉字生成问题的工作。

  • 论文地址:https://arxiv.org/abs/2303.17870
  • 项目主页:https://1073521013.github.io/glyph-draw.github.io/

我们先来看一下生成效果,例如为展览馆生成警示标语:

生成广告牌:

为图片配上简要的文本说明,文字样式也可多样化:

还有,最有趣也最实用的例子是生成表情包:

虽然结果存在一些瑕疵,但是整体生成效果已经很好了。总体来说,该研究的主要贡献包括:

  • 该研究提出了首个汉字图像生成框架 GlyphDraw,其中利用一些辅助信息,包括汉字字形和位置在整个生成过程中提供细粒度指导,从而使汉字图像高质量无缝嵌入到图像中;
  • 该研究提出了一种有效的训练策略,限制了预训练模型中可训练参数的数量,以防止过拟合和灾难性遗忘(catastrophic forgetting),有效地保持了模型强大的开放域生成性能,同时实现了准确的汉字图像生成。
  • 该研究介绍了训练数据集的构建过程,并提出了一个新的基准来使用 OCR 模型评估汉字图像生成质量。其中,GlyphDraw 获得了 75% 的生成准确率,明显优于以前的图像合成方法。

模型介绍

该研究首先设计了复杂的图像 - 文本数据集构建策略,然后基于开源图像合成算法 Stable Diffusion 提出了通用学习框架 GlyphDraw,如下图 2 所示。

Stable Diffusion 的整体训练目标可以表示为如下公式:

GlyphDraw 基于 Stable Diffusion 中的交叉注意力机制,原始输入潜在向量 z_t 被图像潜在向量的 z_t、文本掩码 l_m 和字形图像 l_g 的级联替代。

此外,通过使用特定领域的融合模块,条件 C 配备了混合字形和文本特征。文本掩码和字形信息的引入,让整个训练过程实现了细粒度的扩散控制,是提高模型性能的关键组成部分,最终得以生成带有汉字文本的图像。

具体来说,文本信息的像素表征,特别是象形汉字这种复杂的文本形式,与自然物体有明显的不同。例如,中文词语「天空(sky)」是由二维结构的多个笔画组成,而其对应的自然图像是「点缀着白云的蓝天」。相比之下,汉字有非常细粒度的特性,甚至是微小的移动或变形都会导致不正确的文本渲染,从而无法实现图像生成。

在自然图像背景中嵌入字符还需要考虑一个关键问题,那就是在避免影响相邻自然图像像素的同时,还要精确地控制文本像素的生成。为了在自然图像上呈现完美的汉字,作者精心设计了两个集成到扩散合成模型中的关键组件,即位置控制和字形控制。

与其他模型的全局条件输入不同,字符生成需要更多地关注图像的特定局部区域,因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃,该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布。

除了位置控制,另一个重要的问题是汉字笔画合成的精细控制。考虑到汉字的复杂性和多样性,在没有任何明确先验知识的情况下,仅仅只是从大量的图像 - 文本数据集中学习是极其困难的。为了准确地生成汉字,该研究将显式字形图像作为额外的条件信息纳入模型扩散过程。

实验及结果

由于此前没有专门用于汉字图像生成的数据集,该研究首先构建了一个用于定性和定量评估的基准数据集 ChineseDrawText,然后在 ChineseDrawText 上测试比较了几种方法的生成准确率(由 OCR 识别模型评估)。

该研究提出的 GlyphDraw 模型通过有效地使用辅助字形和位置信息达到了 75% 的平均准确率,从而证明了该模型出色的字符图像生成能力。几种方法的可视化比较结果如下图所示:

此外,GlyphDraw 还可以通过限制训练参数来保持开放域图像合成性能,在 MS-COCO FID-10k 上一般图像合成的 FID 仅下降了 2.3。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
也许过去十年在计算机视觉和机器学习方面的突破是GANs(生成式对抗网络)的发明——这种方法引入了超越数据中已经存在的内容的可能性,是一个全新领域的敲门砖,现在称为生成式建模。然而,在经历了一个蓬勃发展的阶段后,GANs开始面临平台期,其中大多数方法都在努力解决对抗性方法面临的一些瓶颈。这不是单个方法的问题,而是问题本身的对抗性。GANs的一些主要瓶颈是:
小白学视觉
2024/10/11
3680
什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
本文略长,需一定耐心看完!不当处望指出。 前言 扩散模型(DMs)将生成过程顺序分解,基于去噪自动编码器实现,在图像数据和其它数据上实现了先进的生成结果。此外,它们可以添加引导机制来控制图像生成过程而无需再训练。 然而,由于这些模型直接在像素空间中操作,优化扩散模型DM消耗数百个GPU天,且由于一步一步顺序计算,推理非常昂贵。为在有限的计算资源上进行DM训练,同时保持其质量和灵活性,本文应用了预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型,可以在复杂性降低和细节保留之间达到一个接近最
公众号机器学习与AI生成创作
2022/10/31
2.6K0
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
DiffBIR:用生成式扩散先验实现盲图像恢复
图像恢复的目的是从低质量的观测中重建出高质量的图像。典型的图像恢复问题,如图像去噪、去模糊和超分辨率,通常是在受限的环境下定义的,其中退化过程是简单和已知的(例如,高斯噪声和双三次降采样)。为了处理现实世界中退化的图像,盲图像恢复(BIR)成为一个很有前途的方向。BIR的最终目标是在具有一般退化的一般图像上实现真实的图像重建。BIR不仅扩展了经典图像恢复任务的边界,而且具有广泛的实际应用领域。BIR的研究还处于初级阶段。根据问题设置的不同,现有的BIR方法大致可以分为三个研究方向,即盲图像超分辨率(BSR)、零次图像恢复(ZIR)和盲人脸恢复(BFR)。它们都取得了显著的进步,但也有明显的局限性。BSR最初是为了解决现实世界的超分辨率问题而提出的,其中低分辨率图像包含未知的退化。根据最近的BSR调查,最流行的解决方案可能是BSRGAN和Real-ESRGAN。它们将BSR表述为一个有监督的大规模退化过拟合问题。为了模拟真实的退化,分别提出了退化洗牌策略和高阶退化建模,并用对抗性损失来以端到端方式学习重建过程。它们确实消除了一般图像上的大多数退化,但不能生成真实的细节。此外,它们的退化设置仅限于×4或者×8超分辨率,这对于BIR问题来说是不完整的。第二组ZIR是一个新出现的方向。代表有DDRM、DDNM、GDP。它们将强大的扩散模型作为附加先验,因此比基于GAN的方法具有更大的生成能力。通过适当的退化假设,它们可以在经典图像恢复任务中实现令人印象深刻的零次恢复。但是,ZIR的问题设置与BIR不一致。他们的方法只能处理明确定义的退化(线性或非线性),但不能很好地推广到未知的退化。第三类是BFR,主要研究人脸修复。最先进的方法可以参考CodeFormer和VQFR。它们具有与BSR方法相似的求解方法,但在退化模型和生成网络上有所不同。由于图像空间较小,这些方法可以利用VQGAN和Transformer在真实世界的人脸图像上取得令人惊讶的好结果。然而,BFR只是BIR的一个子域。它通常假设输入大小固定,图像空间有限,不能应用于一般图像。由以上分析可知,现有的BIR方法无法在一般图像上实现一般退化的同时实现真实图像的重建。因此需要一种新的BIR方法来克服这些限制。本文提出了DiffBIR,将以往工作的优点整合到一个统一的框架中。具体来说,DiffBIR(1)采用了一种扩展的退化模型,可以推广到现实世界的退化;(2)利用训练良好的Stable Diffusion作为先验来提高生成能力;(3)引入了一个两阶段的求解方法来保证真实性和保真度。本文也做了专门的设计来实现这些策略。首先,为了提高泛化能力,本文将BSR的多种退化类型和BFR的广泛退化范围结合起来,建立了一个更实用的退化模型。这有助于DiffBIR处理各种极端退化情况。其次,为了利用Stable Diffusion,本文引入了一个注入调制子网络-LAControlnet,可以针对特定任务进行优化。与ZIR类似,预训练的Stable Diffusion在微调期间是固定的,以保持其生成能力。第三,为了实现忠实和逼真的图像重建,本文首先应用恢复模块(即SwinIR)来减少大多数退化,然后微调生成模块(即LAControlnet)来生成新的纹理。如果没有这个部分,模型可能会产生过度平滑的结果(删除生成模块)或生成错误的细节(删除恢复模块)。此外,为了满足用户多样化的需求,本文进一步提出了一个可控模块,可以实现第一阶段的恢复结果和第二阶段的生成结果之间的连续过渡效果。这是通过在去噪过程中引入潜在图像引导而无需重新训练来实现的。适用于潜在图像距离的梯度尺度可以调整以权衡真实感和保真度。在使用了上述方法后,DiffBIR在合成和现实数据集上的BSR和BFR任务中都表现出优异的性能。值得注意的是,DiffBIR在一般图像恢复方面实现了很大的性能飞跃,优于现有的BSR和BFR方法(如BSRGAN、Real-ESRGAN、CodeFormer等)。可以观察到这些方法在某些方面的差异。对于复杂的纹理,BSR方法往往会产生不真实的细节,而DiffBIR方法可以产生视觉上令人愉悦的结果。对于语义区域,BSR方法倾向于实现过度平滑的效果,而DiffBIR可以重建语义细节。对于微小的条纹,BSR方法倾向于删除这些细节,而DiffBIR方法仍然可以增强它们的结构。此外,DiffBIR能够处理极端的退化并重新生成逼真而生动的语义内容。这些都表明DiffBIR成功地打破了现有BSR方法的瓶颈。对于盲人脸恢复,DiffBIR在处理一些困难的情况下表现出优势,例如在被其他物体遮挡的面部区域保持良好的保真度,在面部区域之外成功恢复。综上所述,DiffBIR首次能够在统一的框架内获得具有竞争力的BSR和BFR任务性能。广泛而深入的实验证明了DiffBIR优于现有的最先进的BSR和BFR方法。
用户1324186
2024/02/21
1K0
DiffBIR:用生成式扩散先验实现盲图像恢复
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
内容和风格(Content and style disentanglement,C-S)解耦是风格迁移的一个基本问题和关键挑战。基于显式定义(例如Gram矩阵)或隐式学习(例如GANs)的现有方法既不易解释也不易控制,导致表示交织在一起并且结果不尽如人意。
公众号机器学习与AI生成创作
2024/02/29
3.5K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
6.4K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
AI绘画一键生成美图-变成画家
论文题目:High-Resolution Image Synthesis with Latent Diffusion Models(基于潜在扩散模型的高分辨率图像合成)
Srlua
2024/12/13
1110
AI绘画一键生成美图-变成画家
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
在生成式 AI 时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构,这使得优化更困难,消耗的算力和内存也更多。
机器之心
2023/11/02
2440
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
1.1K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
deephub
2024/07/01
2880
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
文本到图像扩散模型,使得生成多样且高质量的图像成为可能。然而,这些图像往往在描绘细节方面不够精细,并且容易出现由于输入文本的歧义导致的错误。缓解这些问题的一种方法是在带类标签的数据集上训练扩散模型。这种方法有两个缺点:(i)监督数据集通常与大规模抓取的文本-图像数据集相比较小,影响生成图像的质量和多样性,或者(ii)输入是一个硬编码标签,而不是自由形式的文本,限制了对生成图像的控制。
公众号机器学习与AI生成创作
2024/01/10
4.4K0
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
最近对文本到图像(T2I)扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子,可以为固定的文本提示生成各种图像。在技术上,种子控制着初始噪声,并且在多步扩散推理中,在反向扩散过程的中间时间步骤中用于重参数化的噪声。然而,随机种子对生成的图像的具体影响仍然相对未知。
AIWalker
2024/06/26
1220
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
这篇论文探讨了一个当前在图像合成领域中的核心问题:如何在保持生成图像质量的同时,减少计算资源的消耗。目前的先进扩散模型,如Stable Diffusion和DALL·E 2,虽然能够生成接近真实的高质量图像,但它们对计算资源的需求非常高,这在一定程度上限制了它们的应用范围和可达性。例如,Stable Diffusion 1.4版本的训练就耗费了150,000 GPU小时。
BBuf
2024/04/12
2350
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
---- 新智元报道   编辑:LRS 【新智元导读】GAN模型也有变大的潜力! AIGC爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。 随着OpenAI发布DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。 从GAN切换到扩散模型的架构转变也引出了一个问题:能否通过扩大GAN模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗? 最近,针对增加StyleGA
新智元
2023/03/29
8540
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒
简笔素描一键变身多风格画作,还能添加额外的描述,这在 CMU、Adobe 联合推出的一项研究中实现了。
机器之心
2024/03/26
1360
CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
由于社交媒体平台的进步,照片的创意编辑成为了普遍需求。基于人工智能的技术极大地降低了炫酷图像编辑的门槛,不再需要专业软件和耗时的手动操作。深度神经网络通过学习丰富的配对数据,可以产生令人印象深刻的结果,如图像修复、构图、上色和美化。然而,语义图像编辑仍然具有挑战性,它旨在操纵图像内容的高级语义并保持图像的真实性。目前,大规模语言图像模型能够以文本提示为指导实现图像操作,但是详细的文本描述常常不够准确,很难描述细粒度的物体外观。因此,需要开发一种更直观的方法来方便新手和非母语使用者进行精细的图像编辑。
用户1324186
2023/10/28
9250
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
ICCV 2023 视频AIGC(编辑/生成/转换)论文 7 篇
基于大规模图像库训练的图像扩散模型已成为质量和多样性方面最为通用的图像生成模型。它们支持反转真实图像和条件生成(例如,文本生成),使其在高质量图像编辑应用中具有吸引力。本文研究如何利用这些预训练的图像模型进行文本引导的视频编辑。
公众号机器学习与AI生成创作
2024/01/10
4600
ICCV 2023 视频AIGC(编辑/生成/转换)论文 7 篇
Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字
深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。
新智元
2023/01/08
4410
Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
前者使用文本的字符、位置和掩码图像等输入来为文本生成或编辑生成潜在特征。后者采用OCR模型将笔划数据编码为嵌入,与来自分词器的图像描述嵌入相结合,以生成与背景无缝融合的文本。作者在训练中采用了文本控制扩散损失和文本感知损失,以进一步提高写作准确性。据作者所知,AnyText是第一个解决多语言视觉文本生成的工作。 值得一提的是,AnyText可以与社区现有的扩散模型相结合,用于准确地渲染或编辑文本。经过广泛的评估实验,作者的方法在明显程度上优于其他所有方法。 此外,作者还贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,该数据集包含300万个图像-文本对,并带有多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成准确性和质量。 代码:https://github.com/tyxsspa/AnyText
公众号-arXiv每日学术速递
2023/11/15
1.1K0
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而,当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题,采用以下两种策略:1)一种解耦参考图像的风格和语义的机制。解耦后的特征表示首先由不同文本描述指导的Q-Formers提取。然后,它们被注入到交叉注意力层的相互排除的子集中,以实现更好的分解。2)一种非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练,其中参考图像和真实图像具有相同的风格或语义。
公众号机器学习与AI生成创作
2024/04/12
2.5K0
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
DreamSparse: 利用扩散模型的稀疏图的新视角合成
最近的工作开始探索稀疏视图新视图合成,特别是专注于从有限数量的具有已知相机姿势的输入图像(通常为2-3)生成新视图。其中一些试图在 NeRF 中引入额外的先验,例如深度信息,以增强对稀疏视图场景中 3D 结构的理解。然而,由于在少数视图设置中可用的信息有限,这些方法难以为未观察到的区域生成清晰的新图像。为了解决这个问题,SparseFusion 和 GenNVS 提出学习扩散模型作为图像合成器,用于推断高质量的新视图图像,并利用来自同一类别内其他图像的先验信息。然而,由于扩散模型仅在单个类别中进行训练,因此它在生成看不见的类别中的对象时面临困难,并且需要对每个对象进行进一步的提炼,这使得它仍然不切实际。
用户1324186
2023/10/17
5760
DreamSparse: 利用扩散模型的稀疏图的新视角合成
推荐阅读
什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
3680
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
2.6K0
DiffBIR:用生成式扩散先验实现盲图像恢复
1K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
3.5K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
6.4K0
AI绘画一键生成美图-变成画家
1110
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
2440
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
1.1K0
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
2880
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
4.4K0
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
1220
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
2350
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
8540
CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒
1360
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
9250
ICCV 2023 视频AIGC(编辑/生成/转换)论文 7 篇
4600
Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字
4410
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
1.1K0
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
2.5K0
DreamSparse: 利用扩散模型的稀疏图的新视角合成
5760
相关推荐
什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文