Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >控制图像中的文字!AIGC应用子方向 之 图像场景文本的编辑与生成

控制图像中的文字!AIGC应用子方向 之 图像场景文本的编辑与生成

作者头像
公众号机器学习与AI生成创作
发布于 2023-12-28 06:46:49
发布于 2023-12-28 06:46:49
6380
举报

Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model

  • 扩散模型仍面临准确生成多语言场景字体图像的挑战。为解决这个问题,提出Diff-Text,一种基于训练的自由场景字体生成框架,适用于任何语言。
  • 模型根据任何语言的字体和场景的文本描述生成逼真的图像。该模型利用渲染的素描图像作为先验,从而唤醒了预训练扩散模型的潜在多语言生成能力。基于观察生成图像中交叉注意力图对对象放置的影响,在交叉注意力层中引入了局部注意力约束来解决场景文本的不合理定位问题。此外,引入了对比图像级提示来进一步细化文本区域的位置并实现更准确的场景文本生成。
  • 实验证明,方法在文本识别准确性和前景背景融合的自然度方面优于现有方法。
  • https://github.com/ecnuljzhang/brush-your-text

PSGText: Stroke-Guided Scene Text Editing with PSP Module

  • 场景文本编辑(STE)旨在替换图像中的文本,并保留原始文本的背景和样式。然而,目前的技术在生成编辑后的文本图像时面临着一个明显的挑战,即如何展示高度清晰和易读的编辑后的文本图像。这个挑战主要源于各种文本类型之间的内在多样性和复杂背景的复杂纹理。
  • 为解决这个挑战,本文提出一个三阶段的框架,用于在文本图像之间迁移文本。首先,引入一个文本交换网络,它可以无缝地将原始文本替换为期望的新文本。随后,将背景修复网络纳入到框架中。这个专门网络设计用于巧妙地重建背景图像,有效地处理删除原始文本后留下的空白。这个过程在背景中保持视觉和谐和连贯性。最后,通过融合网络合成来自文本交换网络和背景修复网络的结果,最终创建精心编辑的最终图像。

ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining

  • 场景文本去除(Scene text removal,STR),目的是用视觉连贯的背景代替自然场景中的文本笔画。 最近的STR方法依赖于迭代改进或显式文本掩码,导致更高的复杂性和对文本定位准确性的敏感性。 此外,大多数现有的STR方法利用卷积神经网络(cnn)进行特征表示,而视觉ViT的潜力仍未得到充分开发。
  • 本文提出一种简单有效的基于vit的文本擦除器,称为ViTEraser。 在一个简洁的编码器-解码器框架下,不同类型的vit可以很容易地集成到ViTEraser中,以增强远程依赖和全局推理。 具体来说,编码器通过ViT块和局部嵌入层将输入图像分层映射到隐藏空间,而解码器通过ViT块和局部分割层将隐藏特征逐步上采样到文本擦除图像。 由于ViTEraser隐式集成了文本定位和图像绘制,提出了一种新的端到端预训练方法,称为SegMIM,该方法将编码器和解码器分别集中在文本框分割和掩码图像建模任务上。
  • 为验证所提出方法的有效性,全面探索了基于ViT的STR编解码器的架构、预训练和可扩展性。实验结果表明,带有SegMIM的ViTEraser在STR上取得了相当大的性能。此外,对篡改场景文本检测的扩展实验证明了ViTEraser在其他任务中的通用性。
  • https://github.com/shannanyinxiang/ViTEraser

A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data

  • 场景文本图像合成技术,在背景场景图像上自然组合文本实例,对于训练深度神经网络非常有吸引力,因为它们可以提供准确和全面的标注信息。先前的研究已经探索了基于从现实世界观察得出的规则在二维和三维表面上生成合成文本图像。其中一些研究提出从学习中生成场景文本图像;然而,由于缺乏合适的训练数据集,已经探索了无监督框架以从现有的现实世界数据中学习,这可能不会产生稳健的性能。
  • 为了缓解这种困境并促进基于学习的场景文本合成的研究,提出 DecompST,一个使用公共基准的真实世界数据集,具有三种类型的注释:四边形级 BBoxes、笔划级文本掩码和文本擦除图像。使用 DecompST 数据集,提出了一个图像合成引擎,该引擎包括一个文本位置提议网络(TLPNet)和一个文本外观适应网络(TAANet)。TLPNet 首先预测适合文本嵌入的区域。TAANet 然后根据背景的上下文自适应地改变文本实例的几何形状和颜色。实验验证了所提出的为场景文本检测器生成预训练数据的方法的有效性。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与AI生成创作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
医学影像是诊断各种疾病(尤其是在神经学和肿瘤学)的必备工具 [1]。多模态影像(如多模态MRI扫描,例如T1、T2和PD序列),可以整合不同影像序列的互补信息,从而提高诊断的准确性 [2]。不同的MRI序列可以显示不同的组织特征,有助于肿瘤、血管畸形或退行性疾病的检测 [3]。然而,获取这些不同模态需要额外的成本,包括在扫描仪中延长患者的时间。此外,由于设备限制、患者状况或长时间扫描过程中产生的运动,并非所有模态都可能可用。这些挑战推动了大量对医学影像翻译技术的需求,这些技术可以将一种影像模式合成为另一种,从而在减少多模态扫描的同时保持诊断的准确性。
未来先知
2024/12/23
2770
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下的一致性方面也不足。大部分相关工作应用了隐式神经表示(INR)到去噪扩散模型中,以获得连续分辨率的多样化且高质量的SR结果。由于该模型在图像空间中操作,所以产生分辨率越大的图像,需要的内存和推理时间也越多,并且它也不能保持尺度特定的一致性。
公众号机器学习与AI生成创作
2024/04/12
4.2K0
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
前者使用文本的字符、位置和掩码图像等输入来为文本生成或编辑生成潜在特征。后者采用OCR模型将笔划数据编码为嵌入,与来自分词器的图像描述嵌入相结合,以生成与背景无缝融合的文本。作者在训练中采用了文本控制扩散损失和文本感知损失,以进一步提高写作准确性。据作者所知,AnyText是第一个解决多语言视觉文本生成的工作。 值得一提的是,AnyText可以与社区现有的扩散模型相结合,用于准确地渲染或编辑文本。经过广泛的评估实验,作者的方法在明显程度上优于其他所有方法。 此外,作者还贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,该数据集包含300万个图像-文本对,并带有多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成准确性和质量。 代码:https://github.com/tyxsspa/AnyText
公众号-arXiv每日学术速递
2023/11/15
1.2K0
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
文本生成图像这么火,你需要了解这些技术的演变
选自 Intento 作者:Grigory Sapunov 机器之心编译 机器之心编辑部 目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 u
机器之心
2022/06/07
1.9K0
文本生成图像这么火,你需要了解这些技术的演变
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
公众号机器学习与AI生成创作
2023/08/22
1.8K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域
近日,CVPR 2022官方公布了接收论文列表,来自腾讯优图实验室共计30篇论文被CVPR收录,论文涵盖包括场景文本语义识别、3D人脸重建、人体姿态估计 (HPE)、目标检测、图像风格转换、视频场景分割和视频插帧等研究领域。
优图实验室
2022/04/20
3K0
CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.4K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
240
论文解读 - 统一的多模态理解和生成模型综述(上)
无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)
大数据预训练的驱动下,Segment Anything Model(SAM)已被证明是一个强大的可提示框架,彻底改变了分割领域。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制SAM的探索不足,例如,在大量图像中自动分割你的宠物狗。
计算机视觉研究院
2023/10/23
5170
无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)
图像编辑系列之(2)基于StyleGAN(3)GAN逆映射(4)人脸 (5)语义生成 | ICCV2021生成对抗GAN梳理汇总
这项工作提出一种新的逆映射方案,通过引入迭代细化机制,扩展当前基于编码器的逆映射方法。与当前最先进的方法相比,基于残差的编码器 ReStyle 提高了准确性,推理时间的增加可以忽略不计。https://yuval-alaluf.github.io/restyle-encoder/
公众号机器学习与AI生成创作
2022/04/09
1.4K0
图像编辑系列之(2)基于StyleGAN(3)GAN逆映射(4)人脸 (5)语义生成 | ICCV2021生成对抗GAN梳理汇总
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而,当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题,采用以下两种策略:1)一种解耦参考图像的风格和语义的机制。解耦后的特征表示首先由不同文本描述指导的Q-Formers提取。然后,它们被注入到交叉注意力层的相互排除的子集中,以实现更好的分解。2)一种非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练,其中参考图像和真实图像具有相同的风格或语义。
公众号机器学习与AI生成创作
2024/04/12
2.7K0
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
这项工作提出一种新的“基于编辑”的方法,即属性组编辑(Attribute Group Editing,AGE),用于少样本图像生成。思路是任何图像都是属性的集合,并且特定属性的编辑方向在所有类别中共享。AGE 检查在 GAN 中学习的内部表示并识别语义上有意义的方向。
公众号机器学习与AI生成创作
2022/05/27
9130
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
汇总简析:GAN和扩散模型生成训练数据
1)提出的扩散嵌入网络可以解决流形不匹配问题,并且易于生成潜码,与 ImageNet 潜在空间更好地匹配。
公众号机器学习与AI生成创作
2023/02/23
2.6K0
汇总简析:GAN和扩散模型生成训练数据
生成模型的2022年——人工智能AIGC顶级论文回顾
2022年是生成模型奇幻发展的一年,Stable Diffusion🎨创造了超现实主义的艺术, ChatGPT 💬回答了生命意义的问题,Make a Video🎥从文本生成了栩栩如生的马儿,DreamFusion✨生成了不可思议的三维模型,多个AI领域得以迅速发展,绘画、音乐、新闻创作、主播等诸多行业正在被重新定义。
中杯可乐多加冰
2024/05/04
4290
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
1.1K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
中杯可乐多加冰
2024/01/05
8750
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
这项工作提出一种新的逆映射方案,通过引入迭代细化机制,扩展当前基于编码器的逆映射方法。与当前最先进的方法相比,基于残差的编码器 ReStyle 提高了准确性,推理时间的增加可以忽略不计。https://yuval-alaluf.github.io/restyle-encoder/
公众号机器学习与AI生成创作
2022/05/27
4.6K0
最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
内容和风格(Content and style disentanglement,C-S)解耦是风格迁移的一个基本问题和关键挑战。基于显式定义(例如Gram矩阵)或隐式学习(例如GANs)的现有方法既不易解释也不易控制,导致表示交织在一起并且结果不尽如人意。
公众号机器学习与AI生成创作
2024/02/29
3.7K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
​CycleGAN-Turbo 与 pix2pix-Turbo | 通过对抗性学习实现高效图像转换与生成 !
条件扩散模型[38, 48, 5, 73]使用户能够根据空间条件和文本提示生成图像,实现了对场景布局、用户草图和人体姿态需要精确控制的多种图像合成应用。尽管它们取得了巨大成功,但这些模型面临着两个主要挑战。首先,扩散模型的迭代性质使得推理过程缓慢,限制了如交互式Sketch2Photo等实时应用的可能性。其次,模型训练通常需要整理大规模的成对数据集,对于许多应用来说,这造成了重大的成本负担,而对于其他一些应用来说则是不可行的[77]。
AIGC 先锋科技
2024/07/08
8800
​CycleGAN-Turbo 与 pix2pix-Turbo | 通过对抗性学习实现高效图像转换与生成 !
学界 | 海康威视联合提出注意力聚焦网络FAN:提升场景文本识别精确度
选自arXiv 机器之心编译 参与:路雪、黄小天 鉴于目前注意力机制方法在场景文本识别中表现欠佳,近日,海康威视、复旦大学与上海交通大学等在 arXiv 上联合发表了一篇题为《Focusing Attention: Towards Accurate Text Recognition in Natural Images》的论文,其中提出了一种称为注意力聚焦网络(FAN)的新方法,可有效对齐注意力与图像中的目标区域,调整偏移注意力,成功解决了注意力漂移问题,从而显著提升场景文本识别精确度。在不同基准(包括 II
机器之心
2018/05/10
1.4K0
推荐阅读
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
2770
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路
4.2K0
文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑
1.2K0
文本生成图像这么火,你需要了解这些技术的演变
1.9K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
1.8K0
CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域
3K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.4K1
论文解读 - 统一的多模态理解和生成模型综述(上)
240
无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)
5170
图像编辑系列之(2)基于StyleGAN(3)GAN逆映射(4)人脸 (5)语义生成 | ICCV2021生成对抗GAN梳理汇总
1.4K0
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
2.7K0
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
9130
汇总简析:GAN和扩散模型生成训练数据
2.6K0
生成模型的2022年——人工智能AIGC顶级论文回顾
4290
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
1.1K0
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
8750
最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
4.6K0
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
3.7K0
​CycleGAN-Turbo 与 pix2pix-Turbo | 通过对抗性学习实现高效图像转换与生成 !
8800
学界 | 海康威视联合提出注意力聚焦网络FAN:提升场景文本识别精确度
1.4K0
相关推荐
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档