⚡ AnyText | 广告营销文本生成
本文介绍AnyText文本生成和文本编辑,适合广告电商图片生成,降本增效。
image-20240103180742591
这篇论文介绍了一个名为AnyText的新型扩散模型,专注于生成准确且连贯的图像中的视觉文本。AnyText是一个基于扩散的多语言视觉文本生成和编辑模型,它通过两个主要组件来实现这一目标:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。
为了进一步提高书写准确性,AnyText在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)。AnyText能够生成多种语言的字符,据作者所知,这是第一个解决多语言视觉文本生成的工作。
此外,论文还贡献了一个大规模的多语言文本图像数据集AnyWord-3M,包含300万对图像-文本对,以及多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成的准确性和质量。
论文还提到,AnyText可以轻松地集成到现有的扩散模型中,以准确渲染或编辑文本。经过广泛的评估实验,AnyText在性能上显著优于其他方法。
image-20240103181013706
本文中的AnyText模型通过两个主要模块来实现准确和连贯的视觉文本生成:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。
通过这两个模块的结合,AnyText能够生成多种语言的文本,并且在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)来进一步提高书写准确性。此外,AnyText可以轻松地集成到现有的扩散模型中,赋予它们准确生成文本的能力。
这篇论文提出的AnyText模型具有广泛的应用场景,特别是在需要高质量视觉文本生成的领域。以下是一些具体的应用实例:
这些应用场景展示了AnyText在不同行业中的潜力,它能够提高创意工作的效率,同时也为用户和观众提供更加丰富和个性化的视觉体验。
eval
image-20240103181047880
image-20240103181109484
运行示例 AnyText有两种运行模式:文字生成和文字编辑,每种模式下提供了丰富的示例,选择一个,点击[Run!]即可。 请注意,运行示例前确保手绘位置区域是空的,防止影响示例结果,另外不同示例使用不同的参数(如分辨率,种子数等),如果要自行生成时,请留意参数变化,或刷新页面恢复到默认参数。 文字生成 在Prompt中输入描述提示词(支持中英文),需要生成的每一行文字用双引号包裹,然后依次手绘指定每行文字的位置,生成图片。 文字位置的绘制对成图质量很关键, 请不要画的太随意或太小,位置的数量要与文字行数量一致,每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。如果手绘(Manual-draw)不方便, 可以尝试拖框矩形(Manual-rect)或随机生成(Auto-rand)。 多行生成时,每个位置按照一定规则排序后与文字行做对应,Sort Position选项用于确定排序时优先从上到下还是从左到右。 可以在参数设置中打开Show Debug选项,在结果图像中观察文字位置和字形图。也可以勾选Revise Position选项,这样会用渲染文字的外接矩形作为修正后的位置,不过偶尔发现这样生成的文字创造性略低。 文字编辑 请上传一张待编辑的图片作为参考图(Ref),然后调整笔触大小后,在参考图上涂抹要编辑的位置,在Prompt中输入描述提示词和要修改的文字内容,生成图片。
image-20240103181136870
image-20240103181203173
image-20240103182048095
输入文本:
一张户外雪地靴的电商广告,上面写着 “双12大促!”,“立减50”,“加绒加厚”,“穿脱方便”,“温暖24小时送达”, “包邮”,高级设计感,精美构图
输出图像:
img
输入文本:
一张户外雪地靴的电商广告,上面写着 “240103大促!”,“立减5万”,“加绒加厚”,“穿脱方便”,“温暖24小时送达”, “包邮”,高级设计感,精美构图
输出图像:
img
本文分享自 iResearch666 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!