开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >HD-Painter | 高分辨率+高提示词一致的文本引导图像修复，已开源

HD-Painter | 高分辨率+高提示词一致的文本引导图像修复，已开源

作者头像

AIWalker

发布于 2024-01-02 16:53:52

3460

发布于 2024-01-02 16:53:52

举报

文章被收录于专栏：AIWalker

https://arxiv.org/abs/2312.14091 https://github.com/Picsart-AI-Research/HD-Painter

基于文本到图像扩散模型的空前成功，文本引导图像修复的最新进展已经可以生成非常逼真和视觉上合理的结果。然而，当前的文本到图像修复模型仍有很大的改进潜力，特别是在更好地将修复区域与用户提示对齐以及执行高分辨率修复。

在本文中，我们介绍了HD-Painter，这是一种完全无需训练的方法，可以准确地遵循提示并连贯地缩放到高分辨率图像修复。

我们设计了智能感知内向注意（PAIntA）层，通过提示信息提高自我注意力分数，并产生更好的文本对齐生成。
为了进一步提高提示一致性，我们引入了重新加权注意力分数指导（RASG）机制无缝集成到DDIM的一般形式，以防止分布外的潜在移位的事后采样策略。
此外，HD-Painter通过引入为修复定制的专用超分辨率技术，允许扩展到更大的规模，从而能够完成高达2K分辨率的图像中的缺失区域。

我们的实验表明，HD-Painter在质量和数量上都超过了现有的最先进的方法，实现了令人印象深刻的61.4%对51.9%的生成精度提高。

本文方案

所提出方案由两个阶段组成：

在分辨率H/4 × W/4上应用文本引导图像修复。为了根据给定的提示τ来完成缺失区域M，我们采用了一个预先训练好的修复扩散模型，比如Stable Insaining，用PAIntA层代替自我注意层，并通过应用我们的RASG机制来执行向后扩散过程。在得到最终估计的潜在x0之后，将其解码，从而产生修复图像

I_{low}^c = \mathcal{D}(x_0) \in R^{H/4 \times W/4}

.

对生成的内容进行特定于修复的×4超分辨率。为了修复原始大小的图像

I ∈ R^{H×W}

，我们StableDiffusion-SR进行超分处理。我们应用SD的扩散后向过程，从

X_T \sim N（0，1）

开始，并以低分辨率修复图像

I^c_{low}

为条件。在每一步之后，我们将去噪后的

X_0^{pred}

与原始图像的编码

\mathcal{E}（I）

进行混合并得到

X_{t-1}

. 在通过解码器对隐变量完成解码后，我们进一步采用泊松融合进一步消除伪影。

本文实验

如上表所示，我们的方法在所有三个指标上都优于竞争对手。特别是，我们在所有竞争对手中提高了超过1.5分的CLIP分数，并达到了61.4%的生成准确度（Acc），而其他最先进的方法为51.9%。此外，PickScore比较显示我们在整体质量方面也优于竞争对手。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-23，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

本文方案
本文实验