作者:Wei Chow,Linfeng Li等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2512.11715 Project Page: https://weichow23.github.io/EditMGT GitHub Repo: https://github.com/weichow23/EditMGT HuggingFace Dataset: https://huggingface.co/datasets/WeiChow/CrispEdit-2M
亮点直击
首先介绍基于 MGT 的编辑架构实现,该架构利用注意力注入(attention injection)在不引入额外参数的情况下实现图像编辑。随后阐述了推理过程。重点分析了 MGT 模型中的注意力机制,提出了多层注意力整合(multi-layer attention consolidation)结合区域保持采样(region-hold sampling)的方法,以利用该机制确保在推理过程中保留无关区域。最后描述了 EditMGT 及其提出的 CrispEdit-2M 数据集的训练过程。

图 2 EditMGT 概述。我们的方法通过原始图像注意力注入来监督编辑图像的生成。 右图说明了多模态转换器块内的token交互,而单模态块则采用类似的架构。
预备知识。MGT 从一张所有视觉 token 都被掩盖(masked)的空白画布开始。在每次采样迭代中,所有缺失的 token 都会并行采样,并使用拒绝标准,模型似然度较低的 token 会被掩盖,并在下一次细化迭代中重新预测。本文定义图像和文本条件 token 分别为 和 ,其中 是嵌入维度, 和 分别是它们的 token 数量。
在 Meissonic 的实现中,每个 transformer 块首先应用旋转位置编码(RoPE)来编码 token。对于图像 token ,RoPE 根据 token 在 2D 网格中的位置 应用旋转矩阵:,其中 表示位置 处的旋转矩阵。文本 token 经过相同的变换,其位置设置为 。多模态注意力机制随后将连接后的位置编码 token 投影为查询(Query)、键(Key) 和值(Value) 表示。注意力权重计算如下:。然后, 和 的乘积在传播到下一个模块之前通过归一化层。 被赋予了丰富的语义信息,随后基于注意力权重纳入额外的图像条件,同时在推理过程中引入局部和全局引导。
**图像条件集成 (Image Conditional Integration)**。为了让原始图像监督图像生成过程,本文进一步定义了图像条件 token ,其形状与 相同。具体而言,本文设定 RoPE 矩阵满足:,这确保了原始图像与编辑后图像在空间上的对齐。如图 2 右侧所示, 与 共享参数并经历相同的迭代去噪步骤,但关键区别在于 的时间步长(timestep)在整个过程中始终固定为零。这一设计选择防止了 发生漂移,从而使其保持作为稳定调节信号的作用。
在训练阶段,模型 的优化目标是在大规模图像-文本数据集 上,最小化在给定未掩蔽(unmasked)token 和条件 token 的情况下重建被掩蔽 token 的负对数似然,其中 代表被掩蔽的 token:
其中 , 是应用于 token 的二进制掩码,用于选择索引 进行掩蔽, 指未被掩蔽的 token, 是 token 的预测概率。本文在训练中使用余弦调度策略,掩蔽率 采样自截断反余弦分布,其密度函数为 。
为了在推理过程中控制 的强度,遵循 [41] 的方法,本文在注意力权重中引入偏置项 ,即 ,其中 是调节拼接后的 token 之间注意力的偏置矩阵。该过程可表述如下:
该公式保留了每种 token 类型内部的原始注意力模式,同时将 和 之间的注意力权重缩放 。在测试时,设置 会移除条件的影响,而 则会增强它。通过这种方法,本文利用注意力机制无缝嵌入了调节条件,从而在不引入额外参数的情况下实现了从文生图(text-to-image)模型到图像编辑模型的转变。
基于上述架构,本工作观察到 EditMGT 中的交叉注意力机制自然地为编辑相关区域的自适应定位提供了信息丰富的线索。如下图3所示,本工作研究了迭代图像 和指令 之间的交叉注意力机制(由于篇幅限制,省略了原始图像 与这两种模态之间的交叉注意力可视化)。

图3:EditMGT 中的注意力机制。文生图注意力图编码了丰富的语义对应关系。本工作通过堆叠和过滤操作增强了其清晰度
分析表明,MGT 模型中的每个文生图注意力权重都包含丰富的语义信息,建立了文本指令与视觉区域之间的有效对应关系。值得注意的是,模型可以在初始迭代中预测编辑图像中关键区域的样式。例如,在“给狗戴上生日帽”的例子中,MGT 直接描绘了帽子形状的轮廓。
多层注意力整合(Multi-layer Attention Consolidation)。来自单个中间块的原始注意力权重表现出不够突出且缺乏清晰焦点的问题,即使是从最连贯的层中提取也是如此。为了解决这一局限性,本工作提出了多层注意力整合,系统地增强注意力的清晰度。具体而言,聚合了从第 28 块到第 36 块的注意力权重,这些块选自连贯的单模态处理层,以放大信号强度。然而,观察发现聚合后的注意力权重仍然表现出不完整的激活区域,其特征是内部不连续和边界定义不清,这可能导致对象内部的 token 分类错误。为了减轻这些伪影,本工作结合了自适应过滤(Adaptive Filtering)以实现增强的清晰度和空间精度。
区域保持采样(Region-Hold Sampling)。在注意力机制的分析中,观察到 MGT 的注意力权重表现出丰富的语义信息,实现了良好对齐的文图对应关系。在图像生成过程中,MGT 通过迭代 token 翻转(token flipping)逐步细化目标图像。如下图4所示,EditMGT 准确地定位了编辑的关键区域。因此,本工作通过显式地将低注意力区域翻转回其原始 token 来保留未修改的区域。
定义 分别为第 层归一化后的 和 的注意力图。为了灵活控制翻转频率,引入阈值 来确定哪些 token 应恢复为原始图像。具体来说,可以按如下方式获取定位图:
其中 表示矩阵 的第 行切片, 是要选择的所有行索引的集合,且 (当且仅当选择整个 时等号成立)。如果仅使用指令中的关键词(例如特定对象),则可以使用 提取相应部分。在推理过程中,EditMGT 翻转具有高置信度的 token,同时保留低置信度 token 作为 [MASK] 以供后续细化。通过引入的采样方法,满足 的 token 被恢复为其原始对应物,从而保持采样调度器的完整性以及与源图像的一致性。
下图4 展示了编辑图像与 之间的关系——当 超过某个阈值时,输出变得与原始图像完全相同。

图4:不同阈值 下的编辑结果可视化、GEdit Bench 语义分数以及与原始图像的 L1 距离
鉴于高分辨率图像编辑数据集的稀缺,本工作构建了涵盖 7 个不同类别的 CrispEdit-2M 数据集。CrispEdit-2M 包含 200 万个短边 像素的样本,使用开源模型生成,并采用严格的过滤程序以确保数据质量。结合额外收集的 200 万个高分辨率样本,总共使用了 400 万个图像编辑数据样本进行训练。
EditMGT 基于 Meissonic 实现。由于 Meissonic 表现出生成卡通风格内容的偏好,且采用 CLIP 作为文本编码器,缺乏强大的语言理解能力(这是编辑模型的关键要求),因此将 EditMGT 的训练分为三个阶段:
为了验证 EditMGT 的有效性,本工作在三个像素级基准测试(Emu Edit, MagicBrush, AnyBench)和一个基于 GPT 的评估基准(GEdit-EN-full)上进行了全面评估。
本工作在四个基准数据集上对 EditMGT 与基线方法进行了定量比较。



除定量指标外,如下图 5 所示,本工作将 EditMGT 与 UltraEdit (SD3)、GoT-6B、OmniGen2-7B 和 VAREdit-8B 进行了定性比较。观察结果如下:


EditMGT 和 CrispEdit-2M 概述
EditMGT,首个基于掩码生成 Transformer(MGT)的图像编辑框架,利用 MGT 的局部解码范式来解决扩散模型中固有的编辑泄漏(editing leakage)问题。通过提出的多层注意力整合(multi-layer attention consolidation)和区域保持采样(region-hold sampling),EditMGT 实现了精确的编辑定位,同时显式地保留了非目标区域。尽管仅使用了 9.6 亿(960M)参数,该模型在四个基准测试中均达到了最先进的图像相似度性能,在风格更改和风格迁移任务上分别有 3.6% 和 17.6% 的显著提升。此外,EditMGT 提供了 6 倍的编辑速度,证明了 MGT 为图像编辑提供了一种极具竞争力的替代方案。
[1] EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing