港中文&字节联合推出DreamOmni3:解锁“涂鸦+图文”联合输入，重新定义多模态生成与编辑

AI生成未来

发布于 2026-01-13 14:36:24

1400

作者：Bin Xia等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2512.22525 项目链接：https://github.com/dvlab-research/DreamOmni3

DreamOmni3 的效果展示，具备基于涂鸦的编辑和生成功能

亮点直击

提出了两项对统一生成与编辑模型极具实用价值的任务：基于涂鸦的编辑和基于涂鸦的生成。它们可以与语言指令和图像指令相结合，增强统一模型的创作可用性，并为有针对性的优化和未来研究提供清晰的任务定义。
提出了一套流程，用于构建一个高质量、全面的基于涂鸦编辑与生成的数据集。
DreamOmni3，一个支持文本、图像和涂鸦输入并能够处理复杂逻辑的框架。在保持编辑一致性的同时，能够准确理解涂鸦所表达的意图。还设计了位置编码和索引编码方案，用于区分涂鸦与源图像，从而确保与现有统一生成与编辑架构的兼容性。
基于真实世界图像数据构建了 DreamOmni3 基准。其在真实应用场景中具有显著的有效性。

总结速览

解决的问题

文本指令的局限性：现有统一生成与编辑模型依赖文本指令，难以准确描述用户意图的编辑位置、细节及空间关系。
交互灵活性不足：缺乏对用户手绘草图（如涂鸦、框选等）的理解能力，限制了在图形界面中进行直观、精细创作的可能。
数据缺失：缺乏结合草图、图像与文本的多模态编辑与生成训练数据。
复杂编辑处理困难：传统二值掩码难以处理多草图、多图像与多指令结合的复杂编辑任务。

提出的方案

定义两类新任务：
- 草图编辑：包括草图+指令编辑、草图+多模态指令编辑、图像融合、涂鸦编辑。
- 草图生成：包括草图+指令生成、草图+多模态指令生成、涂鸦生成。
构建数据合成流水线：
- 基于 DreamOmni2 数据集，通过提取可编辑区域并叠加手绘图形（框、圆、涂鸦）或裁剪图像，自动生成训练数据。
设计 DreamOmni3 框架：
- 采用联合输入方案，同时输入原始图像与带草图的图像，以颜色区分编辑区域，避免使用二值掩码。
- 共享两图像的索引与位置编码，确保草图区域精准定位与编辑一致性。
建立基准测试：构建涵盖上述任务的综合评测基准，推动相关研究。

应用的技术

多模态数据合成：利用 Refseg 服务定位编辑对象，结合手绘标注、图像裁剪与草图生成技术构建数据集。
联合编码机制：对原始图像与草图图像使用相同的索引和位置编码，增强模型对草图区域的感知与对齐能力。
统一架构设计：兼容 RGB 图像输入，延续 DreamOmni2 的位置偏移与索引编码方案，支持多图像输入区分。
草图理解与编辑：通过颜色区分的草图输入，实现多区域、多类型编辑意图的联合理解与生成。

达到的效果

提升交互灵活性：支持用户通过草图直观指定编辑位置与内容，降低创作门槛。
增强编辑精度：模型能准确定位草图区域，实现复杂多模态指令下的精细编辑与生成。
数据与模型开源：公开合成数据、模型与代码，促进相关领域研究。
实验性能优越：在构建的基准测试中，DreamOmni3 表现出色，验证了框架的有效性与泛化能力。

方法

合成数据

基于涂鸦（Scribble-based）的编辑与生成面临的最大挑战在于数据的匮乏。本工作需要构建一个包含语言、图像和涂鸦作为指令的数据集，并开发出能够结合这三种指令类型进行复杂编辑的能力，从而实现更智能的编辑工具。研究发现 DreamOmni2 有效地统一了语言和图像指令，并引入了多模态指令编辑与生成任务及其相应的训练数据。因此，本工作直接以 DreamOmni2 的多模态指令编辑与生成数据为基础，进一步将其扩展为包含涂鸦作为指令的数据集。

基于涂鸦的编辑任务：如下图 2 (a) 所示，本工作将基于涂鸦的编辑细分为四个任务：

基于涂鸦和多模态指令的编辑 (Scribble and multimodal instruction-based editing)： 利用 Refseg 服务定位参考图像和目标图像中的编辑对象。由于用户绘制的形状通常不完美，本工作手动创建了 30 种不同的方框和圆形作为涂鸦符号模板，通过随机透视变换模拟人类的绘制习惯。
基于涂鸦和指令的编辑 (Scribble and instruction-based editing)： 使用与步骤 (1) 相同的数据，但移除了参考图像。
图像融合 (Image fusion)： 从参考图像中提取编辑对象，并将其粘贴到源图像的相应位置上。
涂鸦编辑 (Doodle editing)： 从目标图像中裁剪出编辑对象，生成素描（sketches），并将其放回源图像中。

基于涂鸦的生成任务：如上图 2 (b) 所示，本工作将基于涂鸦的生成细分为三个任务：

基于涂鸦和多模态指令的生成 (Scribble and multimodal instruction-based generation)： 使用 Refseg 定位图像中的编辑对象，并在空白画布上标记圆圈或方框。
基于涂鸦和指令的生成 (Scribble and instruction-based generation)： 移除步骤 (1) 数据中的参考图像。
涂鸦生成 (Doodle generation)： 方法与涂鸦编辑类似，将最终的素描放置在白色画布上，让模型根据素描和指令生成相应的对象和背景。

数据集规模：本数据基于 DreamOmni2 的多参考图像生成和编辑训练数据集创建。

基于涂鸦的编辑数据集： 包含约 32K 训练样本的涂鸦多模态指令编辑数据，约 14K 的涂鸦指令编辑数据，16K 的图像融合数据，以及 8K 的涂鸦编辑数据。值得注意的是，前两类涵盖了广泛的编辑类别（如设计风格、配色方案、发型等抽象属性，以及添加、删除或修改各种物体、人物和动物）。后两类主要侧重于向图像中添加具体对象。
基于涂鸦的生成数据集： 包含 29K 的涂鸦多模态指令生成样本，10K 的涂鸦指令生成样本，以及 8K 的涂鸦生成样本。前两类涉及具体对象生成及抽象属性参考，而涂鸦生成主要专注于具体对象的生成。

框架与训练

目前的统一生成和编辑模型主要关注基于指令的编辑和主题驱动的生成。DreamOmni2 虽然将其扩展到了多参考图像生成和编辑，但对于涂鸦（doodle）指令的输入格式仍需探索。

在 DreamOmni3 中，本工作考虑了两种输入方案：一种是类似于修补（inpainting）的二进制掩码（binary masks），另一种是源图像与带有涂鸦的源图像的联合输入。由于涂鸦不可避免地会改变源图像的部分内容，但编辑要求非编辑区域保持一致性，因此需要在输入涂鸦信息的同时保留源图像的细节。

相较于传统的二进制掩码方法，本工作提出的源图像与涂鸦修改后的源图像联合输入方案具有两个关键优势：

简单高效： 联合输入更加简洁。当参考图像或源图像中存在多个涂鸦时，二进制掩码会变得非常棘手，因为每个涂鸦都需要一个单独的掩码，这显著增加了计算负载。此外，使用二进制掩码很难通过语言将两幅图像中的涂鸦联系起来。相比之下，联合输入允许在绘制时使用颜色进行区分，简单的语言指令即可利用图像索引和涂鸦颜色建立对应关系。
更好的模型集成： 现有的统一生成和编辑模型是基于 RGB 图像训练的。联合输入方案在源图像的原始 RGB 空间中使用掩码，能够更好地利用模型现有的图像-文本理解能力，并与模型的原始能力无缝集成，从而创建一个更统一、更智能的创作工具。

框架设计：如前面图 2 (c) 所示，本工作在 DreamOmni2 框架的基础上进行了针对涂鸦指令输入的适配。联合输入方案是可选的：

当编辑任务中的源图像包含涂鸦时，将源图像和带有涂鸦的源图像同时输入到 MM-DIT 模型中。
如果参考图像包含涂鸦，则不使用联合输入方案，因为参考图像的非编辑区域无需保持像素级一致性，增加额外输入会无谓地增加计算成本。
对于基于涂鸦的生成任务，由于无需像素级保留，也不使用联合输入方案。

编码策略：使用联合输入方案引入了两个挑战：(1) 增加了一张额外的图像，会影响后续输入图像的索引；(2) 模型必须正确映射源图像与涂鸦修改后的源图像之间的像素关系。为了解决这些问题，本工作对源图像和带有涂鸦的源图像使用相同的索引编码（index encoding）和位置编码（position encoding）。实验表明，这种编码方式有效地解决了上述问题，将涂鸦编辑能力无缝集成到了现有的统一框架中。

训练细节：训练过程中，使用了 DreamOmni2 的 VLM (Qwen2.5-VL 7B) 和 FLUX Kontext 的联合训练方案。采用 Rank 为 256 的 LoRA 进行训练。通过利用 LoRA，保留了 Kontext 原始的指令编辑能力。由于 DreamOmni2 中的多参考生成和编辑能力是分别通过两个 LoRA 训练的，为了确保兼容性，本工作的生成和编辑模型也分别使用了独立的 LoRA 进行训练。整个训练过程大约耗时 400 个 A100 小时。

基准与评估

本工作提出了整合语言、图像和涂鸦指令的基于涂鸦的编辑与生成任务。为了促进该方向的发展，建立了 DreamOmni3 基准测试（Benchmark）。该基准测试由真实图像组成，以准确评估模型在现实场景中的性能。测试案例涵盖了本工作提出的四种编辑任务和三种生成任务，编辑类别多样，包含抽象属性编辑和具体对象编辑。

由于传统的指标（如 DINO 和 CLIP）不足以评估这些复杂任务，本工作采用了基于 VLM 的评估标准，重点关注四个方面：

生成编辑中遵循指令的准确性。
人物外观、物体和抽象属性的一致性。
避免严重的视觉伪影。
生成或编辑的内容与指定涂鸦区域的对齐程度。

只有满足所有这些标准，任务才被视为成功。通过将 VLM 评估与人工评估进行对比，结果显示两者具有高度一致性。

实验

本节通过定量和定性实验验证了 DreamOmni3 在基于涂鸦的编辑和生成任务上的性能。

基于涂鸦的编辑评估

对比模型： 比较了 Omnigen2、Qwen-image-Edit-2509、DreamOmni2、Kontext 等开源模型，以及 GPT-4o 和 Nano Banana 等闭源商业模型。
定量结果： 如下表 1 所示，通过 Gemini 2.5、Doubao 1.6 和人工评估计算成功率。DreamOmni3 在人工评估中取得了最佳结果（0.5750），超过了 GPT-4o（0.5875，但在人工评估中略低）和 Nano Banana。相比之下，其他开源模型表现较差。

定性结果： 如下图 3 所示，DreamOmni3 展示了更准确的编辑结果和更好的一致性。GPT-4o 常出现图像泛黄和非编辑区域像素不匹配的问题，而 Nano Banana 则存在明显的复制粘贴痕迹和比例错误。

基于涂鸦的生成评估

定量结果： 如下表 2 所示，DreamOmni3 在人工评估（0.5349）和模型评估中均优于 Nano Banana，并与 GPT-4o 性能相当。现有模型（包括 GPT-4o）常无法在生成结果中去除涂鸦痕迹，且未针对此类任务优化。

定性结果： 如下图 4 所示，开源模型常在输出中保留涂鸦，DreamOmni3 则能生成自然且符合指令的图像。

消融实验

联合输入 (Joint Input)： 如下表 3 所示，对比了四种方案。结果表明，使用本工作的数据集训练并结合联合输入（Scheme 4）对编辑任务提升显著，因为涂鸦会遮挡源图像信息，联合输入确保了像素级一致性。

索引与位置编码 (Index and Position Encoding)： 如下表 4 所示，对源图像和涂鸦图像使用相同的索引和位置编码效果最佳。这有助于像素级对齐，并保持与后续参考图像的索引一致性。

总结

当前的统一生成和编辑模型主要基于文本指令执行图像编辑。然而，语言往往难以准确描述编辑位置并捕捉用户意图中的所有细节。为了增强这一能力，本工作提出了两个任务：基于涂鸦的编辑和生成 (scribble-based editing and generation) ，允许用户在图形用户界面（GUI）中简单地使用画笔进行编辑。这种方法能够结合语言、图像和涂鸦指令，提供了更高的灵活性。

在此基础上介绍了 DreamOmni3，解决了训练数据有限的挑战。利用 DreamOmni2 数据，本工作开发了一套基于 Referseg 的数据创建方案，生成了集成了涂鸦、文本和图像指令的高质量、精确数据集。

此外，本工作还解决了模型框架的问题，因为二进制掩码（binary masks）无法满足复杂的现实需求。当存在多个掩码时，它们很难区分且难以用语言描述。为了解决这个问题，本工作提出了一种基于涂鸦的方法，通过画笔颜色轻松区分不同的掩码，从而能够处理任意数量的掩码。由于涂鸦可能会遮挡部分图像细节，本工作引入了联合输入方案 (joint input scheme)，将原始图像和带有涂鸦的图像同时输入模型。本工作进一步优化了该方案，通过使用相同的索引和位置编码来保留细节，同时保持准确的编辑能力。

参考文献

[1] DreamOmni3: Scribble-based Editing and Generation

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。