
论文链接:https://arxiv.org/pdf/2512.05965 项目链接:https://appletea233.github.io/think-while-edit/


图1。EditThinker 概述。子图(a)展示了多轮思考编辑流程,该流程迭代批评、优化和重复编辑指令,子图(b)报告了四个图像编辑基准测试的结果,展示了三种现有编辑方法的显著提升,我们使用了FLUX.1 Kontext开发版(图中标示为FLUX.1 Kontext)
亮点直击
现有基于指令的图像编辑方法受限于单轮执行范式,难以有效应对模型固有的随机性与缺乏推理机制的问题,导致指令遵循准确率低、编辑结果与用户意图存在偏差,尤其在复杂或多步编辑任务中表现不足。
提出一种“边思考边编辑”(Think-while-Edit)的迭代式推理框架,将图像编辑重构为一个可循环优化的认知过程:在每轮编辑后自动评估结果、批判不足、优化原始指令,并重复生成,直至满足用户需求。该框架以统一的推理引擎 EditThinker 为核心,实现指令的动态精炼与再执行。
在四个主流图像编辑基准上的大量实验表明,该方法显著且大幅度地提升了各类图像编辑模型的指令遵循能力,无论编辑任务复杂度或底层模型架构如何,均展现出强泛化性与广泛适用性,为高保真、高语义对齐的指令式图像编辑提供了新范式。
为了解决当前编辑模型在单轮指令遵循方面的固有局限性,本文提出了“思考即编辑”框架,模仿人类在创作过程中“批判、反思和编辑”的认知过程。
以前的方法主要以单轮方式操作:给定源图像 和原始指令 ,编辑模型直接生成最终编辑图像。这个过程缺乏迭代细化输出或从失败编辑中恢复的能力。

图2。边思考边编辑的流程。EditThinker 是一个多轮指令迭代优化框架。第一轮中,原始图像Isrc和指令T输入编辑器,生成初始编辑图像,进行编辑。这张编辑后的图片连同原始图片和指令,随后被输入 EditThinker,生成编辑分数 St、精细提示 Tt 以及相应的推理过程 Rt。如果分数低于阈值,框架将进入下一次迭代,使用精炼后的提示,直到达到满意结果。
为了解决这一限制,本文引入了一个基于 MLLM 的思考者,它将单遍编辑转换为迭代的多轮过程。本文的框架将编辑工作流明确地解耦为两个不同的角色:一个用于判断和推理的思考者,一个用于执行的编辑器,其中思考者通过 SFT 和 RL 进行训练,编辑器是任何现有的图像编辑模型(例如,Qwen-Image-Edit,Flux-Kontext)。具体来说,在每次迭代 中,思考者评估先前的输出 并同时生成指令遵循分数 、细化指令 和推理过程 ,如以下公式所示:

然后,编辑器在源图像 上执行新指令 ,生成更新结果 ,如以下公式所示:

这个迭代过程,被称为“批判-改进-重复”循环,一直持续到实现编辑目标。
本文将 EditThinker 建模为一个双重角色模型,同时进行评估和规划。与使用单独模型进行评估(基于 MLLM 的评分器)和规划(基于 LLM 的重写器)的解耦方法不同,EditThinker 在一次前向传播中执行这两个任务。
本文的关键见解是,有效的规划需要深入评估:模型必须首先批判先前的输出(生成分数 和推理 ),然后才能生成细化指令 。通过在生成 之前生成 ,EditThinker 创建了一个明确的思维链,将指令细化基于对 和 的视觉批判。
为了实现这种双重角色设计,本文定义了一个结构化的输入-输出格式,明确编码了评估然后规划的过程。
输入元组。 EditThinker 在每次迭代 接收一个多模态元组 ,提供编辑状态的完整上下文: 和 代表原始参考, 是当前要批判的结果, 是生成它的先前指令。
结构化输出格式。 输出是一个结构化文本字符串,它序列化了 EditThinker 的推理过程:

其中, 是 的感知质量, 是与原始指令 相对于 的语义对齐。两个分数范围都为 0 到 10。
训练 EditThinker 执行这种双重角色任务需要专门的数据集和多阶段训练策略。本文采用两阶段方法:首先是监督微调 (SFT),以学习输出格式和基本推理,然后是强化学习 (RL),根据实际编辑反馈优化指令细化。
使用专家 (GPT-4.1) 演示数据集(详见第 4 节),基础 MLLM 学习采用本文的结构化 I/O 格式(例如,<think>、<score>、<answer>),模仿专家的推理风格,并理解批判和细化指令的原则。
SFT 模型学习专家理想的推理方式,但这种推理并未基于实际编辑器的实际限制。该模型从未观察到实际的编辑失败,也未学习哪些类型的指令容易被特定编辑器误解。因此,对于 SFT 模型来说,一个看似最优的指令 在由实际编辑器(如 Qwen-Image-Edit)执行时仍然可能失败。这在理想推理和实际执行之间造成了差距。
为了弥合这一差距,本文引入了一个 RL 阶段,该阶段根据实际编辑反馈优化 EditThinker。本文采用标准 GRPO(组相对策略优化),并设计了一个精心设计的奖励函数。如前文所述,EditThinker 充当双重角色代理(即,评论者和细化者),本文设计了一个多组件奖励,为这两个方面提供学习信号,如下所示:
评论者奖励。 该组件训练 EditThinker 成为一个更准确的评论者。模型输出预测分数 (包括 和 ),这些分数应与编辑结果的实际质量保持一致。本文使用 GPT-4.1 作为评论专家 (E) 来评估结果图像 。评论者奖励 惩罚预测误差,如下所示:

该奖励鼓励 EditThinker 校准其自我评估:高估质量(实际分数为 5 时预测为 9)或低估都会受到惩罚。通过这种反馈,模型学会将其内部批判与实际编辑结果保持一致。
编辑奖励。 这是训练 EditThinker 成为更好的细化者的主要奖励。它激励模型生成一个指令 ,该指令导致图像质量和指令遵循方面的可衡量改进。本文使用差分奖励,使用相同的专家 E 比较“之前”状态 () 和“之后”状态 (),如下所示:

仅当生成的指令 成功促使编辑器生成比前一步更好的图像时,该奖励才为正。这直接将 EditThinker 的规划能力基于实际执行结果。
最终奖励 如下:

其中 是基本推理格式奖励,且 。
为了训练 EditThinker,本文需要一个高质量的数据集来捕获多轮“思考即编辑”循环。如下图 3 所示,本文设计了一个自动化数据构建管道来模拟这个过程,包括四个顺序步骤:轨迹生成、轨迹过滤、分步过滤和数据划分。这个管道使本文能够构建 THINKEDIT-140k 数据集。下面详细介绍每个步骤。

第一阶段侧重于模拟多轮“思考即编辑”循环。该管道从包含各种 (, ) 对的编辑数据池开始。在每个步骤 ,编辑思考者专家 (GPT-4.1) 评估当前状态(基于 、 和 )并生成新指令 ()、推理过程 () 和 <stop> 标记。
值得注意的是,专家不输出分数 ()。相反,它通过发出 <stop> 标记直接决定何时停止该过程。这种设计选择源于本文的发现,即单个专家难以在任务细化和输出评分方面同时保持高性能。如果未发出 <stop> 标记,图像编辑器将使用新的 生成 。此循环持续进行,直到专家触发 <stop> 条件(或达到最大迭代限制 N),从而完成完整轨迹。
由于编辑思考者专家只生成精炼指令和 <stop> 标记而不提供质量分数,本文采用一个额外的编辑评分器来评估每个步骤 并分配一个分数 。在对所有步骤 () 进行评分后,本文应用一个两阶段过滤过程:
过滤失败轨迹。 本文只保留至少一个后续步骤 () 获得的分数高于或等于初始步骤的轨迹(即,)。不符合此条件的轨迹将被丢弃。
截断保留轨迹。 对于保留的轨迹,本文识别分数最高的步骤 () 并将轨迹截断为仅包含从 1 到 的步骤。所有后续步骤 () 都将被丢弃。
最后,本文处理来自轨迹过滤的精心策划的轨迹,通过两个步骤创建最终训练数据:
样本提取。 首先,本文展开截断的轨迹。轨迹中的每个单独步骤 都转换为一个不同的训练样本。此样本将输入元组 (, , , ) 与其相应的地面实况专家输出 (, ) 配对。该步骤的分数 作为元数据保留,用于后续过滤。
分布平衡。 本文应用最终过滤步骤,沿两个维度平衡数据集:
在轨迹过滤之后,本文获得了大量精选的高质量轨迹。从这个集合中,本文为监督微调 (SFT) 和强化学习 (RL) 阶段创建了两个不同的数据集。划分原则是 SFT 需要稳定、高质量的示例,而 RL 最受益于动态改进示例。
RL 数据集。 本文首先识别对强化学习最有价值的轨迹。关键标准是高轨迹内分数方差(即,“高波动”分数,Var() > )。这些轨迹代表了模型最初遇到困难但随后设法改进的挑战性案例,为学习提供了丰富的奖励信号。本文筛选了 10k 这样高方差的轨迹,同时确保该集合在不同任务类型和分数分布之间保持平衡。展开后,这些轨迹产生了 27k 个分步样本,构成了本文的 RL 数据集。
SFT 数据集。 SFT 数据集旨在教授模型正确、稳定的细化行为。因此,本文选择了具有低分数方差或持续高质量的样本。这些“低波动”步骤通常代表更直接、正确和可靠的细化示例。这个过程产生了一个单独的 140k 个分步样本数据集用于 SFT。
本节详细介绍了 EditThinker 框架的实验设置。EditThinker 基于 Qwen3-VL-8B-Instruct 构建。训练分为两个阶段:
整个训练过程在 8 块 H800 GPU 上进行,大约需要 48 小时。在推理阶段,本文的“思考即编辑”范式与 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit结合使用。
基准和基线:为了全面验证“思考即编辑”范式的有效性,本文在四个不同的基准上进行了综合评估:ImgEdit-Bench、GEdit-Bench 、RISEBench和 KRIS-Bench。选择这套基准是为了进行多方面的评估,其中 RISEBench 和 KRIS-Bench 专门侧重于评估编辑模型的推理能力。
本节总结了 EditThinker 框架在通用编辑和推理编辑任务上的评估结果,如下表 1 和表 2 所示。


本节总结了对 EditThinker 框架中关键组件的消融研究结果。以 FLUX.1-Kontext [Dev] 模型为基线,并在 GEdit-Bench-EN 和 ImgEdit-Bench 上进行评估。





本文提出了一个深思熟虑的编辑框架 EditThinker,它使图像编辑模型能够在编辑时“思考”,解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。本文还引入了 THINKEDIT-140k,一个用于监督微调 (SFT) 和强化学习 (RL) 的大规模、多轮数据集,以将 EditThinker 的规划能力与实际编辑器的限制对齐。在 ImgEdit-Bench、GEdit-Bench、RISE-Bench 和 Kris-Bench 等四个广泛使用的基准上进行的综合实验表明,EditThinker 显著提高了现有图像编辑模型的指令遵循能力,特别是在需要复杂推理的任务中。消融研究进一步证实了“思考即编辑”范式、迭代推理轮次、两阶段训练策略和专家模型能力的关键贡献。本文的研究结果强调了将深思熟虑和迭代推理整合到图像编辑工作流中的重要性,为开发更智能、更稳健的交互式视觉系统铺平了道路。本文计划发布所有数据集和模型,以促进该领域的进一步研究。
[1] EditThinker: Unlocking Iterative Reasoning for Any Image Editor
这是一个高质量AIGC技术社群。
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。