作者:Yibin Wang等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2508.20751 项目链接:https://codegoat24.github.io/UnifiedReward/Pref-GRPO
亮点直击
本工作引入了 PREF-GRPO,旨在为文本生成图像(T2I)任务建立一个更稳定的强化学习(RL)范式,以缓解现有奖励得分最大化 GRPO 方法中的奖励欺骗问题。在本节中,本文首先介绍 GRPO 应用于流匹配模型的核心思想,然后分析奖励欺骗的根本原因,即虚假优势,最后描述本文提出的基于成对偏好奖励的 GRPO 方法。
流匹配。设 是来自真实分布的数据样本, 是噪声样本。Rectified Flow 定义中间样本为:
并通过流匹配(Flow Matching)目标函数训练速度场 :
在训练之外,推理阶段的迭代去噪过程可以自然地形式化为一个马尔可夫决策过程(Markov Decision Process)。在每一步 ,状态为 ,其中 表示提示词,动作 对应于生成去噪样本 。状态转移是确定性的,即 ,初始状态通过采样提示词 、设定 并采样 得到。只有在最终步骤才会提供奖励:,当 时,否则为零。
GRPO 在流匹配上的应用。GRPO 引入了群体相对优势以稳定策略更新。当应用于流匹配模型时,对于一组 张生成图像 ,第 张图像的优势为:
策略通过最大化正则化目标函数进行更新:
其中:
其中
为了满足 GRPO 的随机探索需求,(Liu et al., 2025) 将确定性的 Flow-ODE 转换为等价的 SDE。
其中 表示维纳过程的增量, 控制随机性。Euler-Maruyama 离散化给出更新规则:
其中 , 是控制噪声水平的标量超参数。
现有基于流匹配的 GRPO 方法使用点式奖励模型(RMs)对每一步训练中生成的一组图像进行评分。然后,通过将每张生成图像的奖励分数相对于该组进行归一化来计算其优势,如公式 3 所示。该归一化操作使得一组样本中的优势标准化。
然而,由于现有的点式 RMs 倾向于对同一组中相似图像分配过于接近的奖励分数 ,导致标准差 极小。因此,归一化后的优势值可能被过度放大(见下图 1 中的示例)。本文将这一现象称为“虚假优势”。
具体而言,设 表示该组中的奖励均值, 表示奖励的标准差。当奖励值彼此接近时,。在这种情况下,即使是一个很小的差值 也可能导致一个很大的优势值。
对小幅奖励差异的过度放大,即“虚假优势”,会带来若干不利影响: (1) 过度优化:即使是极小的分数差异也被夸大,导致策略过度更新并采取极端行为,即奖励欺骗(见下图 2); (2) 对奖励噪声的敏感性:优化过程对奖励模型中的偏差或不稳定性变得高度敏感,使得策略倾向于利用模型缺陷,而非对齐真实偏好。
为缓解现有方法中的虚假优势问题,本文提出了 PREF-GRPO,它利用成对偏好奖励模型(Pairwise Preference Reward Model, PPRM)将优化目标重新表述为成对偏好拟合。PREF-GRPO 不再依赖绝对奖励分数,而是评估生成图像之间的相对偏好,模拟人类在比较两张相似图像时的评估过程。
这种方法使得奖励信号能够更好地捕捉图像质量中的细微差异,为策略优化提供更稳定且更具信息量的优势,同时降低对奖励欺骗的敏感性。
具体而言,给定一组由策略 针对提示 生成的 张图像 ,本文枚举所有可能的图像对 ,并使用 PPRM 来判断每一对中更优的图像。图像 的胜率定义为:
其中, 是指示函数, 表示根据 PPRM 图像 相较于图像 更受偏好。然后将这些胜率作为策略优化的奖励,替代 GRPO 目标中的绝对奖励。
与奖励分数最大化相比,Pref-GRPO 提供了若干优势: (1) 奖励方差放大:通过将绝对奖励分数转换为成对胜率,Pref-GRPO 在生成图像组中自然地增加了奖励的方差。高质量样本的胜率趋近于 1,而低质量样本则趋近于 0,从而产生一个更具区分性和更稳健的奖励分布,有助于优势估计,并缓解奖励欺骗问题。 (2) 对奖励噪声的鲁棒性:由于优化依赖于相对排序而非原始分数,Pref-GRPO 大幅减轻了小幅奖励波动或奖励模型偏差所带来的放大影响。这降低了策略利用奖励信号缺陷的可能性,提升了训练稳定性。 (3) 与人类偏好的对齐:成对比较的形式模拟了人类的感知评估过程。当比较两张质量相近的图像时,人类判断本质上是相对的而非绝对的。通过模拟这一过程,Pref-GRPO 能捕捉点对评分常忽略的细粒度质量差异,从而为策略改进提供更真实可靠的信号。
现有基准测试存在以下局限性: (1) 粗粒度评估维度下的覆盖有限:通常每个评估维度下仅包含少数子维度,无法全面反映模型能力。例如,如下图 4 所示,当前基准测试在“关系”和“语法”维度下仅包含一个子维度,导致在这些方面对模型性能的评估不完整且可能具有误导性。
(2) 缺乏子维度级别的评估:仅提供主评估维度的分数,未对各个子维度进行评估。这种缺乏细粒度的评估限制了解释性,阻碍了对文本生成图像(T2I)模型优势与劣势的深入理解。
因此提出 UNIGENBENCH,这是一个统一的图像生成基准测试,涵盖多样的提示主题与全面的细粒度评估标准。本文将首先介绍基准测试中的提示主题与评估维度设计,随后详细说明本文基于多模态大模型(MLLM)的自动提示生成与 T2I 评估流程。
如下图 3 所示,UNIGENBENCH 涵盖五大类提示主题:艺术(Art)、插画(Illustration)、创意发散(Creative Divergence)、设计(Design)以及电影与叙事(Film & Storytelling),进一步细分为 20 个子类别,同时包含多样的主体类别,包括动物、物体、拟人角色、场景,以及一个“其他”类别,用于涵盖特殊实体(例如科幻主题中的机器人)。与现有基准中的粗粒度指标不同,本文定义了 10 个主评估维度与 27 个子维度,覆盖了诸如逻辑推理、面部表情、代词指代等常被忽视的方面,从而实现细粒度评估并对齐人类意图。
在建立了多样的提示主题、主体类别和评估维度之后,本文进一步构建了一个基于多模态大语言模型(MLLM)的自动化流程,以实现如下图 5 所示的基准框架。该流程服务于两个互补目标:
通过利用 MLLM 的推理与感知能力,该流程无需昂贵的人类标注,即可在基准构建与模型评估中同时确保效率与可靠性。
设 表示提示主题集合, 表示主体类别集合, 表示评估维度集合。对于每个提示,本文从 中均匀随机采样一个主题 ,从 中采样一个主体类别 。随后,从 中采样一个包含 个测试点的子集 ,其中 ,以针对特定的细粒度评估方面。
所选的三元组 被输入到 MLLM 中,生成两个输出: (i) 一个自然语言提示 ,符合所选主题 与主体类别 的语义约束; (ii) 一个结构化描述集合 ,其中每个 指定相应测试点 在提示中的实现方式。
形式化地,该过程可表示为:
对于基准提示集合 所生成的图像集合 ,本文使用多模态大语言模型(MLLM)对每张图像进行评估。具体而言,将图像 、其对应的提示 以及测试点描述 作为输入。MLLM 针对图像 中的每个测试点 进行评估,输出一个二值评分 ,以及一个文本解释 ,用于说明评估理由。该过程可形式化表示为:
该过程确保评估既捕捉了每个测试点的定量表现,也包含了评估背后的定性推理。
在获得所有生成图像中每个测试点 的评分 后,本文将其聚合以计算子维度和主评估维度的得分。具体而言,对于每个子维度 ,本文将其得分定义为模型成功满足对应测试点描述的次数与该测试点在整个基准中出现次数之比:
其中 是指示函数。主维度 的总体得分通过对其所有子维度的得分取平均值来获得。该过程确保既能捕捉子维度上的细粒度表现,也能体现主维度上的整体性能。
基线模型:采用 FLUX.1-dev 作为基础模型,并在 PREF-GRPO 中使用 UnifiedReward-Think 作为成对偏好奖励模型(RM)。用于奖励最大化基线比较的模型包括 HPS、CLIP 和 UnifiedReward(UR)。
训练与评估:使用上图 5(a) 中的流程生成 5000 条训练提示,并在 UNIGENBENCH 上对模型进行评估。每个测试提示生成四个输出用于评估。跨领域语义一致性通过 GenEval 和 T2I-CompBench 评估,图像质量则通过 UR、ImageReward、PickScore 和 Aesthetic 进行评估。
定量结果:如下表 1 和下表 2 所示,PREF-GRPO 在语义一致性和图像质量方面均表现出显著提升。例如,在 UNIGENBENCH 上,相较于基于 UR 的得分最大化方法,PREF-GRPO 的总体得分提升了 ,在 Text 维度提升了 ,在 Logical Reasoning 维度提升了 。在图像质量评估中,本文的方法也展现出全面优势。
定性结果:示例如下图 6 所示。值得注意的是,现有方法在不同程度上表现出奖励欺骗现象。例如,HPS 优化后的图像往往过度饱和,而 UR 优化后的图像则显得较暗。本文还探索了通过组合多个奖励得分(例如联合使用 HPS+CLIP)来缓解奖励欺骗(下图 6 第三行)。虽然这种方法在一定程度上减少了奖励欺骗,但并未完全解决问题。相比之下,本文的方法在显著提升语义生成质量的同时,有效缓解了奖励欺骗。
奖励欺骗分析:可视化了基于 UR 的得分最大化方法与 PREF-GRPO 在训练过程中图像质量得分的演变。如上图 2 所示,尽管基于 UR 的模型得分增长迅速,但中间结果显示图像质量实际在下降。相比之下,PREF-GRPO 虽然拟合成对偏好,得分增长相对缓慢,但在视觉质量上表现出持续稳定的提升,并有效缓解了奖励欺骗。
如下表 3 所示,闭源模型表现最为强劲:GPT-4o 和 Imagen-4.0-Ultra 在大多数维度上领先,尤其在逻辑推理、文本渲染、关系理解和复合任务上,显示出强大的语义对齐与理解能力。开源模型正在不断进步:Qwen-Image 和 HiDream 在开源模型中持续排名前列,在动作、布局和属性等维度展现出显著优势,正在逐步缩小与闭源模型之间的差距。尽管如此,仍存在一些局限性。大多数开源和闭源模型在最具挑战性的维度上尚未达到饱和,特别是在逻辑推理与文本渲染方面,仍有较大提升空间。此外,开源模型在各维度上通常表现出更大的不稳定性,常常在语法与复合任务上落后。
PREF-GRPO,首个基于成对偏好奖励的 GRPO 方法,提供了更稳定的文本生成图像(T2I)强化学习范式。此外,引入了 UNIGENBENCH,这是一个统一的 T2I 生成基准,涵盖了全面的评估维度与多样化的提示主题。大量实验验证了本文方法的有效性以及该基准的可靠性。
[1] PREF-GRPO: PAIRWISE PREFERENCE REWARD-BASED GRPO FOR STABLE TEXT-TO-IMAGE REINFORCEMENT LEARNING
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!