Date: September 19, 2025
在 AI 图像生成领域,一个困扰业界已久的问题终于迎来了突破性解决方案。腾讯混元团队近日发布的 ** 语义相对偏好优化(SRPO)** 技术,如同给大模型生图功能进行了一次彻底的 "去油" 处理,让 AI 生成的图像在真实感和美学质量上实现了质的飞跃。
当前主流的文生图模型如 FLUX.1.dev 在生成图像时,尤其是人像方面,普遍存在 "过油" 问题。这种不自然的质感表现不仅影响视觉体验,更限制了 AI 图像生成在专业领域的应用。传统的优化方法面临两大核心挑战:
腾讯混元团队联合香港中文大学(深圳)和清华大学,提出了两大创新性解决方案:
Direct-Align策略的核心洞察在于:扩散状态实际上就是噪声和目标图像之间的插值。团队通过以下步骤实现突破:
实验数据显示,即使在去噪进度仅为 5% 的极早期阶段,Direct-Align 也能恢复出图像的粗略结构,这为后续的精细化优化奠定了坚实基础。
** 语义相对偏好优化(SRPO)** 是本次研究的另一大亮点,它彻底改变了奖励模型的工作方式:
SRPO 技术的性能提升令人瞩目:
根据官方公布的实验结果:
Direct-Align 基于扩散模型的数学本质,利用以下关键方程:
x_t = √α_t x_0 + √(1-α_t) ε
其中 x_t 为 t 时刻的扩散状态,x_0 为原始图像,ε 为噪声。通过预定义噪声 ε,模型可以从任意时间步 t 恢复原始图像 x_0。
SRPO 的核心创新在于其相对奖励计算方式:
技术特点 | SRPO 技术 | 传统方法 |
---|---|---|
训练时间 | 10 分钟 | 数小时 - 数天 |
数据需求 | 1500 张图像 | 数万张图像 |
优化范围 | 全扩散轨迹 | 仅后期步骤 |
风格控制 | 在线动态调整 | 离线微调 |
奖励稳定性 | 避免奖励黑客 | 易过拟合特定偏好 |
腾讯混元团队表示,SRPO 技术将继续在以下方向发展:
SRPO 技术的发布标志着 AI 图像生成进入了一个新的发展阶段。通过将语义理解与强化学习完美结合,腾讯混元团队不仅解决了当前生图模型的关键痛点,更为整个行业指明了未来的发展方向。
这项技术的意义不仅在于技术指标的提升,更在于它展示了如何通过创新性的算法设计,在保持高效训练的同时实现对模型输出的精确控制。正如有开发者评价的那样,SRPO 看起来就像是 "下一代 RLHF",为 AI 对齐人类偏好提供了全新的技术范式。
随着 SRPO 技术的进一步发展和应用,我们有理由相信,AI 生成内容将在更多专业领域发挥重要作用,为创意产业带来前所未有的变革机遇。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。