首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Comfyui腾讯混元 SRPO 技术:给大模型生图 "去油" 的革命性突破

Comfyui腾讯混元 SRPO 技术:给大模型生图 "去油" 的革命性突破

原创
作者头像
疯狂的KK
发布2025-09-19 09:56:17
发布2025-09-19 09:56:17
20700
代码可运行
举报
文章被收录于专栏:AI绘画AI绘画
运行总次数:0
代码可运行

Date: September 19, 2025

在 AI 图像生成领域,一个困扰业界已久的问题终于迎来了突破性解决方案。腾讯混元团队近日发布的 ** 语义相对偏好优化(SRPO)** 技术,如同给大模型生图功能进行了一次彻底的 "去油" 处理,让 AI 生成的图像在真实感和美学质量上实现了质的飞跃。

技术背景:AI 生图的 "油腻" 困境

当前主流的文生图模型如 FLUX.1.dev 在生成图像时,尤其是人像方面,普遍存在 "过油" 问题。这种不自然的质感表现不仅影响视觉体验,更限制了 AI 图像生成在专业领域的应用。传统的优化方法面临两大核心挑战:

  1. 计算成本高昂:多步去噪过程中的梯度计算极其耗费资源,导致优化只能局限在扩散过程的最后几步
  2. 奖励模型偏差:为达到理想的美学效果,需要不断进行离线奖励模型调整,且容易出现 "奖励黑客" 问题

双管齐下:Direct-Align 与 SRPO 的创新突破

腾讯混元团队联合香港中文大学(深圳)和清华大学,提出了两大创新性解决方案:

Direct-Align:全扩散轨迹优化的新思路

Direct-Align策略的核心洞察在于:扩散状态实际上就是噪声和目标图像之间的插值。团队通过以下步骤实现突破:

  • 预定义噪声先验:在训练开始前注入可控噪声,建立从任意时间步恢复原始图像的数学基础
  • 单步推理重建:利用预先注入的噪声作为 "参考锚点",通过单步推理即可实现图像重建
  • 全轨迹优化:支持在整个扩散轨迹上进行优化,而非仅局限于后期步骤

实验数据显示,即使在去噪进度仅为 5% 的极早期阶段,Direct-Align 也能恢复出图像的粗略结构,这为后续的精细化优化奠定了坚实基础。

SRPO:语义相对偏好的智能调节

** 语义相对偏好优化(SRPO)** 是本次研究的另一大亮点,它彻底改变了奖励模型的工作方式:

  • 文本条件化奖励:将奖励信号重新定义为受文本控制的动态信号
  • 正负提示机制:同时使用正向词和负向词作为引导信号,有效中和奖励模型的一般性偏差
  • 在线动态调整:支持通过简单的提示词控制实现在线奖励调整,无需额外数据

性能表现:10 分钟训练,3 倍提升

SRPO 技术的性能提升令人瞩目:

训练效率革命性提升

  • 仅需 10 分钟:相比传统方法需要数小时甚至数天的训练时间
  • 数据效率极高:仅用 1500 张真实图像即可完成 FLUX.1.dev 模型训练
  • 计算成本优化:避免了昂贵的多步去噪计算过程

质量提升数据

根据官方公布的实验结果:

  • 真实感提升 3.7 倍:在人工评估中,图像 "优秀" 和 "优秀 + 良好" 等级占比大幅提升
  • 美学质量提升 3.1 倍:在多个美学评估指标上均超越现有最佳方法
  • 风格控制精准:支持亮度调节、漫画风格转换等多种风格的精确控制

技术原理深度解析

Direct-Align 的数学基础

Direct-Align 基于扩散模型的数学本质,利用以下关键方程:

代码语言:javascript
代码运行次数:0
运行
复制
x_t = √α_t x_0 + √(1-α_t) ε

其中 x_t 为 t 时刻的扩散状态,x_0 为原始图像,ε 为噪声。通过预定义噪声 ε,模型可以从任意时间步 t 恢复原始图像 x_0。

SRPO 的奖励机制创新

SRPO 的核心创新在于其相对奖励计算方式:

  1. 双分支设计:奖励模型在评分前引入 "惩罚" 和 "奖励" 两个分支
  2. 相对差值计算:对同一张图像使用正负提示词分别计算奖励,取相对差值作为优化目标
  3. 语义引导优化:通过文本描述精确控制优化方向,实现细粒度的风格调节

应用场景与行业影响

解决的核心问题

  1. "去油" 效果显著:有效解决了 FLUX 模型生成人物质感 "过油" 的问题
  2. 避免奖励黑客:通过负向梯度中和奖励模型偏差,防止过拟合特定偏好
  3. 风格可控性强:支持光照、色调、艺术风格等多维度的精确控制

行业应用前景

  1. 游戏开发:快速生成高质量游戏资产,支持实时风格调整
  2. 影视制作:辅助概念设计和场景生成,提升制作效率
  3. 广告创意:根据品牌调性实时调整视觉风格
  4. 数字艺术:为艺术家提供智能创作辅助工具

技术优势总结

技术特点

SRPO 技术

传统方法

训练时间

10 分钟

数小时 - 数天

数据需求

1500 张图像

数万张图像

优化范围

全扩散轨迹

仅后期步骤

风格控制

在线动态调整

离线微调

奖励稳定性

避免奖励黑客

易过拟合特定偏好

未来发展方向

腾讯混元团队表示,SRPO 技术将继续在以下方向发展:

  1. 多模态扩展:将技术扩展到视频生成和 3D 建模领域
  2. 模型轻量化:降低计算资源需求,支持更多设备部署
  3. 个性化定制:支持用户级别的偏好定制和风格迁移
  4. 产业落地:与更多行业深度融合,开发专用解决方案

结语

SRPO 技术的发布标志着 AI 图像生成进入了一个新的发展阶段。通过将语义理解与强化学习完美结合,腾讯混元团队不仅解决了当前生图模型的关键痛点,更为整个行业指明了未来的发展方向。

这项技术的意义不仅在于技术指标的提升,更在于它展示了如何通过创新性的算法设计,在保持高效训练的同时实现对模型输出的精确控制。正如有开发者评价的那样,SRPO 看起来就像是 "下一代 RLHF",为 AI 对齐人类偏好提供了全新的技术范式。

随着 SRPO 技术的进一步发展和应用,我们有理由相信,AI 生成内容将在更多专业领域发挥重要作用,为创意产业带来前所未有的变革机遇。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 技术背景:AI 生图的 "油腻" 困境
  • 双管齐下:Direct-Align 与 SRPO 的创新突破
    • Direct-Align:全扩散轨迹优化的新思路
    • SRPO:语义相对偏好的智能调节
  • 性能表现:10 分钟训练,3 倍提升
    • 训练效率革命性提升
    • 质量提升数据
  • 技术原理深度解析
    • Direct-Align 的数学基础
    • SRPO 的奖励机制创新
  • 应用场景与行业影响
    • 解决的核心问题
    • 行业应用前景
  • 技术优势总结
  • 未来发展方向
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档