Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >首个多模态统一CoT奖励模型来了,奖励能力大幅跃升,已全面开源

首个多模态统一CoT奖励模型来了,奖励能力大幅跃升,已全面开源

作者头像
腾讯开源
发布于 2025-05-14 02:06:13
发布于 2025-05-14 02:06:13
2960
举报

在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。

那么,奖励模型是否也能具备像人类一样的深度思考能力?

近日,腾讯混元与上海 AI Lab、复旦大学、上海创智学院联合提出全新研究工作 UnifiedReward-Think,构建出首个具备长链式推理能力的统一多模态奖励模型,首次让奖励模型在各视觉任务上真正 “学会思考”,实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。

图片
图片
图片
图片

一、背景与动机:奖励模型也需要 “思考”

当前的多模态奖励模型大多只能对结果进行 “表面判断”,缺乏深度推理与可解释的决策依据,难以支撑对复杂视觉任务的精准评估。

该工作研究团队提出关键问题:是否可以引入 “长链式思考”(Chain-of-Thought, CoT)机制,赋予奖励模型更强的推理能力?

挑战在于,当前缺乏高质量的多模态 CoT 奖励推理数据,传统 SFT 等训练范式难以直接教会模型掌握推理过程。

他们认为,多模态大模型本身具备深层、多维度的推理潜力,关键在于设计一套高效训练范式去激发并强化奖励模型的 “思考能力”。

图片
图片

二、解决方案:三阶段训练范式,逐步进化奖励模型推理能力

该研究提出一套新颖的 “三阶段” 训练框架,分为 “激发 → 巩固 → 强化”,层层推进模型的推理进化:

阶段一:冷启动激发(Cold Start)

使用仅 5K 图像生成任务的高质量 CoT 奖励推理数据,让模型学会基本的推理格式与结构。实验表明,这一阶段就能激发模型在多个视觉任务中的推理能力。

阶段二:拒绝采样巩固(Rejection Sampling)

利用冷启动后的模型在各视觉任务的泛化能力,对大规模多模态偏好数据进行推理,通过拒绝采样剔除逻辑错误样本,强化模型对正确思维链的推理模式。

阶段三:GRPO 强化(Group Relative Policy Optimization)

针对推理错误样本,引入 GRPO 强化学习机制,引导模型探索多样化推理路径,从错误中学习,逐步收敛到正确逻辑思考。

三、实验亮点:奖励模型不仅能 “显示长链推理”,还能 “隐式逻辑思考”

UnifiedReward-Think 在多个图像生成与理解任务中进行了系统评估,结果表明该模型具备多项突破性能力:

更强可解释性:能够生成清晰、结构化的奖励推理过程;

更高可靠性与泛化能力:各视觉任务均表现出显著性能提升;

出现隐式推理能力:即使不显式输出思维链,模型也能作出高质量判断,表明推理逻辑已 “内化” 为模型能力的一部分。

定量实验:长链推理带来全面性能飞跃

图片
图片

定量结果表明

在图像与视频生成奖励任务中,全面优于现有方法;

图像理解类奖励任务上,长链思维链推理带来显著性能提升,验证了复杂视觉理解对深度推理能力的高度依赖;

即便在不显式输出思维链的情况下,模型仍能通过隐式逻辑推理保持领先表现,相比显式 CoT 推理仅有轻微下降,展现出强大的 “内化逻辑” 能力;

与基础版本 UnifiedReward 相比,加入多维度、多步骤推理带来了多任务的全面性能跃升,验证了 “奖励模型也能深度思考” 的价值。

消融实验:三阶段训练策略缺一不可

该工作进行了系统的消融实验,验证三阶段训练范式中每一步的独立贡献:

冷启动阶段:模型学会了 CoT 推理的结构,但对奖励预测的准确性仍较有限;

拒绝采样阶段:通过筛除推理错误样本,显著提升了模型对 “正确思维链” 的偏好,有效增强了模型的稳定性与泛化性;

GRPO 阶段:提升幅度最大,模型聚焦于错误推理样本,通过多路径推理探索,逐步收敛至更精确的推理过程,体现出该阶段对 “推理纠错” 的关键作用。

无推理路径的 GRPO 版本效果显著下降。我们进一步验证:若去除 CoT 推理、让奖励模型仅对最终答案进行 GRPO 强化,虽然略优于 baseline,但提升比较有限。说明仅优化结果远不足以驱动深层推理能力的形成。

结论:显式建模思维链推理路径,是强化奖励模型泛化与鲁棒性的关键。GRPO 训练阶段之所以有效,根源在于 “强化正确推理过程”,而非仅仅是 “强化正确答案”。

图片
图片
图片
图片

定性效果展示

该工作在多种视觉任务中对模型进行了案例测试,展现出其按任务定制评估维度的能力。通过对图像、视频或答案进行细粒度、多维度打分,并基于各维度总分进行整体判断。此设计有效缓解了多模态模型中常见的 “推理过程与最终评分语义脱节” 问题,显著提升了评估的一致性与可信度。

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

四:总结

UnifiedReward-Think 展示了奖励模型的未来方向 —— 不仅仅是一个 “打分器”,而是一个具备认知理解、逻辑推理与可解释输出能力的智能评估系统。

目前,该项目已全面开源:包括模型、数据集、训练脚本与评测工具,欢迎社区研究者探索、复现与应用。

论文题目:

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

项目主页:

https://codegoat24.github.io/UnifiedReward/think

论文链接:

https://arxiv.org/pdf/2505.03318

GitHub

https://github.com/CodeGoat24/UnifiedReward

模型:

https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a

数据集:

https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗?
机器之心
2025/06/08
440
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
每周AI论文速递(250526-250530)
本文介绍 Mutarjim,一个专为阿拉伯语-英语双向翻译设计的紧凑型高性能语言模型。尽管当前大规模大语言模型在机器翻译等自然语言处理任务中展现出显著优势,我们发现小型模型同样具备竞争力。基于这一发现,我们在专为阿拉伯语和英语优化的 Kuwain-1.5B 语言模型基础上开发了 Mutarjim。该模型通过采用优化的两阶段训练流程和精选的高质量训练语料,在保持较小规模的同时,其性能表现超越了多个主流基准测试中的大型模型。实验数据表明,Mutarjim 的性能可与体积大 20 倍的模型相媲美,同时大幅降低了计算资源和训练成本。此外,我们提出了 Tarjama-25 新基准测试集,该数据集包含 5,000 组经过专家校验的平行句对,覆盖广泛领域,有效解决了现有阿拉伯语-英语评测数据存在的领域局限、语句过短和英语源偏置等问题,为相关研究提供了更全面均衡的评估体系。值得注意的是,Mutarjim 在 Tarjama-25 的英阿翻译任务中取得了当前最优性能,甚至超越了 GPT-4o mini 等规模显著更大的专有模型。我们将公开 Tarjama-25 数据集,以促进阿拉伯语-英语翻译系统的后续研究和评估工作。
叶子的技术碎碎念
2025/06/08
560
每周AI论文速递(250526-250530)
图解DeepSeek R1训练流程
这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
致Great
2025/02/08
3260
图解DeepSeek R1训练流程
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
2.1K0
万字长文详解DeepSeek核心技术
每周AI论文速递(250505-250509)
推理是智能的核心能力,决定了系统在决策、结论推导及跨领域泛化方面的表现。在人工智能领域,随着系统日益需要在开放、不确定和多模态环境中运行,推理成为实现鲁棒性与自适应行为的关键。大型多模态推理模型 (Large Multimodal Reasoning Models, LMRMs) 作为一种新兴范式,通过整合文本、图像、音频和视频等多模态数据,旨在实现全面感知、精准理解和深度推理。该领域的研究已从早期的模块化感知驱动流程,发展为以语言为核心的统一框架,显著提升了跨模态理解的连贯性。尽管指令微调与强化学习提升了模型推理能力,但在全模态泛化、推理深度和智能体行为等方面仍存在挑战。为此,本文提出了一种基于四阶段发展路线图的系统性综述,该路线图反映了领域设计理念的演变与新兴能力。首先,我们分析了基于任务专用模块的早期研究,其推理过程隐含于表征、对齐与融合的各个阶段;其次,探讨了当前将推理统一至多模态大语言模型的方法,多模态思维链 (Multimodal Chain-of-Thought, MCoT) 和多模态强化学习等技术推动了结构化推理链的发展;最后,结合 OpenAI O3 和 O4-mini 的基准测试与实验案例,阐述了原生大型多模态推理模型 (Native-LMRMs, N-LMRMs) 的设计理念,该模型致力于在复杂现实环境中实现可扩展、自主和自适应的推理与规划能力。
叶子的技术碎碎念
2025/05/12
760
每周AI论文速递(250505-250509)
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
「工欲善其事,必先利其器。」 如今,人工智能正以前所未有的速度革新人类认知的边界,而工具的高效应用已成为衡量人工智能真正智慧的关键标准。大语言模型凭借卓越的推理与规划能力,正在快速融入人类生产与生活,但传统的监督训练方法在面对复杂或全新的工具场景时,却常常显得捉襟见肘。如何帮助人工智能突破这一瓶颈,拥有真正自如运用工具的能力?ToolRL 的出现为我们带来了答案。
机器之心
2025/04/30
970
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
在 2017-2019 年之间,随着 Transformer 模型的提出,计算资源与大规模语料库不断出现,自然语言处理领域发生了翻天覆地的变化,传统的全监督学习的范式逐渐达到了瓶颈,很难在传统的训练方式上取得大幅度提升。这时大规模预训练模型的如 Bert、RoBERTa 等模型的出现使得研究方向转向了以预训练模型为基础 + 下游任务 Fine-tune 的范式。
汀丶人工智能
2023/07/20
3.2K0
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
【人工智能】推理大模型与预训练大模型:架构差异与认知范式的技术解构
在大模型领域中预训练大模型与推理优化大模型代表着两种截然不同的认知范式。本文将从预训练大模型和推理大模型的发展之路开始,从表征学习、计算图优化、任务泛化三个维度展开技术剖析,说明二者在模型动力学层面的本质差异。
云帆沧海
2025/04/23
1980
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
前些天到处都在流传着 DeepSeek-R2 即将发布的传言,DeepSeek 确实有新动作,不过大家没等来 R2,等来的是 DeepSeek-Prover-V2,它当然也是开源的。
机器之心
2025/05/02
1810
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
DeepSeek 笔记:R1 部署阶段的推理机制
- 生成多条路径:模型在单次推理时,可能隐式生成多条潜在的推理路径(CoT+Answers),但仅选择其中一条输出。 - 技术实现:通过调整解码策略(如束搜索宽度 `beam_width`),模型在生成过程中维护多个候选序列(即多条路径),最终选择综合评分最高的路径。 - 用户感知:用户仅看到最终输出,但模型内部进行了多路径探索与筛选。 - 效率权衡:若设置 `beam_width=1`(贪心搜索),则退化为单路径生成,响应速度最快;增大 `beam_width` 可提升输出质量,但增加计算延迟。
立委
2025/02/14
2050
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1190
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
RELAY让循环 Transformer 助力CoT推理,微调自回归模型,实验证实效果显著提升!
推理在塑造有效的决策过程和指导人工智能系统中的问题解决策略方面发挥着核心作用。对于大语言模型(LLMs)而言,实现推理的最有效方法是通过思维链,该方法逐个生成所有中间步骤的 Token ,直到最终答案得出。然而,利用LLMs生成正确的推理过程具有挑战性。一方面,思维链过程可能非常长,有时与 Prompt 长度呈多项式增长。当推理长度超过训练数据长度时,会遇到长度泛化问题,导致准确性显著下降。另一方面,网络数据通常存在噪声,从错误的轨迹中学习可能导致错误答案。虽然合成数据可以缓解这一问题,但生成和整理这些数据需要大量的人力和专业知识。
AIGC 先锋科技
2025/03/18
670
RELAY让循环 Transformer 助力CoT推理,微调自回归模型,实验证实效果显著提升!
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
最近,北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。
机器之心
2025/05/19
860
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o
赵俭,北京邮电大学本科三年级,研究方向为大语言模型。刘润泽,清华大学硕士二年级,师从李秀教授,研究方向为大语言模型与强化学习,特别关注大模型推理能力增强与测试时间扩展,在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇论文,个人主页:ryanliu112.github.io。
机器之心
2025/04/15
730
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o
仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini
本文由微软亚洲研究院的谢天、洪毓谦、邱凯、武智融、罗翀,九坤投资高梓添、Bryan Dai、Joey Zhou,以及独立研究员任庆楠、罗浩铭合著完成。
机器之心
2025/02/25
1020
仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini
DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清
(调试着R1的API接口,看着控制台瀑布般流淌的思维链日志)此刻我仿佛看到AlphaGo的棋谱在代码世界重生——这是属于推理模型的AlphaZero时刻。
LeonAlgo
2025/02/26
2780
DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方”  ——附多阶段训练流程图与核心误区澄清
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领域推入新的范式。
机器之心
2025/03/18
1290
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
此前,R1V 1.0首次成功实现了「强文本推理能力向视觉模态的迁移」,才短短一个月后,Skywork-R1V 2.0就强势上线了。
新智元
2025/04/26
1130
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
从自我进化视角出发,全面解析LLM的推理能力技术演进路径
在人工智能领域,大型语言模型的复杂推理研究正成为学术界和工业界关注的焦点。随着 OpenAI 的 O1 以及后续 DeepSeek R1 等突破性成果的发布,这一领域的研究热度持续升温,引发了广泛的学术讨论和实践探索。这些里程碑式的研究成果不仅推动了相关技术的快速发展,也激励着研究者们不断尝试复现并拓展其应用边界。
机器之心
2025/03/07
1650
从自我进化视角出发,全面解析LLM的推理能力技术演进路径
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
在大语言模型(LLMs)和多模态大语言模型(MLLMs)中,思维链(CoT)在复杂推理方面非常有效。
新智元
2025/02/08
1430
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
推荐阅读
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
440
每周AI论文速递(250526-250530)
560
图解DeepSeek R1训练流程
3260
万字长文详解DeepSeek核心技术
2.1K0
每周AI论文速递(250505-250509)
760
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
970
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
3.2K0
【人工智能】推理大模型与预训练大模型:架构差异与认知范式的技术解构
1980
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
1810
DeepSeek 笔记:R1 部署阶段的推理机制
2050
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
1190
RELAY让循环 Transformer 助力CoT推理,微调自回归模型,实验证实效果显著提升!
670
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
860
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o
730
仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini
1020
DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清
2780
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
1290
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
1130
从自我进化视角出发,全面解析LLM的推理能力技术演进路径
1650
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
1430
相关推荐
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档