首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >GPT-4o做AIME只有12%,加了RLVR后飙到93.4%——推理模型凭什么这么猛?

GPT-4o做AIME只有12%,加了RLVR后飙到93.4%——推理模型凭什么这么猛?

作者头像
老周聊架构
发布2026-06-19 09:14:55
发布2026-06-19 09:14:55
40
举报

GPT-4o去做美国数学邀请赛(AIME),正确率12%。换成o1,74.3%。再换成o4-mini,93.4%。同一家公司,同一年的模型,正确率翻了近8倍。它们的预训练数据几乎一样,参数量甚至在缩小。那多出来的81个百分点,到底从哪来的?

答案是四个字母:RLVR

Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习。这是2025-2026年AI领域最重要的技术突破,没有之一。它让模型学会了"想一想再回答",而不是"张口就来"。

更有意思的是,把这个技术玩明白的不是OpenAI,是一家中国公司——DeepSeek。他们的R1论文登上了Nature封面,训练成本只有29万美元,API价格只有o1的3.6%,性能却打了个平手。

今天这篇文章,把推理模型和RLVR的技术原理、产业格局、成本账本全讲透。


一、先搞懂一个问题:AI为什么突然会"思考"了?

1.1 从"张口就来"到"想想再说"

传统大模型的工作方式,用人话说就是条件反射——看到问题,直接从训练数据的统计规律里"蹦"出一个最可能的答案。

这就像考试的时候,学渣看到题目直接凭感觉选C,学霸会在草稿纸上推导一遍再作答。

推理模型做的事情就是:强制模型先打草稿

在输出最终答案之前,模型会生成一长串"思考过程"(thinking tokens),可能有几百甚至几千个token。这些思考过程对用户不可见(或者部分可见),但它们让模型有机会:

  • 分解问题:把复杂任务拆成小步骤
  • 自我纠错:发现前一步推理有误,推倒重来
  • 验证答案:用不同方法交叉验证结果

1.2 "Aha Moment"——AI的顿悟时刻

DeepSeek在训练R1-Zero(纯RL版本,没有任何人类推理示范)的时候,观察到了一个令人震惊的现象。

模型在解数学题的过程中,突然生成了这样一段话:

"Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step..."

然后它推翻了自己之前的推理,从头开始验证每一步,最终找到了正确答案。

没有人教它这么做。 这是纯粹从强化学习的奖励信号中自发涌现的行为。模型自己发明了"停下来想想"这个策略,因为它发现这么做能拿到更多奖励。

用老周的话说:AI不是学会了思考,而是发现"思考"这个动作本身是有利可图的。


二、RLVR到底是什么?为什么它比RLHF更适合推理?

2.1 先回顾:RLHF的问题

RLHF(基于人类反馈的强化学习)大家都听过了。ChatGPT能聊天,靠的就是RLHF。流程是:

  1. 模型生成多个回答
  2. 人类标注员给回答排序(哪个更好)
  3. 训练一个"奖励模型"来模拟人类偏好
  4. 用这个奖励模型去训练语言模型

问题出在第3步。奖励模型本身也是个神经网络,它会犯错。 模型很快就学会了"讨好"奖励模型而不是真正解决问题——这就是臭名昭著的奖励黑客(Reward Hacking)

更要命的是,人类标注员对数学题的判断不够精确。你让标注员判断"这道微积分题的解题过程哪个更好",大概率两眼一抹黑。

2.2 RLVR的核心思路:不用人,用验证器

RLVR的革命性在于:把人类标注员换成了程序验证器。

对比维度

RLHF

RLVR

奖励来源

人类标注 → 奖励模型

程序自动验证

信号质量

有噪声、主观

干净、客观、二值化

人力成本

大量标注员

只需正确答案/测试用例

是否需要奖励模型

需要(额外神经网络)

不需要

适用场景

主观任务(风格、安全性)

可验证任务(数学、代码)

奖励黑客风险

极低

验证器怎么设计?非常直觉:

  • 数学题:答案是不是?是就给1分,不是就给0分
  • 代码题:跑一遍单元测试,全过给1分,挂了给0分
  • 格式约束:输出是不是合法JSON?正则一验就知道

没有中间地带,没有主观判断,对就是对,错就是错。

2.3 RLVR的训练流程

DeepSeek-R1的完整训练流程分三步:

第一步:预训练(Pre-training) 跟传统大模型一样,在海量文本上做下一个token预测,得到基座模型DeepSeek-V3。

第二步:冷启动SFT(Supervised Fine-Tuning) 用一小批精选的推理示范数据做监督微调,让模型初步学会"先想再答"的格式。

为什么需要这步?因为DeepSeek试过跳过SFT直接上RL(R1-Zero),结果模型确实学会了推理,但有两个问题:一是中英文混着写,二是可读性很差。加了SFT冷启动后,这些问题迎刃而解。

第三步:大规模RLVR 用GRPO算法(Group Relative Policy Optimization)进行强化学习。核心流程:

  1. 给模型一道数学题
  2. 模型生成一组(比如8个)不同的解答
  3. 验证器检查每个解答的最终答案是否正确
  4. 在这一组里,算出每个解答相对于组平均水平的"优势值"
  5. 用优势值更新模型参数:答对的路径被强化,答错的被抑制

GRPO的精妙之处在于:不需要单独训练一个价值网络(Critic),只靠组内比较就能计算优势值。这比传统PPO算法省了差不多一半的计算量。

2.4 一个数字说明一切

Qwen2.5-Math-1.5B(一个只有15亿参数的小模型),在MATH-500基准上:

  • SFT之后:36.0%
  • 加上RLVR之后:73.6%

性能翻倍。 而且这不是靠堆参数实现的,是靠后训练方法的改变


三、2024-2026推理模型军备竞赛全景

从2024年9月OpenAI发布o1开始,推理模型赛道正式开打。到2026年年中,几乎所有主要实验室都已入场。

3.1 时间线速览

时间

模型

厂商

关键指标

2024.09

o1-preview

OpenAI

AIME 74.3%,首个推理模型

2024.11

QwQ-32B

阿里

开源Apache 2.0,打平o1-preview

2025.01

DeepSeek-R1

DeepSeek

打平o1,成本仅3.6%,Nature封面

2025.01

o3-mini

OpenAI

向免费用户开放

2025.02

Claude 3.7 Sonnet

Anthropic

首个混合推理模型

2025.03

Gemini 2.5 Pro

Google

登顶LMArena排行榜

2025.04

o3 + o4-mini

OpenAI

o4-mini AIME 93.4%

2025.04

Qwen3-235B

阿里

混合思考/非思考模式

2025.05

DeepSeek-R1-0528

DeepSeek

支持Function Calling

2026.02

Claude Opus 4.6

Anthropic

SWE-bench 80.8%

2026.04

Claude Opus 4.7

Anthropic

thinking_budget_tokens参数

3.2 AIME成绩对比——推理能力的"高考分数线"

AIME(美国数学邀请赛)是衡量推理模型数学能力的黄金标准。看看这些数字:

模型

AIME 2024

AIME 2025

GPT-4o

12%

o1

74.3%

79.2%

o3-mini

87.3%

86.5%

o3

91.6%

88.9%

o4-mini

93.4%

92.7%

DeepSeek-R1

79.8%

Qwen3.5-plus

91.3%(AIME 2026)

从GPT-4o的12%到o4-mini的93.4%,提升了81个百分点。这不是换了个更大的模型,而是换了后训练方法。

用人话说:以前的AI做数学竞赛题,像是体育老师教的。现在像是奥数金牌教练带出来的。

3.3 代码能力对比——SWE-bench实战

SWE-bench测的是模型能不能解决真实开源项目的GitHub Issue,比纯数学题更贴近实际:

模型

SWE-bench Verified

GPT-4

54.6%

Claude Opus 4

72.5%

Claude Opus 4.6

80.8%

Gemini 3.1 Pro

80.6%

从54.6%到80.8%,一年半时间,绝对值提升了26个百分点。 这意味着10个真实Bug里,模型能自动修掉8个。


四、慢思考成标配:2026年谁还没有推理模式?

到2026年中,一个有趣的现象出现了:不是谁有推理模式值得说,而是谁还没有推理模式值得说。

厂商

推理模型/模式

特点

OpenAI

o1, o3, o4-mini, GPT-5.4 Thinking

独立推理模型 + 主力模型内置

Google

Gemini 2.5 Pro/Flash Thinking

动态思考预算(0-24K tokens)

Anthropic

Claude Extended Thinking

thinking_budget_tokens参数控制

DeepSeek

R1, R1-0528

开源、低成本

阿里

QwQ, QVQ, Qwen3

混合思考/非思考模式

微软

Phi-4-reasoning

小参数推理模型

xAI

Grok-3

马斯克系推理模型

"慢思考"已经不是竞争优势,而是准入门槛。 就像十年前智能手机必须有触摸屏一样,2026年的大模型必须会"想一想"。

一个标志性的趋势是:推理不再是独立产品线,而是主力模型的可选模式。Qwen3可以在同一个模型里切换思考和非思考模式,Claude可以通过thinking_budget_tokens精确控制思考深度,Gemini 2.5 Flash的思考预算从0到24K tokens随意拨。

用老周的话说:以前"会思考"是高端配置,现在是标准配置。就像以前ESP(电子稳定系统)是豪华车专属,现在10万块的车都有。


五、RL Cloud:后训练时代的新基建

5.1 钱花在哪了?

一个颠覆认知的数据:OpenAI训练o3的计算量,是o1的10倍。这些增加的计算量,几乎全部花在了后训练的RL阶段

传统认知里,AI训练的大头是预训练(Pre-training),后训练(Post-training)只是锦上添花。但2025年之后,这个比例被彻底颠覆了。

Cursor(代码编辑器Anysphere的产品)在2025年9月披露:他们训练Composer 1.5时,后训练的计算量已经超过了预训练

这意味着什么?RL后训练正在成为AI训练的主要算力消耗者。

5.2 "强化学习云"——新基建形态

当RL后训练变成算力大户,一个新的基础设施需求出现了:专门为强化学习优化的云计算平台

公司

产品/举措

时间

CoreWeave

Serverless RL,支持千卡扩展

2025.10

Cursor × SpaceX

$60B选项协议,使用xAI Colossus集群

2026.04

Prime Intellect

专注后训练基础设施

2025-2026

Unsloth

专注后训练基础设施

2025-2026

CoreWeave在2025年10月推出了业界首个完全托管的Serverless RL服务,可以弹性扩展到数千张GPU。他们还在2025年3月登陆纳斯达克(股票代码CRWV),可以说是"RL Cloud"概念的第一个上市公司。

用人话说:以前的云计算卖的是"算力",现在新一代云计算卖的是"RL训练能力"。 就像AWS从卖虚拟机进化到卖SageMaker一样,CoreWeave从卖GPU进化到卖RL训练流水线。

5.3 RL Gym——Agent的健身房

另一个爆发的赛道是RL Gym(强化学习训练场)——专门为训练AI Agent设计的模拟环境。

为什么需要Gym?因为RLVR的核心是"可验证奖励",你需要一个环境来:

  1. 给Agent分配任务
  2. 让Agent执行任务
  3. 自动验证结果对不对
  4. 把奖励信号反馈给训练

代码领域相对简单(跑测试就行),但其他领域(网页操作、机器人控制、多Agent协作)需要专门的模拟环境。


六、成本账本:推理模型到底贵不贵?

这是架构师最关心的问题之一。先看API定价:

6.1 API价格对比(每百万Token)

模型

输入价格

输出价格

备注

DeepSeek R1

$0.55

$2.19

缓存命中$0.14

o3-mini / o4-mini

$1.10

$4.40

Claude Sonnet

$3.00

$15.00

Claude Opus

$5.00

$25.00

OpenAI o1

$15.00

$60.00

OpenAI o3 Pro

$150.00

最贵推理模型

DeepSeek R1的输出价格只有o1的3.6%,只有o3 Pro的1.5%。 这就是为什么DeepSeek-R1的发布被称为"AI行业的Sputnik时刻"。

6.2 隐藏成本:思考Token

但价格表只是冰山一角。推理模型有一个隐藏成本——思考Token。

一个看起来只需要一段话回答的问题,推理模型可能会在内部生成5万+个思考Token。这些Token虽然对用户不可见,但全部计费

举个例子:

  • 普通模型回答一个数学题:200个输出Token
  • 推理模型回答同一个题:200个可见Token + 10,000个思考Token = 10,200个输出Token

实际成本可能是标价的50倍。

6.3 什么时候该用推理模型?

场景

推荐

原因

复杂数学/逻辑推理

✅ 推理模型

准确率提升显著

多步骤代码生成

✅ 推理模型

Bug率大幅降低

竞赛级编程

✅ 推理模型

性能差距巨大

简单问答/分类

❌ 普通模型

推理无提升,成本翻倍

文档解析/提取

❌ 普通模型

LlamaIndex研究:成本涨5-8倍,准确率不变

创意写作

❌ 普通模型

推理反而让文风僵硬

老周的选型建议:推理模型是手术刀,不是菜刀。该用的时候无可替代,不该用的时候纯属浪费。


七、推理模型的"暗面":过度思考问题

7.1 Over-Thinking:想太多反而错

你可能觉得"多想想"总是好的。但研究表明,推理链过长会导致准确率下降

原因有三:

  1. 误差累积:推理链越长,每一步小错误累积的概率越大
  2. 信息干扰:无关的推理分支会污染最终判断
  3. 复杂度坍缩:模型在过于复杂的推理路径中迷失方向

更有意思的是,有研究者发现了一种叫OverThink Attack的攻击方式(arXiv: 2502.02542):通过精心构造的输入,诱导推理模型生成极长的无用推理链,大幅增加Token消耗和延迟。

用人话说:你问AI "2+3等于几",它可能先推导自然数公理,再证明加法交换律,最后才告诉你等于5。 这不是Bug,这是推理模型的"过度工程化"本能。

7.2 文档解析的翻车现场

LlamaIndex做过一个测试:用推理模型来做文档解析(一个相对简单的结构化提取任务)。

结果令人意外:

  • 成本涨了5-8倍
  • 延迟涨了3-5倍
  • 准确率:持平,甚至略有下降
  • 更高的思考预算导致了更多的幻觉和结构错误

不是所有任务都需要"深度思考"。 有些任务需要的是快速反应,不是深思熟虑。

7.3 正在涌现的解决方案

好消息是,学界和业界都在积极解决过度思考问题:

  • Early Exit:检测到中间步骤已经足够时,提前终止推理
  • 自适应计算:AlphaOne模型实现了"该快就快,该慢就慢"的动态推理
  • 思考预算控制:Claude的thinking_budget_tokens、Gemini Flash的0-24K tokens滑块
  • ShorterBetter:优化目标从"最准确"变成"最短且准确"

八、实践指南:架构师如何落地推理模型?

8.1 路由策略:先分诊,再治疗

最佳实践是在推理模型前面加一个路由层,根据任务复杂度动态选择模型:

代码语言:javascript
复制
1  用户请求 → 复杂度评估器
2      ├── 简单任务 → Haiku/Flash(快+便宜)
3      ├── 中等任务 → Sonnet/Pro(均衡)
4      └── 复杂任务 → Opus/o3 + 思考模式(慢+贵+准)

8.2 思考预算控制

以Claude为例,可以通过thinking_budget_tokens参数精确控制推理深度:

代码语言:javascript
复制
1  {
2  "model": "claude-opus-4-6",
3  "thinking": {
4  "type": "enabled",
5  "budget_tokens": 8000
6    }
7  }

Gemini 2.5 Flash提供0到24K tokens的思考预算滑块。这些参数让你可以在成本、延迟、准确率之间做精确权衡。

8.3 缓存策略

DeepSeek R1的缓存命中价格只有$0.14/M tokens(正常价格的25%)。如果你的场景有大量重复前缀(比如相同的系统提示),一定要开缓存

OpenAI的Batch API和Anthropic的Message Batches都提供50%折扣,适合对延迟不敏感的批处理场景。

8.4 该选哪个推理模型?

决策维度

推荐选择

预算有限,追求性价比

DeepSeek R1(价格低27倍)

企业级,追求稳定性

Claude Opus / o3

速度优先

o4-mini / Gemini Flash Thinking

需要精确控制思考深度

Claude(thinking_budget_tokens)

需要本地部署

DeepSeek R1开源蒸馏版

纯数学/竞赛

o4-mini(AIME 93.4%)


写在最后

2025-2026年,AI行业发生了一次静悄悄的范式转移。

过去我们认为模型能力主要取决于预训练——数据越多、参数越大、训练越久,模型越强。但RLVR证明了:同样的基座模型,换一种后训练方法,性能可以翻倍。

GPT-4o到o4-mini,AIME从12%到93.4%——差距不在"先天条件",而在"后天教育"。

DeepSeek用29万美元的训练成本,3.6%的API价格,证明了一件事:推理能力不是氪金专属。 这彻底改变了AI竞争的游戏规则。

而当所有厂商都学会了RLVR,"慢思考"从差异化优势变成了标配,下一个竞争焦点就转移到了:怎么让模型该快就快、该慢就慢? 思考预算控制、自适应计算、路由策略——这些才是2026年下半场的主战场。

一句话总结:模型的"智商",三分靠预训练,七分靠后训练。RLVR,就是那个改变七分的技术。

我是老周,一个在架构领域摸爬滚打多年的技术人。如果这篇文章对你有帮助,欢迎点赞、在看、转发三连。关注「老周聊架构」,每周深度解读AI和架构的最新趋势。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 老周聊架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、先搞懂一个问题:AI为什么突然会"思考"了?
    • 1.1 从"张口就来"到"想想再说"
    • 1.2 "Aha Moment"——AI的顿悟时刻
  • 二、RLVR到底是什么?为什么它比RLHF更适合推理?
    • 2.1 先回顾:RLHF的问题
    • 2.2 RLVR的核心思路:不用人,用验证器
    • 2.3 RLVR的训练流程
    • 2.4 一个数字说明一切
  • 三、2024-2026推理模型军备竞赛全景
    • 3.1 时间线速览
    • 3.2 AIME成绩对比——推理能力的"高考分数线"
    • 3.3 代码能力对比——SWE-bench实战
  • 四、慢思考成标配:2026年谁还没有推理模式?
  • 五、RL Cloud:后训练时代的新基建
    • 5.1 钱花在哪了?
    • 5.2 "强化学习云"——新基建形态
    • 5.3 RL Gym——Agent的健身房
  • 六、成本账本:推理模型到底贵不贵?
    • 6.1 API价格对比(每百万Token)
    • 6.2 隐藏成本:思考Token
    • 6.3 什么时候该用推理模型?
  • 七、推理模型的"暗面":过度思考问题
    • 7.1 Over-Thinking:想太多反而错
    • 7.2 文档解析的翻车现场
    • 7.3 正在涌现的解决方案
  • 八、实践指南:架构师如何落地推理模型?
    • 8.1 路由策略:先分诊,再治疗
    • 8.2 思考预算控制
    • 8.3 缓存策略
    • 8.4 该选哪个推理模型?
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档