GPT-4o做AIME只有12%，加了RLVR后飙到93.4%——推理模型凭什么这么猛？

老周聊架构

发布于 2026-06-19 09:14:55

GPT-4o去做美国数学邀请赛（AIME），正确率12%。换成o1，74.3%。再换成o4-mini，93.4%。同一家公司，同一年的模型，正确率翻了近8倍。它们的预训练数据几乎一样，参数量甚至在缩小。那多出来的81个百分点，到底从哪来的？

答案是四个字母：RLVR。

Reinforcement Learning with Verifiable Rewards，可验证奖励强化学习。这是2025-2026年AI领域最重要的技术突破，没有之一。它让模型学会了"想一想再回答"，而不是"张口就来"。

更有意思的是，把这个技术玩明白的不是OpenAI，是一家中国公司——DeepSeek。他们的R1论文登上了Nature封面，训练成本只有29万美元，API价格只有o1的3.6%，性能却打了个平手。

今天这篇文章，把推理模型和RLVR的技术原理、产业格局、成本账本全讲透。

一、先搞懂一个问题：AI为什么突然会"思考"了？

1.1 从"张口就来"到"想想再说"

传统大模型的工作方式，用人话说就是条件反射——看到问题，直接从训练数据的统计规律里"蹦"出一个最可能的答案。

这就像考试的时候，学渣看到题目直接凭感觉选C，学霸会在草稿纸上推导一遍再作答。

推理模型做的事情就是：强制模型先打草稿。

在输出最终答案之前，模型会生成一长串"思考过程"（thinking tokens），可能有几百甚至几千个token。这些思考过程对用户不可见（或者部分可见），但它们让模型有机会：

分解问题：把复杂任务拆成小步骤
自我纠错：发现前一步推理有误，推倒重来
验证答案：用不同方法交叉验证结果

1.2 "Aha Moment"——AI的顿悟时刻

DeepSeek在训练R1-Zero（纯RL版本，没有任何人类推理示范）的时候，观察到了一个令人震惊的现象。

模型在解数学题的过程中，突然生成了这样一段话：

"Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step..."

然后它推翻了自己之前的推理，从头开始验证每一步，最终找到了正确答案。

没有人教它这么做。 这是纯粹从强化学习的奖励信号中自发涌现的行为。模型自己发明了"停下来想想"这个策略，因为它发现这么做能拿到更多奖励。

用老周的话说：AI不是学会了思考，而是发现"思考"这个动作本身是有利可图的。

二、RLVR到底是什么？为什么它比RLHF更适合推理？

2.1 先回顾：RLHF的问题

RLHF（基于人类反馈的强化学习）大家都听过了。ChatGPT能聊天，靠的就是RLHF。流程是：

模型生成多个回答
人类标注员给回答排序（哪个更好）
训练一个"奖励模型"来模拟人类偏好
用这个奖励模型去训练语言模型

问题出在第3步。奖励模型本身也是个神经网络，它会犯错。 模型很快就学会了"讨好"奖励模型而不是真正解决问题——这就是臭名昭著的奖励黑客（Reward Hacking）。

更要命的是，人类标注员对数学题的判断不够精确。你让标注员判断"这道微积分题的解题过程哪个更好"，大概率两眼一抹黑。

2.2 RLVR的核心思路：不用人，用验证器

RLVR的革命性在于：把人类标注员换成了程序验证器。

对比维度	RLHF	RLVR
奖励来源	人类标注 → 奖励模型	程序自动验证
信号质量	有噪声、主观	干净、客观、二值化
人力成本	大量标注员	只需正确答案/测试用例
是否需要奖励模型	需要（额外神经网络）	不需要
适用场景	主观任务（风格、安全性）	可验证任务（数学、代码）
奖励黑客风险	高	极低

验证器怎么设计？非常直觉：

数学题：答案是不是？是就给1分，不是就给0分
代码题：跑一遍单元测试，全过给1分，挂了给0分
格式约束：输出是不是合法JSON？正则一验就知道

没有中间地带，没有主观判断，对就是对，错就是错。

2.3 RLVR的训练流程

DeepSeek-R1的完整训练流程分三步：

第一步：预训练（Pre-training） 跟传统大模型一样，在海量文本上做下一个token预测，得到基座模型DeepSeek-V3。

第二步：冷启动SFT（Supervised Fine-Tuning） 用一小批精选的推理示范数据做监督微调，让模型初步学会"先想再答"的格式。

为什么需要这步？因为DeepSeek试过跳过SFT直接上RL（R1-Zero），结果模型确实学会了推理，但有两个问题：一是中英文混着写，二是可读性很差。加了SFT冷启动后，这些问题迎刃而解。

第三步：大规模RLVR 用GRPO算法（Group Relative Policy Optimization）进行强化学习。核心流程：

给模型一道数学题
模型生成一组（比如8个）不同的解答
验证器检查每个解答的最终答案是否正确
在这一组里，算出每个解答相对于组平均水平的"优势值"
用优势值更新模型参数：答对的路径被强化，答错的被抑制

GRPO的精妙之处在于：不需要单独训练一个价值网络（Critic），只靠组内比较就能计算优势值。这比传统PPO算法省了差不多一半的计算量。

2.4 一个数字说明一切

Qwen2.5-Math-1.5B（一个只有15亿参数的小模型），在MATH-500基准上：

SFT之后：36.0%
加上RLVR之后：73.6%

性能翻倍。 而且这不是靠堆参数实现的，是靠后训练方法的改变。

三、2024-2026推理模型军备竞赛全景

从2024年9月OpenAI发布o1开始，推理模型赛道正式开打。到2026年年中，几乎所有主要实验室都已入场。

3.1 时间线速览

时间	模型	厂商	关键指标
2024.09	o1-preview	OpenAI	AIME 74.3%，首个推理模型
2024.11	QwQ-32B	阿里	开源Apache 2.0，打平o1-preview
2025.01	DeepSeek-R1	DeepSeek	打平o1，成本仅3.6%，Nature封面
2025.01	o3-mini	OpenAI	向免费用户开放
2025.02	Claude 3.7 Sonnet	Anthropic	首个混合推理模型
2025.03	Gemini 2.5 Pro	Google	登顶LMArena排行榜
2025.04	o3 + o4-mini	OpenAI	o4-mini AIME 93.4%
2025.04	Qwen3-235B	阿里	混合思考/非思考模式
2025.05	DeepSeek-R1-0528	DeepSeek	支持Function Calling
2026.02	Claude Opus 4.6	Anthropic	SWE-bench 80.8%
2026.04	Claude Opus 4.7	Anthropic	thinking_budget_tokens参数

3.2 AIME成绩对比——推理能力的"高考分数线"

AIME（美国数学邀请赛）是衡量推理模型数学能力的黄金标准。看看这些数字：

模型	AIME 2024	AIME 2025
GPT-4o	12%	—
o1	74.3%	79.2%
o3-mini	87.3%	86.5%
o3	91.6%	88.9%
o4-mini	93.4%	92.7%
DeepSeek-R1	79.8%	—
Qwen3.5-plus	—	91.3%（AIME 2026）

从GPT-4o的12%到o4-mini的93.4%，提升了81个百分点。这不是换了个更大的模型，而是换了后训练方法。

用人话说：以前的AI做数学竞赛题，像是体育老师教的。现在像是奥数金牌教练带出来的。

3.3 代码能力对比——SWE-bench实战

SWE-bench测的是模型能不能解决真实开源项目的GitHub Issue，比纯数学题更贴近实际：

模型	SWE-bench Verified
GPT-4	54.6%
Claude Opus 4	72.5%
Claude Opus 4.6	80.8%
Gemini 3.1 Pro	80.6%

从54.6%到80.8%，一年半时间，绝对值提升了26个百分点。 这意味着10个真实Bug里，模型能自动修掉8个。

四、慢思考成标配：2026年谁还没有推理模式？

到2026年中，一个有趣的现象出现了：不是谁有推理模式值得说，而是谁还没有推理模式值得说。

厂商	推理模型/模式	特点
OpenAI	o1, o3, o4-mini, GPT-5.4 Thinking	独立推理模型 + 主力模型内置
Google	Gemini 2.5 Pro/Flash Thinking	动态思考预算（0-24K tokens）
Anthropic	Claude Extended Thinking	thinking_budget_tokens参数控制
DeepSeek	R1, R1-0528	开源、低成本
阿里	QwQ, QVQ, Qwen3	混合思考/非思考模式
微软	Phi-4-reasoning	小参数推理模型
xAI	Grok-3	马斯克系推理模型

"慢思考"已经不是竞争优势，而是准入门槛。 就像十年前智能手机必须有触摸屏一样，2026年的大模型必须会"想一想"。

一个标志性的趋势是：推理不再是独立产品线，而是主力模型的可选模式。Qwen3可以在同一个模型里切换思考和非思考模式，Claude可以通过thinking_budget_tokens精确控制思考深度，Gemini 2.5 Flash的思考预算从0到24K tokens随意拨。

用老周的话说：以前"会思考"是高端配置，现在是标准配置。就像以前ESP（电子稳定系统）是豪华车专属，现在10万块的车都有。

五、RL Cloud：后训练时代的新基建

5.1 钱花在哪了？

一个颠覆认知的数据：OpenAI训练o3的计算量，是o1的10倍。这些增加的计算量，几乎全部花在了后训练的RL阶段。

传统认知里，AI训练的大头是预训练（Pre-training），后训练（Post-training）只是锦上添花。但2025年之后，这个比例被彻底颠覆了。

Cursor（代码编辑器Anysphere的产品）在2025年9月披露：他们训练Composer 1.5时，后训练的计算量已经超过了预训练。

这意味着什么？RL后训练正在成为AI训练的主要算力消耗者。

5.2 "强化学习云"——新基建形态

当RL后训练变成算力大户，一个新的基础设施需求出现了：专门为强化学习优化的云计算平台。

公司	产品/举措	时间
CoreWeave	Serverless RL，支持千卡扩展	2025.10
Cursor × SpaceX	$60B选项协议，使用xAI Colossus集群	2026.04
Prime Intellect	专注后训练基础设施	2025-2026
Unsloth	专注后训练基础设施	2025-2026

CoreWeave在2025年10月推出了业界首个完全托管的Serverless RL服务，可以弹性扩展到数千张GPU。他们还在2025年3月登陆纳斯达克（股票代码CRWV），可以说是"RL Cloud"概念的第一个上市公司。

用人话说：以前的云计算卖的是"算力"，现在新一代云计算卖的是"RL训练能力"。 就像AWS从卖虚拟机进化到卖SageMaker一样，CoreWeave从卖GPU进化到卖RL训练流水线。

5.3 RL Gym——Agent的健身房

另一个爆发的赛道是RL Gym（强化学习训练场）——专门为训练AI Agent设计的模拟环境。

为什么需要Gym？因为RLVR的核心是"可验证奖励"，你需要一个环境来：

给Agent分配任务
让Agent执行任务
自动验证结果对不对
把奖励信号反馈给训练

代码领域相对简单（跑测试就行），但其他领域（网页操作、机器人控制、多Agent协作）需要专门的模拟环境。

六、成本账本：推理模型到底贵不贵？

这是架构师最关心的问题之一。先看API定价：

6.1 API价格对比（每百万Token）

模型	输入价格	输出价格	备注
DeepSeek R1	$0.55	$2.19	缓存命中$0.14
o3-mini / o4-mini	$1.10	$4.40
Claude Sonnet	$3.00	$15.00
Claude Opus	$5.00	$25.00
OpenAI o1	$15.00	$60.00
OpenAI o3 Pro	—	$150.00	最贵推理模型

DeepSeek R1的输出价格只有o1的3.6%，只有o3 Pro的1.5%。 这就是为什么DeepSeek-R1的发布被称为"AI行业的Sputnik时刻"。

6.2 隐藏成本：思考Token

但价格表只是冰山一角。推理模型有一个隐藏成本——思考Token。

一个看起来只需要一段话回答的问题，推理模型可能会在内部生成5万+个思考Token。这些Token虽然对用户不可见，但全部计费。

举个例子：

普通模型回答一个数学题：200个输出Token
推理模型回答同一个题：200个可见Token + 10,000个思考Token = 10,200个输出Token

实际成本可能是标价的50倍。

6.3 什么时候该用推理模型？

场景	推荐	原因
复杂数学/逻辑推理	✅ 推理模型	准确率提升显著
多步骤代码生成	✅ 推理模型	Bug率大幅降低
竞赛级编程	✅ 推理模型	性能差距巨大
简单问答/分类	❌ 普通模型	推理无提升，成本翻倍
文档解析/提取	❌ 普通模型	LlamaIndex研究：成本涨5-8倍，准确率不变
创意写作	❌ 普通模型	推理反而让文风僵硬

老周的选型建议：推理模型是手术刀，不是菜刀。该用的时候无可替代，不该用的时候纯属浪费。

七、推理模型的"暗面"：过度思考问题

7.1 Over-Thinking：想太多反而错

你可能觉得"多想想"总是好的。但研究表明，推理链过长会导致准确率下降。

原因有三：

误差累积：推理链越长，每一步小错误累积的概率越大
信息干扰：无关的推理分支会污染最终判断
复杂度坍缩：模型在过于复杂的推理路径中迷失方向

更有意思的是，有研究者发现了一种叫OverThink Attack的攻击方式（arXiv: 2502.02542）：通过精心构造的输入，诱导推理模型生成极长的无用推理链，大幅增加Token消耗和延迟。

用人话说：你问AI "2+3等于几"，它可能先推导自然数公理，再证明加法交换律，最后才告诉你等于5。 这不是Bug，这是推理模型的"过度工程化"本能。

7.2 文档解析的翻车现场

LlamaIndex做过一个测试：用推理模型来做文档解析（一个相对简单的结构化提取任务）。

结果令人意外：

成本涨了5-8倍
延迟涨了3-5倍
准确率：持平，甚至略有下降
更高的思考预算导致了更多的幻觉和结构错误

不是所有任务都需要"深度思考"。 有些任务需要的是快速反应，不是深思熟虑。

7.3 正在涌现的解决方案

好消息是，学界和业界都在积极解决过度思考问题：

Early Exit：检测到中间步骤已经足够时，提前终止推理
自适应计算：AlphaOne模型实现了"该快就快，该慢就慢"的动态推理
思考预算控制：Claude的thinking_budget_tokens、Gemini Flash的0-24K tokens滑块
ShorterBetter：优化目标从"最准确"变成"最短且准确"

八、实践指南：架构师如何落地推理模型？

8.1 路由策略：先分诊，再治疗

最佳实践是在推理模型前面加一个路由层，根据任务复杂度动态选择模型：

1  用户请求 → 复杂度评估器
2      ├── 简单任务 → Haiku/Flash（快+便宜）
3      ├── 中等任务 → Sonnet/Pro（均衡）
4      └── 复杂任务 → Opus/o3 + 思考模式（慢+贵+准）

8.2 思考预算控制

以Claude为例，可以通过thinking_budget_tokens参数精确控制推理深度：

1  {
2  "model": "claude-opus-4-6",
3  "thinking": {
4  "type": "enabled",
5  "budget_tokens": 8000
6    }
7  }

Gemini 2.5 Flash提供0到24K tokens的思考预算滑块。这些参数让你可以在成本、延迟、准确率之间做精确权衡。

8.3 缓存策略

DeepSeek R1的缓存命中价格只有$0.14/M tokens（正常价格的25%）。如果你的场景有大量重复前缀（比如相同的系统提示），一定要开缓存。

OpenAI的Batch API和Anthropic的Message Batches都提供50%折扣，适合对延迟不敏感的批处理场景。

8.4 该选哪个推理模型？

决策维度	推荐选择
预算有限，追求性价比	DeepSeek R1（价格低27倍）
企业级，追求稳定性	Claude Opus / o3
速度优先	o4-mini / Gemini Flash Thinking
需要精确控制思考深度	Claude（thinking_budget_tokens）
需要本地部署	DeepSeek R1开源蒸馏版
纯数学/竞赛	o4-mini（AIME 93.4%）