
GPT-4o去做美国数学邀请赛(AIME),正确率12%。换成o1,74.3%。再换成o4-mini,93.4%。同一家公司,同一年的模型,正确率翻了近8倍。它们的预训练数据几乎一样,参数量甚至在缩小。那多出来的81个百分点,到底从哪来的?
答案是四个字母:RLVR。
Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习。这是2025-2026年AI领域最重要的技术突破,没有之一。它让模型学会了"想一想再回答",而不是"张口就来"。
更有意思的是,把这个技术玩明白的不是OpenAI,是一家中国公司——DeepSeek。他们的R1论文登上了Nature封面,训练成本只有29万美元,API价格只有o1的3.6%,性能却打了个平手。
今天这篇文章,把推理模型和RLVR的技术原理、产业格局、成本账本全讲透。
传统大模型的工作方式,用人话说就是条件反射——看到问题,直接从训练数据的统计规律里"蹦"出一个最可能的答案。
这就像考试的时候,学渣看到题目直接凭感觉选C,学霸会在草稿纸上推导一遍再作答。
推理模型做的事情就是:强制模型先打草稿。
在输出最终答案之前,模型会生成一长串"思考过程"(thinking tokens),可能有几百甚至几千个token。这些思考过程对用户不可见(或者部分可见),但它们让模型有机会:
DeepSeek在训练R1-Zero(纯RL版本,没有任何人类推理示范)的时候,观察到了一个令人震惊的现象。
模型在解数学题的过程中,突然生成了这样一段话:
"Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step..."
然后它推翻了自己之前的推理,从头开始验证每一步,最终找到了正确答案。
没有人教它这么做。 这是纯粹从强化学习的奖励信号中自发涌现的行为。模型自己发明了"停下来想想"这个策略,因为它发现这么做能拿到更多奖励。
用老周的话说:AI不是学会了思考,而是发现"思考"这个动作本身是有利可图的。
RLHF(基于人类反馈的强化学习)大家都听过了。ChatGPT能聊天,靠的就是RLHF。流程是:
问题出在第3步。奖励模型本身也是个神经网络,它会犯错。 模型很快就学会了"讨好"奖励模型而不是真正解决问题——这就是臭名昭著的奖励黑客(Reward Hacking)。
更要命的是,人类标注员对数学题的判断不够精确。你让标注员判断"这道微积分题的解题过程哪个更好",大概率两眼一抹黑。
RLVR的革命性在于:把人类标注员换成了程序验证器。
对比维度 | RLHF | RLVR |
|---|---|---|
奖励来源 | 人类标注 → 奖励模型 | 程序自动验证 |
信号质量 | 有噪声、主观 | 干净、客观、二值化 |
人力成本 | 大量标注员 | 只需正确答案/测试用例 |
是否需要奖励模型 | 需要(额外神经网络) | 不需要 |
适用场景 | 主观任务(风格、安全性) | 可验证任务(数学、代码) |
奖励黑客风险 | 高 | 极低 |
验证器怎么设计?非常直觉:
没有中间地带,没有主观判断,对就是对,错就是错。

DeepSeek-R1的完整训练流程分三步:
第一步:预训练(Pre-training) 跟传统大模型一样,在海量文本上做下一个token预测,得到基座模型DeepSeek-V3。
第二步:冷启动SFT(Supervised Fine-Tuning) 用一小批精选的推理示范数据做监督微调,让模型初步学会"先想再答"的格式。
为什么需要这步?因为DeepSeek试过跳过SFT直接上RL(R1-Zero),结果模型确实学会了推理,但有两个问题:一是中英文混着写,二是可读性很差。加了SFT冷启动后,这些问题迎刃而解。
第三步:大规模RLVR 用GRPO算法(Group Relative Policy Optimization)进行强化学习。核心流程:
GRPO的精妙之处在于:不需要单独训练一个价值网络(Critic),只靠组内比较就能计算优势值。这比传统PPO算法省了差不多一半的计算量。
Qwen2.5-Math-1.5B(一个只有15亿参数的小模型),在MATH-500基准上:
性能翻倍。 而且这不是靠堆参数实现的,是靠后训练方法的改变。
从2024年9月OpenAI发布o1开始,推理模型赛道正式开打。到2026年年中,几乎所有主要实验室都已入场。
时间 | 模型 | 厂商 | 关键指标 |
|---|---|---|---|
2024.09 | o1-preview | OpenAI | AIME 74.3%,首个推理模型 |
2024.11 | QwQ-32B | 阿里 | 开源Apache 2.0,打平o1-preview |
2025.01 | DeepSeek-R1 | DeepSeek | 打平o1,成本仅3.6%,Nature封面 |
2025.01 | o3-mini | OpenAI | 向免费用户开放 |
2025.02 | Claude 3.7 Sonnet | Anthropic | 首个混合推理模型 |
2025.03 | Gemini 2.5 Pro | 登顶LMArena排行榜 | |
2025.04 | o3 + o4-mini | OpenAI | o4-mini AIME 93.4% |
2025.04 | Qwen3-235B | 阿里 | 混合思考/非思考模式 |
2025.05 | DeepSeek-R1-0528 | DeepSeek | 支持Function Calling |
2026.02 | Claude Opus 4.6 | Anthropic | SWE-bench 80.8% |
2026.04 | Claude Opus 4.7 | Anthropic | thinking_budget_tokens参数 |
AIME(美国数学邀请赛)是衡量推理模型数学能力的黄金标准。看看这些数字:
模型 | AIME 2024 | AIME 2025 |
|---|---|---|
GPT-4o | 12% | — |
o1 | 74.3% | 79.2% |
o3-mini | 87.3% | 86.5% |
o3 | 91.6% | 88.9% |
o4-mini | 93.4% | 92.7% |
DeepSeek-R1 | 79.8% | — |
Qwen3.5-plus | — | 91.3%(AIME 2026) |
从GPT-4o的12%到o4-mini的93.4%,提升了81个百分点。这不是换了个更大的模型,而是换了后训练方法。
用人话说:以前的AI做数学竞赛题,像是体育老师教的。现在像是奥数金牌教练带出来的。
SWE-bench测的是模型能不能解决真实开源项目的GitHub Issue,比纯数学题更贴近实际:
模型 | SWE-bench Verified |
|---|---|
GPT-4 | 54.6% |
Claude Opus 4 | 72.5% |
Claude Opus 4.6 | 80.8% |
Gemini 3.1 Pro | 80.6% |
从54.6%到80.8%,一年半时间,绝对值提升了26个百分点。 这意味着10个真实Bug里,模型能自动修掉8个。
到2026年中,一个有趣的现象出现了:不是谁有推理模式值得说,而是谁还没有推理模式值得说。
厂商 | 推理模型/模式 | 特点 |
|---|---|---|
OpenAI | o1, o3, o4-mini, GPT-5.4 Thinking | 独立推理模型 + 主力模型内置 |
Gemini 2.5 Pro/Flash Thinking | 动态思考预算(0-24K tokens) | |
Anthropic | Claude Extended Thinking | thinking_budget_tokens参数控制 |
DeepSeek | R1, R1-0528 | 开源、低成本 |
阿里 | QwQ, QVQ, Qwen3 | 混合思考/非思考模式 |
微软 | Phi-4-reasoning | 小参数推理模型 |
xAI | Grok-3 | 马斯克系推理模型 |
"慢思考"已经不是竞争优势,而是准入门槛。 就像十年前智能手机必须有触摸屏一样,2026年的大模型必须会"想一想"。
一个标志性的趋势是:推理不再是独立产品线,而是主力模型的可选模式。Qwen3可以在同一个模型里切换思考和非思考模式,Claude可以通过thinking_budget_tokens精确控制思考深度,Gemini 2.5 Flash的思考预算从0到24K tokens随意拨。
用老周的话说:以前"会思考"是高端配置,现在是标准配置。就像以前ESP(电子稳定系统)是豪华车专属,现在10万块的车都有。
一个颠覆认知的数据:OpenAI训练o3的计算量,是o1的10倍。这些增加的计算量,几乎全部花在了后训练的RL阶段。
传统认知里,AI训练的大头是预训练(Pre-training),后训练(Post-training)只是锦上添花。但2025年之后,这个比例被彻底颠覆了。
Cursor(代码编辑器Anysphere的产品)在2025年9月披露:他们训练Composer 1.5时,后训练的计算量已经超过了预训练。
这意味着什么?RL后训练正在成为AI训练的主要算力消耗者。
当RL后训练变成算力大户,一个新的基础设施需求出现了:专门为强化学习优化的云计算平台。
公司 | 产品/举措 | 时间 |
|---|---|---|
CoreWeave | Serverless RL,支持千卡扩展 | 2025.10 |
Cursor × SpaceX | $60B选项协议,使用xAI Colossus集群 | 2026.04 |
Prime Intellect | 专注后训练基础设施 | 2025-2026 |
Unsloth | 专注后训练基础设施 | 2025-2026 |
CoreWeave在2025年10月推出了业界首个完全托管的Serverless RL服务,可以弹性扩展到数千张GPU。他们还在2025年3月登陆纳斯达克(股票代码CRWV),可以说是"RL Cloud"概念的第一个上市公司。
用人话说:以前的云计算卖的是"算力",现在新一代云计算卖的是"RL训练能力"。 就像AWS从卖虚拟机进化到卖SageMaker一样,CoreWeave从卖GPU进化到卖RL训练流水线。
另一个爆发的赛道是RL Gym(强化学习训练场)——专门为训练AI Agent设计的模拟环境。
为什么需要Gym?因为RLVR的核心是"可验证奖励",你需要一个环境来:
代码领域相对简单(跑测试就行),但其他领域(网页操作、机器人控制、多Agent协作)需要专门的模拟环境。
这是架构师最关心的问题之一。先看API定价:
模型 | 输入价格 | 输出价格 | 备注 |
|---|---|---|---|
DeepSeek R1 | $0.55 | $2.19 | 缓存命中$0.14 |
o3-mini / o4-mini | $1.10 | $4.40 | |
Claude Sonnet | $3.00 | $15.00 | |
Claude Opus | $5.00 | $25.00 | |
OpenAI o1 | $15.00 | $60.00 | |
OpenAI o3 Pro | — | $150.00 | 最贵推理模型 |
DeepSeek R1的输出价格只有o1的3.6%,只有o3 Pro的1.5%。 这就是为什么DeepSeek-R1的发布被称为"AI行业的Sputnik时刻"。
但价格表只是冰山一角。推理模型有一个隐藏成本——思考Token。
一个看起来只需要一段话回答的问题,推理模型可能会在内部生成5万+个思考Token。这些Token虽然对用户不可见,但全部计费。
举个例子:
实际成本可能是标价的50倍。
场景 | 推荐 | 原因 |
|---|---|---|
复杂数学/逻辑推理 | ✅ 推理模型 | 准确率提升显著 |
多步骤代码生成 | ✅ 推理模型 | Bug率大幅降低 |
竞赛级编程 | ✅ 推理模型 | 性能差距巨大 |
简单问答/分类 | ❌ 普通模型 | 推理无提升,成本翻倍 |
文档解析/提取 | ❌ 普通模型 | LlamaIndex研究:成本涨5-8倍,准确率不变 |
创意写作 | ❌ 普通模型 | 推理反而让文风僵硬 |
老周的选型建议:推理模型是手术刀,不是菜刀。该用的时候无可替代,不该用的时候纯属浪费。
你可能觉得"多想想"总是好的。但研究表明,推理链过长会导致准确率下降。
原因有三:
更有意思的是,有研究者发现了一种叫OverThink Attack的攻击方式(arXiv: 2502.02542):通过精心构造的输入,诱导推理模型生成极长的无用推理链,大幅增加Token消耗和延迟。
用人话说:你问AI "2+3等于几",它可能先推导自然数公理,再证明加法交换律,最后才告诉你等于5。 这不是Bug,这是推理模型的"过度工程化"本能。
LlamaIndex做过一个测试:用推理模型来做文档解析(一个相对简单的结构化提取任务)。
结果令人意外:
不是所有任务都需要"深度思考"。 有些任务需要的是快速反应,不是深思熟虑。
好消息是,学界和业界都在积极解决过度思考问题:
最佳实践是在推理模型前面加一个路由层,根据任务复杂度动态选择模型:
1 用户请求 → 复杂度评估器
2 ├── 简单任务 → Haiku/Flash(快+便宜)
3 ├── 中等任务 → Sonnet/Pro(均衡)
4 └── 复杂任务 → Opus/o3 + 思考模式(慢+贵+准)以Claude为例,可以通过thinking_budget_tokens参数精确控制推理深度:
1 {
2 "model": "claude-opus-4-6",
3 "thinking": {
4 "type": "enabled",
5 "budget_tokens": 8000
6 }
7 }Gemini 2.5 Flash提供0到24K tokens的思考预算滑块。这些参数让你可以在成本、延迟、准确率之间做精确权衡。
DeepSeek R1的缓存命中价格只有$0.14/M tokens(正常价格的25%)。如果你的场景有大量重复前缀(比如相同的系统提示),一定要开缓存。
OpenAI的Batch API和Anthropic的Message Batches都提供50%折扣,适合对延迟不敏感的批处理场景。
决策维度 | 推荐选择 |
|---|---|
预算有限,追求性价比 | DeepSeek R1(价格低27倍) |
企业级,追求稳定性 | Claude Opus / o3 |
速度优先 | o4-mini / Gemini Flash Thinking |
需要精确控制思考深度 | Claude(thinking_budget_tokens) |
需要本地部署 | DeepSeek R1开源蒸馏版 |
纯数学/竞赛 | o4-mini(AIME 93.4%) |
2025-2026年,AI行业发生了一次静悄悄的范式转移。
过去我们认为模型能力主要取决于预训练——数据越多、参数越大、训练越久,模型越强。但RLVR证明了:同样的基座模型,换一种后训练方法,性能可以翻倍。
GPT-4o到o4-mini,AIME从12%到93.4%——差距不在"先天条件",而在"后天教育"。
DeepSeek用29万美元的训练成本,3.6%的API价格,证明了一件事:推理能力不是氪金专属。 这彻底改变了AI竞争的游戏规则。
而当所有厂商都学会了RLVR,"慢思考"从差异化优势变成了标配,下一个竞争焦点就转移到了:怎么让模型该快就快、该慢就慢? 思考预算控制、自适应计算、路由策略——这些才是2026年下半场的主战场。
一句话总结:模型的"智商",三分靠预训练,七分靠后训练。RLVR,就是那个改变七分的技术。
我是老周,一个在架构领域摸爬滚打多年的技术人。如果这篇文章对你有帮助,欢迎点赞、在看、转发三连。关注「老周聊架构」,每周深度解读AI和架构的最新趋势。