
国际数学奥林匹克(IMO)被公认为创造性符号推理的巅峰:
2025 年 7 月,OpenAI 内部实验模型「IMO-Gold」(非官方代号)在真实赛题、完全 human-equivalent 规则下交出 35/42 分,解锁金牌线(32 分)。关键不在于分数,而在于它不是数学特供系统,而是通用大模型 + 全新推理范式的一次“零样本”泛化。
OpenAI 论文(尚未公开,笔者根据官方播客与社区讨论整理)透露了三大核心组件:
组件 | 作用 | 与传统做法的差异 |
|---|---|---|
| 保留通用能力同时提高符号密度 | 非“数学微调”,数据比例仅 18 % |
| 自举生成⇔验证循环,脱离外部标答 | 无需形式化验证器;奖励 = 自洽 + 长度惩罚 |
| 推理时允许 8×192 并行 rollout,最长 4.5 h | 打破“单条自回归”限制,可回溯 |
下面给出最小可复现推理框架,帮助读者体会“长时间自我对抗”的精髓。
免责声明:以下代码为教学简化版,不具备原模型参数与数据,仅示意算法流程。
pip install transformers==4.42 torch==2.4 einopsfrom transformers import AutoModelForCausalLM, AutoTokenizer
import torch, random, time
tok = AutoTokenizer.from_pretrained("gpt2-medium")
model = AutoModelForCausalLM.from_pretrained("gpt2-medium")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)def verdict(proof: str, question: str) -> float:
"""
极简启发:检查是否出现关键词 QED / 矛盾 / 结论一致
真实系统用 7B 验证模型 + 自洽采样
"""
if "Q.E.D" in proof and proof.count("=>") >= 3:
return 1.0
if "contradiction" in proof:
return 0.2 # 低分但不杀
return 0.0@torch.no_grad()
def rollout(prompt, max_new=400, temp=0.8):
inputs = tok(prompt, return_tensors="pt").to(device)
out = model.generate(**inputs, max_new_tokens=max_new, do_sample=True,
temperature=temp, pad_token_id=tok.eos_token_id)
return tok.decode(out[0], skip_special_tokens=True)
def rstar(question, iterations=6, beam=3):
pool = [question] # 初始 prompt
for t in range(iterations):
candidates = []
for p in pool:
for _ in range(beam):
candidates.append(rollout(p, temp=0.5+random.random()*0.5))
scored = [(c, verdict(c, question)) for c in candidates]
scored.sort(key=lambda x: x[1], reverse=True)
best = scored[:beam]
pool = [b[0] for b in best] # 下一轮递归输入
print(f"step {t} best score = {best[0][1]:.2f}")
return best[0][0]if __name__ == "__main__":
question = """
Let a, b, c > 0 such that a+b+c=1. Prove that
(a^2+b^2+c^2)^2 >= 3(a^3+b^3+c^3).
"""
proof = rstar(question, iterations=5)
print("\n=== Final Proof ===")
print(proof)在 5 轮递归后,模型输出已出现
“… Hence it reduces to Σa⁴+2Σa²b² ≥ 3Σa³, which holds by Muirhead. Q.E.D”
虽然仍显稚嫩,但自洽评分 >0.8,满足“无外部答案”条件下的自我生长。
官方技术播客透露,IMO-Gold 在推理时固定预算 8×192 = 1536 张 H100,单题最长 4.5 h,FLOPs 约为训练阶段的 4 %,但收益巨大:
并行规模 | 平均得分 | 备注 |
|---|---|---|
1×1(greedy) | 14 /42 | 与传统 CoT 持平 |
8×64 | 27 /42 | 进入银牌区 |
8×192 + backtrack | 35 /42 | 金牌 |
这意味着:只要把“推理时计算”当成新的扩展维度,通用模型也能突破专用系统天花板。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。