从答案正确到推理正确的跃进，DeepSeekMath-V2迈向可自我验证的数学推理

原创

走向未来

发布于 2025-12-05 23:21:17

2130

DeepSeekMath-V2是一个专为实现自我验证的数学推理而设计的高级大语言模型 (LLM)，旨在通过迭代训练流程解决传统LLM仅依赖最终答案奖励的局限性，强调严谨的定理证明和内部评估。核心方法是训练一个专门的基于LLM的验证器来准确评分并识别证明中的逻辑错误，同时引入辅助的元验证器以确保评估的可靠性。证明生成器被激励利用这种验证能力进行迭代的自我分析和完善，以最大限度地解决发现的错误，同时利用验证算力自动化地标注新的难题来持续改进验证器。通过这种协同方法，DeepSeekMath-V2展现出卓越的性能，在包括 IMO 2025 在内的重大竞赛中获得了金牌级分数，并在 2024 年普特南大学生数学竞赛中取得了接近满分 (118/120) 的成绩。