
DeepSeekMath-V2是一个专为实现自我验证的数学推理而设计的高级大语言模型 (LLM),旨在通过迭代训练流程解决传统LLM仅依赖最终答案奖励的局限性,强调严谨的定理证明和内部评估。核心方法是训练一个专门的基于LLM的验证器来准确评分并识别证明中的逻辑错误,同时引入辅助的元验证器 以确保评估的可靠性。证明生成器被激励利用这种验证能力进行 迭代的自我分析和完善,以最大限度地解决发现的错误,同时利用验证算力自动化地标注新的难题来持续改进验证器。通过这种协同方法,DeepSeekMath-V2展现出卓越的性能,在包括 IMO 2025 在内的重大竞赛中获得了 金牌级分数,并在 2024 年普特南大学生数学竞赛中取得了 接近满分 (118/120) 的成绩。













原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。