会自我检查的人工智能：DeepSeekMath-V2原创

2025-11-302025-11-30 20:31:45播放348

DeepSeekMath-V2是一个专为实现自我验证的数学推理而设计的高级大语言模型 (LLM)，旨在通过迭代训练流程解决传统LLM仅依赖最终答案奖励的局限性，强调严谨的定理证明和内部评估。核心方法是训练一个专门的基于LLM的验证器来准确评分并识别证明中的逻辑错误，同时引入辅助的元验证器以确保评估的可靠性。证明生成器被激励利用这种验证能力进行迭代的自我分析和完善，以最大限度地解决发现的错误，同时利用验证算力自动化地标注新的难题来持续改进验证器。通过这种协同方法，DeepSeekMath-V2展现出卓越的性能，在包括 IMO 2025 在内的重大竞赛中获得了金牌级分数，并在 2024 年普特南大学生数学竞赛中取得了接近满分 (118/120) 的成绩。

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
今天我们来聊点儿特别的东西，一种全新的人工智能，它不光是会给你一个答案，真正厉害的地方在于它还能证明自己推理的每一步都是绝对正确的。你想想这意味着什么，咱们就来看看。大家想象一下，要是有个AI啊，他不光能在全世界最难的数学考试里拿第一，还能把自己的解题步骤一步步摆出来，证明自己完美无暇，这是一种什么样的存在？这其实就是我们今天要聊的deep sick me v two, 它带来的简直就是一场关于AI可信度的革命啊。要搞明白这个技术到底牛在哪儿，咱们得先聊聊一个很多人甚至是很多AI都会掉进去的坑，那就是所谓的正确答案幻觉。Deep math v two的研究论文里有句话，我觉得说的太到位了，正确的答案并不能保证正确的推理。你想啊，一个AI可能就是瞎猫碰上死耗子，用一套完全错误的逻辑碰巧蒙对了那个最终答案，你说这能叫真正的智能吗？肯定不算啊。
01:08
这么说吧，老方法和新方法就好比两种完全不一样的考试。过去那种老方法就好像老师批卷子，只看你最后那个答案对不对，你中间怎么算的，他根本不管。而现在这个新目标呢？他就像一个超级严谨的法官，要看的不是结果，而是整个证据链，每一步都得经得起推敲，不能有任何瑕疵。诶，那具体要怎么做呢？关键就在于改变奖励的方式，我们不再奖励那个最终答案，而是去奖励整个推理过程。所以这就需要一个全新的角色登场了，AI验证者，咱们就来看看这个AI是怎么被训练成一个火眼金睛的逻辑警察的。其实啊，训练这个验证者AI过程还挺有意思的，大概分三步走，首先第一步得有教材吧，他们就去收集了一大堆超过17000道真实的数学竞赛题，然后第二步找另一个AI来当学生，让他吭哧吭哧写出成千上万份解题报告。
02:14
但最关键的来了第三步，请人类的数学大神们出山，来当这个阅卷老师。不过他们评判的重点啊，不是答案，而是每一步的推理过程。评分标准其实特别直接，如果一份证明可以说是完美无瑕，逻辑严谨，每一个步骤都清清楚楚，那好，他就拿满分10分。当然了，不是每个学生都是学霸，那要是有的证明的大方向是对的，但中间有些小毛病，或者挑了一些步骤没交代清楚，那怎么办？给个0.5分。最后如果整个证明过程从根上就错了，逻辑不通或者干脆跑题了，那就没得商量，直接0分。好，现在有了这些人类专家的评分数据当标准答案，这个AI验证者就像个学生一样，慢慢就学会了怎么去评判一个推理过程的好坏。但是你有没有想到一个问题，一个很关键的问题。
03:15
对吧？就是这个问题，我们怎么能百分之百相信这个AI裁判自己是公正的，而不是他自己在脑补或者说幻觉出一些根本不存在的错误呢？毕竟裁判也是AI，他也可能会犯错，对不对？你猜他们怎么解决的？这个办法真的非常聪明，他们搞了个东西叫原验证，说白了就是裁判的裁判，他们训练了第二的AI，专门来监督第一个AI裁判这个纪律委员的工作就是检查，诶，你这个裁判判的对不对？你指出的问题是真问题还是瞎说？给的分数到底合不合理？你别说，这招一出，效果简直是立竿见影，那个AI裁判的分析质量分儿一下子就从0.85飙到了0.96。
04:07
这意味着什么呢？意味着他的判断水平已经跟人类专家差不了多少了，冤假错案的可能性被大大降低了。好，现在我们手里有了一个靠谱的AI裁判了，接下来就是整个系统里最精彩最核心的部分了。我们来看一看这个裁判和那个负责解题的AI是怎么形成一个完美的二人转，互相促进，一起进步的啊。你看，这个循环是这么开始的，那个负责解题的生成者AI，在裁判的严格要求下，他就开始挑战越来越难的题目，写出越来越复杂的证明。那这些更复杂的证明就反过来给那个验证者裁判出了难题，对吧？他就必须得跟着生己变得更聪明，才能揪出里面那些更隐蔽的逻辑漏洞。
05:02
然后呢，一个更聪明的裁判，他给出的反馈质量自然就更高，更精准，这些高质量的反馈又反过来帮助那个生成者，让他也变得更强。你看，这么一来，一个强大的飞轮就转起来了，这是一个完美的自我强化闭环，那个解题的和判卷的就像两个顶尖高手在互相喂招，你来我往，一起把武功练到了一个新境界。但最牛的是什么？是这个飞轮转到最后，整个系统就能实现全自我化了，以后再有新的难题，它自己就能生成解法，自己验证，自己打分儿，完全不需要人类专家再介入了。所以说了这么多，这个能自己净化的系统到底有多厉害，咱们直接看数据，这些数据说实话有点吓人。先来看一个高难度数学问题的测试，Deep sick math2的平均得分是0.54，这个分数已经把其他我们熟悉的顶尖模型，比如GPT和gemiy甩在了后面。
06:12
但这还只是测试，要看真本事，还得去真实的世界级大赛里比划，比划结果呢，更惊人，你看啊，在号称中学生数学世界杯的国际数学奥林匹克，也就是Mo 6道题，他解除了5道。在咱们的中国数学奥林匹克6道题里，也拿下了4.5题，这个0.5的意思是虽然没完全解出来，但也拿到了大部分分数。这两个成绩是什么概念？就是妥妥的人类金牌选手的水平。如果说刚才的成绩是金牌水平，那接下来的这个简直就是降维打击了葡萄男数学竞赛，这可是给美北顶尖大学生们准备的，难度极高。Deeppick muff v two在这项比赛里拿了多少分？118分儿，总分也才120分儿，这几乎就是满分儿了。
07:08
可能你对118分还没什么概念，没关系，我们来做个最直接的对比，在同一年这场比赛里，人类选手最高分是多少？是90分，AI是118，人类最高是90，这还有什么好说的？至少在数学推理这个领域，AI已经实实在在的超越了最聪明的人类大脑。好，看到这里，我们不妨停下来想一想，当一个AI，它不仅会思考，还能自己检查自己，证明自己的思考是对的，这意味着什么？今天他解决的是顶尖的数学难题，那明天呢？下一个被他攻克的会不会是新药研发、材料科学，甚至是宇宙的奥秘呢？我不知道答案，但有一点很清楚，一个真正可靠、能够自我验证的AI思考者，他打开的可能性真的是无限的。

展开

我来说两句

0 条评论

登录后参与评论

作者

走向未来

会自我检查的人工智能：DeepSeekMath-V2原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐