00:00
今天我们来聊点儿特别的东西,一种全新的人工智能,它不光是会给你一个答案,真正厉害的地方在于它还能证明自己推理的每一步都是绝对正确的。你想想这意味着什么,咱们就来看看。大家想象一下,要是有个AI啊,他不光能在全世界最难的数学考试里拿第一,还能把自己的解题步骤一步步摆出来,证明自己完美无暇,这是一种什么样的存在?这其实就是我们今天要聊的deep sick me v two, 它带来的简直就是一场关于AI可信度的革命啊。要搞明白这个技术到底牛在哪儿,咱们得先聊聊一个很多人甚至是很多AI都会掉进去的坑,那就是所谓的正确答案幻觉。Deep math v two的研究论文里有句话,我觉得说的太到位了,正确的答案并不能保证正确的推理。你想啊,一个AI可能就是瞎猫碰上死耗子,用一套完全错误的逻辑碰巧蒙对了那个最终答案,你说这能叫真正的智能吗?肯定不算啊。
01:08
这么说吧,老方法和新方法就好比两种完全不一样的考试。过去那种老方法就好像老师批卷子,只看你最后那个答案对不对,你中间怎么算的,他根本不管。而现在这个新目标呢?他就像一个超级严谨的法官,要看的不是结果,而是整个证据链,每一步都得经得起推敲,不能有任何瑕疵。诶,那具体要怎么做呢?关键就在于改变奖励的方式,我们不再奖励那个最终答案,而是去奖励整个推理过程。所以这就需要一个全新的角色登场了,AI验证者,咱们就来看看这个AI是怎么被训练成一个火眼金睛的逻辑警察的。其实啊,训练这个验证者AI过程还挺有意思的,大概分三步走,首先第一步得有教材吧,他们就去收集了一大堆超过17000道真实的数学竞赛题,然后第二步找另一个AI来当学生,让他吭哧吭哧写出成千上万份解题报告。
02:14
但最关键的来了第三步,请人类的数学大神们出山,来当这个阅卷老师。不过他们评判的重点啊,不是答案,而是每一步的推理过程。评分标准其实特别直接,如果一份证明可以说是完美无瑕,逻辑严谨,每一个步骤都清清楚楚,那好,他就拿满分10分。当然了,不是每个学生都是学霸,那要是有的证明的大方向是对的,但中间有些小毛病,或者挑了一些步骤没交代清楚,那怎么办?给个0.5分。最后如果整个证明过程从根上就错了,逻辑不通或者干脆跑题了,那就没得商量,直接0分。好,现在有了这些人类专家的评分数据当标准答案,这个AI验证者就像个学生一样,慢慢就学会了怎么去评判一个推理过程的好坏。但是你有没有想到一个问题,一个很关键的问题。
03:15
对吧?就是这个问题,我们怎么能百分之百相信这个AI裁判自己是公正的,而不是他自己在脑补或者说幻觉出一些根本不存在的错误呢?毕竟裁判也是AI,他也可能会犯错,对不对?你猜他们怎么解决的?这个办法真的非常聪明,他们搞了个东西叫原验证,说白了就是裁判的裁判,他们训练了第二的AI,专门来监督第一个AI裁判这个纪律委员的工作就是检查,诶,你这个裁判判的对不对?你指出的问题是真问题还是瞎说?给的分数到底合不合理?你别说,这招一出,效果简直是立竿见影,那个AI裁判的分析质量分儿一下子就从0.85飙到了0.96。
04:07
这意味着什么呢?意味着他的判断水平已经跟人类专家差不了多少了,冤假错案的可能性被大大降低了。好,现在我们手里有了一个靠谱的AI裁判了,接下来就是整个系统里最精彩最核心的部分了。我们来看一看这个裁判和那个负责解题的AI是怎么形成一个完美的二人转,互相促进,一起进步的啊。你看,这个循环是这么开始的,那个负责解题的生成者AI,在裁判的严格要求下,他就开始挑战越来越难的题目,写出越来越复杂的证明。那这些更复杂的证明就反过来给那个验证者裁判出了难题,对吧?他就必须得跟着生己变得更聪明,才能揪出里面那些更隐蔽的逻辑漏洞。
05:02
然后呢,一个更聪明的裁判,他给出的反馈质量自然就更高,更精准,这些高质量的反馈又反过来帮助那个生成者,让他也变得更强。你看,这么一来,一个强大的飞轮就转起来了,这是一个完美的自我强化闭环,那个解题的和判卷的就像两个顶尖高手在互相喂招,你来我往,一起把武功练到了一个新境界。但最牛的是什么?是这个飞轮转到最后,整个系统就能实现全自我化了,以后再有新的难题,它自己就能生成解法,自己验证,自己打分儿,完全不需要人类专家再介入了。所以说了这么多,这个能自己净化的系统到底有多厉害,咱们直接看数据,这些数据说实话有点吓人。先来看一个高难度数学问题的测试,Deep sick math2的平均得分是0.54,这个分数已经把其他我们熟悉的顶尖模型,比如GPT和gemiy甩在了后面。
06:12
但这还只是测试,要看真本事,还得去真实的世界级大赛里比划,比划结果呢,更惊人,你看啊,在号称中学生数学世界杯的国际数学奥林匹克,也就是Mo 6道题,他解除了5道。在咱们的中国数学奥林匹克6道题里,也拿下了4.5题,这个0.5的意思是虽然没完全解出来,但也拿到了大部分分数。这两个成绩是什么概念?就是妥妥的人类金牌选手的水平。如果说刚才的成绩是金牌水平,那接下来的这个简直就是降维打击了葡萄男数学竞赛,这可是给美北顶尖大学生们准备的,难度极高。Deeppick muff v two在这项比赛里拿了多少分?118分儿,总分也才120分儿,这几乎就是满分儿了。
07:08
可能你对118分还没什么概念,没关系,我们来做个最直接的对比,在同一年这场比赛里,人类选手最高分是多少?是90分,AI是118,人类最高是90,这还有什么好说的?至少在数学推理这个领域,AI已经实实在在的超越了最聪明的人类大脑。好,看到这里,我们不妨停下来想一想,当一个AI,它不仅会思考,还能自己检查自己,证明自己的思考是对的,这意味着什么?今天他解决的是顶尖的数学难题,那明天呢?下一个被他攻克的会不会是新药研发、材料科学,甚至是宇宙的奥秘呢?我不知道答案,但有一点很清楚,一个真正可靠、能够自我验证的AI思考者,他打开的可能性真的是无限的。
我来说两句