高数是多少理科生的噩梦?那让 AI 做一道数学题有多难呢?又何况是高数呢?多年来,科学家一直尝试让 AI 机器人挑战数学考试,但连年不及格,甚至低到 20 多分。因此,科学家们普遍认为人工智能无法挑战高数。
然而近日,麻省理工的科学家基于 OpenAI Codex 预训练模型在高数上通过 few-shot learning 的正确率达到了 81%!最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子。
当之无愧的“AI做题家”
乍一听,大多数网友的第一反应是,怎么连AI做高数题都考不了满分。确实在此前,科学家一直都在尝试让AI机器人挑战数学考试,但连年不及格,甚至低到只有20多分。因此,人们普遍认为神经网络无法解决高等数学问题。但这一次,麻省理工的科研人员成功了。
课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右,掌握了更好的解题技巧。
研究团队的解决思路是先在文本上做预训练,再用代码进行微调,把数学问题转换成等价的问题,通过让 AI 自动生成补充提干的上下文,将题目自动生成适合模型运行的文本后,再生成对应的代码并运行,最终解决数学问题。研究团队下一步打算把这项技术扩展到更多课程,并考虑实际应用到教学中。
密涅瓦通过生成解决方案来解决问题,包括数值计算、符号操作,而不需要依赖计算器等外部工具。密涅瓦可以将自然语言和数学符号进行结合来解析和回答数学问题。密涅瓦不仅可以解决代数问题,还能解决物理、数论、几何、生物、化学、天文学等众多问题。
为了更好地确认模型可以改进的领域,研究者们分析了模型出错的问题样本,发现大多数错误很容易解释。结果表明,大约一半是计算错误,另一半是推理误差,原因是解决步骤没有遵循逻辑思考链。
同时,Minerva 也有可能得出正确的最终答案,但推理依然错误。分析结果显示,这种概率相对较低,Minerva 62B 在 MATH 数据集上的平均低于 8%。
是高数太难不是AI太弱
事实上近年来,科学家们一直尝试让AI机器人通过数学考试挑战,因为在此之前连年“失利”,从未及格,甚至低至20余分,使人们一度认为AI无法挑战高数。近日,科学家们研制的AI正确率达到了81%,此前9-12岁的小学数学上仅拿到了20多分,经过重新训练后才勉强达到55分。
所以分数低真不是AI的问题,是高数太难了!
要知道AI不仅在技术圈有着不错的发展,在不同的领域也大展拳脚,前有让 AI 在 40 秒写 40 篇高考作文,用 AI 修复很多珍贵的照片、画面。不仅有学生们盼着有一天能用 AI 做作业,还有老师们也期望用 AI 出卷子。
那么距离AI考满分的那天还有多远呢?
领取专属 10元无门槛券
私享最新 技术干货