首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么像 ChatGPT 和 Google Bard 这样的LLM数学不好

【编者按:随着大型语言模型(LLMs)的兴起,人工智能技术被广泛应用于各个领域,其中包括数学问题的解决。LLMs如GPT系列和谷歌的FunSearch方法被认为是解决复杂问题和提供准确答案的利器。然而,在数学领域中,尤其是在执行数学计算方面,LLMs的实际表现却存在诸多局限性。

XDA 社区首席技术编辑Adam Conway,近期在XDA上发布了:“Why LLMs like ChatGPT and GoogleBard are bad at math”(为什么像 ChatGPT 和 Google Bard 这样的 LLMs 数学不好),内容突显了LLMs在数学领域的矛盾性:它们能够解释数学概念,但在执行数学计算时存在准确性问题。尽管LLMs展示了在创造性思维方面的潜力,例如谷歌的FunSearch方法成功应用于数学创新,但仍需要人类工程师的引导和辅助来规避错误和不准确性。

要点

大型语言模型(LLMs)在解决数学问题方面不可靠,不应依赖其提供准确答案。即使是最好的LLMs在数学计算方面的准确率也很低。

随着计算中的数字变得更大,LLMs的准确性急剧下降,这是因为它们的训练集中存在更大的问题差距。

当与评估器和迭代过程配合使用时,LLMs可以作为数学中强大的工具,正如Google的FunSearch方法所展示的那样。然而,LLMs仍然需要人类工程引导来引导它们朝着正确的方向发展。

当涉及到大型语言模型(LLM)时,你可能会认为它们是解决大多数问题的灵丹妙药。你可以让它规划你的一天,或者几乎问它任何问题,知道它会尽最大努力给你一个全面的答案。然而,有一件事是你绝不能依赖LLM的,那就是数学。

说实话,LLMs可以在大型数学数据集上训练,识别模式,并在数字较小的情况下接近真实答案。即便如此,你最好还是直接使用计算器。

LLMs在数学方面表现糟糕

即使是最顶尖的LLMs也有相当糟糕的准确率

已经有证据表明LLMs在数学方面的表现很差,而讽刺的是,在一篇名为《GPT无需计算器即可解决数学问题》的论文中就有相关内容。清华大学的研究人员展示了如何使用训练过的数学计算模型(名为MathGLM)来以合理的准确率解决问题。

正如你从以上的计算中看到的那样,MathGLM在性能上明显优于GPT-4和ChatGPT。然而,有一个问题,即使是对于5位数的计算,2亿参数模型所能达到的最佳准确率也只有85.16%。无论如何,10,000*5仍然是50,000,如果一个LLM接近但不是这个结果,那么它仍然是错误的答案。而计算器在所有这些问题上都能以100%的准确率100%的时间解决。

随着数字变得更大,准确性也急剧下降。这很可能是因为训练集中使用了较小的计算,随着数字增大,训练集中问题之间的差异预计会变得更大。它并不是在进行计算,而是在进行模式匹配。如果你想使用MathGLM,你可以查看团队的GitHub。只是要知道,你需要一台性能强大的个人电脑来在本地运行它。

Google的FunSearch展示了如何正确地利用LLMs进行数学计算

它已经表现出超越人类的能力

谷歌最近因其FunSearch方法登上了头条,该方法将预先训练的LLM与自动评估器配对,以防止产生幻觉和不正确的想法。它本质上是一个迭代过程,将LLM的创造力与能够在其走向错误方向时将其推回一步的机制相结合。LLMs在数学方面表现不佳,但它们擅长创造性思维。

FunSearch通过采用以代码形式描述数学问题的方式来运行。这个描述提供了一个评估输出的过程,并初始化了一个程序池以开始执行。在FunSearch的每个迭代中,系统将选择一些程序并将它们提供给LLM,例如PaLM 2,然后在此基础上构建新的程序。最优秀的程序被选出进行迭代改进,从而形成了一个自我完善的循环。

在这种情况下,FunSearch成功找到了远远超过一些世界顶尖数学家所知的最佳结果的最大Cap集。研究人员在发表在《自然》杂志上的论文中写道:“据我们所知,这是第一次使用LLM找到了一项科学发现——关于一个臭名昭著的科学问题的新的可验证知识。”

LLMs在数学方面表现不佳,但它们仍然是强大的工具

不过,对于数学问题,最好还是使用计算器

正如谷歌所展示的,LLM可以是一个强大的数学工具,但它不会独立解决问题并生成新的想法,没有任何外部帮助。谷歌围绕FunSearch构建的评估器允许它通过对LLM的创造力进行广泛迭代来解决数学问题,LLM经常会产生幻觉。这并不是LLM在数学方面表现出色,而是工程师善于引导它走向正确的路径。

如果你让LLM向你解释一个数学概念,比如如何将两个矩阵相乘,它很可能会告诉你如何正确进行操作。但是如果你要求它直接执行矩阵相乘,那么答案很可能是错误的。最近我让ChatGPT计算两个矩阵的乘积,得到的答案的维度完全错误。然而,如果我询问它如何相乘两个矩阵,得到的答案是正确的。

换句话说,如果你试图使用像ChatGPT或Google Bard这样的LLM来帮助你理解数学,那就请它向你解释概念,而不是要求直接给出答案。如果你幸运的话,答案可能在它的训练集中,但是最好还是自己学会如何做,而不是一开始就依赖它。

源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OZqh5m3OxfkFqy2lN8oQWl5A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券