首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为大模型添加复杂推理能力,这次用“思维传播”

大模型自问世以来就以其超强的创作能力而引人注目,而且在不到一年的时间里就迅速发展,半年多前还仅限文字与对话等领域,现在已经扩展到图片与视频等领域。但最近有研究发现LLM的推理能力有缺陷,尤其是反向推理能力,几乎是一片空白。有个比较典型的例子,很多LLM被问到“大明是小明的爸爸,那么小明的爸爸是谁?”之类的问题时都会犯傻。同时就在有限的推理过程中,还可能会有错误累加的情况发生。

最近美国范德比尔特大学,英国萨塞克斯大学和牛津大学的团队合作发表一篇论文,其中将这种现象称之为“逆转诅咒”(Reversal Curse),简而言之就是AI与大模型能学会“A是B”,但无法推导出“B是A”。一时间引起轩然大波,不少人或感慨或质疑,甚至最终OpenAI的联合创始人之一,安德烈·卡帕斯(Andrej Karpathy)都出面发言了,他说:“大模型的知识要比你想象的更不完整。”

为了解决这些难题,帮助AI从“人工智障”逐步走向“人工智能”,中科院自动化研究所与美国耶鲁大学的一个研究团队联合发布了一篇论文,名为《思维传播:用大语言模型进行基于类比的复杂推理》(Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models)。其中提出了一种新的技术框架“思维传播”(Thought Propagation,简称TP),通过提出类比问题、解决类比问题、聚合类比问题,从而提升LLM的复杂推理能力。简单的说就是为LLM添加一种拟人化的“类比思想”,让其学会总结、利用过往的成功经验,不必一遇到问题就从头开始推导。论文链接:https://arxiv.org/abs/2310.03965

前面说过,“思维传播”框架模拟的就是人类的“类比思想”。这是一种很常见的现实经验,当我们遇见新问题时,经常会使用过往的经验、行动来解决这些难题,因此这种思想也被称为“类比推理”。“思维传播”框架主要由LLM Propose、LLM Solve、LLM Aggregate、多层实现和即插即用等多个模块组成,下面依次简要介绍一下。

LLM Propose:顾名思义,这部分是要通过使用建议,即提示词的方式,让LLM提出与输入问题相关的类比问题。类比问题可以从两个角度帮助解决输入问题:1.类比问题的解可以直接转移应用到输入问题上;2.解决类比问题可以推导出针对输入问题的方法。

LLM Solve:使用现有的提示方法来解决输入问题和上一步提出的类比问题,得到输入问题和类比问题的初始解。

LLM Aggregate:这一步要要聚合类比问题的解来强化输入问题。具体说有两种方式: 1.提示LLM基于类比问题的结果直接产生输入问题的新解;2.比较输入问题和类比问题,并基于类比问题的结果推导针对输入问题的新方法,然后执行该方法来纠正输入问题的中间推理。

多层实现:可以堆叠多个思维传播层,以利用 K 跳的类比问题来逐层改进输入问题的解。

即插即用:思维传播兼容现有方法,可以应用到不同的推理任务中,只需要替换第一步的建议和提示词。

为了验证“思维传播”框架的具体性能,研究团队在寻找最短路径、创造性写作和LLM智能体方案三大任务上进行了比较实验。结果显示“思维传播”相比于仅使用提示方法的基线系统,在找到最优解的性能提升12%,在生成连贯段落的性能提升13%,在完成任务的性能提升15%。如果以传统方式来说,完成这三个任务分别需要搜索图结构数据、开放式写作和长时间规划能力,这对当前的LLM等大模型来说仍是不小的挑战。

根据“思维传播”框架在GPT-3.5和GPT-4的测试结果来看,提升复杂推理能力,并减少推理错误的效果堪称显著。不论是寻找最短路径,创造性写作等需要多步推理的任务,亦或是规避从头开始推理时容易堆积的错误。在多个任务上的试验都表明,基于“思维传播”的GPT-4明显优于不使用的GPT-4,以及其他同等计算量的大模型。同时“思维传播”是一个通用框架,未来可继续优化和扩展到更多的复杂推理任务中,以发挥GPT-4等大模型的潜力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ORu53OiWiKId_Qv8KHo1HAHA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券