Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了

姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了

作者头像
公众号-arXiv每日学术速递
发布于 2023-09-29 06:54:03
发布于 2023-09-29 06:54:03
5200
举报
西风 发自 凹非寺 量子位 | 公众号 QbitAI

图灵奖得主姚期智领衔的首篇大语言模型论文来了!

一出手,瞄准的就是“让大模型像人一样思考”这个方向——

不仅要让大模型一步步推理,还要让它们学会“步步为营”,记住推理中间的所有正确过程。

具体来说,这篇新论文提出了一种叫做累积推理(Cumulative Reasoning)的新方法,显著提高了大模型搞复杂推理的能力。

要知道,大模型基于思维链等,可以进行问题推理,但面对“要拐好几个弯”的问题,还是容易出错。

累积推理正是在此基础上,加入了一个“验证者”,及时判断对错。由此模型的思考框架也从链状和树状,变成了更复杂的“有向无环图”。

这样一来,大模型不仅解题思路更清晰,还生出了一手“玩牌”的技巧:

在代数和几何数论等数学难题上,大模型的相对准确率提升了42%;玩24点,成功率更是飙升到98%

据清华大学交叉信息研究院介绍,共同一作张伊凡解释了这篇论文的出发点:

卡尼曼认为人类的认知处理过程包括两个系统:“系统1”是快速、本能和情感化的,“系统2”是缓慢、深思熟虑、合逻辑的。 目前,大语言模型的表现与“系统1”更为接近,这也或许是它不擅长应对复杂任务的原因。

从这个角度出发设计的累积推理,效果比思维链(CoT)和思维树(ToT)更好。

那么,这种新方法究竟长啥样?我们一起展开看看。

突破思维链&树“瓶颈”

累积推理的核心,在于改进了大模型思维过程的“形状”。

具体来说,这个方法用到了3个大语言模型

  • 提议者 (Proposer):不断提出新命题,即基于当前思维上下文,建议下一步是什么。
  • 验证者 (Verifier):核查提议者的命题准确性,如果正确就将它添加到思维上下文中。
  • 报告者 (Reporter):判断是否已经能得到最终解决方案,来确定是否结束推理过程。

推理过程中,“提议者”先给出提案,“验证者”负责评估,“报告者”决定是否要敲定答案、终止思考过程。

CR推理示例

有点像是团队项目里的三类角色:小组成员先头脑风暴出各种idea,指导老师“把关”看哪个idea可行,组长决策什么时候完成项目。

所以,这种方法究竟是怎么改变大模型思维“形状”的?

要想理解这一点,还得先从大模型思维加强方法“鼻祖”思维链(Chain of Thought,CoT)说起。

这个方法在2022年1月由OpenAI科学家Jason Wei等人提出,核心在于给数据集中的输入加一段“逐步推理”文字,激发出大模型的思考能力。

选自GSM8K数据集

基于思维链原理,谷歌也快速跟进了一个“思维链PLUS版”,即CoT-SC,主要是进行多次思维链过程,并对答案进行多数投票(majority vote)选出最佳答案,进一步提升推理准确率。

但无论思维链还是CoT-SC,都忽略了一个问题:题目不止有一种解法,人类做题更是如此。

因此,随后又出现了一种名叫思维树(Tree of Thought,ToT)的新研究。

这是一种树状检索方案,允许模型尝试多种不同的推理思路,并自我评估、选择下一步行动方案,必要时也可以回溯选择。

从方法中可以看出,思维树比思维链更进一步,让大模型思维“更活跃”了。

这也是为什么玩24点时,思维链加成的GPT-4成功率只有4%,但思维树成功率却飙升到74%

BUT无论思维链、CoT-SC还是思维树,都有一个共同的局限性:

它们都没有设置思维过程中间结果的储存位置。

毕竟不是所有的思维过程都能做成链或者树,人类想东西的方式往往还要更复杂。

这次的累积推理新框架,在设计上就突破了这一点——

大模型的整体思维过程不一定是链或树,还可以是一个有向无环图(DAG)!(嗯,有神经突触内味了)

图中的边都有方向,并且不存在任何循环路径;每个有向边是一个推导步骤

这也就意味着,它可以将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。(相比之下,思维树并不会存储来自其它分支的信息)

但累积推理也能和思维链无缝切换——只要将“验证者”去掉,就是一个标准的思维链模式。

基于这种方法设计的累积推理,在各种方法上都取得了不错的效果。

做数学和搞逻辑推理都在行

研究人员选择了FOLIO wiki和AutoTNLI、24点游戏、MATH数据集,来对累积推理进行“测试”。

提议者、验证者、报告者在每次实验中使用相同的大语言模型,用不同的prompt来设定角色。

这里用作实验的有GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B这些基础模型。

值得一提的是,理想情况下应该使用相关推导任务数据专门预训练模型、“验证者”也应加入正规的数学证明器、命题逻辑求解器模块等。

1、逻辑推理能力

FOLIO是一阶逻辑推理数据集,问题的标签可以是“true”、“False”、“Unknown”;AutoTNLI是高阶逻辑推理数据集。

在FOLIO wiki数据集上,与直接输出结果(Direct)、思维链(CoT)、进阶版思维链(CoT-SC)方法相比,累积推理(CR)表现总是最优。

在删除数据集中有问题的实例(比如答案不正确)后,使用CR方法的GPT-4推理准确率达到了98.04%,并且有最小1.96%的错误率。

再来看AutoTNLI数据集上的表现:

与CoT方法相比,CR显著提高了LLaMA-13B、LLaMA-65B的性能。

在LLaMA-65B模型上,CR相较于CoT的改进达到了9.3%。

2、玩24点游戏能力

ToT最初论文中用到的是24点游戏,所以这里研究人员就用此数据集来做CR和ToT的比较。

ToT使用固定宽度和深度的搜索树,CR允许大模型自主确定搜索深度。

研究人员在实验中发现,在24点的上下文中,CR算法和ToT算法非常相似。不同点在于,CR中算法每次迭代最多产生一个新的状态,而ToT在每次迭代中会产生许多候选状态,并过滤、保留一部分状态。

通俗来讲,ToT没有上面提到的CR有的“验证者”,不能判断状态(a、b、c)正误,因此ToT比CR会探索更多无效状态。

最终CR方法的正确率甚至能达到98%(ToT为74%),且平均访问状态数量要比ToT少很多。

也就是说CR不仅有更高的搜索正确率,也有更高的搜索效率。

3、数学能力

MATH数据集包含了大量数学推理题目,包含代数、几何、数论等,题目难度分为五级。

用CR方法,模型可以将题目分步骤拆解成能较好完成的子问题,自问自答,直到产生答案。

实验结果表明,CR在两种不同的实验设定下,正确率均超出当前已有方法,总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,拿下了GPT-4模型下的新SOTA。

清华叉院姚期智、袁洋领衔研究

这篇论文来自清华交叉信息院姚期智和袁洋领衔的AI for Math课题组。

论文共同第一作者为交叉信息院2021级博士生张伊凡、杨景钦;

指导老师及共同通讯作者为袁洋助理教授、姚期智院士。

张伊凡

张伊凡2021年本科毕业于于北京大学元培学院,现师从袁洋助理教授,主要研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。

杨景钦

杨景钦2021年于清华大学交叉信息研究院获学士学位,现师从袁洋助理教授攻读博士学位。主要研究方向有大语言模型、自监督学习、智能医疗等。

袁洋

袁洋是清华大学交叉信息学院助理教授。2012年毕业于北京大学计算机系;2018年获美国康奈尔大学计算机博士学位;2018-2019年前往麻省理工学院大数据科学学院做博士后。

他的主要研究方向是智能医疗、AI基础理论、应用范畴论等。

姚期智

姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。

姚期智教授2004年从普林斯顿辞去终身教职回到清华任教;2005年为清华本科生创立了计算机科学实验班“姚班”;2011年创建“清华量子信息中心”与“交叉信息研究院”;2019年再为清华本科生创立了人工智能学堂班,简称“智班”。

如今,他领导的清华大学交叉信息研究院早已声名远播,姚班、智班都隶属交叉信息院。

姚期智教授研究方向有算法、密码学、量子计算等,是这方面的国际先驱和权威。最近,他现身2023世界人工智能大会,所领导的上海期智研究院目前正在研究“具身通用人工智能”。

论文链接:https://arxiv.org/abs/2308.04371

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-29 12:15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 arXiv每日学术速递 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
姚期智领衔,全球首颗零知识证明SOC流片成功
这颗名为Accseal LEO chip的芯片基于12nm工艺制程打造,在隐私计算的加速方面,性能较之传统CPU快千倍以上,成本则可降至1/10。
量子位
2024/02/22
3250
姚期智领衔,全球首颗零知识证明SOC流片成功
GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC
最近对大型语言模型(例如ChatGPT和GPT-4)进行的评估工作主要侧重于在基本自然语言任务上的能力,以及模型生成用于解决单句用户指令的API的工具使用能力,却忽略了在理解复杂多模态环境中使用API完成用户指令的难题。
新智元
2023/11/08
3200
GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC
图灵奖得主姚期智领衔新型研发机构落户南京栖霞
图灵人工智能研究院落户栖霞 世界计算机领域顶尖科学家、计算机科学最高奖图灵奖唯一华裔得主姚期智率队组建的新型研发机构——南京图灵人工智能研究院落户栖霞区。 现场,9大“人工智能+”项目签约孵化,包括:青椒信息科技、新一代数据网项目、AI+新药研发项目、透彻影像研发中心项目、AI+细胞治疗项目、智能社会治理咨询中心项目、智能司法大数据项目、摩西人机对话大脑智慧政务项目、everchain项目。 南京图灵人工智能研究院通过政产学研合作提供公共技术服务,推动科技成果转化和产业化发展。根据研究
WZEARW
2018/06/05
6980
学界 | 姚期智到底有多牛?细数中国唯一图灵奖得主在三大领域的学术造诣
提起姚期智,大部分人的第一反应会想到图灵奖。如今作为国内第一名也是唯一一名图灵奖获得者,姚期智自 2011 年起担任清华交叉信息研究院院长,为培养国内优秀人才做出了巨大贡献。今天,AI科技评论就和大家
AI科技评论
2018/03/12
2K0
学界 | 姚期智到底有多牛?细数中国唯一图灵奖得主在三大领域的学术造诣
72岁的姚期智院士首次创业,率清华团队建立南京图灵人工智能研究院
就在昨天(4月20日),南京市专门举办了一场高规格签约仪式,南京市委书记张敬华亲自出席,既是为姚期智院士的新型研发机构揭牌,也是希望对外传达求贤若渴之心。
量子位
2018/07/24
5070
72岁的姚期智院士首次创业,率清华团队建立南京图灵人工智能研究院
GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用
如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。
新智元
2023/10/20
2570
GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
机器之心
2025/02/10
1380
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力
随着大语言模型(Large Language Models)的爆火,例如 ChatGPT,GPT-4,PaLM,LLaMA 等,如何让大语言模型更好的应对有很长的上下文信息(超出其最大处理长度)的场景并利用相关历史信息做复杂的推理,成为一个热点研究话题。现有的主流做法是给大语言模型增加记忆(memory)模块,在需要的时候从记忆模块中提取相关的历史信息帮助大语言模型。
机器之心
2023/08/07
4180
结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力
GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型
大型语言模型最为人诟病的缺点,除了一本正经地胡言乱语以外,估计就是「不会算数」了。
新智元
2023/04/04
6090
GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型
OpenAI神秘Q*毁灭人类?爆火「Q*假说」竟牵出世界模型,全网AI大佬长文热议
疑似接近AGI,因为巨大计算资源能解决某些数学问题,让Sam Altman出局董事会的导火索,有毁灭人类风险……这些元素单拎出哪一个来,都足够炸裂。
新智元
2023/11/27
3660
OpenAI神秘Q*毁灭人类?爆火「Q*假说」竟牵出世界模型,全网AI大佬长文热议
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。
机器之心
2024/02/26
3260
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
又一届「AI春晚」拉开序幕!智源大模型集体爆发了
20+ 个不同主题的论坛、百场精彩报告让现场和线上的观众目不暇接,切实感受到了当下 AI 尤其是大模型对内容创作、生产办公、机器人、生物医疗等千行百业的深度赋能。
机器之心
2024/06/17
1680
又一届「AI春晚」拉开序幕!智源大模型集体爆发了
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
推理语言模型(Reasoning Language Models,RLM)是AI领域的革命性突破,它们的出现可以与ChatGPT的出现相提并论。
新智元
2025/02/04
4610
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
大模型推理新范式!清华&蚂蚁:用编程思维来思考,用自然语言来表达
该论文的第一作者是清华大学计算机系研究生温佳鑫,蚂蚁技术研究院副研究员关健为共同第一作者。
机器之心
2025/03/06
1120
大模型推理新范式!清华&蚂蚁:用编程思维来思考,用自然语言来表达
一周AI看点 | 姚期智认为中国AI发展存在系统和理论两大缺陷;人工智能迎政策红利期三类推进措施将陆续出台
本期一周AI看点包括行业新闻、技术应用、技术前沿、大咖观点以及投融资等方面。 大咖观点 姚期智:中国AI存在缺陷,一是系统,二是理论 姚期智认为中国的AI发展存在着缺陷:“具体到中国当前的人工智能研究和发展,我觉得可能存在两个方面的缺陷:一是系统,二是理论。” 在系统方面,姚期智认为,中国现在还没有出现一个大的AI系统,可以实现不同领域的广泛应用,“但这种系统在微软和IBM就相对成熟。”姚期智提醒道:“未来国家与国家在人工智能方面的竞争中,这样系统的缺失可能会带来劣势。而且我们中国对于计算机系统工程一向
AI科技大本营
2018/04/28
1.2K0
一周AI看点 | 姚期智认为中国AI发展存在系统和理论两大缺陷;人工智能迎政策红利期三类推进措施将陆续出台
姚期智提出的"百万富翁"难题被破解? 多方安全计算MPC到底是个什么鬼?
在越来越多对数据隐私的担忧声中,政府开始行动制定数据使用合规法案。而另一方面,对数据的保护,却产生了一个矛盾:大量的数据因为需要依法保护而无法被联合在一起计算。
区块链大本营
2019/04/28
3.1K0
姚期智提出的"百万富翁"难题被破解? 多方安全计算MPC到底是个什么鬼?
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.2K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
理论计算机顶会FOCS 2021奖项揭晓!姚期智获时间检验奖,MIT毛啸获最佳学生论文奖
FOCS由IEEE计算机学会的计算机数学基础专委会提供资助,是计算机科学领域最顶级的国际会议,在整个理论计算机科学领域享有崇高的声望,并被公认属于难度最高的会议之一,与ACM计算理论年会(STOC)并称理论计算机科学两大顶会。
AI科技评论
2021/12/24
9960
理论计算机顶会FOCS 2021奖项揭晓!姚期智获时间检验奖,MIT毛啸获最佳学生论文奖
数据,真的是 AI 大模型市场化的「壁垒」吗?
比折扣、免费部署......自带场景、数据和用户的企业方在大模型落地中占据主导权。
AI科技评论
2023/08/08
2680
数据,真的是 AI 大模型市场化的「壁垒」吗?
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
3560
推理大模型的后训练增强技术-强化学习篇
推荐阅读
姚期智领衔,全球首颗零知识证明SOC流片成功
3250
GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC
3200
图灵奖得主姚期智领衔新型研发机构落户南京栖霞
6980
学界 | 姚期智到底有多牛?细数中国唯一图灵奖得主在三大领域的学术造诣
2K0
72岁的姚期智院士首次创业,率清华团队建立南京图灵人工智能研究院
5070
GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用
2570
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
1380
结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力
4180
GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型
6090
OpenAI神秘Q*毁灭人类?爆火「Q*假说」竟牵出世界模型,全网AI大佬长文热议
3660
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
3260
又一届「AI春晚」拉开序幕!智源大模型集体爆发了
1680
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
4610
大模型推理新范式!清华&蚂蚁:用编程思维来思考,用自然语言来表达
1120
一周AI看点 | 姚期智认为中国AI发展存在系统和理论两大缺陷;人工智能迎政策红利期三类推进措施将陆续出台
1.2K0
姚期智提出的"百万富翁"难题被破解? 多方安全计算MPC到底是个什么鬼?
3.1K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3.2K0
理论计算机顶会FOCS 2021奖项揭晓!姚期智获时间检验奖,MIT毛啸获最佳学生论文奖
9960
数据,真的是 AI 大模型市场化的「壁垒」吗?
2680
推理大模型的后训练增强技术-强化学习篇
3560
相关推荐
姚期智领衔,全球首颗零知识证明SOC流片成功
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档