前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力

结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力

作者头像
机器之心
发布于 2023-08-07 01:20:49
发布于 2023-08-07 01:20:49
4110
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

清华大学和北京智源人工智能研究院的研究者们提出了ChatDB:用数据库作为符号性记忆模块来增强大语言模型。

随着大语言模型(Large Language Models)的爆火,例如 ChatGPT,GPT-4,PaLM,LLaMA 等,如何让大语言模型更好的应对有很长的上下文信息(超出其最大处理长度)的场景并利用相关历史信息做复杂的推理,成为一个热点研究话题。现有的主流做法是给大语言模型增加记忆(memory)模块,在需要的时候从记忆模块中提取相关的历史信息帮助大语言模型。

近期,清华大学和北京智源人工智能研究院的研究者们提出了一种新型的符号性(symbolic)记忆模块。他们从现代计算机架构中汲取灵感,利用符号性记忆模块来增强大型语言模型。这种符号性记忆模块可以利用符号性的操作,精确的控制记忆模块中的信息。这样的符号性记忆框架由一个大语言模型(如 ChatGPT)和一个数据库组成,称为 ChatDB。其中大语言模型负责控制对记忆模块的读写操作。在 ChatDB 中,大语言模型通过生成 SQL 指令来操纵数据库,从而实现对记忆模块中历史信息精确的增删改查,并在需要时为大语言模型提供信息,以帮助其回应用户的输入。这项研究可以让大语言模型胜任需要对历史信息进行长期且精确的记录、处理和分析的场景,例如各种管理和分析系统,以后甚至有望替代管理者,直接让大语言模型根据精确的历史数据做分析和决策。

相关论文为:ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory,代码已开源。

  • 论文地址:https://arxiv.org/abs/2306.03901
  • 项目主页:https://chatdatabase.github.io
  • 项目代码:https://github.com/huchenxucs/ChatDB

推特上一些知名的机器学习自然语言处理研究者也对这项研究进行了宣传:

与相关工作的对比

之前的记忆模块主要分为,Prompt-based memory 和 Matrix-based memory 两类。Prompt-based memory 是将之前的历史文本和相应文本的 vector embedding 保存下来,需要的时候再利用 vector embedding 间的相似性找到相关的历史信息,然后放到 prompt 中,作为大语言模型的输入,相关的工作有 Auto-GPT 和 Generative Agents 等等。Matrix-based memory 是利用额外的 memory tokens 或者 memory matrices 来记录历史信息,相关的工作有 Recurrent Memory Transformer 等等。之前这些记忆模块的设计,要么需要依靠文本的 vector embedding 之间的相似度,要么将历史信息隐式地存储在神经网络的权重中,都涉及神经性(neural)的操作,无法像符号性操作那样精确操纵记忆模块中的历史信息。

它们的主要问题有两点:(1) 没有以结构化的形式存储历史信息;(2) 对存储在记忆模块中的信息的操作不够精确:它们依赖于一些向量相似度的计算,这可能不准确,长期下来或者进行多步推理的时候就会导致错误的积累。

ChatDB 借鉴之前 Neuro-symbolic AI 的一些工作,如 Neural Symbolic Machines,利用支持 SQL 指令的数据库作为符号性记忆模块,来支持对历史信息抽象的(abstract),可拓展的(scalable)和精确的(precise)的操作。这些都是引入符号性记忆模块所带来的优势。符号性记忆模块还可以跟之前的记忆模块同时使用,起到相辅相成的作用。

之前的一些大语言模型和数据库结合的工作(比如DB-GPT和ChatExcel)也涉及用大语言模型生成 SQL 或 Excel 的指令,但 ChatDB 跟它们有本质上的不同。DB-GPT 和 ChatExcel 更多关注利用大语言模型解决自然语言到 SQL 或 Excel 指令的转化,而且更多只是用来解决查询的问题,数据源本身是给定好的。ChatDB 则是将数据库作为符号性记忆模块,不只涉及查询,包括了数据库的增删改查等所有操作,整个数据库是从无到有,不断记录并更新大语言模型的历史信息。并且,ChatDB 中的数据库,即符号性记忆模块,是与大语言模型紧密关联、融为一体的,可以帮助大语言模型进行复杂的多步推理。

从大语言模型使用工具的视角来看,类比之前的工作 Toolformer 和 Langchain,ChatDB 将符号性记忆模块(即数据库)用作工具。其优势在于,对于需要使用准确历史数据进行多步推理的问题,它可以让大语言模型更准确的存储并使用历史数据,而且可以利用数据库存储和再利用推理的中间结果,从而取得更好的效果。

重要意义

该工作对大语言模型(LLMs)领域做出了如下几个贡献:

  • 首先,提出了 ChatDB—— 一个用数据库作为 LLMs 的符号性记忆模块来增强 LLMs 的框架。这使得历史数据可以精确的以结构化的方式进行存储,并且支持使用 SQL 语句进行抽象的、可拓展的、精确的数据操作。
  • 其次,提出了 Chain-of-Memory(CoM,记忆链)方法,通过将用户输入转化为多步中间的记忆操作,实现了对记忆模块中历史信息的复杂操作。这提高了 ChatDB 的性能,使其能够处理复杂的、涉及多个表的数据库交互,并提高了准确性和稳定性。
  • 最后,将符号性记忆模块与 LLMs 结合,可以避免错误的累积,方便地存储中间结果,从而提高了多步推理(multi-hop reasoning)能力,使 ChatDB 在合成数据集上显著优于 ChatGPT。

方法

ChatDB 框架包含三个主要阶段:input processing(输入处理),chain-of-memory(记忆链),和 response summary(总结回复),如图 2 所示。

1 输入处理:对于用户的输入,如果不涉及使用记忆模块,则直接生成回复;如果需要记忆模块,如查询或者更新数据库,语言模型则生成与记忆模块交互的一系列 SQL 语句。

2 记忆链:执行一系列记忆操作来与符号性记忆模块交互。ChatDB 按照先前生成的一系列 SQL 语句依次操作符号性记忆模块,包括插入、更新、选择、删除等操作。外部数据库执行相应的 SQL 语句,更新数据库并返回结果。值得注意的是,在执行每一步记忆操作之前,ChatDB 会根据先前 SQL 语句的结果决定是否更新当前记忆操作。ChatDB 按照此过程执行每一步记忆操作,直到所有记忆操作完成。

3 总结回复: 语言模型综合与数据库交互得到的结果,并对用户的输入做出总结回复。

其中 Chain-of-Memory(CoM,记忆链)是一个新提出的方法,以更有效地操作符号性记忆模块,从而进一步增强 LLMs 的推理能力。记忆链方法将用户输入转化为一系列中间记忆操作步骤,将复杂的问题用多个记忆操作步骤来解决,每个中间步骤涉及一个或多个 SQL 语句,大大降低了解决问题的复杂度。

实验和结果

实验设置:为了验证 ChatDB 中将数据库作为符号性记忆模块来增强大语言模型的有效性,并与其他的模型进行定量比较,作者构造了一个模拟一家水果店的运营管理的合成数据集。该数据命名为 “水果商店数据集”,其中包含了 70 条按时间顺序生成的商店记录,总共约有 3.3k 个 tokens(小于 ChatGPT 最大上下文窗口长度 4096)。这些记录包含水果店的四种常见操作:采购、销售、价格调整和退货。为了评估模型的性能,作者针对销售记录收集了 50 个问题,并为这些问题标注了标准答案。这些问题主要涉及商店数据的分析和管理,它们难度各不相同,既包括需要进行多次推理的困难问题,也包括只需从历史数据中检索信息的简单问题。其中包含了 15 个简单问题和 35 个困难问题。

模型对比:ChatDB 模型中的 LLM 模块使用了 ChatGPT (GPT-3.5 Turbo),温度参数设置为 0,并使用 MySQL 数据库作为其外部符号性记忆模块。对比的基线模型为 ChatGPT (GPT-3.5 Turbo),最大的上下文长度为 4096,温度参数也设置为 0。

指标结果:作者在水果商店问答数据集上进行了实验,相对于 ChatGPT,ChatDB 在这些问题的解答上展现出了显著的优势。

表 1:回答水果商店数据集中问题的正确率

作者表示目前实验还只是在一个简单的合成数据集上进行的,之后会在更复杂更贴近现实需求的场景下进行实验,拓展 ChatDB 的应用价值。

Demo 展示

下面是用大语言模型作为店长经营一家水果商店的例子:

商店进货

顾客购买商品

顾客退货

分析商店历史记录

ChatDB 交互示例:

ChatDB对水果商店数据集中四种常见操作的回应:

ChatDB和ChatGPT回答问题的示例:

这三个例子中,ChatGPT无法正确回答任何问题,但ChatDB成功回答了所有问题。

团队介绍

该论文来自于清华大学 MARS Lab和北京智源研究院,论文的作者为清华大学博士生胡晨旭,杜晨壮,骆思勉,指导老师为付杰,赵行,赵俊博。

清华大学MARS Lab,是清华大学交叉信息院下的人工智能实验室,由赵行教授组建和指导。我们尝试解决一系列探索性的AI问题,并且一直在寻找新的挑战。当前我们特别感兴趣如何让机器像人一样的能够通过多种感知输入进行学习、推理和交互。我们的研究涵盖了许多基础AI问题及其应用:(1)多媒体计算, (2)自动驾驶, (3)机器人。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
「推理」是非常能展现「人类智能」的一项能力,需要结合现有证据和过去的经验,以逻辑和系统的方式思考某件事情,进而做出决策。
新智元
2025/02/14
1650
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
首个模拟人类认知的思维框架OlaGPT:六大模块增强语言模型,推理能力最高提升85%
ChatGPT刚发布的时候,给了我们太多的震撼,模型在对话上的表现实在是太像人类了,以至于产生了语言模型具有「思维能力」的错觉。
新智元
2023/08/05
3080
首个模拟人类认知的思维框架OlaGPT:六大模块增强语言模型,推理能力最高提升85%
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
“ 介绍了人工智能代理的历史渊源与演进,接着探讨了大型语言模型(LLMs)的发展,以及它们在知识获取、指令理解、泛化、规划和推理等方面所展现出的强大潜力。在此基础上,提出了一个以大型语言模型为核心的智能代理概念框架,该框架包括大脑、感知和行动这三个主要组成部分。”
技术人生黄勇
2024/07/19
6340
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。
zenRRan
2024/07/04
5050
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
徐俊东,本文第一作者。本科毕业于伦敦大学学院(UCL),硕士就读于新加坡国立大学(NUS)计算机系。主要研究方向为大语言模型的推理能力。
机器之心
2024/06/17
2960
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
Faithful Logical Reasoning via Symbolic Chain-of-Thought
NewBeeNLP
2024/06/27
4070
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
专为数据库打造:DB-GPT用私有化LLM技术定义数据库下一代交互方式
2023 年 6 月,蚂蚁集团发起了数据库领域的大模型框架 DB-GPT。DB-GPT 通过融合先进的大模型和数据库技术,能够系统化打造企业级智能知识库、自动生成商业智能(BI)报告分析系统(GBI),以及处理日常数据和报表生成等多元化应用场景。DB-GPT 开源项目发起人陈发强表示,“凭借大模型和数据库的有机结合,企业及开发者可以用更精简的代码来打造定制化的应用。我们期望 DB-GPT 能够构建大模型领域的基础设施,让围绕数据库构建大模型应用更简单,更方便”。据悉,DB-GPT 社区自成立以来,已汇聚了京东、美团、阿里巴巴、唯品会、蚂蚁集团等众多互联网企业的开发者共同参与,短短半年时间便迅速成长为一个近万星的开源社区,受到了行业和开发者的认可。期间也多次登上 GitHub Trending、Hacker News 首页。
机器之心
2024/01/11
1.7K0
专为数据库打造:DB-GPT用私有化LLM技术定义数据库下一代交互方式
北大团队提出LIFT:将长上下文知识注入模型参数,提升大模型长文本能力
长文本任务是当下大模型研究的重点之一。在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本,更是能够更好地建模文本段落间信息的长程依赖关系,增强对长文的阅读理解和推理。
机器之心
2025/03/17
800
北大团队提出LIFT:将长上下文知识注入模型参数,提升大模型长文本能力
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。
机器之心
2024/02/26
3140
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
Jurassic-X: 让神经模型学会符号推理
解读 | Antonio 编辑丨陈彩娴 近期,一家以色列NLP研究机构AI21 Labs开发了一个名叫Jurassic-X的算法系统,它基于该实验室提出来的MRKL(它与miracle谐音)系统。Jurassic-X的前身是对标GPT-3的Jurassic-1,然而却克服了它们不擅于推理、更新昂贵、不能有效处理时序数据等缺点。 论文地址:https://arxiv.org/pdf/2204.10019.pdf 1 MRKL系统 MRKL的全称是模块化推理、知识和语言系统(Modular Reasoning
AI科技评论
2022/05/06
4560
Jurassic-X: 让神经模型学会符号推理
Mentor-KD 方法解决LLM推理蒸馏挑战,高效将多步推理能力灌输给小模型!
大型语言模型(LLMs)展示出了惊人的新兴能力,在自然语言处理(NLP)领域中展现出了多种推理任务的能力。Brown等人(2020年)、Rae等人、Hoffmann等人和Chowdhery等人的研究都证实了这一点。这种方法中一个特别有趣的方法是连续思维(CoT) Prompt ,通过明确生成复杂任务的中间推理步骤来诱发LLM的多步推理能力。然而,这种推理能力只体现在具有数百亿参数的语言模型(LMs)上,这需要大量的计算资源或昂贵的API调用,限制了它们在资源受限场景中的部署。
AIGC 先锋科技
2025/02/28
1270
Mentor-KD 方法解决LLM推理蒸馏挑战,高效将多步推理能力灌输给小模型!
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客
最近几个月,随着大语言模型的持续火爆,利用其构建 AI 智能体的研究陆续进入人们的视线。AI 智能体这个概念也流行开来,不断突破人们的想象力。
机器之心
2023/08/07
6210
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客
把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图
作为本年度人工智能领域最重要的突破之一,大语言模型相关研究始终是各大相关领域的关注焦点。
新智元
2023/11/08
4050
把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图
清华团队领衔打造,首个AI agent大模型基准测试网站问世AgentBench
AI 智能体,或自主智能代理,不仅是诸如贾维斯等科幻电影中的人类超级助手,也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现,将 AI 智能体的概念推向了科技的最前沿。
LCHub低代码社区
2023/08/14
1.9K0
清华团队领衔打造,首个AI agent大模型基准测试网站问世AgentBench
一文速学ChatBi“与数据库对话“大模型技术原理及框架一览
上期写了NL2SQL,相信看过的朋友应该都对现在大模型在数据交互办公层面的探索和发展都十分感兴趣,在此商业化的产品市场上也有很多,比如阿里云的析言GBI:
fanstuck
2024/09/03
2K6
一文速学ChatBi“与数据库对话“大模型技术原理及框架一览
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。
机器之心
2024/04/19
2K0
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
机器之心专栏 机器之心编辑部 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理」引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下,实现两到三倍的推理加速。 随着 ChatGPT 的出现,大规模语言模型(LLM)研究及其应用得到学术界和工业界的广泛关注。一方面,开源的 LLM 模型不断涌现,比如 OPT、BLOOM、LLaMA 等,这些预训练模型的推出极大地促进了 LLM 的相关研究,使得 LLM 可以被应用于解决
机器之心
2023/05/31
1.3K0
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
所谓AI Agent就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等,都是这样的系统。然而,并不是所有的AI Agent都有很好的表现,其核心还是取决于LLM的水平。尽管LLM已经在许多NLP任务上取得进步,但它们作为代理完成实际任务的能力缺乏系统的评估。清华大学KEG与数据挖掘小组(就是发布ChatGLM模型)发布了一个最新大模型AI Agent能力评测数据集,对当前大模型作为AI Agent的能力做了综合测评,结果十分有趣。
技术人生黄勇
2024/07/19
2860
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。
AI拉呱
2024/02/09
7720
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
清华开了家员工都是GPT的公司,代码、文档一条龙服务
我们都知道以 ChatGPT 为代表的大型语言模型(LLM)具备代码生成能力,毕竟代码本身也是一种语言。
机器之心
2023/08/08
3910
清华开了家员工都是GPT的公司,代码、文档一条龙服务
推荐阅读
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
1650
首个模拟人类认知的思维框架OlaGPT:六大模块增强语言模型,推理能力最高提升85%
3080
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
6340
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
5050
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
2960
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
4070
专为数据库打造:DB-GPT用私有化LLM技术定义数据库下一代交互方式
1.7K0
北大团队提出LIFT:将长上下文知识注入模型参数,提升大模型长文本能力
800
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
3140
Jurassic-X: 让神经模型学会符号推理
4560
Mentor-KD 方法解决LLM推理蒸馏挑战,高效将多步推理能力灌输给小模型!
1270
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客
6210
把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图
4050
清华团队领衔打造,首个AI agent大模型基准测试网站问世AgentBench
1.9K0
一文速学ChatBi“与数据库对话“大模型技术原理及框架一览
2K6
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
2K0
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
1.3K0
ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!
2860
[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
7720
清华开了家员工都是GPT的公司,代码、文档一条龙服务
3910
相关推荐
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档