首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI 很聪明,但就怕脑子失忆,记忆对AI很重要

AI 很聪明,但就怕脑子失忆,记忆对AI很重要

作者头像
AustinDatabases
发布2025-08-24 10:00:31
发布2025-08-24 10:00:31
3230
举报
文章被收录于专栏:AustinDatabasesAustinDatabases

AI系统从讨论已经到了大家都在使用的阶段,而众所周知AI系统的关键问题,或者需要处理好的一个关键问题就是,连续提问的问题,因为AI聪明的,没有记忆。

下面就翻译一篇国外关于AI系统没有记忆的文章。

AI总要的记忆
AI总要的记忆

AI总要的记忆

AI 系统虽然能够生成令人印象深刻的文本、代码和音乐,但它们基本上是“失忆”的。它们一次只处理一个提示,没有长期记忆或个性化学习。例如,如果你问 ChatGPT 上周推荐的食谱,它很可能会给你一个不相关的答案,甚至编造一个答案。大型语言模型(LLM)是无状态的,这意味着它们将每个查询都视为全新的。

然而,这种情况正在改变。所有领先的 LLM 供应商都在探索如何赋予 AI 记忆,这可能会彻底改变 AI 的影响。正如 AI 开发者 Richmond Alake 所说,“AI 中的记忆并非全新概念...但它在现代 AI 智能体中的应用是...革命性的。” 为什么?因为“真正的个性化和长期效用取决于智能体记忆、学习和适应的能力。” 换句话说,真正的智能不仅仅是处理数十亿个词语,更在于在正确的时间回忆起相关信息。

因此,记忆正在成为 AI 缺失的那一块拼图,它可能将今天的“健忘”机器人转变为具有适应能力的伙伴。现在最大的问题是如何为我们的 AI 系统提供这种急需的记忆。解决方案并不那么光鲜亮丽,那就是:数据库。

数据库为 AI 提供了外部记忆 是的,就是数据库。虽然数据库并未出现在当今 AI 行业的热门词汇榜单上,但它们在这些快速变化的趋势背后发挥着重要作用。在传统软件中,数据库一直是真相的来源,是状态和数据的长期存储。现在,在生成式 AI 时代,数据库正在扮演新的角色,成为 AI 技术栈的记忆层。

事实上,向量数据库已经成为生成式 AI 技术栈中不可或缺的一部分,因为它们解决了 LLM 的关键局限性,如幻觉和缺乏持久记忆。通过将知识存储在 AI 可以查询的数据库中,我们有效地为这些模型提供了一个外部大脑,以补充其内置智能。

Alake 概述了思考和使用 AI 记忆的几种关键方式:

角色记忆:存储智能体的身份、性格特征、角色、专业知识和沟通风格。

工具箱记忆:包含工具定义、元数据、参数模式和智能体能力的嵌入。

对话记忆:存储用户与智能体之间的交流历史。

工作流记忆:跟踪多步骤流程的状态。

情景记忆:存储智能体遇到的特定事件或经历。

长期记忆(知识库):为智能体提供持久的背景知识存储。

智能体注册表:一个关于智能体交互实体(如人类、其他智能体或 API)的事实和信息库。

实体记忆:存储智能体在操作过程中与各种实体相关的事实和数据。

工作记忆:作为临时的、活动的处理空间,通过大型语言模型的上下文窗口来实现。

要将这些记忆变为现实,目前最常见的方法是检索增强生成(RAG)。在 RAG 中,AI 从知识库(数据库)中提取相关事实,以支撑其答案。AI 不仅仅依赖于模型训练中包含的内容,还会搜索一个外部存储(通常是向量数据库)来检索最新或详细的信息。这使得系统能够“记住”它从未明确训练过的事情,例如公司的内部文件或特定用户的历史记录,然后将其纳入响应中。

通过用从数据库中获取的数据来增强提示,AI 系统可以随着时间的推移进行连贯的对话,并准确回答特定领域的问题,从而获得超越其固定模型参数的状态和长期记忆。这是一种确保 AI 不会每次都从零开始的方式。它能回忆起之前说过的话,并利用其训练截止日期之外的事实。简而言之,数据库(特别是向量存储)正被证明对 AI 的长期记忆至关重要。

向量、图和混合记忆 当然,并非所有的记忆都是平等的,也并非所有的数据库工作方式都相同。我们正在尝试不同的数据库技术作为 AI 记忆,每种技术都有其优缺点。如前所述,向量数据库是 AI 记忆的典型代表。它们擅长语义相似性搜索,即查找含义相关而不是仅仅通过关键词相关的信息。这使得它们非常适合处理非结构化数据,如文本块:提出一个问题,然后找到最能回答它的段落。

与往常一样,AI 领域曾短暂流行过独立的向量数据库(Weaviate、Pinecone 等)。但这并未持续太久,因为每个主要的数据库供应商(包括 MongoDB 和 Oracle)都为其核心数据库添加了向量搜索功能。这使得开发者可以将向量嵌入与操作数据一起存储。换句话说,应用程序数据库和 AI 记忆存储之间的界限正在模糊。

然而,仅仅是向量搜索并不能解决所有记忆问题。一个局限性是,纯粹的语义相似性可能会忽略上下文,例如时间或关系。一个向量查询可能会找到一个技术上相似但上下文上过时或不相关的几个月前的事实。这就是图数据库发挥作用的地方。知识图谱技术将信息存储为节点和边。可以将其想象成一个由关系连接的事实网络(谁是哪家公司的 CEO,一份文档何时创建等)。这种结构化记忆可以帮助 AI 区分某事发生的时间或事实如何连接。例如,如果你问“你昨天向我推荐了哪家餐厅?”一个基于图的记忆可以根据推荐的具体日期来筛选结果,而不仅仅是语义相似性。因此,图可以提供向量搜索无法提供的时间和上下文感知能力。 它们还提供了可追溯性。你可以通过关系来追踪 AI 提取某个事实的原因,这对于调试和建立信任很有用。像 Zep 这样的初创公司正在探索混合方法,将向量与类似图谱的链接结合起来,以兼顾两者的优点。缺点是,基于图谱的记忆需要定义模式并维护结构化数据,这可能很复杂,而且无法捕捉非结构化文本的所有细微之处。对于许多应用来说,一个简单的向量存储(或支持向量的文档数据库)在易用性和有效性之间取得了很好的平衡。

我们还看到了混合搜索方法:将传统的关键词查询与向量相似性相结合。这种方法可以在进行语义匹配之前,通过元数据(日期范围、用户 ID 或标签)来筛选结果,从而确保 AI“记住”的内容不仅在含义上相关,在上下文中也相关。在实践中,AI 开发者通常会混合使用多种技术:用短期记忆缓冲区来处理最近的交互,用向量数据库来实现长期的语义回忆,有时还会用关系型或文档数据库来存储明确的事实和用户特定数据。这些部分共同构成了一个基本的记忆层级:快速的瞬时记忆(上下文窗口)加上持久的可搜索记忆(数据库)。数据库本质上充当了 AI 的海马体,存储经验和知识,以便在需要时检索,从而为未来的推理提供信息。

终结 AI 的健忘症 尽管人们对神经网络和模型大小津津乐道,但正是朴实无华的数据库——这种记录和交易技术——正在悄然重新定义 AI 的能力。通过接入数据库,我们赋予了 AI 工作记忆和长期记忆。它现在可以保持状态,即时学习新信息,并检索过去的知识来为未来的决策提供信息。这听起来不那么性感,但却是必不可少的。

当然,挑战依然存在。工程师们正在研究如何大规模管理 AI 记忆,决定存储或遗忘哪些信息以防止信息过载,确保相关事实战胜过时数据,并防范“记忆中毒”,即不良数据破坏 AI 的知识。这些都是披着 AI 外衣的经典数据管理问题。解决方案无疑会借鉴数据库科学(事务、索引、缓存)和新技术(更智能的上下文修剪和嵌入模型)。AI 技术栈正在围绕一个核心思想进行整合,那就是模型、数据和记忆必须协同工作。这一切都意味着,下次当一个 AI 助手流畅地回忆起你上次的对话,或者根据你几周前提到的小习惯调整回答时,幕后都有一个数据库在默默地工作,充当着这个机器合成大脑的记忆库。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AustinDatabases 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档