随着大语言模型(LLM)能力的持续扩展,研究者和开发者逐渐意识到,若要真正迈向通用人工智能(AGI),模型不仅需要强大的语言生成能力,更应具备长期一致性、知识演化能力与用户个性化适配能力。因此,越来越多的系统开始尝试将 LLM 作为智能体(Agent)进行封装,并探索其在多轮对话、长期任务、知识积累等真实场景中的表现。
然而,当前主流大语言模型在实践中仍面临几项核心瓶颈: 1. 上下文无限膨胀:为了控制窗口长度,我们必须丢弃历史信息;但一旦窗口装不下所有关键信息,模型就会“遗忘”重要的事实。 2. 知识个性化与时效性失效:主流 LLM 以参数形式封装知识,无法实时更新,也难以追踪用户偏好与行为风格。即使在某一轮对话中进行纠错或提示,后续生成中仍可能重复相同错误。这使得模型难以具备真正“可学习”的人格与行为连贯性
尽管 Retrieval-Augmented Generation(RAG)作为主流增强手段,在一定程度上缓解了知识时效性问题,它本质上仍是一种无状态、非统一的“按需检索”机制。论文明确指出,RAG 缺乏生命周期管理、版本控制、访问权限及演化机制,不能承担持久性认知系统的核心职责。
MemOS 正是在此背景下提出的系统级方案。论文将“记忆”首次明确视为一种可调度(Schedulable)、可控(Controllable)、可演化(Evolvable) 的系统资源,主张通过类似操作系统(OS)对计算资源统一管理的方式,构建一个面向记忆治理的抽象层。通过引入统一的 Memory API、结构化的 MemCube 记忆单元与三类记忆路径(Plaintext / Activation / Parameter),MemOS 使得 LLM 系统能够跨时间、跨任务、跨用户管理、迁移与融合异构知识资源,为构建具备持续学习与个性化能力的智能体系统提供了基础设施支持。
在构建具备长期任务能力和个性化响应能力的语言智能体过程中,记忆系统已成为不可回避的核心组件。如何设计一个既支持灵活扩展,又具备演化与治理能力的记忆体系,已成为制约大模型持续应用能力的关键。
为此,论文《MemOS: A Memory OS for AI System》提出了一个系统性框架:将“记忆”作为模型内外部的基础资源进行治理与调度,并借鉴传统操作系统的结构进行建模。在介绍 MemOS 之前,论文对 LLM 记忆研究的演化路径进行了系统性划分,归纳为以下四个阶段:
MemOS 的设计核心,在于将传统操作系统中对计算资源的管理思想,映射到 LLM 的记忆管理中。如下表所示,论文明确构建了一组结构对应关系:
传统 OS | MemOS 对应 | 作用简述 |
---|---|---|
文件 / 虚拟内存 | MemCube | 统一封装所有记忆形态 |
Syscall | MemoryCall API | 提供统一 CRUD / 检索 |
调度器 & ACL | MemScheduler + MemGovernance | 决定加载顺序、隔离权限 |
分层存储 | MemVault | Hot-KV → Cold-Blob |
生命周期管理 | MemLifecycle | Generated → Activated → Archived |
审计日志 | Policy & Watermark | 满足合规追踪 |
通过上述结构设计,MemOS 实现了当前记忆系统中最关键的三项能力:
传统 RAG 或缓存机制,往往只能实现“在提示词中外挂一点知识”或“保留一点上下文状态”,缺乏治理能力和生命周期意识。而 MemOS 的提出,则代表着记忆系统不再是模型运行的附属工具,而是模型认知演化的基础设施核心。
这标志着我们正在从“让模型记住一些信息”,迈向“让模型管理自己的记忆”。
如果说 MemOS 的设计理念是“将记忆作为操作系统级别的资源”,那么它真正的系统亮点,在于如何将复杂、异构、多阶段的记忆,封装成可组合、可治理、可演化的最小资源单元,并在模型执行过程中动态调度与回收。
**1. 三种原生记忆:构建统一治理空间的原始素材
MemOS 首先明确划定了三类基础记忆类型,它们各自来源不同,但都被抽象进同一套记忆调度框架:
这种划分,实质上覆盖了记忆的三个操作轴心:可编辑性(Editability)、可注入性(Injectability)、可压缩性(Compactness),为后续跨类型演化打下结构基础。
2. 动态演化:记忆类型的系统级转化路径
MemOS 并不将这三类记忆视为静态结构,而是建构了一个跨类型可演化的记忆闭环:
Plaintext ⇄ Activation ⇄ Parameter
系统根据调用频率、时间衰减、上下文耦合度等行为指标,对记忆进行热度建模,并据此自动触发跨类型迁移。论文称之为“跨模态演化机制(Cross-Modality Memory Transformation)”。
例如:
这种闭环机制不仅提升了推理效率,更实现了知识的“热更新”与“冷淘汰”的统一治理。
3. MemCube:把一切记忆封装进“inode”
为实现跨类型统一调度,MemOS 提出了MemCube这一核心抽象。它类似于操作系统中文件的 inode,每个记忆单元不仅包含有效内容(Payload),还附带详细的结构化元数据(Metadata):
这使得系统可以仅通过读取元数据,即可进行调度决策、版本回退、权限控制、冷存迁移等操作,形成“治理即调度”的资源框架。
📌 论文原文定义 MemCube 为:“a universal encapsulation unit for memory resources… with standardized interfaces, behavioral properties, and governance strategies.”
4. MemScheduler:窗口内的记忆调度与替换策略
每次模型调用时,MemScheduler 会根据当前任务上下文、角色身份、token 限额,对候选 MemCube 进行优先级排序并选择注入路径。
排序逻辑主要由以下维度构成:
淘汰策略结合了 LRU(时间)与 LFU(频率)模型,不同类型可设定不同权重,例如 Activation 优先淘汰最近未用,而 Plaintext 更关注整体活跃度与内容时效性。
5. 治理逻辑:权限与合规不再靠业务实现
MemCube 的元数据中原生嵌入权限控制(ACL)、生命周期策略(TTL)、审计标记(Watermark)与版本链。这使得所有记忆资源都可在系统层面进行可控操作,而非依赖业务侧脚本。
举例而言:
6. 举个🌰
想象一下:法务同事刚刚整理完一份《数字人广告新规汇总》,通过 MemOS 提供的 Memory API 把它写进系统,设置 ACL 只允许“legal_team”读取,TTL 一年。三天后,市场部的智能体在撰写脚本时多次引用了这份新规,热度阈值被触发,它自动升格为 Activation,推理不再重新检索全文。再过一个月,这条法规依旧频繁出现,系统后台夜间作业把它蒸馏成 LoRA Δ——此后再也不占窗口 token,却始终在模型里“原生”生效。如果哪天法规废止,只要法务在后台把这一版 LoRA 标记为 deprecated,MemScheduler 会在下次装箱时自动回避;而旧版本的文本条目依旧可查,可审计,可回滚。
通过结构化建模三类记忆、封装成统一调度单元(MemCube),并基于使用行为驱动跨类型迁移,MemOS 实现了记忆系统从“外挂插件”向“操作系统资源”的根本跃迁。
这不仅是内存组织的技术进步,更是大模型迈向自我演化与系统治理的关键一步。
论文《MemOS: A Memory OS for AI Systems》提出将“记忆”作为一级系统资源管理,类比于传统操作系统中的文件、进程与内存。这一理念的落地,依托于其清晰分层的架构设计。整个系统自上而下划分为三个功能层级:
Interface Layer(接口层) → Operation Layer(操作层) → Infrastructure Layer(基础设施层)
这一分层不仅提升了系统的可解释性和模块化,还使得记忆从输入解析到推理注入的全过程可被审计、可被回滚、可被调度。
MemOS 中的接口层承接来自上层 Agent 或用户的自然语言请求。核心模块 MemReader 的职责,是将这些自然语言或半结构化输入解析为统一的内部指令格式 —— MemoryCall,该结构承担了类比系统调用 syscall 的角色,描述了本次请求的操作类型(读/写/更新/删除)、作用目标、调用方身份以及相关上下文信息。
📌 MemoryCall 是全系统调度的起点,其标准化封装为后续操作层与基础设施层的治理提供统一入口。
接口层同时还负责初步的合规验证,例如:
这一层的本质,是将模糊输入转换为系统可执行、可调度的 显式操作意图。
该层负责所有关于“哪些记忆应被激活”“哪些应被淘汰”“哪些应迁移至冷存”的判断与执行逻辑,是 MemOS 的中枢控制单元。
MemOperator:构建记忆的多维索引图谱
MemOperator 为活跃的 MemCube 构建多模态索引: • 向量索引:用于模糊语义召回; • 关键词倒排索引:支持精确定位; • 图谱结构索引:维护实体之间的引用、依赖与上下游调用关系。
它像是系统的“知识图谱生成器”,让每一条记忆都能被快速访问、联动和理解。
MemScheduler:在有限窗口中做最优注入决策
推理窗口的 token 空间始终有限——不论是 8K、32K,还是未来的 128K,都只能容纳有限数量的记忆注入。
MemScheduler 会根据多维权重对每一个 MemCube 打分,包括: • 热度(访问频率、上下文相关性); • 形态优先级(参数 > 激活 > 明文); • 权限隔离策略(如用户私有数据优先注入到专属上下文); • 存储滞留时间(防止“冷知识”长期霸占位置);
该机制类比于 OS 中的分页调度或 cache eviction,论文未使用 bin-packing 的术语,但其 token-aware injection 策略本质类似于容量受限的资源调度问题。
MemLifecycle:为记忆定义清晰的生命周期
记忆并非一次性资源,而是一个“状态流转体”。
MemLifecycle 记录每个 MemCube 的完整生命周期:
ounter(line
Generated → Activated → Merged / Replaced → Archived → Purged
这保证了记忆调度的 可审计性与可回滚性,也支持数据治理场景如 TTL 到期自动清理、敏感数据销毁、历史版本追踪等。
底层设施为整个 MemOS 提供资源支持与治理能力,主要由以下组件构成:
根据热度和访问策略,MemVault 管理不同等级的存储后端:
所有 MemCube 的迁移只需“整体搬运”,索引与元数据不变,极大降低了迁移开销。
治理模块负责:
无论是监管合规还是企业安全,都有了“系统级防线”。
这组组件负责记忆的跨设备、跨智能体同步与卸载。支持:
虽论文未明示“记忆商品化”能力,但此类通用搬运机制为未来构建记忆即服务(Memory-as-a-Service)平台奠定了基础。
我们来看论文中的这张图,简单看下这三层架构是如何运作的。
MemOS 三层结构清晰、模块分工明确。其最大创新,不在于新模型结构,而在于:将记忆视作可调度、可治理的“系统一级资源”,并在架构设计中贯彻执行路径、权限控制与数据生命周期管理。
它将以往散落在各工具和模型中的技巧(如 RAG、KV cache、LoRA patch)统一抽象为 MemCube,并纳入系统内核,实现真正意义上的“记忆操作系统”。
MemOS 的系统设计理念虽新颖,但最终仍需落脚于实证效果。论文通过多个角度对其三大核心能力(长程推理能力、记忆调度智能性、系统响应效率)进行了详尽实验评估,主要分为四大部分:
MemOS 在 LOCOMO 推理评估基准中接受端到端测试,任务覆盖:
评估指标使用 LLM-Judge(基于 GPT-4 的人工一致性打分),并辅以 BLEU、ROUGE-L、F1 分数与嵌入相似度衡量输出的语义保真度与风格一致性。
📈 结果分析:
✅ 说明:MemOS 的长时记忆调度机制,能有效支持语境整合、事件链追踪与事实稳定性。
论文设计了两个关键变量消融实验:
📊 观察结论:
为了进一步验证 MemOS 的系统稳定性和扩展能力,作者将其与多种系统在相同条件下进行了横向对比:
系统对比 MemOS-0630 / mem0 / langmem / OpenAI Memory / 纯 RAG(不同配置) 评估指标 LLM-Judge 得分、检索延迟(P50 / P95)、总时延
结论一目了然: • MemOS 在 LLMJudge 得分上与“全上下文推理”持平甚至超出; • 同时,在延迟指标上(尤其是 P95),比其它方案低一个量级; • 即使同时管理超过 1500 个记忆单元,MemOS 的响应速度依然接近 mem0 这类轻量方案。
✅ 这说明:MemOS 的“按需激活 + 混合语义结构”策略,实现了精准召回与系统响应之间的平衡,无需一股脑加载上下文,也不牺牲推理质量。
为了量化 KV 注入机制带来的性能提升,作者又构建了一个对照实验,评估 KV 激活机制对 TTFT(Time to First Token) 的加速能力。
测试模型涵盖: • Qwen3-8B • Qwen3-32B • Qwen2.5-72B
🚀 开启 KV 加速后,TTFT 大幅下降,且模型输出内容与关闭 KV 时保持完全一致,说明语义行为无偏差。
特别是在大模型 + 长上下文的场景下,性能提升尤为明显,对于 Qwen2.5-72B,在长上下文 + 短查询任务中,TTFT 降幅高达 91.4%!
结论明确:KV 激活机制是高性能、低延迟智能体运行的关键支点。
总的来说,MemOS 并非仅在模型外部“外挂记忆模块”,而是以操作系统式架构将记忆纳入 LLM 的核心调度路径,兼顾:
它展示了一个系统如何在不扩大 token 长度的前提下,实现真实智能体所需的“长期记忆 + 个性化响应”能力。
在论文的最后一节,作者提出了两个关键性的系统设计理念,分别从“知识商品化”与“自动治理能力”两个维度,拓展了记忆管理的边界。这不仅是对“记忆即系统资源”理念的工程化落地,也为构建长期智能体生态提供了可执行的路线。
知识,也能像插件一样分发和变现。
在 MemOS 中,每一个具备结构化元信息的 MemCube 都可以被打包成可复用的知识模块,具备如下特征:
这一设计使得记忆的使用方式类比软件插件(Plug-in):
📌 核心转变: LLM 生态中首次将“知识本身”模块化,具备调用接口、托管策略与经济模型。
记忆全生命周期自治:从开发者负担转向系统责任
传统 LLM 应用中,知识注入与缓存管理常依赖外部脚本控制或手动清洗操作,难以标准化。MemOS 提供了完整的生命周期治理体系,使得记忆管理流程完全系统内生:
ounter(line
MemoryCall(op="WRITE", payload="2025年广告法规更新", tags=["legal"])
以上调用自动触发如下子流程:
步骤 | 模块 | 描述 |
---|---|---|
热度评估 | MemScheduler | 动态计算访问频率与引用强度 |
状态转化 | MemLifecycle | 触发 KV 激活或参数蒸馏,更新生命周期状态 |
存储迁移 | MemVault | 将记忆搬运至合适热层存储 |
审计留痕 | MemGovernance | TTL 管理、水印更新、审计链追加 |
系统将所有记忆视为资源图谱中的节点,自动进行调度、压缩、淘汰与快照记录,无需开发者介入。
📌 治理视角提升: 记忆的“创建—激活—持久化—清除”不再依赖业务逻辑,而成为操作系统级协议的一部分。
作者还提出了四种现实可用的落地场景,进一步验证了其可操作性与通用性:
大语言模型(LLM)正在成为新一代智能系统的“通用引擎”,而构建真正可持续、可演化的智能体,必然依赖一个系统级的记忆机制。MemOS 的提出,正是迈向这一目标的关键一步。
论文首次将“记忆”作为一种可编排、可调度、可治理的系统资源进行设计,抽象出统一的 MemoryCall API、封装形式统一的 MemCube 记忆单元,并通过三层架构体系(接口层 / 操作层 / 基础设施层)支撑记忆的全生命周期管理。
这一设计不仅赋予了 LLM 系统长期一致性、知识演化与个性化适配能力,还提供了结构完备、可工程化落地的治理机制,使得记忆不再依赖外部脚本或规则控制,而成为系统内生能力。
MemOS 展示了一种范式转变的可能性:未来的 AI 系统将不再仅依赖一次性推理,而是围绕长期记忆进行**持续演化(evolution)、主动调度(scheduling)、合规审计(governance)**的完整闭环。
如果说推理能力让 LLM 能“看清当下”,那么记忆治理则让它们“理解过去、适应未来”。
你好,我是叶子,9年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!