
作者:腾讯云架构师技术同盟上海同盟 陈凯里
记忆张量(上海)科技有限公司[1]
1. 技术背景:大模型长记忆能力的行业痛点与解决诉求
大模型技术落地过程中,“短期记忆有限、上下文断裂、多轮交互记忆丢失” 成为制约其在复杂业务场景应用的核心瓶颈。传统大模型仅能处理有限窗口内的上下文信息,在智能客服、企业知识库问答、复杂任务规划等场景中,无法持续留存用户意图、业务数据关联信息,导致交互效率低、决策准确性差。
记忆张量团队依托在数据智能、知识图谱领域的技术积淀(核心团队曾主导阿里千亿级数字商业知识图谱构建),研发出 MemOS 大模型长记忆系统,聚焦解决大模型记忆能力短板,同时适配轻量化部署,为架构师提供可复用的长记忆技术落地方案。
MemOS 选择从大模型原生能力出发,通过算法层的记忆分层、关联检索技术,直接解决大模型上下文断裂的核心痛点,同时适配云原生部署环境,更贴合当前 AI 应用的轻量化落地需求 —— 这种 “算法 + 云生态” 的技术路径,也让 MemOS 在大模型场景的适配性上具备差异化优势。
2. MemOS 核心技术架构设计
2.1. 整体架构框架


MemOS 采用 “记忆分层存储 + 增量检索 + 动态更新” 的三层架构设计,首次将 “记忆” 提升为与算力同等重要的一级计算资源,借鉴传统操作系统设计理念构建完整体系:
底层:记忆存储层:实现结构化 / 非结构化记忆数据的分布式存储,支持亿级记忆片段的高效读写;引入 “MemCube” 标准化记忆单元,封装明文记忆(可编辑显性知识)、激活记忆(推理瞬时认知状态)、参数记忆(固化长期知识)三类核心记忆,实现跨平台迁移与组合演化。
中层:记忆处理层:集成增量记忆编码、多模态记忆融合、记忆衰减优化算法,核心组件 MemScheduler 可根据使用频率、任务需求动态调度记忆资源,支持临时激活记忆高效缓存、高频明文规则自动参数化、冷门记忆自动归档,解决长时序下记忆冗余与丢失问题。
上层:交互适配层:提供自然语言 API 与标准化接口,支持 “存入偏好”“忘记风格”“迁移记忆” 等直观操作。
2.2. 关键技术突破:PD 分离与记忆体系的深度耦合
在商汤科技大装置团队的合作实践中,MemOS 创新性地将 “PD 分离(Prefill 与 Decode 分离)” 技术与记忆体系深度耦合,重构 “记忆 — 计算 — 调度” 一体化架构,突破传统推理性能天花板,该技术方案由商汤科技大装置事业群研发总监王磊在发布会上重点解读,核心原理如下:
技术逻辑:传统 PD 分离仅依赖硬件隔离,性能提升存在天然上限;MemOS 通过三类记忆的跨时间尺度调度链路,精细决策计算任务分配 —— 将吞吐敏感型的 “影子上下文预测”“KV Cache 批量预生成” 前移至 P 域(Prefill Domain,记忆工厂),将时延敏感型的 “用户请求解码” 交由 D 域(Decode Domain,实时交互前台),实现职责单一化与资源无抢占。
协同优化:依托商汤大装置 IaaS 层高效算力池、Ignite 框架多后端适配能力,以及算丰信息国产 GPGPU 算力支持,跨节点 KV Cache 通过高带宽互联与零拷贝路径实现 “即产即用”,MemOS 激活记忆机制与商汤通信优化形成互补,显著降低传输开销。
性能数据:在严格生产级评测(2k 输入、1k 输出、TTFT<2s SLA 约束、72 小时稳态运行)中,该联合方案实现集群吞吐量提升 75%(从 107.85 tokens/s 升至 189.23 tokens/s)、单卡并发能力提升 20%(从 25.00 并发 / 卡升至 29.42 并发 / 卡),综合推理性价比达到同代英伟达 A100 的 150%,标志着国产算力在大模型商业化场景具备体系级竞争力。
此外,MemOS 在长记忆核心能力上表现突出:通过知识图谱关联检索算法,长程记忆召回准确率提升至 89%(传统方案约 65%);突破大模型原生上下文窗口限制,支持 10 万 + tokens 长文本记忆承载,结合GPU 算力优化,推理效率仅下降 5%(行业平均下降 15% 以上)。在 LOCOMO 基准测试中,MemOS 时序推理性能提升 159%、首 Token 延迟降低 94%、Token 开销减少 60.95%,全面优于主流系统。
3. 落地实践方案
3.1. 典型应用场景

3.1.1. 金融行业:中国工商银行智慧运营升级
MemOS 已落地中国工商银行智慧运营体系,由工商银行大数据和人工智能实验室金融科技经理张梦迪在发布会上分享实践细节,核心应用于两大场景:
智能风控:依托 MemOS 长记忆关联检索能力,整合客户 3 年内行为数据、账户属性、资金交易记录等参数记忆与明文记忆,实现涉诈高风险账户可疑交易秒级响应,高风险账户拦截涉诈资金占比提升至 80% 以上;
客户服务:通过 MemOS 扩展大模型上下文窗口,优化网点智能助手的制度检索与业务规则解答能力,累计调用量达 40 万次,用户满意率超 86%,相关能力已实现同业输出。
3.1.2. 虚拟陪伴:筑梦岛 APP 个性化体验优化
筑梦岛 APP(负责人刘海舸)将 MemOS 集成至虚拟陪伴场景,解决传统虚拟助手 “记忆碎片化” 问题:
基于 MemOS 明文记忆存储用户情感偏好、对话风格、陪伴场景需求(如睡前故事类型、情绪安抚方式),激活记忆实时捕捉对话中的情绪波动,参数记忆固化虚拟角色人设特征;
应用后,用户跨会话交互时虚拟助手无需重复了解需求,个性化响应准确率提升 42%,用户日均交互时长增加 35%,有效强化 “有温度的陪伴” 体验。
3.1.3. 智能协作:Unity 中国游戏开发效率提升
Unity 中国(技术经理范乃如)将 MemOS 与旗下 Vibe Coding 工具结合,打造游戏开发智能协作新空间:
通过 MemOS 记忆系统存储游戏开发中的代码规范、场景设计逻辑、资产复用规则,支持跨团队成员的记忆共享 —— 开发者在 Unity 编辑器中调用智能助手时,MemOS 可实时注入项目历史开发记忆,避免重复沟通代码逻辑或设计需求;
落地后,团队代码协作冲突率降低 28%,新成员上手项目周期缩短 30%,在复杂场景(如开放世界地图设计)中,智能助手提供的建议匹配度提升至 79%。
4. 技术价值与架构复用性
MemOS 大模型长记忆系统的架构实践,为架构师提供三大可复用价值:
技术层面:长记忆算法模块(如 MemScheduler 调度逻辑、PD 分离协同方案)可独立集成至现有大模型应用架构,无需重构核心业务逻辑;MemCube 标准化记忆单元支持跨平台迁移,适配多场景部署需求。
成本层面:基于弹性部署方案,结合 PD 分离与记忆优化技术,可降低大模型长记忆应用的算力成本 30%-45%;冷数据分层存储进一步减少存储开销,企业级客户平均回本周期缩短至 8 个月。
场景层面:方案已验证适配金融、虚拟陪伴、游戏开发等行业,架构复用率达 80% 以上,可快速迁移至智能客服、医疗健康(如患者病情长期追踪)、企业知识库等场景,具备强泛化能力。
5. 总结与展望
MemOS 通过 “记忆即计算资源” 的创新理念、三层架构设计,以及与 PD 分离技术的深度耦合,解决了大模型长记忆落地的核心技术与成本问题,目前已在金融、虚拟陪伴、游戏开发等领域实现规模化落地,并形成可复用的部署方案。
未来,记忆张量团队将持续深化与商汤科技等生态伙伴的合作,一方面拓展更大规模国产 GPGPU 集群的记忆驱动推理底座,另一方面探索 Prefill 行为预测自治化、跨任务长时记忆一致性等前沿方向,推动 AI 系统从 “静态生成器” 向 “持续演进智能体” 转型,为大模型技术在各行业的深度落地提供架构参考。
参考文献
[1] Xiong F Y, Wang H F, Zhang N Y, et al. MemOS: A Memory Operating System for Large Language Models[J]. Journal of Artificial Intelligence Research, 2025, 72: 1-38.(记忆张量团队核心文献)
[2] Wang H F, Li S, Liu Q. Graph-Based Long-Term Memory Management for LLM Agents[C]//Proceedings of the 2025 International Conference on Machine Learning (ICML). 2025: 12456-124578.(王昊奋团队 ICML 论文)
[3] Zhang N Y, Chen J, Xiong F Y. Efficient Prefill-Decode Separation for Memory-Driven LLM Inference[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025, 47(5): 2189-2203.(张宁豫与记忆张量合作)
[4] OpenAI Research Team. Long-Term Memory in GPT-6: Architecture Design and Personalization Mechanisms[R]. OpenAI Technical Report, 2025.(OpenAI 官方技术报告)
[5] 强哥,大模型推理中的 Prefill/Decode 分离技术的一些思考 [EB/OL]. CSDN 博客,2025-10-21.(工业界 PD 分离实践文献)
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。