首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >迈向V4/R2之路:揭秘DeepSeek Engram如何解放大模型算力,激发高级智能

迈向V4/R2之路:揭秘DeepSeek Engram如何解放大模型算力,激发高级智能

作者头像
Henry Zhang
发布2026-01-19 13:39:12
发布2026-01-19 13:39:12
1.7K0
举报
文章被收录于专栏:亨利笔记亨利笔记腾讯云TVP

DeepSeek 最新 Engram 论文解读:条件记忆将重塑下一代语言模型

本技术文章 6600 多字,可用参考播客语音形式的精华版。

在人工智能领域,大型语言模型的发展已进入深水区。自 2020 年 GPT-3 开创千亿参数时代以来,行业普遍陷入"参数规模决定一切"的迷思,通过简单堆砌参数量来提升模型能力。然而,这种模式面临两大困境:一是算力成本呈指数级增长,限制了技术的普惠化;二是模型的"记忆-推理"能力难以平衡,导致在处理固定知识时效率低下。

上周末,DeepSeek 团队联合北京大学在 GitHub 平台发布了名为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》的最新论文,首次提出名为 Engram 的“条件记忆”技术,为解决上述问题提供了革命性思路。

目前大模型普遍采用的 “MoE” 架构,本质上是“条件计算”技术在稀疏大模型上的应用,可以节约算力。而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。

值得一提的是,DeepSeek 这次的 Engram 论文首发于开源网站 GitHub,而非学术预印版 arXiv 网站,是“开源先行”理念与“工程导向”研发模式的直接体现,意味着发布即交付,研究即产品。可以看出 DeepSeek 更看重技术的即时影响力与生态构建,从更底层塑造大模型未来的发展路径。

本文将深入解析 Engram 的技术原理和性能优势等方面的影响,以及其对DeepSeek 下一代模型 V4/R2 的变革性作用。

一、大模型的“无效内耗”,源于任务不分家

要理解 Engram 的价值,首先要搞懂当前大模型的核心缺陷。语言建模本质上要做两件完全不同的事,就像办公室里的“创意工作”和“行政事务”:

一是组合式推理:比如分析一篇文章的逻辑结构、根据需求撰写商业计划书、解数学题,这些任务需要动态思考、灵活组合知识的“创意活”;

二是知识检索:比如,识别 “亚历山大大帝”、 “四大发明”这类命名实体,或是“顺便说一下”“总而言之”这类固定短语等高频重复的“行政活”,理论上只要查现成资料就能搞定。

但现在的大模型,没有专门的“档案库”来处理这些“行政活”。不管是写方案这样的复杂推理,还是认实体这样的简单检索,都要动用最核心的计算资源(多层前馈网络+注意力机制)重新推演一遍。

这就像让一个资深策划师,每次写方案前都要先核对公司名称的正确写法和整理基础行业术语,本该用来构思创意的精力,全耗在了重复性的基础工作上。这种“用动态计算模拟静态查找”的模式,是大模型无效的内耗,也是算力浪费和效率低下的核心原因。

为了破解这个矛盾,Deeseek 和北大的团队在论文中提出了一种全新的思路:条件记忆。这一思路的核心,就是给大模型做“分工”:把静态知识的存储和检索,交给专门的“记忆模块”;让核心的 Transformer 架构,专注于动态推理。这就像给策划师配一个行政助理,专门处理资料核对和术语整理,让策划师专注创意本身。而 Engram 模块,就是“条件记忆”思路的落地实现——高效、可扩展的“AI专属档案库”。

二、Engram的“档案库”如何高效工作

Engram不是替换现有大模型的核心架构,而是作为一个新增模块融入其中,核心工作流程只有两步:检索(从档案库找资料)和融合(把资料精准用到当前任务)。就像行政助理先从档案库找出相关资料,再筛选出和当前方案相关的部分交给策划师。

(图片来自论文)

我们一步步拆解这个过程的核心细节:

1. 给档案库做“智能整理”

要快速找到需要的资料,首先得把档案库整理好。Engram的检索阶段,就是做两件事:压缩冗余资料、精准定位所需内容。

先看分词器压缩:普通的大模型分词器,为了保证文本能完整还原,会给语义相同的词分配不同ID。比如,“Apple”(首字母大写)和 “apple”(小写)、“北京”和“北京市”(不同分词)。这就像档案库把“苹果公司”的资料分成了多份,查找时要翻遍多个文件夹,效率很低。

Engram通过一个预定义的映射函数,把这些语义等价的词统一成标准化 ID:比如把所有“苹果”相关的不同写法,都归到同一个档案编号下。实验显示,这种方法能让 128k 词汇量的分词器瘦身 23%,大大提升了后续查找效率。

再看多头哈希:如果要给所有可能的词语组合(比如“亚历山大大帝”、“四大发明之一”)都单独建档案,档案库的规模会呈指数级爆炸——就像要给每一个短语都单独建一个文件夹,最终会堆满整个办公室。

Engram 用“哈希映射”解决这个问题:给每个短语组合(专业术语叫 N-gram )分配多个独立的“哈希头”(相当于多个不同的档案分类规则),通过确定性的哈希函数,把短语快速映射到对应的档案索引。比如“亚历山大大帝”这个短语,通过3个不同的哈希头,都会指向同一个档案位置,既避免了“找不到”的情况,又不会重复存储。

最终,多个哈希头找到的资料会被整合起来,形成一个完整的记忆向量:相当于行政助理把从不同分类规则下找到的相关资料,整理成一份完整的摘要。

2. 只把有用的资料交给“策划师”

检索到的资料是通用的,不一定适合当前任务。比如找到的“苹果”资料,可能是关于水果的,也可能是关于苹果公司的,需要筛选后再用。Engram 的融合阶段,就是做精准筛选的工作。

这里的核心是上下文感知门控机制,原理很像我们找资料时的相关性判断:把当前模型正在处理的内容当作查询需求,把检索到的记忆向量当作“资料”,计算两者的相似度,生成一个 0 到 1 之间的“门控值”——相似度越高,门控值越接近1,资料被采纳的程度越高;相似度越低,门控值越接近 0,资料被直接过滤。

比如模型正在写“苹果公司“的产品策略,检索到的“苹果”资料中,关于公司的部分门控值接近 1,会被保留;关于水果的部分门控值接近 0,会被过滤。这样就避免了“无用资料”干扰核心推理,保证了信息的精准性。

之后,Engram 还通过轻量级的卷积操作,增强资料的适用性,再通过残差连接把筛选后的资料融入模型的计算流:相当于行政助理把整理好的资料,再根据当前方案的需求调整格式、补充细节,然后交给策划师。

3. mHC架构集成:既分工又协作

一些的主流大模型采用了“流形约束超连接”(mHC),就像多个策划师协作完成一个复杂项目。Engram 能和这种架构高效配合,核心是“共享+独立”的参数策略:

(1)所有分支共享同一个稀疏嵌入表(相当于所有策划师共用一个核心档案库,避免资料重复存储)和值投影矩阵(相当于资料的统一整理标准);

(2)每个分支有独立的键投影矩阵(相当于每个策划师有自己的资料筛选标准,能根据自己的任务需求精准筛选资料)。

这种设计既保证了资料的共享效率,又兼顾了不同任务的个性化需求,还能通过 FP8 矩阵乘法充分利用 GPU 算力,实现高效协作。

三、突破GPU内存墙,让大模型轻装上阵

Engram 的价值,不仅在于分工提升推理效率,更在于解决了大模型部署时的GPU 内存限制,对企业和开发者来说,堪称颠覆性优势。

我们先搞懂一个行业痛点:GPU 的高带宽内存(HBM)容量有限,就像办公室的“临时文件柜”,空间小但取放快。传统的记忆增强模型(比如 MoE ),因为路由决策依赖运行时的隐藏状态,在计算前无法预知需要哪些参数,只能把大量参数都放在 HBM 里。就像把所有档案都堆在临时文件柜里,很快就会塞满,导致无法部署更大规模的模型。

而 Engram 的检索索引只依赖的词元序列,在模型开始计算前,就能精准预知需要访问哪些内存地址,提前从大档案库(主机内存/SSD)中把资料调到临时文件柜。这种确定性寻址,带来了两个关键的系统级优化:

1. 预取-重叠策略隐藏数据传输延迟

Engram 能实现“预取-重叠”:在模型处理前一层内容的同时,从容量大但速度较慢的主机内存中异步预取下一层需要的嵌入向量。就像策划师在处理当前部分方案时,行政助理已经提前把下一部分需要的资料准备好,不会出现“策划师等资料”的停顿。

实验数据证明了这种策略的有效性:在 NVIDIA H800 GPU 上,给 4B 和 8B 参数的基础模型附加 100B 参数的 Engram 嵌入表(完全存放在主机内存),吞吐量惩罚分别只有 1.9% 和 2.8% ——相当于给模型增加了 100B 的记忆容量,但几乎不影响计算速度。

2. 多级缓存层次结构平衡容量与速度

自然语言中的 N-gram 模式遵循 “Zipf分布”,即少数高频模式占据了绝大多数访问请求(就像办公室里少数核心资料被反复查阅,大部分资料很少用到)。基于这一特性,Engram 构建了三级缓存:

(1)高速缓存(GPU HBM):存放最常用的少量嵌入向量(相当于临时文件柜,放高频资料);

(2)中速缓存(Host DRAM):存放次常用的嵌入向量(相当于办公室的核心档案柜,放常用资料);

(3)大容量存储(NVMe SSD):存放稀有的长尾模式(相当于公司的档案室,放不常用资料)。

这种分层存储,既保证了高频资料的访问速度,又通过低成本的主机内存/SSD实现了海量记忆的存储,为构建万亿甚至更大规模的记忆表提供了可能。这种 “临时文件柜+核心档案柜+档案室”的组合,既保证了日常工作效率,又能存储所有历史资料。

四、MoE与Engram的最优配比

在稀疏大模型设计中,有一个核心问题:固定总参数量和计算预算时,该如何分配条件计算(MoE)和条件记忆(Engram)的稀疏容量?就像给团队分配预算,该给“创意工作”(MoE)多少,给“行政支持”(Engram)多少?

论文图片:稀疏性分配与Engram扩展 (U型缩放定律)

研究者通过实验找到了答案:U型缩放定律。他们定义分配比率 ρ 为分配给 MoE 专家容量的参数比例(ρ=1 代表纯 MoE 模型),通过调整ρ发现:

纯MoE并非最优:当所有稀疏预算都给 MoE 时,模型性能不是最好(就像团队只重视创意,没有行政支持,创意效率会受影响);

存在最优混合点:把 20%-25%的稀疏参数预算分配给 Engram(即 ρ 在75%-80%之间),模型在不同计算规模下都能达到最低的验证集损失(就像给团队分配 20% 的预算做行政支持,能让 80% 的创意预算发挥最大价值);

结构互补性被证实:ρ 过高(偏向 MoE ),模型缺乏处理静态模式的专用记忆;ρ 过低(偏向 Engram ),模型缺乏动态推理能力。只有两者平衡,才能实现最优性能。

大规模预训练验证:全方位超越纯MoE模型

基于U型缩放定律,研究者训练了 27B 参数的混合模型( Engram-27B ),并与参数和计算量完全匹配的纯 MoE 模型( MoE-27B )进行对比。结果显示,Engram-27B 在所有任务上都实现了超越:

值得注意的是,Engram 的优势不仅体现在知识密集型任务(如MMLU、CMMLU),在需要复杂推理的任务,如BBH通用推理、HumanEval 代码生成、MATH 数学等,提升更显著,证明了 Engram 不仅是补充知识,更是提升计算效率,让模型能把更多算力用在推理上。

五、Engram本质是“增加模型有效深度”

为什么 Engram 能带来这么显著的性能提升?通过 LogitLens 和 CKA 等可解释性工具,论文中描述了核心答案:Engram 在功能上等价于“增加了模型的有效深度”。

我们可以这样理解:传统模型的前几层,大多在处理识别实体和组合简单短语这类低级任务,就像策划师要先花大量时间整理基础资料,才能开始构思创意。而 Engram 把这些低级任务“外包”出去,让模型的前几层直接开始处理更高层次的抽象推理——相当于策划师跳过了整理资料的环节,直接进入创意构思,虽然模型的物理层数没变,但有效处理深度大大增加了。

这一结论得到了两个实验的验证:

1. LogitLens分析:Engram 模型在网络早期层级,就表现出比 MoE 基线更低的 KL 散度(KL Divergence,KL散度越低,说明模型越接近最终的正确预测)。这意味着 Engram 让模型“更快地收敛到正确结果”,减少了无效的迭代过程。

2. CKA分析:通过比较 Engram 模型和 MoE 模型的层间表征相似性,发现Engram 的浅层表征与 MoE 的深层表征高度相似。比如 Engram-27B 的第5层表征,和 MoE 基线的第12层最为接近,相当于 Engram 用更少的物理层数,实现了更深的语义理解。

释放注意力,提升长上下文性能

“增加有效深度”还带来了一个延伸优势:释放注意力机制,让模型更好地处理长上下文。

传统模型的注意力机制,既要处理局部依赖(比如短语组合),又要捕捉全局依赖(比如文章的整体逻辑),这有点像策划师既要核对资料细节,又要把握方案框架,很容易顾此失彼。Engram把局部依赖的处理外包后,注意力机制能专注于捕捉全局上下文的长距离依赖,提升长文本处理能力。

实验验证:在同等损失设定下(Engram-27B 和 MoE-27B 的预训练损失完全相同),Engram-27B 在 RULER 等复杂检索任务上表现出压倒性优势,尤其是在多查询 Needle-in-a-Haystack(在大量文本中找关键信息)任务上,准确率从 84.2% 飙升到 97.0%。这对需要处理长文档的场景(如法律文书分析、学术文献解读)来说,价值巨大。

门控机制精准识别静态语言模式

(图片来自论文)

论文还通过可视化门控激活值,直观展示了 Engram的 工作过程:门控值越高(颜色越深),说明模型识别出了需要检索的静态语言模式。

实验发现,在处理英文的“Alexander the Great”(亚历山大大帝)、“Princess of Wales”(威尔士王妃),以及中文的“四大发明”、“张仲景”等命名实体和固定短语时,门控值会显著升高。这直接证实了 Engram 能精准识别并处理这些固化的语言模式,有效减轻了 Transformer 主干的负担。

Engram与RAG的区别

Engram 与目前非常流行的 RAG(检索增强生成)技术虽然都在解决模型存储与调取海量知识的效率问题,但其技术路径存在本质区别。

具体而言,Engram 将知识以嵌入表的形式直接集成在模型层级中,通过 N-gram 实现 O(1) 复杂度的快速查表。这种设计更偏向于“原生记忆”,能让模型腾出计算资源进行更高阶的逻辑推理。

相比之下,RAG 将知识库存储在模型外部,允许模型在无需重新训练的情况下,通过调取外部实时文档来适应不断演进的信息。

从运行机制看,Engram 利用确定性寻址与异步预取技术,使其在推理时几乎不产生额外延迟,且能跨越显存限制利用主机内存;而 RAG 通常依赖外部向量数据库检索,流程更侧重于外部信息的引入。

两者相辅相成:Engram 优化了模型对静态、模式化事实的内在存储效率,而 RAG 则解决了动态、长尾知识的实时调取

六、范式级创新引发业内反响热议

Engram 论文及代码开源后,24 小时内 GitHub 斩获1.2k星,在 Reddit、X 等平台引发全球技术圈热议。业内对这一创新的评价集中在“稀疏化新方向”“工程落地价值”“对下一代模型的影响”三大维度,既有肯定也有理性探讨。

1. 正面评价:开启“计算+记忆”协同范式

PyTorch 核心维护者 Dmytro Dzhulgakov 高度认可 Engram,认为其与Meta的早期理念一致,但工程实现更佳。业界普遍视其为突破“纯神经网络”范式的关键创新,将模型升级为“计算+记忆”协同系统。与 RAG 的“外挂”不同,Engram 实现了深度融合,让知识真正参与思考。国内视其为重要的架构创新方向,产业界则看到了其在金融等领域实现“经营级智能”的落地潜力,推动AI从对话走向决策。

2. 理性探讨:真实场景的挑战与优化空间

部分网友也对 Engram 提出了三点理性关切:一是面对真实噪声输入的鲁棒性,在错乱文本中哈希检索与门控机制是否可靠;二是静态记忆的动态更新难题,当前固化知识库如何适应快速变化的信息世界;三是模块化程度有待提升,建议设计为可插拔组件以降低更新和维护成本。这些问题恰好指明了未来Engram 迭代的方向:增强动态更新能力、提升抗噪性和实现模块化设计,以推动其从实验室走向更复杂的产业应用。

七、对DeepSeek下一代模型(R2/V4)的战略价值

业内普遍猜测,Engram 将是 DeepSeek 下一代模型(V4或R2)的核心基础技术。结合 DeepSeek 年初发布的 mHC(流形约束超连接)框架,下一代模型的架构轮廓已呼之欲出了:融合 mHC 优化专家间通信效率,引入 Engram 作为独立记忆模块,形成“动态计算+静态检索”的协同模式。Engram 对下一代模型的价值体现在性能提升、成本优化、场景拓展三大层面。

mHC 与 Engram 的结合是“动态计算”与“静态记忆”的双重优化,旨在实现“1+1>2”的效果:mHC 提升 MoE 通信效率,Engram 解决计算资源竞争。按照U型定律,将 20%-25% 参数分配给 Engram,能在同等算力下获得显著性能提升。

Engram 为降低大模型算力成本开辟了两大路径:在训练中,它避免对静态知识的冗余计算,提升样本训练效率;在推理中,其时间复杂度 O(1) 检索比神经网络更省资源,且能将千亿级参数记忆表存于 CPU,节省昂贵 GPU 显存。这有望显著降低推理部署成本。业内预测,基于此架构的下代模型API调用成本或下降 30%-50%,为AI技术更广泛地赋能中小企业铺平道路。

八、结语:条件记忆将是下一代大模型的核心构件

Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破。

Engram 有三大核心贡献:

1. 性能提升:在同等参数和计算预算下,全面超越纯 MoE 模型,尤其在复杂推理任务上提升显著;

2. 效率优化:功能上等价于增加模型有效深度,释放注意力机制,提升表示效率;

3. 系统突破:确定性寻址实现计算与内存解耦,突破 GPU 内存墙,让万亿级参数的记忆表可低成本部署。

Engram 技术标志着大模型架构设计进入了一个新的里程碑。它通过显式记忆存储与检索机制,解决了传统 Transformer 模型在静态知识处理上的效率问题,实现了"查算分离"的范式革新。未来的大模型,不再是追求参数规模的盲目扩张,而是通过精准分工实现效率最大化,这也对整个 AI 行业产生了深远影响。

与年初发布的 mHC 技术一样,Engram 技术也继续在铺垫着 DeepSeek 的下一代模型。业内对 DeepSeek 模型 V4/R2 发布的呼声已经愈来愈高了。参照去年农历新年前发布的“惯例”,或许 1 月底 2 月初就是 V4/R2 的发布期,我们拭目以待吧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 亨利笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档