2025年初,DeepSeek V3以557万美元的研发成本(仅为GPT-4的1/14)和开源模型第一的排名,在全球AI领域掀起波澜。其核心创新之一——混合专家模型(Mixture of Experts, MoE)的优化设计,不仅突破了传统大模型的算力瓶颈,更以37B激活参数实现671B总参数规模的性能输出,成为开源社区与工业界关注的焦点。本文将从技术原理、工程创新以及应用潜力三个维度,深度解析这一架构的设计逻辑与行业意义。
在有限算力条件下,优化模型架构的参数量通常比增加训练迭代次数更能有效提升模型性能。相比于盲目延长训练周期,合理扩大模型容量往往能以更低的时间成本获得更优的收敛效果。
混合专家架构(MoE)的突破性价值体现在其独特的计算效率优势——该架构通过动态激活专家模块的机制,可在大幅降低算力消耗的同时完成高质量预训练。这使得研发团队在同等硬件资源下,既可尝试构建超大规模语言模型,也能拓展训练数据边界。特别值得关注的是,该架构在基础训练阶段展现出显著的训练速率优势,相较于传统稠密网络结构,能以更短的时间周期达成同等级别的模型能力指标。
混合专家模型(MoE)本质上是一种改进版的Transformer架构,其核心创新点在于引入动态计算的模块化结构,具体可通过以下维度理解:

例如,在上图中,“More”这个令牌可能被发送到第二个专家,而“Parameters”这个令牌被发送到第一个专家。有时,一个令牌甚至可以被发送到多个专家。
尽管混合专家模型 (MoE) 提供了若干显著优势,例如更高效的预训练和与稠密模型相比更快的推理速度,但它们也伴随着一些挑战:
3.1 萌芽期(1991-2010):模块化思想的觉醒
3.2 探索期(2011-2016):深度学习的催化剂
3.3 爆发期(2017至今):Transformer时代的重构
3.3.1 阶段1:架构重塑(2017-2021)
特别是在 2017 年,Shazeer 等人 (团队包括 Geoffrey Hinton 和 Jeff Dean,后者有时被戏称为 “谷歌的 Chuck Norris”) 将这一概念应用于 137B 的 LSTM (当时被广泛应用于 NLP 的架构,由 Schmidhuber 提出)。通过引入稀疏性,这项工作在保持极高规模的同时实现了快速的推理速度。这项工作主要集中在翻译领域,但面临着如高通信成本和训练不稳定性等多种挑战。

Outrageously Large Neural Network 论文中的 MoE layer
3.3.2 阶段2:工程攻坚(2021-2023)
3.3.3 阶段3:开放生态(2023至今)
3.4 未来挑战的冰山一角
混合专家模型(MoE)是一种稀疏门控制的深度学习模型,它主要由一组专家模型和一个门控模型组成。MoE的基本理念是将输入数据根据任务类型分割成多个区域,并将每个区域的数据分配一个或多个专家模型。每个专家模型可以专注于处理输入这部分数据,从而提高模型的整体性能。
MoE架构的基本原理非常简单明了,它主要包括两个核心组件:GateNet和Experts。GateNet的作用在于判定输入样本应该由哪个专家模型接管处理。而Experts则构成了一组相对独立的专家模型,每个专家负责处理特定的输入子空间。
混合专家模型中“门”是一种稀疏门网络,它接收单个数据元素作为输入,然后输出一个权重,这些权重表示每个专家模型对处理输入数据的贡献。一般是通过softmax门控函数通过专家或token对概率分布进行建模,并选择前K个。
门控网络的稀疏性设置存在一些挑战。例如,在混合专家模型 (MoE) 中,尽管较大的批量大小通常有利于提高性能,但当数据通过激活的专家时,实际的批量大小可能会减少。比如,假设我们的输入批量包含 10 个令牌, 可能会有五个令牌被路由到同一个专家,而剩下的五个令牌分别被路由到不同的专家。这导致了批量大小的不均匀分配和资源利用效率不高的问题。
那我们应该如何解决这个问题呢?一个可学习的门控网络 (G) 决定将输入的哪一部分发送给哪些专家 (E):
在这种设置下,虽然所有专家都会对所有输入进行运算,但通过门控网络的输出进行加权乘法操作。但是,如果 G (门控网络的输出) 为 0 会发生什么呢?如果是这种情况,就没有必要计算相应的专家操作,因此我们可以节省计算资源。那么一个典型的门控函数是什么呢?一个典型的门控函数通常是一个带有 softmax 函数的简单的网络。这个网络将学习将输入发送给哪个专家。
Shazeer 等人的工作还探索了其他的门控机制,其中包括带噪声的 TopK 门控 (Noisy Top-K Gating)。这种门控方法引入了一些可调整的噪声,然后保留前 k 个值。具体来说:
2. 选择保留前 K 个值
3. 应用 Softmax 函数
这种稀疏性引入了一些有趣的特性。通过使用较低的 k 值 (例如 1 或 2),我们可以比激活多个专家时更快地进行训练和推理。为什么不仅选择最顶尖的专家呢?最初的假设是,需要将输入路由到不止一个专家,以便门控学会如何进行有效的路由选择,因此至少需要选择两个专家。

从DeepSeek V3的技术报告中看到的架构图中,MoE中的门控网络对应的是DeepSeekMoE的Router模块,也可以得知DeepSeek是采用的带噪声的TopK门控网络。
5.1 传统门控网络与DeepSeek路由器模块的设计差异

举例说明:
在Google的Switch Transformer中,门控网络采用Top-1严格稀疏(每个输入只需激活一个专家),而DeepSeek可能的路由器模块可能更灵活(如动态负载均衡)。
5.2 DeepSeek路由器模技术创新点
5.3 为什么要添加噪声呢?
这是为了专家间的负载均衡!正如之前讨论的,如果所有的令牌都被发送到只有少数几个受欢迎的专家,那么训练效率将会降低。在通常的混合专家模型 (MoE) 训练中,门控网络往往倾向于主要激活相同的几个专家。这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择。为了缓解这个问题,引入了一个 辅助损失,旨在鼓励给予所有专家相同的重要性。这个损失确保所有专家接收到大致相等数量的训练样本,从而平衡了专家之间的选择。
6.1 专家类型定义
6.2 双轨计算流程
6.2.1 Share路径的基础处理
每个Token自动经过Share专家的前向传播:
6.2.2 Router路径的动态筛选
Phase 1 - 亲和度分组预选
Phase 2 - 组内专家精筛
Phase 3 - 激活与加权
6.3 双路径融合
最终MoE层输出的合成策略:
其中为可学习的融合系数或在训练中渐进增长的增强因子(例如从0到1的线性缩放)
6.4 DeepSeekMoE架构

通过上面专家类型定义、双轨计算流程、双路径融合的讲解,再结合DeepSeekMoE的架构图,对于DeepSeek的专家设计也就清晰了。
6.4 创新设计要点
欢迎大家关注我的公众号【老周聊架构】,AI、大数据、云原生、物联网等相关领域的技术知识分享。