基于不同的处理数据理念,可以不同架构想象成不同领域的“专家”,比如MoE擅长“组建专家团队”,Transformer是“全能型选手”,而SSM则更像“高效的速记员”。深度学习领域有混合专家模型(MoE)、Transformer、状态空间模型(SSM,如Mamba)、卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等架构。
PART 01
架构对比
核心架构 | 核心机制与原理 | 主要优势 | 主要局限 | 经典模型与应用 |
|---|---|---|---|---|
混合专家 (MoE) | 将FFN层替换为多个“专家”网络和一个“路由器”。根据输入选择性地激活最相关的专家,实现稀疏激活。 | 参数容量巨大但计算量增长可控;专家可学习到专门化的知识。 | 训练不稳定,专家负载易不均;需要大显存,通信开销大。 | Mixtral, DeepSeek-V3, Grok-1 |
Transformer | 依靠自注意力机制,让序列中每个位置都能直接看到所有其他位置。 | 并行处理能力强,训练效率高;能出色地捕捉长距离依赖关系。 | 计算和内存复杂度为O(n²),处理超长序列时成本高昂。 | GPT, BERT, Llama, Qwen |
状态空间模型 (SSM) | 通过一个固定大小的“状态”来总结和传递历史信息,递归更新。Mamba引入了选择性机制,让模型能动态筛选信息。 | 计算和内存复杂度为O(n),处理长序列速度极快;硬件友好,推理延迟低。 | 记忆能力有限,传统SSM在非常长的序列上可能遗忘早期信息。 | Mamba, Jamba |
卷积神经网络 (CNN) | 利用滑动卷积核在输入上提取局部特征。通过堆叠多层,逐渐构建从低级到高级的层次化特征。 | 参数共享和稀疏连接使其非常高效;对平移、缩放等变换具有不变性。 | 难以捕捉全局或长距离依赖关系,需要堆叠很多层才能扩大感受野。 | ResNet, VGG, YOLO |
循环神经网络 (RNN) | 通过循环连接,将前一时刻的“隐藏状态”传递给下一时刻,形成对序列信息的记忆。 | 天然适合处理变长序列数据,理论上可以建模无限长的上下文。 | 存在梯度消失/爆炸问题,难以学习长距离依赖;必须串行计算,效率低。 | LSTM, GRU (RNN的改进型) |
图神经网络 (GNN) | 通过消息传递机制,让图中的每个节点都能聚合邻居节点的信息,从而更新自己的表示。 | 能显式地对非欧几里得空间的图结构数据进行建模,捕捉节点间的复杂关系。 | 设计复杂,训练难度大;难以处理超大规模的图,泛化能力有挑战。 | GCN, GAT, GraphSAGE |
PART 02
架构原理与机制
Transformer
注意力是核心,全面观察。它摒弃了RNN的循环和CNN的卷积结构,完全依赖 自注意力机制 。该机制通过计算序列中每个元素与其他所有元素的关联度来为每个元素分配权重,从而实现对全局信息的感知。相比RNN的串行处理和CNN的局部视野,Transformer让模型可以 并行地 “看到”序列中的所有位置,这使其在理解上下文、捕捉长距离依赖方面能力超群。
状态空间模型 (SSM)
线性记忆,极致高效。它通过 状态空间 理论,用一个固定维度的向量“状态”来总结所有历史信息。面对新输入,它通过一个简单的公式更新这个“状态”并产生输出。Mamba引入的 选择性机制 让模型能根据输入动态调整更新方式,就像我们面对新信息时选择性地记住或遗忘。这种线性复杂度的设计,使SSM在处理长文本时比Transformer快很多。
卷积神经网络 (CNN)
局部观察,层层抽象。CNN的核心是模拟人类视觉系统的 局部感受野 。其卷积核在输入上滑动,提取边缘、纹理等基础特征。通过堆叠多个卷积层,模型能组合这些基础特征,逐渐形成更复杂、更高级的抽象特征,最终理解整个图像的内容。这种层次化的学习方式,加上参数共享(同一卷积核扫描整个图像),使CNN在处理图像数据时非常高效。
循环神经网络 (RNN)
时序记忆,依次处理。RNN通过内部的循环连接将信息“记忆”下来,使它在处理每个新输入时都能“考虑”到之前的信息,形成一种对序列的动态记忆能力。这种设计使RNN非常适合处理 时间序列 或 文本序列 。但其串行处理的特性也导致了训练速度慢的问题,且当序列很长时,早期信息在传递中会逐渐衰减,即梯度消失问题。
图神经网络 (GNN)
关系建模,关联推理。GNN是处理社交网络、分子结构这类 图结构 数据的利器。它通过 消息传递 机制,让每个节点能像“收集情报”一样,反复接收并整合其邻居节点的信息,从而更新自身的状态。经过多次迭代,每个节点都能感知到图中更远的结构信息,使模型能捕捉节点间的复杂关联和整个图的全局信息。
PART 03
架构协同
这些架构并非相互孤立的,它们共同构成了现代AI技术发展的图景:
一个显著的趋势是 混合架构, 设计者开始博采众长,比如将SSM的高效性与Transformer的强大能力结合(如Jamba模型),或将MoE机制融入Transformer(如DeepSeek-V3),这些融合了多种架构优势的混合模型,正是当前大模型领域充满活力的前沿方向,也在一定程度上预示了未来的发展路径。
