首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >深度学习领域常用核心架构概述

深度学习领域常用核心架构概述

作者头像
索旭东
发布2026-05-22 18:36:05
发布2026-05-22 18:36:05
1110
举报
文章被收录于专栏:具身小站具身小站

基于不同的处理数据理念,可以不同架构想象成不同领域的“专家”,比如MoE擅长“组建专家团队”,Transformer是“全能型选手”,而SSM则更像“高效的速记员”。深度学习领域有混合专家模型(MoE)、Transformer、状态空间模型(SSM,如Mamba)、卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等架构。

PART 01

架构对比

核心架构

核心机制与原理

主要优势

主要局限

经典模型与应用

混合专家 (MoE)

将FFN层替换为多个“专家”网络和一个“路由器”。根据输入选择性地激活最相关的专家,实现稀疏激活。

参数容量巨大但计算量增长可控;专家可学习到专门化的知识。

训练不稳定,专家负载易不均;需要大显存,通信开销大。

Mixtral, DeepSeek-V3, Grok-1

Transformer

依靠自注意力机制,让序列中每个位置都能直接看到所有其他位置。

并行处理能力强,训练效率高;能出色地捕捉长距离依赖关系。

计算和内存复杂度为O(n²),处理超长序列时成本高昂。

GPT, BERT, Llama, Qwen

状态空间模型 (SSM)

通过一个固定大小的“状态”来总结和传递历史信息,递归更新。Mamba引入了选择性机制,让模型能动态筛选信息。

计算和内存复杂度为O(n),处理长序列速度极快;硬件友好,推理延迟低。

记忆能力有限,传统SSM在非常长的序列上可能遗忘早期信息。

Mamba, Jamba

卷积神经网络 (CNN)

利用滑动卷积核在输入上提取局部特征。通过堆叠多层,逐渐构建从低级到高级的层次化特征。

参数共享和稀疏连接使其非常高效;对平移、缩放等变换具有不变性。

难以捕捉全局或长距离依赖关系,需要堆叠很多层才能扩大感受野。

ResNet, VGG, YOLO

循环神经网络 (RNN)

通过循环连接,将前一时刻的“隐藏状态”传递给下一时刻,形成对序列信息的记忆。

天然适合处理变长序列数据,理论上可以建模无限长的上下文。

存在梯度消失/爆炸问题,难以学习长距离依赖;必须串行计算,效率低。

LSTM, GRU (RNN的改进型)

图神经网络 (GNN)

通过消息传递机制,让图中的每个节点都能聚合邻居节点的信息,从而更新自己的表示。

能显式地对非欧几里得空间的图结构数据进行建模,捕捉节点间的复杂关系。

设计复杂,训练难度大;难以处理超大规模的图,泛化能力有挑战。

GCN, GAT, GraphSAGE

PART 02

架构原理与机制

Transformer

注意力是核心,全面观察。它摒弃了RNN的循环和CNN的卷积结构,完全依赖 自注意力机制 。该机制通过计算序列中每个元素与其他所有元素的关联度来为每个元素分配权重,从而实现对全局信息的感知。相比RNN的串行处理和CNN的局部视野,Transformer让模型可以 并行地 “看到”序列中的所有位置,这使其在理解上下文、捕捉长距离依赖方面能力超群。

状态空间模型 (SSM)

线性记忆,极致高效。它通过 状态空间 理论,用一个固定维度的向量“状态”来总结所有历史信息。面对新输入,它通过一个简单的公式更新这个“状态”并产生输出。Mamba引入的 选择性机制 让模型能根据输入动态调整更新方式,就像我们面对新信息时选择性地记住或遗忘。这种线性复杂度的设计,使SSM在处理长文本时比Transformer快很多。

卷积神经网络 (CNN)

局部观察,层层抽象。CNN的核心是模拟人类视觉系统的 局部感受野 。其卷积核在输入上滑动,提取边缘、纹理等基础特征。通过堆叠多个卷积层,模型能组合这些基础特征,逐渐形成更复杂、更高级的抽象特征,最终理解整个图像的内容。这种层次化的学习方式,加上参数共享(同一卷积核扫描整个图像),使CNN在处理图像数据时非常高效。

循环神经网络 (RNN)

时序记忆,依次处理。RNN通过内部的循环连接将信息“记忆”下来,使它在处理每个新输入时都能“考虑”到之前的信息,形成一种对序列的动态记忆能力。这种设计使RNN非常适合处理 时间序列 或 文本序列 。但其串行处理的特性也导致了训练速度慢的问题,且当序列很长时,早期信息在传递中会逐渐衰减,即梯度消失问题。

图神经网络 (GNN)

关系建模,关联推理。GNN是处理社交网络、分子结构这类 图结构 数据的利器。它通过 消息传递 机制,让每个节点能像“收集情报”一样,反复接收并整合其邻居节点的信息,从而更新自身的状态。经过多次迭代,每个节点都能感知到图中更远的结构信息,使模型能捕捉节点间的复杂关联和整个图的全局信息。

PART 03

架构协同

这些架构并非相互孤立的,它们共同构成了现代AI技术发展的图景:

  • RNN和CNN 是上一代的主流架构,分别主导了序列数据和图像数据的处理。
  • Transformer 凭借其强大的全局建模能力,在NLP领域取代了RNN,并以其灵活性成为几乎所有大语言模型的基石。
  • SSM (Mamba) 作为Transformer最强劲的挑战者,旨在解决其处理超长序列时的效率瓶颈,正成为新一代架构的有力候选。
  • MoE 作为一种“模型放大”策略,可以在不显著增加计算成本的前提下,有效扩大模型容量,是万亿参数级模型的关键技术。
  • GNN 则专注于处理Transformer等架构难以高效应对的非结构化图数据,在特定领域发挥关键作用。

一个显著的趋势是 混合架构, 设计者开始博采众长,比如将SSM的高效性与Transformer的强大能力结合(如Jamba模型),或将MoE机制融入Transformer(如DeepSeek-V3),这些融合了多种架构优势的混合模型,正是当前大模型领域充满活力的前沿方向,也在一定程度上预示了未来的发展路径。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 具身小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档