首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Transformer 架构:大模型时代的基石

Transformer 架构:大模型时代的基石

作者头像
jack.yang
修改2026-03-25 11:58:53
修改2026-03-25 11:58:53
1380
举报
概述
Transformer 不是一种模型,而是一种范式。 它用“注意力”重新定义了序列建模的方式,打破了循环与卷积的统治,开启了大模型时代的大门。
文章被收录于专栏:大模型系列大模型系列

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、为什么需要 Transformer?
  • 二、整体架构:编码器-解码器(Encoder-Decoder)
  • 三、核心组件详解
    • 1. 输入嵌入(Input Embedding) + 位置编码(Positional Encoding)
    • 2. 多头自注意力机制(Multi-Head Self-Attention)
      • 自注意力(Self-Attention)做什么?
      • 多头(Multi-Head)的意义?
    • 3. 前馈神经网络(Feed-Forward Network, FFN)
    • 4. 残差连接 + 层归一化(Residual Connection + LayerNorm)
  • 四、Decoder 的特殊设计:掩码自注意力(Masked Self-Attention)
  • 五、为什么 Transformer 能成为大模型基石?
  • 六、常见变体与演进
  • 七、完整动手实践:Mini Transformer + 注意力可视化
    • 第一步:安装依赖
    • 第二步:完整 Mini Transformer 代码(含位置编码、多头注意力、分类头)
    • 第三步:生成模拟数据并训练(避免依赖 IMDb)
    • 第四步:可视化注意力权重
      • 🔍 如何解读?
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档