jack.yang
Transformer 架构:大模型时代的基石
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
jack.yang
社区首页
>
专栏
>
Transformer 架构:大模型时代的基石
Transformer 架构:大模型时代的基石
jack.yang
关注
修改于 2026-03-25 11:58:53
修改于 2026-03-25 11:58:53
138
0
举报
概述
Transformer 不是一种模型,而是一种范式。 它用“注意力”重新定义了序列建模的方式,打破了循环与卷积的统治,开启了大模型时代的大门。
文章被收录于专栏:
大模型系列
大模型系列
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
chatgpt
大模型部署
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
chatgpt
大模型部署
#Transformer
#chatgpt
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
一、为什么需要 Transformer?
二、整体架构:编码器-解码器(Encoder-Decoder)
三、核心组件详解
1. 输入嵌入(Input Embedding) + 位置编码(Positional Encoding)
2. 多头自注意力机制(Multi-Head Self-Attention)
自注意力(Self-Attention)做什么?
多头(Multi-Head)的意义?
3. 前馈神经网络(Feed-Forward Network, FFN)
4. 残差连接 + 层归一化(Residual Connection + LayerNorm)
四、Decoder 的特殊设计:掩码自注意力(Masked Self-Attention)
五、为什么 Transformer 能成为大模型基石?
六、常见变体与演进
七、完整动手实践:Mini Transformer + 注意力可视化
第一步:安装依赖
第二步:完整 Mini Transformer 代码(含位置编码、多头注意力、分类头)
第三步:生成模拟数据并训练(避免依赖 IMDb)
第四步:可视化注意力权重
🔍 如何解读?
总结
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐