Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NLP: Text Neural Network (Part4: Transformer)

NLP: Text Neural Network (Part4: Transformer)

作者头像
JiahuiZhu1998
发布于 2023-06-20 03:59:09
发布于 2023-06-20 03:59:09
1200
举报

Transformer 结构

基于 Encoder-Decoder结构,6个Encoder递进,6个Decoder递进

Transformer总体结构
Transformer总体结构
每一个Encoder和Decoder内部结构 (Multi-Head Attention + FeedForward)
每一个Encoder和Decoder内部结构 (Multi-Head Attention + FeedForward)

Encoder

Encoder结构,Self-Attention + FeedForward(并行)
Encoder结构,Self-Attention + FeedForward(并行)

Positional Encoding

Transformer不能记录document前后顺序,需要加入positional encoding

positional encoding (even number)
positional encoding (even number)
positional encoding (odd number)
positional encoding (odd number)

Word Embeddings + Positional Encoding = Final Embedding,然后将 Final Embedding 输入到Encoder中

Self-Attention

Step1: softmax (Q * K div 8), here 8 is sqrt(dimension)
Step1: softmax (Q * K div 8), here 8 is sqrt(dimension)
Step1 的值 再乘上Value
Step1 的值 再乘上Value

Multi-Head Attention

上面的Self-Attention 计算了一组QKV,获得一个Attention

Multi-Head Attention 并行计算8组QKV,获得8个Attention

Layer Normalization

Batch Normalization

按批次归一,数据偏差会较大,会导致梯度消失或梯度爆炸

Layer Normalization

Layer Normalization
Layer Normalization

Decoder

Masked Multi-Head Attention

Padding Mask

在长度不够位置上填充较大值的负数

Sequence Mask

使Decoder只能使用t时刻前的输出,将之后的输出隐藏

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
LV.0
这个人很懒,什么都没有留下~
加入讨论
的问答专区 >
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档