基于 Encoder-Decoder结构,6个Encoder递进,6个Decoder递进
Word Embeddings + Positional Encoding = Final Embedding,然后将 Final Embedding 输入到Encoder中
上面的Self-Attention 计算了一组QKV,获得一个Attention
Multi-Head Attention 并行计算8组QKV,获得8个Attention
按批次归一,数据偏差会较大,会导致梯度消失或梯度爆炸
在长度不够位置上填充较大值的负数
使Decoder只能使用t时刻前的输出,将之后的输出隐藏
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。