学习目标 🍀 掌握Transformer相比于RNN/LSTM的优势和背后的原因. 🍀 掌握Transformer架构的并行化是如何进行的. 🍀 理解为什么采用这样的方式可以实现Transformer的并行化. 🍀 掌握Transformer可以替代seq2seq的核心原因.
对于Transformer比传统序列模型RNN/LSTM具备优势的第一大原因就是强大的并行计算能力.
首先Transformer的并行化主要体现在Encoder模块上.
其次Transformer的并行化也部分的体现在Decoder模块上.
对于Transformer比传统序列模型RNN/LSTM具备优势的第二大原因就是强大的特征抽取能力.