【AI 进阶笔记】注意力机制及 Transformer 讲解

原创

繁依Fanyi

发布于 2025-03-26 22:45:46

2160

引言

在自然语言处理（NLP）领域，长久以来我们一直依赖于序列到序列（Seq2Seq）模型来解决翻译、文本生成等问题。传统上，RNN（循环神经网络）和 LSTM（长短期记忆网络）是最常见的模型。然而，这些模型的计算过程非常依赖顺序，无法并行化，因此在处理长序列时效率低下。今天，我们将深入研究一种全新的架构——Transformer，它彻底改变了这个局面。

Transformer 通过完全基于注意力机制（Attention Mechanism），摒弃了循环和卷积结构，大大提高了计算效率，并且能够捕捉长距离的依赖关系。你可以把传统的 RNN 想象成一辆慢悠悠的火车，而 Transformer 就像一辆飞速行驶的跑车，不仅速度快，而且能同时做更多的事。

RNN 和 LSTM 的局限性

首先，让我们聊聊传统的 RNN 和 LSTM。RNN 是按照顺序一个个处理每个时间步的输入，每个步骤的计算依赖于前一个时间步的输出，这意味着它们无法并行计算。当面对长序列时，这种计算方式导致了效率低下和梯度消失问题。

LSTM 改善了这个问题，它通过引入门控机制，能够记住更多的信息，缓解了长距离依赖的问题。但即便如此，RNN 和 LSTM 仍然在处理长序列时不够高效。因为它们依然是逐步处理的，无法充分利用现代硬件的并行计算能力。

Transformer

Transformer 的出现解决了这些问题。它不再依赖于递归计算，而是完全通过注意力机制来建模输入序列中的每个元素与其他元素的关系。通过这一机制，Transformer 能够并行计算，大幅度提升了计算效率。最重要的是，Transformer 能够处理长距离的依赖关系，这使得它在机器翻译等任务中表现得比传统的模型更加优秀。

深入理解注意力机制

什么是注意力机制？

在机器翻译等任务中，我们需要捕捉一个序列中各个元素之间的关系。例如，在翻译一句话时，某些单词可能会对翻译结果产生更大的影响。注意力机制的核心思想就是：让模型在处理当前单词时“关注”其他重要的单词。你可以把它想象成一个人阅读一句话时，自然会更关注句子中的关键信息，忽略掉不重要的部分。

Scaled Dot-Product Attention

在 Transformer 中，使用了“缩放点积注意力”（Scaled Dot-Product Attention）来计算注意力权重。具体来说，给定一个查询（Query）、一组键（Key）和一组值（Value），注意力机制通过计算查询与所有键的点积，得到每个键与查询的相似度。然后，通过 softmax 函数将相似度转换为权重，最后根据这些权重对值进行加权求和，得到最终的输出。

数学公式如下：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V

其中，(Q)、(K) 和 (V) 分别是查询、键和值的矩阵，(d_k) 是键的维度，(\sqrt{d_k}) 是为了防止点积值过大而进行的缩放操作。

Multi-Head Attention：多头注意力

在单一的注意力机制中，模型只能在一个子空间中捕捉信息。而在实际应用中，我们希望模型能够从多个不同的角度来理解信息。于是，Transformer 引入了多头注意力（Multi-Head Attention）机制。简单来说，模型会在不同的子空间中计算多个注意力，每个“头”会关注不同的信息。最后，这些信息会被拼接在一起，再通过一个线性变换得到最终的输出。

公式如下：

\text{MultiHead}(Q, K, V) = \text{Concat}(head_1, \dots, head_h) W^O

其中，每个头的计算方式为：

head_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i)

通过这种方式，Transformer 能够从多个维度关注输入数据，捕捉到更加丰富的信息。

Transformer 的结构：编码器和解码器

编码器（Encoder）

Transformer 的编码器由多个相同的层堆叠而成。每一层包含两个子层：一个是多头自注意力机制，另一个是位置前馈神经网络。每个子层之后都有残差连接和层归一化。通过这种结构，编码器能够逐层处理输入序列，并将信息传递到下一层。

解码器（Decoder）

解码器的结构与编码器类似，唯一不同的是它有一个额外的子层：编码器-解码器注意力机制。这个机制允许解码器在生成输出的每一步时，关注输入序列的相关部分。此外，解码器还需要通过遮掩机制，确保生成的输出仅依赖于之前的输出，从而保持自回归性质。

位置编码：为模型提供位置信息

由于 Transformer 完全依赖于注意力机制，而没有循环结构，因此它无法自动捕捉序列中各个元素的顺序信息。为了解决这个问题，Transformer 使用了位置编码（Positional Encoding）。位置编码通过将不同位置的信息加到输入序列的每个元素中，使得模型能够感知输入的顺序。Transformer 中使用的是一种基于正弦和余弦函数的方式：

PE(pos, 2i) = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)

PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)

其中，pos 是位置，i 是维度。通过这种方式，模型能够在学习过程中理解各个元素的相对位置。

结语

Transformer 的出现，标志着深度学习在自然语言处理领域的一次革命。它打破了传统的序列模型结构，提供了一种全新的思路。通过自注意力机制，Transformer 不仅提高了计算效率，还在很多任务中取得了突破性的成果。从机器翻译到文本生成，Transformer 架构已成为许多顶级 NLP 模型的基石。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S12#AI进化论

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S12#AI进化论

登录后参与评论

0 条评论

热度