Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文搞懂 Transformer 工作原理 !!

一文搞懂 Transformer 工作原理 !!

作者头像
JOYCE_Leo16
发布于 2024-03-19 09:09:45
发布于 2024-03-19 09:09:45
3.6K0
举报
文章被收录于专栏:计算机视觉计算机视觉

前言

本文将从单头Attention工作原理多头Attention工作原理全连接网络工作原理三个方面,实现一文搞懂Transformer的工作原理

Transformer工作原理


一、单头Attention工作原理

单头Attention(Single-Head Attention):单头注意力是一种注意力机制,它只求一次注意力。在这个过程中,对同样的查询(Q)、键(K)和值(V)求一次注意力,得到一个输出。这种机制允许模型从不同的表示子空间在不同位置关注信息。

Scaled Dot-Product(缩放点积运算)

  • Query、Key和Value矩阵:

Query矩阵(Q):表示当前的关注点或信息需求,用于与Key矩阵进行匹配。

Key矩阵(K):包含输入序列中各个位置的标识信息,用于被Query矩阵查询匹配。

Value矩阵(V):存储了与Key矩阵相对应的实际值或信息内容,当Query与某个Key匹配时,相应的Value将被用来计算输出。

  • 点积计算:

通过计算Query矩阵和Key矩阵之间的点积(即对应元素相乘后求和),来衡量Query与每个Key之间的相似度或匹配程度。

  • 缩放因子:

由于点积操作的结果可能非常大,尤其是在输入维度较高的情况下,这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题,缩放点积注意力引入了一个缩放因子,通常是输入维度的平方根。点积结果除以这个缩放因子,可以使得softmax函数的输入保持在一个合理的范围内。

  • Softmax函数:

将缩放后的点积结果输入到softmax函数中,计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布,使得所有Key的注意力权重之和为2。

工作原理:单头Attention通过计算每个token的查询向量与所有token的键向量的点积,并经过softmax归一化得到注意力权重,再将这些权重应用于值向量进行加权求和,从而生成每个token的自注意力输出表示。

  • 每个token对应的Query向量与每个token对应的Key向量做点积

对于输入序列中的每个token,我们都有一个对应的查询向量(Query Vector,Q)和键向量(Key Vector,K)。

我们计算每个查询向量与所有键向量的点积。

这个步骤是在所有token之间建立关系,表示每个token对其他token的“关注”程度。

QK向量点积运算

  • 将上述点积取softmax(得到0~1之间的值,即为Attention权重)

点积的结果需要经过一个softmax函数,确保所有token的注意力权重之和为1。softmax函数将点积结果转换为0到1之间的值,这些值表示了每个token相对于其他所有token的注意力权重。

计算Attention权重

  • 计算每个token相对于所有其他token的Attention权重(最终构成一个Attention矩阵)

经过softmax处理后的注意力权重构成了一个Attention矩阵。

这个矩阵的每一行对应一个token,每一列也对应一个token,矩阵中的每个元素表示了对应行token对列token的注意力权重。

构成Attention矩阵

  • 每个token对应的value向量乘以Attention权重,并相加,得到当前token的Self-Attention value向量

使用这个Attention矩阵来加权输入序列中的值向量(Value Vector,V)。

具体来说,对于每个token,我们将其对应的值向量与Attention矩阵中该token所在行的所有权重相乘,并将结果相加。

这个加权求和的结果就是该token经过自注意力机制处理后的输出表示。

加权求和Value向量

  • 将上述操作应用于每个token

上述操作会应用于输入序列中的每个token,从而得到每个token经过自注意力机制处理后的输出表示。

这些输出表示通常会被送到模型的下一个层进行进一步的处理。

应用于每个token

二、多头Attention工作原理

多头Attention(Multi-Head Attention):多头注意力机制通过并行运行多个Self-Attention层并综合其结果,能够同时捕捉输入序列在不同子空间中的信息,从而增强模型的表达能力。

  • Multi-Head Attention实际上是多个并行的Self-Attention层,每个“头”都独立地学习不同的注意力权重。
  • 这些“头”的输出随后被合并(通常是拼接后再通过一个线性层),以产生最终的输出表示。
  • 通过这种方式,Multi-Head Attention能够同时关注来自输入序列的不同子空间的信息。

Multi-Head Attention

工作原理:多头Attention将每个头得到向量拼接在一起,最后乘一个线性矩阵,得到Multi-Head Attention的输出。

  • 输入线性变换:对于输入的Query(查询)、Key(键)和Value(值)向量,首先通过线性变换将它们映射到不同的子空间。这些线性变换的参数是模型需要学习的。
  • 分割多头:经过线性变换后,Query、Key和Value向量被分割成多个头。每个头都会独立地进行注意力计算。
  • 缩放点积注意力:在每个头内部,使用缩放点积注意力来计算Query和Key之间的注意力分数。这个分数决定了在生成输出时,模型应该关注Value向量的部分。
  • 注意力权重应用:将计算出的注意力权重应用于Value向量,得到加权的中间输出。这个过程可以理解为根据注意力权重对输入信息进行筛选和聚焦。
  • 拼接和线性变换:将所有头的加权输出拼接在一起,然后通过一个线性变换得到最终的Multi-Head Attention输出。

拼接和线性变换

三、全连接网络工作原理

前馈网络(Feed-Forward Network):Transformer模型中,前馈网络用于将输入的词向量映射到输出的词向量,以提取更丰富的语义信息。前馈网络通常包括几个线性变换和非线性激活函数,以及一个残差连接和一个层归一化操作。

  • Encoder编码器:

Transformer中的编码器部分一共N个相同的编码器层组成。

每个编码器层都有两个子层,即多头注意力层(Multi-Head Attention)层和前馈神经网络(Feed-Forward Network)。

在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

Encoder(编码器)架构

  • Decoder解码器:

Transformer中的解码器部分同样一共N个相同的解码器层组成。

每个解码器层都有三个子层,掩蔽自注意力层(Masked Self-Attention)、Encoder-Decoder注意力层、前馈神经网络(Feed-Forward Network)。

同样,在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

Decoder(解码器)结构

工作原理:Multi-Head Attention的输出,经过残差和norm之后进入一个两层全连接网络。

全连接网络

参考:架构师带你玩转AI

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
神经网络算法 —— 一文搞懂Transformer !!
本文将从 Transformer的本质、Transformer的原理 和 Transformer架构改进三个方面,搞懂Transformer。
JOYCE_Leo16
2024/03/22
40.4K0
神经网络算法 —— 一文搞懂Transformer !!
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
随着Transformer模型的迅速普及,Self-Attention(自注意力机制)和Multi-Head Attention(多头注意力机制)成为了自然语言处理(NLP)领域中的核心组件。本文将从 简要工作、工作流程、两者对比三个方面,解析这两种注意力。
JOYCE_Leo16
2024/03/19
7K0
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
Transformer 工作原理
Transformer 是一种基于 自注意力机制(Self-Attention) 的深度学习模型架构,最初用于自然语言处理(NLP),但现已扩展到计算机视觉、语音处理等领域。以下是 Transformer 的工作原理及其核心机制的详细说明:
Linux运维技术之路
2025/02/04
6070
Transformer 工作原理
谷歌transformer模型简单介绍
谷歌的Transformer模型(2017年提出)是一种基于自注意力机制的神经网络架构,取代了传统的RNN和CNN,能并行处理序列数据。其核心是多头自注意力机制,结合编码器-解码器结构,高效捕捉长距离依赖关系。通过位置编码保留序列顺序信息,显著提升了机器翻译等任务的性能。该模型成为BERT、GPT等现代NLP技术的基础,并扩展至多模态领域。
zzh-dahai
2025/07/04
2160
Transformer 模型:入门详解(1)
众所周知,transformer 架构是自然语言处理 (NLP) 领域的一项突破。它克服了 seq-to-seq 模型(如 RNN 等)无法捕获文本中的长期依赖性的局限性。事实证明,transformer 架构是 BERT、GPT 和 T5 及其变体等革命性架构的基石。正如许多人所说,NLP 正处于黄金时代,可以说 transformer 模型是一切的起点。
数据科学工厂
2023/03/21
1.1K0
Transformer 模型:入门详解(1)
一文理解透Transformer
"Attention Is All You Need"是一篇于2017年发表的开创性论文,首次介绍了Transformer模型。
double
2024/04/11
2.9K0
一文理解透Transformer
原创 | 一文读懂Transformer
作者:陈之炎 本文约3500字,建议阅读7分钟Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。 主流的序列到序列模型是基于编码器-解码器的循环或卷积神经网络,注意力机制的提出,优化了编解码器的性能,从而使得网络性能达到最优。利用注意力机制构建出新的网络架构Transformer, 完胜了循环或卷积神经网络。Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。Transformer可以并行训练,训练时间更短。 1 Transfor
数据派THU
2022/07/12
4.7K0
原创 | 一文读懂Transformer
图解什么是 Transformer
Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
杨熹
2019/02/20
2.2K1
图解什么是 Transformer
神经网络结构——CNN、RNN、LSTM、Transformer !!
本文将从什么是CNN?什么是RNN?什么是LSTM?什么是Transformer?四个问题,简单介绍神经网络结构。
JOYCE_Leo16
2024/03/19
36.1K0
神经网络结构——CNN、RNN、LSTM、Transformer !!
Transformer 原理解析
本文是对 Transformer 原始论文( Attention Is All You Need )的解读。
口仆
2020/08/17
1.7K1
Transformer 原理解析
NLP界最强特征提取器--Transformer
前面介绍NLP领域词向量技术的时候提到了目前最炙手可热的语言模型BERT,而BERT之所以能取得这样的瞩目成就,离不开其采用的超强特征提取器Transformer。
流川枫
2020/04/24
5.2K0
深入剖析Transformer架构中的多头注意力机制
多头注意力(Multi-Head Attention)是一种在Transformer模型中被广泛采用的注意力机制扩展形式,它通过并行地运行多个独立的注意力机制来获取输入序列的不同子空间的注意力分布,从而更全面地捕获序列中潜在的多种语义关联。
zhouzhou的奇妙编程
2025/01/31
5.5K0
自注意力机制(Self-Attention)
普通自注意力(Self-Attention)的工作原理主要是让模型能够关注输入序列中不同位置的信息,并根据这些信息来生成当前位置的输出。它是Transformer模型中的一个关键组件,尤其在处理序列数据(如文本、语音等)时表现出色。
jack.yang
2025/04/05
4140
自注意力机制(Self-Attention)
从头开始了解Transformer
编者按:自2017年提出以来,Transformer在众多自然语言处理问题中取得了非常好的效果。它不但训练速度更快,而且更适合建模长距离依赖关系,因此大有取代循环或卷积神经网络,一统自然语言处理的深度模型江湖之势。我们(赛尔公众号)曾于去年底翻译了哈佛大学Alexander Rush教授撰写的《Transformer注解及PyTorch实现》一文,并获得了广泛关注。近期,来自荷兰阿姆斯特丹大学的Peter Bloem博士发表博文,从零基础开始,深入浅出的介绍了Transformer模型,并配以PyTorch的代码实现。我非常喜欢其中对Self-attention(Transformer的核心组件)工作基本原理进行解释的例子。此外,该文还介绍了最新的Transformer-XL、Sparse Transformer等模型,以及基于Transformer的BERT和GPT-2等预训练模型。我们将其翻译为中文,希望能帮助各位对Transformer感兴趣,并想了解其最新进展的读者。
AI科技评论
2019/08/29
1.8K0
从头开始了解Transformer
Transformer架构
Transformer架构是一种深度学习模型,主要用于自然语言处理任务。它由Google在2017年提出,其核心思想是通过自注意力(Self-Attention)机制,使模型能够同时处理多个位置的输入,从而更好地捕捉输入数据中的长距离依赖关系。
七条猫
2024/09/15
5710
Transformer架构
Transformer+self-attention超详解(亦个人心得)
链接|https://zhuanlan.zhihu.com/p/432814387
zenRRan
2021/12/09
6.2K2
Transformer+self-attention超详解(亦个人心得)
AI生成中Transformer模型
在深度学习中,有很多需要处理时序数据的任务,比如语音识别、文本理解、机器翻译、音乐生成等。
Dlimeng
2023/12/20
8470
AI生成中Transformer模型
【人工智能】第二部分:ChatGPT的架构设计和训练过程
ChatGPT的核心架构是基于Transformer解码器。Transformer解码器主要由多个堆叠的解码器层(Decoder Layer)组成,每个层包括以下几个关键组件:
人不走空
2024/06/03
5640
【人工智能】第二部分:ChatGPT的架构设计和训练过程
Attension is All You Need 论文笔记
主流的序列转换模型(dominant sequence transduction models)都是基于复杂的递归神经网络或者卷积神经网络,包括一个编码器(encoder)和一个解码器(decoder)
Mezereon
2020/06/23
6430
Attension is All You Need 论文笔记
【人工智能】第一部分:ChatGPT的基本概念和技术背景
随着人工智能技术的不断发展,自然语言处理(NLP)领域取得了显著的进步。ChatGPT,作为一种先进的对话生成模型,展现了令人瞩目的语言理解和生成能力。本文将深入探讨ChatGPT的原理,从基础概念到技术细节,帮助读者全面了解这一革命性技术。
人不走空
2024/06/03
9890
【人工智能】第一部分:ChatGPT的基本概念和技术背景
推荐阅读
相关推荐
神经网络算法 —— 一文搞懂Transformer !!
更多 >
交个朋友
加入HAI高性能应用服务器交流群
探索HAI应用新境界 共享实践心得
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维工作实战群
高并发系统设计 运维自动化实践
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档