Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >自注意力机制(Self-attention)

自注意力机制(Self-attention)

作者头像
卡伊德
发布于 2022-09-13 07:07:24
发布于 2022-09-13 07:07:24
1.6K0
举报
文章被收录于专栏:caidblogcaidblog

自注意力机制(Self-attention)

背景

最近,学了好多东西,今天看了一下李飞飞老师讲解的自注意力机制,因此在这记录一下,以供日后复习,同时自己学习消化知识也好。

综述

一般来说,模型的输入输出有三种:

  • N个输入,经过模型计算后,输出N个结果,也就是对输入向量进行计算,从而得到每个向量对应的输出值。
  • N个输入,送入模型进行计算,最终得到一个结果。这就是平时常见的比如,文本分类、情感分析等。
  • 任意个输入,输出任意个输出。这种在生活中也较为常见,比如机器翻译,对于一句话,不同的语言会包含不同个词。

此文先讲讲第一种,也就是说N个输入,得出N个结果,这种模型一般形式如下图所示。

在图中可以看到,a表示对输入数据进行处理之后,作为self-attention的输入,从而得到b。其中,在得到每个b的过程中,都会考虑到输入的每个元素,包括a1, a2, a3, a4。这样对于输出的结果更合理。

对于中间那一块深色的模块,就是自注意力机制的核心。在注意力机制中,首先需要计算注意力得分,比如:在进行计算第一元素时,需要考虑其他三个元素的情况,在计算第一个元素时,分别考虑其他每个元素的权重,给每个元素打分,重要性越大则分数越高。

其计算得分的流程如图下所示。

在上图中可以得到,自注意力机制在计算第一个元素时流程为:

  1. 首先,给输入向量每个元素,分别乘以两个举证Wq和Wk,从而计算出q1和ki。
  2. 然后,将q1和ki分别相乘,得到每个元素的分数。
  3. 为了得到更好的结果,对每个分数进行一次soft-max。

最后,将每个分数按图上公式进行计算,得到输出在计算每个元素时,对应考虑其他元素的注意力分数。

在得到分数之后,可以通过以下图得到b,具体如下图所示。

在上图中,结合计算注意力得分的图,可以看出,在得出注意力分数之后,在将分数和vi进行相乘之后,再进行加权求和,即可得到b1。用同样的分数可以的b2,b3,b4。

矩阵形式

为了方便计算,一般会通过矩阵形式来计算,如图所示。

在上图中可以清楚的看到,在进行自注意力中用矩阵形式进行计算过程。

其中I为输入向量进行拼接后的举证,Q、K、V矩阵为每个输入向量对应的q、k、v进行拼接后的矩阵。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
图解自注意力机制(Self-Attention)
传统的Attention机制发生在Target的元素和Source中的所有元素之间。
机器学习AI算法工程
2024/04/11
2.7K0
图解自注意力机制(Self-Attention)
图解Transformer(完整版)!
审稿人:Jepson,Datawhale成员,毕业于中国科学院,目前在腾讯从事推荐算法工作。
Datawhale
2020/11/06
1.8K0
图解Transformer(完整版)!
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
随着Transformer模型的迅速普及,Self-Attention(自注意力机制)和Multi-Head Attention(多头注意力机制)成为了自然语言处理(NLP)领域中的核心组件。本文将从 简要工作、工作流程、两者对比三个方面,解析这两种注意力。
JOYCE_Leo16
2024/03/19
6.9K0
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
Self Attention 自注意力机制
在谈论self attention之前我们首先认识一下以KQV模型来解释的Attention机制。
Steve Wang
2020/03/18
12.4K0
Self Attention 自注意力机制
收藏!各种各样神奇的自注意力机制(Self-attention)
总结下关于李宏毅老师在 2022 年春季机器学习课程中关于各种注意力机制介绍的主要内容,也是相对于 2021 年课程的补充内容。参考视频见:
NewBeeNLP
2022/11/17
1.9K0
收藏!各种各样神奇的自注意力机制(Self-attention)
Transformer 模型:入门详解(1)
众所周知,transformer 架构是自然语言处理 (NLP) 领域的一项突破。它克服了 seq-to-seq 模型(如 RNN 等)无法捕获文本中的长期依赖性的局限性。事实证明,transformer 架构是 BERT、GPT 和 T5 及其变体等革命性架构的基石。正如许多人所说,NLP 正处于黄金时代,可以说 transformer 模型是一切的起点。
数据科学工厂
2023/03/21
1.1K0
Transformer 模型:入门详解(1)
自注意力机制(Self-Attention)
普通自注意力(Self-Attention)的工作原理主要是让模型能够关注输入序列中不同位置的信息,并根据这些信息来生成当前位置的输出。它是Transformer模型中的一个关键组件,尤其在处理序列数据(如文本、语音等)时表现出色。
jack.yang
2025/04/05
3900
自注意力机制(Self-Attention)
小白看得懂的图解Transformer
Trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络
算法进阶
2023/10/23
2.1K0
小白看得懂的图解Transformer
注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制
Transformer[^1]论文中使用了注意力Attention机制,注意力Attention机制的最核心的公式为:
PP鲁
2022/09/20
18.2K0
注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制
图解什么是 Transformer
Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
杨熹
2019/02/20
2.2K1
图解什么是 Transformer
【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解
self-attention是一种通过自身和自身进行关联的attention机制, 从而得到更好的representation来表达自身.
小言从不摸鱼
2024/11/24
4250
【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解
注意力机制详解
我们观察事物时,之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断,而并非是从头到尾的观察一遍事物后,才能有判断结果. 正是基于这样的理论,就产生了注意力机制。
@小森
2024/06/02
6080
注意力机制详解
探索大语言模型:理解Self Attention
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
京东技术
2024/06/11
3830
探索大语言模型:理解Self Attention
Transformer+self-attention超详解(亦个人心得)
链接|https://zhuanlan.zhihu.com/p/432814387
zenRRan
2021/12/09
6.2K2
Transformer+self-attention超详解(亦个人心得)
Transformer 网络
从整体框架来讲,Transformer其实就是encode-decode框架,即就是编码解码。只不过在编码和解码的内部比较复杂,经过了多次复杂计算。
卡伊德
2022/09/13
5420
Transformer 网络
深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,Dropout,Drop Connect】等
在深度学习领域,模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,这种情况就非常适合Attention机制发光发热。
汀丶人工智能
2023/04/22
1.3K0
深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,Dropout,Drop Connect】等
自注意力机制(Self-Attention)的基本知识
Transformers是机器学习(ML)中一个令人兴奋的(相对)新的部分,但是在理解它们之前,有很多概念需要分解。这里我们关注的是基本的Self-Attention机制是如何工作的,这是Transformers模型的第一层。本质上,对于每个输入向量,Self-Attention产生一个向量,该向量在其邻近向量上加权求和,其中权重由单词之间的关系或连通性决定。
deephub
2020/07/07
3.9K0
自注意力机制(Self-Attention)的基本知识
一文读懂自注意力机制:8大步骤图解+代码
新智元报道 来源:towardsdatascience 作者:Raimi Karim 编辑:肖琴 【新智元导读】NLP领域最近的快速进展离不开基于Transformer的架构,本文以图解+代码的形式,带领读者完全理解self-attention机制及其背后的数学原理,并扩展到Transformer。来 新智元AI朋友圈 和AI大咖们一起讨论吧。 BERT, RoBERTa, ALBERT, SpanBERT, DistilBERT, SesameBERT, SemBERT, MobileBERT
新智元
2019/11/28
1.5K0
一文读懂自注意力机制:8大步骤图解+代码
干货 | Attention注意力机制超全综述
Attention机制通俗的说,对于某个时刻的输出y,它在输入x上各个部分上的注意力,这里的注意力也就是权重,即输入x的各个部分对某时刻输入y贡献的权重,在此基础上我们先来简单理解一下Transformer模型中提到的self-attention和context-attention
zenRRan
2019/08/05
17.5K0
干货 | Attention注意力机制超全综述
自注意力层(Self-Attention Layer)
自注意力层(Self-Attention Layer)是Transformer架构中的一个核心组件,它使得模型能够捕捉到输入序列中不同位置之间的依赖关系,而无需依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN)的结构。以下是对自注意力层的详细解析:
jack.yang
2025/04/05
2530
相关推荐
图解自注意力机制(Self-Attention)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档