Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >自注意力机制(Self-attention)

自注意力机制(Self-attention)

作者头像
卡伊德
发布于 2022-09-13 07:07:24
发布于 2022-09-13 07:07:24
1.5K0
举报
文章被收录于专栏:caidblogcaidblog

自注意力机制(Self-attention)

背景

最近,学了好多东西,今天看了一下李飞飞老师讲解的自注意力机制,因此在这记录一下,以供日后复习,同时自己学习消化知识也好。

综述

一般来说,模型的输入输出有三种:

  • N个输入,经过模型计算后,输出N个结果,也就是对输入向量进行计算,从而得到每个向量对应的输出值。
  • N个输入,送入模型进行计算,最终得到一个结果。这就是平时常见的比如,文本分类、情感分析等。
  • 任意个输入,输出任意个输出。这种在生活中也较为常见,比如机器翻译,对于一句话,不同的语言会包含不同个词。

此文先讲讲第一种,也就是说N个输入,得出N个结果,这种模型一般形式如下图所示。

在图中可以看到,a表示对输入数据进行处理之后,作为self-attention的输入,从而得到b。其中,在得到每个b的过程中,都会考虑到输入的每个元素,包括a1, a2, a3, a4。这样对于输出的结果更合理。

对于中间那一块深色的模块,就是自注意力机制的核心。在注意力机制中,首先需要计算注意力得分,比如:在进行计算第一元素时,需要考虑其他三个元素的情况,在计算第一个元素时,分别考虑其他每个元素的权重,给每个元素打分,重要性越大则分数越高。

其计算得分的流程如图下所示。

在上图中可以得到,自注意力机制在计算第一个元素时流程为:

  1. 首先,给输入向量每个元素,分别乘以两个举证Wq和Wk,从而计算出q1和ki。
  2. 然后,将q1和ki分别相乘,得到每个元素的分数。
  3. 为了得到更好的结果,对每个分数进行一次soft-max。

最后,将每个分数按图上公式进行计算,得到输出在计算每个元素时,对应考虑其他元素的注意力分数。

在得到分数之后,可以通过以下图得到b,具体如下图所示。

在上图中,结合计算注意力得分的图,可以看出,在得出注意力分数之后,在将分数和vi进行相乘之后,再进行加权求和,即可得到b1。用同样的分数可以的b2,b3,b4。

矩阵形式

为了方便计算,一般会通过矩阵形式来计算,如图所示。

在上图中可以清楚的看到,在进行自注意力中用矩阵形式进行计算过程。

其中I为输入向量进行拼接后的举证,Q、K、V矩阵为每个输入向量对应的q、k、v进行拼接后的矩阵。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
图解自注意力机制(Self-Attention)
传统的Attention机制发生在Target的元素和Source中的所有元素之间。
机器学习AI算法工程
2024/04/11
1.9K0
图解自注意力机制(Self-Attention)
自注意力机制(Self-Attention)
普通自注意力(Self-Attention)的工作原理主要是让模型能够关注输入序列中不同位置的信息,并根据这些信息来生成当前位置的输出。它是Transformer模型中的一个关键组件,尤其在处理序列数据(如文本、语音等)时表现出色。
jack.yang
2025/04/05
2030
自注意力机制(Self-Attention)
收藏!各种各样神奇的自注意力机制(Self-attention)
总结下关于李宏毅老师在 2022 年春季机器学习课程中关于各种注意力机制介绍的主要内容,也是相对于 2021 年课程的补充内容。参考视频见:
NewBeeNLP
2022/11/17
1.9K0
收藏!各种各样神奇的自注意力机制(Self-attention)
【DL】Self-Attention与Transformer
答:编码器-解码器(Encoder-Decoder)模型最初是由Cho等提出应用在机器翻译中。由于在机器翻译中是文本到文本的转换,比如将法语翻译成英语,Sutskever等也称编码器-解码器模型为序列到序列学习(Seq2Seq)。
yuquanle
2020/02/25
1.1K0
广告行业中那些趣事系列46:一文看懂Transformer中attention的来龙去脉
摘要:本篇重点介绍了Transformer中attention的来龙去脉。首先回顾了Transformer中注意力机制的计算流程;然后通过图解的方式详细介绍了self-attention,剖析公式理解self-attention核心是经过注意力机制加权求和;最后对比了Transformer中attention和self-attention的区别和联系,不仅要理解注意力机制的计算流程,而且要明白注意力机制背后的意义。对于希望进一步了解Transformer中attention机制的小伙伴可能有所帮助。
数据拾光者
2022/05/05
1K0
广告行业中那些趣事系列46:一文看懂Transformer中attention的来龙去脉
注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制
Transformer[^1]论文中使用了注意力Attention机制,注意力Attention机制的最核心的公式为:
PP鲁
2022/09/20
16K0
注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制
干货 | Attention注意力机制超全综述
Attention机制通俗的说,对于某个时刻的输出y,它在输入x上各个部分上的注意力,这里的注意力也就是权重,即输入x的各个部分对某时刻输入y贡献的权重,在此基础上我们先来简单理解一下Transformer模型中提到的self-attention和context-attention
zenRRan
2019/08/05
17.3K0
干货 | Attention注意力机制超全综述
探索大语言模型:理解Self Attention
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
京东技术
2024/06/11
2920
探索大语言模型:理解Self Attention
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
随着Transformer模型的迅速普及,Self-Attention(自注意力机制)和Multi-Head Attention(多头注意力机制)成为了自然语言处理(NLP)领域中的核心组件。本文将从 简要工作、工作流程、两者对比三个方面,解析这两种注意力。
JOYCE_Leo16
2024/03/19
5.8K0
Self-Attention 和 Multi-Head Attention 的区别——附最通俗理解!!
图解什么是 Transformer
Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
杨熹
2019/02/20
2.1K1
图解什么是 Transformer
图解Transformer(完整版)!
审稿人:Jepson,Datawhale成员,毕业于中国科学院,目前在腾讯从事推荐算法工作。
Datawhale
2020/11/06
1.5K0
图解Transformer(完整版)!
【组队学习】Task02:学习Attention和Transformer
datawhale8月组队学习 -基于transformers的自然语言处理(NLP)入门
诡途
2022/01/07
4320
【组队学习】Task02:学习Attention和Transformer
Transformer
Transformer来自于谷歌的工作attention is you need!
opprash
2020/01/14
8700
小白看得懂的图解Transformer
Trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络
算法进阶
2023/10/23
1.9K0
小白看得懂的图解Transformer
Self Attention 自注意力机制
在谈论self attention之前我们首先认识一下以KQV模型来解释的Attention机制。
Steve Wang
2020/03/18
12.4K0
Self Attention 自注意力机制
为什么出现Transformer:传统RNN的问题;Attention(注意力机制)和Self-Attention(自注意力机制)区别
​推荐文章:深入探索MyBatis-Plus:高效实现字段模糊查询的秘诀-腾讯云开发者社区-腾讯云
zhangjiqun
2024/11/19
1440
【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解
self-attention是一种通过自身和自身进行关联的attention机制, 从而得到更好的representation来表达自身.
小言从不摸鱼
2024/11/24
3400
【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解
注意力机制详解
我们观察事物时,之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断,而并非是从头到尾的观察一遍事物后,才能有判断结果. 正是基于这样的理论,就产生了注意力机制。
@小森
2024/06/02
4300
注意力机制详解
视觉注意力机制 | Non-local模块与Self-attention的之间的关系与区别?
计算机视觉(computer vision)中的注意力机制(attention)的基本思想就是想让系统学会注意力——能够忽略无关信息而关注重点信息。
BBuf
2020/03/05
5.1K0
广告行业中那些趣事系列4:详解从配角到C位出道的Transformer
摘要:上一篇广告行业中那些趣事系列3:NLP中的巨星BERT,从理论的角度讲了下NLP中有里程碑意义的BERT模型。BERT具有效果好和通用性强两大优点,其中效果好最主要的原因就是使用了Transformer作为特征抽取器。本篇主要详解下这个从配角到C位出道的Transformer,主要从宏观和微观的角度分析Transformer,讲下它的核心注意力机制Attention,然后以翻译任务举例讲下Transformer是如何进行工作的。
数据拾光者
2022/05/05
2710
广告行业中那些趣事系列4:详解从配角到C位出道的Transformer
推荐阅读
相关推荐
图解自注意力机制(Self-Attention)
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档