Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”

比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”

作者头像
量子位
发布于 2022-09-20 09:14:20
发布于 2022-09-20 09:14:20
6560
举报
文章被收录于专栏:量子位量子位
丰色 发自 凹非寺 量子位 | 公众号 QbitAI

尽管Transformer已经开始在诸多视觉任务上“大展身手”,但还有一个问题。

那就是在处理大图像上计算比较费劲。

比如面对一个1080p的图时,它会有超过60%的计算量都耗费在了创建和应用注意矩阵上。

究其原因,主要是因为自注意力头的数量是token的平方,而token的数量又与图形大小呈二次方的关系。

那能怎么办呢?

好消息是——

现在Meta捣鼓出了一种多头注意力操作方法,可以做到足足比标准注意力快197倍

而且在提高计算速度的同时,它也不会牺牲准确率,有时甚至还能将准确率提高1-2个点。

具体怎么回事儿?

思路来源一个“矛盾点”

这个方法名叫Hydra Attention,主要针对Vision Transformer。

(“Hydra”有“九头蛇”之义,来自希腊神话。)

Hydra Attention的思路源于线性注意力中的一种有点矛盾的点:

使用标准的多头自注意力,再向模型中添加更多头可以保持计算量不变。

而在线性注意力中改变操作顺序后,增加更多的头实际上还会降低层的计算成本。

于是,作者通过将模型中的注意力头数量设置成特征(feature),创建出一个token和feature的计算都是线性的注意力模块,从而把上述特性发挥到极致。

具体来说:

当标准自注意力头是token数的平方(O(T2D))时,通过使用可分解核(decomposable kernel),我们重新安排操作顺序,让注意力头的数量变为特征D的平方。

然后再使用Hydra Trick,最大化注意力头H的数量,让H=D,最终就可以化为一个在空间和时间上的O(TD)简化操作了。

其中,Hydra Trick的依据见下图:

作者在ImageNet-1k上训练了具有不同头数的DeiT-B模型,包括使用标准自注意力(蓝线,基于softmax)和使用多头线性注意(红线,基于余弦相似性)的。

前者在H>96、后者在H<3时出现内存不足的情况。

当他们往模型中添加更多的头时,Softmax注意力模型的准确性似乎会崩溃,而多头线性注意力仍可以保持一致,因此就有了上述操作。

(需要注意的是,H必须除以D=768。)

速度快197倍,准确率还能更上层楼

来看看Hydra Attention交出的成绩单。

可以看到,Hydra注意力比标准注意力快197倍(T=197)。

随着图像大小的增加,它显著提高了模型的FLOP数,在创建和应用注意力矩阵所占的计算量上也始终只有0.02%

除此之外,作者发现,使用不同的内核,Hydra Attention还能让模型的准确率提高大约两个百分点。

或者用Hydra Attention替换特定的注意力层,也能将模型的精度在ImageNet上提高1%或者与基线维持不变。

当然,最多可替换8层。

另外,作者表示,这个方法应该可以扩展到NLP领域,不过他们还没试。

作者介绍

这篇成果已入选ECCV 2022 Workshop

作者一共5位,分别来自Meta AI和佐治亚理工学院。

其中华人3名,分别是:

Cheng-Yang Fu,本硕毕业于清华大学,博士毕业于美国北卡罗来纳大学教堂山分校,现在是Meta计算机视觉方面的研究科学家。

Xiaoliang Dai,本科毕业于北大,博士毕业于普林斯顿大学,同就职于Meta。

Peizhao Zhang,本硕毕业于中山大学,博士于美国德克萨斯A&M大学,已在Meta工作五年。

论文地址: https://arxiv.org/abs/2209.07484

参考链接: https://www.reddit.com/r/MachineLearning/comments/xgqwvu/r_hydra_attention_efficient_attention_with_many/

人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位哦 ~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
2450
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
挖掘极致,将head数设置为特征数,Meta AI多头高效注意力模块更准、更快
机器之心报道 编辑:杜伟、陈萍 研究者表示,他们提出的多头高效注意力 Hydra Attention 保留了注意力的可解释性等优点,能够同时提升基线 DeiT-B 模型的准确率和速度。 得益于自身的泛化性以及从大规模数据中学习的能力,Transformers 成为过去几年自然语言处理领域的主导技术。并且随着 Vision Transformers(ViTs)的出现,视觉领域也出现了类似的趋势。但我们应该看到,在 NLP 中使用 BERT 或在视觉中使用 ViT 得到的 Transformers 纯实例化并不
机器之心
2022/09/20
6870
挖掘极致,将head数设置为特征数,Meta AI多头高效注意力模块更准、更快
如何做深ViT模型?NUS、字节:引入Re-attention机制,实现强大性能
视觉 transformer (ViT) 现已成功地应用于图像分类任务。近日,来自新加坡国立大学和字节跳动美国 AI Lab 的研究者表明,不同于卷积神经网络通过堆叠更多的卷积层来提高性能,ViT 的性能在扩展至更深时会迅速饱和。
机器之心
2021/06/08
6960
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
这次Mamba作者Tri Dao、华人AI领域大牛Eric P. Xing等联手MIT、普林斯顿、CMU等机构的研究人员,提出了全新的注意力机制:对数线性注意力(Log-Linear Attention)。
新智元
2025/06/09
1200
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
深度学习算法中的基于自注意力机制的神经网络(Neural Networks with Self-Attention Mechanism)
自注意力机制是一种在神经网络中实现信息自相关性的方法。它通过计算输入信息之间的相关性,对输入数据的重要性进行加权处理。在传统的神经网络中,信息从输入层逐层传递,每个神经元只能接收来自上一层的信息。而自注意力机制则打破了这一限制,允许每个神经元同时接收来自所有层次的信息,从而更有效地捕捉输入数据的内在联系。
大盘鸡拌面
2023/09/27
1.5K0
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。
deephub
2024/04/03
7.8K0
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
深入解读多头自注意力机制:原理与实践
在现代深度学习模型中,多头自注意力机制(Multi-head Self-attention)是 Transformer 架构的核心组件。它的引入极大地提升了自然语言处理(NLP)任务的效果,使得模型能够高效捕捉长距离的上下文关系,从而在机器翻译、文本生成和语义理解等任务中表现出色。
编程小妖女
2025/01/08
3.1K0
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳,对Transformer工作原理的相关研究仍然十分有限。
新智元
2023/08/05
2370
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
1000000000!微软改进Transformer一次能记住这么多token了
而能够只用1分钟看完一本数万字小说的Claude,其token数也不过“才”100k(10万)。
量子位
2023/08/05
2790
1000000000!微软改进Transformer一次能记住这么多token了
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
Visual Transformer(ViT)作为计算机视觉领域的新兴霸主,已经在各个研究任务中逐渐替换掉了卷积神经网络CNN。
新智元
2022/02/24
1K0
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
深入剖析Transformer架构中的多头注意力机制
多头注意力(Multi-Head Attention)是一种在Transformer模型中被广泛采用的注意力机制扩展形式,它通过并行地运行多个独立的注意力机制来获取输入序列的不同子空间的注意力分布,从而更全面地捕获序列中潜在的多种语义关联。
zhouzhou的奇妙编程
2025/01/31
3.9K0
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
王家豪,香港大学计算机系二年级博士,导师为罗平教授,研究方向为神经网络轻量化。硕士毕业于清华大学自动化系,已在 NeurIPS、CVPR 等顶级会议上发表了数篇论文。
机器之心
2025/02/03
1090
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024
论文: You Only Need Less Attention at Each Stage in Vision Transformers
VincentLee
2024/09/02
1360
LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024
Nucleic Acids Res. | DM3Loc:基于多头自注意力机制的多标签mRNA亚细胞定位预测和分析
今天给大家介绍的是密苏里大学许东课题组,电子科技大学林昊教授课题组、以及南方医科大学王栋教授课题组联合发表在“NUCLEIC ACIDS RESEARCH”上的一篇文章” DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism”。信使RNA的亚细胞定位能够对转录过程进行准确和有效的控制,这对了解mRNA的功能十分重要,然而相关的方式较少并且性能有待提高。作者在这篇文章中提出了一种多头自注意力的方式DM3Loc用于多标签mRNA亚细胞定位预测。实验表明该模型优于现有其它模型。该模型具有分析RNA结合蛋白基序和mRNA关键信号进行亚细胞定位的解释能力。此外作者分析证明了mRNA同种特异性亚细胞定位的观点和mRNA亚细胞定位的基因本体论的基因富集性研究。
智能生信
2021/03/19
8840
Nucleic Acids Res. | DM3Loc:基于多头自注意力机制的多标签mRNA亚细胞定位预测和分析
【现代深度学习技术】注意力机制05:多头注意力
深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。 【GitCode】专栏资源保存在我的GitCode仓库:https://gitcode.com/Morse_Chen/PyTorch_deep_learning。
Francek Chen
2025/05/13
330
【现代深度学习技术】注意力机制05:多头注意力
Transformer中多头是串行链接还是并行连接的;多头注意力与并行计算能力
在Transformer模型中,多头注意力(Multi-Head Attention)的多个“头”是并行连接的。这种设计允许模型在不同的表示空间中并行地计算多个注意力机制,从而能够捕捉输入序列中不同方面的信息。
zhangjiqun
2024/08/07
4030
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
集智书童公众号
2023/09/04
1.7K0
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周主要论文包括英国帝国理工学院用无人机 3D 打印房子;哈佛大学新型固态锂电池 3 分钟充满电,可循环超 10000 次。 目录: Aerial additive manufacturing with multiple autonomous robots A dynamic stability design strategy for lithium metal solid state batteries Multi
机器之心
2022/09/26
5230
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
苹果让Transformer抛弃注意力机制,一切只为效率,项目已开源丨华人一作
2017年,一句Attention Is All You Need引爆了整个NLP圈,甚至在近些年还有踢馆计算机视觉领域的趋势。
量子位
2021/06/17
3620
哈希算法、爱因斯坦求和约定,这是2020年的注意力机制
注意力机制是非常优美而神奇的机制,在神经网络「信息过载」的今天,让 NN 学会只关注特定的部分,无疑会大幅度提升任务的效果与效率。借助注意力机制,神经机器翻译、预训练语言模型等任务获得了前所未有的提升。
机器之心
2020/04/01
8260
哈希算法、爱因斯坦求和约定,这是2020年的注意力机制
推荐阅读
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
2450
挖掘极致,将head数设置为特征数,Meta AI多头高效注意力模块更准、更快
6870
如何做深ViT模型?NUS、字节:引入Re-attention机制,实现强大性能
6960
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
1200
深度学习算法中的基于自注意力机制的神经网络(Neural Networks with Self-Attention Mechanism)
1.5K0
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
7.8K0
深入解读多头自注意力机制:原理与实践
3.1K0
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
2370
1000000000!微软改进Transformer一次能记住这么多token了
2790
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
1K0
深入剖析Transformer架构中的多头注意力机制
3.9K0
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
1090
LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024
1360
Nucleic Acids Res. | DM3Loc:基于多头自注意力机制的多标签mRNA亚细胞定位预测和分析
8840
【现代深度学习技术】注意力机制05:多头注意力
330
Transformer中多头是串行链接还是并行连接的;多头注意力与并行计算能力
4030
即插即用 | 清华大学提出Focused Linear Attention取代Self-Attention成为ViT的新宠
1.7K0
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
5230
苹果让Transformer抛弃注意力机制,一切只为效率,项目已开源丨华人一作
3620
哈希算法、爱因斯坦求和约定,这是2020年的注意力机制
8260
相关推荐
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档