前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Transformer又又又升级了?

Transformer又又又升级了?

作者头像
炼丹笔记
发布2021-09-26 15:28:42
5230
发布2021-09-26 15:28:42
举报
文章被收录于专栏:炼丹笔记

作者:时晴

Transformer,一个nlp绕不开的话题,现在连推荐和图像也绕不开了。这么强大的模型倒不是没有缺点,例如训练预估慢就是它的硬伤,所以常常受资源/时间等限制,都会优先尝试tiny-bert等较小的模型去处理,但是论文表明这种处理对效果是有一定影响的。有没有又快又好的模型呢?它来了-Fastformer,不仅线性复杂度,还刷新了很多榜单。

fastformer

先温习下transformer中的self-attention,如下图所示:

我们可以看到query中每个向量都需要与key中的向量做点积,才能最终得到最终向量。让我们再看看fastformer:

我们可以看到query中所有向量通过additive attention聚合成了一个全局向量,然后和key做element-wise乘法,又通过additive attention聚合成全局key向量,最后和value做element-wise后做线性变换得到r1~rN,最后输出q1+r1, q2+r2, q3+r3。

additive attention, wq和wk是可学习的参数:

实验

参考文献

1、https://arxiv.org/pdf/2108.09084.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档