Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >重磅开源!屠榜各大CV任务!最强骨干网络:Swin Transformer来了

重磅开源!屠榜各大CV任务!最强骨干网络:Swin Transformer来了

作者头像
AI算法与图像处理
发布于 2021-04-21 05:05:47
发布于 2021-04-21 05:05:47
1.3K00
代码可运行
举报
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
复制

Swin Transformer 代码于2021年4月13日凌晨刚刚开源!

Swin Transformer Official Code已经release啦:

Image Classification:

https://github.com/microsoft/Swin-Transformer

Object Detection:

https://github.com/SwinTransformer/Swin-Transformer-Object-Detection

Semantic Segmentation:

https://github.com/SwinTransformer/Swin-Transformer-Semantic-Segmentation

来源:https://www.zhihu.com/question/451860144/answer/1832191113

Transformer 在CV上的应用前景

在Attention is all you need那篇文章出来之后,就一直在思考一个问题:从建模的基本单元来看,self-attention module到底在vision领域能做什么?从现在回头看,主要尝试的就是两个方向:

1. 作为convolution的补充。绝大多数工作基本上都是从这个角度出发的,比如relation networks、non-local networks、DETR,以及后来的一大批改进和应用。其中一部分是从long-range dependency引入,某种程度上是在弥补convolution is too local;另一部分是从关系建模引入,例如建模物体之间或物体与像素之间的关系,也是在做一些conv做不了的事。

2. 替代convolution。在这个方向上尝试不多,早期有LocalRelationNet、Stand-alone Self-attention Net。如果仅看结果,这些工作基本上已经可以做到替换掉3x3 conv不掉点,但有一个通病就是速度慢,即使是写kernel依然抵不过对conv的强大优化,导致这一类方法在当时并没有成为主流。

到这个时候(2020年左右),我自己其实有一种到了瓶颈期的感觉,作为conv的补充好像做的差不多了,后续的工作也都大同小异,替代conv因为速度的问题难以解决而遥遥无期。

没想到的是,Vision Transformer(ViT)在2020年10月横空出世。

ViT的出现改变了很多固有认知,我的理解主要有两点:1. locality(局部性);2. translation invariance(平移不变性)。从模型本身的设计角度,ViT并不直接具有这两个性质,但是它依然可以work的很好,虽然是需要大数据集的。但DeiT通过尝试各种tricks使得ViT可以只需要ImageNet-1k就可以取得非常不错的性能,使得直接上手尝试变得没那么昂贵。

其实对ViT的accuracy我个人不是特别惊讶,一方面是因为之前在local relation那一系列已经证明了self-attention有替代conv的能力,另一方面是因为19年iclr有一篇paper叫BagNet,证明了直接切patch过网络,在网络中间patch之间没有交互,最后接一个pooling再做classification,结果也已经不错了,在这个的基础上加上self-attention效果更好是可以理解的。

我个人其实惊讶于ViT/DeiT的latency/acc curve,在local relation net里速度是最大的瓶颈,为什么ViT可以速度这么快?仔细对比ViT与local relation可以发现,这里一个很大的区别是,ViT中不同的query是share key set的,这会使得内存访问非常友好而大幅度提速。一旦解决了速度问题,self-attention module在替代conv的过程中就没有阻力了。

基于这些理解,我们组提出了一个通用的视觉骨干网络,Swin Transformer [paper] [code],在这里简单介绍一下。

https://arxiv.org/abs/2103.14030 https://github.com/microsoft/Swin-Transformer

1. 之前的ViT中,由于self-attention是全局计算的,所以在图像分辨率较大时不太经济。由于locality一直是视觉建模里非常有效的一种inductive bias,所以我们将图片切分为无重合的window,然后在local window内部进行self-attention计算。为了让window之间有信息交换,我们在相邻两层使用不同的window划分(shifted window)。

2. 图片中的物体大小不一,而ViT中使用固定的scale进行建模或许对下游任务例如目标检测而言不是最优的。在这里我们还是follow传统CNN构建了一个层次化的transformer模型,从4x逐渐降分辨率到32x,这样也可以在任意框架中无缝替代之前的CNN模型。

Swin Transformer的这些特性使其可直接用于多种视觉任务,包括图像分类(ImageNet-1K中取得86.4 top-1 acc)、目标检测(COCO test-dev 58.7 box AP和51.1 mask AP)和语义分割(ADE20K 53.5 val mIoU,并在其公开benchmark中排名第一),其中在COCO目标检测与ADE20K语义分割中均为state-of-the-art。

来源:https://www.zhihu.com/question/437495132/answer/1800881612

对比Swin Transformer的实验结果,或许能明白为啥如此受关注!

图像分类方面:

目标检测方面:

语义分割方面:

观察CVPR最新的论文有很多论文开始研究和尝试基于transformer去挖掘并提升现有工作的性能,因此,我们后续也会更加关注这方面的工作分享。如果对你有所帮助,欢迎分享给你身边的小伙伴。

CVPR2021 论文整理(附论文下载):

https://github.com/DWCTOD/CVPR2021-Papers-with-Code-Demo

代码语言:javascript
代码运行次数:0
运行
复制
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
霸榜各大CV任务榜单,Swin Transformer横空出世!
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(ArXiv21)
炼丹笔记
2021/05/14
1.5K0
霸榜各大CV任务榜单,Swin Transformer横空出世!
【开源】Transformer 在CV领域全面开花:新出跟踪、分割、配准等总结
本文收录 5 月 以来值得关注的 Transformer 相关开源论文,包括基于 Transformer 的自监督学习方法在 CV 任务中应用、视觉跟踪、视频预测、语义分割、图像配准,以及 1 篇针对 Transformer 风格的网络中,“attention layer”是否是必要的技术报告。
CV君
2021/06/08
1.2K0
【开源】Transformer 在CV领域全面开花:新出跟踪、分割、配准等总结
超越Swin,Transformer屠榜三大视觉任务!微软推出新作:Focal Self-Attention
本文提出了Focal Self-Attention,对当前token周围的区域进行细粒度的关注,对离当前token较远的区域进行粗粒度的关注,用这样的方式来更加有效的捕获局部和全局的注意力。基于FSA,作者提出了Focal Transformer,并在分类、检测、分割任务上都验证了结构的有效性。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
AIWalker
2021/07/29
4460
超越Swin,Transformer屠榜三大视觉任务!微软推出新作:Focal Self-Attention
霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。
机器之心
2021/04/21
5720
霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
arxiv | Swin Transformer:使用移动窗口的分层Vision Transformer
今天给大家介绍的是微软亚洲研究院的一篇文章”Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”。从语言到视觉应用Transformer的挑战来源于两个领域的差异,例如和文本字词相比视觉实体的复杂变化以及图像像素的高分辨率两方面的差异。为了解决这样的问题,作者在这篇文章中提出一种称为Swin Transformer新型Vision Transformer。Swin Transformer使用允许跨窗口连接的移动窗口将自注意力限制在不重叠的局部窗口上计算表示,其提出的层次结构具有不同尺度上图像上建模的灵活性,在各种视觉任务上取得优秀的结果,有望在计算机视觉领域取代CNN成为一种通用框架。
智能生信
2021/04/26
1.6K0
arxiv | Swin Transformer:使用移动窗口的分层Vision Transformer
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
机器之心报道 编辑:杜伟、陈萍 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪录。 在不久之前公布的 ICCV 2021 论文奖项中,来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斩获 ICCV 2021 马尔奖(最佳论文)。这篇论文的作者主要包括中国科
机器之心
2023/03/29
9450
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV8目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV8系列模型注入了新的活力。
AI浩
2024/10/22
8770
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
重磅!新增 13 种 Transformer 方法,火速收藏
Transformer 是 Google 的团队在 2017 年提出的一种经典模型,一诞生就席卷了 NLP 领域。
OpenMMLab 官方账号
2022/01/18
2.1K0
重磅!新增 13 种 Transformer 方法,火速收藏
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
近两年来,计算机视觉领域经历了两次重大转变,第一次是由 MoCo(Momentum Contrast)开创的自监督视觉表征学习,其预训练模型经过微调可以迁移到不同的任务上;第二次是基于 Transformer 的主干架构,近年来在自然语言处理中取得巨大成功的 Transformer 又在计算机视觉领域得到了探索,进而产生了从 CNN 到 Transformer 的建模转变。
深度学习技术前沿公众号博主
2021/07/14
7060
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
VincentLee
2024/07/02
3610
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
​中科院提出 SSViT | 稀疏扫描视觉 Transformer,模拟人类视觉图像识别,显著提高性能,准确率 top-1 !!
自从Vision Transformer(ViT)[12]问世以来,它由于其在建模长距离依赖方面的卓越能力而吸引了研究界的广泛关注。然而,作为ViT核心的自注意力机制[61]带来了巨大的计算开销,从而限制了其更广泛的应用。已经提出了几种策略来减轻自注意力的这一局限性。
集智书童公众号
2024/05/29
7480
​中科院提出 SSViT | 稀疏扫描视觉 Transformer,模拟人类视觉图像识别,显著提高性能,准确率 top-1 !!
【源头活水】中科院又一创举 SecViT |多功能视觉 Backbone 网络,图像分类、目标检测、实例分割和语义分割都性能起飞
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/06/05
2860
【源头活水】中科院又一创举 SecViT |多功能视觉 Backbone 网络,图像分类、目标检测、实例分割和语义分割都性能起飞
基于Transformer的通用视觉架构:Swin-Transformer带来多任务大范围性能提升
将Transformer引入视觉领域后,研究人员们一直在寻求更好的模型架构来适应视觉领域的通用任务。但将Transformer从NLP领域迁移到CV领域面临着众多挑战,与文本相比图像中的视觉实体尺度变化剧烈、图像分辨率很高,带来了多尺度建模与计算量巨大的严峻问题。
CV君
2021/06/08
1.6K0
基于Transformer的通用视觉架构:Swin-Transformer带来多任务大范围性能提升
Swin Transformer V2!MSRA原班人马提出了30亿参数版本的Swin Transformer!
在本文中,作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。通过扩大容量和分辨率,Swin Transformer在四个具有代表性的视觉基准上创造了新的记录:ImageNet-V2图像分类的84.0%top-1 准确度,COCO目标检测上的63.1/54.4box / mask mAP ,ADE20K语义分割的59.9 mIoU ,以及Kinetics-400视频动作分类的86.8%top-1 准确度。目前,视觉模型尚未像NLP语言模型那样被广泛探索,部分原因是训练和应用中的以下差异:
CV君
2021/12/02
1.4K0
Swin Transformer V2!MSRA原班人马提出了30亿参数版本的Swin Transformer!
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
自2020年以来,学术界已经提出很多关于Vision Transformer的架构和方法,也有很多关于高效Transformer的工作被提出。但是,不管是标准的ViT还是高效的ViT,虽然其中的Self Attention相对于嵌入维度具有线性复杂度(不包括线性投影),但相对于Token数量却具有二次复杂度。而Token的数量通常又与图像分辨率呈线性相关。因此,更高的图像分辨率将会带来复杂度和内存的二次增长。
集智书童公众号
2022/05/26
1.2K0
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
Transformer中的FPN-Swin Transformer
Transformer从NLP领域迁移到Vision领域,要解决几个主要问题:1) 尺度问题。同样的物体在同一张图像中的尺寸会有差异;2) 图像的分辨率问题。分辨率太大,直接用Transformer处理的计算代价太大。
YoungTimes
2023/09/01
7740
Transformer中的FPN-Swin Transformer
深度可分离ViT | SepViT | 深度可分离卷积造就深度可分离Transformer
近年来,许多计算机视觉(CV)研究人员致力于设计面向CV的Vision Transformers,以超过卷积神经网络(CNNs)的性能。Vision Transformers具有较高的远距离依赖建模能力,在图像分类、语义分割、目标检测等多种视觉任务中取得了显著的效果。然而,强大的性能通常是以计算复杂度为代价的。
集智书童公众号
2022/04/07
1.3K0
深度可分离ViT | SepViT | 深度可分离卷积造就深度可分离Transformer
英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025
正如标题所言「Attention is all you need」,Transformer已成为不同领域的「霸主」,包括计算机视觉、自然语言处理、语音处理和机器人技术。
新智元
2025/03/10
2510
英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV10目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV10系列模型注入了新的活力。
AI浩
2024/10/22
6010
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
物尽其用,卷积和自注意力在Transformer中实现统一:多SOTA、ICLR 2022接收
图像分类与视频分类任务性能比较(上方为 ImageNet 上 224x224 与 384x384 分辨率输入)
机器之心
2022/02/23
1.1K0
物尽其用,卷积和自注意力在Transformer中实现统一:多SOTA、ICLR 2022接收
推荐阅读
霸榜各大CV任务榜单,Swin Transformer横空出世!
1.5K0
【开源】Transformer 在CV领域全面开花:新出跟踪、分割、配准等总结
1.2K0
超越Swin,Transformer屠榜三大视觉任务!微软推出新作:Focal Self-Attention
4460
霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
5720
arxiv | Swin Transformer:使用移动窗口的分层Vision Transformer
1.6K0
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
9450
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
8770
重磅!新增 13 种 Transformer 方法,火速收藏
2.1K0
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
7060
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
3610
​中科院提出 SSViT | 稀疏扫描视觉 Transformer,模拟人类视觉图像识别,显著提高性能,准确率 top-1 !!
7480
【源头活水】中科院又一创举 SecViT |多功能视觉 Backbone 网络,图像分类、目标检测、实例分割和语义分割都性能起飞
2860
基于Transformer的通用视觉架构:Swin-Transformer带来多任务大范围性能提升
1.6K0
Swin Transformer V2!MSRA原班人马提出了30亿参数版本的Swin Transformer!
1.4K0
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
1.2K0
Transformer中的FPN-Swin Transformer
7740
深度可分离ViT | SepViT | 深度可分离卷积造就深度可分离Transformer
1.3K0
英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025
2510
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
6010
物尽其用,卷积和自注意力在Transformer中实现统一:多SOTA、ICLR 2022接收
1.1K0
相关推荐
霸榜各大CV任务榜单,Swin Transformer横空出世!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验