Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深入探究CNN和Transformer,哪种预训练模型的可迁移性更好?

深入探究CNN和Transformer,哪种预训练模型的可迁移性更好?

作者头像
Amusi
发布于 2021-09-30 02:30:53
发布于 2021-09-30 02:30:53
1.5K00
代码可运行
举报
文章被收录于专栏:CVerCVer
运行总次数:0
代码可运行

深入探究ConvNets vs. Transformers,哪种预训练模型的可迁移性更好?

一文献给还在ConvNets和Transformer之间犹豫的小伙伴们:也许是时候倒向Vision Transformer预训练模型了!

Highlights
  1. 我们通过大量实验发现即使Vision Transformer在ImageNet上的预训练表现略弱于ConvNets,Vision Transformer仍然可以为下游的各种任务提供更有迁移能力(more transferable)的预训练特征。
  2. 通过在10个数据集上同时进行单任务和多任务评测,我们发现Vision Transformer在ImageNet上的预训练模型经过微调在15个下游任务中的13个任务上取得了较为显著的优势。这些任务包括但不限于:细粒度分类、场景识别(分类、分割和景深估计)、开放领域图片分类(比如医疗数据和艺术风格识别)、人脸识别、年龄估计等等。
  3. 传统的观点一般认为Transformer优于ConvNets的原因是在于其更加放松(relaxed)的inductive bias。通过系统的实验,我们认为使得Transformer的迁移性能优于ConvNets的另外一大原因是其在提供相近ImageNet预训练性能的情况下,具有更少的参数量,这有利于降低预训练模型在下游任务上过拟合的风险。
研究背景介绍

最近半年以来(准确来说应该是ViT出现之后),Vision Transformer逐渐开始席卷计算机视觉的各个领域。其中,以Swin Transformer为代表的各类网络在目标检测和分割两大任务上相较于传统的ConvNets取得了较为显著的进步。这使得我们更加好奇,在其它一些更加通用、更加一般的问题上,Vision Transformer是否还会具有类似的优势。在此背景下,我们第一次尝试较为全面地比较ConvNets和Vision Transformers,从中我们观察到了一些比较有意义的现象,希望可以为以后更加系统性的研究提供一些有益的启发。

文章:https://arxiv.org/abs/2108.05305

如上图所以,该研究由香港大学和上海科技大学合作完成。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@InProceedings{cnn_vs_trans,
  title={{ConvNets vs. Transformers: Whose Visual Representations are More Transferable?}},
  author={Zhou, Hong-Yu and Lu, Chixiang and Yang, Sibei and Yu, Yizhou},
  booktitle={ICCV workshop on Multi-Task Learning in Computer Vision (DeepMTL)},
  year={2021}
}
方法

如上图所示,我们的思路其实非常容易理解。在ImageNet预训练阶段,我们分别选择若干在ImageNet上具有相近性能(通常以top-1 error rates来衡量)的ConvNets和Vision Transformers模型。在此基础上,我们在各种下游任务上进行微调以评估预训练模型的迁移性能。

如上图所示,对于卷积网络,我们选择了R-101x3和R-152x4(x3和x4分别表示网络的宽度是正常ResNet-101和ResNet-152的三倍和四倍),以往的研究表明增加ResNet的宽度可以带来更好的迁移能力。对于Vision Transformer,我们选择了经典的ViT-B/16和ViT-L/16,以及在目标检测和分割上表现优异的Swin Transformer-B(简称Swin-B)。所有的模型都在ImageNet-22k上进行预训练,并在ImageNet-1k上进行测试。

除了IN(acc.),我们还引入了另外一个指标performance rank(上图中的灰色数字)来更好地区分不同网络的性能表现。比如R-152x4在ImageNet-1k上的性能最高,所以它的rank是1。Swin-B和ViT-L/16的性能一样,所以它们并列第二,R-101x3和ViT-B/16以此类推。我们发现ConvNet组两个模型的平均performance rank是2.5,略高于Vision Transformer组的3.0。按照以往的观点,ConvNet组的模型在各种下游任务上的性能应该至少与Vision Transformer组的模型相当。但是事实却并非如此。

实验结果

下面就到了展示我们实验结果的时候啦。首先是(a)细粒度分类

我们可以看到Vision Transformer组在细粒度分类上具有较大的优势。具体在Flower102包揽了前三名,在CUB200上包揽了前两名。同时在平均performance rank上领先ConvNet组大约两个身位。

接着是(b)场景识别问题,

又是肉眼可见的大幅度领先。在NYU数据集的两个子任务上同时包揽前三名。

下一个是(c)跨领域识别问题

这里我们选择了两个对模型迁移性能比较有挑战性的问题,即艺术风格和新冠肺炎识别。我们发现Vision Transformer组在两个问题上均包揽了前三名,同时平均performance rank大幅度领先ConvNet组。我们认为这个结果可以在某种程度上有力地说明Vision Transformer组的预训练模型可以提供更有迁移能力的预训练特征。

下一个是多任务学习上的评测,

这里我们在NYU数据集上同时进行Segmentation和Depth estimation的多任务学习。显而易见地,Transformer组又又又大幅度领先ConvNet组,同时又又一次包揽了前三名。我们在多任务学习上的评估结果表明即使Vision Transformer的模型参数量大大低于ConvNet,其model capacity在一些较为简单的多任务上并不会受到影响

最后,给出一个Transformer组失败的例子:无监督图像检索(PS:也许是一个挺好的写paper的出发点:))。

我们看到ConvNet组在无监督的图像检索上还是有较大的优势的。对此我们的解释是Vision Transformer在迁移到下游任务时可能更依赖于模型的全局微调操作, 因为在这组实验里我们直接使用了预训练模型的特征,而没有对预训练模型进行微调。感兴趣的小伙伴可以在此问题上继续深挖,相信会有更多的收获!

最后的最后,更多的实验结果可以点这里https://arxiv.org/abs/2108.05305直接看我们的paper。

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF

重磅!Transformer交流群成立

扫码添加CVer助手,可申请加入CVer-Transformer微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯优图提出Evo-ViT:高性能Transformer加速方法
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
Amusi
2021/08/12
1.4K1
腾讯优图提出Evo-ViT:高性能Transformer加速方法
BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE
这个新方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。
机器之心
2021/11/18
5640
BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE
7 Papers & Radios | 李旻辰获SIGGRAPH 2021最佳博士论文奖;韩国研发仿变色龙软体机器人
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周重要论文包括首尔大学与汉阳大学的研究团队开发出的仿变色龙软体机器人;SIGGRAPH 2021 最佳博士论文奖等。 目录: Biomimetic chameleon soft robot with artificial crypsis and disruptive coloration skin  SofGAN: A Portrait Image Generator with Dynamic Styling  R
机器之心
2023/03/29
2540
7 Papers & Radios | 李旻辰获SIGGRAPH 2021最佳博士论文奖;韩国研发仿变色龙软体机器人
Transformer已成新霸主?FAIR等重新设计纯卷积ConvNet,性能反超
视觉识别的快速发展始于 Vision transformer (ViT) 的引入,其很快取代了传统卷积神经网络 (ConvNet),成为最先进的图像分类模型。另一方面, ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此,有研究者提出分层 Transformer(如 Swin Transformer),他们重新引入 ConvNet 先验,这样使得 Transformer 作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。
机器之心
2022/02/23
5060
Transformer已成新霸主?FAIR等重新设计纯卷积ConvNet,性能反超
后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。
机器之心
2024/02/26
3030
后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
从感知机到Transformer,一文概述深度学习简史
选自getrevue.co 作者:Jean de Dieu Nyandwi 机器之心编译 机器之心编辑部 这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。 1958 年:感知机的兴起 1958 年,弗兰克 · 罗森布拉特发明了感知机,这是一种非常简单的机器模型,后来成为当今智能机器的核心和起源。 感知机是一个非常简单的二元分类器,可以确定给定的输入图像是否属于给定的类。为了实现这一点,它使用了单位阶跃激活函数。使用单位阶跃激活函数,如果输入大于 0,则输出为 1,否则为 0。 下图是感知机的算法
机器之心
2022/05/25
1.1K0
从感知机到Transformer,一文概述深度学习简史
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法,而无需任何特殊设计,如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,作者表示该框架中每个组件的简单设计已经能显示出其优异的学习能力:
Amusi
2021/12/01
1.1K0
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
ConvNeXt:新一代卷积网络,还不是ViT的时代(代码开源)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 源代码:https://github.com/facebookresearch/ConvNeXt 计算机视觉研究院专栏 作者:Edison_G 自从ViT提出之后,在过去的一年里(2021年),Transformer在深度学习领域大杀四方,很多纯卷积的网络也不断的革新。基于transformer的模型在计算机视觉各
计算机视觉研究院
2022/03/16
3.7K0
NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
10 月 2 日,深度学习领域顶级会议 ICLR 2021 论文投稿结束,一篇将 Transformer 应用于图像识别的论文引起了广泛关注。
深度学习技术前沿公众号博主
2020/10/22
7110
NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
近两年来,计算机视觉领域经历了两次重大转变,第一次是由 MoCo(Momentum Contrast)开创的自监督视觉表征学习,其预训练模型经过微调可以迁移到不同的任务上;第二次是基于 Transformer 的主干架构,近年来在自然语言处理中取得巨大成功的 Transformer 又在计算机视觉领域得到了探索,进而产生了从 CNN 到 Transformer 的建模转变。
深度学习技术前沿公众号博主
2021/07/14
6820
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
2022年AI顶级论文 —生成模型之年(中)
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型
AiCharm
2023/05/15
3710
2022年AI顶级论文 —生成模型之年(中)
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV8目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV8系列模型注入了新的活力。
AI浩
2024/10/22
6480
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
Co-Scale Conv-Attentional Image Transformers
Amusi
2021/04/23
1.3K0
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞
DeepMind的研究人员给出了自己的回答——Compute is all you need!
新智元
2023/10/28
4840
卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
大规模预训练的Vision TRansformer,如ViT, CvT和Swin,由于其高性能和下游任务的优越性能,最近引起了极大的关注。然而,它们通常涉及巨大的模型尺寸和大量的训练数据。例如,ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型,才实现了图像分类的最先进性能。同时,Swin使用2-3亿个参数,并在ImageNet-22K上进行了预训练,以在下游检测和分割任务上取得良好的性能。
集智书童公众号
2022/05/26
6580
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程
随着Transformer在NLP领域主流地位的确立,越来越多的工作开始尝试将Transformer应用到CV领域中。CV Transformer的发展主要经历了以下3个阶段;首先是在CNN中引入Attention机制解决CNN模型结构只能提取local信息缺乏考虑全局信息能力的问题;接下来,相关研究逐渐开始朝着使用完全的Transformer模型替代CNN,解决图像领域问题;目前Transformer解决CV问题已经初见成效,更多的工作开始研究对CV Transformer细节的优化,包括对于高分辨率图像如何提升运行效率、如何更好的将图像转换成序列以保持图像的结构信息、如何进行运行效率和效果的平衡等。本文梳理了近期10篇Transformer、Attention机制在计算机视觉领域的应用,从ViT到Swin Transformer,完整了解CV Transformer的发展过程。
圆圆的算法笔记
2022/09/22
4.2K0
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
机器之心报道 编辑:杜伟、陈萍 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪录。 在不久之前公布的 ICCV 2021 论文奖项中,来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斩获 ICCV 2021 马尔奖(最佳论文)。这篇论文的作者主要包括中国科
机器之心
2023/03/29
8960
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
ICCV 2021放榜!发现一篇宝藏论文——如何一次性训练100,000+个Vision Transformers?
ICCV官方在推特上公布了这一消息,并表示今年共有6236篇投稿,最终1617篇论文被接收,接收率为25.9%,相比于2017年(约29%),保持了和2019年相当的较低水平。
AI科技评论
2021/07/27
7661
ICCV 2021放榜!发现一篇宝藏论文——如何一次性训练100,000+个Vision Transformers?
ViT-Adapter: 密集预测任务的ViT适配器
最近,Transformers 在计算机视觉领域取得了巨大成功。得益于动态建模能力和注意力机制的长程依赖性,各种 vision transformers 很快在物体检测和语义分割等许多计算机视觉任务中崭露头角,超越了 CNN 模型,达到了最先进的性能。这些模型主要分为两个系列,即普通 ViT 及其分层变体。一般来说,后者能产生更好的结果,并且被认为通过使用局部空间操作,在其架构中引入了视觉特有的归纳偏差。
用户1324186
2024/03/26
6220
ViT-Adapter: 密集预测任务的ViT适配器
ConvNeXt V2:适应自监督学习,让 CNN “再一次强大”?
嗨!今天给大家分享一篇比较新的计算机视觉论文,题目是“ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders”。这篇论文由韩国科学技术院(KAIST)、Meta AI 和纽约大学的研究者合作发表,论文和代码的链接放在下方。
OpenMMLab 官方账号
2023/08/23
3.9K0
ConvNeXt V2:适应自监督学习,让 CNN  “再一次强大”?
推荐阅读
腾讯优图提出Evo-ViT:高性能Transformer加速方法
1.4K1
BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE
5640
7 Papers & Radios | 李旻辰获SIGGRAPH 2021最佳博士论文奖;韩国研发仿变色龙软体机器人
2540
Transformer已成新霸主?FAIR等重新设计纯卷积ConvNet,性能反超
5060
后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
3030
从感知机到Transformer,一文概述深度学习简史
1.1K0
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
1.1K0
ConvNeXt:新一代卷积网络,还不是ViT的时代(代码开源)
3.7K0
NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
7110
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
6820
2022年AI顶级论文 —生成模型之年(中)
3710
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
6480
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
1.3K0
卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞
4840
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
6580
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程
4.2K0
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
8960
ICCV 2021放榜!发现一篇宝藏论文——如何一次性训练100,000+个Vision Transformers?
7661
ViT-Adapter: 密集预测任务的ViT适配器
6220
ConvNeXt V2:适应自监督学习,让 CNN “再一次强大”?
3.9K0
相关推荐
腾讯优图提出Evo-ViT:高性能Transformer加速方法
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验