Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络

何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络

作者头像
Amusi
发布于 2022-04-18 09:28:39
发布于 2022-04-18 09:28:39
1.1K0
举报
文章被收录于专栏:CVerCVer

做目标检测就一定需要 FPN 吗?昨天,来自 Facebook AI Research 的 Yanghao Li、何恺明等研究者在 arXiv 上上传了一篇新论文,证明了将普通的、非分层的视觉 Transformer 作为主干网络进行目标检测的可行性。他们希望这项研究能够引起大家对普通主干检测器的关注。

研究概览

Exploring Plain Vision Transformer Backbones for Object Detection

论文链接:https://arxiv.org/abs/2203.16527

当前的目标检测器通常由一个与检测任务无关的主干特征提取器和一组包含检测专用先验知识的颈部和头部组成。颈部 / 头部中的常见组件可能包括感兴趣区域(RoI)操作、区域候选网络(RPN)或锚、特征金字塔网络(FPN)等。如果用于特定任务的颈部 / 头部的设计与主干的设计解耦,它们可以并行发展。从经验上看,目标检测研究受益于对通用主干和检测专用模块的大量独立探索。长期以来,由于卷积网络的实际设计,这些主干一直是多尺度、分层的架构,这严重影响了用于多尺度(如 FPN)目标检测的颈 / 头的设计。

在过去的一年里,视觉 Transformer(ViT)已经成为视觉识别的强大支柱。与典型的 ConvNets 不同,最初的 ViT 是一种简单的、非层次化的架构,始终保持单一尺度的特征图。它的「极简」追求在应用于目标检测时遇到了挑战,例如,我们如何通过上游预训练的简单主干来处理下游任务中的多尺度对象?简单 ViT 用于高分辨率图像检测是否效率太低?放弃这种追求的一个解决方案是在主干中重新引入分层设计。这种解决方案,例如 Swin Transformer 和其他网络,可以继承基于 ConvNet 的检测器设计,并已取得成功。

在这项工作中,何恺明等研究者追求的是一个不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这一方向取得成功,仅使用原始 ViT 主干进行目标检测将成为可能。在这一方向上,预训练设计将与微调需求解耦,上游与下游任务的独立性将保持,就像基于 ConvNet 的研究一样。这一方向也在一定程度上遵循了 ViT 的理念,即在追求通用特征的过程中减少归纳偏置。由于非局部自注意力计算可以学习平移等变特征,它们也可以从某种形式的监督或自我监督预训练中学习尺度等变特征。

研究者表示,在这项研究中,他们的目标不是开发新的组件,而是通过最小的调整克服上述挑战。具体来说,他们的检测器仅从一个普通 ViT 主干的最后一个特征图构建一个简单的特征金字塔(如图 1 所示)。这一方案放弃了 FPN 设计和分层主干的要求。为了有效地从高分辨率图像中提取特征,他们的检测器使用简单的非重叠窗口注意力(没有 shifting)。他们使用少量的跨窗口块来传播信息,这些块可以是全局注意力或卷积。这些调整只在微调过程中进行,不会改变预训练。

这种简单的设计收获了令人惊讶的结果。研究者发现,在使用普通 ViT 主干的情况下,FPN 的设计并不是必要的,它的好处可以通过由大步幅 (16)、单一尺度图构建的简单金字塔来有效地获得。他们还发现,只要信息能在少量的层中很好地跨窗口传播,窗口注意力就够用了。

更令人惊讶的是,在某些情况下,研究者开发的名为「ViTDet」的普通主干检测器可以媲美领先的分层主干检测器(如 Swin、MViT)。通过掩蔽自编码器(MAE)预训练,他们的普通主干检测器可以优于在 ImageNet-1K/21K 上进行有监督预训练的分层检测器(如下图 3 所示)。

在较大尺寸的模型上,这种增益要更加显著。该检测器的优秀性能是在不同的目标检测器框架下观察到的,包括 Mask R-CNN、Cascade Mask R-CNN 以及它们的增强版本。

在 COCO 数据集上的实验结果表明,一个使用无标签 ImageNet-1K 预训练、带有普通 ViT-Huge 主干的 ViTDet 检测器的 AP^box 可以达到 61.3。他们还在长尾 LVIS 检测数据集上展示了 ViTDet 颇具竞争力的结果。虽然这些强有力的结果可能部分来自 MAE 预训练的有效性,但这项研究表明,普通主干检测器可能是有前途的,这挑战了分层主干在目标检测中的根深蒂固的地位

方法细节

该研究的目标是消除对主干网络的分层约束,并使用普通主干网络进行目标检测。因此,该研究的目标是用最少的改动,让简单的主干网络在微调期间适应目标检测任务。经过改动之后,原则上我们可以应用任何检测器头(detector head),研究者选择使用 Mask R-CNN 及其扩展。

简单的特征金字塔

FPN 是构建用于目标检测的 in-network 金字塔的常见解决方案。如果主干网络是分层的,FPN 的动机就是将早期高分辨率的特征和后期更强的特征结合起来。这在 FPN 中是通过自上而下(top-down)和横向连接来实现的,如图 1 左所示。

如果主干网络不是分层网络,那么 FPN 动机的基础就会消失,因为主干网络中的所有特征图都具有相同的分辨率。该研究仅使用主干网络中的最后一张特征图,因为它应该具有最强大的特征。

研究者对最后一张特征图并行应用一组卷积或反卷积来生成多尺度特征图。具体来说,他们使用的是尺度为 1/16(stride = 16 )的默认 ViT 特征图,该研究可如图 1 右所示,这个过程被称为「简单的特征金字塔」。

从单张特征图构建多尺度特征图的策略与 SSD 的策略有关,但该研究的场景涉及对深度、低分辨率的特征图进行上采样。在分层主干网络中,上采样通常用横向连接进行辅助,但研究者通过实验发现,在普通 ViT 主干网络中横向连接并不是必需的,简单的反卷积就足够了。研究者猜想这是因为 ViT 可以依赖位置嵌入来编码位置,并且高维 ViT patch 嵌入不一定会丢弃信息。

如下图所示,该研究将这种简单的特征金字塔与同样建立在普通主干网络上的两个 FPN 变体进行比较。在第一个变体中,主干网络被人为地划分为多个阶段,以模仿分层主干网络的各个阶段,并应用横向和自上而下的连接(图 2(a))。第二个变体与第一个变体类似,但仅使用最后一张特征图(图 2(b))。该研究表明这些 FPN 变体不是必需的。

主干网络调整

目标检测器受益于高分辨率输入图像,但在整个主干网络中,计算全局自注意力对于内存的要求非常高,而且速度很慢。该研究重点关注预训练主干网络执行全局自注意力的场景,然后在微调期间适应更高分辨率的输入。这与最近使用主干网络预训练直接修改注意力计算的方法形成对比。该研究的场景使得研究者能够使用原始 ViT 主干网络进行检测,而无需重新设计预训练架构。

该研究探索了使用跨窗口块的窗口注意力。在微调期间,给定高分辨率特征图,该研究将其划分为常规的非重叠窗口。在每个窗口内计算自注意力,这在原始 Transformer 中被称为「受限」自注意力。

与 Swin 不同,该方法不会跨层「移动(shift)」窗口。为了允许信息传播,该研究使用了极少数(默认为 4 个)可跨窗口的块。研究者将预训练的主干网络平均分成 4 个块的子集(例如对于 24 块的 ViT-L,每个子集中包含 6 个),并在每个子集的最后一个块中应用传播策略。研究者分析了如下两种策略:

  • 全局传播。该策略在每个子集的最后一个块中执行全局自注意力。由于全局块的数量很少,内存和计算成本是可行的。这类似于(Li et al., 2021 )中与 FPN 联合使用的混合窗口注意力。
  • 卷积传播。该策略在每个子集之后添加一个额外的卷积块来作为替代。卷积块是一个残差块,由一个或多个卷积和一个 identity shortcut 组成。该块中的最后一层被初始化为零,因此该块的初始状态是一个 identity。将块初始化为 identity 使得该研究能够将其插入到预训练主干网络中的任何位置,而不会破坏主干网络的初始状态。

这种主干网络的调整非常简单,并且使检测微调与全局自注意力预训练兼容,也就没有必要重新设计预训练架构。

实验结果

消融研究

在消融研究中,研究者得到了以下结论:

1、一个简单的特征金字塔就足够了。在表 1 中,他们比较了图 2 所示的特征金字塔构建策略。

2、在几个传播块的帮助下,窗口注意力就足够了。表 2 总结了本文提出的主干调整方法。简而言之,与只有窗口注意力、无跨窗口传播块的基线(图中的「none」)相比,各种传播方式都可以带来可观的收益。

3、掩蔽自编码器可以提供强大的预训练主干。表 4 比较了主干预训练的策略。

与分层主干的对比

下表 5 显示了与分层主干网络的比较结果。

下图 3 显示了几种模型的准确率与模型尺寸、FLOPs 和测试时间三者的关系。

与之前系统的对比

下表 6 给出了几种方法在 COCO 数据集上的系统级比较结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
paper:https://arxiv.org/pdf/2203.16527.pdf
AIWalker
2022/04/27
1.2K0
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 微软的Swin Transformer去年横空出世,一举突破了Transformer做视觉任务复杂度过高的问题。 这种把Transformer“卷积网络”化的做法,也成为当前ViT研究领域的热门方向。 但现在,何恺明团队的最新论文提出了不同的观点: 在目标检测任务上,像Swin Transformer那样的复杂操作可能是没有必要的。 只用普通ViT做骨干网络,一样能在目标检测任务上拿下高分。 不对ViT引入分层设计 ViT可以说是打开了Transfor
量子位
2022/04/01
3950
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 微软的Swin Transformer去年横空出世,一举突破了Transformer做视觉任务复杂度过高的问题。 这种把Transformer“卷积网络”化的做法,也成为当前ViT研究领域的热门方向。 但现在,何恺明团队的最新论文提出了不同的观点: 在目标检测任务上,像Swin Transformer那样的复杂操作可能是没有必要的。 只用普通ViT做骨干网络,一样能在目标检测任务上拿下高分。 不对ViT引入分层设计 ViT可以说是打开了
OpenCV学堂
2022/04/02
4230
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
3月30日,何恺明大神团队在ArXiv上发布了最新研究工作,该工作主要研究了一种适用于目标检测任务的非层次化结构主流骨干网络ViTDet。该研究表明ViTDet无需重新设计用于预训练的分层主干网络,只对传统的FPN模块最后一个Stage进行微调(简化处理)即可。实验结果表明:若使用MAE(恺明大神一作提出的无监督学习方法)进行预训练,则ViTDet可以与之前强具竞争力的层次化主干网络(Swin和 MViTv2)的性能相匹敌。其中ViTDet+MAE仅在ImageNet-1K上进行预训练然后直接进行迁移便可以在COCO数据集上达到61.3 AP的性能。
深度学习技术前沿公众号博主
2022/04/18
8420
何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
目标检测 | 解决小目标检测!多尺度方法汇总
最开始在深度学习方法流行之前,对于不同尺度的目标,大家普遍使用将原图构建出不同分辨率的图像金字塔,再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标,以求在金字塔底部检测出小目标;或者只用一个原图,在原图上,用不同分辨率的分类器来检测目标,以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架,均使用图像金字塔的方式处理多尺度目标,早期的CNN目标识别框架同样采用该方式,但对图像金字塔中的每一层分别进行CNN提取特征,耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是,其实目前大多数深度学习算法提交结果进行排名的时候,大多使用多尺度测试。同时类似于SNIP使用多尺度训练,均是图像金字塔的多尺度处理。
AI算法修炼营
2020/05/15
2.2K0
目标检测 | 解决小目标检测!多尺度方法汇总
QueryDet:级联稀疏query加速高分辨率下的小目标检测(代码已开源)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文:https://arxiv.org/abs/2103.09136 代码(已开源):https://github.com/ChenhongyiYang/QueryDet-PyTorch 计算机视觉研究院专栏 作者:Edison_G 虽然深度学习的通用目标检测在过去几年中取得了巨大成功,但检测小目标的性能和效率却远不能令人满意。 01 概述 促进小目标检测的最常见和最有效的方
计算机视觉研究院
2022/09/20
8560
QueryDet:级联稀疏query加速高分辨率下的小目标检测(代码已开源)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文包括谷歌放出下一代 AI 架构 Pathways 论文;何恺明组最新论文等研究。 目录 Training-free Transformer Architecture Search  PATHWAYS: ASYNCHRONOUS DISTRIBUTED DATAFLOW FOR ML  Autoregressive Image Generation using Residual Quantization Exp
机器之心
2022/04/06
6160
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
Transformer 近来在各种视觉任务上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力。然而,简单地扩大感受野会引起一些问题。一方面,使用密集注意力(例如 ViT)会导致过多的内存和计算成本,并且特征可能会受到超出兴趣区域的无关部分的影响;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对远程(long range)关系建模的能力。
机器之心
2022/02/23
5580
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
无需预训练分类器,清华和旷视提出专用于目标检测的骨干网络DetNet
选自arXiv 作者:Zeming Li、Chao Peng、Gang Yu、Xiangyu Zhang、Yangdong Deng、Jian Sun 机器之心编译 参与:路雪、刘晓坤 基于当前用预训练分类器开发目标检测器的方法的固有缺陷,来自清华大学和旷视的研究者提出了专用于目标检测的骨干网络 DetNet。DetNet 可在保持高分辨率特征图和大感受野的同时,高效地执行目标检测任务,并可以自然地扩展到实例分割任务上。在 MSCOCO 数据集的目标检测和实例分割任务上,DetNet 都取得了当前最佳的结果
机器之心
2018/05/08
1.3K0
无需预训练分类器,清华和旷视提出专用于目标检测的骨干网络DetNet
改进的检测算法:用于高分辨率光学遥感图像目标检测
目标检测对光学遥感图像的解释至关重要,可以作为研究利用遥感的其他视觉任务的基础。然而,目前在光学遥感图像中使用的目标检测网络没有充分利用特征金字塔的输出,因此仍有改进检测的潜力。
计算机视觉研究院
2023/08/23
8250
改进的检测算法:用于高分辨率光学遥感图像目标检测
性能超FPN!北大、阿里等提多层特征金字塔网络
特征金字塔网络具有处理不同物体尺度变化的能力,因此被广泛应用到one-stage目标检测网络(如DSSD,RetinaNet,RefineDet)和two-stage 目标检测器(如Mask R-CNN,DetNet)中并取得了很好的性能提升。
AI科技大本营
2019/12/26
1.4K0
性能超FPN!北大、阿里等提多层特征金字塔网络
最新单步目标检测框架,引入双向网络,精度和速度均达到不错效果
one-stage的目标检测方法因其具有实时性强、检测精度高等特点,近年来受到广泛关注。目标检测包括分类和定位两个子任务,通常来说,one-stage目标检测有通用的策略:利用一个经过ImageNet预训练的backbone完成分类任务,利用一个自上而下的特征金字塔表示形式处理尺度变化问题。
AI科技大本营
2019/12/02
1.1K0
最新单步目标检测框架,引入双向网络,精度和速度均达到不错效果
比当前SOTA小4倍、计算量少9倍,谷歌最新目标检测器EfficientDet
作者:Mingxing Tan, Ruoming Pang, Quoc V. Le
机器之心
2019/12/06
8440
PKINet:比ResNet更适合遥感目标检测的主干网络 | 可替换YOLO的Backbone
遥感图像(RSIs)中的目标检测通常面临越来越多的挑战,包括物体尺度变化大和上下文多样化等问题。以往的方法试图通过大核卷积或膨胀卷积来扩展骨干网络的空间感受野。然而,前者通常会引入大量背景噪声,而后者则有生成过于稀疏特征表示的风险。
小白学视觉
2024/12/09
5290
PKINet:比ResNet更适合遥感目标检测的主干网络 | 可替换YOLO的Backbone
COCO 54.7mAP!DetectoRS目标检测:改进主干网,成就新高度!
COCO 数据集上的目标检测精度的最高纪录已经有将近一年时间停留在53.3 mAP,曾经报告达到过这一高度的算法有:
CV君
2020/06/05
1.1K0
Gold-YOLO:基于聚合与分配机制的高效目标检测器
在过去几年中,YOLO 系列模型已成为实时目标检测领域的主流方法。许多研究通过修改架构、扩充数据以及设计新的损失函数,将基线水平提升到了更高层次。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)缓解了这一问题,但以往的模型仍存在信息融合方面的难题。
计算机视觉研究院
2025/02/12
4000
Gold-YOLO:基于聚合与分配机制的高效目标检测器
ThunderNet | Two-stage形式的目标检测也可很快而且精度很高
在移动平台上进行实时通用目标检测是一项至关重要但具有挑战性的计算机视觉任务。然而,以往基于cnn的检测器面临着巨大的计算成本,这阻碍了它们在计算受限的情况下进行实时推断。
计算机视觉研究院
2019/12/16
8290
ThunderNet | Two-stage形式的目标检测也可很快而且精度很高
CBNet :目标检测性能提升,集成多个相同的主干网络构建新主干网络
论文地址:https://arxiv.org/pdf/1909.03625.pdf
小白学视觉
2020/07/16
2.6K0
CBNet :目标检测性能提升,集成多个相同的主干网络构建新主干网络
PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
论文: Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
VincentLee
2024/05/22
2160
PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)
特征金字塔网络(FPN)已成为目标检测中提取多尺度特征的有效框架。然而,目前FPN-based的方法大多存在Channel Reduction的固有缺陷,导致语义信息的丢失。而融合后的各种特征图可能会造成严重的混叠效果。
集智书童公众号
2021/05/28
2.6K0
推荐阅读
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
1.2K0
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
3950
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
4230
何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
8420
目标检测 | 解决小目标检测!多尺度方法汇总
2.2K0
QueryDet:级联稀疏query加速高分辨率下的小目标检测(代码已开源)
8560
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
6160
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
5580
无需预训练分类器,清华和旷视提出专用于目标检测的骨干网络DetNet
1.3K0
改进的检测算法:用于高分辨率光学遥感图像目标检测
8250
性能超FPN!北大、阿里等提多层特征金字塔网络
1.4K0
最新单步目标检测框架,引入双向网络,精度和速度均达到不错效果
1.1K0
比当前SOTA小4倍、计算量少9倍,谷歌最新目标检测器EfficientDet
8440
PKINet:比ResNet更适合遥感目标检测的主干网络 | 可替换YOLO的Backbone
5290
COCO 54.7mAP!DetectoRS目标检测:改进主干网,成就新高度!
1.1K0
Gold-YOLO:基于聚合与分配机制的高效目标检测器
4000
ThunderNet | Two-stage形式的目标检测也可很快而且精度很高
8290
CBNet :目标检测性能提升,集成多个相同的主干网络构建新主干网络
2.6K0
PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
2160
全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)
2.6K0
相关推荐
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档