Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2022 Oral | 目标检测新工作!南大开源AdaMixer:快速收敛的基于查询的目标检测器

CVPR 2022 Oral | 目标检测新工作!南大开源AdaMixer:快速收敛的基于查询的目标检测器

作者头像
Amusi
发布于 2022-04-18 09:39:41
发布于 2022-04-18 09:39:41
1.2K0
举报
文章被收录于专栏:CVerCVer

AdaMixer: A Fast-Converging Query-Based Object Detector

代码:https://github.com/MCG-NJU/AdaMixer

论文(刚刚开源):

https://arxiv.org/abs/2203.16507

本文介绍一下我们在目标检测的新工作AdaMixer,通过增强检测器的自适应建模能力来加速query-based检测器(类DETR检测器和Sparse RCNN)的收敛和最终的表现效果,并且使模型架构维持在一个相对简单的结构上。我们提出了一系列技术来增强query-based检测器的decoder解码部分,包括3D特征空间采样和动态MLP-Mixer检测头,这使得我们免于引入设计繁重、计算量大的各种注意力编码器(attentional encoder),或者特征金字塔式的多尺度交互网络,在保持效果的同时(其实我们超越了很多之前的模型),进一步简化了基于query的检测器的结构。

研究动机

首先,我们简单介绍一下我们的研究动机。现在基于query的检测器成为学术研究的热点,其通过query集合(有的文章也称proposal集合)和图像特征图的迭代交互抽取特征,不断完善query本身的语义,使其能够在matching loss下完成query对object的一对一cls和bbox预测。基于query的检测器不需要后续的NMS操作,使得整个检测流程更为简单和优雅。但是我们发现,基于query的检测器,尤其是类DETR检测器,其通常引入了多层的注意力编码器(attentional encoder),这些注意力编码器对每个像素密集地进行全局或者局部的注意力计算,引入了较大的运算量,且不易于拓展到高分辨率的特征图上,由此带来了小物体检测困难的问题,而且可能会带来训练时长的困扰。Sparse R-CNN流派引入了显式的特征金字塔网络FPN来增强对小物体的建模,但同样的,特征金字塔网络会引入额外的计算量。我们觉得在backbone和decoder之间加入额外的网络其实有些不优雅,而且这和用query做检测的目标有点相违背了。如果检测器需要厚重的密集编码器的话,那用数量少的query通过decoder可以检测物体作为模型的亮点就有点南辕北辙了。出现这些问题的根本原因还是decoder不够强势,需要encoder的建模能力来弥补,所以我们的方法的根本动机就是增强decoder的能力,使检测器尽量避免引入各种encoder。

但如何增强decoder的能力呢,尤其是对不同图像不同目标的多样化建模能力?这个问题对只使用稀疏且数量限制的query的解码器至关重要。回顾典型的query decoder本身,是一个基于transformer decoder的结构,首先将query和query之间做self attention,而后query和图像特征feat做交互,然后每个query再过FFN。而这些初始的query虽然一般都是可学习的向量,但在inference时就固定下来,无法对不同的输入而变化(虽然现在有潮流把初始的query由类RPN产生),所以如何保证query decoder本身的解码机制对不同图片输入不同物体的自适应能力就成了一个问题。为此,我们提出从两个方面来改进这种基于query的目标检测器:采样位置的自适应能力和解码特征的自适应能力,对应着就是我们提出的3D特征空间采样和动态MLP-Mixer检测头。

方法

我们简单介绍一下我们的AdaMixer检测器两个代表性的创新点,以利于读者迅速抓取到我们方法的脉络。有些细节在此忽略了,具体可以查看原文。

自适应的特征采样位置

与现在其他方法一样,我们把query解耦成两个向量,分别是内容向量(content vector)和位置向量(positional vector),其中query代表着的框可以由位置向量解码而来。在每一个stage,query decoder都会更新refine这两个向量。值得注意的是,我们对位置向量采用的参数化并不是常用框的lrtb坐标或是ccwh坐标,而是xyzr形式,其中z代表着框大小的对数,r代表着框长宽比的对数,这种参数化形式的xyz可以直接让我们的query可以与多层级特征所形成的3D特征空间进行联系。如上图所示,3D特征空间中的query坐标自然由xyz决定,自适应3D特征采样首先由query根据自己的内容向量生成多组offset,再在3D特征空间上进行对应点的插值采样得到对应的特征,3D特征空间有益于我们的方法统一自适应地学习目标物体的位置和尺度的变化。注意这一步是不需要任何多尺度交互网络的。

自适应的采样内容解码

总结构

我们的AdaMixer解码器总结构如上图,虽然看起来有一点繁琐,但是在内容向量上的操作基本构造还是和Transformer decoder是一致的,位置向量可以简单地视为在一个stage内参与坐标变换和计算,然后在一个stage的末尾再更新。

总的AdaMixer检测器只由两个主要部分构成:其一是主干网络,其二是我们所提出来的AdaMixer解码器,不需要额外的注意力编码器以及显式的多尺度建模网络。

结果

实验结果在当时投稿时还是比较精彩的,在12 epoch的训练条件下,我们的表现超过了其他检测器(包括传统以及基于query的检测器),其中N为query的数量,证明了我们的方法的收敛速度和最终效果。而且我们的12 epoch在8卡V100上实际训练时间还是比较快的,只要9小时。

在与跟其他query-based检测器相比下,我们也有更好的表现,而且我们是表中唯一不需要额外的注意力编码器或者金字塔特征网络的模型。

消融实验

我们做了比较丰富的消融实验来验证我们提出的各个模块的有效性。在此,我们选一些有代表性的消融实验来进行讨论。

表(a)是对我们方法核心所需的自适应性的探究,不管是采样位置(loc.)还是解码内容(cont.)的适应性都对我们最终模型的表现有着大幅的影响。

表(b)是对我们提出的adaptive mixing的探究,动态通道混合(ACM)和动态空间混合(ASM)的顺序组合是最佳选择。

表(c)是我们的AdaMixer再加上不同的多尺度交互网络的效果,我们很惊讶地发现不加额外的金字塔网络居然效果还比较好,我们猜测可能是因为我们的AdaMixer解码器自然具有多尺度交互的能力且额外的金字塔网络有着更多的参数需要更多的训练时间来收敛。

表8进一步探究了3D特征空间采样。注意到表8中实验模型都没有配备FPN网络,在这种情况下RoIAlign的表现效果较差在我们的情理之中。自适应2D采样(不学习z方向上的offset)的模型落后了3D特征空间采样将近1.5个AP,说明了3D采样尤其是z方向上学习offset的必要性。另外,另一个很有意思的结论是只用C4特征要比C5要好,这可能归功于C4特征的分辨率较大。而且只用C4特征时,可以把ResNet的后续特征提取阶段直接砍掉(因为没有FPN,也用不到C5特征图了),这可能代表着此类检测器轻量化可以涉及的方向?我们还未做过多探究。

总结

我们提出了一个具有相对简单结构、快速收敛且表现不俗的检测器AdaMixer,通过改善解码器对目标物体的自适应解码能力,我们的AdaMixer无需引入厚重的注意力编码器以及显式的多尺度交互网络。我们希望AdaMixer可以作为后续基于query的检测器简单有效的基线模型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2022|南大开源MixFormer:端到端目标检测新模型
来源:知乎、计算机视觉联盟本文约2000字,建议阅读9分钟本文为你介绍在单目标跟踪(VOT)领域的新工作 MixFormer。 作者丨王利民@知乎 来源丨https://zhuanlan.zhihu.com/p/485189978 本文介绍一下我们在单目标跟踪(VOT)领域的新工作 MixFormer——基于 transformer 的简洁的端到端模型。MixFormer打破了传统的跟踪范式,通过模板与测试样本混合的backbone加上一个简单的回归头直接出跟踪结果,并且不使用框的后处理、多尺度特征融合策略
数据派THU
2022/04/18
1.4K0
CVPR 2022|南大开源MixFormer:端到端目标检测新模型
LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!
本文介绍论文『LGD: Label-guided Self-distillation for Object Detection』,由旷视孙剑、张祥雨团队等提出标签引导的自蒸馏技术:《LGD》,被称为涨点神器!助力目标检测!(AAAI 2022 接收论文)
CV君
2022/03/23
8770
LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!
CVPR目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
论文地址:https://arxiv.org/pdf/2103.09460.pdf
计算机视觉研究院
2023/08/24
6120
CVPR目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
深度学习技术的出现,特别是像U-Net [20]这样的卷积神经网络(CNNs),通过提高图像分割和分析等任务的准确性和效率,显著推动了该领域的发展。这在现代医疗中发挥着关键作用,帮助临床医生进行准确诊断、治疗规划以及疾病监测。
集智书童公众号
2024/04/30
1.9K0
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA
机器之心专栏 作者:程雪莲、熊欢、范登平、钟怡然等 本文提出了一个用于视频伪装物体分割的方法 SLT-Net,并构建了第一个大规模 VCOD 数据集,MoCA- Mask,该研究入选CVPR 2022。 视频伪装物体检测(Video Camouflaged Object Detection,VCOD)是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景(例如:监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]),伪
机器之心
2022/05/05
9090
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA
性能超FPN!北大、阿里等提多层特征金字塔网络
特征金字塔网络具有处理不同物体尺度变化的能力,因此被广泛应用到one-stage目标检测网络(如DSSD,RetinaNet,RefineDet)和two-stage 目标检测器(如Mask R-CNN,DetNet)中并取得了很好的性能提升。
AI科技大本营
2019/12/26
1.4K0
性能超FPN!北大、阿里等提多层特征金字塔网络
CVPR2020 | 显著性目标检测,多尺度信息相互融合
论文地址:https://arxiv.org/pdf/2007.09062.pdf
AI算法修炼营
2020/07/22
3.6K0
CVPR2020 | 显著性目标检测,多尺度信息相互融合
CVPR2020 | FarSeg:武大提出最新遥感图像分割网络,解决前景背景不平衡问题
论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zheng_Foreground-Aware_Relation_Network_for_Geospatial_Object_Segmentation_in_High_Spatial_CVPR_2020_paper.pdf
AI算法修炼营
2020/07/16
6.9K1
ECCV 2022 | 通往数据高效的Transformer目标检测器
本文介绍一下我们中稿今年 ECCV 的一项工作。对目标检测模型所需要的数据进行标注往往是十分繁重的工作,因为它要求对图像中可能存在的多个物体的位置和类别进行标注。本文旨在减少 Detection Transformer 类目标检测器对标注数据的依赖程度,提升其数据效率。
小白学视觉
2022/09/28
3520
M2Det: A Single-Shot Object Detector based on Multi-Level读)
为解决目标实例尺度变化带来的问题,特征金字塔广泛用在一阶段目标检测器(比如,DSSD,RetinaNet,RefineDet)和两阶段目标检测器(比如Mask R-CNN, DetNet)。尽管这些使用特征金子塔的目标检测器具有很好的结果,但是由于仅仅根据固有的多尺度(为目标分类任务而设计的骨干的金字塔结构)。最新的,在这个工作中,作者提出了一个方法称为多级金字塔网络(Multi-Level Feature Pyramid Network, MLFPN)来构建检测不同尺度目标更有效的金子塔。
狼啸风云
2019/03/11
2.7K0
M2Det: A Single-Shot Object Detector based on Multi-Level读)
与时代共振,AI助力工业缺陷检测
[ 摘要 ]由于深度学习强大的特征提取能力,代替了人工目检和传统的机器视觉,成为了工业缺陷检测的新利器。然而,基于深度学习的语义分割技术在工业缺陷检测领域的应用仍具有挑战性。本文先对比自然场景下的语义分割,概述了工业缺陷检测背景下语义分割技术的特点;接着,对于工业缺陷检测的常见难点,对常见的解决方案进行介绍。最后,作者提出了关于工业缺陷检测实际应用中一些问题的思考。
数据派THU
2021/10/19
1.1K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
SPARSE DETR:具有可学习稀疏性的高效端到端目标检测(源代码下载)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文链接: https://arxiv.org/pdf/2111.14330.pdf 计算机视觉研究院专栏 作者:Edison_G DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器,在高分辨率特征图上展示了具有竞争力的性能但计算效率低。 01 前言 DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器,在高分辨率特征图上
计算机视觉研究院
2022/03/04
1.3K0
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
近年来,严重疾病的全球发病率如急性白血病等显著上升。这些疾病的初级诊断工具是常规血液测试,医生需要使用显微镜检查患者的血涂片显微图像。诊断基于白细胞的不同类型和比例。自动化白细胞分类通常作为血液学分析技术,用于对血液图像中的白细胞进行分类。这种技术通常通过检查形态、大小、色素和核仁特征等属性,准确地划分不同的白细胞类型。然而,白细胞分类模型的应用通常需要经验丰富的医生手动从患者的血液显微图像中分离白细胞,这是一个劳动密集且耗时的过程,容易出错。
集智书童公众号
2024/01/10
6.6K0
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
Encoder-Decoder with Atrous SeparableConvolution for Semantic Image Segmentation
深度神经网络采用空间金字塔池化模块或编解码器结构进行语义分割。前者通过多速率、多有效视场的过滤或池化操作,能够编码多尺度背景信息;后者通过逐步恢复空间信息,能够捕获更清晰的物体边界。在本研究中,我们建议结合这两种方法的优点。具体来说,我们提出的模型DeepLabv3+扩展了DeepLabv3,通过添加一个简单但有效的解码器模块来细化分割结果,特别是沿着对象边界。我们进一步探索了Xception模型,并将深度可分离卷积应用于Atrous空间金字塔池和解码器模块,从而获得更快、更强的编码器-解码器网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了该模型的有效性,在没有任何后处理的情况下,测试集的性能分别达到了89.0%和82.1%。
狼啸风云
2021/06/22
1.4K0
Encoder-Decoder with Atrous SeparableConvolution for Semantic Image Segmentation
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
目标检测任务是计算机视觉领域中最基本但最具挑战性的研究任务之一。该任务的目标是预测输入图像中每个物体的唯一边界框,该边界框不仅包含物体的位置信息,还包括框内物体的类别信息。近年来,这一任务得到了广泛的发展和应用,例如在自动驾驶和计算机辅助医学诊断等领域。当前主流的目标检测方法大致可以分为两类。一类是基于卷积神经网络(CNN)作为 Backbone 网络的方法,另一类是基于Transformer作为 Backbone 网络的方法。使用CNN作为 Backbone 网络的方法包括两阶段(如Faster R-CNN)方法和单阶段(如SSD和YOLO)方法。由于物体大小的不确定性,单个特征尺度的信息无法满足高精度识别性能的要求。
集智书童公众号
2023/12/21
2.5K0
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
Gold-YOLO:基于聚合与分配机制的高效目标检测器
在过去几年中,YOLO 系列模型已成为实时目标检测领域的主流方法。许多研究通过修改架构、扩充数据以及设计新的损失函数,将基线水平提升到了更高层次。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)缓解了这一问题,但以往的模型仍存在信息融合方面的难题。
计算机视觉研究院
2025/02/12
4630
Gold-YOLO:基于聚合与分配机制的高效目标检测器
22篇入选,15 篇 CVPR 2020 精选论文详解
近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。
AI科技评论
2020/03/24
6940
22篇入选,15 篇 CVPR 2020 精选论文详解
Transformer在小目标检测上的应用
小目标检测(Small Object Detection, SOD)作为通用目标检测的一个子领域,专注于对小尺寸目标的检测,在监控、无人机场景分析、行人检测、自动驾驶中的交通标志检测等各种场景中都具有重要的理论和现实意义。
不去幼儿园
2024/12/03
5110
Transformer在小目标检测上的应用
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
ViDT首先重新配置Swin Transformer的注意力模型,以支持独立的目标检测,同时完全重用Swin Transformer的参数。接下来,它结合了一个Encoder-free neck layer来利用多尺度特征和两种基本技术:Auxiliary decoding loss和Iterative Box Refinement。
集智书童公众号
2022/05/26
6810
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
推荐阅读
CVPR 2022|南大开源MixFormer:端到端目标检测新模型
1.4K0
LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!
8770
CVPR目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
6120
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
1.9K0
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA
9090
性能超FPN!北大、阿里等提多层特征金字塔网络
1.4K0
CVPR2020 | 显著性目标检测,多尺度信息相互融合
3.6K0
CVPR2020 | FarSeg:武大提出最新遥感图像分割网络,解决前景背景不平衡问题
6.9K1
ECCV 2022 | 通往数据高效的Transformer目标检测器
3520
M2Det: A Single-Shot Object Detector based on Multi-Level读)
2.7K0
与时代共振,AI助力工业缺陷检测
1.1K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
1.8K0
SPARSE DETR:具有可学习稀疏性的高效端到端目标检测(源代码下载)
1.3K0
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
6.6K0
Encoder-Decoder with Atrous SeparableConvolution for Semantic Image Segmentation
1.4K0
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
2.5K0
Gold-YOLO:基于聚合与分配机制的高效目标检测器
4630
22篇入选,15 篇 CVPR 2020 精选论文详解
6940
Transformer在小目标检测上的应用
5110
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
6810
相关推荐
CVPR 2022|南大开源MixFormer:端到端目标检测新模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档