前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SPARSE DETR:具有可学习稀疏性的高效端到端目标检测(源代码下载)

SPARSE DETR:具有可学习稀疏性的高效端到端目标检测(源代码下载)

作者头像
计算机视觉研究院
发布于 2022-03-04 04:11:47
发布于 2022-03-04 04:11:47
1.3K0
举报

关注并星标

从此不迷路

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

论文链接: https://arxiv.org/pdf/2111.14330.pdf

计算机视觉研究院专栏

作者:Edison_G

DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器,在高分辨率特征图上展示了具有竞争力的性能但计算效率低。

01

前言

DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器,在高分辨率特征图上展示了具有竞争力的性能但计算效率低。随后的工作Deformable DETR通过将密集注意力替换为可变形注意力来提高DETR的效率,从而实现了10倍的收敛速度和性能提升。

DETR

Deformable DETR使用多尺度特征来改善性能,然而,与DETR相比,encoder token的数量增加了20倍,并且编码器注意力的计算成本仍然是瓶颈。在我们的初步实验中,我们观察到即使只更新了一部分encoder token,检测性能也几乎不会恶化。受此观察的启发,研究者提出了稀疏DETR,它选择性地仅更新预期被解码器引用的标记,从而帮助模型有效地检测目标。

此外,研究者展示了在编码器中对所选标记应用辅助检测损失可以提高性能,同时最大限度地减少计算开销。我们验证了即使在COCO数据集上只有10%的encoder token,Sparse DETR也比可变形DETR实现了更好的性能。尽管只有encoder token被稀疏化,但与可变形DETR相比,总计算成本降低了38%,每秒帧数 (FPS) 增加了42%。

02

背景

近年来,我们见证了深度学习中目标检测的巨大进步和成功。已经提出了多种目标检测方法,但现有算法将与GT进行正匹配作为一种启发式方法,需要对近似重复预测进行非极大值抑制 (NMS) 后处理。最近Carion等人通过基于集合的目标消除了对NMS后处理的需要,引入了完全端到端的检测器DETR。训练目标采用匈牙利算法设计,既考虑分类成本,又考虑回归成本,并获得极具竞争力的性能。但是,DETR无法使用多尺度特征,例如特征金字塔网络,这些特征常用于目标检测,以提高对小目标的检测。主要原因是通过添加Transformer 架构增加了内存使用和计算。因此,它对小物体的检测能力比较差。

为了解决这个问题,有人提出了一种受可变形卷积 (deformable convolution) 启发的可变形注意力,并通过注意力模块中的关键稀疏化将二次复杂度降低为线性复杂度。通过使用可变形注意力,可变形DETR解决了DETR收敛速度慢和复杂度高的问题,使编码器能够使用多尺度特征作为输入,显着提高了检测小物体的性能。然而,使用多尺度特征作为编码器输入会使要处理的token量增加约20倍。最终,尽管对相同的token长度进行了有效的计算,但整体复杂性再次增加,使得模型推理甚至比普通的DETR更慢。

03

新框架分析

(a) DETR中的密集注意力需要二次复杂度。(b) Deformable DETR使用密钥稀疏化,因此具有线性复杂度。(c) Sparse DETR进一步使用查询稀疏化。Sparse DETR中的Attention也采用线性复杂度,但比Deformable DETR轻得多。

上图说明了如何通过预测二值化解码器交叉注意力图(DAM)来学习评分网络,其中橙色虚线箭头表示反向传播路径。左边部分展示了编码器中的前向/反向传播,右边部分展示了如何构建DAM来学习评分网络。

稀疏DETR引入了三个附加组件:(a)评分网络,(b)编码器中的辅助头,以及(c)为解码器选择前k个token的辅助头。稀疏DETR使用评分网络测量编码器token的显着性,并选择top-ρ%的token,在上图中称为(1)。在仅精炼编码器块中选定的token后,辅助头从编码器输出中选择前k个token,用作解码器对象查询。这个过程在上图中被称为(2)。此外,我们注意到每个编码器块中的附加辅助磁头在提高性能方面发挥着关键作用。仅将稀疏编码器token传递给编码器辅助头以提高效率。编码器和解码器中的所有辅助头都经过Hungarian损失训练,如Deformable DETR中所述。

04

实验及可视化

注意!

开工大吉的抽奖活动今晚23点结束,苹果无线耳机等大奖等你来拿,别忘了哦!

© The Ending

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

源代码|关注回复“SD”获取源码地址

 往期推荐 

🔗

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
Transformer 在 NLP 任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer 正在改变计算机视觉的格局,尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标检测的、端到端的学习系统,而 vision transformer 是第一个完全基于 transformer 的图像分类架构。在本文中,一篇被 ICLR 2022 接收的匿名论文集成了视觉和检测 Transformer (Vision and Detection Transformer,ViDT) 来构建有效且高效的目标检测器。
机器之心
2022/02/24
5960
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
训练轮数降至1/10、性能却更好,商汤等提出升级版DETR目标检测器
当今的目标检测器大多使用了人工设计的组件,如锚框生成、基于规则的训练目标分配、非极大值抑制后处理等。所以它们不是完全端到端的。Facebook AI 提出的 DETR【1】无需这些手工设计组件,构建了第一个完全端到端的目标检测器,实现了极具竞争力的性能。DETR 采用了一个简单的结构,即结合了卷积神经网络和 Transformer 【2】的编码器-解码器结构。研究人员利用了 Transformer 既通用又强大的关系建模能力来替代人工设计的规则,并且设计了恰当的训练信号。
机器之心
2020/10/27
7840
训练轮数降至1/10、性能却更好,商汤等提出升级版DETR目标检测器
Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral
论文: Deformable DETR: Deformable Transformers for End-to-End Object Detection
VincentLee
2024/08/15
1810
Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral
Transformer在小目标检测上的应用
小目标检测(Small Object Detection, SOD)作为通用目标检测的一个子领域,专注于对小尺寸目标的检测,在监控、无人机场景分析、行人检测、自动驾驶中的交通标志检测等各种场景中都具有重要的理论和现实意义。
不去幼儿园
2024/12/03
4860
Transformer在小目标检测上的应用
台大提出 DQ-DETR | 用简简单单 3 步改进 DETR 即可完成小目标检测的大跨越
卷积神经网络(CNNs)在处理RGB语义和空间纹理特征方面具有优势。大多数目标检测方法主要基于CNNs。例如,Faster R-CNN 引入了一个区域 Proposal 网络来生成潜在的目标区域。FCOS 应用一个中心预测分支来提高边界框的质量。
集智书童公众号
2024/04/12
2.5K0
台大提出 DQ-DETR |  用简简单单 3 步改进 DETR 即可完成小目标检测的大跨越
Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021
论文: Efficient DETR: Improving End-to-End Object Detector with Dense Prior
VincentLee
2024/08/16
1460
Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021
NÜWA:多模态预训练模型,大杀四方!(附源代码下载)
今天分享的论文,主要提出了一个统一的多模态预训练模型,称为NÜWA,可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。针对不同场景同时覆盖语言、图像和视频,设计了3D Transformer编码器-解码器框架,不仅可以将视频作为3D数据处理,还可以分别将文本和图像作为1D和2D数据进行适配。还提出了3D Nearby Attention(3DNA)机制来考虑视觉数据的性质并降低计算复杂度。在8个下游任务上评估NÜWA。与几个强大的基线相比,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外,它还显示了令人惊讶的良好的文本零样本能力——引导图像和视频处理任务。
计算机视觉研究院
2023/08/24
3710
NÜWA:多模态预训练模型,大杀四方!(附源代码下载)
微软提出DeepNet:把Transformer提升到了1000层,目标检测领域新的希望(附源代码)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2203.00555.pdf 源代码:https://github.com/microsoft/unilm 计算机视觉研究院专栏 作者:Edison_G 提出了一种简单而有效的方法来稳定(训练和解码)极深的Transformer。具体来说,引入了一个新的归一化函数(DEEPNORM),修改Transformer中的残差连接
计算机视觉研究院
2022/03/30
6930
全新范式 | 沈春华老师团队提出无需解码器的目标检测器DFFT
ViT 正在改变目标检测方法的格局。ViT 在检测中的一个自然用途是用基于Transformer的主干替换基于 CNN 的主干,这直接且有效,但代价是为推理带来了相当大的计算负担。更巧妙的做法是 DETR 系列,它消除了在目标检测中对许多手工设计组件的需求,但引入了需要超长收敛时间的解码器。因此,基于 Transformer 的目标检测无法在大规模应用中流行。为了克服这些问题,作者提出了一种完全基于Transformer且无解码器(DFFT)的目标检测器,首次在训练和推理阶段都实现了高效率。 通过围绕2个切
AI科技评论
2022/06/20
4520
全新范式 | 沈春华老师团队提出无需解码器的目标检测器DFFT
【论文解读】transformer小目标检测综述
Transformer在计算机视觉领域迅速普及,特别是在目标识别和检测领域。在检查最先进的目标检测方法的结果时,我们注意到,在几乎每个视频或图像数据集中,transformer始终优于完善的基于cnn的检测器。虽然基于transformer的方法仍然处于小目标检测(SOD)技术的前沿,但本文旨在探索如此广泛的网络所提供的性能效益,并确定其SOD优势的潜在原因。小目标由于其低可见性,已被确定为检测框架中最具挑战性的目标类型之一。论文的目的是研究可以提高transformer在SOD中的性能的潜在策略。本调查对跨越2020年至2023年的60多个针对SOD任务开发的transformer的研究进行了分类。这些研究包括各种检测应用,包括在通用图像、航空图像、医学图像、主动毫米图像、水下图像和视频中的小目标检测。论文还编制并提供了12个适合SOD的大规模数据集,这些数据集在以前的研究中被忽视了,并使用流行的指标如平均平均精度(mAP)、每秒帧(FPS)、参数数量等来比较回顾研究的性能。
合合技术团队
2024/02/21
1.2K0
【论文解读】transformer小目标检测综述
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
近年来,严重疾病的全球发病率如急性白血病等显著上升。这些疾病的初级诊断工具是常规血液测试,医生需要使用显微镜检查患者的血涂片显微图像。诊断基于白细胞的不同类型和比例。自动化白细胞分类通常作为血液学分析技术,用于对血液图像中的白细胞进行分类。这种技术通常通过检查形态、大小、色素和核仁特征等属性,准确地划分不同的白细胞类型。然而,白细胞分类模型的应用通常需要经验丰富的医生手动从患者的血液显微图像中分离白细胞,这是一个劳动密集且耗时的过程,容易出错。
集智书童公众号
2024/01/10
6.5K0
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
利用Transformer进行端到端的目标检测及跟踪(附源代码)
多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能力。
计算机视觉研究院
2023/08/24
6140
利用Transformer进行端到端的目标检测及跟踪(附源代码)
TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021
论文: Rethinking Transformer-based Set Prediction for Object Detection
VincentLee
2024/08/15
970
TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021
ECCV 2022 | 通往数据高效的Transformer目标检测器
本文介绍一下我们中稿今年 ECCV 的一项工作。对目标检测模型所需要的数据进行标注往往是十分繁重的工作,因为它要求对图像中可能存在的多个物体的位置和类别进行标注。本文旨在减少 Detection Transformer 类目标检测器对标注数据的依赖程度,提升其数据效率。
小白学视觉
2022/09/28
3510
CVPR21目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
论文地址:https://arxiv.org/pdf/2103.09460.pdf
计算机视觉研究院
2022/01/25
7270
CVPR21目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
目标检测 | Facebook开源新思路!DETR:用Transformers来进行端到端的目标检测
论文地址:https://arxiv.org/pdf/2005.12872.pdf
AI算法修炼营
2020/05/29
1.7K0
目标检测 | Facebook开源新思路!DETR:用Transformers来进行端到端的目标检测
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
ViDT首先重新配置Swin Transformer的注意力模型,以支持独立的目标检测,同时完全重用Swin Transformer的参数。接下来,它结合了一个Encoder-free neck layer来利用多尺度特征和两种基本技术:Auxiliary decoding loss和Iterative Box Refinement。
集智书童公众号
2022/05/26
6760
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
集智书童公众号
2023/09/04
6190
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割。
CV君
2021/09/27
1.6K0
精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
YOLO虽快,但其依赖的非最大抑制(NMS)后处理拖累速度与精度。DETR架构首次实现无需NMS的“一对一”预测,却受限于计算成本。如今,RT-DETR 通过混合编码器、不确定性查询选择等创新突破实时瓶颈;RF-DETR 更进一步,成为首个在COCO上突破60 AP的实时模型,兼顾高精度与边缘部署效率。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/05/29
3100
精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
推荐阅读
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
5960
训练轮数降至1/10、性能却更好,商汤等提出升级版DETR目标检测器
7840
Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral
1810
Transformer在小目标检测上的应用
4860
台大提出 DQ-DETR | 用简简单单 3 步改进 DETR 即可完成小目标检测的大跨越
2.5K0
Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021
1460
NÜWA:多模态预训练模型,大杀四方!(附源代码下载)
3710
微软提出DeepNet:把Transformer提升到了1000层,目标检测领域新的希望(附源代码)
6930
全新范式 | 沈春华老师团队提出无需解码器的目标检测器DFFT
4520
【论文解读】transformer小目标检测综述
1.2K0
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
6.5K0
利用Transformer进行端到端的目标检测及跟踪(附源代码)
6140
TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021
970
ECCV 2022 | 通往数据高效的Transformer目标检测器
3510
CVPR21目标检测新框架:不再是YOLO,而是只需要一层特征(干货满满,建议收藏)
7270
目标检测 | Facebook开源新思路!DETR:用Transformers来进行端到端的目标检测
1.7K0
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
6760
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
6190
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
1.6K0
精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈
3100
相关推荐
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档