首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【论文解读】transformer小目标检测综述

    Transformer在计算机视觉领域迅速普及,特别是在目标识别和检测领域。在检查最先进的目标检测方法的结果时,我们注意到,在几乎每个视频或图像数据集中,transformer始终优于完善的基于cnn的检测器。虽然基于transformer的方法仍然处于小目标检测(SOD)技术的前沿,但本文旨在探索如此广泛的网络所提供的性能效益,并确定其SOD优势的潜在原因。小目标由于其低可见性,已被确定为检测框架中最具挑战性的目标类型之一。论文的目的是研究可以提高transformer在SOD中的性能的潜在策略。本调查对跨越2020年至2023年的60多个针对SOD任务开发的transformer的研究进行了分类。这些研究包括各种检测应用,包括在通用图像、航空图像、医学图像、主动毫米图像、水下图像和视频中的小目标检测。论文还编制并提供了12个适合SOD的大规模数据集,这些数据集在以前的研究中被忽视了,并使用流行的指标如平均平均精度(mAP)、每秒帧(FPS)、参数数量等来比较回顾研究的性能。

    01

    YOLO v9

    当今的深度学习方法专注于设计最合适的目标函数,以使模型的预测结果与实际情况最接近。同时,必须设计一个合适的架构,以便获取足够的信息进行预测。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。本文将深入探讨当数据通过深度网络传输时的数据丢失重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以处理深度网络所需的各种变化,以实现多个目标。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息以更新网络权重。此外,基于梯度路径规划设计了一种新的轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上取得了优异的结果。我们在基于MS COCO数据集的目标检测上验证了提出的GELAN和PGI。结果显示,GELAN仅使用常规卷积算子即可实现比基于深度卷积开发的最先进方法更好的参数利用率。PGI可用于各种模型,从轻量级到大型。它可用于获取完整信息,使得从头开始训练的模型可以获得比使用大型数据集预训练的最先进模型更好的结果。

    01

    IENet: Interacting Embranchment One Stage Anchor Free Detector

    航空图像中的目标检测是一项具有挑战性的任务,因为它缺乏可见的特征和目标的不同方向。目前,大量基于R-CNN框架的检测器在通过水平边界盒(HBB)和定向边界盒(OBB)预测目标方面取得了显著进展。然而,单级无锚解仍然存在开放空间。提出了一种基于逐像素预测检测器的航空图像定向目标单级无锚检测器。我们通过开发一个具有自我注意机制的分支交互模块来融合来自分类和框回归分支的特征,从而使它成为可能。在角度预测中采用几何变换,使预测网络更易于管理。我们还引入了一种比正多边形借条更有效的借条损耗来检测OBB。在DOTA和HRSC2016数据集上对所提出的方法进行了评估,结果表明,与最先进的检测器相比,我们所提出的IENet具有更高的OBB检测性能。

    01
    领券