首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在目标检测问题中提高边界框精度

是指通过优化算法和技术,使得目标检测算法能够更准确地定位和标记出目标物体的边界框。以下是一些方法和技术可以用来提高边界框精度:

  1. One-stage和Two-stage检测器:目标检测算法可以分为One-stage和Two-stage两种类型。One-stage检测器(如YOLO、SSD)直接在图像上密集地预测目标的边界框和类别,而Two-stage检测器(如Faster R-CNN、Mask R-CNN)先生成候选框,然后再对候选框进行分类和边界框回归。Two-stage检测器通常具有更高的边界框精度。
  2. 多尺度特征融合:通过在不同层次的特征图上进行目标检测,可以提高边界框的精度。例如,Feature Pyramid Network(FPN)通过在不同分辨率的特征图上进行特征融合,提供了多尺度的语义信息,从而改善了边界框的定位精度。
  3. 区域生成网络(RPN):RPN是Faster R-CNN中的一个关键组件,用于生成候选框。RPN通过在图像上滑动一个小窗口,预测窗口内是否包含目标,并生成候选框。通过调整RPN的参数和超参数,可以提高候选框的质量和数量,从而提高边界框的精度。
  4. 数据增强:通过对训练数据进行增强,可以提高目标检测算法的鲁棒性和泛化能力,进而提高边界框的精度。常用的数据增强方法包括随机裁剪、缩放、旋转、翻转等。
  5. 损失函数设计:合适的损失函数设计可以引导目标检测算法更好地学习目标的边界框。一些常用的损失函数包括平滑L1损失、交叉熵损失、IoU损失等。
  6. 预训练模型和迁移学习:使用在大规模数据集上预训练的模型(如ImageNet)作为初始模型,然后通过微调或迁移学习的方式,将其应用于目标检测任务。这样可以加快模型的收敛速度,并提高边界框的精度。
  7. 硬负样本挖掘:在目标检测中,负样本(即非目标区域)通常远远多于正样本(即目标区域)。通过采用一些策略,如在线难例挖掘(OHEM)、困难样本挖掘(Hard Example Mining)等,可以有效地挖掘出一些难以分类的负样本,从而提高边界框的精度。
  8. 后处理技术:在目标检测的输出结果中,可以应用一些后处理技术来进一步提高边界框的精度。例如,非极大值抑制(NMS)可以去除重叠的候选框,保留置信度最高的候选框。

腾讯云相关产品和产品介绍链接地址:

  • 腾讯云AI智能图像处理:https://cloud.tencent.com/product/tiip
  • 腾讯云AI机器学习平台:https://cloud.tencent.com/product/tiia
  • 腾讯云视频智能分析:https://cloud.tencent.com/product/vca
  • 腾讯云弹性计算:https://cloud.tencent.com/product/cvm
  • 腾讯云对象存储:https://cloud.tencent.com/product/cos
  • 腾讯云区块链服务:https://cloud.tencent.com/product/bcs
  • 腾讯云物联网平台:https://cloud.tencent.com/product/iotexplorer
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • Dynamic Head: Unifying Object Detection Heads with Attentions

    1、摘要 在目标检测中,定位和分类相结合的复杂性导致了方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能,但未能给出一个统一的视图。在本文中,我们提出了一种新的动态头网络框架,以统一目标检测头部与注意。该方法通过将特征层次间、空间位置间、任务感知输出通道内的多自注意机制相结合,在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验证明了所提出的动态头在COCO基准上的有效性和效率。有了标准的ResNeXt-101-DCN主干网,我们在很大程度上提高了性能,超过了流行的目标检测器,并在54.0 AP达到了新的最先进水平。此外,有了最新的变压器主干网和额外的数据,我们可以将当前的最佳COCO结果推至60.6 AP的新记录。 2、简介 物体检测是回答计算机视觉应用中“什么物体位于什么位置”的问题。在深度学习时代,几乎所有现代目标检测器[11,23,12,35,28,31,33]都具有相同的范式——特征提取的主干和定位和分类任务的头部。如何提高目标检测头的性能已成为现有目标检测工作中的一个关键问题。 开发一个好的目标检测头的挑战可以概括为三类。首先,头部应该是尺度感知的,因为多个具有极大不同尺度的物体经常共存于一幅图像中。其次,头部应该是空间感知的,因为物体通常在不同的视点下以不同的形状、旋转和位置出现。第三,头部需要具有任务感知,因为目标可以有不同的表示形式(例如边界框[12]、中心[28]和角点[33]),它们拥有完全不同的目标和约束。我们发现最近的研究[12,35,28,31,33]只关注于通过各种方式解决上述问题中的一个。如何形成一个统一的、能够同时解决这些问题的头,仍然是一个有待解决的问题。 本文提出了一种新的检测头,即动态头,将尺度感知、空间感知和任务感知结合起来。如果我们把一个主干的输出(即检测头的输入)看作是一个具有维级×空间×通道的三维张量,我们发现这样一个统一的头可以看作是一个注意学习问题。一个直观的解决方案是在这个张量上建立一个完整的自我注意机制。然而,优化问题将是太难解决和计算成本是不可承受的。 相反地,我们可以将注意力机制分别部署在功能的每个特定维度上,即水平层面、空间层面和渠道层面。尺度感知的注意模块只部署在level维度上。它学习不同语义层次的相对重要性,以根据单个对象的规模在适当的层次上增强该特征。空间感知注意模块部署在空间维度上(即高度×宽度)。它学习空间位置上的连贯区别表征。任务感知的注意模块部署在通道上。它根据对象的不同卷积核响应指示不同的特征通道来分别支持不同的任务(如分类、框回归和中心/关键点学习)。 这样,我们明确实现了检测头的统一注意机制。虽然这些注意机制分别应用于特征张量的不同维度,但它们的表现可以相互补充。在MS-COCO基准上的大量实验证明了我们的方法的有效性。它为学习更好的表示提供了很大的潜力,可以利用这种更好的表示来改进所有类型的对象检测模型,AP增益为1:2% ~ 3:2%。采用标准的ResNeXt-101-DCN骨干,所提出的方法在COCO上实现了54:0%的AP新状态。此外,与EffcientDet[27]和SpineNet[8]相比,动态头的训练时间为1=20,但表现更好。此外,通过最新的变压器主干和自我训练的额外数据,我们可以将目前的最佳COCO结果推至60.6 AP的新纪录(详见附录)。 2、相关工作 近年来的研究从尺度感知、空间感知和任务感知三个方面对目标检测器进行了改进。 Scale-awareness. 由于自然图像中经常同时存在不同尺度的物体,许多研究都认为尺度感知在目标检测中的重要性。早期的研究已经证明了利用图像金字塔方法进行多尺度训练的重要性[6,24,25]。代替图像金字塔,特征金字塔[15]被提出,通过将下采样卷积特征串接一个金字塔来提高效率,已经成为现代目标检测器的标准组件。然而,不同层次的特征通常从网络的不同深度中提取,这就造成了明显的语义差距。为了解决这种差异,[18]提出了从特征金字塔中自下而上的路径增强较低层次的特征。后来[20]通过引入平衡采样和平衡特征金字塔对其进行了改进。最近,[31]在改进的三维卷积的基础上提出了一种金字塔卷积,可以同时提取尺度和空间特征。在这项工作中,我们提出了一个尺度感知注意在检测头,使各种特征级别的重要性自适应的输入。 Spatial-awareness. 先前的研究试图提高物体检测中的空间意识,以更好地进行语义学习。卷积神经网络在学习图像[41]中存在的空间变换方面是有限的。一些工作通过增加模型能力(大小)[13,32]或涉及昂贵的数据扩展[14]来缓解这个问题,这导致了在推理和训练中极高的计算成本。随后,提出了新的卷积算子来改进空间变换的学习。[34]提出使用膨胀卷积来聚合来自指数扩展的接受域的上下文信息。[7]提出了一种可变形的卷积来对具有额外自学习偏移量的

    02

    Scalable Object Detection using Deep Neural Networks

    深度卷积神经网络最近在一系列图像识别基准测试中取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测一个边界框和图像中每个目标类别的置信度得分。这样的模型捕获目标周围的整个图像上下文,但是如果不天真地复制每个实例的输出数量,就不能处理图像中相同目标的多个实例。在这项工作中,我们提出了一个显著性激发的神经网络模型用于检测,它预测了一组与类无关的边界框,以及每个框的一个得分,对应于它包含任何感兴趣的目标的可能性。模型自然地为每个类处理可变数量的实例,并允许在网络的最高级别进行跨类泛化。我们能够在VOC2007和ILSVRC2012上获得具有竞争力的识别性能,同时只使用每张图像中预测的前几个位置和少量的神经网络评估。

    02

    2D-Driven 3D Object Detection in RGB-D Images

    在本文中,我们提出了一种在RGB-D场景中,在目标周围放置三维包围框的技术。我们的方法充分利用二维信息,利用最先进的二维目标检测技术,快速减少三维搜索空间。然后,我们使用3D信息来定位、放置和对目标周围的包围框进行评分。我们使用之前利用常规信息的技术,独立地估计每个目标的方向。三维物体的位置和大小是用多层感知器(MLP)学习的。在最后一个步骤中,我们根据场景中的目标类关系改进我们的检测。最先进的检测方法相比,操作几乎完全在稀疏的3D域,在著名的SUN RGB-D实验数据集表明,我们建议的方法要快得多(4.1 s /图像)RGB-D图像中的3目标检测和执行更好的地图(3)高于慢是4.7倍的最先进的方法和相对慢两个数量级的方法。这一工作提示我们应该进一步研究3D中2D驱动的目标检测,特别是在3D输入稀疏的情况下。

    03

    IENet: Interacting Embranchment One Stage Anchor Free Detector

    航空图像中的目标检测是一项具有挑战性的任务,因为它缺乏可见的特征和目标的不同方向。目前,大量基于R-CNN框架的检测器在通过水平边界盒(HBB)和定向边界盒(OBB)预测目标方面取得了显著进展。然而,单级无锚解仍然存在开放空间。提出了一种基于逐像素预测检测器的航空图像定向目标单级无锚检测器。我们通过开发一个具有自我注意机制的分支交互模块来融合来自分类和框回归分支的特征,从而使它成为可能。在角度预测中采用几何变换,使预测网络更易于管理。我们还引入了一种比正多边形借条更有效的借条损耗来检测OBB。在DOTA和HRSC2016数据集上对所提出的方法进行了评估,结果表明,与最先进的检测器相比,我们所提出的IENet具有更高的OBB检测性能。

    01

    Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark

    最近已作出大量努力,提出光学遥感图像中的各种目标检测方法。然而,目前对光学遥感图像中目标检测的数据集调查和基于深度学习的方法还不够完善。此外,现有的数据集大多存在一些不足之处,如图像和目标类别数量较少,图像多样性和变异性不足。这些局限性极大地影响了基于深度学习的目标检测方法的发展。本文综述了近年来计算机视觉和地球观测领域基于深度学习的目标检测研究进展。然后,我们提出了一个大规模、公开可用的光学遥感图像目标检测基准,我们将其命名为DIOR。数据集包含23463张图像和190288个实例,覆盖20个目标类。建议的DIOR数据集1)在目标类别、目标实例数量和总图像数量上都是大规模的;2)具有大范围的对象尺寸变化,不仅在空间分辨率方面,而且在跨目标的类间和类内尺寸变化方面;3)由于成像条件、天气、季节、成像质量的不同,成像结果差异较大;4)具有较高的类间相似性和类内多样性。提出的基准可以帮助研究人员开发和验证他们的数据驱动方法。最后,我们评估了DIOR数据集中的几种最先进的方法,为未来的研究奠定了基础。

    05

    Rich feature hierarchies for accurate object detection and semantic segmentation

    在PASCAL VOC标准数据集上测量的目标检测性能在最近几年趋于稳定。性能最好的方法是复杂的集成系统,它通常将多个低层图像特性与高层上下文结合起来。在本文中,我们提出了一种简单、可扩展的检测算法,相对于之前VOC 2012的最佳检测结果,平均平均精度(mAP)提高了30%以上,达到了53.3%。我们的方法结合了两个关键的方法:(1)为了定位和分割目标,可以一次将高容量应用卷积神经网络(cnn)自下而上的区域建议(2)标记的训练数据稀缺时,监督为辅助训练的任务,其次是特定于域的微调,收益率显著的性能提升。由于我们将区域建议与CNNs相结合,我们将我们的方法称为R-CNN:具有CNN特性的区域。我们还将R-CNN与OverFeat进行了比较,OverFeat是最近提出的一种基于类似CNN架构的滑动窗口检测器。在200类ILSVRC2013检测数据集上,我们发现R-CNN比OverFeat有较大的优势。

    02

    Cycle-object consistency for image-to-image domain adaptation

    生成对抗性网络(GANs)的最新进展已被证明可以通过数据扩充有效地执行目标检测器的域自适应。虽然GANs非常成功,但那些能够在图像到图像的翻译任务中很好地保存目标的方法通常需要辅助任务,例如语义分割,以防止图像内容过于失真。然而,在实践中很难获得像素级注释。或者,实例感知图像转换模型分别处理对象实例和背景。然而,它在测试时需要目标检测器,假设现成的检测器在这两个领域都能很好地工作。在这项工作中,我们介绍了AugGAN Det,它引入了循环目标一致性(CoCo)损失,以生成跨复杂域的实例感知翻译图像。 目标域的目标检测器直接用于生成器训练,并引导翻译图像中保留的目标携带目标域外观。与之前的模型(例如,需要像素级语义分割来强制潜在分布保持对象)相比,这项工作只需要更容易获取的边界框注释。接下来,对于感知实例的GAN模型,我们的模型AugGAN-Det在没有明确对齐实例特征的情况下内化了全局和对象样式转移。最重要的是,在测试时不需要检测器。实验结果表明,我们的模型优于最近的目标保持和实例级模型,并实现了最先进的检测精度和视觉感知质量。

    01

    A Comparison of Super-Resolution and Nearest Neighbors Interpolation

    随着机器视觉和深度卷积神经网络(CNNs)被应用于新的问题和数据,网络架构的进步和这些网络的应用都得到了快速的发展。然而,在大多数分类和目标检测应用中,图像数据是这样的,感兴趣的对象相对于场景来说是很大的。这可以在最流行的公共基准数据集ImageNet、VOC、COCO和CIFAR中观察到。这些数据集和它们对应的挑战赛继续推进网络架构比如SqueezeNets, Squeeze-and-Excitation Networks, 和 Faster R-CNN。对于DigitalGlobe的WorldView-3卫星将每个像素表示为30平方厘米的区域的卫星数据。在这些场景中,在大于3000x3000的场景中像汽车这样的物体通常是13x7像素或更小。这些大型场景需要预处理,以便在现代目标检测网络中使用,包括将原始场景切割成更小的组件用于训练和验证。除此之外,在停车场和繁忙的道路等区域,车辆等物体往往位于较近的位置,这使得车辆之间的边界在卫星图像中难以感知。缺乏公共可用的标记数据也阻碍了对这个应用程序空间的探索,只有xView Challenge数据集拥有卫星捕获的带有标记对象的图像。等空中数据集分类细粒度特性在空中图像(COFGA),大规模数据集在空中图像(队伍),对象检测和汽车开销与上下文(COWC)也有类似的对象类,但存在一个较低的地面样本距离(德牧)使他们更容易获得良好的对象检测结果,但限制了实际应用。考虑到将CNNs应用于卫星数据所面临的挑战,将升级作为预处理步骤对实现准确探测目标的良好性能至关重要。深度学习的进步导致了许多先进的体系结构可以执行升级,在低分辨率图像上训练网络,并与高分辨率副本进行对比验证。尽管关于这一主题的文献越来越多,但超分辨率(SR)在目标检测和分类问题上的应用在很大程度上还没有得到探索,SR与最近邻(NN)插值等也没有文献记载。SR网络作为卫星图像中目标检测的预处理步骤,具有良好的应用前景,但由于其深度网络包含数百万个必须正确训练的参数,因此增加了大量的计算成本。与SR不同的是,NN仍然是最基本的向上缩放方法之一,它通过取相邻像素并假设其值来执行插值,从而创建分段阶跃函数逼近,且计算成本很小。

    03

    Semi-supervised learning-based satellite remote sensing object detection method for power transmissi

    众所周知,随着电网的日益复杂,传统的输电塔人工测量方法已经失效,无法满足安全稳定运行的要求。尽管卫星遥感技术的发展为输电塔的高效稳定测量提供了新的前景,但仍有许多问题需要解决。由于恶劣的气候和成像设备的限制,遥感图像中的一些输电塔目标是模糊的,这使得生成数据集和实现高精度输电塔目标检测变得极其困难。为了进一步提高发射塔的检测精度,首次将基于暗通道先验的图像增强算法应用于遥感图像,提高了图像的可解释性。然后,考虑到增强图像中仍有一些传输塔无法手动标记,采用了一种基于伪标记的半监督学习方法来最大限度地利用现有数据。基于这一高质量的数据集,利用移动倒瓶颈卷积和可变形卷积构建了一个传输塔卫星遥感目标检测模型。最后,根据我国某地区的卫星遥感图像数据集进行了烧蚀和对比实验。实验结果表明,图像增强和半监督学习方法都能提高检测精度,与现有主流模型相比,该方法性能更好。

    01
    领券