前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于深度学习的基准目标检测及其衍生算法

基于深度学习的基准目标检测及其衍生算法

作者头像
一点人工一点智能
发布2022-12-27 09:27:31
4230
发布2022-12-27 09:27:31
举报
文章被收录于专栏:一点人工一点智能

程旭, 宋晨, 史金钢, 周琳, 张毅锋, 郑钰辉.基于深度学习的通用目标检测研究综述.电子学报[J], 2021, 49(7): 1428-1438 DOI:10.12263/DZXB.20200570

1 基于深度学习的基准目标检测模型

基于深度学习的目标检测方法根据有无区域提案阶段划分为区域提案检测模型和单阶段检测模型,其最近发展历程在图1中画出。

▲ 图1 基于深度学习的目标检测模型的发展历程

1.1 区域提案目标检测基准模型

区域提案检测模型将目标检测任务分为区域提案生成、特征提取和分类预测三个阶段。在区域提案生成阶段,检测模型利用搜索算法如选择性搜索(Selective Search,SS)、EdgeBoxes、区域提案网络(Region Proposal Network, RPN)等在图像中搜寻可能包含物体的区域。在特征提取阶段,模型利用深度卷积网络提取区域提案中的目标特征。在分类预测阶段,模型从预定义的类别标签对区域提案进行分类和边框信息预测。

2012年,卷积神经网络AlexNet通过强大的分层特征学习能力在ImageNet分类任务中夺魁,其分类结果比传统算法要好得多。之后Girshirk等基于此提出通用的目标检测模型RCNN。

受空间金字塔匹配启发,He等提出空间金字塔池化网络(Spatial Pyramid Pooling Network, SPPNet)解决RCNN模型中固定大小图像输入的问题。尽管模型能解决固定大小图像输入的问题并大幅减少检测时间,但网络输出特征需要磁盘存储且网络不能通过反向传播更新卷积层参数。Fast RCNN,Faster RCNN解决了该问题。

尽管Faster RCNN运用RPN能有效地缩短检测时间,但图像中上百个区域提案仍需输入到区域子网络来分类与坐标回归,这是模型的计算瓶颈。若直接减少区域子网络的深度则会引起基于分类初始模型与检测模型的矛盾,因为分类会增加物体的平移不变性而检测则减少物体的平移不变性。为解决上述问题,代表性的方法有RFCN,Mask RCNN。上述模型的相关信息在表1中列出。

▲ 表1 区域提案目标检测基准模型

1.2 单阶段目标检测基准模型

虽然区域提案检测模型保持着高效的检测效率,但其耗费时间长难以得到实际应用。相较于区域提案检测模型,单阶段检测模型联合区域提案和分类预测,输入整张图像到卷积神经网络中提取特征,最后直接输出目标类别和边框位置信息。这类代表性的方法有:YOLO,YOLOv2,YOLOv3,YOLOv4,SSD,CornerNet等。

针对YOLO模型中目标定位不准确的问题,Liu等人提出更准确的单阶段实时检测模型SSD(Single Shot MultiBox Detector),其结合YOLO的回归思想与Faster RCNN的锚框机制。之后DSSD(DeconvolutionalSingle Shot Detector)用于小目标检测。然而,锚框机制也存在明显的缺陷,如正负样本不平衡、引入过多的超参数而折戟检测速度与性能等。基于此,研究者提出了无锚框单阶段检测模型,上述模型的相关信息在表2中列出。

▲ 表2 单阶段目标检测基准模型

2 基于深度学习的目标检测衍生算法

当前主流的基于深度学习的目标检测方法可分为检测部件、数据增强、优化方法和学习策略四个方面。其中检测部件包含基准模型和基准网络;数据增强包含几何变换、光学变换等;优化方法包含特征图、上下文模型、边框优化、区域提案方法、类别不平衡和训练策略六个方面,学习策略涵盖监督学习、弱监督学习和无监督学习。本节从优化方法和学习策略这两个大的方面归纳总结了深度学习下基准目标检测模型的衍生方法。基于深度学习的目标检测部件及其代表性的检测方法如图2所示。

▲ 图2 基于深度学习的目标检测部件及其代表性的检测方法

2.1 融合特征图的目标检测模型

特征图是图像经过卷积池化层输出的结果,大多数基准检测模型只在顶层特征图做预测,这在很大程度上限制了模型的性能。为了充分提取特征信息,现有检测模型从三个角度融合浅中深层特征,分别是:结合多层特征图单层预测模型(ION、HyperNet)、分层预测模型(MSCNN、SSD、RFBNet、TridentNet)和结合多层特征图多层预测模型(FPN、DSSD、STDN、DetNet、M2Det、FCOS、EfficientDet)。相关模型信息在表4中列出。

▲ 表4 融合特征图的目标检测模型

2.2 结合上下文信息的目标检测模型

在物体遮挡、背景信息杂乱或图像质量不佳的情况下,根据图像的上下文信息能更有效更精确地检测。现有的目标检测模型主要考虑将上下文信息分为全局上下文信息(DeepIDNet、ION、CPF)和局部上下文信息(MR‑CNN、GBDNet、ACCNN、CoupleNet)。相关模型的信息在表5中列出。

▲ 表5 上下文模型和边框优化模型

2.3 优化边框定位的目标检测模型

当前检测模型在小目标检测表现不佳的主要原因是定位错误偏多,包含定位偏差大和重复预测,因此部分研究着眼于优化边框定位来提升检测性能,代表性的模型有MRCNN、Cascade RCNN、Grid RCNN等。此外,一些算法使用后处理步骤来优化预测框位置,如NMS、Soft‑NMS、Softer‑NMS等。

2.4 高效区域提案的目标检测模型

区域提案是图像中可能包含物体的区域,它是两阶段检测模型中性能保障的关键。早期的检测模型DPM使用滑动窗口方法,存在计算复杂度高和定位性能差的问题。RCNN使用SS算法提取候选区域并利用卷积神经网络提取图像特征,其检测效率和性能上均有大幅提高。EdgeBox利用图像中低维线索如颜色、纹理、边缘、梯度等对其分类,表现出良好的检测性能。Kuo等人在EdgeBox基础上提出DeepBox检测模型,运行速度更快且提案窗口召回率更高。Ren等人提出使用RPN生成候选区域的Faster RCNN检测模型,在特征图上以每个像素点为中心生成三个尺度和三个长宽比总共九个锚框。Ghodrati等人提出DeepProposal检测模型,使用多个级联的卷积特征来生成对象提案再构建逆级联选择图像中可能存在的对象位置。

2.5 处理类别不平衡的目标检测模型

类别不平衡的主要矛盾是负样本数远多于正样本数,导致训练的深度模型效率低。传统检测算法常用Bootstrapping方法处理此问题,之后RCNN模型使用困难样本挖掘(Hard ExampleMining,HEM)方法来处理。Shrivastava等人在HEM基础上提出在线困难样本挖掘方法(OnlineHard Example Mining, OHEM),其根据区域提案损失有选择性地反向传播负样本区域更新梯度。最近,Lin等人提出使用Focal Loss的单阶段检测模型RetinaNet,使模型更关注于那些少量的困难样本。表6总结了类别不平衡处理模型和训练策略方法。

▲ 表6 类别不平衡处理模型和训练策略方法

2.6 训练策略

大多数目标检测模型采取小批量样本进行训练,然而小批量样本训练存在梯度不稳定、训练时间长等问题。研究者们提出一些高效的方法解决上述问题,典型的方法有:MegNet,LargeDet,SNIP,SNIPER,DSOD, ScratchDet等。相关训练策略的信息在表6中列出。

2.7 基于弱监督学习的目标检测方法

数据标注的昂贵性和人工标注的主观性已成为一个棘手的问题。基于弱监督学习的目标检测方法主要划分为三类:基于分割的目标检测方法、基于多示例学习的目标检测方法和基于深度学习的目标检测方。这些模型的相关信息在表7中列出。

▲ 表7 基于弱监督学习的通用目标检测方法

2.8 基于无监督的目标检测方法

尽管基于弱监督学习的目标检测方法仅需要图像级别信息即可训练,表现出了良好的性能。然而,在现实应用中图像往往没有标注信息。目前,基于无监督学习的目标检测方法大致可分为两类:基于分割的目标检测方法和基于领域自适应的目标检测方法。模型的相关信息在表8中列出。

▲ 表8 基于无监督学习的通用目标检测方法

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.1 区域提案目标检测基准模型
  • 1.2 单阶段目标检测基准模型
  • 2.1 融合特征图的目标检测模型
  • 2.2 结合上下文信息的目标检测模型
  • 2.3 优化边框定位的目标检测模型
  • 2.4 高效区域提案的目标检测模型
  • 2.5 处理类别不平衡的目标检测模型
  • 2.6 训练策略
  • 2.7 基于弱监督学习的目标检测方法
  • 2.8 基于无监督的目标检测方法
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档