题目:Object Detection in 20 Years: A Survey
作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye (1 and 4)
((1) University of Michigan, (2) Beihang University, (3) Carleton University, (4) DiDi Chuxing)
【摘要】目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来受到了广泛的关注。它在过去二十年的发展可以说是计算机视觉历史的缩影。如果我们把今天的目标检测看作是深度学习力量下的一种技术美学,那么让时光倒流20年,我们将见证冷兵器时代的智慧。本文从目标检测技术发展的角度,对近四分之一世纪(20世纪90年代至2019年)的400余篇论文进行了广泛的回顾。本文涵盖了许多主题,包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构建模块、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用,并对其面临的挑战以及近年来的技术进步进行了深入分析。
参考链接:
https://arxiv.org/abs/1905.05055
引言
近几年,视觉目标检测的研究工作非常多,发表了许多关于一般目标检测的综述[24-28]。本文与上述综述的主要区别如下:
本文的其余部分组织如下。在第二部分中,我们回顾了20年来目标检测的发展历史。第3节将介绍一些加速目标检测的技术。第四部分总结了近三年来一些最先进的检测方法。第5节将回顾一些重要的检测应用。第六部分对本文进行了总结,并对进一步的研究方向进行了分析。
图1 从1998年到2018年,越来越多的关于目标检测的论文发表。(数据来自谷歌scholar advanced search: allintitle:“object detection”AND“detection objects”)
图2 目标检测的路线图。图中的里程碑检测器: VJ Det. [10,11], HOG Det. [12], DPM [13-15], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], Pyramid Networks [22], Retina-Net[23]。
图3。在VOC07、VOC12和MS-COCO数据集上对目标检测精度的提高。图中检测器:DPM-v1 [13], DPM-v5 [21]0, RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], SSD [21], FPN [22], Retina-Net [23], RefineDet [55], TridentNet[56]。
图4 (a) PASCAL-VOC07、(b) ILSVRC、(c) MS-COCO和(d) Open images中的一些示例图像和标注。
表1 一些常用的目标检测数据集及其统计数据。
图5 早期一些著名的检测模型:(a) Eigenfaces [95],(b) Shared weight networks [96],(c) Space displacement networks (Lenet-5) [97], (d) Haar wavelets of VJ detector [10]。
图6 从2001年到2019年,多尺度检测技术在目标检测中的发展:1)特征金字塔和滑动窗口,2)基于object proposals的检测,3)深度回归,4)多参考检测,5)多分辨率检测。图中检测器: VJ Det. [10], HOG Det. [12], DPM [13, 15], Exemplar SVM [36], Overfeat [103], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], DNN Det. [104], YOLO [20], YOLO-v2 [48], SSD [21], Unified Det. [105], FPN [22], RetinaNet [23], RefineDet [55], TridentNet [56].
图7 2001 - 2019年bounding box regression技术在目标检测中的发展。图中检测器: VJ Det. [10], HOG Det. [12], Exemplar SVM [36], DPM [13, 15], Overfeat [103], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], YOLO-v2 [48], Unified Det. [105], FPN [22], RetinaNet [23], RefineDet [55], TridentNet [56].
图8 2001 - 2019年context priming在目标检测中的演变: 1)局部上下文检测,2)全局上下文检测,3)上下文交互检测。图中检测器: Face Det. [139], MultiPath [140], GBDNet [141, 142], CC-Net [143], MultiRegion-CNN [144], CoupleNet [145], DPM [14, 15], StructDet [146], YOLO [20], RFCN++ [147], ION [148], AttenContext [149], CtxSVM [150], PersonContext [151], SMN [152], RetinaNet [23], SIN [153].
图9 从1994年到2019年,non-max suppression (NMS)技术在目标检测中的发展: 1) Greedy selection,2) Bounding box aggregation,3) Learn to NMS。该图中的检测器有: VJ Det. [10], Face Det. [96], HOG Det. [12], DPM [13, 15], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], FPN [22], RetinaNet [23], LearnNMS [154], MAP-Det [155], End2End-DPM [136], StrucDet [146], Overfeat [103], APC-NMS [156], MAPC [157], SoftNMS [158], FitnessNMS [159].
图10 从1994年到2019年,目标检测中hard negative mining技术的发展。图中检测器有: Face Det. [164], Haar Det. [29], VJ Det. [10], HOG Det. [12], DPM [13, 15], RCNN [16], SPPNet [17], Fast RCNN [18], Faster RCNN [19], YOLO [20], SSD [21], FasterPed [165], OHEM [166], RetinaNet [23], RefineDet [55].
图12 目标检测中加速技术的概述。
图13 说明如何计算图像的HOG映射。
图16 利用快速傅立叶变换和反快速傅立叶变换在频域中加速线性检测器(如HOG检测器、DPM等) [226]。
图17 三种检测器的检测精度的比较:Faster RCNN [19], R-FCN [46] 和SSD [21] 在具有不同检测引擎的MS-COCO数据集上。图片来自J. Huang et al. CVPR2017 [27]。
图18 不同的特征融合方法的说明: (a) bottomup fusion, (b) top-down fusion, (c) element-wise sum, (d) element-wise product, 和 (e) concatenation.
图21 人脸检测面临的挑战:(a)类内变异,图片来自于WildestFaces Dataset [70]。(b) 面部遮挡,来自UFDD数据集的图像[69]。(c)多尺度人脸检测。图片来自P. Hu et al. CVPR2017 [322].
图22 文本检测和识别方面的挑战: (a)字体、颜色和语言的变化。图片来自maxpixel(免版权)。(b)文本旋转和透视失真。图片来自Y. Liu et al. CVPR2017 [336]。(c)密集排列的文本局部化。图片来自Y. Wu et al. ICCV2017 [337].
图23 交通标志检测和交通灯检测面临的挑战:(a)光照变化。图片来自pxhere(免版权)。(b)运动模糊。图片来自GTSRB Dataset [81]。(c) 恶劣天气下的探测。图片来自Flickr和Max Pixel(免版权)。
结论与未来发展方向
作者也对目标检测未来的趋势做了简要的描述,未来的目标检测研究可能会集中在以下几个方面:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有