干货！关于目标检测你需要看的9篇论文

马上科普尚尚

发布于 2020-05-11 07:11:32

9120

文章被收录于专栏：人工智能前沿讲习人工智能前沿讲习

关注文章公众号 回复"目标检测"获取本主题精选论文

目标检测是计算机视觉的核心任务之一。本期SFFAI15邀请了两位目标检测的一线科研人员，已有多篇顶会一作的张士峰和开源PyTorchCV的尤安升，同大家一起探讨目标检测的研究前沿以及一系列经典方法的实现细节。

您可以先仔细阅读，并带着问题来现场交流呦。

?????

推荐理由：微软亚研代季峰老师组的文章，可形变卷积网络的加强版。可变形卷积网络的特征支持空间比常规的卷积网络更符合目标结构，但这种支持远远超出感兴趣的区域，导致特征受到不相关图像内容的影响。为了解决这个问题，DCNv2对网络中可变形卷积进行更全面的集成，引入一种扩展变形建模范围的调制机制，增强了建模能力。为了有效地利用这种丰富的建模能力，其通过提出的特征模拟方案指导网络训练，该方案帮助网络学习特征，这些特征反应目标焦点和R-CNN网络分类能力的特征。

推荐理由来自：张士峰

?????

推荐理由：Larry S. Davis老师组继SNIP和SNIPER后又一力作，保持检测精度基本不掉的情况下，提高检测速度。该文章提出了一种高效的多尺度目标检测算法用于高效检测物体。这种算法使用了由粗到精的策略，只在那些可能有小物体存在的区域使用细粒度的检测。为了得到这些区域，其提出了一种称为FocusPixels的方法来预测小区域。同时为了配合FocusPixels高效的使用，设计了FocusChip来涵盖FocusPixels区域，以减少计算量。

推荐理由来自：张士峰

?????

推荐理由：该文章巧妙地利用关键点来表示物体方形包围框，即一个目标框可以由两个点（左上角和右下角）来表示，这样一个目标物体在预测的时候就可以直接预测两个类别的关键点，然后对两个类别的关键点进行组合即可生成对应的目标框，是One-Stage检测算法中一个较为有意思的尝试。

推荐理由来自：尤安升

?????

推荐理由：One-Stage算法中的经典算法，在既保证速度，又要保证精度的情况下，提出了一种在多尺度特征图上直接回归目标类别和位置的One-Stage检测框架。相比较于其他单阶段检测模型（YOLO），SSD通过设置Anchor Boxes和使用多尺度特征图，使得在取得了较高的精度的同时能保持较高的速度；相对于那些需要 object proposals 的两阶段检测模型（Faster R-CNN），SSD 完全取消了 proposals generation、pixel resampling或者 feature resampling这些阶段，更易于训练优化。后续One-Stage相关改进工作多基于该算法进行。

推荐理由来自：尤安升

推荐理由：SSD是一步法检测器的集大成者，达到跟接近二步法模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。SSD相当于多尺度的RPN来做物体检测，它利用多个尺度的检测层，分别关联大小合适的anchor box，使得不同尺度的物体在合适的特征层上被检测。同时不依靠逐区域操作的子网络，一次分类和回归得到最终的结果，取得了不错的检测精度以及较快的检测速度。

推荐理由来自：张士峰

???

推荐理由：Faster R-CNN是二步法检测器的奠基性工作，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，在当时到达了SOTA的精度。Faster R-CNN的成功之处在于用RPN网络完成了检测任务的深度化。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用。这项工作奠定了"RPN+RCNN"的两阶段方法元结构，影响了大部分后续工作。

推荐理由来自：张士峰

推荐理由：Two-Stage算法中的经典算法，通过区域候选网络代替传统方法生成region proposals，极大地提高了Two-Stage检测算法的速度，至此Two-Stage检测算法基本确定，后续相关工作多基于该算法进行改进，如FPN、R-FCN等目标检测算法。

推荐理由来自：尤安升

???

推荐理由：一步法检测器的网络结构，位置框和物体的类是在同一个特征提取层来做回归和分类预测的，这种的网络运算速度虽然快但是准确度不够高。RefineDet是基于SSD的改进算法，该算法主要是利用特征金字塔的上半部分来回归粗略位置参数来调整anchor的位置以及框的二分类（是否是物体的位置）任务，用下半部分相对于调整的anchor的参数来回归精细物体位置和框内物体的分类任务，从而保持一步法检测器的速度下，达到二步法的检测精度。

推荐理由来自：张士峰

???

推荐理由：人脸检测中存在着召回效率不够高，回归结果不够准的问题。为了解决这个问题，SRN选择性地在特征金字塔浅层使用二阶段分类，在特征金字塔深层使用二阶段回归，有效地提高了回归结果的准度以及召回效率。同时，为了引入多样化的感受野信息，有助于SRN检出极端尺度、姿态下的人脸，进一步设计了RFE模块。发表时，SRN在AFW、PASCAL face、FDDB、WIDER FACE上取得了最好的结果。

推荐理由来自：张士峰

???

推荐理由：类似于Faster R-CNN、FPN等，其Proposal网络对于正样本只设置了一个阈值，只做了一次较为宽松的约束，得到的Proposals结果较为粗糙，当对检测框的定位结果要求更为精确的时候就稍显不足。而Cascade R-CNN在获取Proposals的时候也采用逐步求精的策略，前一步生成的Proposals作为后一步的输入，通过控制正样本的交并比阈值不断提高Proposals的质量。

推荐理由来自：尤安升

???