开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >[Detection] CNN 之 "物体检测" 篇IndexRCNNFast RCNNFaster RCNNR-FCNYOLOSSDNMS

[Detection] CNN 之 "物体检测" 篇IndexRCNNFast RCNNFaster RCNNR-FCNYOLOSSDNMS

zhwhong

发布于 2018-05-16 09:22:40

发布于 2018-05-16 09:22:40

9670

举报

文章被收录于专栏：技术随笔技术随笔

详见个人博客：[Detection] 深度学习之 "物体检测" 方法梳理

Index

RCNN

Rich feature hierarchies for accurate object detection and semantic segmentation

早期，使用窗口扫描进行物体识别，计算量大。 RCNN去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个侯选框的层次组。

原始图片通过Selective Search提取候选框，约有2k个
侯选框缩放成固定大小
经过CNN
经两个全连接后，分类

拓展阅读：基于R-CNN的物体检测-CVPR 2014

Fast RCNN

RCNN中有CNN重复计算，Fast RCNN则去掉重复计算，并微调选框位置。

整图经过CNN，得到特征图
提取域候选框
把候选框投影到特征图上，Pooling采样成固定大小
经两个全连接后，分类与微调选框位置

Faster RCNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

提取候选框运行在CPU上，耗时2s，效率低下。

Faster RCNN使用CNN来预测候选框。

整图经过CNN，得到特征图
经过核为 3×3×256 的卷积，每个点上预测k个anchor box是否是物体，并微调anchor box的位置
提取出物体框后，采用Fast RCNN同样的方式，进行分类
选框与分类共用一个CNN网络

anchor box的设置应比较好的覆盖到不同大小区域，如下图:

一张1000×600的图片，大概可以得到20k个anchor box(60×40×9)。

R-FCN

R-FCN: Object Detection via Region-based Fully Convolutional Networks

论文翻译详见：[译] 基于R-FCN的物体检测 (zhwhong)

RCNN系列(RCNN、Fast RCNN、Faster RCNN)中，网络由两个子CNN构成。在图片分类中，只需一个CNN，效率非常高。所以物体检测是不是也可以只用一个CNN？

图片分类需要兼容形变，而物体检测需要利用形变，如何平衡？

R-FCN利用在CNN的最后进行位置相关的特征pooling来解决以上两个问题。

经普通CNN后，做有 k^2(C+1) 个 channel 的卷积，生成位置相关的特征(position-sensitive score maps)。

C 表示分类数，加 1 表示背景，k 表示后续要pooling 的大小，所以生成 k^2 倍的channel，以应对后面的空间pooling。

普通CNN后，还有一个RPN(Region Proposal Network)，生成候选框。

假设一个候选框大小为 w×h，将它投影在位置相关的特征上，并采用average-pooling的方式生成一个 k×k×k^2(C+1) 的块(与Fast RCNN一样)，再采用空间相关的pooling(k×k平面上每一个点取channel上对应的部分数据)，生成 k×k×(C+1)的块，最后再做average-pooling生成 C+1 的块，最后做softmax生成分类概率。

类似的，RPN也可以采用空间pooling的结构，生成一个channel为 4k^2的特征层。

空间pooling的具体操作可以参考下面。

训练与SSD相似，训练时拿来做lost计算的点取一个常数，如128。除去正点，剩下的所有使用概率最高的负点。

YOLO

You Only Look Once: Unified, Real-Time Object Detection

Faster RCNN需要对20k个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。 YOLO则把物体框的选择与识别进行了结合，一步输出，即变成”You Only Look Once”。

把原始图片缩放成448×448大小
运行单个CNN
计算物体中心是否落入单元格、物体的位置、物体的类别

模型如下:

把缩放成统一大小的图片分割成S×S的单元格
每个单元格输出B个矩形框(冗余设计)，包含框的位置信息(x, y, w, h)与物体的Confidence
每个单元格再输出C个类别的条件概率P(Class∣Object)
最终输出层应有S×S×(B∗5+C)个单元
x, y 是每个单元格的相对位置
w, h 是整图的相对大小

Conficence定义如下:

在原论文中，S = 7，B = 2，C = 20，所以输出的单元数为7×7×30。

代价函数：

其中 λ_coord=5，λ_noobj=0.5。

一般，w与 h 不是在 0,1上的均匀分布，偏小，所以开方。

注: 开方的解释是我自己的估计，可能不对。

SSD

SSD: Single Shot MultiBox Detector

YOLO在 7×7 的框架下识别物体，遇到大量小物体时，难以处理。

SSD则在不同层级的feature map下进行识别，能够覆盖更多范围。

假设在 m 层 feature map 上进行识别，则第 k 层的基本比例为

比如 s_min=0.2，s_max=0.95，表示整张图片识别物体所占比最小 0.2，最大 0.95。

在基本比例上，再取多个长宽比，令 a={1, 2, 3, 1/2, 1/3}，长宽分别为

Match策略上，取ground truth与以上生成的格子重叠率大于0.5的。

SSD vs YOLO

位置采用Smooth L1 Regression，分类采用Softmax。

代价函数为：

undefined

undefined

x 表示类别输出，c 表示目标分类，l 表示位置输出，g 表示目标位置, α是比例常数，可取1。

训练过程中负点远多于正点，所以只取负点中，概率最大的几个，数量与正点成 3:1 。

NMS

以上方法，同一物体可能有多个预测值。

可用NMS(Non-maximum suppression，非极大值抑制)来去重。

如上图所示，一共有6个识别为人的框，每一个框有一个置信率。

现在需要消除多余的:

按置信率排序: 0.95, 0.9, 0.9, 0.8, 0.7, 0.7
取最大0.95的框为一个物体框
剩余5个框中，去掉与0.95框重叠率大于0.6(可以另行设置)，则保留0.9, 0.8, 0.7三个框
重复上面的步骤，直到没有框了，0.9为一个框
选出来的为: 0.95, 0.9

两个矩形的重叠率计算方式如下:

xywh VS xyxy

系列论文中，位置都用 (x,y,w,h)来表示，没有用左上角、右下角 (x,y,x,y) 来表示。

初衷是当 (w,h)正确时，(x,y) 一点错，会导致整个框就不准了。

在初步的实际实验中，(x,y,x,y) 效果要差一些。

背后的逻辑，物体位置用 (x,y,w,h) 来学习比较容易。

(x,y) 只需要位置相关的加权就能计算出来；

(w,h) 就更简单了，直接特征值相加即可。

原文链接：Detection
补充阅读： [Detection] 深度学习之 "物体检测" 方法梳理 [译] 基于R-FCN的物体检测 (zhwhong)

(注：感谢您的阅读，希望本文对您有所帮助。如果觉得不错欢迎分享转载，但请先点击这里获取授权。本文由版权印提供保护，禁止任何形式的未授权违规转载，谢谢！)

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2016.12.26 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

CNN之“物体检测” 篇

本文主要介绍了物体检测领域的一些重要方法，包括R-CNN、Fast R-CNN、Faster R-CNN、YOLO以及SSD。作者对这些方法的原理进行了详细的介绍，并通过实际案例对方法的性能进行了评估。此外，作者还讨论了这些方法在实际应用中的一些关键问题，包括如何选择合适的anchor、如何设置合适的正负样本以及如何进行数据增广等。对于每一种方法，作者都提供了详细的代码实现以及相关的数据集，可供读者进行实验和深入学习。总的来说，本文对物体检测领域的方法进行了全面的梳理和总结，有助于读者更好地理解和应用该领域的方法。

企鹅号小编

2018/01/09

8220

CNN 之物体检测篇

机器学习存储 https http 神经网络

RCNN Rich feature hierarchies for accurate object detection and semantic segmentation（https://arxiv.

用户1332428

2018/03/09

8320

[译] 基于R-FCN的物体检测题目：基于R-FCN的物体检测摘要简介方法相关工作实验总结与展望Reference

题目：基于R-FCN的物体检测文章地址：arXiv:1605.06409. 《R-FCN: Object Detection via Region-based Fully Convolutio

zhwhong

2018/05/16

6760

计算机视觉中的物体检测方法

编程算法深度学习

本文适合刚入门物体检测的人群学习，不涉及公式推理。目录 *摘要 *相关物体检测数据集介绍 *现有的主流物体检测算法 *物体检测的难点与挑战 *相关术语介绍 *物体检测的传统算法概述 *基于深度学习的物体检测算法 R-CNN Fast-RCNN Faster-RCNN YOLO *物体检测动手实践 *参考文献摘要相比于图像分类，图像中物体检测是计算机视觉中一个更加复杂的问题，因为图像分类只需要判断出图像属于哪一类就行，而在物体检测中，图像里可能有多个物体，我们需要对所有

张俊怡

2018/04/24

9880

干货 | 基于深度学习的目标检测算法综述（一）

目标检测（Object Detection）是计算机视觉领域的基本任务之一，学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初 2013 年提出的 R-CNN、OverFeat，到后面的 Fast/Faster R-CNN、SSD、YOLO 系列，再到 2018 年最近的 Pelee。短短不到五年时间，基于深度学习的目标检测技术，在网络结构上，从 two stage 到 one stage，从 bottom-up only 到 Top-Down，从 single scale network 到 feature pyramid network，从面向 PC 端到面向手机端，都涌现出许多好的算法技术，这些算法在开放目标检测数据集上的检测效果和性能都很出色。

AI科技评论

2018/08/21

8350

干货 | 基于深度学习的目标检测算法综述（一）

干货 | 深度学习时代的目标检测算法

人工智能深度学习编程算法

AI 科技评论按：本文作者 Ronald，首发于作者的知乎专栏「炼丹师备忘录」，AI 科技评论获其授权转发。目前目标检测领域的深度学习方法主要分为两类：two stage 的目标检测算法；one s

AI科技评论

2018/03/07

1.7K0

干货 | 深度学习时代的目标检测算法

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

.net 图像识别深度学习机器学习神经网络

object detection，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。所以，object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。

智能算法

2019/12/06

9.2K1

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

目标检测（Object Detection）

人脸识别图像识别机器学习神经网络深度学习

目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。

全栈程序员站长

2022/09/14

7.7K0

目标检测（Object Detection）

深度学习近期总结分析

深度学习编程算法人工智能

希望想认真阅读的你可以听着这首悦耳的歌O(∩_∩)O 一、背景介绍普通的深度学习监督算法主要是用来做分类，如图1(1)所示，分类的目标是要识别出图中所示是一只猫。而在ILSVRC（ImageNet Large Scale Visual Recognition Challenge)竞赛以及实际的应用中，还包括目标定位和目标检测等任务。其中目标定位是不仅仅要识别出来是什么物体（即分类），而且还要预测物体的位置，位置一般用边框（bounding box）标记，如图1(2)所示。而目标检测实质是多目标的定位，即要

计算机视觉研究院

2018/04/17

7890

基于CNN目标检测方法（RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD）行人检测

机器学习卷积神经网络神经网络深度学习人工智能

对于一张图片，R-CNN基于selective search方法大约生成2000个候选区域，然后每个候选区域被resize成固定大小（227×227）并送入一个CNN模型中，使用AlexNet来提取图像特征，最后得到一个4096维的特征向量。然后这个特征向量被送入一个多类别SVM分类器中，预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器，从特征向量中推断其属于该类别的概率大小。为了提升定位准确性，R-CNN最后又训练了一个边界框回归模型。训练样本为(P,G)，其中P=(Px,Py,Pw,Ph)为候选区域，而G=(Gx,Gy,Gw,Gh)为真实框的位置和大小。G的选择是与P的IoU最大的真实框，回归器的目标值定义为：

机器学习AI算法工程

2019/10/29

3.8K0

基于CNN目标检测方法（RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD）行人检测

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD「建议收藏」

图像识别 https 网络安全深度学习 .net

之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测，包括R-CNN、Fast R-CNN、Faster R-CNN，但一直没有比较好的机会深入（但当你对目标检测有个基本的了解之后，再看这些课程你会收益很大）。但目标检测这个领域实在是太火了，经常会看到一些写的不错的通俗易懂的资料，加之之前在京东上掏了一本书看了看，就这样耳濡目染中，还是开始研究了。

全栈程序员站长

2022/06/30

7460

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD「建议收藏」

最全综述 | 图像目标检测

图片分类任务我们已经熟悉了，就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题，即目标检测问题。这意味着，我们不仅要用算法判断图片中是不是一辆汽车，还要在图片中标记出它的位置，用边框或红色方框把汽车圈起来，这就是目标检测问题。其中“定位”的意思是判断汽车在图片中的具体位置。

AI算法与图像处理

2019/07/11

1.4K0

编程算法图像识别机器学习神经网络深度学习

图片分类任务我们已经熟悉了，就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题，即目标检测问题。这意味着，我们不仅要用算法判断图片中是不是一辆汽车，还要在图片中标记出它的位置，用边框或红色方框把汽车圈起来，这就是目标检测问题。其中“定位”的意思是判断汽车在图片中的具体位置。

用户1150922

2019/07/10

1.4K0

基于深度学习的目标检测算法综述

深度学习编程算法人工智能

目标检测的任务是找出图像中所有感兴趣的目标（物体），确定它们的位置和大小，是机器视觉领域的核心问题之一。由于各类物体有不同的外观，形状，姿态，加上成像时光照，遮挡等因素的干扰，目标检测一直是机器视觉领域最具有挑战性的问题。本文将针对目标检测（Object Detection）这个机器视觉中的经典任务进行解析，抛砖引玉。如对文中的内容持不同观点，欢迎到SIGAI公众号发消息给我们，一起探讨！

SIGAI学习与实践平台

2018/08/07

1.4K0

基于深度学习的目标检测算法综述

一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇（含答案）

存储图像识别编程算法神经网络机器学习

作者灯会为21届中部985研究生，凭借自己整理的面经，去年在腾讯优图暑期实习，七月份将入职百度cv算法工程师。在去年灰飞烟灭的算法求职季中，经过30+场不同公司以及不同部门的面试中积累出了CV总复习系列，此为目标检测篇。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

AIWalker

2021/07/05

9690

一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇（含答案）

02. OCR学习路径之文本检测（上）Faster R-CNN算法简介

机器学习神经网络深度学习人工智能

由于目前已经几乎不再使用传统的方法来做OCR，后续我们主要分享基于深度学习的OCR算法。该算法一般需要训练两个模型，一个是文本检测模型，一个是文字识别模型。

Aalto

2019/10/21

3.1K0

02. OCR学习路径之文本检测（上）Faster R-CNN算法简介

R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗？一文总结目标识别必备经典模型（二）

函数框架连接模型网络

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在目标检测任务上曾取得 SOTA 的经典模型。第 1 期：R-CNN、SPP-Net、Fast R-CNN、Faster R-C

机器之心

2023/03/29

1.2K0

R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗？一文总结目标识别必备经典模型（二）

深度学习500问——Chapter08：目标检测（2）

网络性能深度学习量化算法

ResNet-101 + R-FCN：83.6% in PASCAL VOC 2007 test datasets

JOYCE_Leo16

2024/04/25

1200

深度学习500问——Chapter08：目标检测（2）

CNN--卷积神经网络从R-CNN到Faster R-CNN的理解(CIFAR10分类代码)

机器学习神经网络深度学习人工智能图像识别

上图中CNN要做的事情是：给定一张图片，是车还是马未知，是什么车也未知，现在需要模型判断这张图片里具体是一个什么东西，总之输出一个结果：如果是车那是什么车。

mantch

2019/08/14

9260

【转】目标检测之YOLO系列详解

机器学习神经网络深度学习人工智能图像识别

YOLO将输入图像分成SxS个格子，若某个物体 Ground truth 的中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。

marsggbo

2019/05/26

1.7K0

相关推荐

CNN之“物体检测” 篇

更多 >

LV.0

这个人很懒，什么都没有留下～

作者相关精选

目录

Index

RCNN

Fast RCNN

Faster RCNN

R-FCN

YOLO

SSD
- SSD vs YOLO

NMS
- xywh VS xyxy

加入讨论

的问答专区 >

进击的老头子

1架构师擅长4个领域

相关课程

一站式学习中心 >

AI代码助手快速上手训练营

腾讯云代码助手

AI绘画-StableDiffusion图像生成

大模型图像创作引擎

高性能应用服务