Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 19系列 | Stereo R-CNN 3D 目标检测

CVPR 19系列 | Stereo R-CNN 3D 目标检测

作者头像
计算机视觉研究院
发布于 2019-11-29 03:26:00
发布于 2019-11-29 03:26:00
6830
举报

摘要

之前在3D检测方面的文章层出不穷,也是各个公司无人驾驶或者机器人学部门关注的重点,包含了点云,点云图像融合,以及单目3D检测,但是在双目视觉方面的贡献还是比较少,自从3DOP之后。总体来说,图像的检测距离,图像的density以及context信息,在3D检测中是不可或缺的一部分,因此作者在这篇文章中挖掘了双目视觉做3D检测的的潜力。

今天给大家分享的文章又是一个新技术:这篇文章通过充分利用立体图像中的稀疏、密集、语义和几何信息,提出了一种用于自动驾驶的称为立体声R-CNN的三维物体检测方法。扩展了Faster R-CNN用于立体声输入,以同时检测和关联左右图像中的对象。通过在立体区域提议网络(RPN)之后添加额外分支以预测稀疏关键点,视点和对象维度,其与2D左右框组合以计算粗略的3D对象边界框。然后,通过使用左右RoI的基于区域的光度对准来恢复精确的3D边界框。该方法不需要深度输入和3D位置,但是,效果优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明,该方法在3D检测和3D定位任务上的性能优于最先进的基于立体的方法约30%AP。

新网络框架

与单帧检测器(如Faster R-CNN)相比,Stereo R-CNN可以同时检测并关联左右图像的2D边界框,并进行微小修改。使用权重共享ResNet-101FPN 作为骨干网络来提取左右图像的一致特征。,受益于新提出的训练目标设计,如下图,没有额外的数据关联计算。

整个网络结构分为以下的几个部分:

  • RPN部分,将左右目的图像通过stereo RPN产生相应的候选,其实就是stereo RPN是在FPN的基础上,将每个FPN的scale上的feature map的进行concat的结构;
  • Stereo Regression,在RPN之后,通过Roi Align的操作,得到each FPN scale下的left and right Roi features,然后concat相应的特征,经过全连接层得到目标类别, stereo bounding boxes dimension还有viewpoint angle(下图所示) 的值;

viewpoint:根据上图假定物体的朝向是 θ,车中心和camera中心的方位角是β,那么viewpoint的角度为α = θ+ β,为了避免角度的歧义性,新技术回归的量还是[ sinα, cosα ]。

  • keypoint的检测。这里采用的是类似于mask rcnn的结构进行关键点的预测,定义了4个3D semantic keypoint,即车辆底部的3D corner point,同时将这4个点投影到图像,得到4个perspective keypoint,这4个点在3D bbox regression起到一定的作用,我们在下一部分再介绍。在keypoint检测任务中,利用Roi Align得到的14*14特征图,经过卷积和反卷积最后得到6 * 28 * 28的特征图,注意到只有keypoint的u坐标会提供2D Box以外的信息,因此,处于减少计算量的目的,新技术aggregate每一列的特征得到6 * 28的输出,其中前4个通道代表4个keypoint被投影到相应的u坐标的概率,后面两个通道代表是left or right boundary上的keypoint的概率。

3D Box Estimation

通过网络回归得到的2D box的dimension,viewpoint,还有keypoint,可以通过一定的方式得到3D box的位置,定义3D box的状态x = [x, y, z, θ]。

上图,给出了一些稀疏的约束。包含了特征点的映射过程。这里也体现了keypoint的用处:

上述公式即为约束方程,因此可以通过高斯牛顿的方法直接求解。

Dense 3D Box Alignment

这里就回到shenshaojie老师比较熟悉的BA的过程了,由于part 3仅仅只是一个object level的深度,这里文章利用最小化左右视图的RGB的值,得到一个更加refine的过程。定义如下的误差函数:

其中△zi代表第i个像素的深度与相对应的3D box的深度差。整个对齐过程其实相对于深度的直接预测是更加鲁棒,因为这种预测方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的问题。

实验

  • Stereo Recall and Stereo Detection:

Stereo R-CNN旨在同时检测和关联左右图像的对象。除了评估左右图像上的2D AR和2D AP之外,还定义了立体声AR和立体声AP度量。

Stereo AR和stereo AP度量共同评估2D检测和关联性能。如上表所示,stereo R-CNN在单个图像上具有与Faster R-CNN相似的提议回忆和检测精度,同时在左右图像中产生高质量的数据关联而无需额外的计算。虽然stereo AR略低于RPN中的左AR,但在R-CNN之后观察到几乎相同的左,右和stereo AP,这表明左右图像上的一致检测性能以及几乎所有真正的正向盒子。左图有相应的正阳性右框。还测试了左右特征融合的两种策略:元素均值和通道级联。如上表所示,其通道串联显示出更好的性能,因为它保留了所有信息。

  • 3D Detection and 3D Localization:

如上表使用针对鸟瞰图(AP bv)和3D框(AP 3d)的平均精度来评估3D检测和3D定位性能。注意:KITTI 3D检测基准测试很难用于基于图像的方法,随着物体距离的增加,3D性能会逐渐降低。

在上图中可以直观地观察到这种现象,尽管该方法实现了子像素视差估计(小于0.5像素),但是由于视差和深度之间的反比关系,随着物距增加,深度误差变得更大。对于具有明显差异的对象,基于严格的几何约束实现高精度的深度估计。这就解释了为什么更高的IoU阈值,对象所属的更容易的制度,与其他方法相比,该方法获得了更多的改进。

  • Benefits of the Keypoint:

如下表所示,关键点的使用通过非平凡边缘改善了所有难度制度下的AP bv和AP 3D。由于关键点除了2D盒级测量之外还为3D盒角提供像素级约束,因此它可确保更准确的本地化性能:

  • Benefits of the Dense Alignment:

该实验显示了密集对齐带来的显着改进。如上表,评估粗3D盒(无对齐)的3D性能,其中深度信息是根据盒级视差和2D盒尺寸计算的。即使1像素视差或2D盒子错误也会导致远距离物体的大距离误差。结果,虽然粗糙的3D盒子在图像上具有预期的精确投影,但它对于3D定位来说不够准确。

Insight

最后谈谈文章看完后的一些insights,首先,整个文章将传统的detection的任务,结合了geometry constraint优化的方式,做到了3D位置的估计,想法其实在不少文章SFM-Learner之类的文章已经有体现过了,不过用在3D 检测上面还是比较新颖,避免了做双目匹配估计深度的过程。也属于SLAM跟深度学习结合的一篇文章,感兴趣的朋友可以继续看看arxiv.org/abs/1802.0552等相关文章。

我个人意义上的不足:首先耗时过程0.28s的inference time,不过可能作者的重点也不在这个方面,特征的利用上可以更加有效率,在实现上;其次,能不能采用deep 3dbox的方式预测dimension,然后添加入优化项呢?总体来说,是一篇不错的值得一读的文章!

论文地址:https://arxiv.org/pdf/1902.09738.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Stereo R-CNN based 3D Object Detection for Autonomous Driving
提出了一种充分利用立体图像中稀疏、密集、语义和几何信息的自主驾驶三维目标检测方法。我们的方法,称为Stereo R-CNN,扩展了Faster R-CNN的立体输入,以同时检测和关联目标的左右图像。我们在立体区域建议网络(RPN)之后添加额外的分支来预测稀疏的关键点、视点和目标维数,并结合二维左右框来计算粗略的三维目标边界框。然后,我们恢复准确的三维包围框,以区域为基础的光度比对使用左和右ROI。我们的方法不需要深度输入和三维位置监督,但是,优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明,我们的方法在三维检测和三维定位任务上都比目前最先进的基于立体的方法高出30%左右的AP。
狼啸风云
2019/08/29
2.3K0
Stereo R-CNN based 3D Object Detection for Autonomous Driving
基于立体R-CNN的3D对象检测
好消息,小伙伴以后可以通过问答的形式在文章下方进行留言,并且小白也会及时回复大家哦!
小白学视觉
2020/08/21
1.3K0
基于立体R-CNN的3D对象检测
IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测
标题:IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving
3D视觉工坊
2020/11/19
9810
IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测
Mask R-CNN
我们提出了一个概念简单、灵活和通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN,通过添加一个分支来预测一个目标掩码,与现有的用于边界框识别的分支并行,从而扩展了Faster R-CNN。Mask R-CNN训练简单,只增加了一个小开销到Faster R-CNN,运行在5帧每秒。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在相同的框架下估计人类的姿态。我们展示了COCO套件中所有三个方面的顶级结果,包括实例分割、边界框目标检测和人员关键点检测。没有花哨的修饰,Mask R-CNN在每个任务上都比所有现有的单模型条目表现得更好,包括COCO 2016挑战赛冠军。我们希望我们的简单而有效的方法将作为一个坚实的baseline,并有助于简化未来在实例级识别方面的研究。
狼啸风云
2019/08/29
1.8K0
Mask R-CNN
从单幅图像到双目立体视觉的3D目标检测算法
经典的计算机视觉问题是通过数学模型或者统计学习识别图像中的物体、场景,继而实现视频时序序列上的运动识别、物体轨迹追踪、行为识别等等。然而,由于图像是三维空间在光学系统的投影,仅仅实现图像层次的识别是不够的,这在无人驾驶系统、增强现实技术等领域表现的尤为突出,计算机视觉的更高层次必然是准确的获得物体在三维空间中的形状、位置、姿态,通过三维重建技术实现物体在三维空间的检测、识别、追踪以及交互。近年来,借助于二维图像层面的目标检测和识别的性能提升,针对如何恢复三维空间中物体的形态和空间位置,研究者们提出了很多有效的方法和策略。
SIGAI学习与实践平台
2019/08/01
1.9K0
cvpr目标检测_目标检测指标
Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper , we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A topdown architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art singlemodel results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 6 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.
全栈程序员站长
2022/11/15
9160
cvpr目标检测_目标检测指标
从单幅图像到双目立体视觉的3D目标检测算法(长文)
经典的计算机视觉问题是通过数学模型或者统计学习识别图像中的物体、场景,继而实现视频时序序列上的运动识别、物体轨迹追踪、行为识别等等。然而,由于图像是三维空间在光学系统的投影,仅仅实现图像层次的识别是不够的,这在无人驾驶系统、增强现实技术等领域表现的尤为突出,计算机视觉的更高层次必然是准确的获得物体在三维空间中的形状、位置、姿态,通过三维重建技术实现物体在三维空间的检测、识别、追踪以及交互。近年来,借助于二维图像层面的目标检测和识别的性能提升,针对如何恢复三维空间中物体的形态和空间位置,研究者们提出了很多有效的方法和策略。
小白学视觉
2019/08/09
4K0
从单幅图像到双目立体视觉的3D目标检测算法(长文)
目标检测系列之二(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)
目标检测系列之二(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)
Minerva
2020/05/25
1.3K0
两阶段目标检测指南:R-CNN、FPN、Mask R-CNN
计算机视觉中最基本和最广泛研究的挑战之一是目标检测。该任务旨在在给定图像中绘制多个对象边界框,这在包括自动驾驶在内的许多领域非常重要。通常,这些目标检测算法可以分为两类:单阶段模型和多阶段模型。在这篇文章中,我们将通过回顾该领域一些最重要的论文,深入探讨用于对象检测的多阶段管道的关键见解。
数据科学工厂
2023/08/10
3.8K0
两阶段目标检测指南:R-CNN、FPN、Mask R-CNN
目标检测分割--Mask R-CNN
Mask R-CNN ICCV2017 best paper https://arxiv.org/pdf/1703.06870 Mask R-CNN= Faster R-CNN + FCN, 大致可以这么理解!
用户1148525
2019/05/26
9090
汇总|3D目标检测文章(CVPR2020)
今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。
3D视觉工坊
2020/12/11
9370
CVPR2021: Sparse R-CNN新的目标检测模型
今天我们将讨论由四个机构的研究人员提出的一种方法,其中一个是字节跳动人工智能实验室。他们为我们提供了一种新的方法,称为Sparse R-CNN(不要与 Sparse R-CNN 混淆,后者在 3D 计算机视觉任务上使用稀疏卷积),该方法在目标检测中实现了接近最先进的性能,并使用完全稀疏和可学习的方法生成边界框。
deephub
2021/08/20
6240
「目标检测算法」连连看:从 Faster R-CNN 、 R-FCN 到 FPN
在这个系列中,我们将对目标检测算法进行全面探讨。 第1部分,我们介绍常见的基于区域的目标检测器,包括Fast R-CNN,Faster R-CNN,R-FCN和FPN。 第2部分,我们介绍单步检测器(single shoot dectors, SSD)。第3部分,我们探讨算法性能和一些具体的例子。通过在相同的环境研究这些算法,我们研究哪些部分在其作用,哪些部分是重要的,可以在哪些部分进一步改进。希望通过对算法如何发展到今天的研究,会给我们未来的研究提供方向。
AI研习社
2018/07/26
6810
「目标检测算法」连连看:从 Faster R-CNN 、 R-FCN 到 FPN
目标检测之R-CNN系列综述
上几期我们讲过目标检测 One-Stage 的代表 YOLOv3 本来这一期是打算写 SSD(One-Stage 的另一个代表) 的,发现 SSD 其中涉及的知识是从 R-CNN(Two-Stage)来的,故此。这一期我们就来理理 R-CNN 系列的部分知识点,同样,我们会分为 理论、体验和代码实战 三期来进行讲解,今天就是理论部分。
机器视觉CV
2019/12/10
8040
深度学习500问——Chapter08:目标检测(2)
ResNet-101 + R-FCN:83.6% in PASCAL VOC 2007 test datasets
JOYCE_Leo16
2024/04/25
1280
深度学习500问——Chapter08:目标检测(2)
【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试
之前在看Swin Transformer的时候,发现该算法在目标检测、实例分割等各种视觉任务上屠榜,于是想来实践测试一下。
zstar
2022/10/04
3.4K0
【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试
论文阅读学习 - Mask R-CNN
Instance Segmentation —— 正确的检测图片中的所有 objects,并精确地分割每一个 instance.
AIHGF
2019/02/18
7910
论文阅读学习 - Mask R-CNN
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。所以,object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。
智能算法
2019/12/06
11.3K1
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
【目标检测】 R-CNN/FPN/YOLO经典算法梳理
R-CNN是目标检测领域的开山之作,它首次将“深度学习”和传统的“计算机视觉”的知识相结合,如图所示,相比于传统的目标检测方法,R-CNN碾压了之前五年发展的成果。 论文地址:https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
zstar
2022/06/14
6470
【目标检测】 R-CNN/FPN/YOLO经典算法梳理
PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN
机器视觉领域的核心问题之一就是目标检测(objectdetection),它的任务是找出图像当中所有感兴趣的目标(物体),确定其位置和大小。作为经典的目标检测框架FasterR-CNN,虽然是2015年的论文,但是它至今仍然是许多目标检测算法的基础,这在飞速发展的深度学习领域十分难得。而在FasterR-CNN的基础上改进的MaskR-CNN在2018年被提出,并斩获了ICCV2017年的最佳论文。Mask R-CNN可以应用到人体姿势识别,并且在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。因此,百度深度学习框架PaddlePaddle开源了用于目标检测的RCNN模型,从而可以快速构建强大的应用,满足各种场景的应用,包括但不仅限于安防监控、医学图像识别、交通车辆检测、信号灯识别、食品检测等等。
用户1386409
2019/06/10
2.4K0
PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN
相关推荐
Stereo R-CNN based 3D Object Detection for Autonomous Driving
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档