Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >3D目标检测仍是研究热点,改造传统、聚焦难题!目标检测论文推荐

3D目标检测仍是研究热点,改造传统、聚焦难题!目标检测论文推荐

作者头像
CV君
发布于 2023-03-06 02:26:47
发布于 2023-03-06 02:26:47
1.1K0
举报

推荐三篇今天(2023.1.9)新出目标检测方向论文,其均为3D目标检测,其中两篇论文来自图森未来,方法上一篇多视图+两篇点云方向。

▌Object as Query: Equipping Any 2D Object Detector with 3D Detection Ability

  • 作者单位:北航;图森未来
  • 论文链接: https://arxiv.org/abs/2301.02364

改造 “任意2D目标检测+多视图”,实现3D目标检测。

摘要:在过去的几年里,多视角图像的三维物体检测已经引起了人们的关注。现有的方法主要是从多视角图像中建立3D表示,并采用密集的检测头进行物体检测,或者采用分布在3D空间的物体查询来定位物体。

在本文中,我们设计了多视图2D物体引导的3D物体检测器(MV2D),它可以使用任何2D物体检测器来促进多视图3D物体检测。由于二维检测可以为物体的存在提供有价值的先验,MV2D利用二维检测器来生成以丰富的图像语义为条件的物体查询。这些动态生成的查询使MV2D能够在不增加计算成本的情况下检测更大的三维空间中的物体,并显示出强大的三维物体定位能力。对于生成的查询,我们设计了一个稀疏的交叉注意模块,迫使他们关注特定物体的特征,从而降低了计算成本并抑制了噪音的干扰。对nuScenes数据集的评估结果表明,动态物体查询和稀疏特征聚合并不损害三维检测能力。

MV2D在现有方法中也表现出最先进的性能。我们希望MV2D可以作为未来研究的新基线。

▌Super Sparse 3D Object Detection

  • 作者单位:中科院;图森未来
  • 代码链接: https://github.com/tusen-ai/SST
  • 论文链接: https://arxiv.org/abs/2301.02562

超稀疏特征,实现远距离3D目标检测。

随着 LiDAR 感知范围的扩大,基于 LiDAR 的三维目标检测对自动驾驶的远距离感知的贡献越来越大。主流的三维目标检测器通常建立密集的特征图,其成本是感知范围的二次方,这使得它们很难扩展到长距离的设置。

为了实现高效的远距离检测,该文首先提出一个完全稀疏的目标检测器,FSD。FSD 建立在一般的稀疏体素编码器和一个新的稀疏实例识别(SIR)模块上。SIR 将点分组为实例并应用高效的实例特征提取。实例分组避开了中心特征缺失的问题,这阻碍了全稀疏结构的设计。为了进一步享受全稀疏特征的好处,利用时间信息来消除数据冗余,并提出一个名为 FSD++ 的超稀疏检测器。FSD++ 首先生成残余点,表示连续帧之间的点变化。残余点与之前的几个前景点一起构成了超稀疏输入数据,大大减少了数据冗余和计算开销。

通过在大规模的Waymo开放数据集上对所提出方法进行了全面分析,实现了最先进的性能。为了展示该方法在长距离检测方面的优越性,作者还在Argoverse 2数据集上进行了实验,该数据集的感知范围(200米)比Waymo Open Dataset(75米)大很多。

▌Model-Agnostic Hierarchical Attention for 3D Object Detection

  • 作者单位:马里兰大学&Salesforce Research&得克萨斯大学奥斯汀分校
  • 代码链接: https://github.com/salesforce/Hierarchical_Point_Attention
  • 论文链接: https://arxiv.org/abs/2301.02650

Transformers + "多尺度"/"尺寸自适应局部"注意力机制,实现更好的小目标的3D目标检测。

Transformers 作为多功能的网络架构,近期在3D 点云目标检测方面取得了巨大的成功。然而,普通 transformer 缺乏层次性,使得它难以学习不同尺度的特征,并限制了它提取局部特征的能力。这种限制使得它们在不同大小的目标上的性能不平衡,在较小的目标上性能较差。

本次工作中,作者提出两种新的注意力机制,作为基于 transformer 的三维检测器的模块化分层设计。为了实现不同尺度的特征学习,提出了简单多尺度注意力机制,从一个单一尺度的输入特征中建立多尺度的标记。对于局部特征的聚集,提出了尺寸自适应局部注意力机制,对每个边界盒的提议都有自适应的注意范围。所提出的两个注意力模块都是与模型无关的网络层,可以插入到现有的点云 transformer 中进行端到端训练。

作者在两个广泛使用的室内三维点云目标检测基准上评估了此方法。通过将所提出的模块插入到最先进的基于 transformer 的三维检测器中,在两个基准上都改进了以前的最佳结果,其中对小目标的改进幅度最大。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
自动驾驶中的三维目标检测综述
文章:3D Object Detection for Autonomous Driving: A Survey
点云PCL博主
2022/02/10
1.7K0
自动驾驶中的三维目标检测综述
从2D到3D的目标检测综述
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
点云PCL博主
2020/11/19
2.2K0
从2D到3D的目标检测综述
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
在提交之时(2024/03/08),SparseLIF在nuScenes数据集上取得了最先进的性能,在验证集和测试基准上都排名第一,明显优于所有最先进的3D目标检测器。
AIGC 先锋科技
2024/07/08
5940
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
面向自动驾驶的三维目标检测研究综述
文章:3D Object Detection for Autonomous Driving: A Survey
点云PCL博主
2022/02/10
1.5K0
面向自动驾驶的三维目标检测研究综述
汇总|3D目标检测文章(CVPR2020)
今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。
3D视觉工坊
2020/12/11
9370
Neighbor-Vote:使用邻近距离投票优化单目3D目标检测(ACM MM2021)
名字:Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance Voting
3D视觉工坊
2021/07/27
5860
Improving 3D Object Detection with Channel-wise Transformer
尽管近年来点云三维物体检测取得了快速进展,但缺乏灵活和高性能的建议细化仍然是现有最先进的两级检测器的一大障碍。 之前的3D建议精炼工作依赖于人为设计的组件,如关键点采样、集合抽象和多尺度特征融合,以产生强大的3D目标表示。 然而,这些方法捕获点之间丰富的上下文依赖关系的能力有限。 在本文中,我们利用高质量的区域提议网络和一个Channel-wise Transformer架构,以最少的手工设计构成了我们的两阶段3D目标检测框架(CT3D)。 建议的CT3D同时对每个建议中的点特征执行提议感知的嵌入和信道上下文聚合。 具体来说,CT3D利用建议的关键点进行空间情境建模,并在编码模块中学习注意力传播,将建议映射到点嵌入。 接下来,一个新的信通道译码模块通过通道重加权有效地合并多级上下文来丰富查询键交互,这有助于实现更准确的目标预测。 大量实验表明,我们的CT3D方法具有良好的性能和可扩展性。 值得一提的是,在KITTI测试3D检测基准上,CT3D在中型车类别中实现了81.77%的AP,优于最先进的3D检测器。
狼啸风云
2021/09/26
1.3K1
Improving 3D Object Detection with Channel-wise Transformer
简述:机器人BEV检测中的相机-毫米波雷达融合
论文:Vision-RADAR fusion for Robotics BEV Detections: A Survey
一点人工一点智能
2023/10/21
8530
简述:机器人BEV检测中的相机-毫米波雷达融合
激光雷达目标检测
本文为美团点评无人配送部技术团队主笔,为您带来的是自动驾驶中的激光雷达目标检测。(本文来源:美团无人配送)
点云PCL博主
2019/07/30
2.7K0
激光雷达目标检测
基于点云 / RGBD的3D视觉检测技术
3D视觉技术相较于2D视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2D的的计算机视觉技术日趋成熟,在很多领域取得了很不错的进展,但我们真实的世界是三维空间,利用2D的技术对真实世界进行建模存在先天的缺陷——深度信息缺失,我们不能从2D图片中获得物体的绝对尺度和位置,而这一点在点云中不会存在问题.“从单幅图像到双目视觉的3D目标检测算法”介绍了基于单目(monocular)视觉以及双目(binocular)视觉的3D目标检测算法,单目做3D检测完全是数据驱动,通过机器学习模型结合摄影几何的约束去拟合3D空间的数据分布;双目视觉会有额外的视差信息,可以重建出景深信息,所以可以得到比单目视觉更强的空间约束关系,在3D目标检测任务重的精度相比单目会更好.
SIGAI学习与实践平台
2019/08/22
2.9K0
基于点云 / RGBD的3D视觉检测技术
端到端基于图像的伪激光雷达3D目标检测
标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
3D视觉工坊
2021/04/13
9230
端到端基于图像的伪激光雷达3D目标检测
CLOCs:3D目标检测多模态融合之Late-Fusion
文章:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection 论文地址:在公众号「计算机视觉工坊」,后台回复「Late-Fusion」,即可直接下载。
计算机视觉
2020/12/11
1.1K0
CLOCs:3D目标检测多模态融合之Late-Fusion
远距离和遮挡下三维目标检测算法研究
近年来,随着卷积神经网络[1-2]的提出及其在计算机视觉[3]和自然语言处理[4]等领域的广泛应用,使得深度学习在二维的图像识别[5]、语义分割[6]以及目标检测[7]等领域有了重要的突破。目前,基于二维图像的目标检测算法已趋于成熟,并已经被广泛地应用到我们的生活中。
一点人工一点智能
2024/03/26
4780
远距离和遮挡下三维目标检测算法研究
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 !
计算机视觉中的一个基本问题是在三维空间中理解和识别场景与物体。它允许以紧凑的方式表达关系,并提供在现实世界中导航和操作的能力。3D视觉在各个领域都发挥着重要作用,包括自动驾驶、机器人技术、遥感、医疗、增强现实、设计行业等众多应用。
未来先知
2024/08/08
6600
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略  !
【3D目标检测】开源 | 弱监督的3D目标检测器,不需要任何ground truth就可以进行模型训练
备注:研究方向+地点+学校/公司+昵称,更快通过申请,长按加细分领域技术交流群,目前有细分领域:图像分割、图像目标检测、论文写作、车道检测、模型优化、目标跟踪、SLAM、点云处理(分割检测)、深度学习。
CNNer
2020/08/21
1.4K0
【3D目标检测】开源 | 弱监督的3D目标检测器,不需要任何ground truth就可以进行模型训练
一文全览 | 2023最新环视自动驾驶3D检测综述!
基于视觉的3D检测任务是感知自动驾驶系统的基本任务,这在许多研究人员和自动驾驶工程师中引起了极大的兴趣。然而,使用带有相机的2D传感器输入数据实现相当好的3D BEV(鸟瞰图)性能并不是一项容易的任务。本文对现有的基于视觉的3D检测方法进行了综述,聚焦于自动驾驶。论文利用Vision BEV检测方法对60多篇论文进行了详细分析,并强调了不同的分类,以详细了解常见趋势。此外还强调了文献和行业趋势如何转向基于环视图像的方法,并记下了该方法解决的特殊情况的想法。总之,基于当前技术的缺点,包括协作感知的方向,论文为未来的研究提出了3D视觉技术的想法。
集智书童公众号
2023/09/04
1.3K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
LAM3D 框架:利用视觉 Transformer 实现高效的单目3D目标检测 !
目标检测是计算机视觉中的一个基本任务,它涉及到在图像或视频中检测并定位特定的类别目标。2D目标检测意味着确定目标在图像中的位置(以2D边界框表示),并对目标进行特定类别的分类。最先进的目标检测方法可分为两阶段方法([1, 2, 3])和单阶段方法([4, 5, 6])。两阶段方法遵循 Proposal 驱动的方法:第一阶段生成一组区域 Proposal ,第二阶段使用卷积神经网络将候选位置(目标或背景)分类为目标,并对其进行优化。尽管准确性很高,但它们在推理速度方面存在缺陷,这推动了单阶段目标检测器的需求。单阶段方法通过依赖预定义的 Anchor 框,依靠卷积神经网络在一次通过网络时进行目标定位和分类。
未来先知
2024/08/20
5710
LAM3D 框架:利用视觉 Transformer 实现高效的单目3D目标检测 !
融合点云与图像的环境目标检测研究进展
在数字仿真技术应用领域,特别是在自动驾驶技术的发展中,目标检测是至关重要的一环,它涉及到对周围环境中物体的感知,为智能装备的决策和规划提供了关键信息。
一点人工一点智能
2024/03/22
2K0
融合点云与图像的环境目标检测研究进展
HGSFusion:用于3D目标检测的雷达-相机融合网络
项目地址:https://github.com/garfield-cpp/HGSFusion
一点人工一点智能
2025/01/08
3640
HGSFusion:用于3D目标检测的雷达-相机融合网络
推荐阅读
相关推荐
自动驾驶中的三维目标检测综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档