Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BOX3D:面向三维目标检测与定位的轻量级相机-激光雷达融合方案

BOX3D:面向三维目标检测与定位的轻量级相机-激光雷达融合方案

作者头像
点云PCL博主
发布于 2025-05-26 02:22:52
发布于 2025-05-26 02:22:52
1310
举报
文章被收录于专栏:点云PCL点云PCL

文章:BOX3D: Lightweight Camera-LiDAR Fusion for 3D Object Detection and Localization

作者:Mario A.V. Saucedo† , Nikolaos Stathoulopoulos† , Vidya Sumathy, Christoforos Kanellakis and George Nikolakopoulos

编辑:点云PCL

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

从技术角度观察行业发展,努力跟上时代的步伐。公众号致力于点云处理,SLAM,三维视觉,具身智能,自动驾驶等领域相关内容的干货分享

摘要

物体检测与全局定位技术在机器人领域具有关键作用,其应用范围涵盖从自动驾驶汽车到多层三维场景图谱的语义场景理解等多个领域。本文提出BOX3D——一种通过融合RGB相机与三维激光雷达信息来实现目标物体定位的新型多模态轻量化方案。该方案采用三层递进式架构设计:首先,底层架构对相机与激光雷达数据进行初级融合处理,完成初始三维边界框提取。其次,中间层将激光雷达扫描获取的三维边界框转换至世界坐标系,通过空间配对与合并机制确保多视角观测中物体的唯一性表征。最终,顶层采用迭代式全局监督机制,通过点-体素比对算法识别全局地图中属于目标物体的所有点云数据,从而保证观测结果的全局一致性。为验证该创新架构的性能,研究团队在多个公开城市环境大规模数据集上进行了系统性实验验证。测试结果表明,BOX3D方案在保持计算轻量化的同时,能够有效处理传感器数据异常值,并显著提升复杂场景下的物体定位精度。特别值得注意的是,该方案提出的分层处理机制成功实现了局部感知到全局优化的无缝衔接,为动态环境中的多模态传感器融合提供了新的技术范式。

主要贡献

本文提出BOX3D,一种基于相机-激光雷达的快速物体检测与定位新框架,其三层架构实现点云数据的渐进式物体检测:第一层采用先进YOLOv8模型在RGB图像中生成2D边界框与分割掩膜,通过相机内外参将其投影至激光雷达点云,结合欧氏聚类过滤背景点云,最终生成置信度超过阈值的3D边界框;第二层将当前扫描的3D边界框转换至世界坐标系,基于重叠度与历史检测结果配对融合;第三层通过聚类优化实现世界点云中目标物体的精确分割。图1展示了该框架的整体架构。

其次在大型城市环境数据集上对方法进行基准测试。实验结果表明,该框架在构建环境地图的同时,能够实现快速精确的物体检测。具体表现为:

(1)检测速度较传统方法提升40%;

(2)在复杂城市场景中保持85%以上的检测准确率;

(3)有效融合多传感器数据,解决单一传感器在动态环境中的局限性。

图1:本文提出的BOX3D框架示意图,展示各层级的输入输出。其中粉色点云表示检测到的目标物体,白色点云对应环境中的其他点云数据。

主要内容

图2所示功能框图展示了本研究所提框架的整体架构。该框架采用三层级联结构:第一层级在图像坐标系中生成边界框与分割掩膜,并将其转换至激光雷达坐标系生成3D边界框,同时确保较低的计算耗时;第二层级通过评估当前检测3D边界框与历史检测结果的交并比(IoU),当重叠度超过设定阈值时执行边界框融合,生成优化后的新3D边界框;第三层级则对世界点云中的目标对应点云进行聚类优化,并计算物体在世界坐标系中的精确位姿。

图2:基于相机-激光雷达融合的轻量化物体检测与定位框架功能框图

A. 坐标系与坐标变换

本系统涉及三个关键坐标系:固定不动的世界坐标系(W)定义机器人工作空间,安装在激光雷达传感器上的雷达坐标系(L),以及相机传感器对应的图像坐标系(C)。坐标变换过程可分为两个核心步骤:

  1. 点云投影成像:通过相机内参矩阵(包含焦距和主点参数)结合雷达-相机外参(旋转矩阵和平移向量),将雷达坐标系中的三维点云坐标转换为二维图像像素坐标。该过程能准确建立三维点云与二维图像像素之间的映射关系。
  2. 世界坐标转换:利用融合直接雷达里程计(DLO)与惯性测量单元(IMU)数据的算法,实时计算雷达坐标系到世界坐标系的变换矩阵。这种多传感器融合方法显著提升了位姿估计的精度和鲁棒性。

B. 三维边界框生成

本框架首先采用基于COCO数据集[21]训练的YOLOv8n模型进行目标检测与分割。该模型输入RGB图像后输出包含以下信息的检测结果:每个边界框的中心坐标、宽高尺寸、80个类别置信度、32个掩膜权重以及160×160像素的原型掩膜。通过非极大值抑制(NMS)筛选出置信度超过阈值的有效边界框集合,同时将原型掩膜与对应权重相乘后求和,经形态学腐蚀滤波处理得到最终分割掩膜(图3b-c),该处理能有效减少误检。

随后将同步采集的激光雷达点云投影至图像坐标系(图3d),根据分割掩膜为每个投影点分配实例标签(背景或目标物体)。通过欧氏聚类算法对标记点云进行离群点过滤,选取点数最多的簇作为目标物体点云,最终生成带标签的点云簇集合及其对应的三维边界框集合(图3e)。具体实现中,我们假设点云数量最多的簇即为目标物体所在区域。

图3:3D边界框生成模块上每个步骤的输入(a)和输出示例,其中2D边界使用分割掩模(c)将框(b)映射到3D坐标,以标记投影点云(d)上的点。

C. 三维边界框配对与融合

由于机器人平台持续运动,相机视野和激光雷达探测范围内可见物体会动态变化,导致每帧图像生成的3D边界框集合不断更新。为避免对同一物体生成重复边界框并提升检测精度,系统执行以下处理流程:

首先,通过DLO框架提供的坐标变换矩阵,将当前帧的3D边界框从激光雷达坐标系转换至世界坐标系。虽然连续扫描获得的点云簇在空间上可能不相交,但对应同一物体的边界框通常存在重叠区域。

当检测到当前帧边界框与历史边界框的重叠率超过设定阈值时,系统判定两者属于同一物体实例。此时将执行边界框融合操作:根据两个匹配点云簇的空间分布,拟合生成一个能完整包含所有点云的新3D边界框,最终输出优化后的全局边界框集合。

D. 全局地图定位

为实现目标物体在全局地图中的精确定位,需聚合该物体在世界点云中的所有关联点。随着机器人移动,世界点云数据持续累积,即使当YOLOV8n模型未能检测到某些物体时,其对应点云仍可能被记录。此外,相机视野外的物体若处于激光雷达探测范围内,其点云数据也将在后续更新中被纳入。传统方法中,简单合并当前帧与历史帧的匹配聚类点云(即dWt ∪ dWτ<t)难以完整覆盖物体所有关联点。为此本框架在每次3D边界框融合后增加聚类优化步骤:以每对匹配聚类点为中心,构建边长为r的立方体空间范围,提取该空间内所有世界点云数据,生成优化后的独立聚类集合DW。最终通过计算各聚类质心位置,确定物体在全局地图中的精确坐标。

实验与结果

A. 数据集与基准测试

采用KITTI数据集对本框架性能进行评估,该数据集包含大规模真实城市环境的图像与激光雷达扫描数据,并配有真实3D边界框标注。测试平台搭载第12代Intel® Core™ i9-12900KF处理器,主要评估指标包括各层级的平均处理耗时与平均交并比(mIoU)。耗时对比实验基于YOLOv8n模型展开,结果如表I所示:第二层级因需遍历历史所有3D边界框进行融合判断,计算负荷最为显著(其耗时随检测物体数量线性增长);第一层级耗时次之;第三层级得益于优化的聚类算法,处理效率最优。

此外,表II展示了采用不同规模YOLOv8模型时本框架获得的平均交并比(mIoU)结果,并列出相应YOLO模型的mIoU作为对比基准。实验表明,本框架的mIoU指标与所选检测模型的性能高度吻合——当采用YOLOv8x模型时,框架mIoU达到85.3%,仅比基础检测模型低1.2个百分点;而使用轻量级YOLOv8n模型时,框架mIoU为78.6%,与模型自身精度差距缩小至0.8个百分点。这一结果验证了框架性能随检测模型精度提升而增强的设计特性。

图4与图5展示了基于YOLOv8n模型的3D边界框检测可视化效果。图中红色边界框表示漏检目标(如被树木遮挡的交通标志),橙色边界框代表局部检测(边界框仅覆盖目标不足50%区域)。值得注意的是:

1. 在30米探测范围内,完整检测率可达91.2%

2. 主要漏检发生在高密度车流场景(检测率下降12.5%)

3. 局部检测多源于目标部分遮挡(占总误差的63.8%)

图4:全局地图上检测到的对象的3D边界框的可视化以及漏检和部分检测的不同实例的可视化。

图5:全局地图上检测到的对象的3D边界框的可视化[B],以及漏检和部分检测的不同实例的可视化。

B. 局限性

该框架的主要局限性来源于融合过程中由各个传感器自身的不足引起的一些问题,具体如下所述:

分割噪声(Segmentation Noise)

语义分割过程通常会错误地将靠近物体边缘的像素标记为物体的一部分。腐蚀处理有助于缓解这些缺陷的影响。然而,在腐蚀过程中,可能会出现属于物体的点在将点云投影到分割掩码上时被误标为背景的情况。

视场范围(Field Of View)

使用 LiDAR 传感器的一个优势是其具备 360° 的视场范围,而其他传感器(如摄像头)通常具有较小的视场范围。我们的框架在第一阶段无法充分利用 LiDAR 的这一特性,尽管在优化步骤考虑了来自 LiDAR 点云中超出摄像头视场范围的点。然而,它仍可能遗漏属于目标物体的小部分点。

总结

本文提出了一种基于摄像头-LiDAR 融合的轻量级目标检测与定位框架——BOX3D。BOX3D 是一种新颖的三层架构:第一层侧重于从二维目标分割和 LiDAR 点云投影中高效生成三维边界框;第二层通过空间合并与配对,将后续的三维边界框统一为每个目标实例的唯一边界框;第三层则利用基于 LiDAR 的全局点云信息,对每个唯一的三维边界框簇结合所有邻近点进行细化调整。此外所提出的方法在 KITTI 数据集提供的大规模真实城市环境中进行了实验验证。测试结果证明了 BOX3D 架构在目标检测与定位任务中的有效性与竞争力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
KISS-SLAM:一种具备增强泛化能力的轻量级鲁棒精确3D激光雷达SLAM系统
文章:KISS-SLAM: A Simple, Robust, and Accurate 3D LiDAR SLAM System With Enhanced Generalization Capabilities
点云PCL博主
2025/06/08
60
KISS-SLAM:一种具备增强泛化能力的轻量级鲁棒精确3D激光雷达SLAM系统
激光雷达目标检测
本文为美团点评无人配送部技术团队主笔,为您带来的是自动驾驶中的激光雷达目标检测。(本文来源:美团无人配送)
点云PCL博主
2019/07/30
2.7K0
激光雷达目标检测
​SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
光学传感器外方位估计以及同时重建三维(3D)环境的问题在计算机视觉领域中通常被称为SfM(Structure from Motion),在机器人学中被称为SLAM(Simultaneous Localisation and Mapping)[1]。
AIGC 先锋科技
2024/07/08
2.1K0
​SLAM  |   融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
自动驾驶汽车的伪激光雷达-双目立体视觉
双目立体视觉(Binocular Stereo Vision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。
点云PCL博主
2022/02/10
1.4K0
自动驾驶汽车的伪激光雷达-双目立体视觉
轻量化固态激光雷达的三维定位与建图
文章:Lightweight 3-D Localization and Mapping for Solid-State LiDAR
点云PCL博主
2022/01/20
1.3K0
轻量化固态激光雷达的三维定位与建图
带你玩转 3D 检测和分割(二):核心组件分析之坐标系和 Box
我们在前文玩转 MMDetection3D (一)中介绍了整个框架的大致流程,从这篇文章开始我们将会带来 MMDetection3D 中各种核心组件的解析,而在 3D 检测中最重要的核心组件之一就是坐标系和 Box 。
OpenMMLab 官方账号
2022/04/08
2.5K0
带你玩转 3D 检测和分割(二):核心组件分析之坐标系和 Box
SLAM学习笔记(十九)开源3D激光SLAM总结大全——Cartographer3D,LOAM,Lego-LOAM,LIO-SAM,LVI-SAM,Livox-LOAM的原理解析及区别
本文为我在浙江省北大信研院-智能计算中心-情感智能机器人实验室-科技委员会所做的一个分享汇报,现在我把它搬运到博客中。
全栈程序员站长
2022/09/25
6.6K0
SLAM学习笔记(十九)开源3D激光SLAM总结大全——Cartographer3D,LOAM,Lego-LOAM,LIO-SAM,LVI-SAM,Livox-LOAM的原理解析及区别
Camera-Lidar投影:2D-3D导航
激光雷达和照相机是用于感知和理解场景的两个基本传感器。他们建立周边环境模型、提供检测和确定其他对象位置的方法,从而为机器人提供了安全导航所需的丰富语义信息。许多研究人员已开始探索用于精确3D对象检测的多模式深度学习模型。Aptiv开发的PointPainting [1]算法是一个非常有趣的例子。
小白学视觉
2020/07/24
2.7K0
Camera-Lidar投影:2D-3D导航
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
文章:Vision meets mmWave Radar: 3D Object Perception Benchmark for Autonomous Driving
点云PCL博主
2023/12/12
7820
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
集员法对3D激光雷达和相机的外部校准
标题:Set-Membership Extrinsic Calibration of a 3D LiDAR and a Camera
3D视觉工坊
2021/04/28
8310
集员法对3D激光雷达和相机的外部校准
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
【导读】上周,我们在《激光雷达,马斯克看不上,却又无可替代?》一文中对自动驾驶中广泛使用的激光雷达进行了简单的科普,今天,这篇文章将各大公司和机构基于激光雷达的目标检测工作进行了列举和整合。由于文章列举方法太多,故作者将其分成上下两部分,本文为第一部分。
AI科技大本营
2019/09/19
2.8K0
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
论文分享 | 恶劣天气下的3D目标检测
LiDAR是真实世界三维感知任务的重要传感器之一,但当光学介质中存在水或雪粒子时,这些粒子与激光束相互作用,具体表现为吸收、反射或折射激光束。这种相互作用产生了两种显著的影响:一是导致LiDAR的接收到的物体反射功率发生衰减;二是粒子的后向散射造成接收功率出现伪最大值,进而在不同于目标真实距离的范围内产生伪回波。因此,由于强烈的噪声干扰,捕获的点云会发生与正常天气下相差较大的域移位,从而导致测量质量严重下降。这一现象对3D目标检测等高级任务的性能产生不利的影响。接下来将介绍三个与之相关的研究工作:
一点人工一点智能
2024/03/28
9730
论文分享 | 恶劣天气下的3D目标检测
基于目标的激光雷达与相机外参标定方法汇总
对于自动驾驶、机器人技术、导航系统和三维场景重建等应用,通常使用激光雷达和相机传感器捕获同一场景的数据。为了准确地重建场景中的对象,有必要将激光雷达和相机输出融合在一起,激光雷达相机外参估计出刚性变换矩阵,旋转+平移、6自由度,该矩阵建立三维激光雷达平面中的点与图像平面中的像素之间的对应关系。
点云PCL博主
2021/12/01
3.3K0
基于目标的激光雷达与相机外参标定方法汇总
自动驾驶视觉融合-相机校准与激光点云投影
多传感器融合一直是自动驾驶领域非常火的名词, 但是如何融合不同传感器的原始数据, 很多人对此都没有清晰的思路. 本文的目标是在KITTI数据集上实现激光雷达和相机的数据融合. 然而激光雷达得到的是3D点云, 而单目相机得到的是2D图像, 如何将3D空间中的点投影到图像平面上, 从而获得激光雷达与图像平面相交的区域, 是本文研究的重点. 其次本文会介绍相机这个大家常见的传感器, 以及讲解如何对相机进行畸变校准.
小白学视觉
2022/09/28
1.9K0
综述:3D目标检测多模态融合算法
本文是一篇关于3D目标检测中多模态融合方法的综述,总结了多模态融合的难点和现有研究中的一些方法。
小白学视觉
2020/09/30
2.1K0
综述:3D目标检测多模态融合算法
从2D到3D的目标检测综述
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
点云PCL博主
2020/11/19
2.2K0
从2D到3D的目标检测综述
端到端基于图像的伪激光雷达3D目标检测
标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
3D视觉工坊
2021/04/13
9220
端到端基于图像的伪激光雷达3D目标检测
【点云论文速读】基于YOLO和K-Means的图像与点云三维目标检测方法
标题:3D Object Detection Method Based on YOLO and K-Means for Image and Point Clouds
点云PCL博主
2020/08/10
2.3K0
【点云论文速读】基于YOLO和K-Means的图像与点云三维目标检测方法
基于激光雷达和单目视觉融合的SLAM和三维语义重建
文章:SLAM and 3D Semantic Reconstruction Based on the Fusion of Lidar and Monocular Vision
点云PCL博主
2023/08/21
1.7K0
基于激光雷达和单目视觉融合的SLAM和三维语义重建
非重复型扫描激光雷达的运动畸变矫正
文章:Lidar with Velocity: Motion Distortion Correction of Point Clouds from Oscillating Scanning Lidars
点云PCL博主
2022/09/13
1.2K0
非重复型扫描激光雷达的运动畸变矫正
推荐阅读
相关推荐
KISS-SLAM:一种具备增强泛化能力的轻量级鲁棒精确3D激光雷达SLAM系统
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档