文章:TCLC-GS: Tightly Coupled LiDAR-Camera Gaussian Splatting for Surrounding Autonomous Driving Scenes
作者:Cheng Zhao, Su Sun, Ruoyu Wang, Yuliang Guo, Jun-Jun Wan, Zhou
Huang, Xinyu Huang, Yingjie Victor Chen, and Liu Ren
编辑:点云PCL
欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。
公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。文章未申请原创,侵权或转载联系微信cloudpoint9527。
摘要
大多数基于三维高斯溅射(3D-GS)的方法在城市场景中直接使用三维激光雷达点初始化三维高斯,这不仅未能充分利用激光雷达数据的潜力,还忽略了融合激光雷达和相机数据的优势。本文设计了一种新颖的紧耦合激光雷达-相机高斯溅射技术(TCLC-GS),以充分利用激光雷达和相机传感器的综合优势,实现快速、高质量的三维重建和新视角的RGB/深度合成,TCLC-GS设计了一种基于激光雷达-相机数据的混合显式(着色三维网格)和隐式(分层八叉树特征)的三维表示,以丰富三维高斯溅射的属性。三维高斯点的属性不仅在与三维网格对齐时初始化,从而提供更完整的三维形状和颜色信息,还通过检索八叉树隐式特征赋予更广泛的上下文信息。在高斯溅射优化过程中,三维网格提供了密集的深度信息作为监督,增强了通过学习鲁棒几何体的训练过程。在Waymo Open Dataset和nuScenes Dataset上进行的综合评估验证了我们方法的最新性能(SOTA)。利用单个NVIDIA RTX 3090 Ti,我们的方法展示了快速训练能力,并在1920×1280分辨率(Waymo)下实现每秒90帧的实时RGB和深度渲染,在1600×900分辨率(nuScenes)下实现每秒120帧的实时渲染,适用于城市场景。
图1:左图:原始的基于3D-GS的方法通过3D激光雷达点直接初始化3D高斯点;右图:TCLC-GS通过显式(着色的3D网格)和隐式(分层八叉树特征)表示丰富了3D高斯点的几何和外观属性。
主要贡献
本文提出了一种新颖的紧耦合激光雷达-摄像头高斯点绘制方法(TCLC-GS),用于在自动驾驶场景中实现精确建模和实时渲染。与通过激光雷达点直接初始化3D高斯点的直观方法(图1左)相比,TCLC-GS(图1右)提供了更为紧密结合的解决方案,有效利用了激光雷达和摄像头传感器的综合优势。TCLC-GS的关键思想是结合显式(着色3D网格)和隐式(分层八叉树特征)的混合3D表示,以增强3D高斯点的几何和外观属性。具体来说,我们首先通过编码激光雷达几何和图像颜色,在基于八叉树的分层结构中学习并存储隐式特征。然后,我们将3D高斯点初始化为与从隐式特征体积解码的着色3D网格对齐。与原始激光雷达点相比,3D网格增强了连续性/完整性,提高了密度,并增加了颜色细节。同时,我们通过结合从八叉树检索到的隐式特征,增强了每个3D高斯点的外观描述的学习。我们进一步从显式网格渲染密集深度,以监督GS优化过程,提高了相对于使用稀疏激光雷达深度的训练鲁棒性。通过这种方式,激光雷达和摄像头数据在3D高斯点的初始化和优化阶段被紧密集成。TCLC-GS的创新特征可总结如下:
内容概述
TCLC-GS方案详见图2,TCLC-GS框架由两个主要模块组成:1)带有SDF和RGB解码器的八叉树隐式特征,2)带有深度和RGB点绘的3D高斯点,激光雷达和摄像头数据在一个统一的框架中被紧密集成。
图2:TCLC-GS的流程:我们首先将所有的激光雷达扫描数据合并在一起,然后使用在截断区域内沿激光雷达光线采样的3D点构建一个分层的八叉树隐式特征网格。这些八叉树隐式特征通过SDF和RGB解码器进行训练,监督来自稀疏激光雷达距离测量和周围图像投影的RGB颜色。随后,我们获得优化的八叉树隐式表示和全局场景的彩色3D网格。3D高斯点的几何属性由3D网格初始化,而3D高斯点的外观属性则通过网格顶点检索的八叉树隐式特征丰富。3D高斯点通过深度和RGB点绘,并在密集深度和颜色监督下进行优化。不同于由激光雷达衍生的稀疏深度监督,我们的密集深度监督是通过使用光线追踪方法从3D网格渲染的。
图 3:我们的彩色 3D 网格和密集深度的可视化。第一行:在 3D 网格内给定相机姿态的情况下渲染的密集周围深度图像;第二行:基于八叉树隐式表示生成的彩色 3D 网格。
实验评估
将所提出的方法与基线方法在Waymo Open数据集上进行比较来评估其效果。新视图下图像和深度合成的性能比较分别详述于表1和表2。
图4:在Waymo数据集上从新的前左、前方和前右周围视图进行图像和深度合成的视觉比较。
图 5:nuScenes 数据集中新视图下图像合成的视觉比较。
总结
本文提出了一种新颖的紧耦合 LiDAR-相机高斯溅射方法 (TCLC-GS),该方法通过结合 LiDAR 和周围相机的优势,实现城市驾驶场景的快速建模和实时渲染。TCLC-GS 的关键思想是将显式(彩色 3D 网格)和隐式(分层八叉树特征)信息结合起来,源自 LiDAR-相机数据,从而丰富 3D 高斯的几何和外观属性。通过在 3D 网格内合成密集深度数据进一步优化高斯溅射。实验评估表明,我们的模型在保持高斯溅射实时效率的同时,超越了现有的最先进性能,在 Waymo Open 和 nuScenes 数据集上表现优异。