Omni-LIVO：基于光度迁移与ESIKF融合的稳健多相机彩色视觉-惯性-LiDAR里程计

点云PCL博主

发布于 2025-11-19 15:58:09

780

文章被收录于专栏：点云PCL点云PCL

文章：Omni-LIVO: Robust RGB-Colored Multi-Camera Visual-Inertial-LiDAR Odometry via Photometric Migration and ESIKF Fusion

作者：Yinong Cao,Xin He, Yuwei Chen,Chenyang Zhang, Chengyu Pu, Bingtao Wang,Kaile Wu, Shouzheng Zhu, Fei Han, Shijie Liu,Chunlai Li1 and Jianyu Wang

编辑：点云PCL

github:https://github.com/HIAS-VPD-LAB/Omni-LIVO

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

从技术角度观察行业发展，努力跟上时代的步伐。公众号致力于点云处理，SLAM，三维视觉，具身智能，自动驾驶等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。文章未申请原创，未经过本人允许请勿转载，有意转载联系微信920177957。

摘要

具有宽视场（FoV）的激光雷达（LiDAR）传感器能够在大范围环境中提供高密度的几何信息，但目前大多数 LiDAR–惯性–视觉里程计（LIVO）系统依赖单个相机，导致空间覆盖受限且鲁棒性下降。本文提出 Omni-LIVO，这是首个紧耦合的多相机 LIVO 系统，能够弥合宽视角激光雷达与传统相机之间的视场不匹配问题。Omni-LIVO 引入了一种跨视图直接跟踪策略（Cross-View Direct Tracking），可在非重叠视角之间保持光度一致性；同时扩展了误差状态迭代卡尔曼滤波器（ESIKF），支持多视角更新与自适应协方差加权。

在公开基准数据集和我们自建的数据集上进行的实验表明，Omni-LIVO 在精度与鲁棒性方面均优于当前最先进的 LIVO、LIO 以及视觉–惯性基线方法。代码和数据集将在论文发表后公开。

主要贡献

同时定位与建图（SLAM）已成为自主系统在未知环境中运行的核心技术。传统方法通常按传感器类型分类：视觉 SLAM 提供丰富的光度信息，但在光照不足或纹理稀少的场景中表现不佳；激光雷达SLAM具有稳健的几何结构感知能力，但在重复环境中性能下降。惯性测量单元（IMU）虽不受环境影响，但会出现长期漂移问题。

为克服单一传感器的局限，多传感器融合系统（如视觉–惯性 SLAM（VI-SLAM）与激光–惯性 SLAM（LI-SLAM））通过不同传感器的互补特性来增强鲁棒性。近年来的 LIVO 系统进一步融合了高密度的激光几何信息、相机的光度信息以及高频 IMU 测量。然而，仍存在一个根本性问题：宽视场（360°）的激光雷达传感器通常与窄视场（60°–120°）的相机配对，导致空间覆盖不匹配。在剧烈运动或遮挡环境中，这种 FoV 不匹配会显著限制跟踪鲁棒性。其主要影响在于：当光度块（photometric patches）离开相机的狭窄视场后，直接视觉约束会丢失，系统只能依赖激光几何信息—这在纹理丰富但几何重复的环境中尤其不利。此外，单相机系统在快速旋转时也会丢失图像块连续性，而此时宽视场激光雷达原本能提供最大帮助。

虽然多相机系统已在视觉SLAM 中得到研究，但其与激光雷达和惯性数据的紧耦合集成在 LIVO 系统中仍鲜有探索。关键挑战在于：

如何在非重叠视角之间保持光度连续性，即当特征从一台相机消失又在另一台相机中出现时，实现时域特征迁移（temporal feature migration）；
此外，标准的 ESIKF（误差状态迭代卡尔曼滤波器）假设所有测量质量一致，而多相机融合需要针对不同视角的测量可靠性进行自适应协方差建模。

为解决这些问题，本文提出了 Omni-LIVO —首个基于 FAST-LIVO2构建的紧耦合多相机 LIVO系统，能够弥合宽角激光雷达与窄视场相机之间的视场差异。本研究的主要贡献包括：

跨视角时域迁移（Cross-View Temporal Migration）：提出一种直接跟踪策略，可在非重叠视角之间保持光度一致性；
自适应多视角 ESIKF（Adaptive Multi-View ESIKF）：扩展 ESIKF 框架，引入自适应协方差加权机制，以在复杂环境中提升鲁棒性；
统一体素表示（Unified Voxel Representation）：在单一体素结构中融合激光几何与多视角视觉约束；
全面性能评估（Comprehensive Evaluation）：Omni-LIVO 完成了 Hilti SLAM Challenge与 Newer College数据集的全部 14 个序列测试，在其中 12 个序列上取得最低的 RMSE，相较 FAST-LIVO2 平均提升 34% 的精度。

主要内容

概述

我们的方法通过跨视角时域迁移（Cross-View Temporal Migration）与多视角 ESIKF 融合，弥合了宽视角激光雷达传感器与窄视场相机之间的视场不匹配问题。在多相机配置下扩展了直接视觉跟踪方法（Direct Visual Tracking），以在非重叠视角间保持光度连续性。本系统包括以下核心部分：

* 多传感器同步策略（Multi-Sensor Synchronization Strategy），确保激光雷达、相机与 IMU 数据在时间上的一致性；

* 跨视角时域迁移（Cross-View Temporal Migration），实现特征在不同相机视角间的时序迁移与光度一致性维护；

* 激光几何约束（LiDAR Geometric Constraints），提供稳定的空间结构信息；

* 统一体素映射（Unified Voxel Mapping），融合视觉与激光信息于单一体素表示中；

* 自适应多视角 ESIKF（Adaptive Multi-View ESIKF），通过自适应协方差建模提升多视角融合鲁棒性。

系统总体流程如图 1 所示。

图 1. Omni-LIVO 系统架构概览。该系统对多相机、激光雷达和 IMU 数据进行同步，执行扫描与图像块的预处理，并基于 ESIKF 框架实现激光几何残差与视觉光度残差的紧耦合融合。统一的**体素地图（voxel map）**同时维护激光雷达点与视觉点，以实现轨迹估计与地图构建的一致性。

多传感器数据同步

为了在激光雷达、相机与 IMU 之间实现一致的融合，系统采用了统一的同步策略。该方法将不同传感器的数据整合为时间上协调一致的测量包（measurement packet），其中包含：

依据相机曝光时间分段的激光雷达点云；
跨越相邻帧间隔的高频 IMU 测量数据；
同步触发的多相机图像帧（例如四路相机同时采集）。

虽然激光雷达与相机的标称采样频率可能相同（如 10 Hz），但它们的触发时刻往往并不完全对齐。为解决这一问题，系统根据时间戳，将每个激光点分配给时间上最接近的相机帧，以实现多模态数据的精确时间对应。同时，所有相机通道均采用外部触发同步机制，确保在同一时刻完成曝光，从而获得时间一致的多视角图像数据。通过这种分段与对齐过程，系统可在单一测量包中实现激光雷达点云、相机图像和 IMU 数据的时间一致性，如图 2 所示。

图 2. Omni-LIVO 的多传感器数据同步示意图。尽管激光雷达扫描与多相机成像在标称频率上相近，但其采集时间并非完全对齐。系统将每个激光点按时间进行分段，并关联到时间上最接近的相机曝光时刻；与此同时IMU 测量提供连续的运动先验以弥合时间间隙。这种策略确保了在异构传感器数据流之间实现时间一致的融合。

跨视角直接法（Cross-View Direct Method）

在单相机系统中，当图像块（patch）离开相机视场后，其光度约束会丢失，导致跟踪中断。为此，Omni-LIVO 引入了跨视角时域迁移与光度对齐机制（Cross-View Temporal Migration and Photometric Alignment），在不同相机间保持光度连续性，如图 3 所示。

图 3. 多相机视场间的时域迁移过程。一个最初由相机 i 观测到的光度块（photometric patch），在离开该相机视场后会暂时消失，随后在相机 j 的视场中重新出现。系统通过检测时间重叠与独占可见性条件来判断迁移的发生，并在两次观测之间建立跨视角光度残差（Cross-View Photometric Residual）。图中展示了图像块的依次消失与再出现过程、曝光时序对齐，以及跨相机迁移图像块的关联关系。

该方法的核心思想是：当一个图像块在某一相机中消失并在另一相机中重新出现时，只要满足可见性与时间连续性条件，就认为该图像块发生了跨视角迁移。为确保不同相机之间的光度一致性，系统对图像进行了曝光与暗角校正（Exposure and Vignetting Correction），从而使得跨相机的强度比较更加准确。

在跨相机间进行特征匹配时，需要估计相邻帧之间的相对位姿变换（Relative Transformation），并在局部平面假设下计算单应性映射（Homography），以实现特征点从一个相机到另一个相机的精确映射。基于这些定义，系统同时构建了两类残差：

相机内残差（Intra-Camera Residuals）：保持同一相机帧之间的光度一致性；
跨视角时域残差（Cross-View Migration Residuals）：在不同相机间建立时域约束，用于描述特征从一个相机到另一个相机的光度匹配关系。

这些残差信息被统一堆叠为完整的残差向量，用于优化求解。系统还统计了特征在多相机间迁移的频率与数量，以便评估跨视角连续性。

通过引入时域迁移约束，Omni-LIVO 能够在单相机视场之外继续保持光度信息，从而延长跟踪持续时间、提升几何多样性。这不仅增强了位姿估计的灵敏度与稳定性，也显著提高了系统在剧烈运动和视角切换场景下的鲁棒性，将多相机跟踪从传统的“共视问题”转化为时间连续性问题的解决方案。

图 4. 转弯过程中光度块迁移示意图。中央的激光雷达地图显示了机器人轨迹，并标注了两个关键位置。* 位置 1：同一相机内的光度块（绿色）在相机视场内保持连续跟踪。* 位置 2：相同的光度块跨相机迁移，形成跨视角关联（红色）。该机制在转弯运动过程中有效保持了多相机阵列间的光度连续性

激光雷达几何约束处理（LiDAR Geometric Constraint Processing）

在 Omni-LIVO 的多相机框架中，激光雷达测量为系统提供了与光度观测互补的结构约束。为了高效地处理点云并生成几何残差，系统采用了基于体素（voxel-based）的平面提取方法。具体而言，原始激光雷达点云首先被离散化为固定分辨率的体素单元。对每个体素内的点集计算其统计特性，通过特征分解（eigen-decomposition）判断点分布的几何形态。当体素内点的最小特征值较小时，该区域被视为平面，其对应的特征向量则定义了平面法向量。在此基础上，系统将变换后的激光雷达点投影到对应的平面上，计算点到平面的距离，并将其作为几何残差（geometric residuals）输入到 ESIKF 框架中。这些点到平面的距离约束为系统提供了可靠的结构可观测性，能够在纹理稀少或光度特征不足的环境中显著增强鲁棒性，从而实现更稳定的位姿估计与地图构建。

多视角融合的统一体素映射（Unified Voxel Mapping with Multi-View Integration）

Omni-LIVO 将激光雷达几何信息与多视角光度图像块融合到一个自适应体积结构中。该统一表示采用基于密度的八叉树细化（density-driven octree refinement），在内存效率与空间精度之间取得平衡。主要流程包括：

体素结构定义：每个体素同时包含三个部分——激光雷达平面几何参数、带有多视角观测的视觉地图点，以及八叉树的细分结构信息。
视觉地图点生成：图像被划分为自适应大小的网格。对于缺少视觉地图点的网格区域，将投影到该区域的激光雷达点作为候选点，通过选择在所有相机视角中 Shi-Tomasi 角点响应最强的点创建新的视觉地图点。
多视角观测管理：每个视觉地图点维护其关联的多视角观测信息，包括图像块、相机位姿、曝光参数以及相机编号。当相机位姿发生变化或像素位移超过阈值时，系统触发更新，同时在优化过程中使用 Tukey 加权来抑制光度异常值。

该方法实现了激光与视觉信息的紧密融合，在保证空间精度的同时，提高了地图构建与位姿估计的鲁棒性。

基于 ESIKF 的多相机迭代状态估计（Iterative Multi-Camera State Estimation with ESIKF）

Omni-LIVO 将标准的误差状态迭代卡尔曼滤波器（ESIKF）扩展，用于融合多视角光度约束与激光雷达测量，通过迭代线性化和自适应加权实现紧耦合优化，如图 5 所示。

图 5. 迭代多相机 ESIKF 框架示意图。该框架在标准 ESIKF 基础上扩展了多视角融合能力，主要包括：1. 迭代线性化：处理来自多相机的非线性光度残差；2. 联合残差堆叠：将激光雷达几何约束与多相机光度约束组合在同一观测向量中；3. 自适应协方差加权：根据各相机跟踪质量动态调整测量可靠性；4. 状态增量更新：通过卡尔曼滤波迭代更新状态，直至收敛。该多模态方法相比单一传感器估计，显著增强了可观测性与鲁棒性。

核心思想包括：

迭代线性化更新：在每次迭代中更新线性化点，以反映最新的状态估计。
多传感器残差叠加：将 LIO（激光–惯性）与多相机 VIO（视觉–惯性）测量残差堆叠，形成统一的观测向量，用于滤波更新。
自适应卡尔曼增益与状态更新：根据残差与观测的不确定性计算增益，并迭代更新状态估计，提高系统对多源观测的响应能力。
协方差自适应加权：不同传感器和跨视角测量的协方差通过自适应缩放因子进行调整，根据跟踪性能动态调节权重，从而增强对异常观测或光度变化的鲁棒性。通过这种迭代优化，系统能够在多相机与激光雷达观测下实现高精度、稳健的位姿估计，充分利用跨视角光度信息和激光几何约束，提高跟踪和地图构建的可靠性。

实验结果

为了验证所提出方法的鲁棒性和精度，在 Hilti SLAM Challenge 2022 和 Newer College 数据集上进行了评测，重点考察了方法估计轨迹与数据集提供的真实轨迹之间的绝对轨迹误差（RMSE），并与 FAST-LIVO2、FAST-LIVO、R3LIVE、FAST-LIO2 和 OpenMAVIS 等最新方法进行了对比。同时还在自定义多相机配置下使用 LIVOX MID360 激光雷达和四台同步相机采集了点云数据。

数据集与基线方法

公共基准：Hilti SLAM Challenge 提供了施工场景序列，采用激光测量获取毫米级精度真值；Newer College 数据集包含校园及地下环境，光照与视角变化挑战较大。

自定义数据集：使用 LIVOX MID360 激光雷达（360° FoV，10Hz）和四台相机（1024×768，10Hz）组成交叉阵列，采集平台包括手持设备和机器人安装平台（如图 6 所示）。

基线方法：FAST-LIVO2、FAST-LIVO、R3LIVE（LiDAR-惯性-视觉）、FAST-LIO2（LiDAR-惯性）以及 OpenMAVIS（多相机视觉-惯性，兼容时评测）。

图 6. 我们自定义数据集中使用的 SLAM 数据采集平台。(a) 手持配置(b) 机器人安装配置

定量结果

表 I 总结了所有序列的绝对轨迹误差（RMSE）。Omni-LIVO 在 14 条序列中有 11 条达到最低误差，并成功完成全部轨迹，表现出优异的精度和鲁棒性。

轨迹与地图分析

图 7 的轨迹对比显示了 Omni-LIVO 在挑战序列中的鲁棒性。快速旋转导致单相机跟踪失败，而 Omni-LIVO 通过跨视角时域迁移保持一致性；多层环境下，多相机阵列提供了空间冗余；地下强光照变化环境中，其他方法出现米级漂移，而 Omni-LIVO 通过自适应协方差权重保持分米级精度。

图 7. 挑战序列的轨迹对比(a) Exp06：快速旋转导致单相机跟踪失败，而 Omni-LIVO 通过跨视角时域迁移保持轨迹一致性；(b) Exp16：多层环境及垂直移动，多相机阵列在激烈的 3D 运动中保持连续性；(c) Stairs：复杂螺旋运动，LiDAR-视觉融合增强了可观测性；(d) Underground-hard：极端光照变化环境下，Omni-LIVO 通过自适应协方差加权保持鲁棒性，而其他方法出现漂移或失败。

图 8 的地图质量对比显示，多相机融合在场景重建中具有优势。单相机系统产生稀疏颜色点云并存在覆盖空洞，而 Omni-LIVO 提供稠密且均匀的 RGB 点云。

图 8. 地图质量对比(a) Omni-LIVO 多楼层重建，四相机覆盖实现稠密颜色化；(b) R3LIVE 单相机结果，颜色点稀疏且覆盖不完整；(c) Omni-LIVO 地下场景重建，即使光照变化大，也保持多相机稠密颜色化；(d) FAST-LIVO 地下场景结果，重建质量下降且存在明显空洞。

表 III 显示 RGB 点云生成能力，Omni-LIVO 在各序列中稳定产生比其他方法多 2–4 倍的彩色点，在复杂环境如 basement3 中，RGB 点数比 FAST-LIVO2 多 3.5 倍，多相机配置确保即使在挑战场景下也能实现完整颜色覆盖。

讨论

Omni-LIVO 在 14 条序列中 12 条达到最低 RMSE，平均精度比 FAST-LIVO2 提高 34%。系统完成了所有 14 条挑战序列，而其他方法在 5–7 条失败。
多相机配置生成了显著更稠密的 RGB 点云（最多提高 3.5×），有效解决宽视角激光雷达与窄视角相机的视场不匹配问题。
统一体素映射提供了全面的场景颜色化，覆盖空洞最小，同时计算开销仅为 FAST-LIVO2 的 1.19 倍。

总结

本文提出了 Omni-LIVO，一种紧耦合的多相机 LiDAR-惯性-视觉里程计系统，通过跨视角图像块迁移和自适应多视角 ESIKF 融合，弥合宽视角激光雷达与传统相机之间的视场差异。实验验证表明，在挑战序列中 RMSE 降低 23%，完成率达到 100%。多相机配置保证了非重叠视角间光度块的连续性，提升系统鲁棒性。未来工作将研究在线闭环检测和多传感器标定问题。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-10-23，如有侵权请联系 cloudcommunity@tencent.com 删除

地图