SemanticSLAM：基于学习的语义地图构建和稳健的相机定位

点云PCL博主

发布于 2024-04-11 20:15:33

4280

发布于 2024-04-11 20:15:33

文章被收录于专栏：点云PCL点云PCL

文章：SemanticSLAM: Learning based Semantic Map Construction and Robust Camera Localization

作者：Mingyang Li, Yue Ma, and Qinru Qiu

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。文章未申请原创，侵权或转载联系微信cloudpoint9527。

摘要

当前的视觉同时定位与地图构建（VSLAM）技术通过比较连续场景的图像特征来估计相机的位移。这些算法依赖于场景的连续性，因此需要频繁的相机输入。然而，频繁处理图像可能会导致显著的内存使用和计算开销。在本研究中，我们介绍了语义SLAM，这是一个利用从RGB-D传感器提取的语义特征的端到端视觉惯性里程计系统。这种方法能够创建环境的语义地图，并确保可靠的相机定位。语义SLAM是场景无关的，这意味着它不需要针对不同环境进行重新训练。它在室内环境中有效运行，即使相机输入不频繁，也无需先验知识。语义SLAM的优势在于能够逐渐完善语义地图并改进姿态估计。这是通过一个convolutional long-short-term-memory（ConvLSTM）网络实现的，该网络经过训练，能够在地图构建过程中纠正错误。与现有的VSLAM算法相比，语义SLAM将姿态估计提高了17%。生成的语义地图提供了关于环境的可解释信息，并且可以轻松应用于各种下游任务，如路径规划、障碍物避开和机器人导航。代码将在 https://github.com/Leomingyangli/SemanticSLAM 上公开。

主要贡献

与传统的SLAM相比，语义SLAM有两个优点。

首先，它不需要高频率的观测和图像处理。虽然观测中的不同距离、视角和亮度水平可能会改变图像特征，但在语义提取之后，这种低级别的差异将被过滤掉。因此，视点的连续性不是寻找语义匹配的必要条件。
其次，与存储图像特征和关键帧的地图相比，具有语义信息的地图需要的内存更少，并且更容易人类解读。语义地图可以直接用于任务和导航规划，并且可以轻松在机器人之间共享。

内容概述

SemanticSLAM系统接收来自RGB-D相机的环境观测，并提供相机的姿态估计和语义地图。系统将环境视为网格地图，并离散化相机的潜在方向。通过对环境的观测和估计，系统输出概率值数组，表示相机在不同位置和方向上的可能性。此外，系统还构建和维护了一个具有语义信息的神经符号地图。系统的输入包括来自RGB-D相机读数的像素集合和3D点云，以及来自IMU传感器的位置和旋转变化。框架的结构如图1所示。

图1：SemanticSLAM系统概述

A. 语义特征提取和投影

首先，使用预训练的Yolo模型从RGB图像中检测前景物体，并使用语义分割模型SAM将前景物体与背景分离，获得一组带有类别标签的前景对象。然后，利用深度图像和RGB图像之间的像素对应关系，将前景对象的语义特征投影到一个以相机坐标系为基础的二维观测地图上。每个地图位置关联一个L维向量，存储该位置的语义特征。通过计算每个前景对象中像素在地图上的位置并根据其类别标签进行统计，得到地图上的语义特征分布。最后，通过ConvLSTM网络对地图中的错误进行校正。

B. 视觉位姿估计

首先，将语义观测地图ot视为自身为中心，然后通过空间变换对其进行多个不同的观察角度的旋转，生成一组观察图´ot。每个候选观察图都代表了相对于世界坐标系的不同视角。接着，将前一时间步骤构建的全局地图mt−1与每个候选观察图´ot进行2D卷积操作，计算它们之间的相关性。通过应用softmax函数对结果进行归一化，得到一个视觉姿态概率场vt，用于表示相机在不同位置和方向上的可能性分布。最终，选取概率最大的条目作为视觉姿态的估计值。

C. 与惯性位姿估计的交叉验证

在任务开始时，由于观测地图和全局地图之间的相关性较差，导致视觉姿态估计性能较低。为了减轻这种不确定性，提出使用IMU传感器数据引导姿态估计。利用IMU传感器测量的位置和方向变化，结合前一步的姿态估计，计算出惯性姿态估计。然而，IMU读数存在漂移误差，且误差会随着时间累积变得显著。相比之下，视觉姿态估计的误差通常较大，尤其是在没有匹配特征的情况下。因此，根据视觉估计和惯性估计之间的差异，选择最终的姿态估计结果。通过视觉和惯性姿态估计的交叉验证，可以限制姿态估计误差的范围，尤其是在训练阶段初期，从而加速训练的收敛。此外，这种方法的实现也比较容易，因为视觉和惯性姿态估计是两个并行且独立的线程。

D. 地图更新

在地图更新过程中，首先需要将自我中心的观测投影到估计的分配全局地图上。通过将视觉和惯性姿态估计结合起来，选择姿态估计的概率分布。然后，使用转置卷积将自我中心观测投影到地图坐标上，生成包含观测信息的全局地图。在估计的姿态周围创建感兴趣区域(ROI)，并在该区域内更新全局地图，以减少误差。接着，创建一个ROI掩码，用于选择需要更新的区域。最后，通过卷积LSTM模型更新全局地图，该模型学习如何在当前地图中“记住”或“遗忘”信息，并判断传入观测中的信息是否可信并存储在地图中。

E. 损失函数

在提出的SemanticSLAM中，构建的语义地图的准确性对姿态估计至关重要，一个准确的全局地图能够确保正确的姿态估计。因此，ConvLSTM模型的训练旨在提高构建地图的质量。为此，设计了一个损失函数，用于衡量构建地图与地面真值地图之间在T个时间步长上的累积差异，以帮助模型学习正确的地图构建

实验

实验使用了名为"IndoorScenes"的模拟室内定位数据集，环境是模拟的室内环境，由开源多机器人模拟器Gazebo生成，包含各种随机放置的物体。传感器输入来自TurtleBot3地面机器人模拟器，捕获了640x480分辨率的RGB和深度图像，水平视场(FOV)为90度。图像的采样速率低于1Hz，并且IMU传感器含有高斯噪声和偏置噪声。模拟器生成了30个不同的场景，每个场景包含3条不同的轨迹。地图大小为33×33，网格大小为300毫米。观测地图的尺寸为11×11，相机方向离散为360级。

图2.室内场景数据集

实验分为两种设置：场内和跨场景。在场内设置下，我们使用每个场景的两条轨迹进行训练，然后用剩余的一条轨迹进行测试。跨场景设置将数据集分为两个不同的集合，以确保测试和训练轨迹来自不同的场景，以评估模型的泛化能力。使用平均位置误差（APE）和平均方向误差（ADE）这两个指标来衡量模型的质量。为了进行比较，我们实现并训练了几种现有模型，包括DeepVO、ORB-SLAM2和MapNet，它们分别基于深度学习、关键点和图像特征。

结果与分析

性能比较：表格 I 比较了在场内和跨场景设置下这些 SLAM 模型的平均位置误差和方向误差。可以看到，具有视觉和 IMU 输入的 SemanticSLAM 表现最佳，其次是仅具有视觉传感器的 SemanticSLAM。虽然 DeepVO 在场内设置中表现良好，但该模型过度定制于训练集中的场景，因此在应用于跨场景设置时泛化能力不佳。相反，我们的算法学习如何构建地图而不是地图本身，因此它可以适应具有不同场景的环境。最后，我们还将 ORB-SLAM2 应用于我们的数据集，然而，该算法无法生成任何姿态估计，因为它无法在帧之间找到足够数量的匹配关键点。