基于语义地图的单目定位用于自动驾驶车辆

点云PCL博主

发布于 2024-06-21 13:03:01

1270

发布于 2024-06-21 13:03:01

文章被收录于专栏：点云PCL点云PCL

文章：Monocular Localization with Semantics Map for Autonomous Vehicles

作者：Jixiang Wan,Xudong Zhang,Shuzhou Dong, Yuwei Zhang,Yuchen Yang,Ruoxi Wu,Ye Jiang, Jijunnan Li, Jinquan Lin, Ming Yang

编辑：点云PC

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

精确且稳健的定位仍然是自动驾驶车辆面临的重大挑战。传感器的成本和本地计算效率的限制使其难以扩展到大型商业应用。传统的基于视觉的方法主要关注纹理特征，这些特征易受光照、季节、视角和外观变化的影响。此外带有描述子的地图的巨大存储需求和复杂的优化过程也阻碍了系统性能。为了在效率和准确性之间取得平衡，本文提出了一种新型的轻量级视觉语义定位算法，该算法使用稳定的语义特征而非低级纹理特征。首先通过使用摄像头或激光雷达传感器检测语义对象（如地面标记、车道线和电线杆）离线构建语义地图。然后通过语义特征与地图对象的数据关联进行在线视觉定位。在公开的KAIST Urban数据集以及记录的场景中评估了提出的定位框架。实验结果表明，该方法在各种自动驾驶定位任务中是一种可靠且实用的定位解决方案。

主要贡献

将当前观测中的语义线索与语义地图中的元素关联，为自动驾驶车辆中的单目视觉定位提供了一种有前途的解决方案。然而，这其中有几个挑战需要考虑。一方面标准的矢量高精（HD）地图通常需要专业的数据采集设备和大量的人力进行标注。另一方面，由于维度下降缺陷，正确地将2D图像中的目标转换为3D真实形状是一个具有挑战性的问题。因此本文提出了一种用于自动驾驶的轻量级视觉定位流程，包括一个无需人工标注的语义地图构建器和一个使用低成本摄像头和IMU设备的定位模块。本文的主要贡献总结如下：

* 提出了一种增强的逆透视映射模型，该模型考虑了摄像头的旋转，从而能够在运动过程中准确计算鸟瞰图。

* 提出了一种算法，使用常规LiDAR在最少标注协助或监督的情况下构建全球语义地图。

* 展示了一种基于常见道路视觉语义特征的单目定位算法，并验证了其在实际交通场景中的有效性。

主要内容

在这项工作中，作者提出了一种基于语义地图的视觉定位方法，如图1所示。系统包括两部分：(1) 全局语义地图生成。从装备有激光雷达、GPS-RTK和IMU或其他导航传感器的车辆收集的道路数据中，利用激光雷达SLAM创建点云地图。从点云中提取车道线、车道标志和类似杆状物体等语义特征以构建语义地图。(2) 定位模块。我们使用卷积神经网络（CNN）从摄像头捕获的图像中提取语义信息。通过逆透视映射（IPM）使用地面像素（如地标、人行横道、车道线）构建局部地图，并与全局地图对齐。将语义地图上的类似杆状物体（如树干、路灯、交通灯和广告牌的杆）投影到图像上以创建线匹配。通过最小化全局重投影误差，可以获得车辆的六自由度（6-DOF）位姿。

图1. 系统结构示意图,上半部分展示了全局语义地图的构建过程，下半部分展示了通过单目摄像头进行的车辆定位过程

A. 语义地图

通过改进的FAST-LIO2算法，在位姿图优化模块中融合GPS-RTK信息以确保全局定位精度，使用激光雷达收集的数据被配准为高精度点云地图。然后从中分割出类似杆状物的语义信息，并通过欧几里得聚类和RANSAC线性拟合提取每个杆的两个端点。地面点云通过预训练的KPConv模型和平面生长法提取。为了准确分割地面标记，作者将KPConv分割结果投影到鸟瞰图（BEV）平面上，将道路表面点云的反射率作为像素值。在此采用OTSU算法进一步二值化反射率值，从而隔离出清晰的车道标记和道路表面，最后应用3D点云与鸟瞰图图像之间的映射关系，将分割结果反投影到3D点云中，实现相关元素的3D空间语义分割，如图2所示。

图2. 点云地图生成和鸟瞰图（BEV）分割。(a) 显示了原始点云地图。(b) 是通过激光雷达SLAM生成的地面点云。(c) 提供了一个鸟瞰图像示例，其中每个像素对应一个10厘米的体素。(d) 显示了OTSU二值化结果，保留了道路上的高对比度特征，包括车道线和标记。

B. 图像分割

定位的第一步是对图像进行语义分割，作者将所有语义分为三类：地面标记、杆状物和背景。选择了一个轻量级模型BiSeNetV2来分割必要的语义特征，为了提高像素投影的计算效率，使用OpenCV提取所有地面标记的轮廓，而不是使用整个语义掩码，之所以采用这种方法，是因为轮廓的位置信息可以提供与整个标记像素等效的空间约束，每个杆实例使用最小二乘法拟合为一条直线，这有助于计算从地图点到拟合杆的距离。图3展示了真实交通场景中的图像分割可视化结果。

图3. 图像分割。(a) 是由前视摄像头捕获的原始图像。(b) 是语义分割结果。橙色和灰色像素分别表示地面标记和杆状物。绿色像素突出显示地面标记的轮廓，红色像素表示杆状物的拟合直线。注意，这里为避免引入噪声，短杆状物被舍弃。

C. 逆透视变换

分割后，地面标记从图像平面转换到车辆坐标系，这个过程可以通过逆透视变换（IPM）算法来执行。图4展示了使用针孔摄像机物理参数的常规IPM模型，地面平面上的点P投影到图像平面上的点I的过程从三个视角进行了展示。

图4. 基本逆透视变换（IPM）模型示意图。

图5展示了带有旋转角度补偿的增强型IPM模型。

图5. 带有翻滚角、俯仰和偏航角补偿的增强型逆透视变换（IPM）模型示意图。

在实际驾驶场景中，移动车辆的偏转角度（θroll、θpitch、θyaw）通过IMU数据的积分进行计算。随后带有旋转补偿的IPM模型用于计算特定像素的投影坐标，并准确恢复它们在空间中的3D位置，图6(a)展示了基本IPM模型产生的畸变的鸟瞰图像。另一方面，图6(b)呈现了带有角度补偿的增强型IPM模型的结果。这说明了即使在运动过程中角度变化很小，鸟瞰图像也会出现明显的畸变。

图6. (a) 是由基本IPM转换的鸟瞰图像。(b) 是带有偏转角度补偿（roll、pitch、yaw = (0.8°, -1.9°, -1.2°)）的增强型IPM结果。

D. 优化求解器

在对第k帧图像进行位姿优化之前，必须准备车辆状态，包括先验姿态以及地面标记和杆状特征的位置。然后使用迭代非线性优化方法将当前特征与全局语义地图进行匹配，从而得到车辆的当前姿态。

实验评估

A. 数据集

公开的KAIST数据集提供了从复杂城市环境中获取的各种传感器数据，选择了一些典型的自动驾驶场景（即郊区、城区和高速公路），其中来自激光雷达的给定点云数据用于构建全局语义地图，而左侧摄像头和IMU测量用于定位。此外还记录了一个覆盖整个工业园区和几条周围公共道路的数据集，这在中国重庆形成了大约6公里长的道路网络。图7(a)显示了所选区域的卫星地图。该数据集由我们配备前视摄像头、激光雷达、GPS-RTK和IMU的自动驾驶汽车收集。我们使用激光雷达数据构建点云地图，并将GPS-RTK视为定位的地面真值。

图 7. 实验结果的说明。(a) 显示了我们自行录制的工业园区区域的卫星地图。(b) 是工业园区的全局语义地图。地面标记用黄色绘制，杆状物的端点用红色绘制。蓝色框表示没有足够车道语义信息的区域。(c) 是工业园区场景中实时姿态优化的视觉示例。(d) 是公共道路场景。在(c)和(d)中，白色点表示动态加载带有网格区域的车道标记地图，黄色点表示当前本地车道标记地图，该地图经过姿态优化后投影到世界坐标系。图像中的绿色像素表示在姿态估计期间使用的车道标记特征。由于透视噪声，优化过程中过远离相机的像素将被丢弃，并标记为红色。蓝色线表示拟合的类似杆状的特征。

B. 视觉定位精度

为了评估系统的性能，作者将其与其他语义定位算法进行了比较，包括CL+PA、PC semantic 和融合SFM在KAIST数据集上的表现。遵循基准测试，作者考虑了在x、y方向上的定位精度，以及偏航（yaw）角，使用绝对轨迹误差（ATE）的均方根误差作为评价指标，其中包括RMSE Trans（米）和RMSE Rot（度）。表I显示了我们算法与基准算法在各种场景下的比较结果，表明我们提出的算法达到了与基准算法相当的定位精度。

表II显示了与Hloc的比较的详细结果。值得注意的是对于公园数据集，Hloc需要额外存储约4.5G的地图数据，格式为colmap，而系统只需要保留约2M的语义点云地图。尽管先验地图要小得多，但作者提出的系统在平移和旋转精度上均比基准算法更高。此外观察到工业园区的整体定位精度不如公共道路，这是由于不完整和稀缺的车道标记，如图7(b)所示。相比之下，Hloc在有着密集建筑等特征的情况下，可以比空旷的公共道路实现更高的精度。图7(c)和(d)展示了定位算法在工业园区和公共道路数据集上实时运行的视觉示例。

图8展示了系统在车辆框架内的垂直和水平位置误差分布以及航向角误差。相比之下水平误差分布更集中且更接近于零，这表明车道标记，特别是主要车道线特征，对水平方向有更强的约束力。垂直方向和航向角的精度较低可能是由于某些情况下缺乏杆状物的监督。

图8. 垂直和水平方向以及航向角定位误差的概率分布图。

为了详细评估每个提出特征的有效性，作者对公共道路数据集进行了消融研究，为了确保与VIO结果的公平比较，使用EVO考虑了相对姿态误差（RPE）指标，如表III所示。通过结合全局地图，该方法消除了VIO的累积漂移误差，达到了0.492米的平移RMSE，这对于自动驾驶任务是可以接受的。有趣的是语义地图的车道标记和杆状特征在RPE方面均优于基线，这表明视觉特征有助于提高定位精度的效率和鲁棒性。

总结

在本文提出了一种基于稳定视觉语义特征（如地面标记、车道线和杆状物）的自动驾驶车辆视觉定位系统。在我们的框架中，首先使用LiDAR离线构建语义地图，然后优化语义特征与地图中相应信息的匹配，以估计车辆的当前位置和方向。我们在各种具有挑战性的实际交通场景中验证了我们提出的系统，结果表明我们的方法在平移和旋转精度方面优于基线。在未来的工作中，考虑集成更多种类的低成本传感器，例如GPS，以进一步扩展自动驾驶车辆在更复杂交通场景中的鲁棒定位应用。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-13，如有侵权请联系 cloudcommunity@tencent.com 删除

算法