论文地址: http://arxiv.org/pdf/2104.05327v2.pdf
来源: Warsaw University of Technology
论文名称:MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition
原文作者:Jacek Komorowski
内容提要
我们提出了一个基于一对传感器读数的判别多模态描述符:一个来自激光雷达的点云和一个来自RGB相机的图像。描述符名为MinkLoc++,可以用于机器人或自动驾驶汽车应用程序中的位置识别、重新定位和环路闭合。我们使用晚期融合方法,其中每个模态被单独处理,并在处理步骤的最后部分融合。该方法在标准位置识别基准上实现了最先进的性能。在训练多模态描述符时,我们也发现了支配态问题。当网络聚焦于对训练数据有较大过拟合的模态时,问题就会显现出来。这会在训练期间降低损失,但会导致评估集中的表现不佳。在这项工作中,我们描述了如何检测和减轻这种风险,使用深度度量学习方法训练多模态神经网络。
主要框架及实验结果


声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。