首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文| On the performance of ConvNet features for place recognition

2015-On the performance of ConvNet features for place recognition

发表期刊/会议: IROS

等级: CCF-C

发表时间: 20150117

参考引用: N. Sünderhauf, S. Shirazi, F. Dayoub, B. Upcroft and M. Milford, "On the performance of ConvNet features for place recognition," 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Hamburg, Germany, 2015, pp. 4297-4304, doi: 10.1109/IROS.2015.7353986.

关联说明: 论文《Place Recognition with ConvNet Landmarks: Viewpoint-Robust, Condition-Robust, Training-Free》来自相同作者。

关键词: 局部敏感哈希;语义搜索空间分区优化;

阅读程度: 全文

更新时间: 20231201

Ⅰ. 主要内容

本文主要做了三件事:

第一,VPR的外观变化问题上,CNN不同层的鲁棒性研究;

第二,VPR的视角变化问题上,CNN不同层的鲁棒性研究;

第三,待匹配图像的最近邻搜索是影响VPR实时性的关键,对此作者提出了两个提高实时性的办法。

具体内容如下:

首次实现基于ConvNet的大地图实时地点识别系统。

本文全面评估和比较了三种预训练卷积网络(AlexNet、Places205、Hybrid)在机器人视觉地点识别中的使用效果;

对四个现实世界数据集进行了广泛实验,评估神经网络不同层对视角变化和条件变化(环境外观变化)的鲁棒能力;

通过集成现有的——局部敏感哈希方法和新颖的——语义搜索空间分区优化技术,提高了图像特征之间的匹配效率;

备注:文章《Convolutional Neural Network-based Place Recognition》在如何去除 CNN 特征匹配错误上做的研究,本文是在提高实时性上做的研究。

Ⅱ. 创新点

特征的局部敏感哈希: 图像特征经过局部敏感哈希生成二值特征向量,用二值特征向量之间的汉明距离近似余弦距离,从而执行两幅图像之间的距离度量。

语义搜索空间分区: 使用高层编码的语义信息进行搜索空间划分,使用中层特征在挑战环境下进行位置匹配。举个例子,对查询集的图像 A,要在参考集中找与 A 最相似的图像,首先使用神经网络高层特征确定 A 的语义类别 L,参考集中同样属于类别 L的所有图像分别与 A使用中层特征进行距离度量,即相似性比较。就是先确定 A的大类,在大类范围内进行细化搜索。

Ⅲ. 实验与结论

3.1 结论

高层语义: ConvNet 较高层的特征对地点的语义信息进行编码,可以用来划分搜索空间以减少地点识别时间。

不同层特性: ConvNet 中间层的特征对外观变化表现出鲁棒性,从较高层提取的特征对于视角变化更加鲁棒。

局部敏感哈希: 通过局部敏感哈希得到的位向量上的汉明距离来近似特征之间的余弦距离,可以实现两个数量级的加速,将特征数据压缩99.6%,但保留95%的地点识别性能。

不同网络对比: 当比较不同的 ConvNet 在严重外观变化下的地点识别任务的性能时,为语义地点分类任务训练的网络优于为目标识别训练的 ConvNet。

3.2 实验概要

主干网络: AlexNet

图像预处理: resize (231, 231)

度量指标: 精确率-召回率曲线(precision-recall curves)和 F1 分数

数据集:

The Nordland Dataset

The Gardens Point Dataset

The Campus Human vs. Robot Dataset

The St. Lucia Dataset

3.3 CNN不同层对外观变化鲁棒性的研究

数据集:

Nordland dataset:包含春季和冬季的五种不同季节对。Fig. 6

Gardens Point dataset:使用全部 3 个子集,跨越白天和黑夜。Fig. 3-4

St. Lucia dataset:几周的时间里,在不同的白天进行9次遍历。Fig. 2

Campus dataset:使用人类和机器人在一天中不同时间(包括黎明)录制的镜头。Fig. 5

Baseline:SeqSLAM;FAB-MAP(仅引用)

实验结果: 中间层特征conv3对环境外观变化表现出较好的鲁棒性。TABLE Ⅲ

3.4 CNN不同层对视角变化鲁棒性的研究

数据集:

Nordland spring dataset裁剪。Fig. 7

Gardens Point dataset (day left vs. day right)。Fig. 8

实验结果: 上层特征,尤其 fc6,对视角变化具有较好鲁棒性。TABLE Ⅳ

结果说明: 结论在直观上是有道理的,因为第一个卷积层的特征类似于非常简单的形状特征,这些特征没有足够的辨别力和通用性,无法实现严重外观变化情况下的地点识别;层次结构中较高的层,尤其是全连接层,在语义上更有意义,但因此失去了区分同一语义类型场景中各个位置的能力。

3.5 大范围地点识别实时性研究

特征的局部敏感哈希: 图像特征经过局部敏感哈希生成二值特征向量,用二值特征向量之间的汉明距离近似余弦距离,从而执行两幅图像之间的距离度量。

语义搜索空间分区: 使用高层编码的语义信息进行搜索空间划分,使用中层特征在挑战环境下进行位置匹配。举个例子,对查询集的图像 A,要在参考集中找与 A 最相似的图像,首先使用神经网络高层特征确定 A 的语义类别 L,参考集中同样属于类别 L的所有图像分别与 A使用中层特征进行距离度量,即相似性比较。就是先确定 A的大类,在大类范围内进行细化搜索。

3.6 不同主干网络在VPR中表现性能的研究

当比较不同的 ConvNet 在严重外观变化下的地点识别任务的性能时,为语义地点分类任务训练的网络优于为目标识别训练的 ConvNet。

Ⅳ. 其他内容

解决地点识别问题的方法包括:

匹配图像序列。

将图像转换为对常见场景变化(如阴影)不变的图像。

学习环境如何随时间变化并预测图像空间中的这些变化。

基于粒子滤波的方法,随着时间的推移建立地点识别假设。

构建涵盖一个地方随时间不同外观的经验地图。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OO3uQnJtNIasMFn4Bd1uhKFA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券