论文: Fully Convolutional Geometric Features
标签: ICCV 2019
; feature
, match
, registration
作者: Christopher Choy,Jaesik Park, Vladlen Koltun
机构: Stanford University, POSTECH, Intel Labs
论文、代码地址:在公众号「计算机视觉工坊」,后台回复「ICCV2019」,即可直接下载。
从点云中提取几何特征是配准、重建、跟踪等应用的第一步。SOTA的方法往往需要计算底层特征作为输入或者提取基于patch的有限感受野的特征。在本论文中,作者提出了FCGF(Fully-Convolutional Geometric Features),它通过全卷积网络一次计算得到点云特征;作者还提出了新的度量学习损失,可以显著提升性能。FCGF是紧凑的,同时捕获了广泛的空间上下文,并可扩展到大型场景。论文中在室内数据集和室外数据集均进行了验证,FCGF在不需要预处理时达到了SOTA精度,同时比其它精确的办法快600倍,而且结构是紧凑的(32维)。
在许多点云配准、跟踪和场景流估计(scene flow estimation)任务中,寻找几何点对应(geometric correspondences)关系是一个关键的步骤。因此,大量的工作集中在设计具有区分性的3D特征,进而建立对应关系。
早期的3D特征描述主要依赖于人工设计的特征描述子,如SHOT、FPH和FPFH等,这些局部描述子可以区分局部几何特征。最近,注意力逐渐转向了基于深度学习的三维特征,比如PPF-FoldNet(ECCV 2018),PPFNet(CVPR 2018)和3DFeat-Net(ECCV 2018)等。之前的这些工作中存在一些问题:
全卷积网络是高效的,因为它们在具有重叠感受野的神经元之间共享中间激活(intermediate activations)。此外,全卷积网络中不是直接操作小的patch,因此神经元具有更大的感受野。而且,全卷积网络产生密集的输出,这非常适用于详细描述场景的任务。
尽管全卷积网络具有这些优点,但由于三维数据的特点,全卷积网络并没有广泛应用到三维几何特征的提取。卷积网络用于3D数据时,标准输入是一个四维的数据(x, y, z, f): 三个空间维度(x, y, z)和一个特征维度f。但大多数三维体素都是空的,导致这种表示占用内存较大。
在论文中,作者采用一种稀疏tensor来表示3D数据,采用Minkowski卷积代替传统卷积,提出了ResUNet用于提取输入点云中每个点的特征,另外提出了新的loss用于全卷积度量学习。该网络不需要数据预处理(提取简单特征),也不需要patch的输入,而且能够产生具有SOTA区分性的高分辨率特征。作者在3DMatch数据集和KITTI数据集中验证了FCGF(Fully Convolutional Geometric Features)的表示能力和提取特征的速度,实验结果如Figure 1。
论文中的数据表示和卷积操作主要基于MinkowskiEngine,这里不详细介绍,更多信息请查看MinkowskiEngine主页。
MinkowskiEngine把点云表示成两部分: 坐标矩阵和特征矩阵F。
论文中的模型架构ResUNet是一种U-Net类的网络架构,在编码和解码部分均包括残差结构,在解码和编码之间通过skip连接来增强特征的表达能力,如Figure 2所示。
ResUNet架构中的MinkowskiEngine下的Conv, Bn, ReLU, transposed Conv换成常规的2D图像下面的对应操作,就是一个很普通的网络架构,关于MinkowskiEngine的一些基础知识和代码实践欢迎参https://zhuanlan.zhihu.com/p/304117161。
·Loss实现和采样策略的源码: https://github.com/chrischoy/FCGF/blob/master/lib/trainer.py
优化器是SGD,初始学习率0.1,指数衰减学习率(γ=0.99)。Batch size设置为4,训练100个epoches。在训练时对数据采用随机scale(0.8 - 1.2)和随机旋转(0-360°)的增强。
主要介绍3DMatch数据集上的实验结果。
作者在3DMatch测试集中比较了FCGF与传统方法和深度学习方法的性能,如Table 1所示,第1列是方法名称,第2列是FMR值(及其标准差),第3列是在旋转的3DMatch数据集中的FMR值(及其标准差),第4列表示特征描述子的维度和提取特征的时间。从表中可以看到,FCGF提取特征的速度快,特征简洁(只有32维),在3DMatch数据集和旋转增强的3DMatch数据集均有最高的FMR。
在3DMatch测试集中Registration recall的比较如Table 5所示,FCGF在7个场景和平均情况下均达到了最高的Registration recall。
作者测试了不同loss下的性能,实验结果如Table3所示。由表格可以看到,对于contrastive Loss,normalized feature比非normalized feature要好,hardest-contrastive loss比常规(随机的)contrastive loss结果要好,同时可以观察到hardest-contrastive loss是所有loss中结果是最好的。对于triplet loss,normalized feature比非normalized feature要差,这个结论和contrastive loss中是相反的;hardest-triplet loss要比常规(随机的)triplet-loss结果要好,但其容易导致collapse。综合对比,hardest-contrastive loss在3DMatch数据集中是最好的。
FCGF特征的t-SNE显示如Figure 5所示。
1.论文基于MinkowskiEngine实现了点云的全卷积网络,点云和卷积等采用稀疏表示,优化了显存。
2.作者提出了hardest-contrastive loss和hardest-triplet loss,利用点云数据中的correspondences实现了特征的有效学习,并通过哈希的方式加快了生成二元组和三元组的速度。
3.不足: 基于MinkowskiEngine的神经网络在量化点云时会丢掉部分点云信息。
本文仅做学术分享,如有侵权,请联系删文。