原文:KRF: Keypoint Refinement with Fusion Network for 6D Pose Estimation
地址:https://arxiv.org/pdf/2210.03437.pdf
翻译:种争青
校稿:董亚微
现有的细化方法逐渐失去了进一步提高姿态估计方法精度的能力。在本文中,我们提出了一种新的用于6D姿态估计改进的Pipeline,即融合网络关键点改进(KRF),特别是对于严重遮挡的物体。Pipeline由两个步骤组成:它首先通过一个新的点补全网络(Point Completion Network,PCN)对点云进行输入。该网络同时使用局部和全局特征,并考虑点补全期间的姿势信息。然后,它通过支持颜色的迭代关键点(CIKP)将补全的对象点云注册到相应的目标点云。CIKP方法将颜色信息引入配准,并在每个关键点周围注册点云,以提高稳定性。KRF Pipeline可以与现有主流的6D姿态估计方法集成,例如全流双向融合网络,以进一步提高其姿态估计精度。实验表明,我们的方法在YCB视频数据集上的表现优于最新方法,从93.9%到94.4%,在Occlusion LineMOD数据集上从64.4%到66.8%。
6D物体姿态估计是机器人操作、增强现实、自动驾驶等许多应用中的重要组成部分,在过去十年中受到了广泛关注和研究。这是一项非常具有挑战性的任务,因素影响包括传感器噪声、物体之间的遮挡、不同的照明条件和物体对称性等。
传统方法(文献[8]、[9])试图从已知RGB图像和对象网格模型之间的对应关系中提取手工特征。但是,此类方法在严重遮挡场景或低纹理对象中有局限性。近年来,随着深度神经网络(DNN)的迅猛发展,深度学习方法也被引入到6D物体姿态估计任务中,大大提高了性能。具体来说,一些方法(文献[3]、[10]、[11])使用DNN直接回归每个对象的平移和旋转。然而,旋转的非线性导致这些方法的泛化能力较差。最近,像文献[2]、[13]、[14]这样的工作利用DNN检测每个对象的关键点,然后使用Perspective-n-Point(PnP)计算2D关键点的6D姿态参数,或使用最小二乘法计算3D关键点的6D姿态参数。
虽然DNN方法可以以较少的时间解决该问题,但由于分割或回归中存在的错误,这种方法仍然无法实现高精度。为了获得更高的精度,姿态细化方法被提出。
姿态优化最常见的方法是迭代最近点(ICP)。在给定一个估计的姿态之后,该方法试图找到目标点云中源点云的每个点的最近邻居作为对应点,然后迭代求解最优变换。此外,像于文献[11]、[22]使用DNN提取更多特征以获得更好的性能。然而,随着姿态估计网络的发展,这些姿态细化方法的性能改进却越来越少。但是点云数据并没有得到充分利用,颜色和点云数据也没有进行融合。
在这项工作中,为了充分利用点云和RGB数据,我们提出了一种新的补全网络来补全可见点云,尤其是对于严重遮挡的对象。我们在文献[15]的基础之上对网络编码器进行了改进,添加点云的全局信息以提高其点补全性能。网络解码器则采用的文献[23]中的多级点生成结构,我们使用姿态估计分支作为另一个解码器,以便我们的网络能够补全不同方向和位置的点云。为了在配准中使用颜色和点数据,我们提出了一个姿态优化框架,该框架使用了一种名为“颜色支持迭代关键点”(CIKP)的新方法,该方法对每个关键点周围的点云进行采样,利用RGB和点云信息迭代优化对象关键点。我们的 Keypoint refinement with fusion(KRF)是一条Pipeline,它结合了我们的补全网络、CIKP方法和全流双向融合网络[15]。我们进一步在YCB-Video[10]和Occlusion LineMOD[8]数据集进行了广泛的实验,以评估我们的方法。实验结果表明,我们的方法优于当前最先进的方法。
我们的主要贡献有三方面:
大量实验表明,我们的KRF在现有方法中取得了最好的结果。
根据优化目标,姿态估计方法可以分为整体方法和基于关键点的方法。整体方法通过给定的RGB和(或)深度图像直接预测物体的3D位置和方向。传统的基于模板的方法从不同的角度为对象构建刚性模板,并用于计算给定图像的最佳匹配姿态。最近,一些工作利用DNN直接对物体的6D姿态进行回归或分类。PoseCNN使用多级网络预测姿态。它首先使用Hough Voting来判断对象的中心位置,然后直接回归三维旋转参数。SSD-6D首先检测到图像中的物体,然后将其分类为其姿势。DenseFusion在像素级别融合RGB和深度值,这对基于RGBD图像的6D姿态估计方法有很大的影响。然而,旋转的非线性使得损失函数难以收敛。
为了解决上述问题,提出了基于关键点的方法。YOLO-6D使用经典的目标检测模型YOLO预测投影在2D图像上目标的8个点和边界框的中心点,然后使用PnP算法计算6D姿态。PVNet试图预测每个像素的每个关键点的单位矢量,然后估计每个关键点在2D上的位置,并使用PnP算法计算最终姿态。与DenseFusion类似,PVN3D使用额外的深度信息通过Hough Voting检测3D关键点,然后使用最小二乘法计算6D姿态参数。为了充分利用RGB和深度数据,FFB6D提出了一种新的特征提取网络,在每个编码层和解码层进行融合。
上面提到的大多数方法都考虑应用姿态细化技术来进一步提高结果的准确性。最常用的方法是ICP,但它仅利用点之间的欧氏距离。像文献[17]、[18]的一些方法试图改变优化目标,以加快迭代过程或改善结果。而文献[19]、[20]则将颜色空间引入到ICP中,与3D ICP方法相比,它收敛更快,获得更好的结果。
最近,基于DNN的方法也被考虑用于解决细化问题。给定初始姿态和3D对象模型,DeepIM通过将渲染图像与观察图像进行匹配来迭代优化姿态。Manhardt等人提出了一种新的视觉损失,通过将物体轮廓与初始姿势对齐来细化姿态信息。Densefusion也提出了他们的细化网络,该网络依托于他们的主网络,以原始RGB特征和变换后点云的相应特征作为输入。随着姿态估计技术的发展,姿态细化对估计结果的改进越来越少,尤其是在使用RGBD数据的方法中。然而,我们注意到,研究人员对细化方法的重要性并没有给予足够的重视。因此,我们在本文中的目标是将ICP的思想与深度学习相结合,并设计一种新的姿态细化Pipeline来优化估计结果。
6D姿态估计的任务是预测刚性变换矩阵p \in SE(3) ,包括旋转矩阵R \in SO(3) 和平移矩阵T \in \mathbb{R}^3 。它将对象从自身坐标系转换为相机坐标系。给定一幅观察到的RGB图像和一幅深度图,我们首先通过姿态估计网络获得目标的预测姿态和分割结果。我们选择FFB6D来获得初始结果。然后我们利用KRFPipeline计算相对转换\Delta p \in SE(3) 用于纠正结果。具体来说,我们首先通过我们的补全网络完成可见点云,然后使用CIKP方法计算优化姿态。过程总结如图2所示
3.1 预处理
我们在两个基准数据集上评估了我们提出的方法。
a)YCB-Video数据集:YCB-Video数据集由从YCB对象集中选择的21个对象组成。它包含由RGBD摄像机拍摄的92个视频,每个视频由3-9个对象组成,总共超过13万帧。我们按照之前的工作(文献[10]、[11]、[15]),将它们分成训练集和测试集。培训集还包括[10]发布的8万张合成图像。
b)Occlusion LineMOD数据集:Occlution LineMOD数据集是对LineMOD数据集进行了重新注释,以补偿其缺少遮挡。与LineMOD数据集不同,Occlusion LineMOD数据集中的每帧都包含多个严重遮挡的对象,这使得它更具挑战性。我们按照前面的工作,分割训练集和测试集,并生成用于训练的合成图像。
所有实验都部署在配备Intel E5-2640-v4 CPU和NVIDIA RTX2080Ti GPU的计算机电脑上。FFB6D被选为估计网络。在全流双向融合网络中,使用在ImageNet上预处理过ResNet34的PSPNet来提取RGB图像的特征。我们对每个目标随机采样2048个点,并应用RandLA Net提取点云的几何特征。这些特征随后被DenseFusion融合。PCN-ENC块由两个PointNet堆栈组成,用于提取点云的全局特征。关键点探测器模块由两个MLP组成,其详细信息如图2所示。我们按照文献[23]的方法在PCN-DEC中采用多级结构来输出粗略点云(2048点)和精细点云(8192点)。我们在公式(4)中设置α=β=1,γ=10,搜索半径r为所选目标半径的0.7倍。对于关键点,我们应用SIFT-FPS[15]算法为每个目标对象选择K=8个关键点。
表1显示了对YCB视频数据集中所有21个对象的估计,一些定性结果如图3所示。表1中的结果表明,使用FFB6D作为基本估计网络,我们的方法在ADD(S)度量上比DKS好0.3%,比原始结果好0.5%。此外,对于大多数对象,我们的方法也得到了最佳结果。此外,结果表明,我们的方法在具有规则几何形状和丰富纹理的对象(例如饼干盒、布丁盒)和不同几何形状的对象(如香蕉、杯子、电钻)中具有明显的优势。然而,我们的方法在大夹钳和超大夹钳的结果上不如FFB6D,并且我们发现性能的下降来自于分割。事实上,因为这样的物体具有相同的外观,而只有大小不同,所以要想准确分割这两个对象是很有挑战性的。总而言之,我们的逐关键点细化策略使我们的方法能够获得更好的结果。
表2显示了Occlusion LineMOD数据集中8个对象的评估结果。表中显示,我们的方法获得了最佳的整体结果,比FFB6D的性能好2.4%。与表1相比,我们的方法在Occlusion LineMOD数据集上取得了较大的改善,表明我们的方法对遮挡环境更为稳健。但是,我们的方法与DeepIM方法在鸡蛋盒和胶水中有很大差距,主要是因为分割精度差。
在这一部分,我们进行了消融实验,对我们方法每个部分的优化内容进行了测试。
a)补全网络:表3展示了补全网络的消融实验的研究结果。FFB指全流双向融合块。DF表示致密熔合块。KPDEC表示仅在训练过程中使用的关键点检测块。如表3所示,上述所有模块都有利于性能。这是因为FFB块可以完全融合每个像素中对象的RGB和点云特征,而DF块可以匹配局部和全局特征的通道数。此外,通过使用关键点检测块进行训练,特征可以包含有关对象姿势的一些信息,这也有助于提高性能。
b) CIKP:表4和表5展示了CIKP方法的消融实验,初始姿态由两种不同的方法给出。KP表示逐关键点细化姿势关键点。Color意味着使用颜色信息。CN意味着使用我们的补全网络。在本消融实验中,我们还展示了使用PVN3D作为估计网络的细化结果。实验表明,通过每个关键点细化姿态可以提高细化方法的稳定性,彩色点可以提供更多信息来匹配两个点云,补全的目标点云可以充分利用点云数据。可以观察到,每个部分对最终结果的贡献相对一致,这证明了CIKP每个步骤的必要性。在表4中,我们还对我们的补全网络和PCN进行了补全。结果表明,加入PCN后,情况比之前更糟,表明我们对补全网络的改进是很有意义的。
在本文中,我们提出了一种新的姿态估计Pipeline:KRF,这种Pipeline结合了估计方法、点云补全网络和颜色迭代关键点方法等方法。实验表明,这个新的Pipeline的每一部分都是有效的,并且我们的方法在YCB-Video和Occlusion LineMOD数据集上的结果都是比较优秀的。
2. ICRA2022 | 数据集:用于移动机器人视觉异常检测
3. NeurIPS 2022 | GeoD:用几何感知鉴别器改进三维感知图像合成
4. 【文献】激光SLAM综述