论文标题:Point Pair Features Based Object Detection and Pose Estimation Revisited
下载方式:在公众号「计算机视觉工坊」,后台回复「PPF物体检测」,即可直接下载。
摘要:本文基于原始点对特征对于三维目标识别与位姿估计提出了一种改进的通道,该方法采用自相似点对表示三维目标对象,然后在简化的位姿参数空间上使用高效的霍夫投票方案将该模型与三维场景匹配,将目标检测与粗到细的分割相结合,其中每个分割都要进行不相交的姿态估计,在匹配过程中,采用加权霍夫投票和位姿参数插值恢复。最后,对所有生成的假设位姿进行排序,本文认为这种组合通道同时提高了检测率和降低了复杂性,同时提高了结果姿态的准确性,由于这种增强的位姿检索,我们的验证不需要ICP,从而达到更好的速度和准确性。
本文建模和匹配框架遵循Drost.et al[1],贡献在于一个增强的模式表示,以及引入分割进入投票和快速假设验证。
对于物体表面的两个点、,其点对特征可以定义为
其中表示两个表面点的距离,表示两个向量之间的角度
本文使用的特征大多都使用了法线,但总存在一些不太准确的估计,针对该问题,协方差矩阵的特征分解更好地解决了此问题。但由于平面斑块不能很好地表示局部结构的邻域,因此一阶方法不能准确地表示三维模型。一种更好的方法是使用二阶项,其中凹凸性也可以建模。尽管在线阶段计算二阶近似代价很高,但在离线阶段使用它们是安全的。因此,目标是找到一个二阶多项式的参数,近似邻近点的高度场,给定一个局部参考系,形式上,给定集合的点, MLS通过在局部k邻域中拟合一个m阶曲面并将这个点投影到这个曲面上进行操作,拟合本质上是多项式表面参数的一种标准加权最小二乘估计,这是由权重函数决定的,点被投影到二阶曲面上。对所有的点重复这个过程,从而得到一个具有良好定义法线的平滑点集。
给定一个半球Ω,集合在一个表面上的点与正常n可以通过计算获得可见度函数的积分,V是一个狄拉克函数,定义为1如果p在w的方向被遮挡,否则为0,这个积分通过从几个角度渲染模型和积累每个顶点的可见性来逼近。然后将余弦加权平均值报告为顶点方向的遮挡值。基于,本文建议对哈希表的条目进行权衡。因此,给定哈希表容器,我们的权重只是和的标准化几何平均值。
根据提取出来的PPF,实现了全局描述作为一个映射特性空间到空间的哈希表点对。为了做到这一点,距离和角度是和的采样步长分别为。然后将这些量化的特性用作哈希表的键。点对特性映射到相同的部分中并组合在一起放在同一bin里。为了降低计算复杂度,在下采样在这个阶段,要将所有的点整合到一起其至少为距离,本文使用泊松函数磁盘采样算法。
对于固定的场景点对,我们寻求最优模型对应计算匹配和六自由度位姿。本文采用一种类似于广义霍夫变换的投票机制,投票可以直接在6DOF位姿空间上进行,Drost等提出了一种有效的方案,利用局部坐标将投票空间缩减为2D。只要找到一个模型对,对应于一个场景对,就建立一个中间坐标系,其中和通过物体围绕法线旋转来对齐。预先计算了该模型的平面旋转角曲线,在线计算了场景点的类似曲线。通过简单的减法求出了平面绕x轴的旋转角,即:.
对于投票后的位姿进行排序,作为对不相交的部分集群进行投票的结果,每个场景参考获得一个姿势候选。这些候选位姿分别为每个片段分组。一个聚集聚类加上良好的姿态平均方案被认为是合理准确的。最初,候选姿势按票数计算被排序。最高的投票创造了第一个集群,只创建一个新的姿态集群,如果候选姿态明显偏离现有的簇。当一个姿态被添加到集群中时,集群平均值将被更新 聚类分数增加,得到新的候选位姿。所描述的聚类需要一个姿态平均步骤,访问每个候选姿势一次。为了准确起见, 使用旋转矩阵是禁止的,因为它们不能直接平均。
本文方法为每个对象生成一组假设,具有合理的位姿精度。然而,如此庞大的假设集需要一个有效的验证方案和典型的策略,如Hinterstoister et al.[2],要么将ICP放入回路,然而,对于本文方法,姿态精度不用ICP来进行精调,为了验证所收集的假设并对其进行排序,将可见空间按照如下投影误差函数分为3个类别:杂波(离群点)、遮挡物和模型上的点:
其中选择模型的投影点M对应像素p,给定一个摄像机矩阵K和假设h的姿态参数,对给定的有效点p进行分类为:
然后,给定假设的分数为:
模型点的数量的有效区域的投影,阈值和依赖于传感器,由于传感器没有获得缺失点,阈值被放宽。这个度量有利于更少的遮挡和更少的杂乱匹配,拥有更多法线一致的模型点。然而,实验中,发现使用过滤后的聚类增加了假设下降姿势的机会,而这只有在很少被验证错过的情况下才会发生。
图1投票策略的比较
图2 定性结果
a)本文数据中的检测结果,在远程Kinect扫描中存在小物体
b)对ACCV3D数据集的位姿估计结果
[1] M. Alexa, J. Behr, D. Cohen-Or, S. Fleishman, D. Levin, and C. T. Silva. Computing and rendering point set surfaces .Visualization and Computer Graphics, IEEE Transactions on,9(1):3–15, 2003.
[2] S. Hinterstoisser, V. Lepetit, S. Ilic, S. Holzer, G. Bradski,K.Konolige, and N. Navab. Model based training, detection and pose estimation of texture-less 3d objects in heavily cluttered scenes. In Computer Vision–ACCV 2012, pages 548–562. Springer, 2013.
本文仅做学术分享,如有侵权,请联系删文。