人生活在三维空间中。但已有的行人重识别(person re-ID)工作往往只关注 2D 空间中的图像匹配,忽略了3D的人体先验信息。在本篇文章中,我们做了一个微小的尝试,即在三维空间中通过生成的点云数据 来执行人体的匹配。
文章链接:https://arxiv.org/abs/2006.04569
代码链接:https://github.com/layumi/person-reid-3d
What (我们想去学到什么):
2.具体来说,我们需要利用三维空间的人体结构化信息,和2D 的外观RGB信息,结合来学习 行人的匹配。我们希望这样学到的模型更鲁棒,能适应更多情况。因为它是“以人为本”的。
How (怎么学):
2. 将原始图像数据集完全转换成 点云数据后,我们进一步需要设计网络去学习这样的信息。每个点云数据除了 rgb信息外,还有坐标xyz信息。所以如果每个人都检测到m个点,事实上,我们的输入为 m x 6 这样一个矩阵。
3. 我们设计了一个图卷积神经网络 OG-Net 来学习这样的数据,参考了 PointNet++ 和 DGCNN中的模块。类似传统CNN,我们逐步收缩点的数量,集中语义信息。最后和传统CNN一样,我们映射到一个512维的特征,做行人的身份loss L_{id}.
4. 每一个 Omni-scale Module ,如果不需要将采样点云,则如下左图,就是一个基本的GCN,传播一下最近邻的信息。而对于需要降采样的情况,则如下右图,我们包含了更多跨点的信息传播的function。
Discussion :
实验:
2. 与其他2D CNN baseline相比。有一点需要说明,因为我们的网络没有在ImagNet上pretrain,所以我们比较的方法也是train from scratch来比较。我们可以看到,OGNet 只使用了 ResNet-50 差不多十分之一的参数量,但是达到了更好的效果。同时 OG-Net-Small 使用了1.2M的参数量,也比很多轻量级的网络好。
3.OGNet 使用了3D人体结构化信息,所以泛化能力也相对强。我们的模型直接迁移到其他数据集上也获得了比较好的结果。
4, 可视化结果。可以看到,对于正常的检索样本 和 部分遮挡的检索行人,OGNet 都可以得到比较好的检索结果。
5. 进一步,我们对网络中的模块做了分析。我们分析了如short-cut等 可选的功能,Graph中不同的邻居数量等。
6. 同时我们也分析了网络的敏感性。在实际场景中,扫描到的点云的密度可能有变化,不过OG-Net对此还是相对鲁棒的。
7. 最后,虽然我们不研究点云分类。我们也尝试了点云分类数据集 ModelNet40,实际运行中将RGB信息也替换成XYZ坐标。也可以得到相对不错的结果,同时参数量更少。
在6月的排行榜上就达到较高水平。(https://paperswithcode.com/sota/3d-point-cloud-classification-on-modelnet40 )
代码链接:https://github.com/layumi/person-reid-3d
最后感谢大家看完~欢迎关注分享点赞~
也可以check我的一些其他文章 和关注我们实验室的知乎主页 悉尼科技大学ReLER实验室
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。