Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在3D空间,用点云数据学行人重识别特征

在3D空间,用点云数据学行人重识别特征

原创
作者头像
郑哲东
修改于 2021-03-09 06:25:44
修改于 2021-03-09 06:25:44
2.2K0
举报
文章被收录于专栏:行人重识别行人重识别

人生活在三维空间中。但已有的行人重识别(person re-ID)工作往往只关注 2D 空间中的图像匹配,忽略了3D的人体先验信息。在本篇文章中,我们做了一个微小的尝试,即在三维空间中通过生成的点云数据 来执行人体的匹配。

文章链接:https://arxiv.org/abs/2006.04569

代码链接:https://github.com/layumi/person-reid-3d


What (我们想去学到什么):

  1. 如下图,当我们人看到一张2D 行人图像的时候,实际上会自然的与3D人体做一个结合,我们在这个工作中希望能使用了这种结构化的信息。弥补现有基于2D图像工作的信息缺失。

2.具体来说,我们需要利用三维空间的人体结构化信息,和2D 的外观RGB信息,结合来学习 行人的匹配。我们希望这样学到的模型更鲁棒,能适应更多情况。因为它是“以人为本”的。

How (怎么学):

  1. 首先,我们没有3D点云数据。故本文采用2D图像建模, 将2D图像映射到3维模型上。具体来说,我们先估计了三维的pose,然后与2D RGB信息做匹配。如下图,我们也可以旋转模型,透明的地方就是背后没有RGB颜色的区域。

2. 将原始图像数据集完全转换成 点云数据后,我们进一步需要设计网络去学习这样的信息。每个点云数据除了 rgb信息外,还有坐标xyz信息。所以如果每个人都检测到m个点,事实上,我们的输入为 m x 6 这样一个矩阵。

3. 我们设计了一个图卷积神经网络 OG-Net 来学习这样的数据,参考了 PointNet++ 和 DGCNN中的模块。类似传统CNN,我们逐步收缩点的数量,集中语义信息。最后和传统CNN一样,我们映射到一个512维的特征,做行人的身份loss L_{id}.

4. 每一个 Omni-scale Module ,如果不需要将采样点云,则如下左图,就是一个基本的GCN,传播一下最近邻的信息。而对于需要降采样的情况,则如下右图,我们包含了更多跨点的信息传播的function。

Discussion :

  1. 与传统方法的一些差异,简要来说:(1)我们抽取了多尺度的信息,同时采用了residual的形式,结合了不同层的点云特征。(2)我们对RGB 和 XYZ坐标信息,分别处理。XYZ信息主要用来建Graph,而RGB信息则主要是用来运算特征;(注:在最后一个block,红色标注处,我们尝试结合RGB特征和XYZ来获得一个non-local效果的Graph。) (3)由于点云的数量多,相比DGCNN,我们的模型更高效;而相比PointNet和 PointNet++, OGNet 包含更多的跨点的信息传播,丰富了最后特征的表达能力。
  2. 一些数据上的限制。(1)不得不说,做实验的时候,我们也遇到了数据上的限制,很多数据集比如Market-1501,已经把图像都resize好了 到 128x64,会丢失行人的身高 胖瘦等信息,所以导致我们的模型不能用上更多行人身高的信息(这也是现有工作都缺失的)。(2)同时,我们也发现使用的3D模型,不能刻画 比如 头发,裙摆,背包等信息,也导致了一些信息的流失。所以在实际的实验中,我们还是引入了背景。

实验:

  1. 与2D数据对比,就是抹去z的深度信息。我们发现结果下降。说明3D的点云,确实在信息匹配上有优势,学到了更好的信息。

2. 与其他2D CNN baseline相比。有一点需要说明,因为我们的网络没有在ImagNet上pretrain,所以我们比较的方法也是train from scratch来比较。我们可以看到,OGNet 只使用了 ResNet-50 差不多十分之一的参数量,但是达到了更好的效果。同时 OG-Net-Small 使用了1.2M的参数量,也比很多轻量级的网络好。

3.OGNet 使用了3D人体结构化信息,所以泛化能力也相对强。我们的模型直接迁移到其他数据集上也获得了比较好的结果。

4, 可视化结果。可以看到,对于正常的检索样本 和 部分遮挡的检索行人,OGNet 都可以得到比较好的检索结果。

5. 进一步,我们对网络中的模块做了分析。我们分析了如short-cut等 可选的功能,Graph中不同的邻居数量等。

6. 同时我们也分析了网络的敏感性。在实际场景中,扫描到的点云的密度可能有变化,不过OG-Net对此还是相对鲁棒的。

7. 最后,虽然我们不研究点云分类。我们也尝试了点云分类数据集 ModelNet40,实际运行中将RGB信息也替换成XYZ坐标。也可以得到相对不错的结果,同时参数量更少。

在6月的排行榜上就达到较高水平。(https://paperswithcode.com/sota/3d-point-cloud-classification-on-modelnet40 )

代码链接:https://github.com/layumi/person-reid-3d

最后感谢大家看完~欢迎关注分享点赞~

也可以check我的一些其他文章 和关注我们实验室的知乎主页 悉尼科技大学ReLER实验室

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
点云深度学习的3D场景理解(上)
本文主要是关于 pointNet,pointNet++,frustum point 的一些整理和总结,内容包括如何将点云进行深度学习,如何设计新型的网络架构,如何将架构应用的3D场景理解。文章由于篇幅过长,将分成上下两部分。
点云PCL博主
2019/07/30
2.6K0
点云深度学习的3D场景理解(上)
点云深度学习的3D场景理解(下)
本文主要是关于 pointNet,pointNet++,frustum point 的一些整理和总结,内容包括如何将点云进行深度学习,如何设计新型的网络架构,如何将架构应用的3D场景理解。文章由于篇幅过长,将分成上下两部分。上文请看点云深度学习的3D场景理解(上)
点云PCL博主
2019/07/30
2.1K0
点云深度学习的3D场景理解(下)
3D点云分割、目标检测、分类
3D点云学习( Point Clouds)作为近年来的研究热点之一,受到了广泛关注,每年在各大会议上都有大量的相关文章发表。当前,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。国防科技大学郭裕兰老师课题组新出的这篇论文对近几年点云深度学习方法进行了全面综述,是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等,并对点云深度学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。也提供了现有方法在几个可公开获得的数据集上的全面比较,最后也介绍了未来的研究方向。
3D视觉工坊
2023/04/29
1.3K0
3D点云分割、目标检测、分类
3D点云 | 基于深度学习处理点云数据入门经典:PointNet、PointNet++
不同于图像数据在计算机中的表示通常编码了像素点之间的空间关系,点云数据由无序的数据点构成一个集合来表示。因此,在使用图像识别任务的深度学习模型处理点云数据之前,需要对点云数据进行一些处理。目前采用的方式主要有两种:
AI算法修炼营
2020/06/09
10.2K0
基于RGB图像的单目三维目标检测网络:AM3D(ICCV)
本文介绍一篇基于RGB图像的单目三维目标检测的文章AM3D,该文发布于ICCV 2019《Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving》。输入单幅RGB图像,输出三维Bounding Box信息。
计算机视觉
2021/03/17
2.1K0
基于RGB图像的单目三维目标检测网络:AM3D(ICCV)
PointNet++论文复现
3D点云是由大量空间中的点组成的数据集,这些点在三维坐标系统中具有X、Y和Z三个坐标值,用以表示物体或环境的形状和结构。每个点通常还包含额外的信息,如颜色、强度、法线等,这些信息可以帮助更准确地描述点云所代表的对象。3D点云数据可以通过各种技术获取,如激光扫描(LIDAR)、结构光扫描、立体摄像头以及其他3D感测设备。
Srlua
2024/11/28
2480
PointNet++论文复现
用于 3D 点云形状分析的多视图Vision-to-Geometry知识迁移
论文标题:Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud Shape Analysis
3D视觉工坊
2023/04/29
5790
用于 3D 点云形状分析的多视图Vision-to-Geometry知识迁移
3D 深度学习中基于体素和基于点云的方法哪种更优?
欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。
点云PCL博主
2024/11/25
8770
3D 深度学习中基于体素和基于点云的方法哪种更优?
SFFAI分享 | Geometric Relation Learning in 3D Point Cloud Analysis
近年来,卷积神经网络(CNN)在图像这类规则数据的处理中获得了举世瞩目的成功,然而如何拓展CNN以分析点云这种不规则数据,仍然是一个开放的研究问题。对于点云而言,每一个点并非孤立存在,相邻的点形成一个有意义的形状,因此对点间关系进行深度学习建模非常重要。在SFFAI25分享会中:
马上科普尚尚
2020/05/11
5520
SFFAI分享 | Geometric Relation Learning in 3D Point Cloud Analysis
CVPR 2019 Oral | Relation-Shape CNN:以几何关系卷积推理点云3D形状
论文作者:Yongcheng Liu、Bin Fan、Shiming Xiang、Chunhong Pan
机器之心
2019/05/13
1.1K0
CVPR 2019 Oral | Relation-Shape CNN:以几何关系卷积推理点云3D形状
3D点云识别安全吗? 密歇根大学等提出稳健性分析数据集应对严重失真
机器之心专栏机器之心编辑部 来自密歇根大学等机构的研究者提出了一个新颖且全面的数据集 ModelNet40-C ,以系统地测试以及进一步提高点云识别模型对于失真的稳健性。 3D 点云广泛应用于 3D 识别技术中。一些特别的应用领域往往对 3D 点云识别的安全性有更高的要求,如自动驾驶、医疗图像处理等。学界目前对点云安全性的研究集中在对抗攻击的稳健性。与对抗性攻击相比, 自然的失真和扰动在现实世界中更为常见。然而目前还没有关于 3D 点云针对失真的稳健性的系统性研究。 论文地址: https://arxiv
机器之心
2022/03/04
3050
CVPR 2021 | 华南理工等推出基于3D点云数据的功能可供性数据集
机器之心专栏 作者:徐迅 为了促进视觉功能可供性在真实场景中的研究,在这篇CVPR 2021论文中,来自华南理工大学等机构的研究者提出了基于 3D 点云数据的功能可供性数据集 3D AffordanceNet。基于此数据集,研究者提供了三个基准任务,用于评估视觉功能可供性理解。 简介 功能可供性 (Affordance) 理解关心的是人类和环境之间的交互。例如,一个人可以坐在椅子上,抓取一个杯子或者提起一个背包。能够从视觉信息中理解物体的功能可供性对机器人在动态且复杂的环境中执行操作是至关重要的。物体功能可
机器之心
2023/03/29
5320
CVPR 2021 | 华南理工等推出基于3D点云数据的功能可供性数据集
CVPR 2020 | RandLA-Net:大场景三维点云语义分割新框架(已开源)
本文要介绍的是 CVPR 2020上被录用的文章《RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds》
AI科技评论
2020/03/05
4.7K0
CVPR 2020 | RandLA-Net:大场景三维点云语义分割新框架(已开源)
飞桨火力全开,重磅上线3D模型:PointNet++、PointRCNN!
11年过去了,出走半生,我们依旧少年,「阿凡达2」依旧没有如约上映,但3D应用却在此期间得到了蓬勃的发展。这一方面得益于3D传感器技术的飞速发展,用户可以更加便捷地获取到三维图像数据;另一方面随着机器人、无人驾驶、AR&VR等业务的日趋成熟,需要快速处理和理解海量的3D数据,以便精确感知周边物体的空间信息,3D数据的深度学习需求应运而生。随着2020年中国新基建政策的发布,相信未来3D视觉技术将会有更广阔的应用空间。
用户1386409
2020/03/30
1.1K0
STRL:3D 点云的时空自监督表示学习
点云是视觉分析和场景理解的典型3D表示。但各种3D场景理解任务仍然缺乏实用和可推广的预训练模型,同时尽管3D点云数据在3D表示中无所不在,但与2D图像数据相比,对3D点云进行标注要困难得多。因此,动机是:正确利用大量未标记的3D点云数据是大规模3D视觉分析和场景理解成功的必要条件。
3D视觉工坊
2023/04/29
8830
STRL:3D 点云的时空自监督表示学习
三维深度学习中的目标分类与语义分割
在过去的几年中,基于RGB的深度学习已经在目标分类与语义分割方面取得了非常好的效果,也促进了很多技术的发展,深度学习在现实生活中的应用也越来越多。但是在很多实际应用中,例如自动驾驶中,只使用RGB信息是远远不够的,因为我们不仅仅想要知道周围有什么物体,还想要知道物体具体的三维信息(位置,运动状态等),因此,三维方面的深度学习也逐渐发展了起来并取得了不错的效果。
SIGAI学习与实践平台
2018/10/18
1.2K0
三维深度学习中的目标分类与语义分割
三万字收藏 | 三维场景点云理解与重建技术
作者:龚靖渝, 楼雨京, 柳奉奇, 张志伟, 陈豪明, 张志忠, 谭鑫, 谢源, 马利庄
一点人工一点智能
2023/08/24
1.8K0
三万字收藏 | 三维场景点云理解与重建技术
内存计算显著降低,平均7倍实测加速,MIT提出高效、硬件友好的三维深度学习方法
随着传感器技术的发展和大量新兴应用场景(AR/VR/自动驾驶)的出现,三维深度学习成为了近期的研究热点。三维数据往往以点云的方式存储,近年来,研究人员抑或是选择先将点云离散化成结构化的、规整的栅格形式(voxels,可以类比 2D 的像素 pixels),再利用体素卷积神经网络(volumetric CNNs,可以看作 2D CNN 的三维推广)对栅格数据进行处理;抑或是选择直接在点云数据上进行卷积计算。
机器之心
2019/12/12
9070
内存计算显著降低,平均7倍实测加速,MIT提出高效、硬件友好的三维深度学习方法
清华团队将Transformer用到3D点云分割
一个是当下最热门的模型(NLP、图像领域表现都不错),另一个是自动驾驶领域、机器人抓取等领域的关键技术。
小白学视觉
2021/10/28
1.3K0
清华团队将Transformer用到3D点云分割
3D视觉技术的6个问答
自从加入学习圈「3D视觉技术」以来,与小伙伴们一起讨论交流了近200多个学术问题,每每遇到一些令我难以回答的问题,我都会为自己学识有限而深感焦虑。好在圈里有很多热心的小伙伴总能在我「危难」之时,替我补充回答,并且每每补充回答总是让我惊叹不已。在此深表感谢。
3D视觉工坊
2020/12/11
5970
3D视觉技术的6个问答
推荐阅读
相关推荐
点云深度学习的3D场景理解(上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档