作者 | 叶茫 武汉大学
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
摘要:行人重识别(Person Re-Identification,简称Re-ID),是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术,在智慧城市等监控场景中具有重要的应用意义和前景。本文介绍我们最新的IEEE TPAMI综述论文 《Deep Learning for Person Re-identification: A Survey and Outlook》,该文作者来自武汉大学、起源人工智能研究院(IIAI)、北理工、英国萨里大学、Salesforce亚洲研究院。
首先非常感谢领域内的前辈和各位大佬,为该综述提供了非常充实的素材和基础。
这里先总结该综述的几个主要贡献点:
01
根据个人理解,本文总结 Re-ID 技术的五大步骤:
如下图所示:
图 1. 构建行人重识别系统的五个主要步骤。包括:1)数据采集,2)行人框生成,3)训练数据标注;4)重识别模型训练,5)行人检索
全文的综述和展望都是围绕这五个步骤来展开和讨论的。针对以上五个步骤的一些约束条件,本文将ReID技术分为 Closed-world 和 Open-world 两大子集。Closed-world 概括为大家常见的标注完整的有监督的行人重识别方法,Open-world 概括为多模态数据,端到端的行人检索,无监督或半监督学习,噪声标注和一些 Open-set 的其他场景。
02
Closed-world Re-ID
这一章节主要介绍大家常用的封闭世界(Closed-world)Re-ID 设置,一般包含以下假设:
根据方法设计流程,将其分为特征学习,度量学习和排序优化三个部分。研究人员的方法通常针对这三方面进行改进,侧重点不同。有的是提出了新颖的特征学习方法,有的提出有效的度量损失函数,也有的是在测试检索阶段进行优化。在本章节末尾,还概括了现有的常用数据集和评价指标,以及现有 SOTA 的优缺点分析。
2.1 特征学习方法
图 2. 四种主要的Re-ID特征学习方法
2.2 度量学习方法
图 3. 三种常见的Re-ID度量学习(损失函数)方式
早期的度量学习主要是设计不同类型的距离/相似度度量矩阵。深度学习时代,主要包括不同类型的损失函数的设计及采样策略的改进:
2.3 排序优化
用学习好的 Re-ID 特征得到初始的检索排序结果后,利用图片之间的相似性关系来进行初始的检索结果优化,主要包括重排序(re-ranking)和排序融合(rank fusion)等。
图 4. 重排序示例
2.4 数据集和评价
主要包括现有的一些常用图像和视频数据集的概括,以及现有方法 SOTA 的一些总结和分析,希望综述里面的一些分析能够在大家进行模型设计时提供一些思路和帮助。具体分析详见原文。
03
Open-World Re-ID
由于常规的 Closed-world Re-ID 在有监督的实验场景中已经达到或接近瓶颈了,现在很多的研究都更偏向于 Open-World Re-ID 场景,也是当前Re-ID研究的热点。
根据 Re-ID 系统设计的五个步骤,本章节也从以下五个方面介绍:
3.1 多模态(异构)数据
总体而言,异构的行人重识别问题需要解决的一大难题是不同模态数据之间的差异性问题
3.2 端到端Re-ID(End-to-end Person Search)
3.3 半监督和无监督的 Re-ID
为了缓解对标注数据的依赖,半监督和无监督/自监督现在成为了当前研究的热点,在 CV 顶会上呈爆炸之势。本文也主要分成两个部分:无监督 Re-ID(不需要标注的源域)和无监督域自适应 Re-ID(需要标注的源域数据或模型):
无监督 Re-ID:主要包括一些跨摄像头标签估计(聚类或图匹配等)的方法,以及一些其他监督信息挖掘的方法(如local patch相似性等);
无监督域自适应 Re-ID:包括一些目标域图像数据生成和一些目标域监督信息挖掘等方式。
考虑到无监督学习也是现在研究的热点,本文也对现有的 SOTA 做了一个简单的总结和分析,可以看到现在的无监督学习方法已经是效果惊人了,未来可期。
如下表所示:
表 1. 现有无监督学习方法在常见数据集上的效果
3.4 噪声鲁棒的Re-ID
主要针对标注数据或者数据采集中产生的一些噪声或错误等,方法包括:
3.5 Open-set Re-ID and Beyond
主要针对一些其他开放场景进行一些探讨,如1)gallery set 中 query 行人没有出现的场景;2)Group Re-ID:行人群体匹配的问题;3)动态的多摄像头网络匹配等问题
04
4.1 新的评价指标mINP:
考虑到实际场景中,目标人物具有隐匿性,很多时候要找到其困难目标都非常难,给侦查工作带来麻烦。mINP 主要目的是为了衡量 Re-ID 算法用来找到最难匹配样本所要付出的代价,
其计算方式跟 mAP 一样非常简单,应该还是对评价 Re-ID 效果有一定补充作用。简单来讲,排名倒数第一的正确样本位置越靠后,人工排查干预的代价越大,mINP的值越小。这里感谢 Fast-ReID(github.com/JDAI-CV/fast )项目对我们评价指标和方法的集成。
4.2 新的基准方法AGW
主要是在@罗浩 的Bag of tricks(感谢)上做的一些改进,主要包括:
图 5. AGW 方法的示意图
在审稿人的建议下,我们在四种不同类型的任务(图像Re-ID, 视频Re-ID,跨模态红外Re-ID和Partial Re-ID)的12个数据集上均对我们提出的新指标mINP和AGW方法进行了测评,在大多数情况下,我们的方法都能够取得比较好的效果。具体的实验结果和分析可以参考我们的论文和补充材料,希望我们的方法和评价指标能对大家有一些帮助。
4.3 对未来一些研究方向的思考
这一部分也是紧扣前面提出的五个步骤,针对五个步骤未来亟待解决的关键问题或者热点问题进行归纳。由于每个人理解上的认知偏差,这里的建议仅供大家参考:
后记:很多内容在这里都没办详细描述,具体的细节还请大家移步原文、补充材料以及源代码。因能力有限,部分描述不一定完全客观正确,希望大家能够理解。希望我们的综述能够给领域内的同行提供一些帮助和借鉴。再次感谢各位同行和前辈!欢迎各位批评指正!
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。