本文选自BMVC2018的论文《Deep Association Learning for Unsupervised Video Person Re-identification》,使用无监督学习解决行人重识别的问题,更加贴近行人重识别的应用场景,同时性能也大幅提升。
作者信息:
深度学习方法已开始主导基于视频的行人重识别(re-id)研究。但是现有方法主要考虑监督学习,需要手工标注大量的不同画面的成对数据。因此,它们在现实世界的视频监控应用中缺乏可扩展性和实用性。
(上图来自本文第二作者所在公司Vision Semantics Ltd官网)
为了解决视频行人重识别任务,本文作者发明了一种新的深度关联学习(Deep Association Learning,DAL)方法,这是第一种在模型初始化和训练中不使用任何身份标签的端到端深度学习方法。 DAL通过以端到端方式联合优化两个基于间隔的关联损失来学习深度重新匹配模型,这有效地限制了每个帧与最佳匹配的同一摄像机表示和跨摄像机表示的关联。 实验结果表明,DAL算法在三个基准测试(PRID 2011,iLIDS-VID和MARS)中显著优于当前最先进的无监督视频行人重识别方法。
作者认为,在视频序列中,含有同一个人的并有视点、遮挡、姿态等变化的一小段视频帧(作者称之为tracklets)本身就是可以利用的信息源,在不加入其他人工标注的情况下,可以用来训练用于行人重识别的神经网络。 如下图:
三个行人重识别数据库(PRID 2011,iLIDS-VID和MARS)上的tracklets示例:
在上述数据上利用视频中两种数据一致性(Local Space-Time Consistency 与 Global Cyclic Ranking Consistency)进行关联学习。
深度关联学习(Deep Association Learning)示意图:
包括同摄像头内部关联学习与跨摄像头的关联学习。
在三个行人重识别数据库中相比其他无监督学习方法,性能取得了大幅提升。
代码地址: https://github.com/yanbeic/Deep-Association-Learning
代码是MIT协议。