由于近年来目标检测器的进步,自上而下的流程已经取得了巨大进步,并已成为主流。然而,遮挡和快速运动是阻碍这些方法完美的两个障碍。自上而下的方法根据由姿态估计器预测的热图过滤关键点,这些估计器针对图像而非视频帧进行优化。估计器受到运动模糊的影响,因此很难产生准确的关节点。此外,相邻人员之间的遮挡可能会误导估计器做出错误的预测。
在本文中,通过一种新颖的置信度估计和时间校正策略来解决这两个问题。具体来说,实验设计了一个置信度网络来测量关键点的可见性,以及热图中的位置概率。然后,实验构建了一个姿态跟踪流程来执行多人姿态跟踪,包括三个模块:Human Association模块、ID-retrieve模块和Bbox-revision模块。下面我将详细介绍这两个部分。
目的:KCN旨在提高姿态估计中关键点的检测准确性,特别是在关节被遮挡的情况下。
KCN由关键点预测模块和关键点可用性模块组成。F1, F2, F3, F4为与交换单元多尺度融合后的高分辨率表示。同时包括用于提取特征的主干和用于姿态估计的两个并行分支:用于预测关键点位置和位置概率的关键点预测模块(KPM)和用于估计关键点可用概率的关键点可用模块(KAM)。
组成:
关键点置信度计算:
结合关键点的位置概率(ploc
)和可用性概率(ploc
),计算出关键点的置信度(pconf
):
pconfi=pavli×ploci
目的:PTP用于在视频帧之间保持人物姿态的连贯性,提高跟踪的准确性。
在跟踪阶段,我们首先使用Human Association模块来匹配人。可能发生两种情况:1)一个人在之前的画面中消失了,但在当前的画面中又出现了;2)由于遮挡或运动过快,检测器可能无法检测到人。为了解决以上两个难题,我们提出了ID-retrieve模块和Bbox-revision模块。
ID-retrieve模块使用人员重新识别技术检索丢失的id,使用Bbox-revision模块生成检测器在当前帧中遗漏的边界框。每个模块的详细信息如下所示。
在第一阶段,使用关键点置信网络检测人物并估计他们的姿势。然后,在跟踪阶段,(1)执行帧与帧之间的身份关联,(2)从前一帧生成不匹配轨迹的边界框。最后,(3)标识当前帧中在前一帧中没有匹配ID但在历史中可能匹配的人。
组成:
评估指标:
置信度阈值分析:分析了关键点置信度阈值对最终性能的影响,在置信阈值范围为0.25至0.55的情况下,实验分别比较了KCN与PoseTrack 2017和PoseTrack 2018上的基线的多人姿态跟踪性能变化.
为了进一步证明KCN的有效性,实验统计了PoseTrack 2018数据集上错误检测和缺失检测的关键点数量,与基线方法相比,KCN显示错误检测减少11.6%,缺失检测减少9.0%,总减少9.9%。这是因为基线方法只使用了位置概率,在过滤关键点时可能会出现故障。例如,模糊的关键点可能会有很高的定位概率,因为它们被错误地标记为其他人,因此它们将被错误地检测到;在帧模糊的情况下,关键点的位置概率很低,因此会被错误地过滤,从而导致漏检。
ID-retrieve模块并没有提高多人姿态估计的性能。而Bbox-revision模块则有效地提高了多人姿态估计和姿态跟踪任务的性能,并且id检索模块提高了MOTA中两个检测器的性能。同时,在mAP和MOTA上,使用HTC探测器的Bboxrevision带来的改进都明显超过使用YOLOv5探测器。原因可能是YOLOv5探测器比HTC探测器有更多的缺失检测。
将提出的方法与现有的多人姿态跟踪方法在PoseTrack验证集和测试集上进行了比较。该种方法优于其他方法,并在PoseTrack 2018验证集上取得了最佳性能,在PoseTrack 2017上,也取得了很好的姿态跟踪性能。
本文提出了一种改进的多人姿态跟踪方法,通过关键点置信度网络(KCN)和姿态跟踪流程(PTP),有效解决了遮挡和快速运动带来的挑战。KCN提升了关键点检测的准确性,而PTP通过人体关联、ID检索和边界框修正增强了跟踪连贯性。实验结果在PoseTrack数据集上显示了该方法在多人姿态估计和跟踪方面的优越性能,特别是在处理遮挡和快速运动时,消融实验进一步验证了所提方法各组件的有效性。总体而言,该方法为复杂场景下的多人姿态跟踪提供了一种有效的解决方案。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。