前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >基于置信度的自上而下的多人姿态估计与跟踪方法

基于置信度的自上而下的多人姿态估计与跟踪方法

原创
作者头像
是Dream呀
发布2025-03-11 09:24:10
发布2025-03-11 09:24:10
250
举报
文章被收录于专栏:总结xyp总结xyp

一、背景介绍

由于近年来目标检测器的进步,自上而下的流程已经取得了巨大进步,并已成为主流。然而,遮挡和快速运动是阻碍这些方法完美的两个障碍。自上而下的方法根据由姿态估计器预测的热图过滤关键点,这些估计器针对图像而非视频帧进行优化。估计器受到运动模糊的影响,因此很难产生准确的关节点。此外,相邻人员之间的遮挡可能会误导估计器做出错误的预测。

image.png
image.png

二、算法介绍

在本文中,通过一种新颖的置信度估计和时间校正策略来解决这两个问题。具体来说,实验设计了一个置信度网络来测量关键点的可见性,以及热图中的位置概率。然后,实验构建了一个姿态跟踪流程来执行多人姿态跟踪,包括三个模块:Human Association模块、ID-retrieve模块和Bbox-revision模块。下面我将详细介绍这两个部分。

1.关键点置信度网络(KCN)

目的:KCN旨在提高姿态估计中关键点的检测准确性,特别是在关节被遮挡的情况下。

KCN由关键点预测模块和关键点可用性模块组成。F1, F2, F3, F4为与交换单元多尺度融合后的高分辨率表示。同时包括用于提取特征的主干和用于姿态估计的两个并行分支:用于预测关键点位置和位置概率的关键点预测模块(KPM)和用于估计关键点可用概率的关键点可用模块(KAM)。

image.png
image.png

组成

  • 特征提取器(Backbone Network):使用HRNet作为特征提取的基础,用于提取输入帧的特征。
  • 关键点预测模块(Keypoint Prediction Module, KPM):通过反卷积层生成关键点的热图,预测关键点的位置以及位置概率。关键点预测模块由三个3×3反卷积层组成,生成K张热图,其中K为每个人的关键点数量。
  • 关键点可用性模块(Keypoint Availability Module, KAM):评估每个关键点的可用性概率,即关键点是否被遮挡。关键点可用性模块由瓶颈层57和K个分类器头组成,以获得关键点可用性概率pavl。瓶颈层由大小分别为1 × 1、3 × 3和1 × 1的三个卷积层组成

关键点置信度计算

结合关键点的位置概率(ploc)和可用性概率(ploc),计算出关键点的置信度(pconf):

pconfi=pavli×ploci

2.姿态跟踪流程(PTP)

目的:PTP用于在视频帧之间保持人物姿态的连贯性,提高跟踪的准确性。

在跟踪阶段,我们首先使用Human Association模块来匹配人。可能发生两种情况:1)一个人在之前的画面中消失了,但在当前的画面中又出现了;2)由于遮挡或运动过快,检测器可能无法检测到人。为了解决以上两个难题,我们提出了ID-retrieve模块Bbox-revision模块

ID-retrieve模块使用人员重新识别技术检索丢失的id,使用Bbox-revision模块生成检测器在当前帧中遗漏的边界框。每个模块的详细信息如下所示。

image.png
image.png

在第一阶段,使用关键点置信网络检测人物并估计他们的姿势。然后,在跟踪阶段,(1)执行帧与帧之间的身份关联,(2)从前一帧生成不匹配轨迹的边界框。最后,(3)标识当前帧中在前一帧中没有匹配ID但在历史中可能匹配的人。

组成

  • 人体关联模块(Human Association Module):使用匈牙利算法解决加权二分图匹配问题,为每个人分配一个唯一的标识符,以关联前后帧中的人物。
  • 边界框修正模块(Bbox-revision Module):用于修正当前帧中由于遮挡或快速运动而漏检的人物。通过光流估计上一帧中人物的位置,并使用关键点置信度进行过滤。
  • ID检索模块(ID-retrieve Module):当人物在当前帧中没有匹配到ID,但可能在历史帧中有匹配时,该模块会通过特征匹配技术检索丢失的ID。

3.算法流程

  1. 检测与特征提取:使用HTC检测器检测帧中的所有人,并提取特征。
  2. 关键点置信度估计:通过KCN预测每个人物的关键点位置和置信度。
  3. 姿态跟踪
    • 使用人体关联模块在前后帧之间关联人物。
    • 使用边界框修正模块修正漏检的人物。
    • 使用ID检索模块检索丢失的人物ID。
  4. 性能评估:使用mAP(mean Average Precision)和MOTA(Multiple Object Tracking Accuracy)等指标评估姿态估计和跟踪的性能。三、实验验证1.实验评估评估所提出的方法在PoseTrack上,这是一个用于视频中多人姿态估计和姿态跟踪的大规模基准。PoseTrack有2017年和2018年的版本,每个数据集都有一个公开的训练集和验证集,以及一个用于在保留的测试集上进行基准测试的评估服务器。

评估指标

  • mAP(mean Average Precision):用于评估多人姿态估计的准确性。
  • MOTA(Multiple Object Tracking Accuracy):用于评估跟踪器在保持轨迹方面的性能,包括假阳性、漏检和身份交换的性能。

2.具体操作

  1. 人体检测:使用HTC检测器检测帧中的所有人,并提取裁剪区域作为KCN的输入。
  2. 预训练模型:使用在COCO数据集上预训练的模型进行人体检测,没有在PoseTrack数据集上进行额外的微调。
  3. 非极大值抑制(NMS):在人体检测中,将IoU(交并比)替换为OKS(Object Keypoint Similarity)度量,并设置阈值为0.6。

3.训练过程

  1. KCN训练
    • 首先训练关键点预测模块(KPM)。
    • 然后附加关键点置信度模块(KAM)并一起微调。
    • 使用COCO数据集的训练集和验证集以及PoseTrack数据集的训练集进行模型训练。
    • 对于关键点置信度模块的训练,进行了20个epoch的微调。
  2. ID检索模块训练
    • 构建了一个基于PoseTrack 2018的数据集,包含119656张图像和4613个人标签。
    • 使用欧几里得距离度量两个特征之间的相似性,当相似性小于阈值(例如100)时,认为是同一个人。

4.消融实验

置信度阈值分析:分析了关键点置信度阈值对最终性能的影响,在置信阈值范围为0.25至0.55的情况下,实验分别比较了KCN与PoseTrack 2017和PoseTrack 2018上的基线的多人姿态跟踪性能变化.

为了进一步证明KCN的有效性,实验统计了PoseTrack 2018数据集上错误检测和缺失检测的关键点数量,与基线方法相比,KCN显示错误检测减少11.6%,缺失检测减少9.0%,总减少9.9%。这是因为基线方法只使用了位置概率,在过滤关键点时可能会出现故障。例如,模糊的关键点可能会有很高的定位概率,因为它们被错误地标记为其他人,因此它们将被错误地检测到;在帧模糊的情况下,关键点的位置概率很低,因此会被错误地过滤,从而导致漏检。

ID-retrieve模块并没有提高多人姿态估计的性能。而Bbox-revision模块则有效地提高了多人姿态估计和姿态跟踪任务的性能,并且id检索模块提高了MOTA中两个检测器的性能。同时,在mAP和MOTA上,使用HTC探测器的Bboxrevision带来的改进都明显超过使用YOLOv5探测器。原因可能是YOLOv5探测器比HTC探测器有更多的缺失检测。

四、实验结果与总结

将提出的方法与现有的多人姿态跟踪方法在PoseTrack验证集和测试集上进行了比较。该种方法优于其他方法,并在PoseTrack 2018验证集上取得了最佳性能,在PoseTrack 2017上,也取得了很好的姿态跟踪性能。

image.png
image.png

总结

本文提出了一种改进的多人姿态跟踪方法,通过关键点置信度网络(KCN)和姿态跟踪流程(PTP),有效解决了遮挡和快速运动带来的挑战。KCN提升了关键点检测的准确性,而PTP通过人体关联、ID检索和边界框修正增强了跟踪连贯性。实验结果在PoseTrack数据集上显示了该方法在多人姿态估计和跟踪方面的优越性能,特别是在处理遮挡和快速运动时,消融实验进一步验证了所提方法各组件的有效性。总体而言,该方法为复杂场景下的多人姿态跟踪提供了一种有效的解决方案。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景介绍
  • 二、算法介绍
    • 1.关键点置信度网络(KCN)
    • 2.姿态跟踪流程(PTP)
    • 3.算法流程
    • 2.具体操作
    • 3.训练过程
    • 4.消融实验
  • 四、实验结果与总结
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档