姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人体的姿势或动作。
姿态估计因其在各个领域的广泛应用而引起了研究人员的兴趣。
如:
此外,由于人和四足动物在身体结构上的相似性,不难引发研究人员对基于人体姿态估计的预训练模型可能会对大规模动物姿态数据集的训练效果起到促进作用的猜想。
而准确的动物姿态估计对于理解动物行为至关重要,尤其对于野生动物保护。因此,一些人体姿态估计模型已经拓展至兼容动物姿态估计功能,为科学家提供了更多工具和技术支持,有助于监测、研究和保护野生动物的生态环境。
本文分享了一些姿态估计的开源模型和数据集,涵盖了人体姿态和动物姿态。希望这些资源能够帮助研究人员促进这两者技术的共同发展,实现全面开花。
OpenPose 是首个实时多人人体姿态估计系统,主要针对实时场景下多人的手部、面部、足部等人体关键点(总共135个关键点),进行检测。
MMPose 是一款基于 PyTorch 的姿态分析的开源工具箱,支持 21 种算法、34 种数据集、14 种主流骨干。在最新更新的版本中,新增支持数据集ExLPose
和H3WB
,以及发布了单阶段实时多人姿态估计模型RTMO
。相比RTMPose
在多人场景下性能更优。
DeepPose 是开创性的基于深度学习的姿势估计方法之一,引入使用卷积神经网络(CNN)直接从输入图像中回归人类的关节位置,可实现实时且高准确度的人体姿态估计。
AlphaPose,一个能够在实时运行中进行准确的全身姿势估计和跟踪的系统。无论是检测购物街中的多个人、快闪族还是街头表演者,都可以借助此模型实现。
AlphaPose 还是首个在 COCO 数据集上实现了 70+ mAP(75 mAP)和 MPII 数据集上实现了 80+ mAP(82.1 mAP)的开源系统。
当提到 YOLO 模型时,最先想到的是进行目标检测,而 YOLOv8 最新更新版本,加入了姿态估计功能,总计发布了 YOLOv8n-pose、YOLOv8s-pose...YOLOv8x-pose-p6 等 6 个模型,在 A100 上的推断速度从 1.18ms 到 10.04ms,模型参数 3.3M 到 99.1M。
Human-Art,首个大规模全场景人体数据集,是由 IDEA 研究院收集了来自 5 个现实场景和 15 个虚拟场景的 5 万张高质量图像组成。
支持多项以人为主的下游视觉任务:人体检测、2D人体姿态估计、3D人体姿态估计、图片生成。
论文收录于 CVPR 2023。
UBody 是从 ConductMusic、Conference、Entertainment、Fitness、Interview、LiveVlog、MagicShow、Movie、Olympic、OnlineClass、SignLanguage、Singing、Speech、TVShow、Talk Show 十五个真实生活场景中收集的超 1051k 帧视频组成,是一个大规模的上半身数据集,包含以下标注:
数据下载需填写相关信息申请,论文收录于CVPR 2023。
MacaquePose 是一个动物姿态数据集,由 13083 张猕猴图像组成,这些图像收集自互联网、动物园以及京都大学灵长类动物研究所。
每张图像中的每只猴子的身体部位(关键点)均进行了人工标注,包括鼻子、左右耳、眼睛、肩膀、肘部、手腕、髋部、膝盖和脚踝,共计17个关键点。
AP-10K 是首个大规模的哺乳动物姿态数据集,包含 10015 张标记有姿态信息的哺乳动物图片,并进行了高质量的关键点标注。此外,从生物学角度来看,这些图片被归类为23个科、54个物种。
17个关键点的定义
动物种类分布
Human3.6M 数据集是一个 3D 人体姿态识别的数据集,通过 4 个经过校准的摄像机拍摄获得,对于 3D 人体的 24 个部位位置和关节角度都有标注。数据集总共包含了 360 万个 3D 人体姿势图像,参与拍摄的有 11 位专业演员(男性 6 名,女性 5 名),并覆盖了 17 种不同的场景,例如讨论、吸烟、拍照、通电话等。
无论是人体姿态估计还是动物姿态估计的研究,都需要大量的算力资源的支持。