前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >姿态估计开源模型、数据集分享

姿态估计开源模型、数据集分享

作者头像
CV君
发布2024-06-28 16:45:12
1040
发布2024-06-28 16:45:12
举报

姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人体的姿势或动作。

姿态估计因其在各个领域的广泛应用而引起了研究人员的兴趣。

如:

  • 体育训练分析:可以利用精确的人体姿态追踪,评估运动员的动作准确度,帮助教练进行个性化指导。
  • 人机交互:姿态估计使计算机能够解读和响应人类手势,从而实现人与机器之间更直观、更自然的交互。
  • 虚拟现实与游戏:利用姿势估计技术,实现更加真实的互动体验。玩家的动作可以直接映射到虚拟角色上,增强了游戏的沉浸感和交互性。
  • ......

此外,由于人和四足动物在身体结构上的相似性,不难引发研究人员对基于人体姿态估计的预训练模型可能会对大规模动物姿态数据集的训练效果起到促进作用的猜想。

而准确的动物姿态估计对于理解动物行为至关重要,尤其对于野生动物保护。因此,一些人体姿态估计模型已经拓展至兼容动物姿态估计功能,为科学家提供了更多工具和技术支持,有助于监测、研究和保护野生动物的生态环境。

本文分享了一些姿态估计的开源模型和数据集,涵盖了人体姿态和动物姿态。希望这些资源能够帮助研究人员促进这两者技术的共同发展,实现全面开花。

OpenPose

OpenPose 是首个实时多人人体姿态估计系统,主要针对实时场景下多人的手部、面部、足部等人体关键点(总共135个关键点),进行检测。

  • 项目链接:https://github.com/CMU-Perceptual-Computing-Lab/openpose
  • 论文链接:https://arxiv.org/pdf/1611.08050
  • 更多介绍:https://github.com/TommyZihao/Zihao-Blog/blob/master/Github%E5%BC%80%E6%BA%90%E4%BA%BA%E4%BD%93%E5%A7%BF%E6%80%81%E8%AF%86%E5%88%AB%E9%A1%B9%E7%9B%AEOpenPose%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3.md

MMPose

MMPose 是一款基于 PyTorch 的姿态分析的开源工具箱,支持 21 种算法、34 种数据集、14 种主流骨干。在最新更新的版本中,新增支持数据集ExLPose H3WB,以及发布了单阶段实时多人姿态估计模型RTMO。相比RTMPose在多人场景下性能更优。

  • 项目链接:https://github.com/open-mmlab/mmpose

DensePose

DeepPose 是开创性的基于深度学习的姿势估计方法之一,引入使用卷积神经网络(CNN)直接从输入图像中回归人类的关节位置,可实现实时且高准确度的人体姿态估计。

  • 项目链接:http://densepose.org/
  • 论文链接:https://arxiv.org/abs/1802.00434

AlphaPose

AlphaPose,一个能够在实时运行中进行准确的全身姿势估计和跟踪的系统。无论是检测购物街中的多个人、快闪族还是街头表演者,都可以借助此模型实现。

AlphaPose 还是首个在 COCO 数据集上实现了 70+ mAP(75 mAP)和 MPII 数据集上实现了 80+ mAP(82.1 mAP)的开源系统。

  • 项目链接:https://github.com/MVIG-SJTU/AlphaPose
  • 论文链接:https://arxiv.org/abs/2211.03375

YOLOv8

当提到 YOLO 模型时,最先想到的是进行目标检测,而 YOLOv8 最新更新版本,加入了姿态估计功能,总计发布了 YOLOv8n-pose、YOLOv8s-pose...YOLOv8x-pose-p6 等 6 个模型,在 A100 上的推断速度从 1.18ms 到 10.04ms,模型参数 3.3M 到 99.1M。

  • 项目链接:https://docs.ultralytics.com/tasks/pose/

Human-Art

Human-Art,首个大规模全场景人体数据集,是由 IDEA 研究院收集了来自 5 个现实场景和 15 个虚拟场景的 5 万张高质量图像组成。

支持多项以人为主的下游视觉任务:人体检测、2D人体姿态估计、3D人体姿态估计、图片生成。

论文收录于 CVPR 2023。

  • 项目链接:https://github.com/IDEA-Research/HumanArt
  • 论文链接:https://arxiv.org/abs/2303.02760
  • 更多介绍:https://www.idea.edu.cn/news/5773.html

UBody Dataset

UBody 是从 ConductMusic、Conference、Entertainment、Fitness、Interview、LiveVlog、MagicShow、Movie、Olympic、OnlineClass、SignLanguage、Singing、Speech、TVShow、Talk Show 十五个真实生活场景中收集的超 1051k 帧视频组成,是一个大规模的上半身数据集,包含以下标注:

  • 2D 全身关键点
  • 3D SMPLX 标注
  • frame validity label
  • 人体边界框、手部边界框

数据下载需填写相关信息申请,论文收录于CVPR 2023。

  • 项目链接:https://osx-ubody.github.io/
  • 论文链接:http://arxiv.org/abs/2303.16160

MacaquePose

MacaquePose 是一个动物姿态数据集,由 13083 张猕猴图像组成,这些图像收集自互联网、动物园以及京都大学灵长类动物研究所。

每张图像中的每只猴子的身体部位(关键点)均进行了人工标注,包括鼻子、左右耳、眼睛、肩膀、肘部、手腕、髋部、膝盖和脚踝,共计17个关键点。

  • 项目链接:https://www.pri.kyoto-u.ac.jp/datasets/macaquepose/index.html

AP-10K

AP-10K 是首个大规模的哺乳动物姿态数据集,包含 10015 张标记有姿态信息的哺乳动物图片,并进行了高质量的关键点标注。此外,从生物学角度来看,这些图片被归类为23个科、54个物种。

  • 项目链接:https://github.com/AlexTheBad/AP-10K
  • 论文链接:https://openreview.net/forum?id=rH8yliN6C83

17个关键点的定义

动物种类分布

Human3.6M

Human3.6M 数据集是一个 3D 人体姿态识别的数据集,通过 4 个经过校准的摄像机拍摄获得,对于 3D 人体的 24 个部位位置和关节角度都有标注。数据集总共包含了 360 万个 3D 人体姿势图像,参与拍摄的有 11 位专业演员(男性 6 名,女性 5 名),并覆盖了 17 种不同的场景,例如讨论、吸烟、拍照、通电话等。

  • 项目链接:http://vision.imar.ro/human3.6m/description.php
  • 数据下载:https://drive.google.com/drive/folders/112GPdRC9IEcwcJRyrLJeYw9_YV4wLdKC

无论是人体姿态估计还是动物姿态估计的研究,都需要大量的算力资源的支持。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • OpenPose
  • MMPose
  • DensePose
  • AlphaPose
  • YOLOv8
  • Human-Art
  • UBody Dataset
  • MacaquePose
  • AP-10K
  • Human3.6M
相关产品与服务
人体分析
腾讯云神图·人体分析(Body Analysis)基于腾讯优图领先的人体分析算法,提供人体检测、行人重识别(ReID)等服务。支持识别图片或视频中的半身人体轮廓;支持通过人体检测,识别行人的穿着、体态等属性信息。可应用于人像抠图、背景特效、人群密度检测等场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档