首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品

科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品

作者头像
AI科技评论
发布2020-09-14 14:31:31
发布2020-09-14 14:31:31
1.2K0
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | VVingerfly

编辑 | 陈大鑫

3D人体姿态和形状估计在最近几年是一个重要的研究热点,但大部分工作仅仅关注人体部分,忽略了手部动作,港中文联合Facebook AI研究院提出了一种从单张图片同时估计人体姿态和手部动作的新方法,展示效果好似科学怪物。

如下图左下和右下所示,易看出本文提出的方法姿态估计效果更好。

1 介绍

本文作者提出了一个3D人体全身运动捕捉系统 FrankMocap,能够从单目视频同时估计出3D人体和手部运动,在一块GeForce RTX 2080 GPU上能够达到 9.5 FPS。作者提到 “FrankMocap” 是对现代普罗米修斯 (The Modern Prometheus)中科学怪人 (Frankenstein) 的怪物的致敬。

人们每天会拍大量的日常活动视频上传到网络,如果有一种基于普通摄像头的运动捕捉系统,能够捕捉视频中人体的运动,将在人机交互、人工智能、机器人等众多方向有所应用。

同时捕捉人体和人手的运动对这些应用同样重要,但人手只占身体的很小一部分,要想直接捕捉两者的运动是一个很难的问题。当前的大部分相关工作都只顾及图片中人体的3D姿态,忽略图片中人手的动作。有部分工作关注从单张图片同时估计人体的全身运动,但这些工作都是基于优化的方法,将参数化的人体模型拟合到图像信息,速度较慢不适合实时应用。

这篇文章提出了一个快速准确的方法来从RGB图片或视频估计人体和人手的姿态。作者采用 SMPL-X 人体模型,首先通过两个回归模块来从输入图片分别估计人体和人手的3D姿态,然后再通过一个整合模块将预测的结果组合在一起,得到最终的3D全身人体。文章代码将会开源。

项目主页:https://penincillin.github.io/frank_mocap

项目论文:https://arxiv.org/pdf/2008.08324.pdf

2 方法

作者使用 SMPL-X 人体模型,给定一张彩色图片,通过两个网络模块分别预测手部姿态和人体姿态,然后再通过整合模块将手和身体组合在一起,得到最终的3D全身模型,整个流程如下图所示。

SMPL-X 模型 SMPL-X 人体模型是一个参数化的3D人体模型,是 SMPL 模型的扩展,能够通过低维的人体形状和姿态参数的组合来表达不同形状和姿态的3D人体,其与 SMPL 模型的最大差异在于 SMPL-X 模型通过引入额外参数,能够同时表达人体的手指运动和面部表情。

3D手部估计模块

网络架构

手部模块的架构如下图所示,其由一个编码器和解码器组成,编码器使用 ResNet-50,将手部图像块作为输入输出编码的图像特征,解码器由全连接层构成,从图像特征回归手部模型参数。

损失函数

3D手部姿态数据集

3D手部姿态数据集通常是在受限的实验室环境下采集的,用这些数据集训练的模型经常会遇到过拟合的问题,在室外数据表现较差。

作者注意到,现有3D人体姿态估计方法表明利用不同的数据集可以大大提高模型的泛化能力,因此作者使用尽可能多的公开数据集来训练手部姿态估计网络,包括 FreiHAND、HO-3D、MTC (Monocular Total Capture) 、STB (Stereo Hand Pose Tracking Benchmark)、RHD (Rendered Hand Dataset)、MPII+NZSL 数据集。由于部分数据集的手部骨架与文字不同,作者以中指长度为参考,对这些数据集的3D手部关节点缩放到与文章手部模型近似一致的尺寸,并将关节点顺序按照文章的层次结构重新排列。

3D人体估计模块

损失函数和数据集

3D人体估计网络使用了 Human3.6M 数据集和 EFT 数据集,其中 EFT 数据集包含 COCO 和 MPI 中的人体图片及其对应的 SMPL 模型参数。由于 SMPL 的形状参数和 SMPL-X 不兼容,作者在训练时只使用这些数据集的人体姿态参数。损失函数和 SPIN 原始论文中使用的一样,但是没用使用 SMPLify 损失部分。

全身整合模块

整合模块将3D人体和手部模块输出的结果组合在一起得到 SMPL-X 模型的参数表达,作者提供了两种方法来整合:

  1. 复制粘贴方式:直接将人体和手部组合起来,速度快;
  2. 优化拟合方式:使用2D关键点来优化人体参数以得到更加准确的结果,但速度较慢。
复制粘贴组合

由于人体和手部模块的输出与 SMPL-X 人体模型的参数是兼容的,因此可以很简单地将两者合并在一起。只需将左右手从世界坐标系变换到人体模型腕关节的局部坐标系下即可。

优化拟合方式

3 结果

下面表格展示了文章方法和其他方法的运行时间对比,文章的复制粘贴组合方式在 GeForce RTX 2080 GPU 上能够达到9.5FPS,优化的方法也有0.95FPS,均高于 SMPLify-X 和 MTC 方法。

下图展示了文章方法在手部姿态估计方面与当前 state-of-the-art 的方法的比较,文章方法的结果更加准确,与图片更加一致。

下图展示了文章方法和 Monocular Total Capture,SMPLify-X 结果的比较,文章方法估计的人体、人手姿态更加准确,而且速度会快很多。

更多演示结果

不如跳舞~

熟练地玩抽纸~

‍倒杯水喝~

参考论文

  1. FrankMocap: A Fast Monocular 3D Hand and Body Motion Capture by Regression and Integration. Yu Rong, Takaaki Shiratori, Hanbyul Joo. ArXiv, 2020.
  2. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image. Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black. CVPR, 2019.
  3. Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation. Hanbyul Joo, Natalia Neverova, Andrea Vedaldi. ArXiv, 2020.
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 介绍
  • 2 方法
    • SMPL-X 模型 SMPL-X 人体模型是一个参数化的3D人体模型,是 SMPL 模型的扩展,能够通过低维的人体形状和姿态参数的组合来表达不同形状和姿态的3D人体,其与 SMPL 模型的最大差异在于 SMPL-X 模型通过引入额外参数,能够同时表达人体的手指运动和面部表情。
      • 网络架构
      • 损失函数
      • 3D手部姿态数据集
    • 3D人体估计模块
      • 损失函数和数据集
    • 全身整合模块
      • 复制粘贴组合
      • 优化拟合方式
  • 3 结果
  • 参考论文
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档