Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image
原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Tome_Lifting_From_the_CVPR_2017_paper.pdf
项目主页:http://www0.cs.ucl.ac.uk/staff/D.Tome/papers/LiftingFromTheDeep.html
结果视频:https://www.youtube.com/watch?v=tKfkGttx0qs
本文来自伦敦大学学院和爱丁堡大学的研究人员。作者提出了一个高效、统一的基于多阶段深度学习的框架来解决单幅图像中2维关节估计和3维姿态估计问题。
以往的方法在解决2维关节估计和3维姿态估计问题时,往往是分步骤进行的,第一个过程的结果是第二个过程的输入,这样分步骤会造成信息损失,同时最终的估计结果也并不是最优的。
提出一个统一的基于多阶段深度学习的框架来解决2维关节估计和3维姿态估计问题。
该框架提出了一个新的CNN架构,可以将基于图像外观特征提取的2D标志点位置信息与用预训练好的3D姿态模型提取的3D几何骨骼信息结合起来统一学习,最终提高2D姿态和3D姿态的估计精度。
基于多阶段深度卷积神经网络的人体姿态估计流程图
● 优势:在Human3.6M数据集上分别进行2D和3D姿态估计,与当前最好的方法相比,估计准确性分别要高于对比方法。
● 不足:计算效率上还打不到实时。
● 手势(hand)
3D Convolutional Neural Networks for Efficient and Robust Hand Pose Estimation from Single Depth Images
项目主页:https://sites.google.com/site/geliuhaontu/home/cvpr2017
本文来自新加坡南洋理工大学和新加坡A*Star 高性能计算研究所。作者提出了一种简单有效、实时的手部姿态估计的方法。对于深度图像利用一种三维数据体的表示方法,并有效利用数据的空间结构信息,提升算法性能。
● 由2维CNN提取的基于图像的特征由于缺少3D空间信息,并不完全适用于3D手部姿态估计。
● 多视图CNN仍然无法完全充分利用深度图像中的3D空间信息
从深度图像分割出手的部分,提取手的3D点云并编码为3维数据体,这一个数据作为3维CNN的输入,输出为一组手在3维数据体中的关节相对位置。最后利用简单的坐标变换来获得手在相机系统下的关节位置。
方法整体流程图
● 优势:
❖ 在MSRA和NYU数据集上进行实验,并与当前最好的方法——层次回归方法——进行比较。当误差阈值维10mm时,提出的方法要由于当前最好方法。实验环境为2块CPU:Intel Core i7 5930K 3.50GHz, 64GB RAM,GPU:NvidiaQuadro K5200
❖ 实时运行,超过215fps
❖ 对于手部尺寸变化和整体方向变化比较鲁棒
Crossing Nets: Combining GANs and VAEs With a Shared Latent Space for Hand Pose Estimation
原文链接:https://arxiv.org/pdf/1702.03431.pdf
结果链接:https://www.youtube.com/watch?v=oumCArDjC7w
文章由瑞士苏黎世联邦理工学院、波恩大学和荷兰语天主教鲁汶大学的研究人员共同发表在CVPR2017上。作者创新性地结合了生成式对抗网络和半监督学习,充分利用了没有标签的深度图,从而改进了泛化性能。同时方法具有非常高的计算效率。
● 从单一的深度图像估计3D手部姿态需要大量的标注训练数据,成本很高
● 以往基于图像合成的方法得到的结果真实感比较差
结合生成式对抗网络(GAN)和半监督学习进行结构预测:基于变分自编码器(VAE)估计姿态估计,利用GAN生成高质量深度图用来训练模型,在一个多任务学习的框架下统一处理姿态估计问题。
整体处理流程图
● 优势:
❖ 在NYU、MSRA和ICVL三个公开数据集上与分别与该数据集的当前2种state-of-the-art 方法进行对比。结果显示提出的方法在估计误差上要优于对比方法。
❖ 更好的泛化性
❖ 对于大视角的姿态变化的估计更加鲁棒
❖ 可以更好地利用无标记的数据
❖ 在CPU上可以达到实时估计
视觉跟踪一般也被称为目标跟踪,就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。具体的,在第一帧图像给定目标的状态,一般是目标的bounding box信息,然后预测之后每帧图像中目标的状态,对应的也是目标的bounding box信息。
Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
项目主页:https://sites.google.com/view/cvpr2017-adnet
本文来自韩国首尔国立大学的研究人员。作者创新性地将强化学习与目标跟踪结合起来,讲目标跟踪问题转化为一系列决策行为。提高了跟踪系统的准确率和计算效率。下图是文章核心思想的一个示意图。
预测跟踪目标未来的位置对应为一系列动作决策
目前基于卷机神经网络的方法虽然获得了比传统方法更好的性能,但是也面临着以下问题:1)探索感兴趣区域的和选择最佳候选目标的搜索算法比较低效;2)需要大量带标记的视频序列用来训练模型
提出了一个行为-决策网络(ADNet)结构,在新的一帧图像中,产生一系列动作来找到目标的位置和尺度。
ADNet目的在于学习一个策略来根据当前位置这一状态去选择最优的行为决策去跟踪目标。这个策略网络是一个深度卷积神经网络,输入是从前一帧图像中抠出来的图像块,输出包括在下一帧中的决策概率分布。
学习算法包括两部分:监督学习和强化学习。监督学习部分:使用从训练视频集提取的样本来训练网络。这一过程没有序列信息。强化学习部分:将监督学习得到的网络作为初始值,使用跟踪序列(采样状态、决策行为和奖励信号)来训练策略网络。
技术路线示意图
● 优势:
❖ 不需要bounding box regression等后处理操作
❖ 计算高效:和state-of-the-art方法MDNet和C-COT方法相比,在准确率和成功率接近的情况下,标准算法版本要快要比两种方法快3倍;快速算法版本在降低3%性能的情况下,可以达到15 fps。
● 不足:提出的决策行为对于目标突然大幅度移动和目标比例大幅度改变这两种情况无法很好地适应,跟踪失败。
Tracking by Natural Language Specification
原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Tracking_by_Natural_CVPR_2017_paper.pdf
本文来自荷兰阿姆斯特丹大学的研究者。本文创新性地没有采用目标跟踪传统的给定bounding box的设置方法,而是采用了自然语言描述来指定感兴趣的目标。提出的方法被证明非常有效,并且以往的目标跟踪方法都可以嵌入到这个流程当中。下图是文章方法的结果示意图。
基于自然语言描述目标的视觉跟踪
对于跟踪在真实场景的应用中,比如机器人和无人驾驶,使用自然语言来定义“目标”更加自然合理
和以往做视觉跟踪的基本假设和处理流程不同,没有采用基于bounding box初始的ground truth,而是根据自然语言描述来跟踪目标。
给定视频中的一帧图像和一句自然语言描述来作为查询,目的是跟踪视频中由语言所指定的目标。
在最常用的目标跟踪数据集OTB100和ImageNet Videos的基础上,为每个视频中的每个目标扩展了一句语言描述。加上ReferIt,在以上三个数据集上进行对比实验。
● 优势:
在目标跟踪中引入了一种创新的人机交互方式,并证明了其有效性。
● 不足:
缺乏和基于bounding box的方法的对比实验
NEXT技术快报:快速扫描学术/技术前沿进展,做出必要的分析归纳,寻找它们在产品中落地的可能性。希望能帮助大家了解前沿,拓宽视野,提高决策效率。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。