首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2021 深度三维形变模型的特征聚合学习

CVPR 2021 深度三维形变模型的特征聚合学习

作者头像
AI科技评论
发布于 2021-07-02 16:31:44
发布于 2021-07-02 16:31:44
9750
举报
文章被收录于专栏:AI科技评论AI科技评论

导语:本文提出一种用于深度三维形变模型中特征聚合的可学习模块。当前深度三维形变模型中特征聚合依赖于网格抽取等方法,存在聚合方式无法学习,与模型优化目标不一致等问题,从而限制了模型的表达能力。我们提出了使用基于注意力机制的模块实现对特征聚合方式的学习。在人脸,人体和人手数据集上的实验结果表明,基于注意力机制的特征聚合能有效提升模型的表达能力。

作者 | 陈志祥

编辑 | 刘冰一

计算机视觉和计算机图形学中的很多关于一类物体的表征使用到三维形变模型(3DMM)。在这里三维变形模型建模的物体通常为人脸,人体和人手,同时也包括像马和猫这样的动物。

三维变形模型广泛服务用包括形状动画,姿态估计,三维重建,身份识别,虚拟现实增强现实人机交互中。由于三维数据与二维图像数据存在拓扑形态上的不同,传统的卷积神经网络难以在三维数据上发挥作用。目前广泛应用的模型主要是基于主成分分析的模型,并考虑到物体的关节活动进行变形,仍然存在形状细节难以刻画的问题。

本文提出了一种用于深度三维形变模型的特征聚合方法,通过注意力机制进行对不同层特征之间的关系进行建模,旨在提高深度三维形变模型的能力,以实现对物体形状细节的更好描述。

论文题目:Learning Feature Aggregation for Deep 3D Morphable Models

论文地址:https://arxiv.org/abs/2105.02173

代码:https://github.com/zxchen110/Deep3DMM

在以下视频中,论文一作陈志祥对研究进行了分享,分享提纲如下:

1、三维形变模型简介

2、深度三维形变模型中的特征聚合问题

3、基于注意力机制的特征聚合

4、实验验证

1 三维形变模型

三维形变模型将原始的三维形状编码成隐向量,并能从该隐向量中恢复出物体的形状信息。在本文中,我们所关注的三维形状是指经过配准,与该类物体模板形状对齐的三维网格数据。

传统的三维形变模型中人脸主要使用基于主成分分析的线性模型,人体和人手分别有SMPL和MANO这类线性模型。与这类线性模型相比,非线性模型,特别是基于深度学习的模型,具备进行对例如皱纹在内的细节变形进行刻画的能力,在通用性和紧凑性上会优于线性模型。

使用传统的线性模型时,我们需要对每类物体的三维变形模型进行设计,而使用深度三维变形模型时,可以将设计好的网络结构模型在不同类的物体数据上进行训练即可得到对应物体的三维形变模型。

在将深度学习应用到三维网格数据的尝试中,现有方法分别提出了各向同性和各向异性的卷积操作以适配网格数据的拓扑结构。这些卷积操作与特征聚合操作一通构成了三维变形模型的自编码器。这些特征聚合操作用于完成编码器中的特征下采样和解码器中的特征上采样。虽然现有的模型在三维网格数据上已经取得了不俗的表现,但是这些特征聚合操作仍然是由单独的预处理阶段决定的,并且这个预处理阶段是针对表面误差近似优化进行的网格抽取,而非对三维形变模型的重建目标进行优化的。这一过程限制了形变网络对形状细节的表达能力。

在本文中,我们提出一种基于注意力机制的特征聚合策略,用于在处理具有固定拓扑结构的三维网格数据时构建层次化表征。不同于预先计算的映射矩阵,我们提出使用可学习的注意力模块从查询(query)和键(key)计算得到映射矩阵。Key和query可以看做是对应层次的特征的紧凑表示。通过该模块,我们可以实现对聚合权重和感受野的同时学习。并且通过灵活配置key和query,该模块可以适配于上采样和下采样。

由于三维形变模型只需要使用映射矩阵,在推理阶段无需使用该注意力模块,只需保留学习到的映射矩阵,因此几乎不会增加模型的参数量。我们在重构任务上测试了本文中的方法,在人脸,人体和人手数据集上的定性和定量实验表明我们的方法能够大幅度提升现有模型的表达能力,无论使用的卷积操作是各向同性的还是各向异性的。

2 深度三维形变模型

深度三维形变模型包含两部分:编码器和解码器。这两者的网络结构通常互为镜像。编码器将输入的三维网格转化成一个紧致的表征。通过一个从细到粗的层次化网络结构,该表征能够捕获全局和局部的形状信息。当给定紧致表征时,解码器通过从粗到细的方式生成三维网格模型以恢复形状信息。在这个层次化结构的每一层中,解码器使用了串联的卷积和上采样操作,类似的在编码器中使用了卷积和下采样操作。如前所属,卷积操作可以是各向同性或者各向异性的卷积操作,包括上采样和下采样在内的特征聚合则通常是将映射矩阵和特征进行相乘来完成。

在形式定义上,三维网格可以表示成一个顶点和边的集合,

,其中

表示那个顶点,

表示顶点之间的稀疏连接。设该三维形变模型的编码器和解码器的层数为L。在以下的分析中,我们使用解码器为例对我们的方法进行阐述。对于编码器我们可以使用类似的分析。使用

表示解码器在

层的输出特征,其中和分别代表顶点的数量和特征的维度。

则可以用于表示第层的输入特征。

在现有方法中,特征聚合操作可以形式化为

(1)

其中

表示用于上采样和下采样的不同聚合权重。虽然基于上述公式的现有的模型表现出了极富潜力的性能,其中的映射矩阵

是在网格模板上机型网格抽取得到的,并且在模型的学习过程中保持不变。与此相反,我们希望能够在训练中将该映射矩阵和网络模型中的卷积操作一同进行学习。一个直接的方法是将该映射矩阵进行参数化,对每个矩阵元素进行学习。然而,这种方法会遇到过参数问题,特别是针对高分辨率的网格数据,从而使得网络模型的性能下降,甚至出现无法从训练数据中进行有效学习的情形。针对此,我们提出了使用注意力机制的特征聚合操作。

3 基于注意力机制的特征聚合学习方法

特别地,我们考虑从特征

的特征聚合过程以阐述我们提出的注意力模块。注意力机制可以看做是给定键值对后对于每个输入的查询值给出对应的输出。在特征聚合中,

就是输出,

就是给定的值。那么聚合权重

就可以通过作用于查询向量

与和值

对应的键

上的函数得到,具体可以表示成

通过这种方法,我们将映射矩阵的构造拆分成了查询向量query和键key的构造,以及相应函数的设计。

3.1 查询向量和键向量

由于查询向量和键向量是和顶点特征一一对应的,我们也就期望它们的值和顶点的序号或者特征相关联。考虑到现有方法中的映射矩阵是和顶点特征无关,且已经能够得到不错的效果。在此,我们将查询向量和键向量建模成顶点序号而非顶点特征的函数。换言之,我们旨在学习类感知的映射矩阵而非实例感知的映射矩阵。另一方面,在我们所考虑的三维网格数据中,所有的数据都是经过配准的,也就是说每个顶点是有固定的对应语义含义的。因此,这些查询向量和键向量就可以建模成无需任何输入的独立变量。使用这样的参数化方式带来的一个好处是在推理阶段,我们可以直接使用学习到的映射矩阵,而无需借助注意力模块。此外,这种参数化方式也规避了将查询向量与顶点特征相关联带来的查询向量和输出之间的鸡和蛋的问题。对于查询向量和键向量的维度大小而言,向量数量的多少取决于对应的顶点的数量,每个向量的特征维度则是当做需要探索的超参。

3.2 注意力函数

在给定查询向量和键向量后,注意力函数则用于计算相邻两层的每两个顶点之间的匹配程度。一般而言,我们可以使用任意的距离度量函数来进行上述计算。在本文中,我们使用余弦距离函数来计算

之间的相似性,

直接将上式计算得到的相似性分数用做聚合权重会得到一个稠密的映射矩阵。换言之,一层中的任意一个顶点的特征都会受到前一层中的所有顶点的特征的影响。然而,这样的聚合方式并非是层次化学习中所希望的方式。

为了能够同时捕获全局和局部信息,不同顶点特征

的感受野应该具有区分性。我们希望后一层中的每个顶点特征

对应的上一层中的关联的顶点集合各不相同。我们将这个先验知识通过一个可选的掩膜操作来实现。该掩膜操作通过使用top-k选择将上述顶点集合的大小限制为一个固定的值k。该集合中的每个元素的值从训练形状中自动学习。具体而言,我们针对权重分数

定义了一个二值的掩膜

掩膜后得到的权重分数可以看作是原始的权重分数与该二值掩膜相乘的结果

然后将权重分数归一化可以得到

3.3 映射矩阵

使用上述公式替代现有的预先计算的权重是个可行的方案。与此同时,我们注意到现有方法中采用预先计算的映射矩阵也取得了不俗的性能。为此,我们提出进一步将上式中的映射矩阵和现有方法中预先计算的映射矩阵进行融合以获得双方的优势。这个融合可以看做是带有一个固定头和一个可学习头的多头注意力模型。具体而言,我们在融合中使用加权组合

其中是个可学习的权重,

是现有方法中预先计算的上采样或者下采样系数。特别地,当的值固定为0时,上式就和现有方法中使用预先计算的上(下)采样系数相同。本文中最终使用的权重系数按照上式计算得到。

4 实验

我们在三个人脸,人体和人手的数据集上进行重构任务的实验以验证本文方法的有效性。

4.1 数据集

COMA数据集由Ranjan等人在2018年提出,包含了12个人的12个不同表情序列,总共包括20K+已经配准过的人脸形状,每个三维网格形状包含5023个顶点。

DFAUST数据集是一个包含40K+人体形状的数据集,其中每个人体的三维网格包含6890个顶点。整个数据集有超过100段运动序列,覆盖了10个不同身份。

SYNHAND数据集由Malik等人于2018年提出,总共包含了五百万个合成的人手形状,我们随机选了了100K用于实验,其中90K用于训练,剩下的用于测试。

4.2 基线方法

本文分别在各向同性卷积和各向异性卷积方法上对所提方法进行验证,其对应的基线方法分别为CoMA和Neural3DMM。所使用的的网络结构和训练配置参照CoMA方法。

4.3 定量结果

我们使用每顶点欧式距离误差来度量重构误差。下图给出了在3个数据集上的结果。从图中可以看出本文所提的特征聚合方法能够在所有测试的情形下取得性能的提升,不论采用各向同性还是各向异性的卷积操作,不论测试的隐向量的长度为8/16/32/64,不论测试的人脸,人体还是人手。在人脸和人体数据集上,对于越短的隐向量,性能提升效果越好。普遍而言,在各向异性卷积上的提升效果不如在各向同性卷积上的提升效果明显,这可能是由于本文所提方法和各向同性卷积结合后在本质上相当于进行了各向异性卷积。

4.4 定性结果

上图给出了使用各向同性卷积下的重建结果和误差的可视化,其中测试的隐向量长度为8.从图中可以看出,本文提出的特征聚合方法可以在很大程度上减小重建误差,实现对细节的更好刻画。

4.5 映射矩阵的可视化

上图给出了将下采样(上采样)映射矩阵的列向量(行向量)使用t-SNE投影到一维流型上后值大小。从图中比较可以看出本文所提方法得到的映射矩阵和现有方法的结果存在很大不同。本文所提方法学习到的映射矩阵在相邻位置的值更接近。

上图给出了在COMA数据集上几个示意点的感受野对比情况。从图中可以看出,本文所提方法的感受野相比于现有方法更大,随着网络的不断训练,学习到的感受野也在发生变化。并且我们注意到本文方法出现了一些非邻域的感受野,说明本文方法可能捕获了非局部的顶点之间的关系。

4.6 和其他聚合方法的比较

从表中我们可以看出,直接将映射矩阵参数化的方法的误差最大。采用Diffpool的方法,由于仍然是对整个映射矩阵进行直接建模,相比于直接将映射矩阵参数化的方法而言,其映射矩阵是通过网络生成的,其性能依然不理想。基于邻域的三种特征聚合方法表现出了相似的性能,其中权重可学习的方法(variant weight)的性能略有优势。本文所提的方法相比于这些方法有大幅度的性能提升,这得益于对全局顶点关系的建模和权重的可学习。

4.7 不同卷积核设置下的结果

我们还在实验中探索了不同卷积核配置下的性能结果变化。表中的simple表示使用的滤波器数量较少,具体对于编码器为(3,16,16,16,32),对于解码器为(32,32,16,16,16,3)。Wider表示使用的滤波器数量较多,具体对于编码器为(3,16,32,64,128),对于解码器为(128,64,32,32,16,3)。从表中数据可以看出,在COMA数据集上,当隐向量的长度为8时,在使用较多滤波器的配置下,本文所提的特征聚合方法依然可以实现性能的有效提升。

4.8 特征聚合的消融实验

为了验证本文所提的特征聚合方法在编码器和解码器中对模型性能的影响,我们进行了消融实验。实验结果表明,在解码器中引入可学习的特征聚合模块对模型的性能远大于在编码器中引入可学习的特征聚合模块。这可能是由于本文所关注的任务是重构任务,决定了解码器对实验结果的影响更大更直接。

4.9 隐空间运算

内插。给定两个形状的隐空间表示和,对其进行线性内插可得到一个新的隐空间表示

其中

。对内插得到的隐空间表示进行解码即可得到内插的形状。上图中给出了一些示例,从中可以看出,本文方法的效果更佳。

外插。与内插类似,外插也是使用公式

来计算外插得到的隐空间表示,不过的值域为

。上图中给出了为与具备同样身份信息的中性形状,可以看出本文方法生成的形状更加自然。

变形转移。我们还可以使用三维形变模型通过在隐空间进行算数操作,实现不同身份之间的形变转移。上图中给出了人脸和人体上的结果,可以看出使用可学习的特征聚合有利于形变的捕获。

5 总结

在本文中,我们提出了用于深度三维形变模型的特征聚合方法。具体而言,我们引入了作为可训练参数的查询向量和键向量,并采用了注意力机制来计算用于上采样和下采样的映射矩阵。本文方法可以实现对感受野和权重的同时学习。在三种物体的实验表明本文提出的特征聚合方法能够提升深度三维形变模型的表达能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​CVPR 2020 | 北大&Futurewei提出 GraphTER:无监督图变换共变表征学习
图(Graph)是不规则数据/非欧几里得数据(例如 3D 点云、社交网络、引文网络、脑网络等)的一种自然而有效的表征。由于图的强大表现力,图数据的机器学习越来越受到重视,如近年来提出的图卷积神经网络(Graph Convolutional Neural Network, GCNN)。不过,现有的 GCNN 模型大多以监督或半监督的方式进行训练,这需要大量的标记样本才能学习到有效的特征表示。由于标记成本较高(特别是在大规模的图上),现有方法难以进行广泛应用。因此,我们需要以无监督的方式来学习图特征表示,以便适应更多图的学习任务。
机器之心
2020/03/31
6530
​CVPR 2020 | 北大&Futurewei提出 GraphTER:无监督图变换共变表征学习
基于图像的三维物体重建:在深度学习时代的最新技术和趋势综述之三维曲面解码
基于体积表示的方法在计算上非常浪费,因为信息只在三维形状的表面或其附近丰富。直接处理曲面时的主要挑战是,网格或点云等常见表示没有规则的结构,因此,它们不容易适应深度学习体系结构,特别是使用CNN的体系结构。本节介绍用于解决此问题的技术,将最新技术分为三大类:基于参数化、基于模板变形和基于点的方法。
3D视觉工坊
2020/12/11
1.2K0
深度学习背景下的图像三维重建技术进展综述
三维重建是指从单张二维图像或多张二维图像中重建出物体的三维模型,并对三维模型进行纹理映射的过程。三维重建可获取从任意视角观测并具有色彩纹理的三维模型,是计算机视觉领域的一个重要研究方向。传统的三维重建方法通常需要输入大量图像,并进行相机参数估计、密集点云重建、表面重建和纹理映射等多个步骤。近年来,深度学习背景下的图像三维重建受到了广泛关注,并表现出了优越的性能和发展前景。
一点人工一点智能
2023/01/07
6.8K0
深度学习背景下的图像三维重建技术进展综述
基于少量图像的三维重建综述
基于少量图像的三维重建被认为是第三代人工智能的经典应用之一。在计算机图形学和计算机视觉领域,基于少量图像的三维重建任务因具有广泛的应用场景和很高的研究价值,长期以来吸引着众多学者的目光。引入深度学习方法后,该领域于近年来得到了长足发展。对此类基于少量图像的三维重建任务进行了全面阐述,并介绍了本研究组在该方面的系列工作,对其中涉及的数据类型进行分析,阐明其适用性和一般处理方法。此外,对常见的数据集进行分析、整理,针对不同重建方法,归纳出其基本框架、思路。最后,展示了一些常见三维重建的代表性实验结果,并提出了未来可能的研究方向。
一点人工一点智能
2023/08/25
1.3K0
基于少量图像的三维重建综述
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
---- 新智元报道   编辑:LRS 【新智元导读】SemanticHuman兼顾精细语义与几何刻画的三维人体表示,可实现部件级别的灵活可控编辑。 近年来三维人体表示学习受到越来越多的关注,不过现有工作由于受限于粗糙的语义和有限的表示能力无法灵活、可控、准确地表示人体,尤其是在缺乏配对监督数据的情况下。 针对上述问题,天津大学团队联合英国卡迪夫大学在CVPR2023的工作中提出一种兼顾精细语义与几何刻画的三维人体表示——SemanticHuman。 项目主页:http://cic.tju.edu.
新智元
2023/05/09
4010
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
摘要:三维重建是计算机视觉计算机图形学和机器学习等领域几十年来一个不适定问题。从2015年开始使用CNN解决基于图像的三维重建(image-based 3D reconstruction)有了极大的关注并且展示出强大的性能。在新时代的快速发展下,我们提供了这一领域详细的调研。本文章专注于从RGB图像估计三维物体形状的深度学习方法。除此之外我们还回顾了关于特定物体(如人脸)的近期研究。我们一些重要论文性能的分析和比较,总结这一领域的现有问题并讨论未来研究的方向。
用户1150922
2020/09/10
2.1K0
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
三万字收藏 | 三维场景点云理解与重建技术
作者:龚靖渝, 楼雨京, 柳奉奇, 张志伟, 陈豪明, 张志忠, 谭鑫, 谢源, 马利庄
一点人工一点智能
2023/08/24
1.7K0
三万字收藏 | 三维场景点云理解与重建技术
深度学习点云质量增强方法综述
随着三维探测技术的发展,点云逐渐成为最常用的三维物体/场景表征的数据类型之一,广泛应用于自动驾驶、虚拟/增强现实、文物修复以及虚拟导览等诸多场景。
一点人工一点智能
2024/04/09
2K0
深度学习点云质量增强方法综述
基于图像的三维物体重建:深度学习时代的最新技术和趋势(概述和编码)
三维重建是一个长期存在的不适定问题,已经被计算机视觉、计算机图形学和机器学习界探索了几十年。自2015年以来,利用卷积神经网络(CNN)进行基于图像的三维重建引起了越来越多的关注,并且表现非常出色。鉴于这一快速发展的新时代,本文全面综述了这一领域的最新发展,重点研究了利用深度学习技术从单个或多个RGB图像中估计一般物体三维形状的方法。
3D视觉工坊
2020/12/11
1.1K0
基于深度学习的视觉三维重建研究总结
三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。现在每个人都在研究识别,但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别,感知三维环境。我们活在三维空间里,要做到交互和感知,就必须将世界恢复到三维。所以,在识别的基础上,计算机视觉下一步必须走向三维重建。本文笔者将带大家初步了解三维重建的相关内容以及算法。
小白学视觉
2019/10/21
4.4K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 !
计算机视觉中的一个基本问题是在三维空间中理解和识别场景与物体。它允许以紧凑的方式表达关系,并提供在现实世界中导航和操作的能力。3D视觉在各个领域都发挥着重要作用,包括自动驾驶、机器人技术、遥感、医疗、增强现实、设计行业等众多应用。
未来先知
2024/08/08
7030
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略  !
一张照片获得3D人体信息,云从科技提出新型DenseBody框架
多年以来,如何从单一图像估计人体的姿势和形状是多项应用都在研究的问题。研究者提出不同的方法,试图部分或者联合地解决此问题。本文将介绍一种端到端的方法,使用 CNN 直接从单个彩色图像重建完整的 3D 人体几何。
机器之心
2019/04/29
9820
一张照片获得3D人体信息,云从科技提出新型DenseBody框架
深度学习3D合成
人们普遍认为,从单一角度合成 3D 数据是人类视觉的基本功能。但这对计算机视觉算法来说极具挑战性。但随着激光雷达(LiDAR)、 RGB-D 摄像头(RealSense、 Kinect)和 3D 扫描仪等 3D 传感器的普及和价格的降低,最新的 3D 采集技术已经取得了巨大飞跃。与广泛使用的 2D 数据不同,3D 数据具有丰富的尺度和几何信息,可以帮助机器更好的理解环境。然而,与 2D 数据相比, 3D 数据的可用性相对较低,而且采集成本较高。因此,近年来许多深度学习方法被提出,可以不依赖任何 3D 传感器,从可用的 2D 数据中合成 3D 数据。在我们深入研究这些方法之前,先了解下要处理的 3D 数据的格式。
McGL
2021/01/26
1.3K0
基于三维点云的卷积运算综述
3D传感器(如激光雷达和深度相机)的普及引起了人们对3D视觉的广泛关注,这些传感器采集的3D数据可以提供丰富的几何结构和尺度细节,这也在许多领域得到了实际应用,包括自动驾驶技术[1]、机器人控制技术[2]等。
一点人工一点智能
2024/01/09
8621
基于三维点云的卷积运算综述
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024
通过无透镜成像实现3D人体姿态和形状估计不仅有利于保护隐私,而且由于设备体积小、结构简单,可用于军事等隐秘监测场景。
新智元
2024/06/17
2450
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024
Nat Methods|用AI革新冷冻电镜三维重建,实现结构生物学重大突破
在科研领域,常常会有某些技术因其突破性进展而成为时代的焦点,荣获2017年诺贝尔化学奖的冷冻电镜 (Cryo-EM) 正是这样的技术之一。比如,依托冷冻电镜技术,施一公团队曾于2015年首次捕获剪接体高分辨率结构,这被誉为近30年中国在基础生命科学领域对世界科学作出的最大贡献,也引发了大家对于冷冻电镜的广泛关注。
智药邦
2024/12/30
2790
Nat Methods|用AI革新冷冻电镜三维重建,实现结构生物学重大突破
照片转视频,像航拍一样丝滑,NeRF原班人马打造Zip-NeRF
机器之心报道 机器之心编辑部 原班人马打造,2023 年的 NeRF 进步神速。 2020 年,加州大学伯克利分校、谷歌的研究者开源了一项 2D 图像转 3D 模型的重要研究 ——NeRF。它可以利用几张静态图像生成多视角的逼真 3D 图像,生成效果非常惊艳: 三年之后,这支团队做出了更惊艳的效果:在一项名为「Zip-NeRF」的研究中,他们完整还原了一个家庭的所有场景,就像无人机航拍的效果一样。 ‍ ‍作者介绍说,Zip-NeRF 模型结合了 scale-aware 的抗混叠 NeRF 和快速基于
机器之心
2023/05/22
6820
照片转视频,像航拍一样丝滑,NeRF原班人马打造Zip-NeRF
ICRA 2022 | 基于多模态变分自编码器的任意时刻三维物体重建
论文题目:Anytime3D Object Reconstruction Using Multi-Modal Variational Autoencoder
3D视觉工坊
2022/04/13
7710
ICRA 2022 | 基于多模态变分自编码器的任意时刻三维物体重建
基于MeshCNN和PyTorch的三维对象分类和分割
将机器学习应用于3D数据并不像应用于图像那样简单。3D数据有很多表示形式,但选择决定了您可以使用哪种学习策略。在本文中,我将介绍一个特别有趣的策略(至少对我来说是?),叫做MeshCNN:一个有优势的
deephub
2021/07/01
1.6K0
推荐阅读
​CVPR 2020 | 北大&Futurewei提出 GraphTER:无监督图变换共变表征学习
6530
基于图像的三维物体重建:在深度学习时代的最新技术和趋势综述之三维曲面解码
1.2K0
深度学习背景下的图像三维重建技术进展综述
6.8K0
基于少量图像的三维重建综述
1.3K0
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
4010
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
2.1K0
三万字收藏 | 三维场景点云理解与重建技术
1.7K0
深度学习点云质量增强方法综述
2K0
基于图像的三维物体重建:深度学习时代的最新技术和趋势(概述和编码)
1.1K0
基于深度学习的视觉三维重建研究总结
4.4K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
1.8K0
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 !
7030
一张照片获得3D人体信息,云从科技提出新型DenseBody框架
9820
深度学习3D合成
1.3K0
基于三维点云的卷积运算综述
8621
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024
2450
Nat Methods|用AI革新冷冻电镜三维重建,实现结构生物学重大突破
2790
照片转视频,像航拍一样丝滑,NeRF原班人马打造Zip-NeRF
6820
ICRA 2022 | 基于多模态变分自编码器的任意时刻三维物体重建
7710
基于MeshCNN和PyTorch的三维对象分类和分割
1.6K0
相关推荐
​CVPR 2020 | 北大&Futurewei提出 GraphTER:无监督图变换共变表征学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档