Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从部分到整体:可控⼈体图像⽣成的统⼀参考框架

从部分到整体:可控⼈体图像⽣成的统⼀参考框架

作者头像
CV君
发布于 2024-05-20 07:43:19
发布于 2024-05-20 07:43:19
1190
举报

关注公众号,发现CV技术之美

本篇分享论文From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation

导⾔

在⼈体图像可控⽣成领域,尽管在控制姿态和⼈物⾝份等⽅⾯取得了显著进展,但要通过不同⼈体部位实现精准控制仍⾯临重⼤挑战,尤其是在涉及多重可控条件时,控制效果往往难以保证。

针对这⼀问题,北京航空航天⼤学的研究团队提出了⼀种新颖的研究⽅法“从部分到整体”(Parts2Whole)。这项技术能够利⽤多个参考图像,包括姿势图和不同的⼈体部位外观,⽣成⾼度可控的⼈体图像。

该研究⽅法的核⼼在于其创新的语义感知外观编码器,共享⾃注意⼒机制和掩膜引导的主题选择机制,使得从多个参考图像中精确抽取⽬标特征成为可能。

  • 项⽬主⻚:https://huanngzh.github.io/Parts2Whole/
  • Github链接:https://github.com/huanngzh/Parts2Whole

Parts2Whole做的任务是什么?

在图像⽣成领域,可控的⼈体⽣成技术正逐步展现其重要性。这⼀技术不仅能够按照特定的⽂本描述或结构信号(⽐如姿态等信息)来合成⼈像,还能够根据更精确的外观条件(⽐如⼈脸)进⾏调整,从⽽为⽤户提供了⼀种全新的定制化肖像解决⽅案。

然⽽,当前的研究主要集中在使⽤单⼀图像或⽂本条件进⾏⽣成,难以同时控制多种⼈体外观特征的合成,这些⽅法往往忽视了如发型、服装等其他关键外观特征的综合控制,且在保持⽣成图像与多部分条件⼀致性上仍存在挑战。

针对以上问题,研究者们提出了⼀个全新的框架:Parts2Whole。该框架旨在实现从多个参考图像中⽣成⾼质量、⾼⼀致性的完整⼈体图像,这些参考图像可以包括不同的⼈体部分,如头发/头饰、⾯部、服装和鞋⼦等。

Parts2Whole不仅可以从多个不同⼈体部分来进⾏完整⼈体图像的⽣成,还可以使⽤不同数量的⼈体部分进⾏⽣成,⽐如可以只根据⼀张⼈脸的参考图像进⾏⽣成,也可以使⽤⼀个⼈脸加衣服的参考图像作为控制条件来进⾏⽣成。

总的来说,Parts2Whole可以根据不同数量的⼈体部分图作和给定的⽬标姿态图,⽣成与控制条件⾼⼀致性,⾼质量的⼈体图像。

Parts2Whole是如何构建数据的?

研究者在开源数据集 DeepFashion-MultiModal 的基础上进⾏了后处理操作,主要包括:

  • 对数据集进⾏id清洗;
  • 使⽤清洗后的同⼀id,同⼀⾐服,不同姿态的⼈体图像来构建训练对(pair);
  • 提取对应图像的⼈体姿态(pose)图;
  • 根据⼈体解析图(human parsing) 来指导分割;
  • 分割后的参考图像进⾏图像超分。

最终构建出约41,500条数据。

Parts2Whole的关键技术是什么?

Parts2Whole采⽤了⼀种独特的语义感知外观编码器,该编码器能够将每个参考图像及其⽂本标签编码成多尺度的特征图,保留了丰富的外观细节和空间信息。此外,通过在扩散过程中使⽤共享⾃注意⼒机制,该框架能够在保持参考特征的位置关系的同时,将这些特征精确地注⼊到图像⽣成过程中。同时,为了更精确的从参考图像中选取关键特征,Parts2Whole还提出了增强的遮罩引导主体选择机制。

语义感知外观编码器(Semantic-Aware Appearance Encoder)

语义感知外观编码器是框架的⼀个关键部分,它可以处理多个参考图像,每个图像对应不同的⼈体部分(如头发、⾯部、上⾝⾐物等)。每个参考图像及其对应的⽂本标签被编码成⼀系列多尺度的特征图。这种编码⽅式不仅保留了图像的细节和空间信息,还通过⽂本标签提供了类别指导,帮助编码器理解不同部分的语义信息,从⽽更好地保持图像的细节和现实感。这⼀过程采⽤了与去噪U-Net相同的⽹络结构,并使⽤了预训练的权重。

共享⾃注意⼒机制(Shared Self-Attention)

在获取了N个参考图像的多层特征图之后,框架并不是简单地将这些特征直接加⼊去噪U￾Net,⽽是采⽤共享的键(keys)和值(values)在⾃注意⼒层中进⾏特征注⼊。这种设计允许每个特征位置不仅关注⾃⾝的特征,还能关注其他参考图像的特征,且该注意⼒操作在图像维度开展,能够保留参考图像的外观细节。此外,通过借鉴IP-Adapter在Stable Diffusion模型中额外加⼊的交叉注意⼒层,可以进⼀步引⼊参考图像的CLIP特征和⽂本输⼊,增强⽣成图像的控制能⼒。

增强的遮罩引导主体选择(Enhanced Mask-Guided Subject Selection)

为了从多个参考图像中精确选择⽬标部分,框架增加了⼀个遮罩引导的⾃注意⼒机制。这个机制通过引⼊参考图像中的主体遮罩,可以更准确地将注意⼒限定在特定的部分,避免由于背景或其他不相关元素的⼲扰导致⽣成的⼈体图像出现不⾃然的外观。这⼀设计不仅提⾼了⽣成图像的质量,也增强了对⽣成过程的控制性和精确性。

通过这个统⼀参考框架,Parts2Whole能够有效地处理和整合多个参考图像的特征,⽣成与输⼊条件⾼度⼀致且细节丰富的⼈体图像,显著提⾼了⼈像⽣成技术的灵活性和实⽤性。

Parts2Whole的效果怎么样?

研究者在构建数据中的测试集上进⾏了实验,可以看出Parts2Whole能够从多个参考图像中精准的提取出颜⾊、纹理和图案细节,具有较⾼的图像⽣成质量。

Parts2Whole还可以根据不同⼈物的图⽚部分来组合定制全⾝图像和⽀持任意的控制条件数量。

轻松定制全⾝图像

Parts2Whole能够有效地处理和整合多个不同⼈体的参考图像,⽐如想试试⾃⼰的外观搭配⼈物A的发型,⼈物B的上衣,⼈物C的裤⼦会是什么样⼦的,通过Parts2Whole,可以轻松的实现这⼀⽬标。

任意控制条件数量

Parts2Whole不仅可以从多个不同⼈体部分来进⾏完整⼈体图像的⽣成,还可以使⽤不同数量的⼈体部分进⾏⽣成,⽐如可以只根据⼀张⼈脸的参考图像进⾏⽣成,也可以使⽤⼀个⼈脸加衣服的参考图像作为控制条件来进⾏⽣成。

更多的技术细节和实验结果请参阅论⽂:https://arxiv.org/pdf/2404.15267

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展,但人类图像动画仍然具有挑战性,因为它需要对帧内连贯性和帧间一致性有全面的理解。
AIGC 先锋科技
2025/02/20
1740
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下
最近一段时间,你可能或多或少的听到过「科目三」,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一舞蹈动作遭全网模仿。
机器之心
2023/12/05
5380
全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
由于社交媒体平台的进步,照片的创意编辑成为了普遍需求。基于人工智能的技术极大地降低了炫酷图像编辑的门槛,不再需要专业软件和耗时的手动操作。深度神经网络通过学习丰富的配对数据,可以产生令人印象深刻的结果,如图像修复、构图、上色和美化。然而,语义图像编辑仍然具有挑战性,它旨在操纵图像内容的高级语义并保持图像的真实性。目前,大规模语言图像模型能够以文本提示为指导实现图像操作,但是详细的文本描述常常不够准确,很难描述细粒度的物体外观。因此,需要开发一种更直观的方法来方便新手和非母语使用者进行精细的图像编辑。
用户1324186
2023/10/28
1K0
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
近年来,生成逼真的人类运动视频受到了广泛关注,特别是在生成式人工智能的进步之后。与图像生成相比,视频生成面临更大的挑战,因为它不仅需要高质量的视觉效果,还需要帧与帧之间平滑的时间一致性,以保持视觉连贯性[68]。虚拟人类、动画电影和沉浸式体验等应用推动了可靠、高质量运动视频生成方法的需求。
AIGC 先锋科技
2025/03/17
2200
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
CVPR2023 Tutorial Talk | 文本到图像生成的对齐
先前的发言者已经讨论了如何消费视觉数据来训练能够拥有良好图像表示的视觉理解模型,以及如何构建更通用的图像理解模型。接下来,我们将稍微探讨反向过程,即如何产生视觉数据。在这个教程环节中,我们将重点放在所谓的对齐视角上,看看如何获得与人类意图一致的数据,使得这些数据更有用。
用户1324186
2023/10/19
1.1K0
CVPR2023 Tutorial Talk | 文本到图像生成的对齐
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.4K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
惊爆!研究提出新颖框架,集成CLIP空间扩展预训练StyleGAN能力,文本引导操作灵活,性能远超现有方法 !
他们面临在分布外图像上的困难。尽管编辑器优化技术非常灵活,但在推理时会带来巨大的计算成本。
AIGC 先锋科技
2025/02/25
1940
惊爆!研究提出新颖框架,集成CLIP空间扩展预训练StyleGAN能力,文本引导操作灵活,性能远超现有方法 !
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
异常检测(AD),识别不规则或显著偏离正常性的实例,在多个领域中都是一个积极研究的课题。在标准的视觉AD基准测试中,"不规则性"通常由以下因素引起:高 Level (或语义)变化,如出现未见过的类别目标;物体上的缺陷,如划痕、凹痕;颜色、形状、大小的低 Level 变化;或像素级噪声[16]。标准的做法是学习表示,同时还有能够对常规实例集合内的变化鲁棒,同时又能对引起不规则性的因素敏感的分类器。然而,当不规则性是任意的,并且取决于实例的上下文和/或个体特征,而这些可能事先不知道或未被观察到时,这种范式表现得很差。例如,在像"椅子"这样包含视觉上非常多样实例的物体类别中,三条腿可能意味着缺少一条腿,因此对于某个椅子实例来说是异常,而对于另一个实例则是正常的。这里的AD取决于椅子实例最初是否被设计为有三条腿。
AIGC 先锋科技
2024/07/31
4630
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
8680
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成
个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。随着图像生成模型的持续突破,这项技术已在广告营销、角色设计、虚拟时尚等多个领域展现出巨大的应用潜力和商业价值,正在深刻地改变着我们创造和消费视觉内容的方式。
机器之心
2025/03/27
1060
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成
混元视频:大型视频生成模型的系统框架
视频生成技术的最新进展极大地改变了个人与行业日常生活的面貌。然而,主流的视频生成模型仍为闭源,导致行业与公众社区在视频生成能力上存在显著的性能差异。在本报告中,我们提出了HunyuanVideo,这是一种新型开源视频基础模型,其视频生成性能可与主流闭源模型相媲美,甚至更优。HunyuanVideo具有一个综合框架,整合了多项关键贡献,包括数据整理、先进架构设计、渐进式模型缩放与训练,以及为大规模模型训练和推理设计的高效基础设施。凭借这些,我们成功训练了一个参数超过130亿的视频生成模型,成为所有开源模型中的最大模型。我们进行了广泛的实验并实施了一系列有针对性的设计,以确保高视觉质量、运动动态、文本-视频对齐和先进的拍摄技术。根据专业人工评价结果,HunyuanVideo的性能优于先前的最先进模型,包括Runway Gen-3、Luma 1.6和3个表现最佳的中国视频生成模型。通过发布基础模型及其应用的代码,我们旨在弥合闭源与开源社区之间的鸿沟。这一举措将使社区中的每个人都能够对自己的想法进行实验,从而培育一个更具活力和动态的视频生成生态系统。代码已公开发布在https://github.com/Tencent/HunyuanVideo。
AI浩
2024/12/19
4930
混元视频:大型视频生成模型的系统框架
文本生成图像工作简述5--对条件变量进行增强的 T2I 方法(基于辅助信息的文本生成图像)
在传统的T2I方法中,常常使用一个固定的随机噪声向量作为输入,然后通过生成器网络来生成图片。而条件变量增强的T2I方法则通过引入额外的条件信息来生成更具特定要求的图片, 这个条件信息可以是任何与图片相关的文本信息,比如图片的描述、标签或者语义向量。
中杯可乐多加冰
2024/04/24
3220
ECCV2022 | 生成对抗网络GAN论文汇总(图像转换-图像编辑-图像修复-少样本生成-3D等)
图像转换/图像可控编辑 视频生成 少样本生成 图像外修复/结合transformer GAN改进 新数据集 图像增强 3D 图像来源归属分析 一、图像转换/图像可控编辑 1、VecGAN: Image-to-Image Translation with Interpretable Latent Directions 提出VecGAN,图像到图像的转换方法,用于具有可解释的潜在方向的人脸属性编辑。人脸属性编辑任务面临着强度可控的精确属性编辑和保留图像其它非目标属性的挑战。为此,通过潜在空间分解来设计属性编辑,
公众号机器学习与AI生成创作
2022/10/31
1.8K0
ECCV2022 | 生成对抗网络GAN论文汇总(图像转换-图像编辑-图像修复-少样本生成-3D等)
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
7.2K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
干货 | CVPR 2018论文:「随心所欲」换装换姿态
本文作者 Liqian Ma,他为 AI 科技评论撰写了他作为第一作者被 CVPR 2018 录用的 Spotlight 论文解读稿件。
AI科技评论
2018/07/27
1.2K0
干货 | CVPR 2018论文:「随心所欲」换装换姿态
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
1.1K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
真实世界的图像超分辨率(SR)是图像处理领域的一项基本任务,旨在增强低分辨率(LR)图像,生成对应的高分辨率(HR)图像。尽管近年来该领域取得了重大进展,但复杂现实场景的处理仍然面临着持久的挑战。利用图像先验是解决现实世界SR问题的常用策略,而最近出现的文生图扩散模型显示出基于用户提供的提示生成高质量图像的卓越能力。这些模型不仅具有强大的图像先验,而且能够以语言的形式对人类指令做出精确的反应。这展示了连接低级图像处理和高级抽象认知的可能性。传统的图像超分辨率技术坚持自下而上的方法,主要集中于局部内容和直接像素级处理。这些方法在把握整体图像上下文方面表现出固有的局限性,往往无法恢复严重退化但语义上至关重要的细节。此外,考虑到LR图像的病态性质,有可能引入语义错误的纹理。为了应对这些挑战,有必要为 SR 模型注入“认知”能力。因此,本文提出了一种先进的 SR 方法,称为认知超分辨率(CoSeR),它与人类在图像感知中采用的自上而下的认知过程一致。它从认知嵌入的生成开始,这是一种封装了 LR 图像总体理解的表示,包含场景语义和图像外观。这种认知嵌入能够精确地利用嵌入在预训练的文生图模型中的隐含先验知识,从而以类似于人类专业知识的方式增强恢复图像细节的能力。先前的工作使用分割图来提供语义,然而,获取现实世界LR图像的理想的分割图仍然很困难,且语义分割受限于预先定义的类别,限制了它在开放世界场景中的适用性。除了隐式地利用扩散先验,本文还显式地利用了图像先验。本文提出了一种新的方法,使用来自 LR 输入的认知嵌入,通过扩散模型生成参考图像,并将其用于指导恢复过程。如图1所示,认知嵌入包含了语言理解,同时保留了图像的颜色和纹理信息,从而产生了高质量的参考图像,不仅在语义上对齐,而且在外观上相似。这种显式方法在捕获高清纹理方面带来了实质性的改进。为了同时保证纹理的真实感和保真度,本文引入了一种“All-in-Attention”设计,通过注意机制集成了多个信息源,包括认知嵌入、参考图像和 LR 输入。这种方法允许模型灵活地使用不同的条件组件,从而产生改进的结果。实验表明,与以前的方法相比,本文的模型在生成更复杂的纹理的同时保持了保真度。
用户1324186
2024/04/12
1.1K0
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
行人重识别 PCB-RPP,SGGNN
为了帮助大家更好地理解当前基于深度学习的相关算法原理和实现细节,SIGAI邀请了目标检测领域的资深专家谭博士为你全面、系统地讲述通用目标检测一系列算法的原理以及编码实现中的细节与技巧,避免实现论文的算法时采坑。
SIGAI学习与实践平台
2018/10/18
1.9K0
行人重识别 PCB-RPP,SGGNN
InteractVLM:利用大型视觉语言模型结合“渲染-定位 - 提升”模块实现自然场景图像精确三维人-物联合重建 !
人们日常与物体进行交互。在三维空间中重建人-物交互(HOI)对于许多应用至关重要,从机器人到混合现实。然而,仅从单张图像中完成这一任务具有挑战性,原因在于深度模糊、遮挡以及物体形状和外观的多样性。
AIGC 先锋科技
2025/05/09
1160
InteractVLM:利用大型视觉语言模型结合“渲染-定位 - 提升”模块实现自然场景图像精确三维人-物联合重建 !
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
---- 新智元报道   编辑:LRS 【新智元导读】SemanticHuman兼顾精细语义与几何刻画的三维人体表示,可实现部件级别的灵活可控编辑。 近年来三维人体表示学习受到越来越多的关注,不过现有工作由于受限于粗糙的语义和有限的表示能力无法灵活、可控、准确地表示人体,尤其是在缺乏配对监督数据的情况下。 针对上述问题,天津大学团队联合英国卡迪夫大学在CVPR2023的工作中提出一种兼顾精细语义与几何刻画的三维人体表示——SemanticHuman。 项目主页:http://cic.tju.edu.
新智元
2023/05/09
3830
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
推荐阅读
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
1740
全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下
5380
CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型
1K0
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
2200
CVPR2023 Tutorial Talk | 文本到图像生成的对齐
1.1K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.4K1
惊爆!研究提出新颖框架,集成CLIP空间扩展预训练StyleGAN能力,文本引导操作灵活,性能远超现有方法 !
1940
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
4630
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法
8680
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成
1060
混元视频:大型视频生成模型的系统框架
4930
文本生成图像工作简述5--对条件变量进行增强的 T2I 方法(基于辅助信息的文本生成图像)
3220
ECCV2022 | 生成对抗网络GAN论文汇总(图像转换-图像编辑-图像修复-少样本生成-3D等)
1.8K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
7.2K0
干货 | CVPR 2018论文:「随心所欲」换装换姿态
1.2K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
1.1K0
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
1.1K0
行人重识别 PCB-RPP,SGGNN
1.9K0
InteractVLM:利用大型视觉语言模型结合“渲染-定位 - 提升”模块实现自然场景图像精确三维人-物联合重建 !
1160
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
3830
相关推荐
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档