前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >腾讯/上海AI实验室/清华提出 MVPaint:同步多视点扩散用于绘制任何 3D 物体 !

腾讯/上海AI实验室/清华提出 MVPaint:同步多视点扩散用于绘制任何 3D 物体 !

作者头像
AIGC 先锋科技
发布2025-01-09 18:39:05
发布2025-01-09 18:39:05
1090
举报
文章被收录于专栏:AIGC 先锋科技

纹理化是3D资产生产流程中的一个关键步骤,它可以提升3D资产的视觉吸引力和多样性。尽管在文本到纹理(T2T)生成方面进行了近期改进,但现有方法通常会产生次佳的结果,主要原因是局部不连续性,多视图之间的不一致性以及过度依赖UV展开结果。为了应对这些挑战,作者提出了一种名为MVPaint的新颖生成-精炼3D纹理框架,它可以在生成高分辨率、无缝纹理的同时强调多视图一致性。MVPaint主要由三个关键模块组成。 同步多视图生成(SMG)。给定一个3D网格模型,MVPaint首先通过使用SMG模型同时生成多视图图像,导致由于缺少观察而出现粗糙纹理结果。 空间感知3D修复(S3I)。为确保完整的3D纹理,作者引入了S3I方法,该方法专门设计用于有效纹理化之前未被观察到的区域。 UV精炼(UVR)。此外,MVPaint采用UVR模块来改善UV空间的纹理质量,首先在UV空间进行超分辨率,然后使用空间感知缝隙平滑算法修订由UV展开引起的空间纹理不连续性。此外,作者建立了两个T2T评估基准:Objaverse T2T基准和GSO T2T基准,分别基于Objaverse数据集中的选定高质量3D网格和整个GSO数据集。

1 Introduction

3D纹理生成仍然是资产创建的复杂且关键方面,尤其是在游戏、动画和虚拟/增强/混合现实等领域具有很高的价值。尽管专门的3D训练数据稀缺,纹理建模具有很高的计算需求,但近年来,文本到图像技术的突破极大地推动了这一领域的发展。这些技术促进了文本到纹理(T2T)生成,并将其与3D形状相结合,提高了3D模型的视觉多样性和现实感。然而,在各种视图角度下实现一致且无缝的纹理仍然具有挑战性,通常受局部不连续性和跨视图不一致性的影响。

最近,许多纹理生成方法都专注于利用2D扩散先验进行引导,这通常利用条件控制(例如深度)来产生更贴合纹理。Texture和Text2Tex分别采样一系列摄像机视点,以迭代渲染深度图,然后通过预训练的深度到图像扩散模型生成高质量图像。为了避免因使用多个独立生成过程而产生不一致纹理,SyncMVD引入了一种结合多视图单步去噪与UV空间同步的方法。然而,其重复使用的注意力过程仅限于附近视图,这经常导致Janus问题。Paint3D开发了一种从相机视点迭代绘画的粗糙到细滑纹理生成策略,然后通过在UV空间进行修复和超分辨率。同样,Meta 3D TextureGen也采用UV位置图进行UV修复和增强。尽管实现了显著的3D纹理效果,但这两个工具[4,60]都严重依赖于连续网格UV展开。纹理的间断通常出现在UV图像中的UV图块随机堆叠的场景中。

因此,3D纹理仍然存在许多挑战:

多视图一致性:确保多个视点之间的一致性,以防止局部风格断裂和大量接缝的存在。

纹理细节多样性:避免过于平滑的纹理,缺乏细节,同时追求高分辨率输出。

UV展开的鲁棒性:开发一种不依赖UV展开结果的实现方法,以实现自动生成的鲁棒性。

为了应对这些挑战,作者提出了一种名为MVPaint的从粗糙到精细的3D纹理生成框架,能够生成高保真度、无缝的3D纹理,同时确保多视图一致性并减少对UV展开质量的依赖。MVPaint主要由三个阶段进行纹理生成。首先,作者采用了一种名为同步多视图生成(SMG)的模型,该模型使用多视图扩散模型(带有交叉注意力)[51]和UV同步来根据给定的纹理指令启动3D纹理生成,从而有效地避免了Janus问题,并生成了在低分辨率下高度一致的多视图图像。接下来,作者通过添加生动的纹理细节对粗糙的多视图图像进行上采样和细化,然后将它们投影到UV空间(1K分辨率)进行进一步的增强。

其次,作者提出了一种名为空间感知的3D修复(S3I)的方法,以确保完全的3D纹理,特别是第一阶段未观察到的区域。具体而言,S3I通过考虑来自网格表面均匀采样的3D点之间的空间关系来解决3D空间中的修复过程。最后,作者引入了一个UV优化(UVR)模块,该模块包含一系列定制的UV空间纹理增强操作。UVR首先使用超分辨率模块将UV图扩展到2K分辨率。然后,作者引入了一种空间感知的接缝平滑算法(SSA)来修订空间不连续的纹理,特别是用于修复由UV展开产生的接缝。因此,可以获得高质量的3D UV纹理。

为促进T2T生成的评估,作者建立了两个基准:Objaverse [12] T2T基准和GSO [16] T2T基准。Objaverse T2T基准包括从Objaverse数据集中挑选出的1000个高质量3D网格。考虑到大多数T2T模型是在Objaverse数据集的子集上进行训练的,作者还进一步建立了GSO T2T基准,该基准利用GSO数据集中的所有1032个3D模型来评估T2T模型的泛化能力。对于每个3D网格,使用大型语言模型(LLM)生成文本标注。在Objaverse [12]和GSO [16] T2T基准上的大量实验结果表明,MVPaint可以超越现有的最先进(SoTA)方法,用于3D纹理生成。作者需要强调的是,MVPaint是一种强大且可靠的3D纹理方法,显著减少了失败生成的发生,例如缺少区域、大型不一致、过度光滑和Janus问题。MVPaint的纹理结果可以在图1中可视化。

作者所做的贡献可以概括如下:

1) 作者提出了一种名为 MVPaint 的健壮 3D 纹理框架,用于生成多样、高质量、无缝的 3D 纹理,同时确保多视图一致性。

2) 在本工作中,作者提出了多种 3D 纹理模型、操作和策略,包括 SMG、S3I 和 UVR 模块,并对其进行了研究和应用。作者相信这些贡献将显著推动 3D 纹理生成技术的未来研究。

3) 作者在 Objaverse 和 GSO T2T 基准上进行了广泛的实验,证明 MVPaint 实现了令人印象深刻的 3D 纹理生成结果,超越了现有的最先进方法。

2 Related Work

多视图生成。从诸如文本、图像和网格等不同输入中生成一致的多视图像,已成为一个关键的研究领域。这使得可以创建在各种视角下外观一致的3D资产。像Zero-1-to-3 [33]和Consistent-1-to-3 [58]这样的突破性研究采用了基于视点的扩散模型来合成物体的全新视角,确保了在生成视角之间无缝过渡。在这些进展的基础上,Zero123++ [46]和MVDream [47]分别采用了将多个视图图像拼接成单个画布进行生成的方法,分别产生了一致的六视图和四视图图像。

3D纹理生成。传统上,纹理生成依赖于手工或过程技术,这些技术对基本应用有效,但缺乏复杂性。全局优化技术的引入[25, 53]允许生成更详细的纹理,更好地匹配3D模型几何。基于AI的3D纹理生成最初主要由生成对抗网络(GANs)主导,然后焦点转向潜在扩散模型(LDM)[21, 44],例如Stable Diffusion[39, 44]表现出令人鼓舞的结果。大规模文本图像先验模型使得纹理生成方法[10, 34, 43]能够利用文本图像相关性通过提取CLIP[37, 42, 45]的梯度来更新渲染的3D视图。迭代方法[13, 38, 43]通过渲染深度或法线图,利用ControlNet[62]增强3D模型中纹理质量的一致性。其他方法[4, 60]生成具有深度或法线条件稀疏视图的多视图图像,然后直接在UV图上应用修复和优化,使用位置图控制的扩散网络。然而,UV扩散模型直接生成正确且3D连续纹理块的挑战在于,它们经常被打包到分离的UV区域。最近,多路径扩散[3]在多个单视图DDIM[48]过程中同步覆盖的潜在[34]或图像[27, 61],尽管这些方法[27, 34]往往陷入多面问题,也称为Janus问题,这是使用2D先验在3D生成中典型的现象。更多关于Sec. A的讨论。

3 Our Approach

给定一个无纹理网格 和一个纹理 Prompt ,其中 表示由 中的 点组成的集合, 表示由三个顶点组成的每个三角形的面集。MVPaint 的目标是生成一个高质量的纹理图(2K Level ),作为多通道 UV 图像 ,条件取决于纹理 Prompt 。

为了实现多视图一致性、高质量和无缝的 3D 纹理,MVPaint 利用了三个主要阶段,包括:

1) 同步多视图生成(SMG)模型 - 用于同时生成密集的视图图像作为初始纹理;

2) 空间感知 3D 修复(S3I)模型 - 基于空间关系进行纹理修复和增强;

3) UV 精炼(UVR)模块 - 进行上采样和精炼以生成最终的 UV 纹理。MVPaint 的概述如图2所示。

Synchronized Multi-View Generation

基于最近在文本到图像(T2I)模型中使用2D扩散先验的成功经验 ,许多3D纹理化方法 [6, 34, 43, 60] 采用深度条件下的2D生成模型来初始化纹理。具体而言,它们通常首先从给定的3D网格模型 周围采样多个视角,生成深度图,然后使用预训练的深度到图像扩散模型,根据文本指令生成多视图图像。尽管利用了2D生成先验,但现有方法在生成过程中往往忽视了3D先验,导致生成的多视图结果质量较低,存在多视图不一致、Janus问题以及缺乏生动细节的过度平滑纹理等问题。

文本到多视图(Text-to-Multi-View,T2MV)扩散模型。与上述方法不同,作者利用文本到多视图(T2MV)扩散模型 [47],其中多视图先验充当了一个通用的3D先验,在一个单向过程条件下生成一致的多视图图像,该条件取决于文本指令。特别地,作者通过训练控制模型来指导生成过程,使用相应的视图的深度或法线图(缩写为)[62]。形式上,初始低分辨率多视图图像(缩写为)的生成可以表述为:

其中, 是用于 MV 生成的潜在空间。

多视图同步。现有的基于T2I模型的纹理方法[3, 30, 34]通过在潜在空间整合不同视点的去噪过程,来增强纹理预测的对齐。尽管不同视点之间存在显著差异,可能导致过于平滑的纹理,但同步操作可以通过调整不同视点的生成结果,基于相同的UV图来消除微小的差异。然而,T2MV模型的潜在空间通常具有低分辨率(例如,32×32),这使得建立到UV空间的强健映射复杂化,特别是在UV展开复杂的情况下,从而阻碍了不同视点之间复杂视觉关系的有效捕捉。

相比之下,作者提出了一种同步多视图生成(SMG)模型,通过在解码图像域中对多视图生成进行对齐来融合多个视图的扩散路径。给定在时间步的潜在 ,通过从中移除噪声,可以得到一个干净的中间状态(在以下简称为)。然后,通过使用中的预训练解码器,将转换为更大的分辨率(例如,)的图像空间。接下来,作者通过将多视图生成与反UV映射融合,并应用视图方向和UV空间中表面法线的余弦角度权重,生成同步UV图。然后,通过对UV图进行分段,并使用中的预训练编码器将其编码为同步潜在,从而增强多视图的一致性。最终,作者可以得到同步多视图图像。

和 分别表示 UV 渲染和 UV 映射函数。值得注意的是,使用单个同步步骤可能已经足够,而许多同步扩散步骤可能导致不稳定的迭代。同步的有效性可以在图3 中可视化。

同步精炼。 为了提升和放大多视图图像 , 作者利用图像到图像 (I2I) 生成模块 进行同步纹理精炼,在保持多视图一致性的前提下,在更高的分辨率 (1K Level ) 上生成高保真图像 。具体而言,作者利用两个预训练的控制模型 [44, 62],包括纹理精炼模型 和几何约束模型 ,采用同步去噪机制 [34] 来确保不同视图之间的一致性。形式上,高质量的多视图图像精炼可以表示为:

是一个随机初始化的潜在层,用于单图像生成, 是一组 个高分辨率几何图(例如,深度或法向量),而 和 是两个控制模型的用户定义强度。

Texture Inpainting in 3D Space

尽管高质量的多视图图像 覆盖了大部分网格表面,但仍有未观测到的区域需要进行补全。在执行 UV映射 后,多视图图像 被投影到UV空间,实现了不完整的UV映射 。为了应对UV映射 中复杂自遮挡问题造成的伪影,作者通过识别和限制受遮挡区域来优化投影区域(详情请见B.4节)。对于UV映射的完整性,现有方法 [34, 60] 大多在UV空间中直接进行补全。然而,相邻的3D区域经常被映射到内的非相邻2D区域,尤其是在高度碎片化时更为明显。

针对这个问题,作者提出了一种空间感知的3D修复(S3I)模块(如图2中的阶段2所示),用于在3D空间中修复纹理,生成基于不完整纹理T_i的覆盖完整3D纹理T_c,同时强制3D几何感知的空间一致性。具体来说,作者首先通过将来自T_i中有效区域每个像素的3D点坐标及其对应RGB值拼接,生成一个密集彩色点云P_uv∈R^{N_{uv}×6}。需要注意的是,来自有效UV区域的未涂色像素也将用于生成具有零初始化颜色向量的3D点P_u⊂P_uv。因此,修复UV纹理可以被重新表述为在由T_c可见区域生成的可见区域P_v⊂P_uv生成的彩色3D点集合P_v中,针对每个点p∈P_u预测一个合适的颜色向量。值得注意的是,S3I学习免费方法不受UV展开结果的影响。

为了解决3D点修复问题,作者提出了一种空间感知色彩传播(SCP)算法,该算法逐次将颜色值从传播到。在每次迭代中,选择每个点的近邻,然后通过在内的每个邻居的颜色向量进行加权求和来估计的颜色向量。对于每个相邻点,聚合权重通过考虑欧几里得距离和与之间的表面法向相似性进行计算:

其中 和 分别是 和 的表面法向量。 是一个稳健映射函数,定义为:

在次迭代后,所有3D点都将被绘制,从而实现1K Level 的高质量UV纹理的全覆盖(见附录B.2节以获取算法详细信息)。S3I的有效性可以通过图4进行可视化。

UV Refinement

尽管已经获取了全覆盖UV纹理,但可能在反投影和插值填充过程中出现纹理细节错误。为了实现高质量的UV图,作者提出了一种UV细化(UVR)模块(如图2中第三阶段所示),主要包含以下两部分:1) UV纹理超分辨率模块用于UV纹理上采样和细化;2) 空间感知缝隙平滑算法用于修复由UV上采样引起的纹理缝隙。

UV空间超分辨率。为了生成更美观、分辨率更高的纹理映射,作者在UV空间对进行超分辨率处理。作者使用一个从图像到图像的Upscaling(UP)扩散模型,在UV空间中采用一个上采样模型:

是用于高分辨率 UV 生成的随机初始化潜在。上采样模型 可以选择为镶嵌控制网络或上采样网络。

空间感知缝隙平滑算法(Spatial-aware Seam-smoothing Algorithm,SSA:尽管在向上采样后的UV映射中可以获得更细腻和复杂的纹理,但UV展开通常会导致突然的变化。为了解决这个问题,作者在3D点云空间中引入了空间感知缝隙平滑算法(SSA)来修补缝隙。首先,作者提取二值图像,以 Token 中的有效像素,基于此作者进行连通性分析并进行边缘提取以检测缝隙 Mask 。类似于S3I中的投影操作,作者将重采样为3D彩色点云,然后应用SS算法进行缝隙修复。具体而言,作者使用缝隙 Mask 从中提取子集和,然后构建一个kd-树并使用中的相邻点对进行细化。最后,通过计算归一化向量余弦相似度和加权着色距离,作者得到最终的优质无缝纹理(2K Level )。SSA的有效性已在图5中得到说明。更多算法细节请参见第B.3节。

4 Experiments

在本节中,作者进行了大量实验以评估MVPaint从纹理指令生成高质量3D纹理的有效性。

实现细节:作者使用MVDream[47]作为SMG中T2MV 的基本模型,并添加控制模块,采用与ControlNet[62]相同的训练方案进行训练。与其他仅控制单视图的受控MVDream方法[32]不同,作者密集控制多视图以获得更好的形状对齐。对于同步细化,作者选择SDXL[39]作为I2I细化的基础模型,其中部署了两个预训练的ControlNets [14, 56],和。在细化过程中,每个视图的潜在具有128×128的分辨率,它们与分辨率的同步。在所有SMG过程中,模型在个视图上工作,它们的方位角均匀分布,且交错上升角为。

Text-Instructed 3D Texture Generation

数据集详情作者从有效单纹理映射的104k Objaverse [12]样本中筛选出来,并使用Xatlas [59]进行纹理包装。其中,102k样本用于训练,其余的用于验证和评估。训练数据包括渲染的每个视图的RGB图像 和相应的控制 Agent 图像 。文本标注是通过指导CogVLM-2模型 [23]描述3D物体的类别、纹理和外观,利用多视图图像 作为模型输入来获得的。之后,使用另一个LLM [26]进行关键词总结。

评估基准。为了全面评估各种网格类型在文本到纹理(T2T)生成上的性能,作者构建了两个评估基准:

(1)Objayverse T2T基准。为了实现一个多样化的Objayverse T2T基准,作者将Paint3D测试集[60]集成进来,其中包含Objayverse中301个由艺术家制作的网格,以及3D扫描和复杂场景,如3D行人模型,导致了一个总共有1000个模型的广泛测试集。

(2)GSO T2T基准。Google扫描物体(GSO)数据集提供了一个精选的1032个3D扫描的常见家用物品的集合,每个物品都以高分辨率拍摄,以捕捉复杂的细节。由于3D纹理生成方法主要针对Objayverse中的3D目标进行训练,GSO数据集可以用来评估它们的一般化能力。因此,作者使用完整的GSO数据集建立了GSO T2T基准。

评估指标。在生成3D纹理后,作者对网格的512分辨率图像进行渲染,这些渲染图像使用了从相同海拔的16个固定视点生成的纹理,即15度以实现公平性。然后,作者将渲染图像与使用真实纹理生成的真实图像分布进行比较。为了进行全面评估,作者使用常用的生成指标:弗雷歇 inception 距离(FID)[20], Kernel inception 距离(KID)[5] 和 CLIP 分数[19]来评估图像分布、质量和丰富性。KID值在所有表格中均乘以1000。

用户研究。为了补充基于生成指标的定量结果,作者还进行了一项用户研究,以捕捉人们对生成的3D纹理的偏好。作者邀请了10名参与者,让他们在一个允许自由导航和观察3D模型的界面中评估纹理网格。每个参与者都被要求对以下方面在一个1到5的尺度上进行评分:整体质量,接缝可见度,以及反映他们对每个标准偏好的整体一致性。

评估结果。作者选择了T2T上所有现有的开源最先进方法进行比较,包括TEXTure [43],Paint3D [60]和SyncMVD [34]。Objayverse T2T基准测试上的定量结果见Tab.1。作者的方法MVPaint在FID和KID方面取得了最佳成绩,分别比之前的最先进方法提高了4.3和1.7,而TEXTure提供了最佳的CLIP分数。值得注意的是,TEXTure经常遇到Janus问题,可能导致较高的CLIP分数。根据用户研究,MVPaint在所有评估方面都超过了之前的最先进方法,获得了最高的评分,包括整体质量,缝隙可见性和一致性。

由于T2T方法中没有引入GSO数据集进行训练,因此可以使用GSO T2T基准来评估它们的泛化能力。GSO T2T基准上的定量结果见表2。与Objayverse T2T基准上的结果相似,MVPaint在GSO T2T基准上实现了最佳的客观FID,KID性能,主观用户研究评分,并获得了第二好的CLIP评分。由于Paint3D包含一个在Objayverse数据集上进行训练的关键子模块,因此在评估GSO T2T基准时的性能相较于在Objayverse T2T基准上的性能明显下降。相比之下,MVPaint在训练了来自Objayverse的数据集后,仍能在GSO基准上保持产生高质量3D纹理的能力。定性比较可见图6。

Ablation

SMG设计 为了验证从第一阶段SMG模块的有效性,作者对其实验了三个关键设计,包括T2MV扩散模型、多视同步和几何感知优化。具体而言,在无MV同步中,作者省略了同步模块,并使用而不是来表示T2MV模型。在无MV扩散中,作者省略了整个T2MV模型及其输出,并使用在中从头生成。在无几何优化中,作者删除了几何优化控制模型,只使用了镶嵌模型。组合基准测试的定量结果报告在表3中,证实了所提出的设计的有效性。

图7展示了定性结果。在没有多视同步的情况下,不一致的MV图像会导致后续细化初始化较差。在缺乏MV图像的情况下,细化网络在不同的视图之间难以确定无纹理网格的方向,从而导致Janus问题。在没有几何引导细化()的情况下,细化仅在粗糙的MV图像上添加细节,并加剧了初始化错误。有了完整的架构,MVPaint能够产生多视图一致的结果,避免了Janus问题。在GSO基准上的定量消融结果见表S1,进一步分析见C.2节。

3D 补全和缝隙平滑. 同时作者也验证了3D补全(从第2阶段)和缝隙平滑(从第3阶段)的有效性,其定量结果见表3。它们的定量结果非常接近,FID在±0.1以内略有波动,而KID始终低于0.2。尽管这些优化操作对指标影响很小,但它们可以有效地消除纹理 artifacts。

Application

MVPaint能够根据文本指令生成忠实于原文的3D纹理,因此支持各种相关应用,如:

1) 生成多样3D纹理:给定一个特定的3D网格模型,MVPaint可以根据不同的文本 Prompt 生成具有较大变化的3D纹理。如图8所示,MVPaint为单个独角兽模型生成了38种不同的3D纹理。

2) 为AI生成的3D网格纹理:MVPaint生成3D纹理与UV展开质量无关,因此即使AI生成的3D网格中含有微小的瑕疵,也能生成高质量纹理。作者在图9中展示了MVPaint为MeshXL [7]和MeshAnything [8, 9]生成的3D网格生成的纹理。

5 Conclusion

在本文中,作者提出了MVPaint,这是一个用于从文本生成3D纹理的全面框架,包括三个关键阶段:同步多视图生成、3D空间纹理修复和UV细化。

利用同步多视图扩散,MVPaint根据生成的多视图图像初始化3D纹理,确保高跨视图一致性。

然后,通过在3D空间中修复这些多视图图像无法覆盖的区域。最后,UV细化模块增强并放大UV空间的3D网格,产生2K分辨率的高质量UV纹理。

大量实验表明,MVPaint始终能生成高质量3D纹理,优于现有最先进的纹理方法。

参考文献

[0]. MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Our Approach
    • Synchronized Multi-View Generation
    • Texture Inpainting in 3D Space
    • UV Refinement
  • 4 Experiments
    • Text-Instructed 3D Texture Generation
    • Ablation
    • Application
  • 5 Conclusion
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档