CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering
标题:Paint-it:通过深度卷积纹理图优化和基于物理的渲染进行文本到纹理合成
作者:Kim Youwang, Tae-Hyun Oh, Gerard Pons-Moll
文章链接:https://arxiv.org/abs/2312.11360
项目代码:https://kim-youwang.github.io/paint-it
摘要:
我们提出 Paint-it,一种通过神经重新参数化纹理优化的文本驱动的 3D 网格高保真纹理图合成方法。Paint-it 利用分数蒸馏采样 (SDS),通过优化合成从文本描述合成纹理图。我们观察到,由于梯度噪声,直接应用 SDS 会产生不良的纹理质量。我们揭示了使用 SDS 时纹理参数化的重要性。具体来说,我们提出了基于深度卷积物理的渲染(DC-PBR)参数化,它使用随机初始化的基于卷积的神经内核重新参数化基于物理的渲染(PBR)纹理图,而不是标准的基于像素的参数化。我们表明,DC-PBR 本质上根据纹理频率安排优化课程,并自然地滤除 SDS 中的噪声信号。在实验中,Paint-it 在 15 分钟内获得了卓越质量的 PBR 纹理图,仅给出文本描述。我们通过为大规模网格数据集合成高质量纹理贴图并展示测试时应用程序(例如使用流行图形引擎的重新照明和材质控制)来展示 Paint-it 的通用性和实用性。
2.MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
标题:MAG-Edit:通过 M基于询问的 A注意力调整 Guidance在复杂场景中进行本地化图像编辑
作者:Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou
文章链接:https://arxiv.org/abs/2312.11396
项目代码:https://mag-edit.github.io/
摘要:
最近基于扩散的图像编辑方法在具有简单构图的图像中表现出了令人印象深刻的编辑能力。然而,尽管现实世界的需求不断增长,但复杂场景中的本地化编辑尚未在文献中得到充分研究。现有的基于蒙版的修复方法无法保留编辑区域内的底层结构。与此同时,基于无掩模注意力的方法通常会在更复杂的作品中表现出编辑泄漏和错位。在这项工作中,我们开发了 MAG-Edit ,这是一种免训练的推理阶段优化方法,可以在复杂场景中实现本地化图像编辑。特别是,MAG-Edit 通过最大化编辑标记的两个基于掩码的交叉注意约束来优化扩散模型中的噪声潜在特征,这反过来又逐渐增强与所需提示的局部对齐。广泛的定量和定性实验证明了我们的方法在实现复杂场景下的本地化编辑的文本对齐和结构保留方面的有效性。
3.GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
标题:GAvatar:具有隐式网格学习的可动画 3D 高斯头像
作者:Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
文章链接:https://arxiv.org/abs/2312.11461
项目代码:https://nvlabs.github.io/GAvatar/
摘要:
高斯泼溅已成为一种强大的 3D 表示,它利用了显式(网格)和隐式(NeRF)3D 表示的优点。在本文中,我们寻求利用高斯泼溅从文本描述生成逼真的可动画化身,解决网格或基于 NeRF 的表示所带来的限制(例如灵活性和效率)。然而,高斯泼溅的简单应用无法生成高质量的可动画化身,并且存在学习不稳定的问题;它还无法捕捉精细的化身几何形状,并且常常导致身体部位退化。为了解决这些问题,我们首先提出一种基于基元的 3D 高斯表示,其中高斯在姿势驱动的基元内定义以促进动画。其次,为了稳定和摊销数百万高斯的学习,我们建议使用神经隐式场来预测高斯属性(例如颜色)。最后,为了捕捉精细的头像几何形状并提取详细的网格,我们提出了一种新颖的基于 SDF 的 3D 高斯隐式网格学习方法,该方法可以规范底层几何形状并提取高度详细的纹理网格。我们提出的方法 GAvatar 可以仅使用文本提示大规模生成各种可动画化身。GAvatar 在外观和几何质量方面都显着超越了现有方法,并在 1K 分辨率下实现了极快的渲染(100 fps)。