CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models
标题:Paint3D:使用无光照纹理扩散模型绘制任何 3D 内容
作者:Xianfang Zeng
文章链接:https://arxiv.org/abs/2312.13913
项目代码:https://github.com/OpenTexture/Paint3D
摘要:
本文介绍了 Paint3D,这是一种新颖的从粗到细的生成框架,能够为基于文本或图像输入的无纹理 3D 网格生成高分辨率、无光照且多样化的 2K UV 纹理图。解决的关键挑战是在不嵌入照明信息的情况下生成高质量纹理,这允许在现代图形管道中重新照亮或重新编辑纹理。为了实现这一目标,我们的方法首先利用预先训练的深度感知 2D 扩散模型来生成视图条件图像并执行多视图纹理融合,从而生成初始粗糙纹理图。然而,由于 2D 模型无法完全表示 3D 形状并禁用照明效果,因此粗糙纹理贴图会表现出不完整的区域和照明伪影。为了解决这个问题,我们训练了单独的 UV 修复和 UVHD 扩散模型,专门用于不完整区域的形状感知细化和照明伪影的去除。通过这种从粗到细的过程,Paint3D 可以生成高质量的 2K UV 纹理,在无光照的情况下保持语义一致性,从而显着推进 3D 对象纹理化的最先进技术。
2.DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization
标题:DSFormer:通过密集稀疏权重分解对文本转换器进行有效压缩
作者:Rahul Chand, Yashoteja Prabhu, Pratyush Kumar
文章链接:https://arxiv.org/abs/2312.13211
摘要:
随着大型 Transformer 模型在自然语言理解方面取得的巨大成功,缩小模型规模以实现经济高效的部署变得至关重要。最近的研究探索了低秩权重分解技术,该技术可有效训练,并开箱即用地应用于任何变压器架构。不幸的是,低秩假设往往限制过多,并阻碍了压缩模型的表达能力。本文提出了 DSFormer,一种简单的替代分解方案,它将目标权重矩阵表示为小型稠密矩阵和半结构化稀疏矩阵的乘积。由此产生的近似值更忠实于变压器中的重量分布,因此实现了更强的效率与精度权衡。现有分解器的另一个问题是它们依赖于任务无意识的初始化步骤,这会降低生成模型的准确性。DSFormer 通过一种新颖的直通分解器 (STF) 算法解决了这个问题,该算法联合学习所有权重分解,以直接最大化最终任务的准确性。对多个自然语言理解基准的大量实验表明,DSFormer 的压缩效果比最先进的低秩分解器高出 40%,领先的半结构化稀疏基线和流行知识蒸馏方法。我们的方法也与主流压缩器正交,当添加到流行的蒸馏、层共享和量化变压器时,可提供高达 50% 的额外压缩。我们凭经验评估 STF 相对于传统优化实践的好处。
3.UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections
标题:UniSDF:统一神经表示,通过反射对复杂场景进行高保真 3D 重建
作者:Fangjinhua Wang, Marie-Julie Rakotosaona, Michael Niemeyer, Richard Szeliski, Marc Pollefeys, Federico Tombari
文章链接:https://arxiv.org/abs/2312.13285
项目代码:https://fangjinhuawang.github.io/UniSDF
摘要:
神经 3D 场景表示显示出从 2D 图像进行 3D 重建的巨大潜力。然而,重建现实世界中复杂场景的捕捉仍然是一个挑战。现有的通用 3D 重建方法通常难以表示精细的几何细节,并且无法充分模拟大型场景的反射表面。明确关注反射表面的技术可以通过利用更好的反射参数化来模拟复杂而详细的反射。然而,我们观察到,这些方法在存在非反射和反射组件的真实无界场景中通常并不稳健。在这项工作中,我们提出了 UniSDF,这是一种通用 3D 重建方法,可以重建具有反射的大型复杂场景。我们研究了基于视图和基于反射的颜色预测参数化技术,发现在 3D 空间中显式混合这些表示可以重建几何形状更准确的表面,尤其是反射表面。我们进一步将这种表示与以从粗到细的方式训练的多分辨率网格主干相结合,从而实现比先前方法更快的重建。对对象级数据集 DTU、Shiny Blender 以及无界数据集 Mip-NeRF 360 和 Ref-NeRF 进行的大量实验真实证明,我们的方法能够稳健地重建具有精细细节和反射表面的复杂大型场景。