3D生成
3D-GPT: Procedural 3D Modeling with Large Language Models
https://arxiv.org/abs/2310.12945
Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould
Australian National University、牛津大学、BAAI
在追求高效的自动化内容创建的过程中,利用可修改参数和基于规则的系统的程序生成成为一种有前途的方法。尽管如此,鉴于其复杂性,需要深入了解规则、算法和参数,这可能是一项艰巨的任务。为了减少工作量,我们引入了 3D-GPT,这是一个利用大型语言模型(LLM)进行指令驱动的 3D 建模的框架。3D-GPT 将法学硕士定位为熟练的问题解决者,将程序性 3D 建模任务分解为可访问的部分,并为每个任务指定合适的代理。3D-GPT集成了三个核心代理:任务调度代理、概念化代理和建模代理。他们合作实现两个目标。首先,它增强了简洁的初始场景描述,将其演变为详细的形式,同时根据后续指令动态调整文本。其次,它集成了程序生成,从丰富的文本中提取参数值,以便轻松地与 3D 软件连接以创建资产。我们的实证研究证实,3D-GPT 不仅可以解释和执行指令,提供可靠的结果,而且还可以与人类设计师有效协作。此外,它与 Blender 无缝集成,释放了扩展的操作可能性。我们的工作凸显了法学硕士在 3D 建模方面的潜力,为场景生成和动画的未来进步提供了基本框架。
RecolorCloud: A Point Cloud Tool for Recoloring, Segmentation, and Conversion
https://arxiv.org/abs/2310.12470
Esteban Segarra Martinez, Ryan P. McMahan
University of Central Florida
点云是用高精度激光扫描仪记录的环境的 3D 空间表示。这些扫描仪可能会受到环境干扰,例如表面阴影、纹理和反射。因此,点云可能会受到虚假或不正确的颜色的污染。当前的开源或专有工具提供有限的或无法自动纠正这些视觉错误。RecolorCloud 是一款为通过利用自动颜色重新着色来解决这些颜色冲突而开发的工具。我们提供自动删除或重新着色离群点的功能,用户只需指定边界框区域即可实现颜色效果。结果显示大型点云的照片级真实感质量得到了巨大改善。此外,用户可以使用设置的语义分割颜色快速重新着色点云。
场景理解
Neurosymbolic Grounding for Compositional World Models
https://arxiv.org/abs/2310.12690
Atharva Sehgal, Arya Grayeli, Jennifer J. Sun, Swarat Chaudhuri
UT Austin、CalTech
我们介绍 Cosmos,这是一个以对象为中心的世界建模框架,专为组合泛化(CG)而设计,即通过已知视觉“原子”的组合获得的看不见的输入场景的高性能。Cosmos 背后的核心见解是使用一种新颖的神经符号接地形式。具体来说,该框架引入了两个新工具:(i)神经符号场景编码,它使用神经编码器计算出的真实向量表示场景中的每个实体,以及描述实体属性的可组合符号向量,以及(ii) )一种神经符号注意机制,将这些实体与学习的交互规则联系起来。Cosmos 是端到端可微分的;此外,与需要将表示手动映射到符号的传统神经符号方法不同,它使用视觉语言基础模型来计算实体的符号属性。通过在已建立的块推送域上考虑两种不同形式的 CG 的评估,我们表明该框架为世界建模中的 CG 建立了新的最先进技术。
Jason陪你练绝技B站更新地址:https://space.bilibili.com/455056488
NeRF相关工作整理Github repo:https://github.com/yangjiheng/nerf_and_beyond_docs
领取专属 10元无门槛券
私享最新 技术干货