CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Objaverse-XL: A Universe of 10M+ 3D Objects
标题:Objaverse-XL:超过 1000 万个 3D 对象的宇宙
作者:Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan
文章链接:https://arxiv.org/abs/2307.05663
摘要:
自然语言处理和 2D 视觉模型主要通过扩大训练数据规模在许多任务上取得了显着的熟练程度。然而,3D 视觉任务并没有取得同样的进展,部分原因是获取高质量 3D 数据的挑战。在这项工作中,我们展示了 Objaverse-XL,这是一个包含超过 1000 万个 3D 对象的数据集。我们的数据集包含来自不同来源的重复数据删除 3D 对象,包括手动设计的对象、地标和日常物品的摄影测量扫描以及历史和古董文物的专业扫描。Objaverse-XL 代表了 3D 数据集领域最大的规模和多样性,为 3D 视觉带来了重大的新可能性。我们的实验证明了 Objaverse-XL 提供的规模所带来的改进。我们表明,通过训练 Zero123 进行新颖的视图合成,利用超过 1 亿张多视图渲染图像,我们实现了强大的零样本泛化能力。我们希望 Objaverse-XL 的发布能够推动 3D 视觉领域的进一步大规模创新。
2.Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
标题:补丁包:NaViT,适用于任何宽高比和分辨率的视觉转换器
作者:Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron
文章链接:https://arxiv.org/abs/2307.06304
摘要:
在使用计算机视觉模型处理图像之前将图像大小调整为固定分辨率的普遍且明显次优的选择尚未成功受到挑战。然而,诸如 Vision Transformer (ViT) 之类的模型提供了灵活的基于序列的建模,因此可以改变输入序列长度。我们利用 NaViT(原生分辨率 ViT)来利用这一点,它在训练期间使用序列打包来处理任意分辨率和宽高比的输入。除了灵活的模型使用之外,我们还展示了大规模监督和对比图像文本预训练的训练效率的提高。NaViT 可以有效地转移到图像和视频分类、对象检测和语义分割等标准任务,并提高鲁棒性和公平性基准的结果。在推理时,输入分辨率的灵活性可用于平稳地进行测试时的成本性能权衡。我们相信 NaViT 标志着与大多数计算机视觉模型使用的标准、CNN 设计的输入和建模管道的背离,并代表了 ViT 的一个有前途的方向。
3.SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning(CORL 2023)
标题:SayPlan:使用 3D 场景图为大型语言模型奠定基础,实现可扩展的任务规划
作者:Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf
文章链接:https://arxiv.org/abs/2307.06135
项目代码:https://sayplan.github.io/
摘要:
大型语言模型(LLM)在开发用于不同任务的通用规划代理方面取得了令人印象深刻的成果。然而,在广阔的多层、多房间环境中实施这些计划对机器人技术提出了重大挑战。我们介绍 SayPlan,这是一种使用 3D 场景图 (3DSG) 表示的基于 LLM 的大规模机器人任务规划方法。为了确保我们方法的可扩展性,我们:(1)利用 3DSG 的分层性质,允许 LLM 从完整图的较小、折叠表示中对与任务相关的子图进行语义搜索;(2) 通过集成经典路径规划器来缩短法学硕士的规划范围,(3) 引入迭代重新规划流程,使用场景图模拟器的反馈来完善初始计划,纠正不可行的操作并避免规划失败。我们在两个跨越 3 层楼、36 个房间和 140 个物体的大型环境中评估了我们的方法,并表明我们的方法能够根据移动设备的抽象和自然语言指令来制定大规模、长期的任务计划。机械手机器人来执行。