英伟达(NVIDIA)最新的研究成果显示,他们的研究人员成功地将文字转换为3D形状,并且在这一过程中注入了双倍的加速力量。这项创新被称为LATTE3D,类似于一台虚拟的3D打印机,可以在一秒内将文字提示转换为物体和动物的3D表示形式。这一技术的应用范围十分广泛,包括开发电玩游戏、广告活动、设计元素,以及机器人的虚拟训练场域等领域。
据英伟达AI研究副总裁Sanja Fidler介绍,LATTE3D是由位于多伦多的AI实验室团队开发的。仅一年前,要生成这种质量的3D视觉效果可能需要一个小时,而现在的最新技术只需约10到12秒。这一进步使得各产业的创作者能够实现近乎实时的文字到3D生成。值得注意的是,当在单个GPU上运行推论时,像NVIDIA RTX A6000这样的GPU,LATTE3D甚至能够几乎立即生成3D形状。
创作者无需从头开始设计或在3D资源库内进行搜寻,而是可以利用LATTE3D在想法突然出现时,立即产生详细的对象。此外,该模型基于每个文字提示生成几种不同的3D形状选项,供创作者选择。选定的物体可以在几分钟内进行优化,达到更高的质量。然后,用户可以将形状导出到图形软件应用程序或平台,如英伟达 Omniverse,该平台支持基于通用场景描述(OpenUSD)的3D工作流程和应用程序。
LATTE3D的研究人员在动物和日常物体这两个特定数据集上进行了训练,但是开发人员可以使用相同的模型架构在其他数据类型上进行训练AI。例如,在3D植物资料集上进行训练,LATTE3D可以帮助景观设计师在与客户进行脑力激激盪时使用树木、开花灌木和多肉植物快速填充花园渲染图。此外,在家庭物品数据集上进行训练,该模型可以产生填充家庭3D模拟的物品,开发人员可以使用这些物品来训练个人助理机器人,然后再于现实世界中进行测试和部署。
目前,LATTE3D使用英伟达AA100 Tensor核心GPU进行训练。除了3D形状外,该模型还接受了使用ChatGPT生成的各种文字提示的训练,以提高模型处理用户可能想出描述特定3D对象的各种短语的能力,例如,理解具有各种犬类物种的提示都应该产生像狗一样的形状。
这一研究成果展示了英伟达在生成式人工智能领域的巨大潜力,LATTE3D的问世将为创作者们带来更快、更高质量的文本到3D形状转换体验,进一步推动了虚拟环境应用的发展。
*免责声明:以上内容整理自网络,仅供交流学习之用。如有内容、版权问题,请留言与我们联系进行删除。
领取专属 10元无门槛券
私享最新 技术干货