具身人工智能(EAI)旨在训练具身代理在交互式模拟环境中解决涉及导航和物体操作的复杂多模态任务。开发此类具身代理需要长时程规划、视觉与语言基础理解,以及开发高样本效率算法。
DialFRED是一个具身指令跟随基准,包含53,000个人工标注的对话,使代理能够:
该数据集的源代码和数据集已公开,鼓励研究人员提出和评估对话增强的具身代理。
采用新颖、低成本、可扩展的数据收集方法,通过某众包平台实现:
DialFRED采用提问者-执行者框架构建具身对话代理:
提问者模型:
执行者模型:
该框架在未见验证集上达到33.6%的成功率,相比被动跟随指令模型的18.3%有显著提升。
首次提出同时使用视觉和语言进行探索的感知可用性神经SLAM模型,解决了具身任务中的规划和导航瓶颈。
对于给定任务T,方法分为两个阶段:
探索阶段:
执行阶段:
在ALFRED基准测试中,相比先前工作实现超过20%的绝对改进,达到19.95%的最新泛化性能。
这些创新方法显著降低了样本复杂度,实现了高效的长时程规划,并促进了视觉与语言的基础理解,为具身人工智能的发展提供了重要技术支撑。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。