报告主题:揭秘GPT-4V在机器人视觉-语言规划中的强大力量
报告日期:12月22日(周五)11:00-12:00
主题简介:
ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。
在此次演讲中,我们将分享如何赋予机器人根据物理世界做任务规划的能力。最近的很多研究表明,大型语言模型(LLMs)具有对机器人任务非常有用的知识,尤其是在推理和规划方面。然而,LLMs缺乏物理世界的grounding,同时LLMs也依赖于外部affordance模型来感知环境信息,并且这些affordance模型不能与LLMs共同进行推理。
我们认为,任务规划器应该是一个统一的多模态系统。为此,我们介绍了机器人视觉-语言规划算法(ViLa),这是一种新颖的长程机器人规划方法,它利用视觉-语言模型(VLMs)生成一系列可操作的步骤。ViLa直接将感知数据整合到其推理和规划过程中,使其能够深刻理解视觉世界中的常识知识,包括空间布局和对象属性。
它还支持灵活的多模态目标定义,并自然地结合视觉反馈。我们在真实机器人和模拟环境中进行的广泛评估表明,ViLa相比现在基于LLM的任务规划算法具有明显的优势,并在众多的开放世界操纵任务中取得很好的表现。
论文地址:https://arxiv.org/pdf/2311.17842.pdf
论文主页:https://robot-vila.github.io/
论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc
报告嘉宾:
胡英东,清华大学交叉信息研究院三年级博士生,导师为高阳教授。在此之前,他在北京邮电大学获得智能科学与技术学士学位。他的研究兴趣主要包括计算机视觉,强化学习,具身智能和机器人学习。目前专注于利用基础模型中的先验知识,构建能在开放世界泛化的通用机器人。他在ECCV,ICML,CoRL等多个机器学习和机器人会议上发表论文,担任ICLR,CVPR等国际学术会议审稿人。
林凡淇,清华大学计算机系大四本科生,未来将在清华大学交叉信息研究院高阳教授组攻读博士学位。他的研究兴趣主要包括具身人工智能和机器人。他专注于将大模型的先验知识融合到机器人任务中,帮助机器人完成日常生活中的复杂任务;同时他希望利用已有的机器人算法、视觉语言大模型,探索机器人落地的可能性。
领取专属 10元无门槛券
私享最新 技术干货