Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NaVILA:用于足式机器人导航的VLA模型

NaVILA:用于足式机器人导航的VLA模型

作者头像
一点人工一点智能
发布于 2024-12-27 11:20:18
发布于 2024-12-27 11:20:18
2470
举报

论文地址:https://navila-bot.github.io/static/navila_paper.pdf

项目地址:https://navila-bot.github.io/

本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导航。

该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。

实验结果表明,NaVILA在现有基准测试上取得了显著改进,并且在新的IsaacLab基准测试中也表现出了相同的优势,这些基准测试包括更真实的场景、低级控制和真实世界中的机器人实验。

论文方法

1.1 方法描述

本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统,用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型(VLM)来处理视频输入,并将其与低级运动控制器相结合,以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。

1.2 方法改进

在本文中,作者通过以下方式改进了传统的视觉语言导航模型:

1)使用图像编码器:传统的视觉语言导航模型通常使用图像编码器来处理视频输入。然而,由于缺乏大规模、高质量的视频文本数据集,这些模型的性能受到了限制。因此,本文采用了基于图像的语言模型(如VILA),它们在理解连续视频序列方面表现出色。

2)基于历史观察的导航指令:本文提出了一个基于历史观察的导航指令,将当前观察和历史观察分别表示为不同类型的标记。这样可以更准确地捕捉到导航任务中不同类型信息的重要性。

3)数据融合:为了提高模型的泛化能力和避免过拟合,本文利用多种来源的数据进行了融合,包括真实人类行为视频、仿真数据以及辅助导航数据等。

1.3 解决的问题

本文主要解决了以下几个问题:

1)提高视觉语言导航模型的泛化能力:通过引入基于历史观察的导航指令和多源数据融合策略,使得模型在不同场景下表现更加出色。

2)实现连续动作的预测:通过将连续动作分解成多个离散的动作,降低了模型的复杂度,提高了实际应用的效果。

3)提高模型的效率:通过单阶段训练策略,减少了训练时间,并且可以直接在环境中探索新的策略,从而提高了模型的效率。

论文实验

本文介绍了NaVILA在虚拟和真实环境中的导航性能的三个实验,并与现有方法进行了比较。

第一个实验是在虚拟环境中评估NaVILA的导航性能。

作者使用了两个广泛使用的基准数据集:R2R和RxR。他们使用了常用的评价指标来评估NaVILA的表现,包括导航误差(NE)、成功率(SR)、路径长度加权成功率(SPL)等。

结果表明,NaVILA在单个模型下显著优于所有基线方法,在两个基准测试中都取得了更好的表现。此外,该实验还展示了NaVILA的泛化能力,即使仅使用单个RGB视图输入,也可以实现与使用全景视图、机器人位姿或仿真预训练的路标预测器相当甚至更好的效果。

第二个实验是在模拟器中评估NaVILA的足式机器人导航性能。

由于现有的足式机器人导航基准不适用于足式机器人,因此作者创建了一个新的高保真度基准,名为VLN-CE-Isaac。该基准使用Isaac Sim模拟器捕捉了详细的机器人关节运动和与环境的交互,可以全面评估整个导航Pipeline,从高级规划到精确的机器人执行。作者在Isaac Sim上部署了相同场景,并选择了高质量的可通行轨迹以确保现实的导航场景。他们使用相同的指标对性能进行评估,并将NaVILA模型应用于Unitree Go2和H1机器人。

结果表明,NaVILA的视觉策略比盲策略具有更高的成功率,这归因于其优越的障碍物避免能力。此外,与Oracle低级策略相比,NaVILA的成功率也有所下降,这突显了基准的挑战和现实性增加。

第三个实验是在真实世界中评估NaVILA的导航性能。

作者在一个真实的环境中进行了25个指令的实验,每个指令重复三次,涵盖了简单和复杂的任务,并覆盖了三种类型的环境:工作区、家庭和户外开放环境。他们使用标准指标(成功率和导航误差)并将其与GPT-4o进行了比较,后者是一种著名的VLM,以其强大的泛化能力而闻名。

结果表明,NaVILA在所有环境下都显著优于GPT-4o,并且通过添加人类视频的帮助,NaVILA可以在户外场景中更好地泛化并实现更高的成功率。他们的定性结果也在文中展示。

综上所述,本文展示了NaVILA在虚拟和真实环境中的导航性能,并证明了它在不同场景下的优势。

方法创新点

本文的方法创新点在于提出了NaVILA这一两层框架,它能够将视觉语言动作模型(VLAs)与行走技能相结合,用于通用导航任务。

具体来说,NaVILA使用了以下三个方面的创新:

1)分离低级执行:通过将低级执行从VLAs中分离出来,同一组VLAs可以应用于不同的机器人,只需更换低级策略即可。

2)中级语言指令:将动作表示为中级语言指令,使得训练数据来源更加丰富,包括真实人类视频和推理问答任务等,从而增强了推理能力并促进了泛化。

3)双频率设计:NaVILA采用了双频率设计,其中VLAs是一个大型且计算密集型的模型,在较低的频率下运行;而实时的低级行走策略则负责处理复杂的障碍避免问题,增加了整体的鲁棒性。

此外,本文还提出了一些策略来训练VLAs,例如整合历史上下文和当前观察到的信息、创建专门的导航提示以及引入精心挑选的数据集组合等,这些策略有助于将通用的图像基VLM细调为专门用于导航的代理,并同时在通用的视觉语言数据集上进行训练,保持其广泛的一般化能力。

未来展望

本文提出的方法具有很高的实用性和可扩展性,但仍有一些未来的研究方向值得探索。例如,可以进一步研究如何提高NaVILA的效率和速度,以适应更多的应用场景。此外,还可以探索如何将NaVILA与其他技术结合,如强化学习或深度强化学习,以实现更高水平的自主导航。最后,可以考虑将NaVILA扩展到其他类型的机器人,如四足机器人或人形机器人,以满足更多实际应用的需求。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CogACT:一种新的VLA模型架构
论文地址:https://cogact.github.io/CogACT_paper.pdf
一点人工一点智能
2025/01/20
1720
CogACT:一种新的VLA模型架构
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
地址:https://mp.weixin.qq.com/s/Mlik8mEHYSb2XmJXqXlKNQ
一点人工一点智能
2025/02/17
1340
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表:李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。通讯作者是字节跳动机器人研究员孔涛,新加坡国立大学博士后张翰博和清华大学计算机系教授刘华平。
机器之心
2025/02/03
1340
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
该部分系统性地阐述了当前视觉-语言-动作模型(VLA)存在的关键问题:虚假遗忘(Spurious Forgetting)和任务干扰(Task Interference)。前者指在机器人控制任务训练过程中,原有视觉-语言对齐关系被覆盖,导致多模态理解能力退化;后者指控制与理解任务因共享参数空间而相互抑制。
一点人工一点智能
2025/03/04
1840
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
具身智能中VLA(视觉-语言-动作)技术论文解读
上个月的“全球首场人机马拉松”的赛事,可以说是具身智能技术发展的一个小里程碑。不过机器人们的躺平,摔倒,瘫痪,掉头等突发状况也直观暴露了当前具身智能技术的瓶颈:大脑和四肢协调能力、续航能力、环境感知与决策等问题,所以在复杂环境的长距离运动对机器人的“身体”(硬件)与“大脑”(算法)都还是一个很大的挑战。
languageX
2025/04/29
6210
可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破
机器之心专栏 机器之心编辑部 近日,上海数字大脑研究院(简称 “数研院”)成功用强化深度学习方法,将 Transformer 大模型应用于四足机器人跨地形、跨具身运动控制,让不同具身的四足机器人成功在多种真实复杂地形上 “化险为夷”,如履平地,为自由、自主的运动控制奠定基础。相关成果以两篇论文的形式发表在国际机器人顶级会议 ICRA 2023 上。(文末附文章链接) 四足机器人运动控制的发展现状 足式机器人常见的有双足机器人和四足机器人,相比其他类型的机器人(例如轮式,履带式),它们有着更好的灵活性和通过性
机器之心
2023/03/29
4730
可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破
机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率
近年来,人工智能在视觉和自然语言处理方面取得了惊人的泛化能力,但在机器人操作领域,端到端方法往往需要大量昂贵的本域数据,且难以在不同硬件平台与开放场景下推广。为此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通过层次化架构,在高层利用域外数据微调的大模型(VLM)生成二维路径,中间表示解耦了任务规划与具体执行,让低层控制模块专注于实际动作控制。实验表明,HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能,并显著降低了对昂贵机器人演示数据的依赖。论文已被ICLR 2025接收。
机器之心
2025/03/11
1640
机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。
新智元
2025/03/11
1620
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?
机器之心
2024/01/17
8450
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
视觉语言导航研究进展
近年来,越来越多研究人员意识到单模态分析技术在现实中处理信息的局限性,对于自然语言、音频信息以及视觉等多模态融合方面的研究投入日益增加。视觉语言导航[1]是智能体在第一视角下,基于真实环境下的全景图,综合处理指令和视觉信息并进行推理的多模态任务,也是智能管家等应用的核心技术之一。视觉语言导航尝试使用多模态融合的方式,为室内导航任务的研究提供了一个新的方向。如图1所示,智能体需要结合指令信息和视觉信息,在模拟器中完成一系列的决策,最终到达目标位置。其中主要难点在于如何学习理解指令和视觉的信息,从而完成导航过程中的每一步决策。
一点人工一点智能
2023/01/10
1.5K0
视觉语言导航研究进展
从多模态大模型到通用具身智能体:方法与经验
文章:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
点云PCL博主
2025/02/07
3120
从多模态大模型到通用具身智能体:方法与经验
世界模型在机器人任务规划中的全新范式:NUS邵林团队提出通用机器人规划模型FLIP
人类具有通用的、解决长时序复杂任务的规划能力,这在我们处理生活中的复杂操作任务时很有用。这种能力可以被描述为这样的过程:首先,人们会在面临一个任务时思考当前可能的动作,然后通过想象能力预测这些步骤可能带来的结果,最后基于常识对这些结果进行打分,选择最佳动作来执行并完成任务。这种基于世界模型的搜索算法是人类解决开放世界操作任务的能力基础。这种能力背后的核心在于,人类大脑构建了一个关于物理世界的 “世界模型” 和一个通用的价值函数,他们模型赋予了我们对于物体未来状态的想象能力和规划能力。那么,机器人能否也具备这样的对物理世界的理解和想像能力,使得能够在执行任务之前就能规划好未来的步骤?
机器之心
2025/03/20
1610
世界模型在机器人任务规划中的全新范式:NUS邵林团队提出通用机器人规划模型FLIP
机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight
从 2023 年的 Sora 到如今的可灵、Vidu、通义万相,AIGC 生成式技术的魔法席卷全球,打开了 AI 应用落地的大门。
机器之心
2025/05/08
1420
机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight
NVIDIA 发布Isaac Sim 5.0与Isaac Lab 2.2:推动机器人开发的革命性升级
在2025年台北国际电脑展(COMPUTEX)上,NVIDIA 宣布对其机器人仿真应用程序Isaac Sim 和机器人学习框架Isaac Lab进行重大升级,旨在加速全形态机器人的开发进程。作为构建物理智能(Physical AI)的核心工具链,本次更新围绕传感器物理仿真增强、系统开放性与定制化、合成数据生成能力扩展及模型基准测试体系四大维度展开,为工业自动化、服务机器人、人形机器人等领域提供了从仿真设计到模型训练的全流程优化方案。
GPUS Lady
2025/05/21
680
NVIDIA 发布Isaac Sim 5.0与Isaac Lab 2.2:推动机器人开发的革命性升级
基于LLM的异构多机器人操作系统EMOS的深度解析
论文提出了一种名为EMOS(Embodiment-aware Heterogeneous Multi-robot Operating System)的新型多智能体框架,旨在解决异构多机器人系统(HMRS)中物理形态感知缺失的核心问题。传统LLM-based多智能体系统依赖人工角色分配,而EMOS通过自动生成"机器人简历"(Robot Resume)动态描述机器人硬件能力,并结合分层任务规划机制实现协作。
一点人工一点智能
2025/04/10
1330
基于LLM的异构多机器人操作系统EMOS的深度解析
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
机器之心报道 机器之心编辑部 内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey Levine 的新作。 给定一个目的地,在没有导航轨迹的情况下顺利到达,有多难? 对于方向感不好的人类来说,这个任务也是很有挑战性。但在最近的一项研究中,几位学者只用三个预训练模型就把机器人「教会了」。 我们都知道,机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令,并配备大量不同的动作,以便在现实世界中执行这
机器之心
2022/07/26
3880
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
适应多形态多任务,最强开源机器人学习系统「八爪鱼」诞生
在机器人学习方面,一种常用方法是收集针对特定机器人和任务的数据集,然后用其来训练策略。但是,如果使用这种方法来从头开始学习,每一个任务都需要收集足够数据,并且所得策略的泛化能力通常也不佳。
机器之心
2024/06/04
1450
适应多形态多任务,最强开源机器人学习系统「八爪鱼」诞生
【2021GTC】帮助四足机器人学习具有挑战性的任务:从模拟到现实
我将在苏黎世联邦理工学院机器人系统实验室解释我们如何依靠 NVIDIA 的 Omniverse 生态系统来开展机器人技术研究。首先,我将描述我们的四足机器人 ANYmal,以及它的扩展臂,称为 ALMA。接下来,我将展示我们如何使用强化学习在几分钟内为这些系统学习复杂的行为,这要归功于 Isaac Gym 的高度并行化环境。然后将机器人导入数字孪生中以学习导航任务并从 A 点步行到 B 点
GPUS Lady
2021/11/23
9390
【2021GTC】帮助四足机器人学习具有挑战性的任务:从模拟到现实
每日论文速递 | 李飞飞领衔建立具身AI最新数据集BEHAVIOR-1K
摘要:我们推出的 BEHAVIOR-1K 是以人为中心的机器人技术综合模拟基准。BEHAVIOR-1K 包括两个部分,由 "您希望机器人为您做什么?"的广泛调查结果指导和推动。第一部分是对 1000 种日常活动的定义,以 50 个场景(房屋、花园、餐厅、办公室等)为基础,其中有 9000 多个标注了丰富物理和语义属性的物体。其次是 OMNIGIBSON,这是一个新颖的模拟环境,通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。我们的实验表明,BEHAVIOR-1K 中的活动是长视距的,并且依赖于复杂的操作技能,这两点对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距,我们进行了一项初步研究,将在模拟公寓中使用移动机械手学习到的解决方案转移到现实世界中。我们希望,BEHAVIOR-1K 以人为本的特性、多样性和现实性,能使其在具身人工智能和机器人学习研究中发挥重要作用。
zenRRan
2024/03/25
9830
每日论文速递 | 李飞飞领衔建立具身AI最新数据集BEHAVIOR-1K
UC伯克利DeepMind等联合发布真实世界模拟器,打破虚实边界|NeurlPS 2023
在NeurlPS 2023上,研究人员将展示他们最新的工作:真实世界模拟器UniSim。
新智元
2023/12/20
3150
UC伯克利DeepMind等联合发布真实世界模拟器,打破虚实边界|NeurlPS 2023
推荐阅读
CogACT:一种新的VLA模型架构
1720
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
1340
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
1340
ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制
1840
具身智能中VLA(视觉-语言-动作)技术论文解读
6210
可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破
4730
机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率
1640
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
1620
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
8450
视觉语言导航研究进展
1.5K0
从多模态大模型到通用具身智能体:方法与经验
3120
世界模型在机器人任务规划中的全新范式:NUS邵林团队提出通用机器人规划模型FLIP
1610
机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight
1420
NVIDIA 发布Isaac Sim 5.0与Isaac Lab 2.2:推动机器人开发的革命性升级
680
基于LLM的异构多机器人操作系统EMOS的深度解析
1330
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
3880
适应多形态多任务,最强开源机器人学习系统「八爪鱼」诞生
1450
【2021GTC】帮助四足机器人学习具有挑战性的任务:从模拟到现实
9390
每日论文速递 | 李飞飞领衔建立具身AI最新数据集BEHAVIOR-1K
9830
UC伯克利DeepMind等联合发布真实世界模拟器,打破虚实边界|NeurlPS 2023
3150
相关推荐
CogACT:一种新的VLA模型架构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档