前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型+机器人,详尽的综述报告来了,多位华人学者参与

大模型+机器人,详尽的综述报告来了,多位华人学者参与

作者头像
机器之心
发布于 2023-12-28 08:48:21
发布于 2023-12-28 08:48:21
6620
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:Panda

大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。

近日,斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研究团队发布了一篇综述报告,总结了基础模型在机器人研究领域的发展情况和未来挑战。

  • 论文地址:https://arxiv.org/pdf/2312.07843.pdf
  • 论文库:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者,包括朱玉可、宋舒然、吴佳俊、卢策吾等。

在范围广泛的大规模数据上预训练的基础模型在微调之后可以适用于多种多样的下游任务。基础模型已经在视觉和语言处理方面取得了重大突破,相关模型包括 BERT、GPT-3、GPT-4、CLIP、DALL-E 和 PaLM-E。

在基础模型出现之前,用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反,基础模型则是会使用大范围多样化数据进行预训练,在其他领域(比如自然语言处理计算机视觉和医疗保健)的应用证明了其适应能力、泛化能力和总体性能表现。最终,基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

相比于针对特定任务的模型,从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域,多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征,而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分,包括感知、决策和控制。

不仅如此,基础模型还能提供零样本学习能力,也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例,增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人感知环境以及与环境交互的能力,有可能实现上下文感知型机器人系统。

举个例子,在感知领域,大型视觉 - 语言模型(VLM)能够学习视觉和文本数据之间的关联,从而具备跨模态理解能力,从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子,3D 世界中的语言定基(language grounding,即将 VLM 的上下文理解与 3D 现实世界对齐)可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来,从而增强机器人的空间感知能力。

在决策或规划领域,研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索,机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术,基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外,研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明,VLM 模型的视觉问答(VQA)能力可以用于机器人用例。举个例子,已有研究者使用 VLM 来回答与视觉内容有关的问题,从而帮助机器人完成任务。另外,也有研究者使用 VLM 来帮助数据标注,为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力,但对于现实世界的机器人任务来说,基础模型的泛化和微调依然颇具挑战性。

这些挑战包括:

1) 缺少数据:如何为机器人操作、定位、导航等机器人任务获取互联网规模级的数据,以及如何使用这些数据执行自监督训练;

2) 巨大的差异性:如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性,同时保持基础模型所需的通用性;

3) 不确定性的量化问题:如何解决实例层面的不确定性(比如语言歧义或 LLM 幻觉)、分布层面的不确定性和分布移位问题,尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估:如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能:如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署,以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了当前基础模型在机器人领域的使用情况。他们调查了当前的方法、应用、挑战,并建议了解决这些挑战的未来研究方向,他们也给出了将基础模型用于实现机器人自主能力的潜在风险。

基础模型背景知识

基础模型有数以十亿计的参数,并且使用了互联网级的大规模数据进行预训练。训练如此大规模和高复杂性的模型需要极高的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量计算资源,需要 GPU 或 TPU 等专用硬件,还需要用于模型训练的软件和基础设施,这些都需要资金。此外,需要基础模型还需要很长的时间,这也会导致高成本。因此这些模型往往是作为可插拔模块使用的,即将基础模型整合进各种应用中,而无需大量定制工作。

表 1 给出了常用基础模型的细节。

这一节将主要介绍 LLM、视觉 Transformer、VLM、具身多模态语言模型和视觉生成模型。还会介绍用于训练基础模型的不同训练方法。

他们首先介绍了一些相关的术语和数学知识,其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型(LLM)的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型(VLM)、具身多模态语言模型、视觉生成模型。

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域,大型语言模型(LLM)和视觉语言模型(VLM)都有潜力用于增强机器人的能力。举个例子,LLM 可以促进任务规范过程,让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务,视觉理解能力是至关重要的。现在,机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习(不管是通过模仿学习还是强化学习)有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力,因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习,其中包括基于语言的模仿学习和语言辅助的强化学习。

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型来规划机器人任务,其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习(ICL)。

接下来是机器人 Transformer。

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型,其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

感知

与周围环境交互的机器人会接收不同模态的感官信息,比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征,其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互,通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人感知相关的一系列任务,这些任务可使用基础模型来对齐模态,从而获得提升。其中的重点是视觉和语言。

这一节分为五部分,首先是开放词汇库的目标检测和 3D 分类,然后是开放词汇库的语义分割,接下来是开放词汇库的 3D 场景和目标表征,再然后是学习到的功能可供性,最后是预测模型。

具身 AI

近段时间,有研究表明 LLM 可以成功用于具身 AI 领域,其中「具身(embodied)」通常是指在世界模拟器中的虚拟具身,而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子,Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动,而无需对 GPT-4 的模型参数进行微调。

机器人学习方面的一个重要研究方向是强化学习,也有研究者在尝试通过基础模型来为强化学习设计奖励。

使用基础模型辅助机器人执行高层规划自然也早有研究者尝试。此外也有研究者在尝试将基于思维链的推理和动作生成方法用于具身智能体。

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题,其中包括:

1. 使用非结构化游戏数据和未标注的人类视频来扩展机器人学习

2. 使用图像修复(Inpainting)来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关,其中关键的是基础模型的推理时间。

第三个挑战涉及到多模态表征的局限性。

第四个挑战则是如何量化不同层级的不确定性的问题,比如实例层面和分布层面,另外还涉及到如何校准以及应对分布移位的难题。

第五个挑战涉及到安全评估,包括部署之前的安全测试和运行时的监控和对分布外情况的检测。

第六个挑战则涉及到如何选择:使用现有的基础模型还是为机器人构建新的基础模型?

第七个挑战涉及到机器人设置中的高度可变性。

第八个挑战是如何在机器人设置中进行基准评估以及保证可复现性。

更多研究细节,可参考原论文。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。
机器之心
2023/12/28
2640
一篇综述,看穿基础模型+机器人的发展路径
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。
新智元
2024/03/25
1670
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
【论文解读】针对机器人技术的大模型
大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本LLM经常面临挑战。本研究提供了一个新兴的LLM和多模态LLM集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。基于不同数据集的结果表明,GPT-4V有效地提高了机器人在具体化任务中的性能。对各种机器人任务中的LLM和多模态LLM的广泛调查和评估丰富了对以LLM为中心的具身智能的理解,并为弥合人类-机器人-环境交互中的差距提供了前瞻性的见解。
合合技术团队
2024/06/06
3070
【论文解读】针对机器人技术的大模型
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
斯坦福大学李飞飞、微软研究院首席研究员等联合撰写的论文,这篇 Agent AI 综述一共80页。
AIGC新知
2025/02/07
6620
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
“ 介绍了人工智能代理的历史渊源与演进,接着探讨了大型语言模型(LLMs)的发展,以及它们在知识获取、指令理解、泛化、规划和推理等方面所展现出的强大潜力。在此基础上,提出了一个以大型语言模型为核心的智能代理概念框架,该框架包括大脑、感知和行动这三个主要组成部分。”
技术人生黄勇
2024/07/19
6270
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
一直以来,DeepMind 引领了强化学习(RL)智能体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。
机器之心
2023/08/08
3280
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
一文全面了解目前具身智能的核心内容和未来发展
文章:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
点云PCL博主
2025/02/03
8670
一文全面了解目前具身智能的核心内容和未来发展
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)当中经历丰富多彩的生活。然而,既然人类玩家能够在洛圣都里尽情遨游完成若干任务,我们是否也能有一个 AI 视觉模型,操控 GTA 中的角色,成为执行任务的 “玩家” 呢?GTA 的 AI 玩家又是否能够扮演一个五星好市民,遵守交通规则,帮助警方抓捕罪犯,甚至做个热心肠的路人,帮助流浪汉找到合适的住所?
机器之心
2023/11/13
3040
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
让视觉语言模型搞空间推理,谷歌又整新活了
视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。
机器之心
2024/02/26
2060
让视觉语言模型搞空间推理,谷歌又整新活了
具身抓取研究综述
论文链接:https://www.mdpi.com/1424-8220/25/3/852
一点人工一点智能
2025/04/04
1320
具身抓取研究综述
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力(例如王者荣耀,Dota 2等),但很难在包含大量自然语言和视觉图像的现实复杂应用中落地,原因包括但不限于:数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。
新智元
2024/04/12
2.3K0
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。
未来先知
2025/04/18
1330
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
我们知道,在掌握了网络中的语言和图像之后,大模型终究要走进现实世界,「具身智能」应该是下一步发展的方向。
机器之心
2023/08/08
3060
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
3730
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
机器之心报道 编辑:张倩、陈萍 机器人越来越像人了!谷歌等的这项研究将现实世界的信息通过传感器纳入多模态语言模型,不但能执行机器人任务,还具有视觉问答、文本补全等功能。 一直以来,人们都想拥有一款能听懂吩咐的机器人,比如「请帮我热一下午餐」,「请把遥控器帮我拿过来」。这些指令听上去简单,但一旦让机器人去做,失误率还是很高的。 在这一过程中,机器人需要克服很多困难,比如理解指令、分解任务、规划路线、识别物体等等,涉及到的能力跨语言、视觉等多个模态。 为了让机器人更加擅长这些任务,不少研究者都在尝试将大型语言模
机器之心
2023/03/29
5210
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技术国家工程研究中心和多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系列重要研究成果,在人工智能顶级期刊和会议上发表论文 80 余篇,谷歌引用 9700 余次。荣获世界人工智能顶会 AAAI 最佳论文奖,位列世界最大学术源代码仓库 Trending Research 第一位。
机器之心
2024/06/27
3720
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。
机器之心
2024/06/17
7910
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
从多模态大模型到通用具身智能体:方法与经验
文章:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
点云PCL博主
2025/02/07
3520
从多模态大模型到通用具身智能体:方法与经验
大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来
在最先进的大模型成为具身机器人感知世界的「大脑」之后,机器人的进化速度取得了远超想象的进步。
机器之心
2024/01/11
6530
大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了 Agent 相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。
机器之心
2023/09/19
12K0
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
推荐阅读
一篇综述,看穿基础模型+机器人的发展路径
2640
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
1670
【论文解读】针对机器人技术的大模型
3070
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
6620
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
6270
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
3280
一文全面了解目前具身智能的核心内容和未来发展
8670
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
3040
让视觉语言模型搞空间推理,谷歌又整新活了
2060
具身抓取研究综述
1320
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
2.3K0
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
1330
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
3060
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
3730
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5210
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
3720
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
7910
从多模态大模型到通用具身智能体:方法与经验
3520
大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来
6530
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
12K0
相关推荐
一篇综述,看穿基础模型+机器人的发展路径
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档