Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型+机器人,详尽的综述报告来了,多位华人学者参与

大模型+机器人,详尽的综述报告来了,多位华人学者参与

作者头像
机器之心
发布于 2023-12-28 08:48:21
发布于 2023-12-28 08:48:21
6620
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:Panda

大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。

近日,斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研究团队发布了一篇综述报告,总结了基础模型在机器人研究领域的发展情况和未来挑战。

  • 论文地址:https://arxiv.org/pdf/2312.07843.pdf
  • 论文库:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者,包括朱玉可、宋舒然、吴佳俊、卢策吾等。

在范围广泛的大规模数据上预训练的基础模型在微调之后可以适用于多种多样的下游任务。基础模型已经在视觉和语言处理方面取得了重大突破,相关模型包括 BERT、GPT-3、GPT-4、CLIP、DALL-E 和 PaLM-E。

在基础模型出现之前,用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反,基础模型则是会使用大范围多样化数据进行预训练,在其他领域(比如自然语言处理计算机视觉和医疗保健)的应用证明了其适应能力、泛化能力和总体性能表现。最终,基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

相比于针对特定任务的模型,从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域,多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征,而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分,包括感知、决策和控制。

不仅如此,基础模型还能提供零样本学习能力,也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例,增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人感知环境以及与环境交互的能力,有可能实现上下文感知型机器人系统。

举个例子,在感知领域,大型视觉 - 语言模型(VLM)能够学习视觉和文本数据之间的关联,从而具备跨模态理解能力,从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子,3D 世界中的语言定基(language grounding,即将 VLM 的上下文理解与 3D 现实世界对齐)可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来,从而增强机器人的空间感知能力。

在决策或规划领域,研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索,机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术,基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外,研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明,VLM 模型的视觉问答(VQA)能力可以用于机器人用例。举个例子,已有研究者使用 VLM 来回答与视觉内容有关的问题,从而帮助机器人完成任务。另外,也有研究者使用 VLM 来帮助数据标注,为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力,但对于现实世界的机器人任务来说,基础模型的泛化和微调依然颇具挑战性。

这些挑战包括:

1) 缺少数据:如何为机器人操作、定位、导航等机器人任务获取互联网规模级的数据,以及如何使用这些数据执行自监督训练;

2) 巨大的差异性:如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性,同时保持基础模型所需的通用性;

3) 不确定性的量化问题:如何解决实例层面的不确定性(比如语言歧义或 LLM 幻觉)、分布层面的不确定性和分布移位问题,尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估:如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能:如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署,以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了当前基础模型在机器人领域的使用情况。他们调查了当前的方法、应用、挑战,并建议了解决这些挑战的未来研究方向,他们也给出了将基础模型用于实现机器人自主能力的潜在风险。

基础模型背景知识

基础模型有数以十亿计的参数,并且使用了互联网级的大规模数据进行预训练。训练如此大规模和高复杂性的模型需要极高的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量计算资源,需要 GPU 或 TPU 等专用硬件,还需要用于模型训练的软件和基础设施,这些都需要资金。此外,需要基础模型还需要很长的时间,这也会导致高成本。因此这些模型往往是作为可插拔模块使用的,即将基础模型整合进各种应用中,而无需大量定制工作。

表 1 给出了常用基础模型的细节。

这一节将主要介绍 LLM、视觉 Transformer、VLM、具身多模态语言模型和视觉生成模型。还会介绍用于训练基础模型的不同训练方法。

他们首先介绍了一些相关的术语和数学知识,其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型(LLM)的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型(VLM)、具身多模态语言模型、视觉生成模型。

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域,大型语言模型(LLM)和视觉语言模型(VLM)都有潜力用于增强机器人的能力。举个例子,LLM 可以促进任务规范过程,让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务,视觉理解能力是至关重要的。现在,机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习(不管是通过模仿学习还是强化学习)有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力,因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习,其中包括基于语言的模仿学习和语言辅助的强化学习。

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型来规划机器人任务,其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习(ICL)。

接下来是机器人 Transformer。

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型,其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

感知

与周围环境交互的机器人会接收不同模态的感官信息,比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征,其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互,通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人感知相关的一系列任务,这些任务可使用基础模型来对齐模态,从而获得提升。其中的重点是视觉和语言。

这一节分为五部分,首先是开放词汇库的目标检测和 3D 分类,然后是开放词汇库的语义分割,接下来是开放词汇库的 3D 场景和目标表征,再然后是学习到的功能可供性,最后是预测模型。

具身 AI

近段时间,有研究表明 LLM 可以成功用于具身 AI 领域,其中「具身(embodied)」通常是指在世界模拟器中的虚拟具身,而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子,Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动,而无需对 GPT-4 的模型参数进行微调。

机器人学习方面的一个重要研究方向是强化学习,也有研究者在尝试通过基础模型来为强化学习设计奖励。

使用基础模型辅助机器人执行高层规划自然也早有研究者尝试。此外也有研究者在尝试将基于思维链的推理和动作生成方法用于具身智能体。

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题,其中包括:

1. 使用非结构化游戏数据和未标注的人类视频来扩展机器人学习

2. 使用图像修复(Inpainting)来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关,其中关键的是基础模型的推理时间。

第三个挑战涉及到多模态表征的局限性。

第四个挑战则是如何量化不同层级的不确定性的问题,比如实例层面和分布层面,另外还涉及到如何校准以及应对分布移位的难题。

第五个挑战涉及到安全评估,包括部署之前的安全测试和运行时的监控和对分布外情况的检测。

第六个挑战则涉及到如何选择:使用现有的基础模型还是为机器人构建新的基础模型?

第七个挑战涉及到机器人设置中的高度可变性。

第八个挑战是如何在机器人设置中进行基准评估以及保证可复现性。

更多研究细节,可参考原论文。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
dplyr排完序,行名没了,有点方!!!
R包dplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。%>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。
生信交流平台
2020/08/06
4420
R语言:图形
常用的图形,这里给出案例: barplot 条形图、单向量条形图 > attach(mtcars) The following object is masked from package:ggplot2: mpg > names(mtcars) [1] "mpg" "cyl" "disp" "hp" "drat" "wt" [7] "qsec" "vs" "am" "gear" "carb" "manuf" > barplot(table(cy
努力在北京混出人样
2019/02/18
3.1K0
R语言入门 Chapter03 | 列表
这篇文章讲述的是R语言中关于列表的相关知识。希望这篇R语言文章对您有所帮助!如果您有想学习的知识或建议,可以给作者留言~
不温卜火
2020/10/28
3110
R语言入门 Chapter03 | 列表
R语言日常笔记(1)filter函数
在处理数据时,过滤数据是最基本的操作之一。 如果想删除一部分无效或者根本不感兴趣的数据。 dplyr有filter()函数来做这样的过滤。 使用dplyr,可以帮助使用者像使用SQL或者传统BI工具以简单且更直观的方式进行过滤。
用户1359560
2019/07/16
23K0
数据分析大作战,SQL V.S. Python,来看看这些考题你都会吗 ⛵
SQL与Pandas都可以完成大部分数据分析需求。本文用SQL与Pands逐一实现10类核心数据分析需求,轻松进行对比学习:数据选择、限制、统计计数、排序、新字段生成、数据选择、数据分组、统计均值、方差、极差/范围。
ShowMeAI
2022/08/26
3550
数据分析大作战,SQL V.S. Python,来看看这些考题你都会吗 ⛵
dplyr-cli:在Linux Terminal上直接执行dplyr
熟悉R的朋友都会知道, dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。对于这个问题,今天即将需要介绍的 dplyr-cli就能很好的解决这个问题。
生信菜鸟团
2020/05/19
2.2K0
R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)
首先准备测试数据*(mtcars) 分别为CSV.    TXT read.table 默认形式读取CSV(×)与TXT(效果理想) ① > test<-read.table("C:/Users/ad
学到老
2018/03/19
8.3K0
R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)
Pandas | 数据排序
函数格式:Series.sort_values(ascending=True, inplace=False)
生信real
2022/12/20
7500
16. R编程(二:基本数据类型及其操作之因子、矩阵、数据框和列表)
使用rbind(),操作同cbind() 加和 colSums() 或 rowSums()
北野茶缸子
2021/12/17
2.9K0
16. R编程(二:基本数据类型及其操作之因子、矩阵、数据框和列表)
R数据科学-1(dplyr)
如今数据分析如火如荼,R与Python大行其道。你还在用Excel整理数据么,你还在用spss整理数据么。
Jamesjin63
2022/10/25
1.8K0
R数据科学-1(dplyr)
R数据科学整洁之道:使用dtplyr处理大文件
有群友问如果文件比较大,读入 R 比较慢怎么办?我告诉他用 data.table 包的 fread 读取。
简说基因
2022/11/11
6210
分组统计你只想到group_by操作吗?
最近在研究excel透视图,想到好像自己在R-分组操作并不是很流畅,顺便学习分享一下。R自带数据集比较多,今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算(操作)。
1480
2019/09/02
1.1K0
R语言数据集合并、数据增减、不等长合并
1、merge(a,b),纯粹地把两个数据集合在一起,没有沟通a、b数据集的by,这样出现的数据很多,相当于a*b条数据;
悟乙己
2019/05/28
13.9K0
「R」ggplot结合点图与箱线图的问题与解决
最近在使用ggplot2对箱线图叠加点图是发现奇怪的现象,只要我改变点的形状,绘图就出问题了。
王诗翔呀
2021/12/13
1.8K0
「R」ggplot结合点图与箱线图的问题与解决
R tips:dplyr编程
dplyr的函数由于使用tidy evaluation(R中的一种非标准执行(NSE)实现方式)的方法,可以使得其具有更好的易用性:变量不需要绝对引用和引号包裹。
生信菜鸟团
2020/07/02
1.3K0
「R」数据可视化8:棒棒图
首先让我们来看几张棒棒糖图。可以发现实际上就是一根柱子加上一个圆,其实类似传统的柱状图。但是它可以给我们更多的信息,因为圆和下面的棒子可以代表同一组数据,也可以代表两组数据。“糖”和“棒子”的颜色也一样,可以表示同一个信息也可以表示不同维度的信息。另外,我们还可以变成双头棒棒糖,在棒子的两端分别展现不同的数据。不喜欢传统的圆形?想要亲手DIY?也没有问题,我们可以把传统的圆形糖换成其他图片(比如漫威),以更加直观的展示信息。我们也可以在圈中标记具体的数值,让读者一目了然。
王诗翔呀
2020/07/06
1.2K0
「R」数据可视化8:棒棒图
「R」分析之前的数据准备
paste函数可以将多个字符型向量连接成一个向量,默认向量的值是用空格分隔的,我们可以通过sep参数指定分隔符号,而collapse参数可以用来指定这些值之间的连接符号。
王诗翔呀
2020/07/03
1.5K0
R语言第二章数据处理⑦dplyr包(2)列处理目录列名
还有另一个选项可以避免连续重新输入列名:one_of()。 您可以预先设置列名,然后在select()语句中通过将它们包装在one_of()中或使用!!运算符来引用它们。
用户1359560
2018/12/28
1.9K0
绘图系列|R-corrplot相关图
初步接触数据集,探索性分析后,经常需要做一个相关分析,得到各变量间的相关系数以及显著性水平。
生信补给站
2020/08/06
1K0
Broom |tidy up a bit,模型,检验结果一键输出!
使用lm/glm/t.test/chisq.test等模型或者检验完成分析后,结果怎么提?
生信补给站
2020/08/06
1K0
相关推荐
dplyr排完序,行名没了,有点方!!!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档