前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达全栈工具链如何重构Groot机器人开发链路(2)

英伟达全栈工具链如何重构Groot机器人开发链路(2)

作者头像
GPUS Lady
发布于 2025-03-27 07:08:32
发布于 2025-03-27 07:08:32
730
举报
文章被收录于专栏:GPUS开发者GPUS开发者
接着上一篇英伟达全栈工具链如何重构Groot机器人开发

让我们假装自己是一名神经外科医生,你面前有一个大脑,不过这个大脑不在生物体内,而是在实验室里。与那些生活在云端的大型语言模型(如GPT等)不同,这个大脑实际上运行在硬件上,它能直接与现实世界进行交互。这就是Groot,世界上首个开放的人形基础模型。接下来,我将和大家一起深入了解这个新奇的“网络”。

从非常高的层面来看,Groot接收两种类型的“令牌(Token)”并生成另一种类型的“令牌”。如果你还记得老黄在主题演讲中的开场部分,那全是关于“令牌”的,Groot也不例外,只是它处理的“令牌”更有趣。

它有视觉“令牌”输入,这是机器人从其摄像头、从其“眼睛”获得的以自我为中心的视图。还有经过常规标记化的语言指令,就像任何大型语言模型(LLM)一样。它的输出是这些运动动作“令牌”。从高层次来说,这就是它的输入和输出。但Groot具体能做什么呢?

你给它一个指令,然后它从一个类似这样的场景开始执行任务,比如捡起这些工业物体,然后把它们整齐地放进这个黄色的区域。这就是Groot输出的内容,基本上是一系列控制机器人手臂和手的运动动作,从而实际完成任务。但这只是供我们查看的,模型实际输出的并非这个,而是一组连续的值,每个电机对应一堆浮点数。然后这些电机会完成任务。

从模型的角度来看,这些是非常奇怪的连续曲线,模型需要学习如何输出这些曲线。那么该怎么做呢?我们有两种在多模态领域反复被证明有效的强大工具。

第一种工具是ROM(这里可能指某种离散序列模型,具体需结合更多背景,推测类似基于Transformer的离散序列生成模型 ),它生成离散值,比如文本符号。从高层次来说,它是一个Transformer模型,接收一系列整数并输出另一系列整数。它们是离散的,这些离散序列模型非常适合推理。

另一种非常成功的模型家族是扩散模型,我们最常见到它们用于生成图像,比如Stable Diffusion,或者生成视频,比如Sora。扩散模型非常擅长生成连续值,比如像素和音频波形。而且扩散模型是并行工作的,它不是一次生成一个像素,而是像GPU或渲染引擎一样并行生成整个图像。

那么我们如何结合这两者来解决Groot的问题呢?在我们提到的系统二中,有一个视觉语言模型,它使用这些离散风格的“令牌”和自回归模型来进行视觉语言推理,以理解视觉信息和指令。然后,动作对我们来说就像图像一样,就像任何连续因素一样,比如音频波形。所以我们编码机器人的状态,然后将带有噪声的动作“令牌”放入扩散模型中,接着进行一系列扩散步骤,这就变成了实际的运动动作输出。

扩散Transformer就是系统一,它以120赫兹的速度运行,这是必要的,因为它必须非常快,才能让机器人具有反应性,否则机器人的动作会很不流畅、很突兀。

另外,Groot是一个开放的人形基础模型,但我们决定给它增加一些特性,使其具有跨具身性。实际上,Groot是在各种具身形态上进行训练的,从带有刮刀的单个机器人手臂到带有双手的两个手臂、带有刮刀的两个手臂,各种不同类型的机器人手臂,应有尽有。我们有一系列具身形态,它是跨具身的。

那么我们如何实现这一点呢?让我们再次看看系统一,这是同一张图表,只是分解得更详细一些。基本上,机器人状态通过状态编码器变成一些“令牌”,动作通过动作编码器也变成一些“令牌”。通过这些交叉注意力和自注意力交替的层,最终得到实际的动作。我们在这里添加了一个简单的概念,使其不仅适用于人形机器人,还能适用于工业机器人手臂等。

这些绿色的部分是具身特定的适配器,基本上对于每个不同的具身形态,你都有一组不同的适配器,但所有中间层都是神经网络在大量数据上学习到的有趣表示。然后,我们只需将视觉语言模型接入其中。我们使用的是Egie-2 VLM(这是英伟达更大VLM家族的一部分 )。

现在让我们看看Groot的实际表现。我们把Groot放在一个厨房场景中,它能够放置各种不同的、未见过的物体,新的几何形状的物体,它能够抓取并把它们放在盘子上。而且机器人还可以很“浪漫”哦,我们在这里做了一些有趣的任务,你给它一些花,它会递给你香槟。

这是一个成功的镜头,但在开发过程中,你可以想象,那真是一团糟,不过这就是一个干净的镜头,当模型收敛时,你知道,它变得“浪漫”起来。

然后老黄展示了一个非常有趣的工业任务,这个任务需要两个机器人协作。右边的机器人拿一些机械零件递给左边的机器人,然后左边的机器人会看着这些零件,把它们拿出来,再把机械零件倒进黄色的箱子里。这只是一个序列,你还可以做更多。

很棒的是,对于人形机器人也是如此。我们与挪威的人形机器人公司1X有正在进行的合作,这是他们的最新版本Neo Gama。我们微调了Groot来执行这些家务任务,这是完全自主的,从感知到动作全程无需远程操作。

如果我们看一些定量结果,我们比较了Groot,它只有20亿个参数,是一个非常小的模型,但它的表现超出了预期。你不需要一个3000亿个参数的模型,因为它无法适配每个计算设备,这是物理人工智能的一个限制。

最后,还有一个额外的好消息,我们还发现Groot可以运行在Hugging Face的110美元机器人上。这是Hugging Face的开源硬件,非常便宜、实惠,所以我认为在座的每个人今天都可以开始尝试,你可以找到Groot,看看这个可爱的机器人动起来。

基本上,开放的机器人大脑运行在开放硬件上,这听起来很不错。

(未完待续)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档