前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >英伟达全栈工具链如何重构Groot机器人开发链路(一)

英伟达全栈工具链如何重构Groot机器人开发链路(一)

作者头像
GPUS Lady
发布2025-03-27 15:05:29
发布2025-03-27 15:05:29
650
举报
文章被收录于专栏:GPUS开发者GPUS开发者

小编整理了NVIDIA GTC Watch Party《构建人形机器人介绍》讲座内容。

因为太长,所以本文为第一部分内容

首先,什么是“Groot”呢?要构建机器人技术,我们首先需要收集或生成大量合成数据。一旦拥有庞大的数据集,我们就会用它来训练基础模型,这些模型将成为我们机器人的“大脑”。训练完这些模型后,我们希望将其部署到机器人上,使机器人具备自主性,这就是我们所说的Physiical AI Lifecycle(物理人工智能生命周期)——生成数据、消耗数据,然后部署模型。

相应地,英伟达定义了三个计算机问题,从OVX计算机开始,这是一种仿真计算机,可通过远程操作(使用XR设备)或仿真套件(如经过GPU加速的Isaac Lab)生成令牌。生成这些令牌后,DGX计算机会从中学习,将数以万亿计的令牌压缩成一种成果(昨天已宣布,称为“Groot - 1 Foundation Model” )。最后,需要将其部署到低成本、高效率、低能耗的边缘计算设备上,即AGX计算机,这些计算机用于部署令牌。所有这些结合起来定义了“Groot”。

“Groot”并非单一模型或产品,而是一种战略,是构建机器人技术及英伟达未来物理人工智能计算平台的战略。

“Groot”构建遵循的研究原则

在构建“Groot”过程中,遵循以下三种研究原则:

“通才(Generalist)”原则:先构建通才模型,再以此为基础进行专业化,使其在不同领域和下游任务中成为更好的专家。

“双系统(Dual System)”原则:构建自主堆栈时,回顾机器人技术发展,从高度模块化阶段管道开始,先解决感知问题,再将规划、决策和控制视为独立问题整合,但此方法存在信息瓶颈,无法联合优化整个堆栈;构建单体模型实现像素到动作直接转换又会失去模块化和可组合性优点。因此,需研究如何在模型中保留可组合结构并联合优化。

“数据金字塔(Data Pyramid)”原则:机器人技术与大型语言模型或视觉语言模型不同,不存在人形机器人控制的互联网,无法像训练大型语言模型那样从互联网下载机器人动作直接训练模型,需创造性寻找数据源。

看看人工智能邻近领域(如自然语言处理和对话)的发展,可以发现创新的反复模式。自然语言处理研究人员花费数年时间构建用于情感分析、句法分析、信息提取或文本摘要等任务的定制模块,像Char-GPT、Llama和Cloud等语言模型的出现表明,我们现在可以将训练整合起来,构建一个通用的大型模型。这些模型在大量开放目标数据上进行训练,因此对词汇、知识和人类语言有了普遍的理解。因此,我们可以使用这个通才模型来适应各种语言应用,比如让它写诗、自动编写计算机代码,或者为下一次度假提供旅行计划。如果从头开始开发这些自然语言处理应用,难度极大,但构建通才模型后,我们就能更好地构建专业模型。

再看看机器人技术领域,情况类似。研究人员已经开发出令人惊叹的机器人专业应用,比如用灵巧的手解决魔方,或者让机器狗穿越复杂地形。但我们离拥有能够部署到家庭或工厂、执行各种人类任务的通用机器人还很远。我所说的“通用专家(Generalist Specialist)”并不是为了通用而通用,而是应该具备一套核心能力,同时能够不断学习和适应新场景,在部署的目标领域发展出深厚的专业知识。

在我们迈向这种“通用专家”的过程中,我认为需要构建通才机器人模型,这也激励着我们开展相关工作。我们在Gear Lab一直在进行基础模型的研究,很多目标与构建通才机器人模型的使命一致。这是一个极具吸引力的研究课题,也是一项巨大的技术挑战。我们不只是想制作视频中的机器人,而是希望构建核心技术,不仅是单个基础模型,还包括所有教程、基础设施和计算平台,以激活整个生态系统,与行业合作伙伴共同解决这一重大挑战。

已经提到了为什么要做人形机器人,我想从技术角度再补充几点。

其一,如果我们的目标是构建通才机器人,就需要一个通用的、多功能的身体。因为我们讨论的是物理实体,其物理形态在很大程度上决定了它的能力范围。如果研究机器狗,最多只能达到狗的水平,这虽然很酷,但如果想让机器人在人类环境中执行日常任务,就需要类似人类的身体。

其二,我们看到机器人成本大幅下降,不仅价格便宜,而且功能强大。例如,Gear Lab最近的一个名为ESAP的项目,我们将其作为平台进行大规模技能强化学习训练,使机器人能够生成非常敏捷的动态动作。

其三,我们称人形机器人为“无障碍项目”,因为人类按照自己的生理特征建造了世界。原则上,如果机器人能遵循类似的物理特性,我们就可以将其融入人类世界,而无需拆除所有房屋、工厂等重新建造,这在经济上是不合理的。理想情况下,如果机器人看起来和行为都像人类,就可以重用大量现实世界的基础设施,使用为人类身体设计的所有工具和设备。

最后,我最关心的是数据问题。我提到过,不存在机器人控制的互联网,但由于人类和机器人物理特性相似,互联网上实际上有大量人类中心数据,从动作捕捉数据库、好莱坞、娱乐行业到YouTube视频等,展示了人类做各种有趣的事情,比如装卸洗碗机或组装家具。因此,人形机器人相似的形态可能使我们更容易利用这些人类中心数据源,这是我们的一个关键假设。

在机器人技术中,我们需要构建能够快速反应并适应周围环境的机器人,具备即时的闭环控制能力;另一个是缓慢的系统(系统2),是有意识的、深思熟虑的思考系统,机器人也需要高级认知、推理和规划能力,以便理解周围环境和任务目标,并做出决策。我们的很多研究和“Groot-1”基础模型构建工作都围绕着如何将这两个思考系统集成到一个连贯的学习框架中展开。

我们可将自身置于神经外科医生视角,设想面前存在一个大脑。不同于运行于云端的大型语言模型(如GPT等),此大脑实际运行于硬件之上,能直接与现实世界交互,这便是Groot——世界上首个开放的人形基础模型。接下来,将深入剖析这一新型模型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • “Groot”构建遵循的研究原则
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档