前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >英伟达全栈工具链如何重构Groot机器人开发链路(3)

英伟达全栈工具链如何重构Groot机器人开发链路(3)

作者头像
GPUS Lady
发布2025-03-28 14:28:00
发布2025-03-28 14:28:00
580
举报
文章被收录于专栏:GPUS开发者GPUS开发者

接:

英伟达全栈工具链如何重构Groot机器人开发链路(一)

英伟达全栈工具链如何重构Groot机器人开发链路(2)

制定训练策略

我们的目标是设计一个适配GPU的模型规模。然而,双参数模型本身规模较大。在机器学习领域,通常认为拥有大量参数的模型需要大量数据点进行训练,以确保模型既具备强大的表达能力,又能满足数据需求。为解决数据需求问题,特别是在机器人训练领域,我们引入了“数据许可”的概念,这一概念大约在两年前提出。

面对数据集规模不足的挑战,我们采取了务实的策略,即充分利用现有数据资源。我们将数据按体积或规模分类,构建了一个类似金字塔的数据结构。金字塔顶端是真实世界的数据,这类数据收集成本高,数量有限,因为人类每天的有效工作时间有限,数据增长与时间、金钱及人力投入呈线性关系。金字塔底端则是网络数据,如YouTube视频和维基百科页面,这些数据非结构化且多模态,但以人为中心,理论上可提取大量知识。

值得注意的是,网络数据被视为人工智能的“化石燃料”,而人类社会每天产生的数据量是巨大的。然而,如何有效利用这些数据仍是挑战。我们观察到,数字数据的日常应用如同“数字石油”,其规模巨大,以exabytes计。

在真实机器人数据与网络数据之间,我们引入了合成数据。合成数据来源于物理引擎和图形渲染器,是内部工具生成的产物。理论上,通过让GPU运行,我们可以生成无限量的合成数据。但实际操作中,使用合成数据的挑战在于需要高质量的模拟器和资产。目前,这一过程仍需人工参与,如从业者、图形设计师等,以创建和协调模拟环境,确保数据质量。

鉴于不同数据源各有优势,我们提出综合利用整个数据金字塔的策略。金字塔顶端的数据虽然质量高,但数量有限;底端的数据虽然规模大,但质量参差不齐。我们的假设是,通过研究合成数据和模拟数据,可以有效增强实际工作数据,提高模型泛化能力。

合成数据的一个显著优势是,一旦建立了有效的模拟环境,就可以通过改变各种参数和条件,指数级地生成大量数据点。例如,在视频omniverse中,我们可以通过程序生成不同条件下的数据,进而生成多种变体,丰富数据集。

利用增强数据进行训练,可以显著提升模型的泛化能力。考虑到模拟数据的有效性,我们不禁要问:为何模拟数据尚未得到广泛应用?这主要是因为模拟与真实世界之间仍存在差距,需要进一步优化模拟器和资产,以减少这种差距,提高模拟数据的实用性。

然而,当前面临的挑战在于需人工参与的循环过程。因此,现阶段利用合成数据仍涉及较高的人力成本,原因在于需图形设计师与程序员构建模拟环境。真正改变这一现状的关键因素,是生成式AI模型的可用性,这促使我们更深入地探究此方法。

如今,我们已拥有更为先进的模型,能够从语言提示中生成3D资产。我们可借助大型语言模型生成奖励函数与任务目标,也可利用图像生成模型随机化纹理和光照条件。如此一来,便能自动获取大量逼真场景,无需人工筛选与整理。

以下展示的是我们的一项研究示例,该示例演示了如何运用一系列生成式AI工具创建大型且逼真的厨房环境。在具备模拟环境后,还需行为数据,即需要轨迹输入至群组训练。我们近期开展的一项名为DexMimicGen的工作,本质上可视为一种轨迹倍增器。

具体而言,我们仅需使用苹果Vision Pro系统(此前已提及),通过简单操作收集少量演示(如五个演示),此过程可在十分钟内完成。随后,由计算机完成剩余工作,即在不同条件下多次运行模拟,并尝试合成新轨迹。我们仅需让GPU进行运算,无需工程师投入大量时间用于计算资源处理。

下面以该示例阐述数据生成管道的核心概念。假设需用机器人抓取器抓取物体,在左侧展示的是用抓取器抓取物体的源轨迹;右侧展示的是在不同位置实例化物体的情况。随后,我们可实际转换轨迹,使抓取器在新的初始化条件下抓取物体。

对比左右两侧可发现,机器人手与物体之间的相对姿态保持不变。从数学角度而言,这可视为一种等变函数(此处若有专业表述可能稍显晦涩)。这意味着,在一些SE(3)变换下,我们保留了机器人手与物体之间的相对姿态。这本质上是我们进行数据生成的基本思路。

然而,将上述方法应用于类人机器人时,还需解决额外挑战。类人机器人需两只手相互协调,且存在三种不同的行为类型。有时,两只手各自独立工作;有时,需共同协作完成任务;有时,需先用一只手完成一个任务,才能用另一只手开始下一个任务。

在此系统中,我们实际采用一种逻辑自动识别不同的操作模式,然后运用状态机逻辑实现状态转换。我们已证明,通过利用合成数据,可获得良好的技能学习特性。仅需提供50个演示,便可让GPU完成剩余工作,生成3000个演示用于训练模型,且可使用不同规模的数据集。我们展示了从50个到3000个自动生成轨迹(无需人工时间投入)的过程,策略性能提升了65%。

这一成果颇具前景,我们利用生成式AI模型创建生成式模拟,即自动数据生成系统,用于生成轨迹和行为。以下将说明为何要将它们结合使用。以下是我们用于训练的一个示例阐释。

接下来,第二列与第四列展示的是经Omnius和Azac等方法加权的模拟数据。

若仔细观察屏幕,或许无法明显察觉出太多差异。不过,当然存在一些特征,可借此分辨出其中部分为模拟数据,其含义应能明了。

通过此种方式,我们获取了一系列多样化的模拟数据,这些数据开始覆盖更广泛的分布范围与空间,以便应对各种情形。而少量真实数据,本质上是我们利用模拟数据、合成数据与真实世界数据进行训练的策略。

我们从在真实世界中收集的人类演示入手,以这种人类演示或真实世界任务作为灵感来源,运用生成式AI技术创建某种模拟环境。我们生成的具体模拟环境称为“Digital Cousins”.

“Digital Cousin”并非“数字孪生”之意。或许“数字孪生”的概念更为人所熟知,其指的是物理实体与虚拟实例之间的一一对应关系。而“Cousin”意味着,二者看似有相似之处,但并非完全相同。

因此,我们在一定程度上牺牲了精确度和保真度,以换取多样性和数量。通过放宽假设,我们能够生成更多的“表亲”数据,而不必追求与真实世界完全一致的“孪生”数据。这使得我们能够生成比真实世界数据多几个数量级的合成数据。

在“Groot N1”论文中,我们使用的合成数据量是真实世界数据的100倍。

目前,我们拥有两个混合的数据源,其比例存在失衡,其中一个数据源的数据量远大于另一个。为充分利用这些数据,我们需要探寻有效的策略。

具体而言,该策略的思路较为简单,即寻找一种复杂的数据混合策略,将这两个数据源整合在一起。我们采用智能采样方法,从每个数据源中抽取数据样本,但需确保对数据进行重新平衡,因为数据分布存在偏差,模拟数据的数据量远大于真实数据。

通过整合这些数据,并在类似的数据集上进行联合训练,我们展示了Digital Cousin的效果。事实表明,我们能够从生成的合成数据中显著受益,进而提高了训练策略在不同实体(从类人机器人到机械臂)上的鲁棒性。这便是其中一种方法。

这是利用合成数据的第二种方法。该方法基于传统的物理引擎和图形渲染器。目前,我们对新型模拟或新型渲染器的发展感到非常兴奋。

例如,像Sora这样的视频生成模型,我们已经看到,它能够生成高质量、高保真度的视频。我们也一直在研究如何利用这类视频数据,即视频数据,进行学习。

其中一个想法是,无论是人类视频还是新型生成的视频(如Sora生成的视频),它们本身并不包含动作信息。因此,我们面临的挑战是,如果没有动作信息,如何像利用遥操作数据那样利用它们进行训练。所以,我们必须找到从数据源中恢复动作信息的方法。

我们正在开发技术,以学习某种潜在的动作代码本,从而本质上学习一种跨所有不同实体(如各种机械臂、人手和类人机器人)对齐的潜在动作表示。

这里仅举两个例子,说明我们可以在如此多不同的机械臂、人手和类人机器人中,学习到一个统一的动作空间,并将它们对齐。具体细节可以在我们的白皮书中找到。

利用这些技术,我们还可以将潜在动作应用于神经轨迹。这里所说的视频并非实验室中的真实记录,而是由视频生成模型生成的。我们本质上做的是,提供一个在我们实际工作空间中拍摄的初始帧,然后让新型视频生成模型“想象”接下来会发生什么。我们给出一些语言提示,以生成视频序列,然后使用其潜在动作表示来标注这些视频的潜在动作。

有了标注的动作,我们就拥有了想要使用的数据集。我们有了观测-动作对,可以将其作为机器人数据,像标准机器人数据集一样用于训练我们的模型。

正如Jim提到的,Groot N1具有多实体支持,这本质上就是我们将这些新型视频视为另一种实体,并与真实机器人数据集一起训练其他模型。

关于我们的数据策略,我想说的是,我们的很多研究都以论文的形式呈现,但很多研究也真正服务于构建现实世界产品的目标。我们做的很多工作实际上都与工程团队紧密合作,将它们转移到Azac和Omniverse生态系统中,并与整个社区分享,以便你们在自己的目标领域中构建类似机器人等应用。我们还与生态系统中的合作伙伴一起,继续开发和部署我们的基础模型到实际用例中。

Jim已经提到,我们喜欢保持开放。类人机器人技术是机器人领域中一个巨大的、神圣的增长挑战,我们绝不可能独自解决它。我们正在开源基础模型Groot N1,以及一些训练数据评估协议和基准测试。你可以访问GitHub,复制代码,然后快速进行模型微调,并看看效果。我非常希望听到你的反馈,看看你能用Groot N1做出什么惊人的事情。

至此,本次会议的研究部分就告一段落。接下来,我将转换话题,再次交给我的同事,她将谈论工程方面的Alpha小组倡议。

(未完续读)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档