首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【解密Jetson Thor系列2】开放生态重构AI推理边界——零日支持、7倍性能飞跃与机器人革命

【解密Jetson Thor系列2】开放生态重构AI推理边界——零日支持、7倍性能飞跃与机器人革命

原创
作者头像
GPUS Lady
发布2025-11-17 20:29:33
发布2025-11-17 20:29:33
1100
举报
文章被收录于专栏:AIOTAIOT

Jetson Thor 支持所有现代生成式人工智能框架和模型。

Jetson 的一大优势在于它是一个开放平台,并不绑定某一家特定的人工智能公司、供应商或模型提供商。

英伟达支持所有主流的 AI 框架,因此 Jetson 也全面支持它们。

你可以看到来自业内各大公司的主流框架,包括英伟达自家的 TensorFlow,还有 PyTorch、TensorFlow,以及像 Hugging Face 这样的主要玩家,它们的软件都能在英伟达平台上——当然也包括 Jetson——得到良好的支持。

更棒的是,最新的 Jetson Thor 配备了 128GB 的内存,这意味着它甚至能够运行一些当前由行业领先企业发布的大型模型,比如拥有 1200 亿参数的 GPT 模型,或者由 Physical Intelligence 推出的 OpenPIE 模型——这是一款非常出色的视觉-语言-动作模型,预计将在物理人工智能尤其是机器人领域发挥重要作用。

今天我们在行业中看到的所有这些令人振奋的技术进展,都可以通过 Jetson 平台获得,这正是 Jetson 作为开放平台、并支持众多框架所带来的巨大优势。

如今,人们经常讨论推理服务引擎(inference serving engine)和推理引擎(inference engine)。

其中一些比较知名的解决方案包括 ​VLLM,不过需要说明的是,这些目前还没有得到英伟达的官方全面支持。

如果你访问 ​NGC(NVIDIA GPU Cloud,英伟达 GPU 云平台)​,你会发现 ​VLLM 容器​ 已经提供了预览版本,你可以随时拉取(下载)使用。

也就是说,​VLLM 容器已经可以在 Jetson Thor 上运行

但如果你想使用其他框架,比如 ​MLC(Machine Learning Compiler,机器学习编译器)​,并且仍然希望在 Jetson 上进行学习或开发,你也有其他途径可以选择。

你不必非得依赖 NGC,而是可以转向我们非常活跃的开发者社区。

在社区中,有许多由活跃开发者维护的解决方案。

Jetson AI Lab(Jetson 人工智能实验室)就是一个很好的平台,你可以在那里了解所有这些社区活动和资源。

在背后支撑这些资源的,是我们推出的 ​Jetson Containers(Jetson 容器)软件框架,这是一个通过社区协作来构建和交付各类容器(软件运行环境)的平台。

首先,我们拥有一套机制,可以做到​“零日支持”(Day Zero Support)​某些模型。

这正是英伟达 GPU 在整个行业中广泛应用所带来的优势。

举个例子,当 ​GPT-oss 推出时,它就已经得到了官方支持,并且可以通过 ​LIMA CPP(一个开源推理后端)​​ 来运行。

而 ​LIMA CPP 已经在 Jetson 上得到了支持,所以该模型在发布当天就能在我们的平台上运行,也就是实现了“零日支持”。

现在,​VLLM 容器也通过 NGC(NVIDIA GPU Cloud)发布了,而且 VLLM 带来了许多最新特性,比如稍后会提到的推测解码(Speculative Decoding)​等技术。

这些新特性让我们平台上的某些模型能够在发布当天就实现高效运行,也就是“零日可用”。

这与其它平台形成了鲜明对比 —— 在那些平台上,你可能需要花费数月、甚至数年时间去对模型进行定制化开发,才能将其移植到特定硬件上。

另外,​NeMoGuardrails 也是英伟达的一项重要努力,它基于开源模型,打造了英伟达定制化的推理方案,这些方案同样可以在 ​Jetson Thor​ 上运行。

这些软件优化成果,还包括我们投入大量精力开发的 ​Flash Inference(闪存推理 / 快速推理技术)​

Flash Inference 为大型语言模型(LLM)提供了大量经过优化的计算内核(kernels),可以为某些模型带来最高 3 倍的性能提升

这也为我们最终实现高达 ​7 倍的整体性能提升​ 打下了基础。

另一个带来显著性能提升的因素,就是前面提到的 ​推测解码(Speculative Decoding)​

目前,​Eagle-3 是最新的推测解码框架,并且已经集成到了 ​VLLM​ 中。

通过利用这一技术,你又能额外获得 ​约 2 倍的性能提升

这就是为什么我们最终能在某些模型上实现 ​7 倍的性能增益​ —— 结合了 Flash Inference 的优化、VLLM 中的推测解码(如 Eagle-3 框架),共同推动了这一巨大的性能飞跃。

而且,你未来还会在其他模型上持续看到这种性能提升。

目前,​VLLM 和 Eagle-3 可能只支持部分特定模型,但随着社区和开发者不断努力,预计它们的支持范围将会不断扩大。

因此,我们将会看到越来越多模型得到优化,运行速度越来越快 —— 你的模型可能突然之间就获得了巨大的性能提升。

此外,​FP4(4-bit 浮点量化格式)​​ 也是一个重要的优化特性,它在我们最新的 ​Blackwell GPU​ 上得到了支持。

这些优化技术充分利用了新的量化技术(quantization)​以及硬件本身的新特性,从而进一步提升推理效率。

总而言之,​英伟达 Jetson 是一个绝佳的平台,在这里你可以亲眼见证并持续体验所有这些推理优化技术带来的进步与优势。

Jetson AI 实验室目前已成为 ​Jetson 开发者体验​ 不可或缺的一部分。英伟达(NVIDIA)致力于为开发者提供双重支持:一方面直接推广 ​AI Lab​ 平台,另一方面也持续维护其背后的技术工具链——本质上只是一些容器(containers)和框架,用于为每个应用构建和交付容器。

我们已针对 ​Thor(架构/平台)​​ 推出了基准测试教程,部分现有教程已兼容 Thor,同时团队正积极扩展更多教程的支持。目前我们也在全力推进 ​Jetson 容器​ 的更新.英伟达将长期支持 Jetson 容器,相关功能不会取消。关于具体细节,我们会在近期提供更多信息。

Isaac Groot是英伟达提供的杰出视觉-语言-动作模型,其性能表现令人惊叹。为了直观展示其能力,虽然理想情况下每位观众都应有连接Jetson Thor的人形机器人进行实操演示,但实际条件限制下,我们选择将Jensen的“计算机大脑”接入模拟器,模拟人形机器人任务执行。

具体实现方式如下:我们将Jetson与配备OBX或RTX显卡的x86计算机配对,通过运行Isaac SIM模拟器构建包含人形机器人的完整虚拟环境,并执行特定任务。当前演示聚焦于经过专项微调的Groot模型,该模型能完成双手协作倒水等复杂操作。在微调过程中,我们特别关注了影响实际性能和精度的物理参数。

该系统的运行逻辑是:Isaac SIM模拟器从机器人视角渲染场景,将图像传输至Jetson平台。模型在处理这些图像时无法分辨数据来源是真实摄像头还是虚拟模拟器,它会持续执行预设任务,并输出电机驱动指令控制人形机器人的所有关节动作。这些指令反馈回模拟器后,会驱动虚拟机器人运动,生成新的摄像机画面完成闭环。

通过这种虚拟-物理混合架构,我们可以在不损坏实际人形机器人的前提下,高效模拟微调模型在真实世界中的表现。正如电影《黑客帝国》中的经典场景——当断开虚拟连接时,机器人会因“脱离母体”而停止动作——右侧终端窗口显示的Jetson运行日志,正是这一过程的直观体现。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档