【解密Jetson Thor系列1】从边缘到通用智能：英伟达为何打造Jetson Thor？

GPUS Lady

发布于 2025-11-20 17:47:51

190

文章被收录于专栏：GPUS开发者GPUS开发者

本文整理自NVIDIA线上研讨会《Accelerate Robotics and Real-Time AI Inference on NVIDIA Jetson Thor》

首先，我想谈谈如何用英伟达的三大计算平台方案解决物理AI问题。

如今，物理AI正成为现实——它指通过模型理解物理世界规律，并智能互动的技术。在物理AI新时代，核心挑战是：如何构建高智能模型，并将其部署到数据产生的边缘端，实现实时响应。但解决问题的路径并非从边缘开始，而是从云端起步。

第一步是用英伟达DGX系统训练基础大模型（OEM模型）。有了基础模型后，再通过仿真技术优化：既能生成更多数据提升性能，也能微调模型，或用于测试验证。关键是，我们会先构建虚拟环境（比如Omniverse），在模型实际部署到机器人前，充分验证其有效性。

验证完成后，模型会被带到物理世界的边缘设备（如Jetson）上运行。英伟达与全球软件、AI及机器人开发者合作，加速从开发到部署的全流程技术栈落地。

今年8月底，随着Thor平台推出，英伟达三大计算平台将全面搭载Blackwell架构，这是重要突破。我们期待分享如何更高效地实现这一目标——尽管目前刚刚推出Jetson Thor，但这只是起点。未来，我们将基于这一强大平台，构建下一代智能机器人，推动物理AI真正落地。

说到机器人，你可能已经感受到：这个行业已和过去截然不同，而推动这一领域疯狂创新的核心动力，正是生成式AI。让我解释一下为何会有这样的变化。

过去，机器人多是单一功能的程序化、规则化设备。它们通常被大规模部署在汽车制造等工业场景中——因为这些领域有足够的规模和资源，能专门编程让机器人“做好一件事”。但这种方式耗时、难以扩展，且无法灵活转换新技能。

而未来的机器人将是通用型的。所谓“通用”，是指它们将搭载由生成式多模态大模型（如视觉语言模型VLM、视觉语言行动模型VLA）驱动的强大“大脑”。这类模型能理解人类语言：比如你说“帮我拿个东西”“把盒子捡起来”“把这辆车送到工位”，机器人不仅能听懂指令，还能通过推理理解需求，调用工具快速执行任务——这正是我们最终想实现的目标。

而所有这些令人惊叹的能力，背后都依赖一个核心基础。

你知道，实时推理能力正是解锁各类物理与机器人应用的关键。下面我举几个例子说明我们的思考逻辑。

当下硅谷最热门的话题当属人形机器人。这类机器人堪称人类的具象载体，头部、手部等部位搭载了多种处理器，需要能在厨房、工业装配等场景中灵活完成任务。这类机器人往往要求进行实时传感器数据处理，并运行视觉语言行动模型（VLA）。我们看到很多公司正朝这个方向发展，同时还需要具备实时反应能力。试想，如果机器人不具备实时推理能力，就会频繁出错，无法按要求完成任务——比如你跟它说话，它却无法响应，那注定会失败。这就是实时推理重要的原因。

再看其他物理场景应用。比如构建视觉AI智能体，它需要理解空间信息，把握所处环境的上下文，为用户提供定制化提醒，或是为你总结视频内容。这类应用常见于仓库场景，比如要判断是否发生异常（如箱子掉落），并快速分析“出了什么事”。这些智能体同样需要快速理解现场情况，实时推理至关重要。

医疗领域也是如此。如今的医疗机器人变得更智能，不再局限于单纯的AI检测与分类（比如定位肿瘤位置），如果是手术机器人，还需要执行操作，总结手术过程中的情况，为医生查找信息（比如调取CT影像、获取患者病史等），辅助医生更高效地获取资源。实时推理在这里同样不可或缺。

类似的例子还有很多，比如自动驾驶拖拉机、自主移动机器人（AMR），甚至边缘高性能计算（HPC）场景，都需要实时传感器数据处理，都离不开推理能力。这正是英伟达推出Jetson Thor的原因。

Thor是物理人工智能与机器人领域的终极平台，它的性能极为强大——这是目前全球综合表现最优异的处理器：在如此小巧的体积内，它拥有最高的算力密度。具体来说，它搭载了基于Blackwell架构的GPU，最高可提供2070 TFLOPS（FP8精度）的算力，支持新一代Transformer模型运算；同时具备独创的“即时GPU实例化”功能，能将GPU虚拟划分为两个独立实例，实现工作负载隔离。

硬件配置上，Thor配备了最多14核的Neoverse 架构ARM CPU，专为实时处理优化；配备128GB大容量统一内存，内存带宽高达273GB/s，可实时驱动大型通用多模态大模型。

更值得关注的是它的连接能力：Thor提供4组25GbE高速互联接口，总带宽表现卓越。而如此强大的性能，功耗却仅为130瓦——目前该平台已正式面向全球发售，开发者可通过官方分销商甚至亚马逊平台直接购买。

与上一代产品相比，Thor实现了性能的飞跃式提升：AI算力提升35倍，能效比提升3.5倍，CPU性能提升3倍，I/O吞吐量提升10倍。无论你想开发什么应用，这都是目前最卓越的性能平台。

从计算规格来看，与Orin相比，Thor有着显著提升 —— 从Orin的2048个安培架构CUDA核心，到Thor T5000上配备的2560个最先进的Blackwell架构GPU，它能实现高达2040 TFLOPS的FP4性能，处于同类产品的最佳水平。

在CPU方面，Thor搭载了14个最新的ARM Neoverse核心，这使得Thor的CPU性能相比Orin提升了3.5倍。

对于处理大型模型的需求，与Orin相比，我们增加了内存容量和带宽。Thor的T5000版本最高可配备128GB的LPDDR5内存。同时，Thor的I/O带宽相比Orin 200提升了10倍，达到200Gbps，配备了4个25Gbps的以太网接口。

在功耗方面，T5000模块的功率范围为40瓦到130瓦，T4000模块的功率范围为40瓦到70瓦。在这个功率范围内，Thor能实现同类产品中最佳的2000+ TFLOPS性能。

从机械结构方面来看，好消息是Thor模块的外形尺寸与Orin兼容。这意味着你可以使用相同形状、相同尺寸的模块，并且能适配现有的安装设计。

我还想着重讲讲在将高保真传感器数据接入Thor强大计算单元时，我们观察到的一些关键挑战。

首先是低延迟传感器数据注入需求。我们在实际应用中发现，用户对低延迟的传感器数据注入有着迫切需求，这一点在人形机器人领域尤为突出。比如说，对于人形机器人而言，实时且精准的控制回路至关重要，而能否将传感器数据快速、高效地注入GPU内存，就显得格外重要。

其次是传感器集成的耗时问题。很多用户会使用多种不同类型的传感器，而且在开发过程中，他们可能还会根据需求更换传感器。但他们不想每次更换传感器时，都重新设计硬件。可就目前的状况而言，用户可能需要在内核空间进行大量的驱动开发工作，这一过程不仅复杂，而且极其耗费时间。

还有一个挑战是安全保障需求。许多用户和开发者都希望传感器平台能实现端到端的安全可靠的数据传输，确保整个系统的安全性。

正是为了解决这些挑战，我们打造了Holliscan传感器桥接方案。

Holliscan传感器桥接平台是我们推出的传感器至以太网流式传输解决方案，主要针对以下典型应用场景：人形机器人与机器人领域（涉及多类型摄像头、惯性测量单元IMU、执行器、音频传感器）、医疗仪器（如超声摄像头、内窥镜中的HDMI/HD高清信号）、通信系统（如6G）以及测试测量场景（需将数据转换器连接至计算平台）。这些场景的共同需求，是将高带宽传感器数据高效接入Thor计算平台——而这正是Holliscan传感器桥接平台的核心价值所在。

该平台的首个核心优势是“超低延迟”。上述多数应用场景（如人形机器人控制）需要将传感器数据极速传输至GPU内存，而Holliscan传感器桥接平台能以最低的延迟实现这一目标，确保实时性。

其次是“易用性”。开发过程中，用户仅需数小时即可完成新传感器的接入（对比传统方案需耗时数周甚至数月），大幅降低了开发门槛。

第三个优势是“可扩展性”。部分客户希望基于统一的传感器架构，适配不同规模的计算需求（例如小型、中型、大型三类应用）。过去，即便传感器架构相同，由于计算架构或传感器与计算的连接方式差异，他们必须为每种应用单独设计定制化的软硬件。而Holliscan传感器桥接平台基于以太网构建，其底层天然具备强扩展性——用户只需设计一套传感器架构，后续可根据需求灵活“菊花链”式扩展计算节点，无需重复开发。

最后是“安全与可靠性”。我们在Holliscan传感器桥接平台中内置了最高支持SIL 2等级（功能安全完整性等级）的端到端安全协议，从底层保障数据传输与系统运行的安全可靠。

接下来，让我们深入了解一下传感器桥接平台（Sensor Bridge）的工作原理。

我们开发了一套自定义的UDP协议。Sensor Bridge是一个软件解决方案，它运行在合作伙伴提供的硬件上。就目前而言，这个UDP协议运行在FPGA（现场可编程门阵列）上，你可以通过MGBE接口将FPGA连接到我们的计算机平台。

另外需要着重指出的是，它能够处理任何类型的I/O（输入/输出），比如LVDS（低压差分信号）、JST（一种连接器类型）。它既负责数据打包工作，也承担控制功能。像I2C（集成电路总线）、SPI（串行外设接口）以及GPIO（通用输入输出接口）等，在Sensor Bridge架构中都是可配置的。

那么，如何着手使用全栈的Sensor Bridge呢？我们英伟达提供了软件，用于简化从传感器到以太网的连接流程。我们有FPGA合作伙伴来提供硬件，针对多千兆以太网解决方案，有莱迪思（Lattice）和微芯科技（Microchip）这两家FPGA合作伙伴。现在已经有可供使用的开发者套件，能帮助你快速开启开发工作。这个开发者套件包含Holoscan传感器桥接平台IP（知识产权核），还有用于连接摄像头的摄像头连接器。

英伟达提供了丰富多样的软件，这些软件相互配合、层层叠加，这也是为什么我们有时将其称为“软件栈”。而且，这些软件可以在英伟达的三大计算平台上通用——DGX用于模型训练，OVX用于仿真，AGX作为我们的第三大计算平台，用于人工智能应用。这一点非常了不起，在其他嵌入式平台上，当你将应用部署到具体设备时，往往会失去很多原本习以为常的软件基础设施。作为AI开发者，你过去可能默认这些基础设施是现成的，但在嵌入式设备上，你可能需要为特定硬件开发大量定制化解决方案。而Jetson则不同，它可以完整获取英伟达的软件栈。

除此之外，英伟达还针对Jetson这款边缘AI计算机，提供了专门的软件。比如，我们基于Ubuntu 24推出了Jetson Linux操作系统（BSP即板级支持包），其中包含了所有定制化的内核驱动，以确保硬件能够正常运行。安全问题至关重要，因为Jetson最终会部署到客户的实际产品中，所以我们对此高度重视，并提供了相应的安全解决方案。

总之，通过我们提供的软件栈，Jetson在软件支持方面为开发者提供了全方位的保障。

JetPack 7已于8月正式发布，它集齐了所有完整功能，标志着该软件已达到生产就绪状态。虽然JetPack 7包含众多新特性（这里无法逐一展开说明），但我想重点强调其中的几个关键点。

首先，Jetson Thor搭载的SoC芯片已集成Blackwell架构DPU（数据处理单元），而JetPack 7的底层BSP（板级支持包）基于Linux系统，其GPU驱动已全面支持这一新架构。支持Blackwell架构将带来诸多优势——比如我们后续会详细讲解的多实例GPU（MIG）功能，就将在后续版本的JetPack中得到支持；NSBSA（可能是某项特定技术缩写）也是重要的新特性，目前已可投入使用。

此外，我想特别提及几个与摄像头相关的重点功能：包括对HSV色彩空间摄像头的支持，以及相关简化开发流程的优化。关于这些摄像头功能的细节，我们稍后也会进一步展开讨论。

关于Jetson Thor的开发环境安装与系统烧录，若你计划基于Jetson Thor开展开发，使用Jetson AGX Thor开发套件是最优的入门选择。

传统上，若要在Jetson AGX Thor平台上进行开发，通常需要先准备一台主机（比如PC），通过这台主机将Jetson设备烧录启动——整个流程较为繁琐。但现在，我们推出了全新的USB磁盘安装机制，彻底简化了这一过程：你只需使用日常使用的Mac、Windows或其他任意PC，从英伟达官网下载ISO镜像文件，然后将该镜像烧录到U盘（USB闪存盘）中。接着，将烧录好的U盘插入Jetson设备，稍作操作（比如按几次回车键），大约12分钟后，你的Jetson就能完成系统安装，准备好基于BSB（推测为底层软件栈或特定框架）的开发环境。

这是一种更快捷的入门方式。当然，传统的通过主机PC使用SDK管理器或烧录脚本进行外部刷新的方法仍然可用。但如果你是初次接触Jetson AGX Thor开发套件，使用ISO镜像通过U盘安装，是最推荐的方式。

这些内容在我们的在线用户指南中有详细说明，具体可查阅「快速入门指南」板块——你可以按照步骤一步步操作，很快就能完成准备工作。

此前我也提到过其他安装或烧录BSP Linux系统的方式，比如通过SDK管理器或烧录脚本，这些方法在本指南中同样有明确介绍。

如今，Jetson Thor终于实现了基于SBSA（服务器基础系统架构）的系统架构。这一升级得益于我们为Jetson全新研发的新型GPU驱动——OpenRM驱动。

过去，我们一直使用专为Jetson片上系统（SoC）中的集成GPU（iGPU）设计的NV GPU驱动，其架构与桌面GPU或x86架构GPU所采用的驱动架构截然不同。而现在，我们完成了向OpenRM驱动的迁移。

这意味着，Jetson现在与其他基于ARM架构的英伟达计算设备（如用于数据中心的DGX Spark、GB200等DGX系列产品）运行在相同的平台上。这种统一性极大地简化了开发者的体验流程——开发者可以为所有英伟达ARM平台采用同一套开发流水线。这一点在Jetson Thor上已经有所体现：你现在可以直接使用一些原本为传统桌面系统开发的工具（比如NVIDIA Nsight Systems中的nbttop工具），并立即感受到这一改进带来的便利。未来，随着英伟达所有ARM平台采用统一的集成开发流水线，你还将持续获得更多优势。

CUDA 13是JetPack 7.0的另一大亮点——这是CUDA工具链的最新版本。我们针对CUDA 13的功能，大部分新特性都已集成到JetPack 7.0中。比如SBSA的相关支持已涵盖，多进程服务（Multi-Process Services）也已在我们的Jetson平台上实现。

唯一稍晚推出的功能是多实例GPU（Multi-Instance GPU，简称MIG），它将于JetPack 7.2版本中上线（计划于明年年初发布）。而JetPack 7.1版本将于今年推出，用于支持即将发布的Jetson T4000模块——这款模块是T5000模块的“小兄弟”，目前已集成在Jetson AGX Thor开发者套件的JetPack系统中。