联合创始人

GPUS开发者

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

近期AMD年度AI盛会Advancing AI 2026正式开启，重磅发布全新高端AI集群系统Helios，同时官宣与Anthropic达成50亿美元深度合作协议，正式吹响高端AI算力市场突围的号角。这套全新机架级AI系统搭载AMD新一代最强AI加速卡MI455X，不仅拥有顶级的硬件算力参数，更完成了AMD多年来最大的GPU架构革新，彻底打破消费级游戏卡与数据中心算力卡的技术壁垒，全方位对标英伟达主流AI软硬件生态。

对标英伟达彻底摊牌！AMD Helios硬核革新：架构合并+CUDA级生态突围

机器人行业正迎来关键拐点：设备从预设程序驱动的专用机械，进化为由大语言模型（LLM）、视觉语言模型（VLM）、视觉语言动作模型（VLA）驱动的自适应自主智能体，也就是物理 AI系统。新一代机器人依靠自然语言交互、物理环境感知、轨迹预测、自主推理完成复杂作业，人形机器人、工业机械臂、自主移动机器人、无人机、智能交通设备均在此浪潮中快速落地。

算力直追 T5000、体积减半！Jetson Thor 重塑人形机器人边缘计算新标准

英伟达开发者论坛用户 entrpi 于 7 月 15 日公开一套深度适配DGX Spark（GB10 Blackwell）的 DeepSeek-V4-Flash 推理分支 ds4-on-spark。早在 5 月初 antirez 发布原生 MLX 推理引擎 ds4 时，该开发者便在官方 CUDA 支持落地前，独立完成全套 CUDA 后端开发。上游官方引擎并未针对消费级 Blackwell 硬件做极致服务性能优化，因此作者持续迭代该分支，历经 10 周、409 次代码提交、新增 9 万余行代码，完成全栈深度优化，今日正式开源。

DGX Spark 极限压榨！深度优化 DeepSeek-V4：35token/s、单机承载 766K 上下文多智能体服务

Physical AI 正在重塑机器人与真实世界交互的方式，人形机器人凭借适配人类生活、工作场景的天然优势，成为机器人产业落地的核心赛道。但长期以来，人形机器人开发存在工具链割裂、仿真真机迁移难、VLA 视觉语言动作模型落地门槛高、从零搭建流程成本巨大等痛点：科研人员要耗费大量时间打通仿真、数据采集、模型微调、硬件部署全链路，企业工程师缺少可复现的标准化落地参考方案。

人形机器人落地捷径：NVIDIA 官方 GR00T 实操教程正式开放学

本文整理自 NVIDIA 线上直播讲座《DGX Spark Live: Autonomous AI Agent Migration》。本场直播携手高能效 AI 计算领域龙头企业 ARM，依托 DGX Spark ，完成本地 AI 智能体实操演示。直播全程展示了基于 NVIDIA NemoClaw 框架、本地离线运行 Qwen3-Coder 大模型的 AI 智能体，借助 ARM MCP 服务自主完成老旧 x86 应用向 ARM 架构的代码迁移全流程，下文为本次演示完整技术梳理与解读。

本地自主 AI 智能体代码迁移 ：基于 NVIDIADGX Spark端到端落地实践

作为 NVIDIA 面向 AI 视频图像理解的流式分析工具套件，DeepStream 长期凭借 GStreamer 硬件加速框架、TensorRT 推理、多流并发处理能力，成为智慧城市、工业视觉、自动驾驶多相机感知场景的核心开发底座。全新迭代的DeepStream 9.1带来颠覆性升级：内置 13 套专属智能代理（Agentic）开发技能，彻底告别从零手写视觉 AI 流水线的繁琐流程，搭配多视角 3D 追踪、全自动相机标定工具与 JetPack 7.2 边缘全栈适配，同时完整开源统一 GitHub 仓库，全方位降低开发者落地实时视频分析应用的门槛。

适配 JetPack 7.2！NVIDIA DeepStream 9.1 携 13 大智能代理技能重构边缘视频分析

作为 NVIDIA 联合斯坦福大学、德州大学奥斯汀分校的机器人算法研发团队，在通用机器人基础模型研发中发现，现有主流视觉运动策略普遍存在致命短板：绝大多数机器人模型仅支持单步或极短时序上下文，有效记忆窗口不足 0.1 秒，只能处理零散帧数据，执行多阶段、长时序装配任务时会瞬间遗忘此前动作与环境交互信息，难以完成连贯、复杂的连续操作。

NVIDIA推出RoboTTT训练框架，实现机器人超长时序感知新突破

RDMA 技术解决了机器间的网络传输问题，但它并未解决 GPU 数据传输的核心瓶颈。

RDMA与GPUDirect RDMA：网络传输瓶颈的深度优化逻辑

前面《 小白教程：两台 NVIDIA GB10 系统如何互联》已经带着大家用 QSFP 网线连接两台 DGX Spark 设备，本文就进一步用 NVIDIA 的 NCCL（全名 NVIDIA Collective Communications Library，集合通信库）来确认两台机器直接的协作方式。

用 NCCL 检查 2 台 DGX Spark 协同合作

长久以来，在大众认知中，高性能计算、人工智能训练与推理的核心算力担当都是GPU。无论是顶尖超算集群，还是大模型训练服务器，搭载大量GPU芯片几乎成为行业标配，GPU也凭借绝对的并行算力优势，垄断了近十年的高端算力市场。但近期，一则行业重磅消息打破了这一固有认知：中国灵晟（LineShine）超算纯靠CPU架构，成功登顶全球TOP500超算榜单，全程未搭载任何GPU芯片。

中国LineShine超算强势登顶！AI与超算领域，GPU不再是刚需？

本教程基于JetsonHacks实操视频整理，全程手把手教学，适配 Jetson AGX Orin 64G、Jetson Orin Nano 设备，教你从零搭建兼具本地可视化、远程SSH开发、AI智能编码的一体化工作站，实现本地主机编辑、Jetson设备运行、双端调用Claude Code的开发模式。

Jetson 设备搭建 VS Code+Claude Code AI 编程工作站完整教程

2026 年 7 月7日，英伟达联合 Hugging Face 在官方博客发布重磅更新：NVIDIA Isaac Teleop 远程操控框架与 GR00T 1.7 开源视觉语言动作（VLA）人形机器人基础模型，全面适配 Hugging Face LeRobot 开源机器人开发库。此次深度打通，将英伟达 Isaac 机器人仿真、远程示教、通用 VLA 大模型能力，与 LeRobot 标准化数据集、模型训练、开源分发生态融为一体，连接英伟达 300 万机器人开发者与 Hugging Face 超 1600 万 AI 开发者，大幅降低人形机器人、机械臂具身智能的研发门槛，构建一套从远程数据采集、仿真训练、模型微调、真机部署全链路标准化开源工具链。

NVIDIA Isaac Teleop 与 GR00T 1.7 VLA 模型正式接入 LeRobot

随着行业AI落地从零散的试点项目，全面迈入规模化、常态化的AI工厂量产阶段，开发者与企业的基础设施选型逻辑正在发生根本性变革。过往聚焦芯片峰值算力、硬件参数堆叠的选型标准已然过时，当下AI工程落地的核心考核指标，转变为Token成本能效——即每投入一美元、每消耗一瓦功耗，在满足业务延迟要求的前提下，能够产出多少有效Token。这一核心转变，让软硬协同优化、全栈协同迭代的软件能力，成为AI推理量产落地的核心竞争力，而英伟达Blackwell平台配套的全栈推理软件栈，正是适配量产AI场景的最优解决方案之一。

AI量产时代，英伟达全栈推理软件栈重构Token成本经济性

还在 Jetson Orin 系列设备上使用 DeepStream 6/7 的开发者一定要看过来。先看看2025年9月推出的 8.0 与 2026年 3 月发表的 9.0 新增的功能，是否能刺激你的升级欲望？

Jetson Orin 还在用 DeepStream7？JetPack7.2 解锁DeepStream 8全新能力

近期，英伟达推出一项重磅开源举措，正式开放面向AI编码助手的官方「技能库（Skills catalog）」，彻底革新AI开发者基于英伟达硬件的开发、调优与部署流程，大幅降低AI硬件适配开发门槛。

英伟达重磅开源！AI 编码助手专属技能库，一键搞定 NVIDIA 硬件开发部署

Jetson Device Skills 是英伟达面向Jetson 边缘嵌入式硬件推出的一套原生工具能力集，专门给 AI 智能体（AI Agent）使用，现已同步上架 GitHub 开源仓库与 NVIDIA Build Skills 官方平台。简单理解：以往 AI 智能体大多只能在云端、电脑上做代码规划，现在这套技能能让智能体直接在 Jetson 硬件本机完成全流程开发调试，打通 “AI 智能体” 与 “实体边缘设备” 的壁垒，是 JetPack 7.2 配套的核心智能体开发组件。

Jetson Device Skills 正式上线！边缘 AI 智能体拥有设备原生开发能力

在AI大模型算力芯片的宣传中，显存容量一直是最抓人眼球的参数。近期AMD新一代AI加速卡MI455X对标英伟达Rubin芯片，凭借1.5倍的显存容量赚足了关注度。很多人会理所当然认为：显存更大的AMD芯片，生成AI文本Token的速度一定更快。

显存大就一定跑得快？一文看懂AI芯片容量与带宽的核心误区

NVIDIA Jetson设备升级JetPack 7.2系统后，几个常用AI开发工具、容器环境与可视化工具出现GPU加速失效问题，普遍表现为程序崩溃、静默降级CPU运算、生成内容异常、系统版本识别失败等故障。这类问题并非程序Bug，而是系统驱动、CUDA运行时、硬件算力适配、软件版本适配多层级兼容性冲突导致。本文将逐一梳理典型故障场景，拆解核心根因，为Jetson Orin系列设备JP7.2环境调试提供清晰的问题溯源依据。

JetPack 7.2环境Jetson设备GPU加速异常问题深度解析（含Jtop解决办法）

核心答案：两大英伟达自研黑科技——NVLink高速互联总线 + NVSwitch交换芯片

8张独立H100显卡，为何在服务器里能化身一张超级大显卡？

CUDA-Oxide是一套基于Rust语言开发的NVIDIA GPU并行计算开发工具链，区别于传统用C/C++编写CUDA显卡并行程序的方式，它可以让开发者直接用Rust语言完成全套GPU程序开发。

用Rust写GPU内核：CUDA-Oxide完整开发流程与性能优化指南

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了GPUS开发者专栏，为你提供了GPUS开发者的相关文章，致力于帮助开发者快速成长与发展。

GPUS开发者

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐