英伟达最小的Grace-Blackwell工作站本周终于登陆市场,距离这家GPU巨头首次在CES上以"Project Digits"为名展示这款AI迷你PC已过去大半年时间。
这款被重新命名为DGX Spark的系统,尺寸与NUC相当,搭载了Blackwell GPU,可提供最高1 petaFLOP的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。
虽然起售价约3000美元,但这款设备并非面向主流PC买家。该系统将通过OEM合作伙伴以不同品牌名称销售,且不预装Windows系统。相反,它搭载了定制版Ubuntu Linux。
Spark实际上面向AI和机器人开发者、数据科学家和机器学习研究人员,为他们提供成本较低但仍能运行高达2000亿参数模型的工作站平台。
这类工作负载对内存需求极高,使得在消费级显卡上运行它们变得不切实际。虽然高端工作站显卡(如RTX Pro 6000)可配备高达96GB的GDDR7显存,但单张卡价格就超过8000美元,这还不包括平台其他组件的成本。
在发布时,DGX Spark技术上已成为某中心容量最大的工作站GPU——至少在其基于Blackwell Ultra的DGX Station亮相之前保持这一地位。
DGX Spark的核心是GB10系统级芯片,本质上是驱动其旗舰NVL72机架系统的Grace-Blackwell超级芯片的微型版本。
GB10由两个计算芯片组成,通过某中心专有的NVLink芯片间互连技术以600GB/s的速度连接。这项技术未来还将用于将某中心的GPU与某机构未来客户端CPU进行网格连接,这是两家芯片巨头合作的一部分。
GPU芯片可提供最高1 petaFLOP的稀疏FP4性能或约31 teraFLOPS的单精度(FP32)性能——在原始性能方面与RTX 5070相当。虽然550美元的消费级显卡提供超过两倍的内存带宽,但仅配备12GB GDDR7显存,在可运行的模型和AI工作负载方面将受到很大限制。
与某中心最初的Grace CPU不同,GB10的CPU芯片未使用Arm的Neoverse V2核心。该芯片是与某机构合作设计,采用20个ARMv9.2核心,其中10个是Arm的高性能X925核心,其余基于其优化能效的Cortex A725核心。
与某机构的M系列和某机构的Strix Halo SoC类似,GB10的CPU和GPU都由共享的LPDDR5x内存池供电。这种计算和内存的紧密耦合使芯片制造商能够实现比传统PC平台高出两倍以上的带宽。对于GB10,某中心宣称其内存带宽达到273GB/s。
Spark的一个独特之处是高速网络功能。就像某中心的数据中心平台一样,Spark的GB10配备了集成的ConnectX-7网卡,背面带有两个QSFP以太网端口。
虽然理论上这些端口可用于高速网络,但它们实际上设计用于连接两个DGX Spark系统,有效将其微调和推理能力翻倍。
在这种配置下,某中心表示用户将能够在4050亿参数的模型上以4位精度运行推理。
来自某中心、某机构、某机构、某机构、某机构、某机构、某机构和某机构的DGX Spark系统将于10月15日开始销售。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。