AMD在今年春季推出MI355X芯片,在性能方面缩小了与英伟达Blackwell加速器的差距。现在该公司需要克服英伟达CUDA软件的优势,让开发者更容易获得这种性能提升。
本周发布的AMD ROCm 7.0软件平台朝着这个方向迈出了重要一步,承诺在推理和训练性能方面实现重大改进,不仅让最新芯片受益,其较老的MI300系列产品也能获得提升。所谓的CUDA护城河可能正在变窄。
ROCm是一套软件库和开发工具套件,包括HIP框架,为开发者提供低级编程接口,用于在GPU上运行高性能计算(HPC)和AI工作负载。这个软件栈在很多方面类似于CUDA运行时,但针对的是AMD GPU而非英伟达。
自2023年推出首款真正针对AI优化的图形加速器MI300X以来,AMD通过其ROCm运行时扩展了对新数据类型的支持,改善了与流行运行时和框架的兼容性,并引入了硬件特定的优化。
ROCm 7可以说是AMD迄今为止最大的更新。与ROCm 6相比,AMD表示客户可以期待MI300X的推理性能提升约3.5倍。同时,公司称已成功将模型训练中实现的有效浮点性能提升了3倍。
AMD声称,这些软件增强功能的结合,使其最新最强的GPU MI355X在运行SGLang中的DeepSeek R1推理工作负载时,比英伟达B200有1.3倍的优势。如往常一样,所有厂商的性能声明都应谨慎对待。
虽然MI350X和MI355X在浮点性能方面与B200大致相当,分别实现9.2和10 petaFLOPS的密集FP4性能,而英伟达为9 petaFLOPs,但AMD产品拥有多出108 GB的HBM3e内存。
AMD MI355X的主要竞争对手实际上是英伟达的B300,后者配备288 GB HBM3e内存,实现14 petaFLOPS的密集FP4性能,这在理论上可能在推理工作负载中给它带来优势。
谈到FP4支持,MI350系列是AMD首代为OCP微缩放数据类型提供硬件加速的GPU,我们在上个月OpenAI gpt-oss发布时详细了解过这项技术。
这些更小的格式对推理和训练性能有重大影响,可提升吞吐量并将内存需求减少2到4倍。ROCm 7.0.0扩展了对这些低精度数据类型的更广泛支持,AMD表示其Quark量化框架现已准备好投入生产使用。
这是一个重大改进,相比之下,为MI300提供FP8支持就滞后了将近一年时间。
除了数据类型,ROCm 7.0.0还引入了AMD的AI张量引擎(AITER),它具有专门调优的算子,旨在实现最大的生成式AI性能。
对于推理,AMD表示AITER可以将MLA解码操作提升17倍,MHA预填充操作提升14倍。当应用于DeepSeek R1等模型时,这家GPU厂商称AITER可以将吞吐量提升超过2倍。
更重要的是,AITER和MXFP4数据类型已经被合并到流行的推理服务引擎中,如vLLM和SGLang。AMD告诉我们,启用该功能就像安装依赖项和设置适当的环境变量一样简单。
其他改进包括支持最新的Ubuntu 24.04.3 LTS版本以及Rocky Linux 9和KVM直通,供那些想要为虚拟机添加GPU加速的用户使用。
ROCm 7还添加了对PyTorch 2.7和2.9、TensorFlow 2.19.1以及JAX 0.6的原生支持。
最后,对于在生产环境中部署大量Instinct加速器的用户,AMD推出了一对新的仪表板,旨在让管理大型GPU集群变得更容易。AMD的资源管理器提供关于集群性能和利用率的详细遥测数据,以及访问控制和设置项目配额的能力,这样一个团队就不会占用所有的计算资源。
除了资源管理器,AMD还推出了AI工作台,旨在简化训练或微调流行基础模型的过程。
ROCm 7.0现可从AMD支持网站下载,也可在Docker Hub上获得预构建的容器镜像。
Q&A
Q1:ROCm 7相比之前版本有什么重大提升?
A:ROCm 7是AMD迄今最大的更新,与ROCm 6相比,MI300X的推理性能提升约3.5倍,模型训练中的有效浮点性能提升3倍。新版本还引入了AI张量引擎AITER,支持OCP微缩放数据类型,并改善了与主流框架的兼容性。
Q2:AMD MI355X与英伟达B200性能对比如何?
A:AMD声称通过软件增强,MI355X在运行DeepSeek R1推理工作负载时比英伟达B200有1.3倍优势。在浮点性能方面,MI355X实现10 petaFLOPS密集FP4性能,而B200为9 petaFLOPs,但AMD产品拥有更多HBM3e内存。
Q3:如何获取和使用ROCm 7?
A:ROCm 7.0现可从AMD支持网站免费下载,也可在Docker Hub上获得预构建的容器镜像。对于AITER等新功能,启用过程很简单,只需安装依赖项和设置适当的环境变量即可,已经集成到vLLM和SGLang等流行推理引擎中。