AI模型训练和推理对算力的要求各有特点,如何在具体的场景下综合权衡选择显卡算力,怎样才能达到性能、能耗和成本的最佳平衡。本文围绕这个问题,介绍下关于显卡的基础知识:
1)模型训练和推理中常见的浮点数精度和显卡的算力介绍 2)英伟达显卡架构和命名方式 3)由单张GPU显卡到计算节点和集群,对模型训练方式的选择。
浮点数通用结构(IEEE 754 标准)所有浮点数均由 符号位(S)、指数位(E)、尾数位(M) 组成.
显卡的算力在不同的数值精度下是不同的,浮点精度一般包括,双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度 (FP8)、4位精度(FP4、NF4)。 量化精度一般包括,INT8、INT4 也有INT3/INT5/INT6等。两个特殊精度,TF32和BF16分别为英伟达和谷歌专门为优化AI计算而提出的一种数值格式。BF16 牺牲尾数精度(仅7 位)换取与 FP32 同等的指数范围,专为深度学习中 “防止梯度爆炸” 设计,适用于大规模模型训练。
下表是在不同数值下A100、H100 和H200的算力。
代表型号 | A100 | H100 | H200 |
|---|---|---|---|
HBM大小 | 80GB | 80GB | 141GB |
HBM带宽 | 2TB/s | 3.35TB/s | 4.8TB/s |
FP64 | 9.7T | 30T | 43T |
FP64 (Tensor Core) | 19.5T | 60T | 67T |
FP32 | 19.5T | 60T | 67T |
TP32 (Tensor Core) | 156T | 1P | 989T |
FP16 (FLOPS) | 312T | 2P | 1979T |
BF16 (Tensor Core) | 312T | 2P | 1979T |
FP8 (FLOPS) | / | 4P | 3958T |
INT8 (OPS) | 624T | 4P | 3958T |
INT4 (OPS) | 1248T | / | / |
NVLink 带宽 | 600GB/s | 900GB/s | 900GB/s |
功耗 | 400W | 700W | 700W |
对于deepseek R1 官方推出的是 FP8 的参数权重版本,目前对于A100 是不支持的,只有经过转换成INT8后才能在更多的GPU显卡上支持,解锁算力限制。
详细的参数如下:
GPU的并行计算单元数量,NVIDIA称CUDA Core。核心越多,并行任务处理能力越强。多个CUDA Core和寄存器、共享内存调度器等共同构成一个SM(Stream Multiprocessors),层级包含关系为 CUDA Core - SM - GPU。比如A100有108个SM,每个SM包含64个CUDA Core。
GPU核心工作频率(MH/GHz),分基频和加速频率。频率越高,单线程任务响应越快。但高频增加功耗(TDP) 和发热。
表示GPU内存的容量,提供存储模型、数据的空间。较大的HBM有助于处理更大的数据集,并支持更复杂的计算任务。
指数据在GPU和存储之间传输的速度。更高的带宽可以加快数据访问速度,减少计算时的瓶颈,提高总体性能。
代表不同数据精度下的计算能力,单位FLOPS (Floating Point Operations Per Second) 表示浮点运算每秒的次数,OPS (Operations Per Second)表示整数运算每秒的次数。数字精度越低(如FP8或NT8),能够实现的计算性能通常越高,因为较低精度能在硬件上更高效地实现,适合于需要快速处理大量数据的任务,如神经网络推理。
NVLink是英伟达的高速互连技术,用于多个GPU之间的通信。更高的NVLink带宽意味着多个GPU之间可以更快速地共享数据,提高分布式计算效率。
指GPU在运行时的能耗,即消耗的电力。功耗越高,说明GPU能进行更多的复杂计算,但也需要更好的散热和供电设计。
Tensor Core:是专用加速单元,针对矩阵乘法 (如深度学习中的GEMM)优化,显著提升AI计算效率。偏科大神!
CUDA Core:是通用计算单元,适合多样化并行任务。是一个全面发展的多能手。
所以在显卡的参数列表中,针对Al任务,使用Tensor Core技术有对特定精度数值的优化,Tensor Core的吞吐量可达CUDA Core的数十倍,例如A100使用Tensor Core 的TF32精度提供312 TFLOPS性能,而CUDA Core使用FP32精度,仅为19.5 TFLOPS。
使用场景不同:
Tensor Core:训练大模型时启用混合精度 (FP16/BF16+FP32)。推理加速,如TensorRT优化后的模型。
CUDA Core:游戏道染 (需低延迟FP32)。传统HPC (如流体模拟)。
最近推出的GPU同时包含CUDA Core和Tensor Core, CUDA Core处理控制逻辑和标量运算,Tensor Core加速核心矩阵计算。
以NVIDIA A100 GPU为例,通过以下参数计算其理论峰值算力。
公式:A100的算力(FP32单精度) = CUDA核心数×加速频率×每核心单个周期浮点计算系数
即:6912×1.41×2= 19491.84 GFLOPS= 19.5 TFLOPS。
GPU 的型号比如 A100, H100,L40,B200 等有时让人摸不着头脑,在了解芯片的架构基本命名规则后,就能有很好的理解。
架构名: GPU芯片一般会使用历史名人进行命名,代表型号通常会取架构代号的首字母再加上系列标号。如:
系列编号: 在产品名称中可能包含数字以表示层级或代系,例如 RTX 4090中的 ”4090“ 表示该产品是该系列的最高端型号。比如
以下常见GPU架构和型号一览表。
架构代号 | 中文名称 | 发布时间 | 制程工艺 | 代表型号 |
|---|---|---|---|---|
Tesla | 特斯拉 | 2006 | 90nm/65nm | G80, GT200 |
Fermi | 费米 | 2010 | 40nm | GTX 480, Quadro 7000 |
Kepler | 开普勒 | 2012 | 28nm | K80, K40M |
Maxwell | 麦克斯韦 | 2014 | 28nm | GTX 980, M5000 |
Pascal | 帕斯卡 | 2016 | 16nm | P100, GTX 1080 Ti |
Volta | 伏特 | 2017 | 12nm | V100, Titan V |
Turing | 图灵 | 2018 | 12nm | RTX 2080 Ti, T4 |
Ampere | 安培 | 2020 | 7nm/8nm | A100, RTX 3090 |
Hopper | 赫柏 | 2022 | 4nm | H100 |
Ada Lovelace | 阿达洛夫莱斯 | 2022 | 5nm | L40,L40s,TRX4090 |
Blackwell | 布莱克韦尔 | 2024 | 4nm/5nm | B200, GB200 |
超级芯片一言以蔽之: CPU+GPU 并利用NVLink高速互联技术构建的算力单元。
其核心理念是:通过 CPU+GPU异构计算单元的深度整合,重构AI计算的性能之光。典型代表采用Hopper架构的GH200和采用Blackwell架构的GB200。
硬件架构主要两部分:
互联技术:通过NVLink-C2C (Chip-to-Chip) 实现CPU与GPU间的超高带宽,远超传统PCle显著降低通信延迟。
典型配置:
为什么需要超级芯片:
超级节点Super Pod 是英伟达提出的单机即集群 (Single- Node Cluster) 的高性能计算架构,通过极致集成“CPU+GPU+高速互联”,将传统需要多台服务器协作的任务压缩到单个物理节点内完成,从而消除跨节点通信开销,实现超低延迟和高吞吐计算。
核心特点:
超级芯片superchip 在一定程度上可以叫做一台计算机了,或是一个节点。英伟达基于超级芯片构建了适用于不同领域的超级计算机,比如:DGX (AI数据中心)、EGX (边缘计算)和HGX (超大规模集群)。
随着大模型的参数规模越来越大,模型训练和推理需要更多的算力资源,多张GPU之间和节点之间是怎样互联互通的?无非两种方式,纵向扩展Scale-up,一个节点内连接多张GPU。横向扩展Scale-out,连接多个节点组成计算集群。
在单个服务器内,通过NVLink或NVSwitch将多个GPU与CPU互联,形成统一内存池。单节点内的极致性能技术实现,例如,DGX H100单节点内8颗H100 GPU通过NVLink全互连,共享显存带宽达7.2TB/s。
优势:突破单卡算力限制,支持单节点运行万亿参数大模型 。降低通信开销,GPU间数据交换无需经过PCle总线,延迟降低10倍以上。通过CUDA自动优化,开发者可像操作单个GPU一样调用多GPU资源。适合单任务高吞吐需求
通过InfiniBand或以太网连接多个节点,构成分布式算力池,使用NVIDIA Quantum-2 交换机或Spectrum-X以太网平台构建无损网络,软件层通过NCCL和Magoum 10优化跨节点通信效率。
优势:无限算力扩展,支持千卡级GPU集群,如英伟达的超级计算机Eos就含4608颗H100,堪称地表最快。任务井行化,可将单一任务拆解至多节点,如分布式训练、多物理场耦合仿真。资源隔离与弹性,按需分配算力,支持混合负载,如同时运行AI训练与推理。典型场景,分布式计算需求,超大规模预训练 。
维度 | Scale-up(纵向扩展) | Scale-out(横向扩展) |
|---|---|---|
通信效率 | 单节点内NVLink(延迟<1μs,带宽TB级) | 跨节点InfiniBand(延迟~5μs,带宽400Gbps) |
适用并行技术 | 张量并行、流水线并行、小规模数据并行 | 数据并行、跨节点流水线并行、混合并行 |
显存利用率 | 共享显存池,支持超大参数层 | 依赖分布式显存,需结合模型切分策略 |
扩展上限 | 单节点物理限制(如8卡/16卡) | 理论上无限扩展(如NVIDIA Eos的4608 H100) |
典型场景 | 单任务高吞吐(训练/推理)、显存密集型计算 | 超大规模预训练、多任务混合负载、弹性资源分配 |
实际应用中,Scale-up + 张量/流水线并行,解决单节点内显存与计算效率问题,适合高密度任务;Scale-out + 数据/混合并行:突破算力与数据规模限制,支持超大规模训练。
英伟达平台通过分层互联架构实现两种扩展模式的无缝结合,层级化设计:
第一层节点内:NVLink互联GPU,最大化单节点算力密度。 第二层机柜内:NVSwitch或Quantum-2互联多个节点,构建机柜级算力单元(如DGX Superpod)。 第三层跨机柜:通过Spectrum-X或infiniBand网络扩展至超大规模集群。
技术优势:通信效率最大化:90%以上的数据在节点内通过NVLink交换,仅10%跨点通信。灵活部署:从单机多卡 (Scale-up) 到多机多卡(Scale-out) 统一架构,降低迁移成本。
为了达到性能、能耗和成本的最佳平衡,GPU的选择应根据具体使用情景来综合权衡选择。