首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >显卡基础知识|英伟达算力开挂的GPU!

显卡基础知识|英伟达算力开挂的GPU!

作者头像
AI老马
发布2026-01-13 15:02:03
发布2026-01-13 15:02:03
1220
举报
文章被收录于专栏:AI前沿技术AI前沿技术

AI模型训练和推理对算力的要求各有特点,如何在具体的场景下综合权衡选择显卡算力,怎样才能达到性能、能耗和成本的最佳平衡。本文围绕这个问题,介绍下关于显卡的基础知识:

1)模型训练和推理中常见的浮点数精度和显卡的算力介绍 2)英伟达显卡架构和命名方式 3)由单张GPU显卡到计算节点和集群,对模型训练方式的选择。

1, 显卡参数和算力计算

1.1 显卡参数介绍

浮点数通用结构(IEEE 754 标准)所有浮点数均由 符号位(S)、指数位(E)、尾数位(M) 组成.

显卡的算力在不同的数值精度下是不同的,浮点精度一般包括,双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度 (FP8)、4位精度(FP4、NF4)。 量化精度一般包括,INT8、INT4 也有INT3/INT5/INT6等。两个特殊精度,TF32和BF16分别为英伟达和谷歌专门为优化AI计算而提出的一种数值格式。BF16 牺牲尾数精度(仅7 位)换取与 FP32 同等的指数范围,专为深度学习中 “防止梯度爆炸” 设计,适用于大规模模型训练。

  • 指数位越长:数值范围越大(如 TP16 的 8 位指数使范围接近 FP32)。
  • 尾数位越长:精度越高(如 FP64 的 52 位尾数提供 15 位以上有效数字)。
  • FP8/FP6/FP4:目前只有特定类型的显卡,对硬件优化才支持。

下表是在不同数值下A100、H100 和H200的算力。

代表型号

A100

H100

H200

HBM大小

80GB

80GB

141GB

HBM带宽

2TB/s

3.35TB/s

4.8TB/s

FP64

9.7T

30T

43T

FP64 (Tensor Core)

19.5T

60T

67T

FP32

19.5T

60T

67T

TP32 (Tensor Core)

156T

1P

989T

FP16 (FLOPS)

312T

2P

1979T

BF16 (Tensor Core)

312T

2P

1979T

FP8 (FLOPS)

/

4P

3958T

INT8 (OPS)

624T

4P

3958T

INT4 (OPS)

1248T

/

/

NVLink 带宽

600GB/s

900GB/s

900GB/s

功耗

400W

700W

700W

对于deepseek R1 官方推出的是 FP8 的参数权重版本,目前对于A100 是不支持的,只有经过转换成INT8后才能在更多的GPU显卡上支持,解锁算力限制。

详细的参数如下:

  • • 核心数量 (CUDA Cores/Stream Processors)

GPU的并行计算单元数量,NVIDIA称CUDA Core。核心越多,并行任务处理能力越强。多个CUDA Core和寄存器、共享内存调度器等共同构成一个SM(Stream Multiprocessors),层级包含关系为 CUDA Core - SM - GPU。比如A100有108个SM,每个SM包含64个CUDA Core。

  • • 核心频率 (Clock Speed)

GPU核心工作频率(MH/GHz),分基频和加速频率。频率越高,单线程任务响应越快。但高频增加功耗(TDP) 和发热。

  • • HBM (High Bandwidth Memory) 大小

表示GPU内存的容量,提供存储模型、数据的空间。较大的HBM有助于处理更大的数据集,并支持更复杂的计算任务。

  • • HBM带宽

指数据在GPU和存储之间传输的速度。更高的带宽可以加快数据访问速度,减少计算时的瓶颈,提高总体性能。

  • • 计算性能 FP16/FP8/FP6/FP4 (FLOPS) 和INT8 (OPS)

代表不同数据精度下的计算能力,单位FLOPS (Floating Point Operations Per Second) 表示浮点运算每秒的次数,OPS (Operations Per Second)表示整数运算每秒的次数。数字精度越低(如FP8或NT8),能够实现的计算性能通常越高,因为较低精度能在硬件上更高效地实现,适合于需要快速处理大量数据的任务,如神经网络推理。

  • • NVLink带宽

NVLink是英伟达的高速互连技术,用于多个GPU之间的通信。更高的NVLink带宽意味着多个GPU之间可以更快速地共享数据,提高分布式计算效率。

  • • 功耗 (Powers)

指GPU在运行时的能耗,即消耗的电力。功耗越高,说明GPU能进行更多的复杂计算,但也需要更好的散热和供电设计。

1.2 Tensor Core 和 CUDA Core

Tensor Core:是专用加速单元,针对矩阵乘法 (如深度学习中的GEMM)优化,显著提升AI计算效率。偏科大神!

CUDA Core:是通用计算单元,适合多样化并行任务。是一个全面发展的多能手。

所以在显卡的参数列表中,针对Al任务,使用Tensor Core技术有对特定精度数值的优化,Tensor Core的吞吐量可达CUDA Core的数十倍,例如A100使用Tensor Core 的TF32精度提供312 TFLOPS性能,而CUDA Core使用FP32精度,仅为19.5 TFLOPS。

使用场景不同:

Tensor Core:训练大模型时启用混合精度 (FP16/BF16+FP32)。推理加速,如TensorRT优化后的模型。

CUDA Core:游戏道染 (需低延迟FP32)。传统HPC (如流体模拟)。

最近推出的GPU同时包含CUDA Core和Tensor Core, CUDA Core处理控制逻辑和标量运算,Tensor Core加速核心矩阵计算。

1.3 算力计算

以NVIDIA A100 GPU为例,通过以下参数计算其理论峰值算力。

  • • CUDA核心数:6912个,即108个SM,每个SM包含64个CUDA核心。
  • • 核心运行频率:1.41GHz。
  • • 每核心单个周期浮点计算系数:2 ,即每个时钟周期内能执行的浮点运算次数。Tensor Core融合了乘加指令,一次指令执行会计算两次。

公式:A100的算力(FP32单精度) = CUDA核心数×加速频率×每核心单个周期浮点计算系数

即:6912×1.41×2= 19491.84 GFLOPS= 19.5 TFLOPS。

2,算力芯片的命名

GPU 的型号比如 A100, H100,L40,B200 等有时让人摸不着头脑,在了解芯片的架构基本命名规则后,就能有很好的理解。

架构名: GPU芯片一般会使用历史名人进行命名,代表型号通常会取架构代号的首字母再加上系列标号。如:

  • • Ampere (安培):2020年推出的一代架构,用于A100和RTX3000系列显卡。
  • • Lovelace (阿达洛夫莱斯):2022年推出的一代架构,用于RTX 4000系列显卡如 ,RTX 4090。

系列编号: 在产品名称中可能包含数字以表示层级或代系,例如 RTX 4090中的 ”4090“ 表示该产品是该系列的最高端型号。比如

  • • L40:基于Ada Lovelace架构的高性能计算GPU,通常用于数据中心和云服务。
  • • A100:基于Ampere架构的GPU,专门为深度学习和高性能计算设计,被广泛应用于AI训练等任务。
  • • RTX 3090:属于Ampere架构,主要用于游戏和高性能图形处理,强调游戏性能。

以下常见GPU架构和型号一览表。

架构代号

中文名称

发布时间

制程工艺

代表型号

Tesla

特斯拉

2006

90nm/65nm

G80, GT200

Fermi

费米

2010

40nm

GTX 480, Quadro 7000

Kepler

开普勒

2012

28nm

K80, K40M

Maxwell

麦克斯韦

2014

28nm

GTX 980, M5000

Pascal

帕斯卡

2016

16nm

P100, GTX 1080 Ti

Volta

伏特

2017

12nm

V100, Titan V

Turing

图灵

2018

12nm

RTX 2080 Ti, T4

Ampere

安培

2020

7nm/8nm

A100, RTX 3090

Hopper

赫柏

2022

4nm

H100

Ada Lovelace

阿达洛夫莱斯

2022

5nm

L40,L40s,TRX4090

Blackwell

布莱克韦尔

2024

4nm/5nm

B200, GB200

3,超级芯片Superchip

超级芯片一言以蔽之: CPU+GPU 并利用NVLink高速互联技术构建的算力单元。

其核心理念是:通过 CPU+GPU异构计算单元的深度整合,重构AI计算的性能之光。典型代表采用Hopper架构的GH200和采用Blackwell架构的GB200。

硬件架构主要两部分:

  • • Grace CPU:基于ARM架构的自研CPU,专为高能效比设计,支持高带察内存和纠错能力,适合数据预处理、逻辑控制等任务
  • • GPU算力单元:提供大规模并行计算能力,专注于AI训练、推理及科学计算。

互联技术:通过NVLink-C2C (Chip-to-Chip) 实现CPU与GPU间的超高带宽,远超传统PCle显著降低通信延迟。

典型配置:

  • • GB200:1颗Grace CPU + 2颗Blackwell B200 GPU。
  • • GH200:1颗Grace CPU + 2颗Hopper H200 GPU 。

为什么需要超级芯片:

  • • CPU+GPU协同计算:Grace CPU负责通用任务调度和复杂逻辑处理,GPU专注并行计算,通过NVLink实现超低延迟数据交换,形成”1+1>2的算力聚合。
  • • 统一内存架构:Grace CPU与GPU共享内存空间,减少数据搬运开销,提升效率。

4, 超级节点super Pod

超级节点Super Pod 是英伟达提出的单机即集群 (Single- Node Cluster) 的高性能计算架构,通过极致集成“CPU+GPU+高速互联”,将传统需要多台服务器协作的任务压缩到单个物理节点内完成,从而消除跨节点通信开销,实现超低延迟和高吞吐计算。

核心特点:

  • • 超大规模单节点算力:集成教百个CPU核心+多颗顶级GPU (如Grace和 Hopper架构)。
  • • 统一内存架构:CPU与GPU共享内存空间 (如GH200的480GB HBM3),避免数据搬运瓶颈。
  • • 全NVLink互联:芯片间通过NVLink-C2C直连,带宽达900GB/s+,延迟仅纳秒级。

超级芯片superchip 在一定程度上可以叫做一台计算机了,或是一个节点。英伟达基于超级芯片构建了适用于不同领域的超级计算机,比如:DGX (AI数据中心)、EGX (边缘计算)和HGX (超大规模集群)。

5, GPU之间互联互通

随着大模型的参数规模越来越大,模型训练和推理需要更多的算力资源,多张GPU之间和节点之间是怎样互联互通的?无非两种方式,纵向扩展Scale-up,一个节点内连接多张GPU。横向扩展Scale-out,连接多个节点组成计算集群。

  • 一机多卡纵向扩展 Scale-up

在单个服务器内,通过NVLink或NVSwitch将多个GPU与CPU互联,形成统一内存池。单节点内的极致性能技术实现,例如,DGX H100单节点内8颗H100 GPU通过NVLink全互连,共享显存带宽达7.2TB/s。

优势:突破单卡算力限制,支持单节点运行万亿参数大模型 。降低通信开销,GPU间数据交换无需经过PCle总线,延迟降低10倍以上。通过CUDA自动优化,开发者可像操作单个GPU一样调用多GPU资源。适合单任务高吞吐需求

  • 多机多卡横向扩展 Scale-out

通过InfiniBand或以太网连接多个节点,构成分布式算力池,使用NVIDIA Quantum-2 交换机或Spectrum-X以太网平台构建无损网络,软件层通过NCCL和Magoum 10优化跨节点通信效率。

优势:无限算力扩展,支持千卡级GPU集群,如英伟达的超级计算机Eos就含4608颗H100,堪称地表最快。任务井行化,可将单一任务拆解至多节点,如分布式训练、多物理场耦合仿真。资源隔离与弹性,按需分配算力,支持混合负载,如同时运行AI训练与推理。典型场景,分布式计算需求,超大规模预训练 。

  • • Scale-up 和Scale-out 比较

维度

Scale-up(纵向扩展)

Scale-out(横向扩展)

通信效率

单节点内NVLink(延迟<1μs,带宽TB级)

跨节点InfiniBand(延迟~5μs,带宽400Gbps)

适用并行技术

张量并行、流水线并行、小规模数据并行

数据并行、跨节点流水线并行、混合并行

显存利用率

共享显存池,支持超大参数层

依赖分布式显存,需结合模型切分策略

扩展上限

单节点物理限制(如8卡/16卡)

理论上无限扩展(如NVIDIA Eos的4608 H100)

典型场景

单任务高吞吐(训练/推理)、显存密集型计算

超大规模预训练、多任务混合负载、弹性资源分配

实际应用中,Scale-up + 张量/流水线并行,解决单节点内显存与计算效率问题,适合高密度任务;Scale-out + 数据/混合并行:突破算力与数据规模限制,支持超大规模训练。

  • Scale-up与Scale-out的协同

英伟达平台通过分层互联架构实现两种扩展模式的无缝结合,层级化设计:

第一层节点内:NVLink互联GPU,最大化单节点算力密度。 第二层机柜内:NVSwitch或Quantum-2互联多个节点,构建机柜级算力单元(如DGX Superpod)。 第三层跨机柜:通过Spectrum-X或infiniBand网络扩展至超大规模集群。

技术优势:通信效率最大化:90%以上的数据在节点内通过NVLink交换,仅10%跨点通信。灵活部署:从单机多卡 (Scale-up) 到多机多卡(Scale-out) 统一架构,降低迁移成本。

总结

为了达到性能、能耗和成本的最佳平衡,GPU的选择应根据具体使用情景来综合权衡选择。

  • • 高HBM大小和带宽,配合高FLOPS/OPS能够显著提升GPU处理数据的能力,可以更快速地处理大型模型数据,在训练深度学习模型时表现突出。例如,B100/B200系列配备8TB/s的HBM带宽,相较于H100系列高了几个档次。
  • • NVLink带宽决定了多个GPU协作时的效率。在多个GPU协同工作中,如用于大规模并行计算或训练巨型AI模型,NVLink带宽越高,越能够帮助减少数据传输瓶颈。
  • • FP16与FP8等较低精度的计算能力,相比FP32等较高精度会有显著提升,有助于神经网络推理中,快速且资源较少的运算需求。H100和H200的FP8用于推理场景,可以实现更快的计算速度。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI老马啊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1, 显卡参数和算力计算
    • 1.1 显卡参数介绍
    • 1.2 Tensor Core 和 CUDA Core
    • 1.3 算力计算
  • 2,算力芯片的命名
    • 3,超级芯片Superchip
  • 4, 超级节点super Pod
  • 5, GPU之间互联互通
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档