Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度分析NVIDIA A100显卡架构(附论文&源码下载)

深度分析NVIDIA A100显卡架构(附论文&源码下载)

作者头像
计算机视觉研究院
发布于 2020-07-16 04:06:01
发布于 2020-07-16 04:06:01
3.3K0
举报

计算机视觉研究院专栏

作者:Edison_G

英伟达A100 Tensor Core GPU架构深度讲解 上次“计算机视觉研究院”已经简单介绍了GPU的发展以及安培架构的A100显卡,今天我们就来更加深入讲解其高性能技术和结构,值得深度学习研究者深入学习,有兴趣加入我们学习群, 一起来讨论学习,共同进步! NVIDIA®GPU是推动人工智能革命的主要计算引擎,为人工智能训练和推理工作负载提供了巨大的加速。此外,NVIDIA GPU加速了许多类型的HPC和数据分析应用程序和系统,使客户能够有效地分析、可视化和将数据转化为洞察力。NVIDIA的加速计算平台是世界上许多最重要和增长最快的行业的核心。

1、A100单元组成

基于安培体系结构的NVIDIA A100 GPU是为了从其许多新的体系结构特征和优化中提供尽可能多的AI和HPC计算能力而设计的。在台积电7nm N7 FinFET制造工艺上,A100提供了比Tesla V100中使用的12nm FFN工艺更高的晶体管密度、更好的性能和更好的功率效率。一种新的Multi-Instance GPU(MIG)能为多租户和虚拟化GPU环境提供了增强的客户端/应用程序故障隔离和QoS,这对云服务提供商特别有利。一个更快和更强的错误抗力的第三代NVIDIA的NVLink互连提供了改进的多GPU性能缩放的超尺度数据中心

NVIDIA GA100 GPU由多个GPU处理集群(gpc)、纹理处理集群(tpc)、流式多处理器(SMs)和HBM2内存控制器组成。 GA100 GPU的完整实现包括以下单元:

· 8 GPCs, 8 TPCs/GPC, 2 SMs/TPC, 16 SMs/GPC, 128 SMs per full GPU

· 64 FP32 CUDA Cores/SM, 8192 FP32 CUDA Cores per full GPU

· 4 third-generation Tensor Cores/SM, 512 third-generation Tensor Cores per full GPU

· 6 HBM2 stacks, 12 512-bit memory controllers

GA100 GPU的A100 Tensor Core GPU实现包括以下单元:

· 7 GPCs, 7 or 8 TPCs/GPC, 2 SMs/TPC, up to 16 SMs/GPC, 108 SMs

· 64 FP32 CUDA Cores/SM, 6912 FP32 CUDA Cores per GPU

· 4 third-generation Tensor Cores/SM, 432 third-generation Tensor Cores per GPU

· 5 HBM2 stacks, 10 512-bit memory controllers

2、A100 SM Architecture

新的A100 SM显著提高了性能,建立在Volta和Turing SM体系结构中引入的特性的基础上,并增加了许多新的功能和增强。 A100 SM图如上图所示。

Volta和Turing每个SM有8个张量核,每个张量核每个时钟执行64个FP16/FP32混合精度融合乘法加法(FMA)操作。A100 SM包括新的第三代张量核心,每个核心执行256 FP16/FP32 FMA操作每时钟。A100每个SM有四个张量核,每个时钟总共提供1024个密集的FP16/FP32 FMA操作,与Volta和Turing相比,每个SM的计算功率增加了两倍。 本文简要强调了SM的主要功能:

Third-generation Tensor Cores:

  • 所有数据类型的加速,包括FP16、BF16、TF32、FP64、INT8、INT4和Binary;
  • 新的张量核稀疏特性利用了深度学习网络中的细粒度结构稀疏性,使标准张量核操作的性能提高了一倍;
  • A100中的TF32 Tensor核心操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简单的途径,运行速度比V100 FP32 FMA操作快10倍,或在稀疏情况下快20倍;
  • FP16/FP32混合精度张量核运算为DL提供了前所未有的处理能力,运行速度比V100张量核运算快2.5倍,稀疏性增加到5倍;
  • BF16/FP32混合精度张量核心运算的运行速度与FP16/FP32混合精度相同;
  • FP64 Tensor核心操作为HPC提供了前所未有的双精度处理能力,运行速度比V100 FP64 DFMA操作快2.5倍;
  • 具有稀疏性的INT8张量核操作为DL推理提供了前所未有的处理能力,运行速度比V100 INT8操作快20倍;
  1. 192kb的共享内存和L1数据缓存,比V100 SM大1.5x;
  2. 新的异步复制指令将数据直接从全局内存加载到共享内存中,可以选择绕过一级缓存,并且不需要使用中间寄存器文件(RF);
  3. 新的基于共享内存的屏障单元(异步屏障),用于新的异步复制指令;
  4. 二级缓存管理和常驻控制的新说明;
  5. CUDA协作组支持的新的扭曲级缩减指令;
  6. 许多可编程性改进以降低软件复杂性。

上表,比较了V100和A100 FP16张量核心操作,还将V100 FP32、FP64和INT8标准操作与各自的A100 TF32、FP64和INT8张量核心操作进行了比较。吞吐量是每个GPU的聚合,A100使用FP16、TF32和INT8的稀疏张量核心操作。左上角的图显示了两个V100 FP16张量核,因为V100 SM每个SM分区有两个张量核,而A100 SM分区有两个张量核。

3、A100 Tensor Cores 支持所有数据类型

人工智能训练的默认是FP32,没有张量核心加速度。NVIDIA安培体系结构引入了对TF32的新支持,使得人工智能训练在默认情况下可以使用张量核,而用户不必费劲。在产生标准IEEE FP32输出之前,非张量操作继续使用FP32数据路径,而TF32张量核读取FP32数据并使用与FP32相同的范围,同时降低内部精度。TF32包括8位指数(与FP32相同)、10位尾数(与FP16精度相同)和1个符号位。

与Volta一样,自动混合精度(AMP)使你能够使用FP16的混合精度进行人工智能训练,只需更改几行代码。使用AMP,A100提供比TF32快2倍的张量核心性能。

综上所述,用户对NVIDIA安培架构数学进行DL训练的选择如下:

默认情况下,使用TF32张量核,不调整用户脚本。与A100上的FP32相比,吞吐量高出8倍;与V100上的FP32相比,吞吐量高出10倍。 应使用FP16或BF16混合精度训练以获得最大训练速度。与TF32相比,吞吐量增加了2倍,与A100上的FP32相比,吞吐量增加了16倍,与V100上的FP32相比,吞吐量增加了20倍。

高性能计算机应用的性能需求正在迅速增长。许多科学和研究领域的应用都依赖于双精度(FP64)计算。

为了满足HPC计算快速增长的计算需求,A100 GPU支持张量运算,加速符合IEEE标准的FP64计算,使FP64的性能达到NVIDIA Tesla V100 GPU的2.5倍。

A100上新的双精度矩阵乘法加法指令取代了V100上的8条DFMA指令,减少了指令获取、调度开销、寄存器读取、数据路径功率和共享内存读取带宽。 A100中的每个SM总共计算64个FP64 FMA操作/时钟(或128个FP64操作/时钟),是特斯拉V100吞吐量的两倍。A100 Tensor Core GPU具有108条短信息,峰值FP64吞吐量为19.5tflops,是Tesla V100的2.5倍。

4、A100 GPU引入了细粒度结构稀疏性

新精度的引入是A100的深度学习运算效率提高的关键之一。而另一个运算效率提高的关键是第三代Tensor Core的结构化稀疏特性,稀疏方法是指通过从神经网络中提取尽可能多不需要的参数,来压缩神经网络计算量。Tensor Core的矩阵稀疏加速原理如下图所示,首先对计算模型做 50% 稀疏,稀疏化后不重要的参数置0,之后通过稀疏指令,在进行矩阵运算时,矩阵中每一行只有非零值的元素与另一矩阵相应元素匹配,这将计算转换成一个更小的密集矩阵乘法,实现 2 倍的加速。这一特性可提供高达 2 倍的峰值吞吐量,同时不会牺牲深度学习核心矩阵乘法累加作业的准确率。

A100 稀疏矩阵运算示意图

5、Sparse Matrix Multiply-Accumulate (MMA) Operations

A100的新Sparse MMA指令跳过对具有零值的条目的计算,导致Tensor Core计算吞吐量增加一倍。例如,在下图中,矩阵A是一个稀疏矩阵,稀疏率为50%,遵循所需的2:4结构模式,矩阵B是一个大小一半的密集矩阵。标准的MMA操作不会跳过零值,并将计算整个16x8x16矩阵在N个周期中相乘的结果。使用稀疏MMA指令,只有矩阵A的每一行中具有非零值的元素与来自矩阵B的相应元素匹配。这将计算转化为一个较小的矩阵乘法,只需要N/2周期,一个2倍的加速。

Comparison of NVIDIA Data Center GPUs

A100 Tensor Core高效的吞吐量

A100 SM Data Movement Efficiency

A100 2级缓存residency controls

A100 Compute Data Compression

具有多个独立GPU计算工作负载的MIG配置

敬请关注下一期深入讲解GPU实例!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
近期,AIGC领域呈现出一片繁荣景象,其背后离不开强大算力的支持。以ChatGPT为例,其高效的运行依赖于一台由微软投资建造的超级计算机。这台超级计算机配备了数万个NVIDIA A100 GPU,并利用60多个数据中心的数十万个GPU辅助,为ChatGPT提供了强大的算力支持。这种规模的算力部署不仅体现了AIGC技术的先进性,也预示着人工智能技术未来的发展趋势。这种集成了高性能计算、大数据处理和人工智能算法的超级计算机,将成为推动科技进步的重要引擎。
汀丶人工智能
2024/01/29
8K0
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
【AI系统】GPU 架构回顾(从2018年-2024年)
2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。
用户11307734
2024/11/27
3450
一文读懂 NVIDIA A100 GPU
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 底座 - NVIDIA A100 。
Luga Lee
2025/01/16
3880
一文读懂 NVIDIA A100 GPU
英伟达Tensor Core架构技术原理
英伟达的Tensor Core架构是一种专为加速人工智能、深度学习、高性能计算(HPC)等领域中的矩阵运算和张量运算而设计的硬件单元。自首次在Volta架构中引入以来,Tensor Cores已成为NVIDIA高端GPU的核心特性,并在后续的Turing、Ampere及之后的架构中持续进化。
用户7353950
2024/06/06
6700
英伟达Tensor Core架构技术原理
NVIDIA A100 显卡深度解密
A100显卡是一款专业级显卡,其主要作用在于提供强大的计算能力,以满足AI、数据科学、科学计算等领域的高性能计算需求。相较于游戏显卡,A100在算力、能效和稳定性等方面具有明显优势。
七条猫
2024/09/20
8340
NVIDIA A100 显卡深度解密
腾讯云即将支持Ampere架构A100 Tensor Core GPU云服务器
    最近随着下一代NVIDIA Ampere计算架构全新发布,腾讯云作为国内云厂商的领导者,将成为业内率先推出采用NVIDIA A100 Tensor Core GPU的云服务实例的云厂商之一。为企业在深度学习训练与推理、高性能计算、数据分析、视频分析等领域提供更高性能的计算资源,同时进一步降低企业的使用成本,帮助企业更快投入市场。     腾讯云即将搭载的NVIDIA A100 Tensor Core GPU,为各种规模的AI、数据分析和HPC都提供了前所未有的加速,以应对各种各样复杂的计算挑
腾讯云计算产品团队
2020/06/05
5.2K0
无法获得NVIDIA H100 GPU时该怎么办?
11月20日消息,英伟达(NVIDIA)推出的“Hopper”H100 GPU是目前全球AI巨头极力争夺的“战略资源”,但是由于供应量有限,很多订单都已经排到了2024年。这也迫使一些AI厂商选择考虑其他替代方案,当然H100高昂的价格也是一个影响因素。
芯智讯
2023/11/20
4280
无法获得NVIDIA H100 GPU时该怎么办?
问答 | 如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core?
问:如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core?
AI研习社
2018/09/25
2.4K0
问答 | 如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core?
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
选自timdettmers.com 作者:Tim Dettmers 机器之心编译 编辑:泽南 FP8 训练带来的速度提升可能要一统 AI 领域,但这是我要考虑的问题吗? 深度学习对于算力的要求很高,对于个人来说,GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂,如果想购买新的 GPU,哪些功能最重要?内存、核心、Tensor Core 还是缓存?如何做出性价比高的选择?每出一代新 GPU 这些问题就要重新审视一番。 近日,华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX
机器之心
2023/03/29
1.4K0
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
深度 | 英伟达深度学习Tensor Core全面解析
AI 科技评论消息,不久前,NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构——Turing(图灵),黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的飞跃。Turing架构的两大重要特性便是集成了用于光线追踪的RT Core以及用于AI计算的Tensor Core,使其成为了全球首款支持实时光线追踪的GPU。
AI科技评论
2018/09/21
4K0
深度 | 英伟达深度学习Tensor Core全面解析
英伟达A100 Tensor Core GPU架构深度讲解
HPC已经超越了运行计算密集型应用的超级计算机,如天气预报、油气勘探和金融建模。今天,数以百万计的NVIDIA GPU正在加速运行在云数据中心、服务器、边缘系统甚至桌面工作站中的许多类型的HPC应用程序,为数百个行业和科学领域服务。
计算机视觉研究院
2020/07/14
3.2K0
英伟达A100与H100:全面对比分析
随着人工智能(AI)和高性能计算(HPC)领域的飞速发展,GPU作为加速计算的关键组件变得越来越重要。英伟达作为GPU市场的领导者,不断推出新的产品来满足日益增长的需求。本文将深入探讨英伟达A100和H100这两款GPU之间的主要差异,帮助读者更好地理解这些高性能计算解决方案的特点及其适用场景。
用户7353950
2024/11/23
2.5K0
英伟达A100与H100:全面对比分析
英伟达 GPU 十年架构演进史
作者:tomoyazhang,腾讯 PCG 后台开发工程师 随着软件从 1.0 进化到 2.0,也即从图灵机演进到类深度学习算法。计算用的硬件也在加速从 CPU 到 GPU 等迁移。本文试图整理从英伟达 2010 年开始,到 2020 年这十年间的架构演进历史。 CPU and GPU 我们先对 GPU 有一个直观的认识,如下图: 众所周知,由于存储器的发展慢于处理器,在 CPU 上发展出了多级高速缓存的结构,如上面左图所示。而在 GPU 中,也存在类似的多级高速缓存结构。只是相比 CPU,GPU
腾讯大讲堂
2021/10/20
4K0
性能提升20倍:英伟达GPU旗舰A100登场,全新7nm架构安培出炉
虽然因为新冠疫情爆发,今年的 GTC 2020 大会也在最后时刻宣布转为线上,不过人们期待 7 纳米制程英伟达 GPU 的热情并没有消退。
机器之心
2020/05/19
1.2K0
性能提升20倍:英伟达GPU旗舰A100登场,全新7nm架构安培出炉
业界 | Tensor Core究竟有多快?全面对比英伟达Tesla V100/P100的RNN加速能力
选自xcelerit 机器之心编译 参与:蒋思源 RNN 是处理量化金融、风险管理等时序数据的主要深度学习模型,但这种模型用 GPU 加速的效果并不好。本文使用 RNN 与 LSTM 基于 Tenso
机器之心
2018/05/11
3K0
【AI系统】Tensor Core 基本原理
在英伟达的通用 GPU 架构中,主要存在三种核心类型:CUDA Core、Tensor Core 以及 RT Core。其中,Tensor Core 扮演着极其关键的角色。
用户11307734
2024/11/27
8370
黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
因为美国疫情的原因,英伟达和其他科技公司一样,把今年的GPU技术大会(GTC 2020)改成线上举行。
量子位
2020/05/19
9400
黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
【AI系统】GPU 架构回顾(从2010年-2017年)
1999 年,英伟达发明了 GPU(graphics processing unit),本文将介绍英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构,时间跨度从 2010 年至 2024 年,具体包括费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡(Pashcal)、伏特(Volt)、图灵(Turing)、安培(Ampere)和赫柏(Hopper)和布莱克韦尔(Blackwell)架构。经过 15 年的发展,CUDA 已成为英伟达的技术“护城河”,Tensor Core5.0,NVLink5.0,NVswitch4.0,Transformer Engine2.0 等技术迭代更新,正如英伟达公司官方宣传语所言:“人工智能计算领域的领导者,推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。”
用户11307734
2024/11/27
2990
20万美元,最高提速200倍!黄教主烤箱掏出7nm安培芯片,GPU史上最大性能飞跃
推迟了2个月,北京时间5月14日晚9点,英伟达创始人兼首席执行官黄仁勋在自家的厨房里,“亮相”GTC 2020主题演讲会。他把这次的发布会称为,“英伟达史上首次Kitchen keynote(厨房发布会)”。
大数据文摘
2020/05/19
7250
20万美元,最高提速200倍!黄教主烤箱掏出7nm安培芯片,GPU史上最大性能飞跃
英伟达Volta架构深度解读:专为深度学习而生的Tensor Core到底是什么?
机器之心报道 编辑:CZ、Jenny Huang、李泽南、吴攀、蒋思源 当地时间 5 月 8-11 日,英伟达在加州圣何塞举行了 2017 年的 GPU 技术大会(GTC 2017)。机器之心作为本次大会的特邀媒体,也来到了现场,参阅《现场报道 | 英伟达 GTC 大会开幕,盘点首日三大亮点》。昨天,英伟达 CEO 黄仁勋在大会上正式发布了目前最先进的加速器 NVIDIA Tesla V100。之后,英伟达开发博客又更新了一篇深度解读文章,剖析了 Tesla V100 背后的新一代架构 Volta,其在提供
机器之心
2018/05/08
4.1K0
英伟达Volta架构深度解读:专为深度学习而生的Tensor Core到底是什么?
推荐阅读
相关推荐
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档