Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度分析NVIDIA A100显卡架构(附论文&源码下载)

深度分析NVIDIA A100显卡架构(附论文&源码下载)

作者头像
计算机视觉研究院
发布于 2020-07-16 04:06:01
发布于 2020-07-16 04:06:01
3.3K0
举报

计算机视觉研究院专栏

作者:Edison_G

英伟达A100 Tensor Core GPU架构深度讲解 上次“计算机视觉研究院”已经简单介绍了GPU的发展以及安培架构的A100显卡,今天我们就来更加深入讲解其高性能技术和结构,值得深度学习研究者深入学习,有兴趣加入我们学习群, 一起来讨论学习,共同进步! NVIDIA®GPU是推动人工智能革命的主要计算引擎,为人工智能训练和推理工作负载提供了巨大的加速。此外,NVIDIA GPU加速了许多类型的HPC和数据分析应用程序和系统,使客户能够有效地分析、可视化和将数据转化为洞察力。NVIDIA的加速计算平台是世界上许多最重要和增长最快的行业的核心。

1、A100单元组成

基于安培体系结构的NVIDIA A100 GPU是为了从其许多新的体系结构特征和优化中提供尽可能多的AI和HPC计算能力而设计的。在台积电7nm N7 FinFET制造工艺上,A100提供了比Tesla V100中使用的12nm FFN工艺更高的晶体管密度、更好的性能和更好的功率效率。一种新的Multi-Instance GPU(MIG)能为多租户和虚拟化GPU环境提供了增强的客户端/应用程序故障隔离和QoS,这对云服务提供商特别有利。一个更快和更强的错误抗力的第三代NVIDIA的NVLink互连提供了改进的多GPU性能缩放的超尺度数据中心

NVIDIA GA100 GPU由多个GPU处理集群(gpc)、纹理处理集群(tpc)、流式多处理器(SMs)和HBM2内存控制器组成。 GA100 GPU的完整实现包括以下单元:

· 8 GPCs, 8 TPCs/GPC, 2 SMs/TPC, 16 SMs/GPC, 128 SMs per full GPU

· 64 FP32 CUDA Cores/SM, 8192 FP32 CUDA Cores per full GPU

· 4 third-generation Tensor Cores/SM, 512 third-generation Tensor Cores per full GPU

· 6 HBM2 stacks, 12 512-bit memory controllers

GA100 GPU的A100 Tensor Core GPU实现包括以下单元:

· 7 GPCs, 7 or 8 TPCs/GPC, 2 SMs/TPC, up to 16 SMs/GPC, 108 SMs

· 64 FP32 CUDA Cores/SM, 6912 FP32 CUDA Cores per GPU

· 4 third-generation Tensor Cores/SM, 432 third-generation Tensor Cores per GPU

· 5 HBM2 stacks, 10 512-bit memory controllers

2、A100 SM Architecture

新的A100 SM显著提高了性能,建立在Volta和Turing SM体系结构中引入的特性的基础上,并增加了许多新的功能和增强。 A100 SM图如上图所示。

Volta和Turing每个SM有8个张量核,每个张量核每个时钟执行64个FP16/FP32混合精度融合乘法加法(FMA)操作。A100 SM包括新的第三代张量核心,每个核心执行256 FP16/FP32 FMA操作每时钟。A100每个SM有四个张量核,每个时钟总共提供1024个密集的FP16/FP32 FMA操作,与Volta和Turing相比,每个SM的计算功率增加了两倍。 本文简要强调了SM的主要功能:

Third-generation Tensor Cores:

  • 所有数据类型的加速,包括FP16、BF16、TF32、FP64、INT8、INT4和Binary;
  • 新的张量核稀疏特性利用了深度学习网络中的细粒度结构稀疏性,使标准张量核操作的性能提高了一倍;
  • A100中的TF32 Tensor核心操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简单的途径,运行速度比V100 FP32 FMA操作快10倍,或在稀疏情况下快20倍;
  • FP16/FP32混合精度张量核运算为DL提供了前所未有的处理能力,运行速度比V100张量核运算快2.5倍,稀疏性增加到5倍;
  • BF16/FP32混合精度张量核心运算的运行速度与FP16/FP32混合精度相同;
  • FP64 Tensor核心操作为HPC提供了前所未有的双精度处理能力,运行速度比V100 FP64 DFMA操作快2.5倍;
  • 具有稀疏性的INT8张量核操作为DL推理提供了前所未有的处理能力,运行速度比V100 INT8操作快20倍;
  1. 192kb的共享内存和L1数据缓存,比V100 SM大1.5x;
  2. 新的异步复制指令将数据直接从全局内存加载到共享内存中,可以选择绕过一级缓存,并且不需要使用中间寄存器文件(RF);
  3. 新的基于共享内存的屏障单元(异步屏障),用于新的异步复制指令;
  4. 二级缓存管理和常驻控制的新说明;
  5. CUDA协作组支持的新的扭曲级缩减指令;
  6. 许多可编程性改进以降低软件复杂性。

上表,比较了V100和A100 FP16张量核心操作,还将V100 FP32、FP64和INT8标准操作与各自的A100 TF32、FP64和INT8张量核心操作进行了比较。吞吐量是每个GPU的聚合,A100使用FP16、TF32和INT8的稀疏张量核心操作。左上角的图显示了两个V100 FP16张量核,因为V100 SM每个SM分区有两个张量核,而A100 SM分区有两个张量核。

3、A100 Tensor Cores 支持所有数据类型

人工智能训练的默认是FP32,没有张量核心加速度。NVIDIA安培体系结构引入了对TF32的新支持,使得人工智能训练在默认情况下可以使用张量核,而用户不必费劲。在产生标准IEEE FP32输出之前,非张量操作继续使用FP32数据路径,而TF32张量核读取FP32数据并使用与FP32相同的范围,同时降低内部精度。TF32包括8位指数(与FP32相同)、10位尾数(与FP16精度相同)和1个符号位。

与Volta一样,自动混合精度(AMP)使你能够使用FP16的混合精度进行人工智能训练,只需更改几行代码。使用AMP,A100提供比TF32快2倍的张量核心性能。

综上所述,用户对NVIDIA安培架构数学进行DL训练的选择如下:

默认情况下,使用TF32张量核,不调整用户脚本。与A100上的FP32相比,吞吐量高出8倍;与V100上的FP32相比,吞吐量高出10倍。 应使用FP16或BF16混合精度训练以获得最大训练速度。与TF32相比,吞吐量增加了2倍,与A100上的FP32相比,吞吐量增加了16倍,与V100上的FP32相比,吞吐量增加了20倍。

高性能计算机应用的性能需求正在迅速增长。许多科学和研究领域的应用都依赖于双精度(FP64)计算。

为了满足HPC计算快速增长的计算需求,A100 GPU支持张量运算,加速符合IEEE标准的FP64计算,使FP64的性能达到NVIDIA Tesla V100 GPU的2.5倍。

A100上新的双精度矩阵乘法加法指令取代了V100上的8条DFMA指令,减少了指令获取、调度开销、寄存器读取、数据路径功率和共享内存读取带宽。 A100中的每个SM总共计算64个FP64 FMA操作/时钟(或128个FP64操作/时钟),是特斯拉V100吞吐量的两倍。A100 Tensor Core GPU具有108条短信息,峰值FP64吞吐量为19.5tflops,是Tesla V100的2.5倍。

4、A100 GPU引入了细粒度结构稀疏性

新精度的引入是A100的深度学习运算效率提高的关键之一。而另一个运算效率提高的关键是第三代Tensor Core的结构化稀疏特性,稀疏方法是指通过从神经网络中提取尽可能多不需要的参数,来压缩神经网络计算量。Tensor Core的矩阵稀疏加速原理如下图所示,首先对计算模型做 50% 稀疏,稀疏化后不重要的参数置0,之后通过稀疏指令,在进行矩阵运算时,矩阵中每一行只有非零值的元素与另一矩阵相应元素匹配,这将计算转换成一个更小的密集矩阵乘法,实现 2 倍的加速。这一特性可提供高达 2 倍的峰值吞吐量,同时不会牺牲深度学习核心矩阵乘法累加作业的准确率。

A100 稀疏矩阵运算示意图

5、Sparse Matrix Multiply-Accumulate (MMA) Operations

A100的新Sparse MMA指令跳过对具有零值的条目的计算,导致Tensor Core计算吞吐量增加一倍。例如,在下图中,矩阵A是一个稀疏矩阵,稀疏率为50%,遵循所需的2:4结构模式,矩阵B是一个大小一半的密集矩阵。标准的MMA操作不会跳过零值,并将计算整个16x8x16矩阵在N个周期中相乘的结果。使用稀疏MMA指令,只有矩阵A的每一行中具有非零值的元素与来自矩阵B的相应元素匹配。这将计算转化为一个较小的矩阵乘法,只需要N/2周期,一个2倍的加速。

Comparison of NVIDIA Data Center GPUs

A100 Tensor Core高效的吞吐量

A100 SM Data Movement Efficiency

A100 2级缓存residency controls

A100 Compute Data Compression

具有多个独立GPU计算工作负载的MIG配置

敬请关注下一期深入讲解GPU实例!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
灵犀微光CEO郑昱:阵列光波导,推动AR眼镜三年内走向消费级市场的显示技术|量子位·视点分享回顾
视点 发自 凹非寺 量子位 | 公众号 QbitAI 元宇宙产业的发展,正在将各种前沿领域技术汇集到一起,构建出下一代互联网的新形态。 正如互联网的准入级终端是PC,移动互联网的准入级终端是手机,那么下一代互联网,准入级终端或许就将是VR和AR设备。 VR终端或将承载深度元宇宙的交互,而AR终端的普及或将让元宇宙技术走向千家万户。 AR设备,尽管外形看来极度接近于普通眼镜,但其核心的光学显示部分,也就是光学模组,让它成为最有希望叩开元宇宙大门的“低门槛”终端。 围绕AR产业趋势、元宇宙等热点话题,灵犀微光C
量子位
2022/06/27
4460
灵犀微光CEO郑昱:阵列光波导,推动AR眼镜三年内走向消费级市场的显示技术|量子位·视点分享回顾
AR眼镜何时能跳脱出概念产品,走进现实?
(VRPinea 3月16日讯)3月3日,OPPO的第三代AR眼镜OPPO Air Glass正式开售,价格为4999元人民币。当然也不仅仅只有OPPO一家执着于开发面向C端的AR眼镜,AR光波导制造商灵犀微光在去年就已发布轻薄型AR眼镜参考机型阿拉丁Zero。上周,灵犀微光又宣布获得亿元级B轮融资,新资金的注入是在为其走向消费端市场铺路。
VRPinea
2022/04/14
3460
AR眼镜何时能跳脱出概念产品,走进现实?
MWC 2021丨高通推AR眼镜参考设计,OPPO 展示新款卷轴手机
(VRPinea 3月1日讯)2月25日,世界移动通信大会(MWC 2021)在上海落下帷幕,受疫情影响,本次MWC是自疫情取消之后的首次重启。本次MWC大会改为线上+线下举办的方式,虽在参展人数及参展厂商数量方面都不如以往,但对于VR/AR行业来说,还是看点颇多。
VRPinea
2021/03/17
8750
资料 | AR眼镜光学主流:光波导技术方案及加工工艺全解析
增强现实技术即AR技术是将虚拟信息与现实世界相互融合,属于下一个信息技术的引爆点,据权威预测增强现实眼镜将会取代手机成为下一代的协作计算平台。以增强现实眼镜为代表的增强现实技术目前在各个行业开始兴起,尤其在安防和工业领域,增强现实技术体现了无与伦比的优势,大大改进了信息交互方式。
好好学SLAM
2021/08/26
9.6K0
资料 | AR眼镜光学主流:光波导技术方案及加工工艺全解析
AR眼镜只知道HoloLens?那你就Out啦!
近期,不断有AR眼镜厂商融资的消息爆出。其中,国内品牌表现不俗。在VR产品占据主流的今天,AR市场不免显得有些冷清。毕竟提到AR智能眼镜,你脑海中也只有HoloLens一闪而过。其实在国内,AR市场并
VRPinea
2018/05/15
1.3K0
了解一下微纳光学在AR眼镜中的应用
光波导是一种光学技术,在光通信、激光领域应用较多。简单的来说就是光在特定设计的材料器件结构中实现光的定向传播,应用的是全反射原理,中心用折射率大的材料,四周用折射率小的材料,就可以束缚光在介质中传播。
用户2760455
2022/06/08
1K0
了解一下微纳光学在AR眼镜中的应用
CES 2021丨因疫情转为线上举办,AR或成主流趋势?
(VRPinea1月15日讯)2021年拉斯维加斯消费电子展(CES)于当地时间1月11日开幕,受疫情影响,本次展会以线上形式举行。在本届CES 2021中,XR相关的内容也有很多,P君对大会内容进行了汇总之后,给大家带来了XR方面的相关资讯~
VRPinea
2021/01/29
4390
CES 2021丨因疫情转为线上举办,AR或成主流趋势?
CES 2019|VR/AR/MR头显、眼镜、一体机、配件、模组、技术与解决方案,超全汇总!
CES 2019,正在拉斯维加斯火热进行中。前两日,小编先对本届CES所涵盖的VR/AR、无人驾驶、芯片等多个领域的最新动态,进行了“终极前瞻”;后又对三星、LG、英伟达、谷歌、联想等大厂,在大会首日亮相的新产品与技术,做了全面汇总。
VRPinea
2019/04/29
1.1K0
CES 2019|VR/AR/MR头显、眼镜、一体机、配件、模组、技术与解决方案,超全汇总!
灵犀微光陈飞:AR短期仍将深耕B端,光学模组会成为「胜负手」 | 镁客·请讲
自前年“元宇宙”概念爆火,已久不在行业头条出现的AR,再次被拉回至大众视野。尤其在消费级AR设备这一赛道上,迎来了久违的热闹——如Nreal、雷鸟创新、Rokid和影目(INMO)等国产厂商品牌,要么抓紧推出新品,要么重新把国内市场作为了发力方向。据不完全统计,今年上半年就有超过十款AR眼镜在国内发布或上市。
镁客网
2023/01/04
3590
灵犀微光陈飞:AR短期仍将深耕B端,光学模组会成为「胜负手」 | 镁客·请讲
迎接元宇宙,驭光科技推出AR光波导新产品
机器之心报道 编辑:shanshan AR产业发展有了更多可能 日前,微纳光学核心科技公司驭光科技推出了完全自主专利设计、光学性能国际领先、可量产的衍射光波导新产品。 凭借在微纳光学设计、半导体精密加工、高效自动化检测等环节的深厚积淀,驭光科技在跟踪各项AR技术多年后,对衍射光波导技术进行深入研究和多次开发迭代,成功推出完全自主专利设计、光学性能优异、量产性能优越的AR衍射光波导产品。 这是驭光科技第二代衍射光波导产品,其目标在于满足市场上客户对于性能和成本的平衡需求,在保持性能领先的前提下,能够有效支
机器之心
2022/04/12
5850
迎接元宇宙,驭光科技推出AR光波导新产品
OPPO Air Glass开发
如果没有机器的话:参赛者可以自己购买相关硬件,也可以在参赛报名时向大赛主办方免费申请参赛开发机。
云深无际
2022/06/15
8600
OPPO Air Glass开发
用于3D摄像头的VCSEL技术
传统的光电转换技术一般采用 LED 等发光器件。这种发光器件多采用边缘发射,体积大,因此比较难以和半导体技术结合。20 世纪 90 年代垂直腔表面发射激光 VCSEL 技术成熟后,解决了发光器件和半导体技术结合的问题,因此迅速得到普及。
小白学视觉
2022/04/06
5400
用于3D摄像头的VCSEL技术
小米发布智能眼镜概念视频,当前技术水平下的AR眼镜真能让人看见未来吗?
(VRPinea 9月15日讯)昨日,小米官方突然发布了一支智能眼镜的概念视频,撞车苹果秋季发布会及OPPO官宣Find X3 Pro摄影师版。
VRPinea
2021/10/08
6690
3DVR显示技术科普
我们能够看到3D,除了物体是立体的之外。还是因为我们的左右眼睛得到的图像有差异,在大脑中产生空间感,我们通过特定的硬件设备,使左右眼睛观察到细微差距的图像,从而恢复三维深度信息
孙寅
2021/12/07
1.1K0
3DVR显示技术科普
GPT-4已来,你知道怎么才能使用chatgpt吗?
近期,AI 有点火!尤其是GPT-4发布以来,围绕ChatGPT相关话题,只增不减。
用户10437238
2023/04/06
5480
撬动消费市场,轻薄型XR眼镜的机会到底几何?
(VRPinea2020年2月24日电)近日,HTC Vive公布了下一代VR头显Vive Proton的设备渲染图,这也是继Oculus Hald Dome之后,又一家公布短焦VR方案的国际VR巨头。此前,已有多家中国VR厂商发布了类似产品,如3Glasses X1和华为VR Glass。
VRPinea
2020/02/26
5330
DIY穷人版谷歌眼镜,自定义手势操控,树莓派再一次被开发新玩法
兴坤 发自 凹非寺 量子位 报道 | 公众号 QbitAI 通过帅气的手势,操控投影在眼前的电子成像,这不就是科幻片里的基础配置嘛。 现在,有人把它从科幻电影中带入了现实。动动手指,实现对眼前世界的掌控。 热衷于制作智能小物件的油管博主Teemu Laurila,利用树莓派DIY了一副可识别自定义手势的AR眼镜。 将自己想设置的手势录入装置,即可实现炫酷操作。 我有了一个大胆的想法! 自制AR眼镜中的世界 先开始表演吧! 捏住手指上下拉,就可以完成调整亮度指令。(这是你的第一人称视角) 对手势识别
量子位
2023/03/10
9890
DIY穷人版谷歌眼镜,自定义手势操控,树莓派再一次被开发新玩法
Magic Leap 和微软为什么要做 AR 眼镜:关于原理及挑战
Magic Leap 和 HoloLens 是什么? Magic Leap 和 HoloLens 都是 Augmented Reality (AR)眼镜的代表。 AR 和 VR 眼镜的区别是什么? A
新智元
2018/03/14
1.5K0
Magic Leap 和微软为什么要做 AR 眼镜:关于原理及挑战
1.10 VR扫描:AR眼镜方案商Lumus推超轻薄AR显示屏;Jaunt VR推全新XR平台
Valve发布临时测试软件,可为VR控制器添加按钮映射 今日,Valve发布了一个名为“OpenVR-InputEmulator”的临时测试软件。通过该软件,SteamVR用户可以在任何PC VR控
VRPinea
2018/05/17
8480
盘点|近期AR眼镜/头显最新动态合集!
近期,关注AR/VR圈的小伙伴们,应该有发现AR,尤其是AR硬件方面的消息特别多。就连“万年专利户”的苹果眼镜,其官方也对外表示,眼镜将于2021年底推出。并且还预计能在发售第一年内就卖出1000万台。不过,2021年还有些遥远,小伙伴们不如先随小编一起看下近3个月内,相关厂商在AR眼镜/头显落地方面的最新进展吧。
VRPinea
2018/07/26
5650
盘点|近期AR眼镜/头显最新动态合集!
推荐阅读
相关推荐
灵犀微光CEO郑昱:阵列光波导,推动AR眼镜三年内走向消费级市场的显示技术|量子位·视点分享回顾
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档