00:00
Hello,大家好,年人都说上班好不置,上班催人老,那今天呢,我们来到了AI芯片的NPU详解里面的其中一小节,啊,这个顺序呢,或者发布的顺序呢,会有点乱了,最后会成型的。今天我要给大家去分享的就是特斯拉最新发布的AI芯片do久的整体架构,我们看一下在整个AI专用处理器里面呢,我们现在处于特斯拉do这一个内容里面,那这个内容呢,其实我们分开很多个患者呢,会分开两到三个内容去给大家汇报,那第一个呢,就是今天的内容,Do久的整体架构,还有do久Co的一个架构,我们还是看架构,看看do久到底是什么,接着呢,我们在第二个视频里面就会深入的去打开DO9的前端的处理,还有DO9CALL的执行引擎,最后呢,看看DO9框里面的SMP和内存。
01:00
是怎么实现的,最后我们会看看内核和物理实现,还有一些整个do久的系统到底是怎么挖起来,还有一些问题与思考,所以会分开三个内容给大家汇报。现在呢,我们来到了第一个内容都有的整体架构的介绍,后面呢我们会给大家去播一个整个都走的视频,然后让大家直观的去感受的。首先呢,特斯拉的这个都走了,我们叫做超级计算机系统,那右边这个呢,就是都走组成的extra port,专门用来做神经网络的加速,那我们可以看到呢,从这个图就整个都走的超级计算机系统的组成,首先呢有个第一整体的chi,接着呢却会封装成一个training type,接着呢我们还会有didp呢,做一个P31插槽呢,其实它还有HBM,那最后呢,把这些都组合起来呢,就变成我们整一个super,或者叫做extra。
02:00
里面呢就有两台机器,每一台机器呢又有六个training tap,那现在呢,我们整体来打开看看整个dole超级计算机里面的每一个细节内容,首先呢,Do组里面呢,是有非常多的do走扣,就是我们的do走内核来组成,右下角这个图呢,就是do走扣的整体的架构,它是具有自己独立的CPU,专用的内存和IO的,所以大家可以认为每一个都走扣呢,可以作为一个小型非常微型的PC,而每一个内核呢,又拥有1.25MB的一个SM作为主存,大家注意这里是主存而不是缓存,里面还是有区别的。最后一点呢,就是SVM呢,能够以400GB每秒的速度加载进来,去给我们的scla还有我们的vector进行计算,并且呢,以270居民每秒的速度呢,进行存储读写的速率变得非常的快。那有了刚才简单的。
03:00
呃嘟之后呢,我们现在看一看第一,那第一呢是由非常非常多的刚才介绍的多走廓去组成的,这里面呢就采用了台积垫七纳米的制成工艺,里面呢有645毫米的面积啊,所以说它非常小啊,就一个手指甲盖那么大小的面积里面,上面呢就拥有了500亿个晶体款,非常张,而这里面呢,主打的计算的数据类型呢,主要是 Bf16和CFP8,那CP8我们会在后面介绍的,BF16呢再给大家汇报100的时候呢,已经给大家介绍过,整体的算呢可以高达362T,那这个362T fo呢,其实跟英伟达A版差不多,但是呢,因为特斯拉的这款DO9超级计算机呢,主要是主打的纯算一体,所以它在AI的计算的效率呢,会比英伟达要高很多,另外的FP30瓦的算呢,呃,还是比较低的22.6TX整体的热四功耗呢,为。
04:00
这400瓦拉注意力这里面呢,为什么会专门的去提DTD呢?是因为它的供电方式呢,跟传统的供电方式是有点不一样的,现在呢,我们刚刚讲完一个第一的芯片呢,也就是其中的一个拈而已,那基于第一芯片呢,特斯拉就推出了整个金元系统的解决方案呢,我们可以看到下面这块图是一整一块晶元里面的每一个小方格呢,就是我们刚才讲到的第一芯片啊,第一芯片里面呢,又有354个,刚才我们在讲到的do Co整体的应用呢,是采用了台积电的sow的封装技术啊,把整体封装成一个精元,那这里面呢,就有25克第一的裸芯片呢,横五个竖着五个组成了一个训练的T,每个T呢,都需要独立的去供电,所以我们可以看到了,往下呢,这里面有一个拈呢,就专门用来供电的模,整个多手的训练,T呢有计算IO攻略。
05:00
还有夜冷的模块就组成了一个traininging tail组成一个training套之后呢,我们就会把所有的training套再组成一款主机,那这里面呢,在DO9的超级计算器系统呢,我们往右边的这个图看看,刚才讲到了training套呢,就是右边的这个图,简单的这么一块作为一个training整一款主机组成在一起的时候呢,这里面就有非常多的电缆呢,大家可以看到这里面有非常多紫色的或者蓝色的电缆,这里面呢是一个非常高速带宽的连接,里面呢支持的PF16核或者CF8的峰值算力呢达到54TX,整体的功耗呢,其实也是非常非常的高,因为它把刚才的好几块我们的training套组成起来,变成一款机器,接下来我们看一下整体的作者,计算机里面呢,这里面有一块很有意思的,就是看到这个标准的插槽呢,就是我们的PC插槽,但有意思这里面呢,有两块芯片,这两块芯片呢,其实就是我们的HBM。
06:00
于是呢,这一块接口处理器呢,我们叫做高带宽的内存PC卡,所以里面有两个内容,第一个呢是支持P31,第二个呢是支持高带宽的内存HBM,里面的传输协议呢,是用特斯拉自己定制的TP啊,也就是特斯拉ation,在特斯拉的主机和训练套之间呢,就是通过右边的这一块dip进行连接,而整个dip呢,就有32GB的HBM,也就是我们的高带宽的内存,那往下看一看呢,我们看到啊,其实刚才的高带宽内存呢都在下面,然后呢,在网上就是我们刚才讲到的training,整一个主机呢,里面的TTPOE就可以把标准的以太网转换成为我们的Z平面的拓,Z平面的top呢,就可以更好的对我们的training type进行一个数据的交换,或者叫做成三一体的工作,再往下这个图呢,我们看一下,这里面有五块P,右边有五块DP,所以我们最多呢可以将五个P呢以900。
07:00
B每秒的速度呢,连接到一个training上面,所以呢,整体的training的吞吐呢变得非常的高,4.5T每秒的数据的吞吐,而每个training呢,就拥有了168G的H,因为每一个有30,那30以呢就等于160GB的一个H,整体的主机组成呢就变成右边的这个图所示了,在后面呢,就是整个DO9的主机的接口,这里面呢就拥有512个叉八六的内核,还有8TB的储存,8TB的储存还是非常的高的,整体的P31的带宽呢,是640GB每秒,卡间的带宽是非常非常的高。最后呢,把刚才的这一台都走的主机呢,组装起来,就变成了都走的X po,每个extra po就有两款刚才讲到的一个主机,这么一款大的机柜呢,我们叫做整个extratra port里面呢,就集成128个training套的内置呢,就3000个第一的芯片,拥有100万个训练的节点,也就是我们刚才讲到的都pro bf16或者CFP8的升值算力呢,就达到了1.11 lo呢已经到了一级别的不是T级别这么夸张了,总体呢拥有1.3TB的高速的S和13TB,所以呢,它的整体的峰值算力和吞吐量呢,就网络的吞吐是非常高的,现在呢,我们从上往下看一下,刚才讲到的一个内核呢,就是我们的都走框里面偏上的SM呢,就有1.25MB,整体的算力呢,并不大,只有1.24TFOX,但是呢,这整一个do呢,它可以作为单独的一个PC里面呢,就用。
08:41
这个838矩阵层的计算的核心,另外的话,354个do块呢,就会组成一个do走的第一啊,Do走的第一,简单的一小块芯片里面的片上十呢有440MB,整体的算是362TLO,另外的话六块嘟洲第一呢,就组成了一个do t或者我们叫做training t里面就这么一块组合的片,总体的偏S呢有11GB,然后算呢是9050TS呢,这里面呢就接近万T呢,每五乘五个第一组成这么一块,每六块或者twenty套呢就组成一款主机,而每一台机柜呢就有两台主机,整体来说呢,S pro呢,就提供了1320GB的片上的S值,算力呢非常非常的张,到达了1.1里面呢就拥有了3000个DE1的芯片,接下来我们会看一个简单的视频,看一下do作整个超级计算机系统里面呢,这几个模块是怎么组合起。
09:41
Either this is a groundbreaking integration of twenty five known good be ties onto a fan out waer process tightly integrated such that it preserves the bandwit between them the maximum bandwit is preserved there and in addition we generated a connector a high bandwith high density connector that preserves the bandwidth coming out of the trainingin tile we created a custom voltage regulator module that could be relowed directly directly onto the sc out wafer so what did we did out here is we got chip and already out here didnt stop here we integrated the entire electrical thermal and mechanical pieces out here to form our training t fully integrated。
10:41
的的,略带点猥琐的拿出了我们的do ta训练的芯片,接着放了一句,I can believe it,然后尴尬的把这块芯片又回去了,Power supplies that do direct conversion of three phase four eighty v AC power to fifty two vult DC power now by focusing on density at every level we can realize the vision of a single accelerator now starting with the uniform nodes on our custom d one Di we can connect them together in our fully integrated training tile and then finally sealess。
11:41
Ly connecting them across cabinet boundaries to form a dojo accelerator and altogether we can house two full accelerators,下面呢,我们看一下整个都索设计架构的执行,首先呢,都索采用的是一个纯算一体的架构,也就是把我们的存储和计算其实放在一起的,我们也叫做进存计算或者存内计算了,里面呢就统一了高碳簧低延迟,在整体的设计的理念里面呢,就有三个重要的点,第一个就是关我们的芯片的面积,第二个呢,就是我们的网络的延迟,第三个呢,我们会对或者do久里面呢会对很多功能进行进一步的精简,那我们逐个的去打开,首先第一个呢,就是我们的呃,芯片面积的精简,芯片面积精简说白了很简单,就把大量的计算的核心全都集成在我们的芯片里面,最大程度的提升整个AI计算的吞吐,说白了就是为了使得我们的计算量更大,里面呢就会塞非常非常多的AI的计算的核心。第二个呢,就是担心。
12:41
片里面的延迟的精简,为了使得我们整个计算的效率最大化呢,除了面积的精简里面呢,内核呢会以两级赫兹里面去运行,只保留了基本的分支预测,还有小指令的缓存,去掉了很多对AI计算没有必要的一些部件的架构,把其余所有的面积全都留给我们的向量或者张量进行计算。那第三个呢,就是功能的精简,除了去掉一些不必要的硬件以外呢,其实这里面呢还做了非常多的工作,不支持数据端的缓存,不支持虚拟的内存,也也不是精确异常,所有的东西都是为了提升我们AI的计算的吞吐,这个就是都走的整体的设计架构,所以我们可以看到都索的第一呢,里面的计算单元是非常非常的密集,每一个小正方形呢,都是密密麻麻的计算单元,最后呢,我们对比一下都索第一和同期出现的A版啊,可能A100会稍微再涨,那么一年整体的Python SM呢,DO9里面是多了接近十倍的。而算力呢,其实差别。
13:41
不大,我觉得362T还有A版的312T其实差别不大,里面呢主要是指IP16或者BF16这种格式的算力,另外的话,从计算核心来看呢,A版里面呢,128个SM,那整体都数第一里面呢有有354个督,那可能这么算呢不是很合理,因为A版里面的128个S3,每个SN里面呢又有四个ten,所以总体来说呢,128乘以四跟三百五四其实是差别不大,反而A100会更占优势,但是呢,因为手纯用的是一个纯算一体的架构,所以它整体的吞吐呢会比A版要高很多,卷的不行呢?卷的不行呢?记得一键三连加关注哦,所有的内容都会开源在下面这条链接里面。
14:26
拜了个拜。
我来说两句