00:00
爸爸,爸爸大家好呀,周一周六在公司吃苦,周末自己在家吃土,猛然回首发现自己已经发福的中米,今天呢,我们来到了一个不一样的内容啊,就是谷歌的TPU,看一下整个谷歌TPU的历史发展,那讲到历史发展呢,是今天的主要内容,但实际上我们回顾一下在整个系列里面,我们讲到的AI芯片系列,从AI的计算体系,再到AI的芯片基础,从cpupu到现在的MPU,在M里面呢,我们分开两个内容,一个是跟国内相关的,一个是跟国外相关的,现在我们来到了国外相关的谷歌TPU,谷歌TPU里面呢,有两个核心的内容,一个呢是它的脉动阵念,第二个呢是谷歌TPU的整个系列的架构。关于国外的AI芯片呢,我们详细的分享了英伟达的GPU的架构,然后看了一下特斯拉do久的整个系列,接着我们今天呢?
01:00
来到谷歌TPU芯片的架构的详细的展开,那展开之后呢,我们会分开四个内容或者五个内容给大家去汇报的,第一个呢就是TPU的出现和它的历史的发展,第二个呢,就是TPU1234里面都用到的一个脉动阵列的细节的展开,接着我们看一下TPU2第一款训练卡或者训练芯片的提出,因为TPU1呢,它主要是指推你嘛,TPU234都是有训练功能了,接着我们看一下TPU3整体的性能,还有它的pot的形态,Pod呢就是一台,呃超算了。最后呢,我们看一下TPU4有哪些比较惊人的互联的技术点。好了,我们现在来到第一个内容去看看TPU的诞生,为什么会出现TPU这个概念,其实呢是在2013年的时候啊,谷歌AI的技术负责人就经过分析发现,诶,现在我们的安卓手机市场用户越来越多了,现在安卓背后的所有的AI功能啊,都是基于谷。
02:00
的计算中心来去计算的,而AI算力的消耗非常感人,于是这个时候呢,谷歌就觉得有必要自己去根据AI的式去构建属于自己专属的芯片,那这个时候呢,TPU就顺势的推出出来了,我们可以看到呢,从谷歌的搜索当中呢,AI的算力的增长,或者对AI的需求的增长呢,是不断的去加大的,从2012年开始到2016年是达到了前所未有的一个快速的增长过程当中啊,TPU呢,是诞生在2015年,真正逆向的时候呢,应该是在2013年就开始立向了,比中米去学深度学习学AI的时间还要早,所以说谷歌在这方面确实非常具有前瞻性,快速的来到第二个内容,我们看看历代的TPU的整体的参数和它的产品形态啊,这里面呢,曾米就列了一个表,从TPU的V1 V2 V3到TPU的V4。但是呢,我们。
03:00
中间还有夹杂的其他的产品,例如V1,还有pixel newal Co,还有TV4之前的V4I,最后还有谷歌最近自己推出的一个TSOC啊,但是呢,我们后面的所有的系列呢,都会主要围绕着谷歌的VV2 V3跟V4这一套系列去介绍的,所以这里面可以看到里面的非常详细的芯片的情况和规格呢,都有详细的列出,而edit呢,还有pixel系列呢,是没有详细的列出的,我们将会在后面呢详细的去给大家展开TPUV2 V3 V4,现在呢,整体看看TPU历代的产品啊,刚才讲到的只是芯片产品呢,它封装成V一个V3,还有edit之后呢,后面就有了port,在这一个portt字呢,就非常的有意思呢,因为portt呢是一个超级计算机服务集群,或者超级计算机服务节点,提供非常庞大的TPU的集群,把TPV2、V3、V4全都封装。
04:00
给它变成一个大规模的集群,这个呢我们也会在后面TV3的时候给大家详细的去汇报的,那现在呢,我们整体看看它的一个芯片的产品形态,来个总体的概,左上角的这一款呢,就是TPV1,这款呢就是TPV2有四个和TV3呢跟V1没有太多的区别啊,整体呢底板变成蓝色,三器呢也不一样,TV4I呢其实跟二三差不多,但是TPV4呢长得就非常的独立,不一样,我们后面就会介绍它到底有什么不一样啊,这里面可以看到确实整体的产品形态很奇怪哦,跟前面几个产品形态都不太一样了。接着呢,有了各种各样的芯片呢,从V1到V4之后呢,谷歌的TPU呢就推出了历代的芯片的服务器,从TPU的V1V2的集群到后面的HP port,这里面有非常多呃,绿绿绿的,蓝蓝的不同的颜色的光缆,实际上呢,是谷歌跟IB一起去合作的一种特殊的光缆接。
05:00
这里面呢,我们后面也会特殊的去讲解一下,回到谷歌t po另外的一些产品形态呢,因为它发明了很多不同布样的AI的加速芯片,那这些AI的加速芯片呢,最后就变成了谷歌pixel,还有pixel里面的ER歌里面的这块TPU啊,这整一块SOC呢,是谷歌4G的,基于这一系列呢,谷歌就推出了自己的P手系列的手机的产品,也把它的TPU呢用在这些手机上面去解决我们端测实时运行的一些AI的场景,我们来到了第三个内容,就是TPU的眼镜啊,整体去看看TP有什么不一样,首先呢,我们看看TPUVE的概呢,它是一个determine determine model,好了,我不练了啊,实际上呢,T是一个确定性的执行模型,第一代呢采用的是。
06:00
28纳米的制成工艺啊呃,我们现在国家还在努力的还是在28纳米,希望它能够量产成熟,然后攻克16~14纳米,那现在当时候的TPV的主呢,只有700兆赫兹,对比起2014年,2015年,当时候的CPU的主呢,其实TPU的主算低了,不过呢,整体功耗呢也是比较感人的,能够去到40瓦还是比较低的,而为了尽快把TPU呢,部署到谷歌的一个服务器集群里面呢,所以谷歌把TV呢做成一个外部的扩展加速器啊,通过PCI1的插槽,我们可以看到这面有一排小针口,这种呢,就是PCI均三第三代里面的一个插槽化总线的方式呢,跟CPU host主机去相连,提供12.5gB每秒的有效的算力带宽。现在呢,我们回到2015年呢,当时候最火的神经网络模型结构主要有三种,一种是MLP,就是多层神经感知机,然后就是多层FFM对叠。
07:00
起来,第二种呢,就是CNN卷积神经网络,第三种呢,就是inn跟LSTN,大量的去处理我们的自然语言处理,还有一些音频的,虽然呢,R跟LTN呢,随着全的推出,他们现在已经很少被人们所利用了,不过呢,In跟SN呢,其实曾经占据过人工神经网络非常长的一段时间,而当时后呢,TPVE大部分只能处理MLP跟CNN2种情况,至于RN跟STM呢,它是很难去处理的,因为它的逻辑非常复杂。在这个视频里面,我们后面会介绍一下TPU啊,为什么会这么牛逼,是因为在TPUV2 V3、V4这整体的系列里面呢,它引入了低精度的数据的格式,从INT8到BF16的首创,接着呢,又引入了矩阵的专用的加速处理器,就我们刚才讲到的mxu用了脉动阵列,最后呢,还提出了专用的硬件去减少我们没有用的。
08:00
额外的开销,专注于AI的计算性能,现在我们打开第一个特性就是低精度啊,它的TPV呢,其实首创的提出了INT8,使用INT8呢,来去近似预测的最小值和最大值之间的任异的数值,所谓的量化的技术,那我们看看中间的这条线呢,原来的神经网络的数据的表示呢,可能有左边的这条线,每一个点呢,都非常的精确,但是呢,经过量化之后呢,我的曲线的整体的幅度和频率是相同的,区别就在于我们可能每一个点的精度没有那么高,但是呢,对于我们的神经网络模型来说呢,它有足够的泛化性,其实我们量化到INT8呢,对我们整体的推理的性能,特别是分类的场景影响并不大。有了刚才讲到的低精度呢,其实第二个重要的特性啊,第二个是我们的脉动阵列啊,首先我们去回顾一下CPU跟GPU呢,每次在计算的过程当中啊,就是。
09:00
这个图呢,都要从寄存器里面不断的去获取数据,然后给到我们的alu,或者在hpu里面呢,就是库塔括号,在CPU里面呢,就是CPU的alu进行取子一码执行过程当中呢,就不断的去反复,而整个TPU的脉动阵列啊,右边的这个图手势呢,就会将多个的运算的逻辑单元,就多个a Lu,把它串行起来,通过一个计算器一次读取的数据给下一个a Lu,计算完的结果再给下一个a Lu,计算的结果再给calu,这里面可以看到呢,我少了很多曲子的问题,我少了很多一码的问题,直接的去把数据执行完之后,给下一个非常的符合我们人工神经网络的矩阵的运算,于是呢,就出现了脉动阵列这么一个概念啊,脉动阵列呢,我们可以看到了,假设呢,我们下面的灰色的就是模型权重,那一般呢,模型权重是在推理的廓场景过程当中呢,是不变的,在训练的过程当中呢,我们的数据呢,是不断的去。
10:00
演变的,那现在呢,是一个三乘以三乘以二,三乘以二的这么一个矩阵的运算,现在我们简单来看看,第一次呢,就是我们的Y11的第一个位置的计算,接着呢,我们把第二个数据呢,得加起来,变成我们的Y12跟Y21的数据的计算,接着我们在第三层的时候呢,去计算我们的Y22跟Y31,在最后一次呢,我们把所有的数据呢,都丢到我们的那个整体的逻辑计算当中,变成我们的Y33,然后呢,完成我们整体的运算,这整一个过程呢,就是我们的脉冲增列systemto weekto,就是我们的脉动啊,有点类似于那个脉搏的跳动,所以叫做脉动,不是一个饮料哦。后面我们将会详细的,特别是在TV这个系列里面,详细的展开我们的硬件应该怎么做,我们的数据到底是怎么串流的,这里面呢,只是简单的一个数学的概念,如果没有搞清楚的同学呢,也可以重复的翻看刚才的那个动画的过程。
11:00
谷歌呢,基于刚才上面的数学原理呢,造造了一个硬件呢,这个硬件呢,就是mxu matrix multi unit,一个大的synical AR RA,就是一个大的脉动正念,看右边的这个图呢,这里面的control呢,就是我们的逻辑控制器呢,有两个箭头,一个箭头呢是指向下面的这个一个队列,下面这个队列呢,就是输入我们刚才讲到的输入的数据,或者一个feature map,我们中间产生的一些结果,上面的这个箭头呢,就是我们权重数据的输入,把权重数据呢,先固定在我们整个sical arra,整个麦动增间里面,接着呢,不断的去把我们的数据输进来,然后进行一个累加的计算,最后得到完整的输出,然后再输出给我们的计算的结果,整体的过程当中呢,就类似于这样,我们后面再会TPV的详细架构里面去单独的展开。它宣称在谷歌的大。
12:00
病模的应用当中呢,TP解决了它非常非常多的AI的算力的消耗,接着呢,我们来到了谷歌TPV2 V3V4,简单的一个概述了,那那谷歌T2呢,是在两年后2017年五份发布的,使用了16GB的高带内存HB,而且很独特的一点就是T是专注的,而T呢是专训练,并且入了B,我们现在训练大模型经常说F跑飞,然后要用上B f16的一个原因,我们后面会详细的展开它的整体的top形态呢,由右边的这个图爽事,实际上呢,整体架构呢,跟谷歌TV1差不多,只是基于V的版本呢进行改进,然后就得到了V2,而这些改进的修改点呢,就是训练和推理的差别了,我们将会在第二个视频给大家去汇报的,而这里面呢,谈到BF16呢,我们后面也会详细的给大家去展开,首先呢,BF16就我们要看一下。
13:00
FP32的指数位exponent,它有八个比特,但是呢,FP16的它的指数位呢只有五位,而在BF16呢,它的指数位呢,实际上是跟FP30保持一致,有八个比特,然后减少了后面的小数位,从十个比特变成七个比特,通过这么一种改变,使得我们的神经网络里面的B16呢,能够表示更宽的数值范围,那这里面呢,我们简单的总结了一下B16的几个好处啊,第一个好处呢,就是硬件上面呢,节省我们的计算的内存,第二个呢,节省内存意味着我们加载的时间,我们的内存的消耗,我们的搬运数据的时间呢,就会有所的降低。第三个优点呢,就是结合了第一个优点和第二个优点,使得我们整体的吞吐和计算的速率有所提升,这个就引入了标16的好处,而TPV2之后呢,谷歌就基于我们的VR呢,建了一个po一个计算的机群左边。
14:00
呢跟D呢,是CPU中间的B和C呢,是我们的TPU阵列,使得2017年的时候,谷歌在Y点五零呢,用了30分钟就完成了整个模型的训练,精度呢能到达93%,这也是非常夸张的。接着我们看看后面几个内容,快速的过一过,就是骨歌TPU的V3,那V3呢,其实没有太多的改变呢,除了工艺的一些增加,然后合数呢翻了一番,然后其他改进点并不大,我们后面呢,更多的是在TV3的时候去介绍它的port的形态,那接着我们会介绍最后一个内容,就是谷歌TPUV4 V4呢,我们后面也会详细的去展开的,V4更多的内容呢,来自于这一篇论文,实际上呢,我们现在看到官网公布的信息并不多,就这么一篇论文,那谷歌TVV4呢,实际上是一款划时代的产品啊,对于谷歌来说,从TPU的V1 V2 V3呢,都是从28纳米到十纳米,到V4呢,真正用了七纳米呢,体。
15:00
那么修的数量呢翻了一番,缓存呢也增加了很多,而且首次亮相了3D to的互联的方式,使得我们TPUV4所有的互联更加特别,这个就是我们后面会详细展开它的一个互联的具体的形态,那后面可能还有一些TPU的规格呀,还有它的架构图,还有t puv4的h port,我们刚才花了一段时间去回顾了一下TPU的历史的发展,还有TPUV1的脉动帧量和TV2第一款训练卡到TPV3,它整体的性能的pod操算提出到TPV4超级的互联,那我们现在提出一个问题,GPU和TPU英伟达的GPU跟谷歌的CPU最大的区别在哪些方面呢?这里面呢,周米希望带着这个问题呢,跟大家一起去汇报下面谷歌TPU整个系列,首先第一个呢,就是软件站的区别,包括AI框架,AI编译器,第二个呢,就是互联方式的。
16:00
区别包括我们的基金互联和芯片卡间的互联,第三个呢,整个芯片的架构,我们架构的眼镜,从训练推理到我们的推理的性能进一步的发挥,到我们现在遇到的大模型到底有哪些区别和有哪些架构的眼镜和整体芯片的眼镜,希望给大家带来一点不一样的思考。现在综米会把所有的视频呢,一对一的全部都展开在这里面,每个视频都有详细的介绍哦,欢迎打开和吐槽,给我一键三连给我一键三连啊,谢谢各位,拜了个拜。
我来说两句