00:00
叭叭,哈喽,大家好,人生路漫漫,肥肉长相伴,我还是那个熟悉的Z米,那今天呢,我们要给大家去分享一下AI芯片里面的随缘科技,看一下这个烽火燎原的科技呢,到底有哪些不一样,回顾到整个章节了,我们现在在整个AI芯片系列里面,AI专用处理器来到了国内的对其他AI芯片厂商进行一个技术上的剖析,在之前的视频里面呢,我们已经给大家去分享了碧焰科技,接着我们去分享随缘科技,在下一个视里面呢,我们再去分享寒武纪的芯片,首先呢,今天我们会分开四个内容去跟大家汇报的,第一个呢就是什么是随缘,随缘科技到底是个什么样的一个公司,接着我们看看随缘科技的具体的产品的形态,还有训练和推理,接着呢,我们去看看随缘的d tu1.0,也就是。
01:00
它上一代的整体的芯片的架构,接着我们对随缘科技相关的技术点跟大家一起进行一个交流探讨的,现在正式的来到了第一个内容,看看什么是随缘,随缘科技呢,其实从2021年已经完成了接近18亿的融资,整体的累计融资额呢,超过30亿,左下角的这个图呢,就是随缘科技的一个具体的产品的图,那最近在上海的IC大会呢,不知道随缘去了没去,反正呢我是没去,别听电,那回到我们的随缘科技里面呢,现在它号称啊中国最大的AI芯片,这个最大呢,是指它的芯片的面积最大,总你觉得呢,这个宣传有点过于头了,在一块练的芯片里面呢,用了12纳米的,你别人的虚拟芯片都用七纳米,你用12纳米,在相同的晶体管的数量之下呢,你肯定会做到中国最大,真的是太大了,这不应该啊,而且大了它的功耗也会上去。整体。
02:00
你的尺寸方面呢,接近六厘米乘以六厘米半个手掌那么大,封装的技术呢,采用了热月光的2.5D封装,下面呢,我们看一下随缘科技一共推出的两款芯片,D1款呢,就是左边的d tu1.0,第二个呢就是右边的d tu2.0,那2.0跟1.0之间呢,有个最大的差别,可以看到中间的旁边的这块贴片呢,是我们的HN的,HN2呢有一个非常大的进,也就是贴片的四块,每一块呢有16GB,而整个g tu的1.0呢,在2020年的时候发布的,D tu2.0呢是在二一年发布的,现在呢,他说未来者今年年底呢将会发布第三代,那我们期望第三代啊,现在我们有限的资料里面呢,只能找到他2020年发布的第一代芯片的相关的知识,我们可以看到了,今天我们介绍这一款芯片的架构呢,整体呢就是长这个样子的。接下来我们。
03:00
来到了第二个内容,随缘的产品形态,说实话呀,在太阳底下呢,没有新鲜事,无非就分为训练和推理,不过随缘呢比较特别,它的训练呢和推理呢都是集中在云端的,也就是它没有端测,不会放在我们的手机啊,板卡啊或者其他形态里面,都是放在我们的云服务器,那下面我们看一下它具体的一共推出了六款产品,训练呢有板卡的形态存在,有T1,还有T1221,那分别对应的两两代,另外呢,还有PC1插卡的方式,对应的是T10和T202种形态,在云端推理的时候呢,同样是用PC1的插槽方式,有随缘的,呃,云随I1.0和云随I2.0啊,现在有接近一年半的时间呢,没有推出第三代了,希望他第三代赶紧推出来,不过呢,话说回来,我们现在看看它整体的产品形态啊,当时候呢,他声称它有非常多的黑科技,但是这些黑科技呢,无论从封装计算,数据存储和互联来。
04:00
看现在已经不算什么特别有优势的点了,我们接着往下进一步的去看看它的一个整体的云推理场景的形态,在云推理场景呢,中敏是觉得有的打的,因为随缘科技呢是被腾讯所投资的,腾讯呢作为他最大的爸爸,不仅仅是给他钱,虽然最大的买家呢就是腾讯云啊,腾讯云里面呢,最主要的集中在他的腾讯云的推理的集群里面,那我们从整体的可以看到,呃,下面标红的呢,是我觉得有优势的点,对比英伟达的T4这款产品,也就是2018年的时候的产品呢,这米觉得是非常有优势的,可以看到了它的峰值算力,不管是半径度和整形呢,都是有了一个double的,而内存几乎相同,不一样的就是内存的带宽呢,会更高,更高的内存带宽,更高的传输速率呢,带来的影响就是它的IO,它的IO接口,它的耗电呢会更高,但是呢,发布的时间呢,比英伟达了慢了三年。
05:00
有一个很重要点,就是我们看一下英伟达呢,在2023年,也就是今年的三月份呢,发布了它的N伟达的L4云端的推理场景,整个算的峰值呢,又是云随I2.0的一倍,不过呢,它用了台积电的五纳米的制成,保持了非常低的功耗的水平,至于在推理场景的内存带宽的传输速率一样这么高有没有意义,那是另外一个话题了,这里面的819GB每秒呢,我终于觉得呢,不一定能够用的。还反观英为的L4内存带宽,我觉得它是经过深思熟虑进行一个横向的对比,到底什么时候我的带宽的传输熟虑跟我们的计算相匹配的,这个时候呢,才能最大的发挥计算的性能和计算的利用率。接下来我们看看T20云端的训练的产品,云端的训练产品没什么好说的,中米觉得没什么好说的,在实验科技里面呢,云端的训练卡基本上啊不能打,因为可以看到它的峰值算力呢,非常的低,而且它使用的是美国革新的12纳米的封装。
06:00
体呢,比英伟达的100呢确实差了挺多的,现在呢,我们来到了这个视频里面最核心的一块内容就是虽然芯片对应的架构的细节,那块架构细节呢,主要是来源hop chi33里面披露的一些相关的细节,宗米觉呢,都2023年呢,虽然才公布了它第一代,有点缺乏诚意,实际上呢,中米觉得它实在是中规中矩,里面呢没有太多经验的技术点,不过呢,我们还是要具体的打开来去看一下右下角的这整一个大图呢,就是d tu1.0 SOC整一块SOC里面的一些核心,里面呢就有32个AI括呢有四组四乘以二的AI和里面一共有40个数据的传输引擎,整体呢有四路的高速的互联带宽,也就Costa OC,从刚才的产品形态里面呢,我们可以看到它一共呢有32GB的HBM两路,每路呢是18,整体的传输带宽呢是512GB,所以UG里面呢有个P插槽。
07:00
可能呢,不同的板卡之间,或者不同的产品形态呢,这个拈块呢,不一定会有,跟你的设计呢,还是中规中矩,接着呢,我们打开计算出里面的一个具体的计算的核心,那打开计算核心之后呢,其实发现它还是比较简单的,具体呢跟嗯,其他厂商应该差不多,绿色的这个拈块呢,就是计算具体的scla,我们的标量,粉红色的这个模块呢,就是计算具体的VE,而蓝色的这个模呢,就是计算具体的T,就是对应的张量,这里面呢,我们可以看到数据的寄存器呢,分开veta scla跟matrix,也就是对应的张量,每个摆放的位置呢,都有点讲究,而VE呢,因为veta比较大嘛,所以放在左边SC的数据量了,一般来说比较少,所以它放在上面对应到这个位置,而最后呢,就是matrix,就是我们的对应的张量,放在距离我们的或者张量的一个运算单元里面非常的近,这里面呢,有两个L1,那分别是一个L1的data memory,就数据的内存,另外呢一个。
08:00
是我们的L的指令的memory,呃,有一些AI芯片呢,会把这两个都放在一起,然后通过寻子的方式去区别,而随缘这里面呢,就分开两个地方进行存放,整体的总线带宽呢,去到1024B,那总线带宽还是非常的大的,不过呢,它的算力呢却不是那么的高,这里面呢,声称一共有256个张亮的和,也就是大的这个矩阵呢,就是16乘以16,每个科no呢,支持一乘以32BIT Mac操作,那就是累加和乘,还有支持四路的16或者巴比特的Mac操作,嗯,支持全精度,也就P32,还有混合精度P16的计算,那这些呢,还是其他有的,它也该有,刚才提到呢,它的总线带宽依然是bit啊,总体来说总线带宽还算比较大,这里面呢,我们可以看到数据呢,随着我们的箭头呢,传进来,传到DMA模块,DMA模块的全称呢,就是direct memory as,直接存储器访问,直接存储器访问呢,把我们的数据呢。
09:00
丢到l data memory里面,Data memory里面呢,啊,这是一个L的缓存,接着真正用的时候呢,会把部分的数据呢,搬到我们的vect向量的寄存器,最后给我们的计算单元进行计算,不过呢,有意思的就是它把另外一个内容呢,拼接在一起,就是我们的matrix register张量的寄存器里面呢,可以容纳32到128个element,也就是说呢,它可以支持一个相对来说比较大的一个矩阵,也就是我们的切片呢,不用切的太小,这个呢也是有利于大矩阵的计算。当然呢,关于它里面的卷积的操作,具体的计算呢,我觉得大家可以回头翻一翻相关的内容,这里面呢,还有GMM具体的计算,那GMG的计算的很有意思,就是我们要注意的就是内存的排布相当的讲究,只只有把内存排好了,我们才能够计算的更快,而在内存把它排好,就从我们的AI框架排的时候,肯定用户呢,在开发代码的时候不会注意我们的内存的排布,所以这一切的内容呢,都是在我们的编译器或者。
10:00
层里面去做的,而这个病层呢,会不会加入算子呢,或者额外的算子对我们的内存进行排布呢?这个可能会影响到我们的内存和我们的HBN或者我们的L的相关应的开销,这个时候呢,我们的训练的场景就有可能虽然有相同的计算量,但是呢,我们是用不满的,或者我们的利用率呢会降低,这取决于我们整体软硬件协同的优化。那现在我们看一下d tu2.0,它叫做随时2.0呢,基于12纳米最新的GCU架构,这里面的HBM呢,最高到了64,我觉得很有意思,就是大家都在对标英伟达的A800扩展A100,它都到了80GB了,然后其他厂商呢,还在到底不那么的H14B,大家都觉得经多了,还想退去用更的储呢,换成DDR不是HBM,这个话题呢又非常的有意思,不在我们今天的内容里面,第二点的改进呢,就是增大了偏向的L2的cash,这个也是必然。
11:00
那因为我们的HBM增加了,我们的l cash要相对应的增加,能够增强我们的多级缓存里面呢所容纳的内容,而且还支持更多的访问的类型,整体的片上的带宽呢,也是有所提升,不过片片上的带宽呢,我更关心的不仅仅是单片的带宽,而是卡跟卡之间的一个带宽,这个可能决定我们未来能不能做大规模并行的一个能力,那现在来看呢,随缘科技现在还是不具备相关的能力了啊。接下来我们来到了最后一个内容,跟大家去思考几个小的问题,首先呢,第一个就是在产品的竞争力方面,我们去看的,呃,虽然科技的产品的竞争力呢,主要是提供在云端的推理,软件站呢,它提都没有提,是因为软件站呢现在还在构建当中,它只提了它的一个硬件的形态,所以周米呢,觉得虽然在硬件上面呢做的中规中矩,软件上面呢有待超越,这也是为啥周米感觉到腾讯在AI方面。
12:00
变数并不大,所有东西呢都在跟进业界,除了他玩王者荣耀的强化学习的论文稍微惊艳一点。整体的性能呢,是对标英伟达五年前的T4,有点落后,而反观云端的训练呢,基本上没有优势。村米觉得呢,随缘的D的架构呢,是对标英伟达GPGPU里面七年前的P版,对比P版还有差距,所以我觉得训练几乎没有优势,它的竞争力到底在哪里?那第二个呢,就是先进性啊,先进是我们可以看到了hop two33会议公开了DTV1.0的架构了,不过现在都2023年了,我们现在还看不到任何关于随员的新的内容,更多的是把两年前的上一代要退市的产品呢,现在已经不再量产了,拿出来搜一下,整体的诚意是不够的,所以它的一个技术的先进性,技术领先性呢,怎么成为追赶行业的佼佼者呢?还是甘于做腾讯云的MV的替代方呢?好了,今天我们跟大家去。
13:00
分享了四点内容,第一点呢就是随源科技,第二点呢,随源科技的产品的形态分开训练和推理,不过呢都集中在云端的训练和推理,接着我们看了一下d tu1.0的芯片的架构,里面的扣呢确实做的比一般的要大,而总监的带宽呢也相对应的比较宽。最后呢,我们打开了随缘科技在产品形态和技术先进性相关的一些思考,现在周敏会把所有的视频的一对一的全部都展开在这里面,每个视频都有详细的介绍哦,欢迎打开和吐槽,给我一键三连给我一键三连啊,谢谢各位,拜了个拜。
我来说两句