00:00
爸爸,爸爸贫穷限制了我的想象,但是没有限制我的体重,大家好,我是周米,今天呢我们还是在AI芯片这个系列,不过今天我要给大家讲讲不一样的东西,看看我们国内的AI芯片,碧焰科技的芯片剖析,要讲到B科技这个事情呢,就非常有意思了,不过呢,我们现在呢,首先回到整体的课程系列里面去回顾一下我们现在处于AI专用处理器里面具体细节的国内外AI芯片,那这里面呢,我就会给大家一起去分享一些国内的其他厂商,例如面科技,寒武纪,随缘,还有关于AI芯片架构的最后的一些思考。那打开我们的B科技之后呢,我今天呢会分开两节内容跟大家一起去汇报和交流,那首先就是什么是BNBN科技到底是什么?接着呢,我们去看看BN的产品的形态,这里面呢,主要是指BN100和。
01:00
B104,那在第二个视频里面呢,我就会给大家去介绍下面BN100里面的一些芯片的架构,还具体的思考,现在我们来到了第一个内容,看看什么是必应,首先呢,BN科技我觉得它属于国内的AI芯片的创业公司,自称自己是GPGPU或者GPU的公司呢,我觉得从它的架构来看呢,其实并不是那么一回事,更多的是集中于在AI领域的芯片的创新。那现在呢,我们看一下变科技的一个企业的slogan,它的目标呢,是成为世界领先的智能计算系统企业,现在呢,我们打开变科技的官网来去看看它具体的发展历程,针对变科技呢,它这里面呢,就有公司介绍,企业文化,最重要的我关心它的发展历程,特别是它的融资记录,从2019年九月份成立以来呢,再到2020年六月份的时候,完成了A轮的融资,融资的金额超过了11亿人民币,非常的大。而2020年呢,完成。
02:00
的融资,累计的融资金额呢,超过了20亿人民币,估计呢也就融了10亿左右了,再到2021年三月份呢,完成了B轮的融积,不过呢,很有意思的一个点呢,应该是2023年的二月份到三月份呢,那个时候B科技呢就发布了B100,不过呢,很有意思的一个点呢,就是2023年二月份到三月份的时候呢,科技呢发布了B100之呢,第二天全网都下架了B100的相关的信息,是因为B科技呢确实太过于耀眼了,于是呢,美国呢就对它进行了打击,镜子台积电呢给BN科技进行一个代工,于是呢,BN100呢,应该现在来说啊,成为了整个坊间的一个传说,也就是它只有一个PPT,再也没有它的产品了。那现在呢,我们回到我们的PPT里面,影子里面呢,有一张图还是比较有意思的,也是B科技流出来的一个整体的BR100,还有BR100封装好的P啊,我也不知道他为啥叫P啊,反正他的名字起的很奇怪,不过没关系,我们现在的机他没有下一代的计划,或者他有下代的计划,但是呢,为了不被美国打压,所以他没有对外公布,那接下来我们整体的去看一看避焰科技的一个产品的具体的形态,在P科技产品形态里面呢,主要有两种,第一种呢是BR104,第二种呢是BR100,那我们更多的是集中在B100里面,那B100呢,它虽然呢的是通用的GPU芯片呢,不过我们后面呢,会解释为什么米认为它不是所谓的通用GPU芯片,更多的就是一个AI芯片,那接着呢,我们看一下它主打的就是官网的一些主要的特性,第一个非常重要的就是超过1000T的BF16的一个数据的格式和算,这个呢,就是用了P15。
03:44
DX先进的接口系统,第三点就是浮点和总数运行支持的数据格式比较多,那我觉得这一点呢,应该不属于比较出彩的一个点,因为很多芯片或者很多AI企业呢都是支持的。那第三点呢,就是七纳米和chi lap的封装,这个呢也不属于它自己的先进的一些技术啊,更多的是台积电它自己有的,但是现在台积电又不给你代工,所以我所以觉得这一点没什么好拿出来吹的。第五点就是b linknk这个先进的互联系统,这一点我觉得是比较独特的。最后一点就是最高支持八份的一个虚拟的实力,类似于GPU的s mi,所以中米觉得这里面比较有意思的几个点就是我们后面会重点打开的,主要是它的计算能力,或者它的算力的峰值是我们的BF16,我们要重点打开研究一下,第二个呢,就是它的b linknk先进的互联系统,它的互联的方式到底好还是不好,既然我们能看到左边的这个产品的形态,我们打开这块产品B100看看它具体里面呢?
04:44
也就把两片新力封装在一块基板上面,那这种呢,叫做双带尔的封装,里面呢有个很有意思的就是HBM呢,距离我们的或者距离我们的计算芯片非常的近,然后呢,整体封装在一起,形成了我们刚才看到的这么一块芯片呢,那这块芯片呢,还是非常的大,十厘米乘十厘米,也就是半个手掌那么大了,下面我们打开看看P雳100,那刚才讲到的是B100,就是里面的这块芯片里面的一些参数呢,更重要的就是峰值的性能超过1024TX的PF16,注意哦,是BF16,而不是PF16,我们常用的BF16是没有了,变科技呢,现在基本上就是OBF16,这个信息呢,还是非常的值得一起去探讨的,接着我们看一下第二个重要的事情,就刚才讲到的互联,互联里面用了b link,也就是变科机自己研发的一个协议,超过了512GB每秒的互联的带宽。
05:44
总体的功耗是在550瓦,对于BI100的整体的制成是在七拉米拥有有77B,也就是771个晶体管,那整体的功耗呢,应该不算是非常的高,我觉得这个功耗呢还是能够接受的,而且机房改造起来的时候呢,应该也算比较好改造的,现在我们回到BN里面的一些相关的产品系列,霹雳100P,我总感觉它的这个名字呢有点拗口啊,没关系,P雳100P呢,整体的产品形态为OAM的一个模组,也就是我们刚才看到的一块机板的芯片呢,多了一个散热器,用命的一个名字叫做100P,不过呢,很有意思的一点呢,就是这上面的所有的代工呢,都不是他自己做的,PD或者B呢,主要是做一个产品的设计,然后呢,交给台积电去做芯片的流片和具体的封装,那封装完之后呢,基板是找第三方厂商代工的,最后基于OAM模组之上构建好整个散热板呢,这也是找其他OEM厂商进行代工,也就是它主要是专注于设计。那现在呢,我们。
06:44
能去讲讲其他额外的话题,什么是OAMO,就是OCP的model,也就是OCP的一个开放的加速模组,这个时候又问什么是OCP呢?我们在操后的内容里面呢,会继续打开,那首先我们看看什么是OCP的一个开放模组,我们现在呢,主要是关注于开放的加速模组,它的目的呢有两个,那第一个呢,是提供一个基本的框架,不同的AI芯片的供应商,例如B呢,随缘,还有武器,这些O厂商呢,可以在同一个系统里面去使用,也就是不管你来的是哪个厂商,我都可以把它封装成这么一种形态,所以大家看上去差不多。第二个呢,就是提供一个完整的参考设计,使得重新去设计我们整个基板和上面的一个散热片呢,比较简单,大家都有统一的模式,非常好的去装到一台整机里面,那具体的内容呢,就涉及到下面,可能我自己都不太清楚了,例如提供地板的平台散热器加层定位箱,小到包括螺丝的安装管,还有底板emi的垫圈。
07:44
还有pcp版等相关的标准,那注意的就是标准两个字,这里面的OAM模组,也就是开放加速模组呢,更多的是指提供一系列的标准,具体我们可以简单的看看下面提供的几个图,那下面就是OAM就是OCB开放模组的一些简单的定义,开源项目里面呢,看到它是有非常非常多的规定的,这里面包括我们的螺丝孔应该打多大,螺丝孔的位置都在哪,都有一一的介绍和规范。整体的形态就是把八个PD100P呢封装起来,变成一块整体的大的,基本上面构建的八个GPU累加起来,或者八个GPU累加起来,这里面的官网就宣称了,或者有几个比较拗口的字,就是这个模组呢,基于OCPUBBV1.0的标准去开发,搭载了8PD100P通用的GPU,那下面呢,有两个新的词,第一个呢,就是我们刚才讲到的什么是OCA,那中间呢,还有infrastructure,就是开放的计算的项目。
08:44
第二个呢,就是UBBUBB比较好理解啊,统一的基板,统一只基呢,就是下面我们这一块基板去承载我们八个GPU的,不管是OCP,开放的算项目也好呢,还是VB整体的统一呢,最重要的就是为了让开源的技术A的芯片呢,能够更好的推广到我们整体的产业链当中,让我们的产业链上下游更好的去配合,而不是每个厂商都有自己的标准呢,这个时候的我们的机房的改造啊,我们的芯片的试剂啊,我们的机板的试剂啊,我们的三芯片的试剂啊,都会重新的去试计,所以呢,避免这个重复冗余的工作呢,产业呢就结合起来形成了一个联盟,也就是我们的开放计算项目,更好的统一了AI芯片之上的一些其他相关的模组的产业形态,最后的成品呢,就变成一个独立的服务器,这里面呢,叫做凯旋服务器,我也不知道为什么不叫P力或者P什么其他开头的服务器啊,而叫旋,如果明白的同事呢,也非常迎他来弹幕,那这里面呢,就说搭载了八个P100P的OAM,整体的模组呢,组装成为一个主机,服务器呢,就像左边的这个。
09:44
左示啊,这个是炫染托,不是实例图啊,大家值得注意,那右边呢,就是整体的它的一个互的架构,刚好放了八款BR100,八个BR100之间呢,进行了一个互,也就是所谓的ma,那从这个ma看呢,每芯片呢提供了的,而这里面呢,每芯片又通了P连到CPU上面,这里面有非常多的ni CIC,对应的就是我们千兆网的网卡的芯片,Interface controller,刚才讲到的一个系列呢,都是基于B100去做一个封装,形成一个整体的海旋的服务器,现在我们看一下BI104到底有什么区别啊,BI104呢,实际上呢,只有左边的这么一块单心力去做一个整体的封装的,然后形成一个具体的产品,整体的产品形态呢,有点类似于英伟达的一个3D90系列的这么一块显卡,那具体我们可以看一下,这块显卡里面呢,有一个很有意思的就是下面这块模组,这里面呢,就直接使用pcie直接插在我们的主板上面,最多呢我们的主板上面可以支持八块这样的P。
10:44
百04插在上面很有意思的就是我们看一下它的风值的性能,比刚才的呃,1024的tlos呢,是少了非常的多,也就少了一半呢,直接因为它只有半个新力,所以说这里面只有512TFOX的BF16的算力,在整个视频的最后呢,我们去看一下PD100,还有英伟达的A版和H100整体的一个差别,首先呢,我觉得非常重要的就是它的算力的差别,我们我们去看一看编译版里面呢,就提供了102T的主要是BF16,但是呢,同期他说他支持非常多的数据类型,我倒不这么去认为,他更多的就是于BF16还有TF30候提出的自己的独立的架构,那这里面呢,我们后面会介绍这里面的好处和坏处,因为当我们现在能够大量的去买到的或者用到的,呃,至少现在来说大模型起来之后,被抢断货的A版呢,提供的是310XB16 312XFP10,另外还支持对卡的156TXT30,它还支持FP30P10。
11:44
等各种各样的类型,当然了,这里面的峰值的算力确实没有变得高,但是呢,毕然说它是全球首个支持1024,我觉得就有点过于吹牛了,因为在2022年也是同期的时候呢,然它其实在早期已经发布了它的H100的整体的形态里面的算力是非常非常的夸张,就像一台猛兽到了2000T的BF16,另外还提供了1000T的TF32,另外的话就是IP30 ip16,所以周米觉得呢,BR100这个产品形态呢,不是对标MV的一,也不是对标MV的一,更多是一个中间的形态,下面呢,我们看看它主要另外的两个参数,我们的算更多是由我们的通用的计算的核心数,还有AI的计算核心数里面去确定的,那整体的通用的核心数呢,在编里面呢,我们叫做也就是流处理器,一共有8000多个,英伟达里面呢,有6000多个,在H1版里面呢,一共有15000多个,所以说英伟达的H1版是非常的非常的夸张,另外的话,AI的计算数呢。
12:44
它有512个T扣啊,这面T扣我觉得它的命名呢,还是跟英伟达非常的像的,英伟达叫扣,他的呢就取名呢,改了一个T扣,我觉得没必要去做一个简写啊,你就叫样看就好了,不过呢,因为这一次视频呢,更多的是关注于产品的形态,所以我们可以看到它的发布的时间,大家一起去view一下,编辑版呢是在2022年发布的,但是2023年具体真正发布之后呢,把所有的宣传稿全都撤了,就我觉得它现在能不能够量产到2025年能不能够在市面上推出,这是一个非常大的疑问和考虑。那接着第二个点呢,就是在英伟达A100呢,它虽然对标于上一代的产品,或者说比上代产品要好,英伟达呢,在AI这个下载刀上呢,已经做到世界第一了,A100的这产品呢,是2020年推出的,2021年就已经成功的去量产,大规模的出货,H1呢也是在202年推出的,2023年这个时候呢,其实已经陆续的有厂商慢慢的收到H1具体的产品,所以说呢,BM我觉得未来的路呢,还是有非常的长的,接下来我们看一下最后的一个内容。
13:44
这是BM的一个整体的软件平台,那这里面呢,我们简单的过一下,BM的软件平台,就我们刚才讲到的很多的产品形台之上呢,构建了它自己的编程体系,接着呢去对接了不同的AI的框架,所以说自里面呢,更多的是VAI服务,而不是通用的GPU,他说他自己是个通用GPU呢,这个时候呢的成分呢,可能就稍微多了一点,不过呢,它的软件如果起来确实也可以支持很多HC的一些软件系统,那下面呢,我们整体来看一下,呃,A版的产品的架构呢,长这个样子,B版的产品架构呢,这个样子,大家看起来常的里面呢有非常多的S,里面呢有非常的GP,里面呢有非常多的S具体的计算,所以它整体的产品形态呢非常的类似,于是呢,基于这么类似的产形概念呢,B呢就提出了类GPU的架构,可以提供相类似S的编程的方式,也是可以仿造英伟达做类似于的编程,这里面呢,这一我觉得没啥好介绍的,就他说他自己有些核心的SDK呢,加速库。
14:44
的工具及,那更多的是提供一些C和C加加的编程的支持,也就是说BCC或者super这个编程模式呢,可以无缝的对接到英伟达库达,那这个时候我就提出了一些简单的小疑问,关于它的软件生态,首先呢,库塔让你兼容了吗?为什么AMD、苹果TPU包括的T都没有去做这个事情,是因为谷歌AMD的工程师没有意识到生态非常非常的庞大吗?为什么不去对它,或者不做一个类似的呢?就你觉得更多的是因为达它有非常丰富的专利墙,你没有办法完全去兼容它,或者像它类似,因为库达它不开源的,但是它足够的优秀,让你觉得使用库达呢,去控制英伟达的芯片,能够写出非常好的并行的程序,并呢在软件生态里面呢,去模仿,去超袭,包括从硬件,他能够要开英伟达的专利吗?他未来能走大吗?我觉得因为这个点呢,他被美国一告就基本上就狙击了,要。
15:44
接着呢,就回到了中米的第二个问题,它的产品化,那目前大部分国产的AI芯片和GPU芯片呢,主要是停留在小规模的攻破,或者PPT的官宣中,也非常的关心,就是变科技什么时候才能产品化,规模化的出破,让我也感受使用一下BI100。另外的话,嗯,有一点就是我个人的提出了,呃,这个疑问呢,可能是台积电才能回答,也就是TSMC里面在两这两块新力的封装的良率到底是多少,这就决定了我们B100的成本。那最后一个疑问呢,就是美国禁止代工的问题,这个怎么去解决,我觉得这个问题也不应该由BN来去回答,而是我们的国内厂商怎么去打破这么一个尴尬的局面,包括华为也是。今天的内容呢,就到此为止了,我们简单的去看了一下,什么是变科技,变科技的产品形态,有它的软件平台,最后呢,对这个产品商软件平台呢,呃,做出了一些简单的思考,也希望大家去多多指正,那在下一个内容里面呢,我们就会详细的去打开B版的。
16:45
芯片的整体架构,虽然它不能留片,或者现在它的产品呢是遇到一些困难,但是我觉得去打开编里面的芯片架构去思考,是非常有助于我们对整个芯片或者对我们的AI芯片相关的架构呢,有个比较好的帮助的思考,和对未来AI芯片的一个眼镜的思考,卷的不行呢?卷的不行呢,记得一键三连加关注哦,所有的内容都会开源在下面这条链接里面。
17:09
拜了个拜。
我来说两句