AI芯片哪家强?现在,有直接的对比与参考了。
英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片。
并给出了各个指标的横向对比,也是目前对AI训练芯片最新的讨论与梳理。
其中,华为昇腾910是中国芯片厂商唯一入选的芯片,其性能如何,也在这一对比中有了展现。
△ *代表推测,†代表单芯片数据。
Cerebras Wafer-Scale Engine
这一芯片于今年8月份正式面世,名为“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。
其最大的特征是将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。
一举创下4项世界纪录:
之所以能够有如此亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值性能表现为40 Tera FLOPs,芯片功率达15千瓦,与AI集群相当。
片上缓存也达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。
晶片规模集成,并不是一个新的想法,但产量、功率传输和热膨胀相关的问题使其很难商业化。在这些方面,Cerebras都给出了相应的解决办法:
Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创立。后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。
该公司在加州有194名员工,其中包括173名工程师,迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。
拓展阅读:
史上最大AI芯片诞生:462平方厘米、40万核心、1.2万亿晶体管,创下4项世界纪录
Google TPU(v1、v2、v3)
Google TPU系列芯片正式发布于2016年,第一代芯片TPU v1只用于推理,而且只支持整数运算。
通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数,从而为主机CPU提供加速,节省了大量的设计和验证时间。其主要数据为:
IO数据:
2017年5月,Google TPU v2发布,改进了TPU v1的浮点运算能力,并增强了其内存容量、带宽以及HBM 集成内存,不仅能够用于推理,也能够用于训练。其单个芯片的数据如下:
单核数据:
IO数据:
Google TPU v2发布一年之后,Google再度发布新版芯片——TPU v3。
但关于TPU v3的细节很少,很可能只是对TPU v2一个渐进式改版,性能表现翻倍,增加了HBM2内存使容量和带宽翻倍。其单个芯片的数据如下:
IO数据:
拓展阅读:
想了解TPU 3.0?Jeff Dean推荐看看这段视频
Graphcore IPU
Graphcore成立于成立于2016年,不仅备受资本和业界巨头的青睐,还颇受业内大佬的认可。
2018年12月,宣布完成2亿美元的D轮融资,估值17亿美元。投资方有宝马、微软等业界巨头,还有著名的风投公司Sofina、Atomico等。
AI巨头Hinton、DeepMind创始人哈萨比斯,都直接表达了赞美。
Graphcore IPU是这家公司的明星产品,其架构与大量具有小内存的简单处理器高度并行,通过一个高带宽的“交换”互连连接在一起。
其架构在一个大容量同步并行(BSP)模型下运行,程序的执行按照一系列计算和交换阶段进行。同步用于确保所有进程准备好开始交换。
BSP模型是一个强大的编程抽象,用于排除并发性风险,并且BSP的执行,允许计算和交换阶段充分利用芯片的能源,从而更好地控制功耗。可以通过链接10个IPU间链路来建立更大的IPU芯片系统。其核心数据如下:
IO数据:
单核数据:
拓展阅读:
成立两年估值17亿美元,这家Hinton点赞的AI芯片公司获宝马微软投资
Habana Labs Gaudi
Habana Labs同样成立于2016年,是一家以色列AI芯片公司。
2018年11月,完成7500万美元的B轮募资,总募资约1.2亿美元。
Gaudi芯片于今年6月亮相,直接对标英伟达的V100。
其整体的设计,与GPU也有相似之处,尤其是更多的SIMD并行性和HBM2内存。
芯片集成了10个100G 以太网链路,支持远程直接内存访问(RDMA)。与英伟达的NVLink或OpenCAPI相比,这种数据传输功能允许使用商用网络设备构建大型系统。其核心数据如下:
TPC核心数据:
IO数据:
Huawei Ascend 910
华为昇腾910,同样直接对标英伟达V100,于今年8月份正式商用,号称业内算力最强的AI训练芯片。主打深度学习的训练场景,主要客户面向AI数据科学家和工程师。
其核心数据为:
互联和IO数据:
单个达芬奇内核数据:
拓展阅读:
华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架,对标TensorFlow和PyTorch
Intel NNP-T
这是Xeon Phi之后,英特尔再次进军AI训练芯片,历时4年,壕购4家创业公司,花费超过5亿美元,在今年8月份发布。
神经网络训练处理器NNP-T中的“T”指Train,也就是说这款芯片用于AI推理,处理器代号为Spring Crest。
NNP-T将由英特尔的竞争对手台积电(TSMC)制造,采用16nm FF+工艺。
NNP-T有270亿个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包含24个张量处理器组成的网格。
核心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它使用x16 PCIe 4接口,TDP为150~250W。
每个张量处理单元都有一个微控制器,用于指导是数学协处理器的运算,还可以通过定制的微控制器指令进行扩展。
NNP-T支持3大主流机器学习框架:TensorFlow、PyTorch、PaddlePaddle,还支持C++ 深度学习软件库、编译器nGraph。
在算力方面,芯片最高可以达到每秒119万亿次操作(119TOPS),但是英特尔并未透露是在INT8还是INT4上的算力。
作为对比,英伟达Tesla T4在INT8上算力为130TOPS,在INT4上为260TOPS。
拓展阅读:
英特尔首款AI芯片终于发布:训练推理两用,历时4年花费5亿美元买来4家公司
英伟达Volta架构芯片
英伟达Volta,2017年5月公布,从 Pascal 架构中引入了张量核、 HBM2和 NVLink 2.0。
英伟达V100芯片就是基于此架构的首款GPU芯片,其核心数据为:
IO数据:
英伟达Turing架构芯片
Turing架构是对Volta架构的升级,于2018年9月发布,但 CUDA 和张量核更少。
因此,它的尺寸更小,功率也更低。除了机器学习任务,它还被设计用来执行实时射线追踪。其核心数据为:
IO数据:
参考来源:
https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
领取专属 10元无门槛券
私享最新 技术干货