首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

460亿个晶体管!寒武纪首颗AI训练芯片量产

昨日,中关村示范区企业寒武纪宣布,思元290智能芯片及加速卡、玄思1000智能加速器量产落地后首次正式亮相。

思元290智能芯片是寒武纪的首颗训练芯片,采用7nm先进制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,全面支持AI训练、推理或混合型人工智能计算加速任务。

▲寒武纪首颗训练芯片思元290

目前,寒武纪思元290芯片及加速卡已与部分硬件完成适配,并已实现规模化出货。

芯片采用MLUv02扩展架构,峰值算力较上一代提升4倍

寒武纪训练产品线采用自适应精度训练方案,面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力,推动人工智能赋能产业升级。MLUv02架构为寒武纪MLU200全产品线共享,满足云、边、端三个场景的算力需求。

云端训练对AI算力的要求更为苛刻,因此寒武纪对思元290的MLUv02架构进行了多项扩展,包括业内领先的MLU-Link多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。

相比寒武纪思元270芯片,思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程,思元290可提供更优性能功耗比,以及多MLU系统的扩展能力。

▲MLU290的MLUv02架构进行了多项扩展

寒武纪首款训练智能加速卡MLU290-M5,搭载思元290智能芯片,采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link多芯互联技术,在350W的最大散热功耗下提供AI算力高达1024 TOPS(INT4)

▲寒武纪智能加速卡MLU290-M5规格

一台玄思1000计算单元可替代一个小型超算中心

寒武纪首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超过4100万亿次每秒(4.1 PetaOPS INT4)。一台玄思1000计算单元就足以替代一个小型传统超级计算中心。

玄思1000内置高带宽低延时的MLU-Link多芯互联技术,实现内部4颗思元290进行高速互联,同时打破服务器、紧耦合微集群(POD)与集群的传统数据中心横向扩展架构,实现AI算力计算中心级纵向扩展,满足高性能、高扩展性、灵活性、高鲁棒性的要求。

▲玄思1000是AI算力的高集成度平台,支持计算中心级纵向扩展。

并行通讯总带宽提升19倍,重新思考未来AIDC基础架构

近年来,AI算法模型的复杂程度高速增长,对算力和训练速度提出了更高的要求。为了构建更强大的计算平台,多芯片间的互联技术已成为市场刚需。

下一代人工智能计算中心(AIDC)要求更多智能芯片无缝协同、并行运行的同时,还能保持高计算效率,从而提供超级巨大的算力,以应对超大规模训练的需要。

对此,寒武纪重新思考了未来AIDC的基础架构,在玄思1000智能加速器内部和外部采用统一的MLU-Link多芯互联技术进行通讯,使得思元290智能芯片的互联范围可以从单机扩展到POD乃至整个计算中心。

▲思元290采用MLU-Link多芯互联技术进行互联,带宽、灵活性全面优于PCIe 3.0

寒武纪推出的MLU-Link多芯互联技术,首次搭载于寒武纪思元290芯片,每颗思元290的多芯互联总带宽高达600GB/s。该技术支持多颗思元芯片无缝互联,支持跨系统互联,将纵向扩展能力整合到整个AIDC,可端到端加速大型AI模型训练。

MLU-Link具备丰富的互联特性,突破PCIe带宽和互联的瓶颈,相比思元270芯片通过PCIe并行的通讯方式,带宽提高19倍。

▲思元290相较思元270并行通讯总带宽提升19倍

算力、算法、数据是人工智能发展的三大要素,随着这几年AI的逐步发展,算力的核心地位更为突出。人工智能技术落地于实际应用中需要芯片和硬件层面强大的算力支撑。算力已成为驱动AI产业化和产业AI化发展的关键要素。

下一代AIDC要求更多智能芯片无缝协同、并行运行的同时,还能保持高计算效率,从而提供超级巨大的算力,以应对超大规模训练的需要。寒武纪玄思1000智能加速器重新思考了未来AIDC的基础架构,在内部和外部采用统一的MLU-Link多芯互联技术进行通讯,使得思元290智能芯片的互联范围可以从单机扩展到POD乃至整个计算中心,重塑了基础架构。

▲玄思1000支持8个400G MLU-Link和2个200G网络接口,总带宽高达3600 Gbps,是传统异构服务器的2倍

▲POD内所有思元芯片通过MLU-Link全互联

除了标准配置的POD之外,在计算中心条件允许的前提下,通过MLU-Link多芯互联技术,可实现1024颗或更多思元290互联,不需要额外的网卡即可实现无缝加速。

寒武纪首颗训练芯片思元290智能芯片及加速卡、玄思1000智能加速器训练产品线的集中亮相,标志着寒武纪已建立“云边端一体、软硬件协同、训练推理融合”的新生态。

作为国内AI芯片第一股,寒武纪已于去年在科创板上市。未来,寒武纪将面向多样化的人工智能应用场景与需求,持续开展智能芯片及其基础系统软件的研发和产品化,为人工智能技术在各行业的广泛应用提供底层算力支撑。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210122A071FL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券