一个叫做Cerebras的创业公司已经成功了。在斯坦福大学举行的芯片会议上,Cerebras推出了一种独特的解决方案,用于深入学习,这是一个工程奇迹。
有太多的事情使Cerebras的解决方案是独一无二的,所以很难知道从哪里开始。Cerebras克服了许多设计、制造和包装方面的挑战,开发了一种叫做晶片规模引擎(WSE)的晶片规模解决方案。这意味着设计使用整个可用空间的硅片作为一个单一的芯片或平台。
大多数芯片是通过将10秒或100秒的芯片实例放置在一个晶片上然后将晶片切割成单个芯片而制成的。将整个晶片用作单个芯片已经尝试用于其它应用,但通常由于成本和产量问题而放弃。处理中最小的灰尘或缺陷可能导致芯片的一部分失效,并且通常导致整个芯片的故障。制造一个没有错误的整个晶片是不可能的,但是大脑中找到了一个解决它的方法。cerebraswse由84个处理块制成,类似于单个芯片,并且每个磁贴都具有冗余的处理器核、存储器和i/o。当磁贴的一部分出现故障时,会替换额外的功能。
第一个创新是在WSE的操作中。对于这样的大型管芯阵列,在功率和等待时间两者中都会低效,以在芯片上发送数据和指令。结果,在开发神经网络中使用的软件工具将紧密处理块集合在一起成为群集,然后在单个路径中通过芯片路由数据。该路径显示为随机迷宫,但优化使用整个芯片,同时实现最低延迟。
在神经网络的开发中,wse处理块与数据路径一起被聚在一起,以确保最大的性能和最低的后脑。
第二项创新是基板设计,以处理电源要求。与其他基于套接字的处理器不同,你不能有一个甚至几个电源连接器,因为就像路由数据一样,在巨大芯片上路由电源将是低效的,并且可能会造成热点的破坏。电源必须均匀地应用于晶圆片上的每一块处理瓷砖上。大脑通过一个特殊的基板,而不是通过基板上的路由模式,通过对每个瓷砖施加能量来实现这一点。把它想象成每个处理器都有单独的电源引脚。
第三个创新是冷却。整个15千瓦的芯片必须冷却,液体冷却是唯一可行的选择。然而,如果你在芯片上运行水或其他冷却剂,当它到达芯片的另一边时,流就会变热,可能会损坏芯片。大脑克服了这一挑战,它有一个有多个区域的冷却解决方案,每个区域都有自己的输入和输出水口。所以,它没有一个散热器,而是有多个散热器冷却芯片。
在这些工程创新的基础上,公司开发了新的可编程稀疏线性代数核心(SLAC),并对其进行了优化。SLAC跳过任何乘以零的函数,在降低功耗的同时,可以大大加快深度学习过程中矩阵的乘法速度。该公司还减少了内存堆栈,消除缓存,并将大量高速内存(18 GB的SRAM)靠近处理核心。所有这一切都与该公司所称的群通信结构相关联,这是一种具有25千兆带宽的2d网状结构,旨在适应处理器核心和瓷砖之间的需求,包括晶片上通常的模切面积。
大脑的解决方案是专为人工智能处理而设计的。因此,WSE将需要连接到一个或多个主机处理器。但其结果仍然是一台服务器,其数量相当于数千个ai加速器,全部封装在一个芯片中。虽然软件细节是有限的,但该公司表示,WSE确实支持TensorFlow和其他流行的软件框架。
由于该平台的设计,在时延、带宽、处理效率和体积等方面都具有一定的优势。根据大脑的说法,WSE比最大的GPU大56.7倍,有3000倍的片上存储器,有10,000倍的内存带宽,并且可以满足传统数据中心配置空间的1/50,有数千个服务器节点。该公司尚未讨论平台的可用性或估计成本。
公司专注于深度学习培训。有两种形式的人工智能处理。一种是人工神经网络的训练,它是通过多种深度学习技术和软件框架来完成的。人工智能处理的另一种形式是推理,即利用经过训练的神经网络进行判断或决策。大多数公司专注于推理处理,因为它将占人工智能处理的绝大部分。许多新进入的人工智能公司声称两者兼而有之。虽然同时进行训练和推理是可能的,但也存在着权衡性能和效率的问题。最有效的解决方案通常针对一个或另一个。
该公司选择了一条与同行完全不同的技术路线。正如Tirias的研究之前所指出的,我们看到在人工智能中有足够的空间用于不同的平台,因为没有两个工作负载是相同的。我们赞扬大脑冒着大胆的设计风险,将技术推向我们所认为的极限之外。大脑的解决方案是独特的,似乎非常适合训练非常大的数据集。然而,成本和数据中心的资源,特别是电力,将不得不考虑在目前的平台下的互联网公司、云服务提供商和企业客户。
领取专属 10元无门槛券
私享最新 技术干货