本文由腾讯数码独家发布
考虑到未来的 AI 需要极大的扩张人工智能的计算规模,最近 IBM 公司的 AI 研究小组展开了新的研发项目,他们基于同样精度的图形处理单元(GPU)系统,向公众演示了一项由大型模拟存储器设备矩阵训练而成的 DNN 深度神经网络技术,而作为 AI 研发项目中必要的硬件加速器,这同时也是 IBM 公司为其通向下个 AI 技术突破点的重要一步。
通过在硅中构建深度神经网络系统,AI 的计算性能将会大大突破GPU 的极限,在功耗节约百倍的同时也能让 AI 的计算和学习速度提升百倍以上,而这项技术可以应用于智能手机上的高级定制化人工智能来帮助用户呈现实时信息,或者让超级计算机的计算和功效节约性能提升上百倍。
IBM 表示,由于传统的二进制现代计算机都有着与身俱来的精度限制,DNN深度神经网络相比传统的 GPU或者其他电子加速器,无论在云端还是在设备终端上,其数据处理和传输能力都有突破性的提升,AI 研发人员也发现,即使是在数字精度远远低于计算机程序需要的最低水平,DNN模拟技术也能很好的运作。
不过到目前为止,还没有人能最终证明这种模拟技术能与当今运行在传统数字硬件上的软件一样,实现的同样的应用效果,那么DNN 深度神经网络真的可以代替传统方法,实现同样的高精度吗?如果精度能力总是达不到,那么DNN即使表现出更快和更节能的优越性,但还是意义不大。
在 IBM 提交的研发论文中,他们描述了模拟非易失性存储器(NVM)是如何在各种 AI 领域内有效加速“反向传播”算法的,这些存储器允许通过这些算法使用“乘法累加”运算在模拟数据域中实现并行化,他们代替了由大量电流汇集来增加电子数字集合的传统方式,而是用一个个小电流通过电阻器进入线圈,然后将许多这样的线圈连接在一起然后让电流上升实现同样的效果。
这使得它们可以同时执行多种运算,而不需要每个运算完成后才进行下一个,更不需要在数字存储芯片和处理芯片之间的长途旅行中传输大量的数字数据,而直接在模拟存储器芯片内部完成所有计算。不过由于目前模拟存储器器件固有的各种缺陷,先前直接在真实NVM器件大阵列上执行DNN训练还不能达到达到与传统软件训练网络匹配的相同精度。
不过通过将相变存储器(PCM)器件中的长期存储、传统互补金属氧化物半导体(CMOS)电容器的近线性更新和消除器件到器件可变性的新技术相结合,我们也可以优化这些缺陷,最终让DNN实现和软件系统等效的精准性,并提供更快处理速度和更低的功耗,而IBM 的这些实验还使用了硬件和软件的混合作用,结合易于精确建模的系统元件(如CMOS器件)的软件模拟系统以及PCM设备的全硬件共同实现。
鉴于这些令人鼓舞的结果,IBM 也已经开始探索原型硬件加速器芯片的设计工作,并纳入其前沿研究项目的一部分,而对用来进行训练完全连接层的NVM的芯片,他们也已经开始在计算能量效率(28065 GOP/SEC/W)和单区域吞吐量(3.6 TOP/SEC/MM2)两个方面初步估计其性能潜力,最终的测试结果发现这些数值已经超过了当今GPU规格的两个数量级。
领取专属 10元无门槛券
私享最新 技术干货