资料来源:《悦王智》的内容,作者塞缪尔·k·摩尔,谢谢。
llllll
深入学习的领域仍在变化。专家们意识到,如果芯片使用低精度数学方法来估计结果,神经网络可以用最少的能量来实现最大的计算。这特别适用于移动设备和其他功率受限设备。然而,一些任务,如训练神经网络,仍然需要高精度。IBM最近在IEEE的超大规模集成电路( VLSI )研讨会上展示了一个原型芯片,它在这两个方面都表现得非常好。
人工神经网络训练和网络功能执行(称为推理)之间的脱节需求一直是设计人工智能功能芯片的难点。IBM新的加速人工智能芯片可以达到公司所说的“比例精度”。也就是说,它可以对32位、16位甚至1位或2位进行训练和推理。
纽约约克镇高地研究中心的IBM项目负责人kailash Gopalakrishnan解释道:“你能做的最高精度训练是16次,而你能做的最高级推理是2次。芯片涵盖了迄今为止已知的最佳训练和最佳推理。"
芯片的这种能力源于两项创新,其目标是保持所有处理器组件的数据和运行。
古巴拉·克里斯纳姆说:“传统(芯片)结构的问题之一是进行深入学习的利用率非常低。“即使芯片具有非常高的峰值性能,它通常也只能使用20 %到30 %的资源来解决问题。IBM的目标是始终保持在90 %的水平,并将所有任务作为目标。
低利用率通常是由于芯片周围数据流的瓶颈。Gupala Cris South的团队提出了一种新的数据流系统,该系统可以加快从一个处理引擎到下一个处理引擎的数据传输,并且可以根据处理学习或推理任务以及不同的准确性来设置。
第二个创新是使用专门设计的“便笺簿”芯片进行存储。CPU或GPU上的传统缓存遵循一些适用于通用计算的规则,但是这将导致深度学习的延迟。例如,在某些情况下,高速缓存将数据块推送到计算机的主存储器。如果神经网络推理或学习过程仍然需要数据,系统必须等待数据被再次检索。
高速暂存区可以保持数据流经芯片的处理引擎,确保数据在正确的时间处于正确的位置。
所得芯片可以执行人工智能深度学习的三种主要方式——卷积神经网络( CNN )、多层感知器( MLP )和长期和短期记忆( LSTM )。这些技术在语音、视觉和自然语言处理中发挥着重要作用。典型的训练精度为16位,IBM的新芯片每秒可以执行1.5万亿次浮点运算。在以2位的最佳精度进行推理的情况下,每秒可以执行12万亿次。
gupala Cris Nam指出,由于芯片是使用先进的硅互补金属氧化物半导体( CMOS )技术( Grofond的14纳米技术)制造的,所有操作都集中在相对较小的区域。这一点很重要,因为正如他所说,“在许多应用中,成本受到规模的限制。"
随着越来越多的初创企业出现,大公司不断引进新的想法,IBM当然是越来越大的集团的一部分。尽管这些公司性质非凡,但有许多共同点。深度学习创业公司Mythic的首席技术官Dave Fick说:“这些解决方案基于特定的问题。”。“所以每个人都在寻找类似的解决方案是有道理的。“本报采访了mythic和其他初创公司,他们的目标是在2019年真正让顾客满意。
目前还没有关于这项技术何时可以在IBM Watson或其他形式上商业化的消息,但是IBM半导体研究副总裁Mukesh KHARE认为这项技术可以得到发展和改进。他说:“这只是冰山一角。"
领取专属 10元无门槛券
私享最新 技术干货