编辑 | 萝卜皮
基于机器学习的应用程序的大规模增长和摩尔定律的终结迫切需要重新设计计算平台。
麻省理工学院(MIT)的研究人员提出了 Lightning,这是第一个可重构的光子电子智能 NIC,用于服务实时深度神经网络推理请求。Lightning使用快速数据路径将流量从 NIC 馈送到光子域,而不会产生数字数据包处理和数据移动瓶颈。
为此,Lightning 利用了一种新颖的可重新配置的计数操作抽象,该抽象可以跟踪每个推理数据包所需的计算操作。该团队的计数动作抽象通过计算每个任务中的操作数量来将计算控制平面与数据平面解耦,并在不中断数据流的情况下触发下一个任务的执行。
他们使用四个平台评估 Lightning 的性能:原型、芯片综合、仿真和模拟。该团队的原型展示了以 99.25% 的准确度执行 8 位光子乘法累加运算的可行性。
目前,该原型是频率最高的光子计算系统,能够以 4.055 GHz 端到端的频率提供实时推理查询。该团队对大型 DNN 模型的模拟表明,与 Nvidia A100 GPU、A100X DPU 和 Brainwave smartNIC 相比,Lightning 将平均推理服务时间加快了 337 倍、329 倍和 42 倍,同时消耗的能量分别减少了 352 倍、419 倍和 54 倍。
该研究以「Lightning: A Reconfigurable Photonic-Electronic SmartNIC for Fast and Energy-Efficient Inference」为题,于 2023 年 9 月收录在《ACM SIGCOMM 2023 Conference》。
计算正处于拐点。摩尔定律预测电子芯片上的晶体管数量大约每两年就会增加一倍,但由于在经济实惠的微芯片上安装更多晶体管的物理限制,摩尔定律的速度正在放缓。随着对能够支持日益复杂的人工智能模型的高性能计算机的需求不断增长,计算机能力的增长正在放缓。
这种不便促使工程师们探索新的方法来扩展机器的计算能力,但解决方案仍不清楚。
光子计算是满足机器学习模型不断增长的计算需求的一种潜在补救措施。这些系统不使用晶体管和电线,而是利用光子(微观光粒子)在模拟域中执行计算操作。
激光产生这些小能量束,它们以光速移动,就像科幻电影中以超速飞行的宇宙飞船一样。当光子计算核心添加到网络接口卡(NIC 及其增强版 SmartNIC)等可编程加速器中时,可以插入生成的硬件来为标准计算机提供涡轮增压。
麻省理工学院的研究人员现在已经利用光子学的潜力,通过展示其在机器学习方面的能力来加速现代计算。
他们的光子-电子可重构 SmartNIC 被称为 「Lightning 」,可帮助深度神经网络(模仿大脑如何处理信息的机器学习模型)完成推理任务,例如 ChatGPT 等聊天机器人中的图像识别和语言生成。该原型的新颖设计实现了令人印象深刻的速度,创建了第一个光子计算系统来服务实时机器学习推理请求。
尽管具有潜力,但实现光子计算设备的一个主要挑战是它们是无源的,这意味着它们与电子设备不同,缺乏控制数据流的内存或指令。以前的光子计算系统面临这个瓶颈,但 Lightning 消除了这个障碍,确保电子和光子组件之间的数据移动顺利进行。
「光子计算在加速矩阵乘法等庞大的线性计算任务方面表现出了显著的优势,同时它需要电子设备来处理其余的事情:内存访问、非线性计算和条件逻辑。这会产生大量数据在光子学和电子学之间交换,以完成现实世界的计算任务,例如机器学习推理请求。」Zhizhen Zhong 说道,他是麻省理工学院副教授 Manya Ghobadi 团队的博士后。
「控制光子学和电子学之间的数据流是过去最先进的光子计算工作的致命弱点。即使你拥有超快的光子计算机,你也需要足够的数据来为其提供动力而不会出现停顿。否则,你的超级计算机就会闲置而不会进行任何合理的计算。」
麻省理工学院副教授、CSAIL 成员 Ghobadi 团队第一个发现并解决了这个问题。他们将光子学的速度和电子计算机的数据流控制能力结合起来。在 Lightning 出现之前,光子和电子计算方案独立运行,使用不同的语言。该团队的混合系统使用可重新配置的计数动作抽象来跟踪数据路径上所需的计算操作,该抽象将光子学与计算机的电子组件连接起来。
这种编程抽象充当两者之间的统一语言,控制对经过的数据流的访问。电子携带的信息被转化为光子形式的光,光子以光速工作以协助完成推理任务。然后,光子被转换回电子,将信息传递给计算机。
通过将光子学与电子学无缝连接,新颖的计数动作抽象使Lightning的快速实时计算频率成为可能。之前的尝试使用了走走停停的方法,这意味着数据将受到慢得多的控制软件的阻碍,该软件做出有关其运动的所有决定。
「在没有计数动作编程抽象的情况下构建光子计算系统就像在不知道如何驾驶的情况下试图驾驶兰博基尼一样。」该论文的通讯作者 Ghobadi 说,「你会怎么做?你可能一只手拿着一本驾驶手册,然后踩下离合器,然后检查手册,然后松开刹车,然后检查手册,等等。这是一个走走停停的操作,因为对于每一个决定,你都必须咨询一些更高级别的实体来告诉你该怎么做。」
「但这不是我们开车的方式;我们学习如何驾驶,然后使用肌肉记忆,而不需要检查方向盘后面的手册或驾驶规则。我们的计数动作编程抽象充当Lightning中的肌肉记忆。它在运行时无缝地驱动系统中的电子和光子。」
环保的解决方案
完成基于推理的任务的机器学习服务(例如 ChatGPT 和 BERT)目前需要大量计算资源。它们不仅价格昂贵(据估计,ChatGPT 每月需要 300 万美元才能运行),而且对环境也有害,可能排放出普通人两倍以上的二氧化碳。Lightning使用的光子比电线中的电子移动得更快,同时产生的热量更少,使其能够以更快的频率进行计算,同时更加节能。
为了衡量这一点,Ghobadi 小组通过合成Lightning芯片将他们的设备与标准图形处理单元、数据处理单元、SmartNIC 和其他加速器进行了比较。该团队观察到,Lightning在完成推理请求时更加节能。
「我们的综合和模拟研究表明,与最先进的加速器相比,Lightning将机器学习推理功耗降低了几个数量级。」Ghobadi 实验室的研究生、该论文的合著者 Mingran Yang 说。作为一种更具成本效益、更快速的选择,Lightning为数据中心提供了潜在的升级,以减少机器学习模型的碳足迹,同时加快用户的推理响应时间。
论文链接:https://dl.acm.org/doi/10.1145/3603269.3604821
相关报道:https://techxplore.com/news/2023-09-combines-electrons-faster-greener.html
领取专属 10元无门槛券
私享最新 技术干货