
近年来生成式 AI 的突然崛起,推动全球超大规模 AI 集群以前所未有的速度部署。随着摩尔定律放缓,性能提升只能通过并行计算实现,这使得数据处理和 / 或传输的性能提升必然导致能耗增加。也就是说,AI 基础设施的快速扩张引发了严峻的能源危机。
如图1所示,只要数据量持续呈指数级增长,所需的能源供应量也将呈指数级上升。从这个意义而言,解决这一能源问题的唯一有效途径,是实现一种能让能源增长与数据增长脱钩的技术。

光子学具有巨大潜力,因为光波的传播与干涉过程不消耗能量,因此可通过工程设计实现功能扩展而不增加能耗。硅光子技术在过去二十年间得到了广泛发展,如今已完全有能力提供一个近乎理想的平台,以释放这一巨大潜力。事实上,硅光子技术的核心价值体现在三大维度:高密度互连技术支撑高带宽、长距离数据传输;低能耗光路切换突破信号带宽限制;光子神经网络(PNNs)以光速运算加速 AI 计算过程。
AIST的邀请报告综述了这些光子技术的发展趋势与最新进展,以及日本产业技术综合研究所(AIST)的相关研究成果。同时将论证,要让这些光子技术成为 AI 时代可持续基础设施的重要组成部分,硬件与软件、电子学与光子学必须以互补的方式协同发展。
图 2 展示了超大规模数据中心中常用的光收发器与电交换机ASIC的能耗效率(单位:pJ/bit)随年份的变化趋势。通过对比光收发器的发展趋势发现,交换机 ASIC 的能耗缩放性能不及光收发器,这表明瓶颈在于交换机而非收发器。

令人意外的是,光收发器的能耗效率提升已追平摩尔定律的步伐,基于硅光子的近封装 / 共封装光学器件已实现低于 5 皮焦 / 比特的能效;而交换机 ASIC 的能效提升则显著滞后。事实上,ASIC 交换机的功耗随吞吐量增加而上升,当吞吐量达到 100 Tbps时,单芯片功耗已超过 1000 W;与之相反,光交换机的功耗始终保持极低且恒定,不受吞吐量增长影响(图 3)。因此,越多地采用光交换替代电交换机,系统能效就越高。以下将讨论相关实际应用问题。

光交换机的关键缺陷在于不具备交换机 ASIC 的核心功能 —— 分组处理能力。光交换机仅能作为 “光路由交换(OCS)” 工作,因此无法直接替代交换机 ASIC。要控制光电路交换机(OCS),需要一个控制平面,同时编排器或操作系统需实时掌握光电路交换机(OCS)的状态,并根据系统需求通过控制平面发送指令以精准控制光交换机。
此类系统与依赖交换机 ASIC 的传统分组交换系统存在显著差异,因此采用光电路交换机(OCS)需要从零开始重构整个系统,并进行架构的整体优化。目前全球范围内,仅有谷歌具备此类系统重构能力。谷歌报告称其已在数据中心和 AI 基础设施 中大规模部署光电路交换机(OCS)后,光交换技术开始得到广泛研发。
早在谷歌光电路交换机(OCS)系统落地前,AIST 就已启动大规模硅光子交换机的研发工作。图 4 展示了 AIST 开发的硅光子交换板。该交换机支持 32×32 严格无阻塞连接,配备数字控制接口,通过配置 9 级 Clos 网络可扩展至 131072×131072 的超大容量。在可组合解聚基础设施中,这些交换机已被证实能将网络功耗降低 75%。

这些大规模硅光子交换机的制造依托于 AIST 自主的中试生产线,该生产线基于 45 nm工艺规则的标准 CMOS 技术,具备足够高的均匀性和良率,能够批量生产集成数千个器件(如马赫 - 曾德尔干涉仪(MZIs))的大规模光子集成电路。
基于标准 CMOS 制造技术的硅光子学所具备的高均匀性和高良率,是实现光子神经网络(PNNs)的关键前提。光子神经网络(PNNs)通过集成大量马赫 - 曾德尔干涉仪(MZIs)构建网格拓扑结构,在光域直接执行矩阵 - 向量乘法(MVM)运算。光子神经网络(PNNs)上的矩阵 - 向量乘法(MVM)运算本身具有光速特性且不消耗能量,可承担 AI 计算的重要部分。因此,光子神经网络(PNNs)被寄予厚望,有望减轻图形处理器(GPU)等高能耗数字处理器的负载。
然而,光子神经网络(PNNs)缺乏 AI 计算中另一项重要功能 —— 优良的非线性激活函数。为解决这一问题,AIST团队提出利用电光(EO)非线性特性,仅通过信号传播即可完成完整的 AI 计算过程,无需中间数字处理干扰。这一方案可通过马赫 - 曾德尔干涉仪(MZIs)轻松实现:以电信号为输入,调制后的光信号为输出。电光(EO)非线性具有正弦传输函数,与 ReLU、Sigmoid 和双曲正切等传统激活函数截然不同。因此,需要探索适用于光子神经网络(PNNs)的全新 AI 模型。
迄今为止,AIST团队已提出并验证了多个利用电光非线性的 AI 模型,具体如下:第一个模型包含从输入参数空间到高维空间的非线性投影映射。马赫 - 曾德尔干涉仪(MZIs)的电光传输函数通过调谐其工作点进行训练。在转换后的光学复空间中,经非线性映射的数据可通过寻找超平面实现分离,这与支持向量机的原理类似。

图 5(a)和图 5(b)分别展示了我们开发的硅光子芯片和实验装置。我们通过细菌觅食优化(BFO)和前向差分两种算法实现了片上训练,并证实其在图 5(c)的多布尔逻辑分类和图 5(d)的鸢尾花(Iris)数据集分类任务中具有高准确率。该光子神经网络仅通过无源光子电路中信号的物理传播完成计算,确保了低功耗、低延迟的运算性能。

第二个模型是上述模型的级联版本,即 “垂直分层电光光子神经网络(EO-PNN)”,如图 6 所示。在该模型中,所有光路的长度不会随层数增加而延长,从而支持更深层的学习模型。图 7 展示了其在 MNIST、Fashion-MNIST 和 KMNIST 数据集上的测试准确率。结果显示,三层模型的准确率高于两层模型。

最后介绍的模型是电光霍普菲尔德网络(EO-Hopfield network)。图 8(a)展示了该架构:通过将输入数据和反馈信号编码到单频连续波(CW)光(记为 λ)上,使马赫 - 曾德尔干涉仪(MZIs)充当非线性神经元。该模型的实现细节详见文献 。图 8(b)显示,经过训练后,即使输入半损坏的图案,仍能召回存储的完整图案,体现了霍普菲尔德网络特有的联想记忆效应。

由于光子神经网络(PNNs)的运行存在不可忽略的开销,因此必须对整个系统进行全面评估和整体优化。另一方面,光子神经网络(PNNs)的固有优势包括低延迟、高速率、低能耗等。为充分发挥这些优势,光子神经网络(PNNs)作为兼具电输入 / 输出和光输入 / 输出的流式处理器运行时性能最佳。流式光子神经网络的概念如图 9 所示。通过该方案,光子神经网络(PNNs)可在电域和光域同时进行流式数据处理,从而无缝融入数字基础设施。

硅光子技术历经数十年演进,已在高密度输入输出、带宽无关电路交换、光速 AI 加速等关键领域展现出颠覆潜力,成为破解 AI 基础设施能耗困局的核心支撑。从光交换机将网络功耗降低 75%,到 PNNs 实现光速零能耗运算,硅光子技术正在从多个维度重塑 AI 基础设施的技术架构。
然而,将光交换、光子神经网络等光子功能器件融入传统数字基础设施并非易事,需要突破软硬件协同、电子与光子互补优化等多重挑战。未来,唯有通过整体系统设计与工程实现的深度研究,推动架构层面的优化,才能充分释放硅光子技术的潜能,为 AI 时代构建真正可持续的技术基础设施。AIST 基于 CMOS 工艺的大规模硅光子集成技术与光子神经网络创新,为全球相关研究提供了重要参考,也预示着硅光子与电子技术的深度融合将成为下一代 AI 基础设施的核心发展方向。