在OCP EMEA 2025大会上,Nvidia的Benjamin Lee发表了题为Photonic Interconnect for Next-Generation AI Systems的报告,介绍了可插拔/CPO/2.5D光学(OIO)的技术对比及演进,以及OCS技术在网络架构级的优势。
人工智能的爆发式发展依赖于三大核心要素:大规模数据集、先进算法与高效计算架构。过去十年间,NVIDIA GPU 的性能提升达 1000 倍,但 AI 模型规模却增长了 7 万倍。这种失衡迫使现代 AI 训练系统必须通过多维度并行化(节点内、机架内、机架间等)实现扩展,进而催生了对超大规模 GPU 互连的需求 —— 单系统已需万级量级的 GPU 协同工作,如基于 Blackwell 架构的 32,000 GPU 系统。
在此背景下,传统电气互连的局限性日益凸显。机架内的 "Scale-Up" 网络(如 NVLink)虽仍以铜缆为主,但带宽密度(单引脚传输速率)和功率效率(每比特能耗)正接近物理极限。以交换机为例,其带宽每两年翻倍的趋势虽持续,但功率密度已突破100 W 级,逼近 1kW 阈值,而 GPU 的 IO 带宽(如 NVLink)与交换机差距逐步缩小,内存带宽(通过硅中介层连接的 HBM)甚至接近交换机 IO 水平,显示出芯片级互连同样面临严峻挑战。
可插拔光学模块凭借成熟的产业链生态,仍是现阶段实现长距离(机架间 "Scale-Out" 网络)高带宽互连的主流方案。典型的 1.6T 模块基于 8 通道 200Gbps 电信号,功耗约 30W,单位能耗达 19pJ/bit。其优势在于模块化设计带来的部署灵活性,但受限于有机封装与 PCB 板间的带宽密度瓶颈,进一步提升速率(如向 3.2T 演进)将导致能耗显著上升,且电信号在 PCB 内的传输损耗难以忽视。
CPO 技术通过将光学引擎直接集成于 ASIC 所在的有机封装基板,缩短电信号传输路径,显著提升能效。NVIDIA 在 GTC 大会发布的 CPO 方案实现了 1.6T 带宽下 9W 功耗(5.6pJ/bit),较可插拔方案能耗降低约 70%。其核心优势在于利用更短的电信号链路(仅需通过基板布线连接 ASIC 与光引擎)和更优的信号完整性,同时保留激光光源外置以优化热管理。TSMC的 CoWoS 封装工艺为 CPO 提供了技术支撑,使光子 IC 与电子 IC 的高密度集成成为可能。
2.5D 集成光学进一步将光引擎嵌入硅中介层,与 ASIC 共享同一硅基基板。这一架构凭借硅中介层的高密度布线能力(布线密度较有机基板提升 10-100 倍),可将单通道速率降至数十 Gbps,通过密集波分复用(DWDM)实现整体带宽提升,同时将单位能耗压缩至 1pJ/bit 以下。但技术挑战同样显著:光子芯片需与 ASIC 紧邻布局,对光学器件尺寸、耦合效率及热管理提出严苛要求。Nvidia正在研究基于微环调制器 + 多谐振腔总线架构,通过波长复用技术平衡了带宽与能效,为 2.5D 集成提供了可行路径。
以构建一个 200T/s的交换机为例,不同的互连技术在功耗上有显著差异。若使用受距离限制的无源铜缆,ASIC 内部接口每比特需约 5 pJ的能耗,仅封装内IO 部分的功耗就高达 1000W。
采用可插拔光学模块时,ASIC 内部功耗不变(1000W),但模块外部每比特需增加 19 pJ,总功耗达到了4800W。
CPO 技术可将接口能耗降低至每比特 1.25 pJ左右,且所有能耗都集中在封装内部。虽然在封装层面的功耗反而增加到了1100W,但总体 IO 功耗大幅降低(1350 W)。
终极方案2.5D 光学集成系统在降低接口功耗方面表现更为出色,能够显著降低封装内部功耗(300W)和总功耗(700W),在热管理方面具有明显优势。
除传输链路外,光子技术在交换层面的应用同样具有颠覆性潜力。以两级胖树网络为例,传统电气交换每比特能耗约 15pJ(交换机)+19pJ(链路),而引入光子交换(OCS)后,可省略一级光电转换过程,使单比特总能耗从 83pJ 降至约 50pJ,如果配合CPO方案的话,功耗可以进一步降低到31 pJ/bit。此外,光子交换可消除冗余光链路,降低硬件成本。但当前光学开关的制造成本仍显著高于电气开关,需依赖大规模量产(如硅光平台的成熟)实现成本下探 —— 若能实现 10 倍成本优化,光子交换将成为未来超算网络的关键节点。
NVIDIA 的技术路线图显示,短期内 Scale-Up 网络仍将以铜缆为主(如 Feynman 架构),但随着功率密度与传输距离限制加剧,CPO 与 2.5D 光学将逐步渗透至机架内与芯片级互连。光子技术的演进呈现显著的层级化特征:可插拔模块支撑长距离通信,CPO 优化近芯片端能效,2.5D 集成解决终极带宽密度问题,而光子交换则瞄准网络架构级优化。当前,2.5D 集成光学的核心挑战在于光子器件与硅基工艺的兼容性(如热膨胀系数匹配)、高密度光耦合技术,以及低成本波长复用方案的开发。与此同时,光子交换OCS的实用化依赖于硅光开关阵列的规模扩展(如数千端口级器件)和低功耗控制技术的突破。
光子互连技术正从边缘走向 AI 系统的核心架构。从可插拔到 2.5D 集成的演进,不仅是物理层的技术升级,更是对计算 - 通信协同架构的重新定义。随着封装工艺、光子器件与系统设计的协同突破,光子技术将成为破解 AI 算力扩展 "内存墙"" 互连墙 " 的关键钥匙,为 Exascale 级智能计算奠定基础。