BoW(Bunch of Wires)是一项由OCP ODSA工作组推出的并行接口协议,适用于Chiplet和芯片级封装的简单物理接口架构。2023年的时候发布了BoW 2.0规范,目前在2.1规范的讨论中加入了光学chiplet实现并行互连接口的选项。
一、背景与计算扩展需求
1.1 算力与内存瓶颈
随着AI模型参数量级突破万亿,传统计算架构面临内存与算力双重瓶颈。典型场景中,单机架需连接72个GPU以实现算力扩展,如Nvidia的GPU互联方案,但其电连接方案需超过5000根线缆实现计算节点与交换机的互联,布线复杂度与信号损耗问题显著。
1.2 现有解决方案对比
◆ 电连接优化路径:
- 铜缆(Groq):通过顶部的(蓝色)铜缆实现GPU间互联
- PCB走线(NV link):Nvidia将线缆集成到PCB,缩短连接距离。
- 先进封装(Tesla):通过1英尺×1英尺的大规模封装整合25颗芯片,挑战在于功耗散热与信号完整性。
- 硅晶圆级互联(Cerebras):探索晶圆级电互联,但受限于高频损耗。
◆ 光连接前瞻:
LightMatter等公司推动光学晶圆级计算,通过光纤实现低损耗、高密度互联。
1.3 冷却技术演进的影响
从风冷转向液冷后,单机架算力密度显著提升:
- 风冷时代:32 GPU、5TB HPM、50kW功耗,机架高度4-8RU,支持1000亿参数模型。
- 液冷时代:72 GPU、15TB HPM,机架高度压缩至1-2RU,需更高密度互联技术,支持万亿参数模型。
二、电链路的技术挑战与极限
2.1 功率效率与插入损耗的矛盾
电链路的性能可用每比特功耗(pJ/bit) 与插入损耗(dB) 衡量:
- 短距互联(<10cm):采用XSR标准,插入损耗约4-5dB,功耗1-2pJ/bit,需DFE/FFE均衡。
- 中长距互联(>10cm):当损耗超过15dB(如XSR+、VSSR或MR短距/中距信号),5nm工艺下功耗将达到3-4pJ/bit,即便3nm工艺可优化数值,但原理不变。
当损耗进一步增加到25dB时,传统DFE/FFE已无法满足需求,需依赖DSP驱动的MLSE/MSD等算法补偿35dB损耗,但这将导致功耗再次飙升。以400Gbps链路为例,需要更先进的算法来补偿30dB损耗——为何会有如此高的损耗?
2.2 电链路损耗的构成分析
观察电链路的典型架构:假设这是一颗GPU或交换机芯片,放置在基板上,PCB走线连接至连接器和转接卡。以200Gbps为例,仅半段链路的损耗就可达-22dB,整段链路损耗超过-45dB——而35dB已是电链路补偿极限。这正是OCP考虑引入光链路的原因:无论是纵向还是横向扩展,光学技术都可能成为破局关键。
三、光学链路的技术优势与架构演进
3.1 光链路的性能优势
- 功率效率:TSMC数据显示,从电连接转向光纤可降低3倍功耗,若采用共封装光学(Co-packaged Optics),功耗仅为电连接的1/5。
- 传输距离:电链路有效距离通常<10米,光链路可轻松扩展至100米以上,且损耗随距离增长更平缓。
3.2 光链路架构演进路径
1. 传统电连接(DAC):芯片通过PCB长线缆连接至转接卡,功耗高、损耗大。
2. 可插拔光模块:将电信号转换为光信号通过光纤传输,但前端到后端的转换功耗仍较高。
3. 近封装光学(Near-Package Optics):将光模块靠近芯片,缩短电连接距离,采用VSSR/C2M链路。
4. 2.5D/3D共封装光学:光引擎与芯片集成在同一封装内,实现低损耗、低功耗互联。
3.3 光学chiplet的技术价值
- 工艺解耦:光引擎与ASIC可采用不同工艺(如光引擎用成熟工艺,ASIC用先进制程),提升良率。
- 密度与扩展性:如AyarLabs的TeraPHY chiplet方案,通过外部激光源与光纤互联,实现CXL协议下的共享内存架构,支持多芯粒高速互联。
四、OCP Optical Bunch of Wire 2.1技术方案
4.1 设计目标与核心挑战
- 目标:实现低功耗、高带宽的芯片间光互联,支持液冷架构下的72 GPU集群。
- 挑战:需平衡信噪比(SNR)、延迟、时钟抖动(Jitter)与链路损耗,其中SNR为主要限制因素(非RF损耗)。
4.2 线性驱动(Linear Drive) vs 重定时(Retimed)架构选择
传统重定时光链路包含RSI、长距离串并/并串转换器(TX/RX),信号经过重定时、逻辑电平转换、再序列化后驱动调制器,光信号经光纤传输后由探测器转换为电信号,再经TIA放大、解序列化至数字逻辑——这种方案的优势是便于管理链路损耗,互操作性好,但功耗较高。
而线性驱动架构省去了DSP重定时环节, serdes直接驱动调制器,优势是功耗和面积显著降低,但需要链路本身低噪声、低损耗(这正是共封装光学的优势),缺点是互操作性略有挑战(驱动和TIA不含时钟管理,难以监控)。
对比两种方案的核心指标:
- 功率效率:线性驱动更低,因省去重定时环节;
- 带宽密度:重定时可能更高,因可重置抖动预算;
- 延迟:线性驱动更低,无额外串/并转换延迟;
- 协议兼容性:线性驱动支持BoW、XSR等多种协议,更灵活。
OCP选择线性驱动架构,核心原因是降低功耗与面积,同时通过共封装光学确保链路低噪声与低损耗。
4.3 系统架构设计
基于上述分析,OCP的Optical Bunch of Wire选择了线性驱动架构:ASIC集成Bunch of Wire TX chiplet,电信号经少量均衡和驱动后转换为光信号,数据和时钟通过光纤传输;接收端由光电探测器转换为电信号,经TIA放大和信号调理后输入RX chiplet。此方案的关键在于维持理想情况下0dB损耗和高SNR。
4.4 生态协作呼吁
OCP Optical Bunch of Wire 2.1的标准化需行业参与,共同确定SNR预算、时钟抖动容限(如<1ps)、RF损耗与ISI补偿策略,以及电源管理和边信道设计等。
六、结论与未来展望
光学链路已成为突破电连接极限的关键技术,OCP Optical Bunch of Wire 2.1通过线性驱动+共封装光学架构,在功率效率、带宽密度与延迟之间取得平衡,为下一代大规模算力集群提供互联基础。