
AI训练与推理业务的爆发式增长,对数据中心互连带宽、密度与能效提出了前所未有的要求,传统铜缆互连在传输距离、集成密度与能耗方面的瓶颈日益凸显。密集波分复用(DWDM)光链路通过多波长并行传输,无需单通道100Gb/s以上的超高速信号,即可大幅提升单光纤吞吐量,同时优化面积能效、降低系统复杂度,成为突破铜缆限制、实现数千处理器全互连的核心技术路径之一。
当前DWDM链路设计面临时钟方案的核心取舍:转发时钟(FC)方案具备优秀的抖动跟踪带宽,已在高密度低功耗芯片间(C2C)链路中得到广泛应用,适配Host与DWDM光引擎(OE)的互连需求,但直接应用于DWDM链路时,跨阻放大器(TIA)热噪声引入的抖动会大幅提升抖动功率,甚至在数据切片处实现翻倍;嵌入式时钟(EC)方案虽为当前DWDM链路的主流选择,却需额外引入时钟数据恢复(CDR)模块,不仅增加设计复杂度,还会受限于CDR有限的带宽,无法抑制发射机锁相环(TXPLL)、电源波动引入的带外抖动。
针对上述技术痛点,NVIDIA团队在ISSCC 2026上提出了一款基于3D堆叠工艺的半速率带通滤波时钟转发DWDM光链路,在保留两类时钟方案核心优势的同时,规避了其固有缺陷,实现了高性能、高集成度的光电协同设计。
◆ 核心架构创新:半速率带通滤波时钟转发DWDM链路设计
本次提出的DWDM链路架构面向共封装光学(CPO)应用场景,采用9个波长通道设计,通道间隔为200GHz,其中8个通道用于数据传输,1个通道专门传输半速率转发时钟(FWDCLK),单波长传输速率达32Gb/s,单光纤总吞吐量实现256Gb/s。

架构的核心创新在于引入带通滤波的半速率时钟转发机制:在接收机(RX)端对接收的FWDCLK信号进行1~2GHz带宽的带通滤波处理。该带宽与TIA的噪声带宽相当,可有效滤除TIA热噪声引入的非相关随机抖动;同时,数据链路中与传输相关的相关抖动(包括TXPLL引入的抖动、电源噪声诱导的抖动)功率主要集中在低频段,带通滤波器可完整跟踪该部分抖动,实现时钟与数据的抖动对齐。

该设计大幅降低了时钟转发路径的噪声积累,同时保留了转发时钟方案优秀的抖动跟踪能力,无需额外引入CDR模块,实现了转发时钟与嵌入式时钟两类方案核心优势的融合。
◆ 发射机全链路设计:高一致性、高灵活性的多通道实现
发射机(TX)采用共享时钟架构与全对称通道设计,9个完全一致的TX通道共享同一个基于环形振荡器(RO)的TXPLL,TXPLL部署在稳压电源域中,为所有通道分发4个半速率时钟相位,从源头上保证了多通道时钟的一致性。
每个TX通道均集成相位内插器,核心功能包括两方面:一是调整FWDCLK与数据之间的半单位间隔(UI)相移,确保接收机解串器(DES)的采样时钟能够精准对准数据眼图中心;二是补偿因布线失配、光纤色散导致的通道间偏斜skew。与接收机侧部署相位内插器的方案相比,该设计实现了更优的时钟与数据路径延迟匹配,同时无需在接收机侧设计正交相位生成与分发电路,大幅简化了接收机的时钟架构。

TX通道的信号处理链路采用全链路优化设计,依次为16:1 串行器、单端-差分转换器(S2D)、TX驱动器与宽带TX电平转换器。其中宽带TX电平转换器为核心优化模块,采用差异化偏置设计,将微环调制器的环形阴极偏置在1.5×VDDA的高压节点,阳极偏置在0.5×VDDA的低压节点。与传统偏置-T电平转换器相比,该设计无低截止频率限制,对传输数据的编码方式无任何约束,同时可支持最高300μA的微环调制器(MRM)漏电流,大幅提升了器件适配性与链路鲁棒性。此外,通过将输入并行数据配置为0101模式,任意TX通道均可切换为FWDCLK传输通道,为链路波长配置提供了极高的灵活性。
◆ 接收机架构:低噪声、高鲁棒性的信号处理与时钟分配
接收机设计围绕低噪声放大、PVT波动鲁棒性、灵活时钟分配三大核心目标展开,与发射机架构形成全链路协同优化。
① 低噪声与PVT自适应信号放大链路
接收机集成专用的RX锁相环(RXPLL),其核心作用并非时钟分发,而是为TIA稳压器与接收机全局稳压器生成参考电压,确保TIA与其他接收机电路的电源域能够跟踪工艺、电压、温度(PVT)波动,使TIA的带宽在全PVT角落下保持相对恒定,仅对电阻波动存在微弱敏感性。为抑制电源噪声对高灵敏度TIA的干扰,所有TIA单元共享独立的电源域,与接收机其他数字、模拟电路完全隔离,从硬件层面降低了噪声耦合路径。

TIA采用基于反相器的架构,主体为并联反馈放大器级联两级Cherry-Hooper放大级,同时在第4级与第2级反相器的输出之间插入注入锁定振荡器(ILO)模块,该模块具备可调的固有频率,仅在接收FWDCLK信号时开启。该ILO与后续时钟分发路径中的ILO共同构成架构核心的带通滤波器,实现对宽带非相关抖动的显著抑制,同时完整跟踪低频相关抖动,是接收机抖动性能优化的核心单元。
TIA输出端设置两条独立的延迟路径,实现数据与时钟信号的分离处理:数据接收场景下,缓冲后的输出信号直接送入1:16解串器完成数据恢复;FWDCLK接收场景下,信号被路由至接收机时钟分发模块,完成全通道时钟同步。
② 高灵活性ILO基时钟分发架构
为解决DWDM系统的功耗与可靠性问题,链路支持灵活的TX-RX微环映射,以降低晶圆间微环谐振频率波动带来的加热器功耗开销,但灵活映射会导致FWDCLK可被任意RX微环接收,引发时钟分发的路径歧义。传统方案采用9:1多路选择器实现时钟源选择,会严重限制时钟带宽,同时引入额外的时钟-数据路径匹配难度。
本次设计采用ILO嵌入的接收机时钟分发架构,当任意RX微环接收到FWDCLK时,对应通道驱动分布式时钟网络,其余通道则工作在目标频率或处于关闭状态,实现了FWDCLK从任意通道的灵活输入,同时额外提供了一级带通滤波能力。为降低时钟网络的寄生电容,时钟分发网络被拆分为两个独立分组,两个分组均连接至所有解串器的2:1输入时钟多路选择器,正常工作状态下仅激活其中一个分组,进一步优化了时钟传输性能。
该ILO基时钟分发方案,除抖动滤波与灵活配置的优势外,还提升了系统对激光器可靠性问题的容错能力,支持为FWDCLK分配最优波长以实现链路性能优化;与已有的四分之一速率FWDCLK方案相比,该设计无需在接收机侧生成多相位时钟,避免了多相位电路引入的数据-时钟路径失配问题。
③ 全链路热调谐系统:波长锁定的高精度低功耗实现
发射机与接收机的微环谐振器均采用片上混合信号热调谐环路,实现目标波长的精准锁定,调谐环路针对发射与接收场景分别采用适配的控制算法。
发射机热调谐环路,通过传输实时数据前的预表征步骤,将微环锁定至设定的下降端口光电探测器(PD)电流水平;接收机热调谐环路则通过分接TIA直流环路,以最大化RX PD直流电流为目标完成波长锁定。两类环路采用统一的信号处理流程:PD采集的电流信号首先由8位温度不敏感的开关电容型架构完成数字化,该架构集成了积分器与逐次逼近寄存器模数转换器(SAR ADC);数字化后的信号进入数字处理单元,发射机环路采用比例-积分(PI)控制算法,接收机环路采用峰值查找算法,最终生成脉冲密度调制(PDM)信号,驱动与微环共集成的金属加热器,在保证波长锁定精度的同时,实现了调谐能效的最大化。
◆ 3D混合键合集成工艺:高密度低寄生的光电协同设计
链路采用3D堆叠集成工艺,将7nm FinFET工艺的电子集成电路(EIC)面对面堆叠在65nm SOI硅光子(SiPh)工艺的光子集成电路(PIC)之上,二者通过混合键合技术实现互连,最大限度降低了光电接口的寄生参数,同时提升了接收机的信号灵敏度。
芯片布局采用光电通道一一对应的协同设计,混合键合焊盘的节距为9μm,通过将集成PD的微环精准布局在对应电通道的正下方,大幅缩短了TX驱动器到TX微环、RX PD到RX TIA的布线距离,从物理层面降低了互连寄生。单个TX物理层(PHY)包含9个数据/FWDCLK通道、1个TXPLL通道、1个TXPLL稳压器通道与1个去耦电容通道;单个RX PHY包含9个数据/FWDCLK通道、1个RXPLL通道、2个分别为TIA与其他接收机电路供电的稳压器通道。单个通道的尺寸为80.94×80.94μm²,同时预留了18.012mm宽的布线走廊,用于并行数据、控制与状态信号的传输。

PIC芯片针对DWDM传输进行了全链路优化,波导上集成了多个半径约5μm的微环谐振器,通过光栅耦合器实现与光纤的高效耦合;TX微环调制器的Q值约为4500,RX滤波器的品质因数Q约为4000,该参数由自研链路建模工具选定,并通过器件测试芯片的测量结果完成验证;为抑制多通道间的光学串扰,RX微环采用半径降序排列的布局方式,通过光学特性匹配部分抵消了通道间的串扰干扰。
◆ 实测性能验证与技术优势对比
该链路通过完整的晶圆级与系统级测试,全面验证了设计性能,所有测试均基于NRZ调制方式完成。

光频谱与热调谐测试结果显示,PIC TX总线的9个微环谐振波长均集中在1310nm波段,通道间隔严格保持200GHz,与设计目标完全匹配;热调谐环路响应测试中,加热器控制代码可精准跟随输入激光器的波长阶跃变化,验证了波长锁定环路的功能有效性。单通道传输测试中,单个波长通道以32Gb/s速率传输PRBS7伪随机码时,输出眼图清晰稳定,验证了发射机的高速信号驱动能力;单数据通道与单FWDCLK通道同时工作时,在误码率(BER)<1E-11的条件下,接收机的光调制幅度(OMA)灵敏度达到-16.0dBm。
全通道并行传输测试中,所有TX通道均以32Gb/s速率传输不同种子的PRBS31伪随机码,FWDCLK通道配置为16GHz半速率时钟,热调谐环路将所有微环锁定至对应目标波长,由RX6通道接收FWDCLK,开启TIA内ILO与时钟分发ILO完成抖动滤波与全通道时钟同步。通过扫描TX相位内插器代码采集各通道的BER浴盆曲线,结果显示,全通道同时工作的条件下,在BER<1E-11时,链路聚合眼图张开度达到0.46UI,满足高速数据传输的可靠性要求。
能效与集成密度测试结果显示,在假设光纤耦合激光器壁插效率为10%的前提下,激光器能效为0.76pJ/b,TX与RX微环加热器的能效为0.76pJ/b,TX、RX、时钟分发与热调谐电路的总能效为1.26pJ/b,链路全系统总能效达到2.78pJ/b。集成密度方面,EIC岸线密度达到0.8Tbps/mm,面积密度达到1.33Tbps/mm²,与同期已发表的先进NRZ调制DWDM链路相比,实现了约6倍的岸线密度提升与约20倍的面积密度提升,适配未来AI数据中心CPO应用的高密度集成需求。

◆ 总结
本次提出的半速率带通滤波时钟转发DWDM光链路,基于7nm EIC与65nm PIC的3D混合键合堆叠工艺,通过架构创新解决了传统转发时钟与嵌入式时钟方案的固有缺陷,实现了高速传输、低功耗、高集成度的兼顾。链路单波长传输速率达32Gb/s,单光纤总吞吐量256Gb/s,全系统能效2.78pJ/b,面积效率1.33Tbps/mm²,在BER<1E-11的条件下保持0.46UI的眼图张开度,各项性能指标均达到同期领先水平。该设计在波长配置灵活性、PVT波动鲁棒性、光学串扰抑制等方面的全链路优化,为下一代CPO光引擎的研发提供了完整的技术参考,有力支撑了AI数据中心对超高带宽、低功耗光互连的核心需求。