
针对这一行业核心痛点,Marvell团队在ISSCC 2026上发布了一款基于5nm FinFET工艺、面向2~20km Coherent-Lite光通信应用的双通道800Gb/s完整光收发器,该方案融合IMDD与相干技术的核心优势,在传输延迟、功率效率与集成度上实现了关键突破,为下一代AI集群园区互连提供了核心解决方案。

该收发器基于O波段光学体系设计,充分利用O波段色度色散与光衰减的优良折中特性,大幅降低了数字信号处理(DSP)的均衡复杂度,最终实现了较传统相干系统10倍以上的端到端延迟降低,以及2倍的模拟功率效率提升。单芯片集成两个独立的400Gb/s/λ收发通道,聚合总速率达800Gb/s,可无缝适配400G/800G/1.6T可插拔光模块的集成需求。
◆ 整体系统架构
单通道400Gb/s Coherent-Lite收发器采用四通道(quad)配置架构,单个时钟模块(CLK)可同时驱动四路线路发射机(LTX)或线路接收机(LRX)通道,完整处理水平与垂直偏振(X/Y)、同相与正交相位(I/Q)的四路信号,DP-16QAM调制与解调均在光域完成,配套采用高集成度硅光子学O波段光学器件。在LRX信号路径中,外置跨阻放大器(TIA)完成前端低噪声放大,最大化接收灵敏度。芯片host侧集成8路100Gb/s PAM-4 TX与RX通道,线路侧集成2路400Gb/s Coherent-Lite通道,实现全链路的高速信号处理。

① 线路发射机(LTX)设计
Quad LTX模块内置分数N型锁相环(PLL),生成31.25GHz半速率时钟,每一个信号通道均配置独立的相位插值器(PI),PI输出时钟均匀分布至XI、XQ、YI、YQ四个通道。为满足相干调制对时序同步的严苛要求,设计了专用的偏斜校准系统,可通过PI调节补偿片内与片外的时序偏斜,保障四路信号的同步性。

TX DSP链路集成了完整的基带信号处理功能,包括卷积交织、内码前向纠错(FEC)编码,通过DP-16QAM映射器与导频符号插入模块生成四路基带数据码流,同时采用7抽头FIR滤波器完成信号预均衡与反射伪影抑制,优化发射信号质量。
单LTX通道的信号路径中,来自DSP的7b×64数据流首先进入串行器,完成64:1的并行-串行转换,随后经由全速预驱动电路送入7b DAC基驱动器,实现PAM-4格式的信号发射。针对高速时钟分布带来的损伤,链路内置占空比校正(DCC)机制;同时采用本地自动电压缩放(AVS)技术,可动态调整电源电压,在全工艺、电压、温度(PVT)区间内实现功耗效率与抖动性能的协同优化。
伪差分DAC驱动器采用Class-AB架构设计,可同时驱动驱动器的NMOS与PMOS部分,向差分端接实现推挽式电流注入,显著提升了功率效率。DAC内部每个比特单元均采用基于交流耦合的电平移位器与差分锁存器组合架构,保障了高频工作下的性能一致性,同时有效抑制了漂移效应;双共源共栅结构实现了低阻抗电流收集,拓展了信号带宽,同时屏蔽高压摆幅对DAC核心电路的影响,动态偏置设计则进一步保障了器件的长期工作可靠性。DAC驱动器输出接入可重构差分端接电阻(RTERM)与TCOIL,RTERM可通过配置适配不同结构的马赫-曾德尔调制器(MZM),实现链路性能的最优匹配。
该DAC驱动器具备软件可重构能力,支持两种工作模式的灵活切换:在集成硅光(SiPho)驱动模式下,可向66Ω差分负载提供4Vppd的输出摆幅,芯片可直接驱动SiPho MZM调制器,无需模块级外置高摆幅驱动器件;在标准(STD)驱动模式下,可向100Ω负载提供1Vppd的输出摆幅,仅需通过配置PMOS偏置、PMOS-NMOS共源共栅模块并降低LTX电源电压即可完成模式切换。可重构设计大幅降低了模块级的功耗与器件数量,助力实现低成本、高集成度的光模块设计,该设计也是业界首款在相干收发器中集成兼容硅光MZM的大摆幅驱动器。
② 线路接收机(LRX)设计

LRX链路采用8/7过采样率设计,基于35.7GHz半速率时钟工作。LRX PLL架构与LTX PLL保持一致,仅采用专用VCO设计以适配接收端时钟需求,PLL输出时钟均匀分布至XI、XQ、YI、YQ四个通道,通过粗偏斜检测与校准机制实现跨通道时钟与数据的同步,残余时序偏斜则在后续数字均衡引擎中完成补偿。
单LRX通道的设计目标为在30GHz频率范围内实现超过32dB的信纳比(SNDR)。模拟前端输入侧,内置100Ω端接电阻与输入焊盘直流耦合,可变增益放大器(VGA)输入则采用交流耦合设计。VGA采用基于PMOS的单级电流模式逻辑(CML)放大器架构,通过可编程MOS晶体管实现电阻性退化,同时利用交叉耦合MOM电容在输入端实现负电容效应,结合电感峰化技术完成带宽拓展,其增益可在-2.5dB~6dB范围内实现可编程调节。
VGA后端驱动71.4GS/s 7b模数转换器(ADC),该ADC采用64路时间交织架构,基于部分循环展开逐次逼近寄存器(SAR)结构实现,采用8个采样保持单元分别驱动8个子ADC的层级化设计;专用时钟生成模块可从PLL时钟生成所需的8Ts与64Ts采样相位,同时内置延迟线对采样保持单元进行精细调谐,实现了亚100fs精度的时序对准。
RX DSP采用面向低延迟Coherent-Lite模块的低功耗架构,核心为4×4实数多输入多输出(MIMO)均衡器,可处理带宽限制、光纤色散效应,以及相干光调制解调器与光纤链路引入的载波和偏振旋转。该均衡器采用多相滤波器结构,支持8/7过采样输入与符号率输出,完美适配O波段低色散容限需求的设计场景,较传统相干DSP实现了更低的处理延迟、更低的功耗,同时对四路输入通道间的时序偏斜、增益失配与正交相位失衡具备更强的抗扰能力。
载波频率/相位恢复模块利用每64个符号间隔插入的已知导频符号,处理本振频率偏移与激光器线宽带来的相位噪声;定时恢复模块通过控制PLL生成与发射机时钟严格同步的本地LRX采样时钟。后处理模块内置自适应电平跟踪与偏斜调节滤波器,可有效对抗发射增益、时序偏斜、直流失调与正交相位失衡等光链路损伤,大幅提升了系统鲁棒性,是低成本低功耗Coherent-Lite光模块设计的关键优化点。
前向纠错(FEC)解码器采用内码BCH(126,110)与外码RS(544,514)的级联架构,其中外码完全兼容IEEE 802.3标准的芯片到模块(C2M)接口。为最小化处理延迟,内码在TX与RX路径中均无需对RS码进行终止处理,采用软输入硬输出Chase解码器实现解码,可支持1×10^-2的输入BER阈值,在C2M接口实现2.2×10^-4的BER,经主机设备RS FEC解码后BER可低于1×10^-15,从ADC输出到FEC解码器输入的处理延迟低于20ns。
◆ 测试验证与性能表现
该芯片基于5nm FinFET工艺完成流片与验证,测试结果全面验证了设计的性能优势。125Gb/s PAM-4眼图测试显示,LTX通道在STD模式下实现30.8dB SNDR与31GHz带宽,SiPho模式下实现28dB SNDR与35GHz带宽,两种模式下TX路径的随机抖动均低于120fs;LRX通道在-1dBFS输入信号下,全工作频段内保持了优异的总谐波失真(THD)、信噪比(SNR)与SNDR性能。

电环回与光环回测试中,基于1.6T OSFP-XD模块,在无任何光放大的条件下,完成了40km标准单模光纤(SMF)传输,成功恢复X与Y偏振的DP-16QAM星座图,FEC解码器输入端实现了优于5×10^-4的BER,相对1×10^-2的解码阈值具备充足的链路余量。包含C2M接口在内的整体往返延迟低于300ns,远低于传统400ZR等相干DSP模块超过3μs的延迟水平。

链路鲁棒性测试显示,该器件可容忍最高3dB的TX I-Q增益失衡,远超400ZR标准1dB的规范要求;可支持最高1MHz的激光器线宽,优于400ZR低于500kHz的要求,可兼容IMDD系统中广泛使用的低成本DFB激光器,有效提升了模块良率,实现了与IMDD方案相当的成本竞争力。与业界主流相干收发器方案相比,该设计实现了2倍的模拟功率效率提升,成为分布式园区级数据中心互连场景的最优技术方案之一。
