今年OFC上,CPO相关的话题被广泛讨论。而两年前火热的LPO,也常常被拿出来与之比较,究竟孰优孰劣?小豆芽这里整理下相关的讨论,供大家参考。
LPO概念自2023年在OFC大会上大放异彩,经过两年多的发展,今年3月份已经发布第一版LPO-MSA(见https://www.lpo-msa.org/files/live/sites/lpomsa/files/specs/LPO_MSA_Specification_v1p01.pdf),但LPO目前在数据中心的部署比例并不高,如下图所示,根据Lightcounting的预测,在2030年LPO和CPO的出货量相当,两者总量与传统DSP光模块相当,LPO的发展在一定程度会延缓CPO的部署。在阿里巴巴的OFC报告中,提及到其部署了几千只400G DR4 LPO作为pilot run验证。
相比于传统带DSP的可插拔光模块, LPO与CPO都采用去掉DSP的方式来降低功耗、节省成本与减小延迟,如下图所示。两者都是通过ASIC芯片中集成的高速SerDes来直接驱动(direct-drive)光引擎,区别在于LPO保留了可插拔的能力,便于维护,而CPO直接将光引擎与ASIC芯片合封在一起,进一步降低了高速信号链路的长度。
以下列出LPO与CPO的主要差异点,
1. 电学链路损耗
根据Broadcom的分析,单波100G时,LPO的电学链路损耗约为15dB, CPO场景仅有5dB, 单波200G时,LPO的链路损耗约为21dB, CPO约为8dB。在LPO MSA里则要求switch芯片到模块总的电学损耗不能大于20dB。两者的链路损耗差距较大,这是两者在功耗、带宽等性能上有差异的根因。
2. 功耗
功耗方面,不同公司给出的数据略有差别,小豆芽这里简单罗列一下。根据Arista的测试结果,800G-DR8 LPO光模块的功耗典型值为7.5W(约为传统DSP光模块的一半), 对应能效比为9.4pJ/bit。Cisco报告中提及到800G-DR8 LPO的典型功耗为7-9W,对应能效比为8.8-11.3pJ/bit,而带DSP光模块的功耗为13-15W。Broadcom给出的传统可插拔400G光模块功耗为8W, 对应能效比为20pJ/bit, 400G-FR4 LPO功耗为4.9W, 对应能效比12.3pJ/bit,而Broadcom基于MZM方案的CPO能效比为7.0pJ/bit,Nvidia的基于MRM方案CPO能效比为5.6pJ/bit。
整体上看来,对于单波100G的情况,传统可插拔光模块的能效比在20pJ/bit, LPO模块的功耗降低一半,能效比约为10pJ/bit左右,而CPO方案的能效则进一步降低,在6-7pJ/bit。采用MRM方案的CPO功耗有望进一步降低。
3. 带宽与带宽密度
当前LPO的典型单波速率为100Gbps, 字节在今年DesignCon大会上展示800G-DR8 LPO的一些测试结果,并且在研究1.6T-DR8的链路。目前LPO的通道数一般为4或者8, 1.6T-DR8可能是LPO的终极形态。而CPO的典型单波速率为200Gbps,Broadcom最新CPO里单个光引擎含64通道,总带宽为12.4Tbps,而Nvidia CPO中单个光引擎含8个道通,总带宽为1.6Tbps。
海信展示了单波200G情况下的LPO仿真结果,需要优化电学损耗,并通过CTLE来补偿电学链路损耗。在电学损耗为22dB时,不需要使用CTLE功能,两种方案都可以实现BER<1e-6。而当电学损耗增加到31dB时,CTLE需要增加到5.6dB,此时硅光方案的BER在1e-5水平,而TFLN方案的BER仍可控制下1e-6以下。200G场景下也可以使用LRO(linear receive optics)方案,只在Tx端增加retimer,对host端发出的信号进行补偿。
对于单波400G的场景,PCB的电学损耗瓶颈将会更加凸显,LPO方案实现起来挑战巨大。不少报告里提及了CPC(co-packaged copper)方案,如下图所示。将PCB中的高速走线替换成flyover cable,进而与光模块相连。CPC方案与CPO方案相呼应,在短距离场景下,直接以铜缆的方式对外进行互联。
LPO的带宽密度在0.1-0.2Tbps/mm, 而CPO的带宽密度在0.5Tbps/mm以上。两者相差较大,CPO更适用于对带宽密度要求高的场景。
4. 可维护性
LPO与CPO的一个主要区别是光引擎是否可进行维护替换,LPO由于采用可插拔的方案,当模块失效时,可以快速替换,MTTR只有几分钟,而CPO出现故障时,维修的时间会较长,带来的影响较大,因此对CPO可靠性的要求更高。由于LPO的接口是标准统一的,可以使用不同厂商的产品,比较灵活,商业模式符合当前的规则。而CPO目前还没有统一的标准,主要玩家是交换机大厂,还不是一个开放的市场。在数据中心部署时,LPO的数目可根据需求进行配置,而CPO交换机中的光引擎数目是固定的,不能灵活配置。相比于LPO, CPO电学链路较短,中间接口与链路较少,潜在的故障点变少,链路抖动发生的概率变小。
Cisco在今年OFC上展示了其在LPO上的一些测试结果,LPO模块来自三个供应商,包括400G-DR4和800G-DR8。不同的LPO模块中TP1a节点的参数不一,如下表所示。测试中共包含56条lane, 测试时间为30s, 测试项为TP2处的光功率与链路的BER。
所有链路的BER结果都满足要求,但只有33个通道的TP2光功率满足协议要求,最大FEC bin纠错的范围为1-3,BER值与TECQ正相关,而与OMA值成反相关,如下图所示。因此TP2不能作为链路性能的单一指标,更应该关注整个链路的BER。
Arista公司作为LPO的拥趸,Andy大佬在多个报告中反复强调LPO的优势,细数CPO的劣势。Arista内部也对800G-DR8 LPO进行了测试,BER可以到1e-10以下。比较有趣的是,Andy大佬在OCP 2018年邀请报告里提及了CPO技术,当时还是比较认可CPO技术路线的,但是需要较长时间的持续投入,"This is a multi-year project, let’s start now"。对于LPO方案,作为可插拔光模块的一个演进路线,需要解决的是更高速率下的电学损耗难题,延长这一方案的生命周期。而对于CPO技术,风浪大,收益也大,需要克服多个领域的工程难题,make it ready for deployment。AI互联场景下对带宽密度、功耗、延迟等要求都非常高,可能CPO是唯一的技术选择,迎难而上是更好的选择。LPO与CPO是相互竞争,还是长期共存,应用在各自所擅长的场景?两者可能在200G/lane场景下共存,到400G/lane的情境下,CPO可能一枝独秀。
文章中如果有任何错误和不严谨之处,还望大家不吝指出,欢迎大家留言讨论。