
在今年的ECOC会议上,Meta发表了其对Broadcom CPO系统的一系列评估测试结果, 从使用方的角度考察评估了CPO交换机的各项性能。小豆芽这里结合Broadcom历史公布的一些数据,将相关的可靠性测试结果进行总结,方便大家参考。
Meta测试的CPO为51.2T的TH5 Baily ,并且使用了不同厂商家的FR4可插拔模块在相同的实验环境下进行了A/B对比实验。Baily含有8个光引擎,每个光引擎的速率为6.4Tbps,其内部结构如下左图所示。Meta在其数据中心规模化部署CPO交换机,下图中共8个机架,每个机架内放置7台CPO交换机。

(图片来自文献1)
Meta测试了不同温度下800G光引擎的功耗,通过改变服务器机柜内的风扇角度,可以改变光引擎的环境温度。功耗的数值在5.2-5.5W之间,对应的能效比为6.9pJ/bit。作为对比,不同vendor家的FR4*2光模块的功耗在15mW左右,采用CPO后,功耗降低了65%。而与LPO方案相比,CPO方案节省约35%功耗。对于单个51.2T交换机系统,采用CPO方案后,可以节省650W的功耗。

(图片来自文献2)
Meta的功耗测试结果,与Broadcom此前在OCP Summmit 2024公布的数据接近,800G光引擎的功耗也是在5.5W左右,如下表所示。


(图片来自文献3)
对于CPO系统中的512条链路,Meta表征了每条链路在常温与高温下的Tx性能,如下图所示。ER的典型值为4.5dB, 高温时会有些通道ER劣化为4dB,TDECQ的典型值为1.5dB, 高温时TDECQ会有所劣化,一些通道会达到2.2dB,OMA的典型值约为1.5dBm,较差的通道OMA也都在0dBm以上。所有通道的发端性能指标都满足400G-FR4的要求,并且有一定的margin。

(图片来自文献2)
Meta随机选择了两个Port的Rx进行了表征,采用一个400G FR4的光模块作为发端,其ER为5dB,TDECQ为2dB。Rx测的灵敏度在-8.5dBm左右。512个通道的BER均小于5e-8。

(图片来自文献2)
Broadcom此前在Lightcounting的研讨会中展示过所有链路Tx/Rx端的光功率变化量随时间的变化曲线,如下图所示,1200小时内光功率的变化小于1dB,非常稳定,并且通道间的一致性非常好。

(图片来自文献4)
Meta也进行了一个类似的表征,验证CPO链路的稳定性。他们对于一个随机选择的port,分别测试了其15天内的激光器偏置电流、Tx和Rx的光功率、SNR的变化,结果如下图所示。可以看出15天内该链路的各项性能都非常稳定,没有发生明显的劣化。

(图片来自文献2)
Meta也统计了不同时间内最大非零FEC bin的分布,如下图所示,一百万小时内(约42天)约75%的FEC bin数值小于7,只有一个FEC bin数值大于10,FEC tail是12。

(图片来自文献2)
Broadcom此前也展示过FEC tail的数据,如下图所示。这个结果的测试时间是1200小时,因此最大的FEC bin值为7。

(图片来自文献4)
上述的FEC bin和FEC tail数据都充分证明了CPO链路的稳定性,不容易触发link-flap。
Broadcom此前在6月份的一次OCP webinar讨论中展示了其可靠性测试的进度,如下表所示。可靠性测试主要包含5大项,包括激光器芯片、可插拔激光器模块、PIC芯片、光连接器和电互联的可靠性。其中激光器相关的可靠性测试,Broadcom并没有展示具体的测试结果,只是说明进行了100亿小时的测试,激光器的FIT值小于0.1,通过了所有的相关可靠性测试。

可插拔光连接器的可靠性测试,包括温循试验、高温高湿试验、机械振动试验和防尘试验。相关的测试结果如下图所示,结果显示光口插损的变化在±1dB以内,满足可靠性要求。

(图片来自文献4)
Broadcom还分别在测试板和板卡上进行了高温工作寿命实验(HTOL),两种情况下累计的测试时间达到12万小时,等效于800G光模块测试了850万小时。

(图片来自文献1)
Meta方面还给出了光模块和CPO的年失效率和MTBF这两个数据的对比,如下图所示。ALFR对应annual link failure rate, MTBF对应meantime between failures,两者的换算关系为ALFR=1年/MTBF。从下表的数据中可以看出,CPO的ALFR值为0.34%,故障率约为可插拔光模块的五分之一。根据unserviceable failure的MTBF数据1500万小时,简单估算的话,CPO的FIT值约为67, 并不满足此前Nvidia大佬在OFC上提及的FIT<10的要求,看起来需要积攒更长时间的测试数据。此外根据Meta的评估,CPO的MTBF数据证明其可以支持24K张GPU构成的AI集群以90%的训练效率工作。


(图片来自文献2)
简单总结一下Meta和Broadcom的测试结果,CPO光引擎在不同温度下的典型功耗约为7pJ/bit, 比传统可插拔光模块方案节省约65%的功耗,比LPO方案节省约35%的功耗。CPO发射端的ER/TDECQ/OMA典型值分别为4.5dB/1.5dB/1.5dBm,接收端的灵敏度典型值为-8.5dBm, 不同通道的一致性较好,在高温下的性能劣化较小。可插拔光连接器在一系列的可靠性实验中表现优异,光口插损变化在±1dB之内。在长达一百万小时的测试中,CPO链路的FEC tail值为12,只发生一次,并没有触发link-flap事件。其HTOL测试时间已经累计达到12万小时,而平均无故障时间可以达到250万小时,约为可插拔光模块的5倍,可以保障十万卡GPU的稳定互联。
这一系列可靠性数据的收集,是CPO技术发展历程中的重要里程碑,充分证明了CPO方案在数据中心/智算中心部署的可行性,回答了产业界对其reliability的质疑。腾讯、字节、Meta等公司先后与Broadcom合作,进行不同规模的CPO验证测试,接下来谁将成为第一个吃螃蟹之人,在数据中心大规模部署CPO交换机,让我们拭目以待!
文章中如果有任何错误和不严谨之处,还望大家不吝指出,欢迎大家留言讨论。
参考文献
1. R. Pancholy, "Will you need CPO in 5 years, 3 years, or do you need it Now?", ECOC 2025
2. S. Amiralizaden, et.al., "Co-packaged Optics Technology Evaluation for Hyperscale Data Center Fabric Switches", ECOC 2025、
3. R. Pancholy, "AI/ML Clusters Enabled by a 51.2Tbps CPO Switch", OCP Summit 2024
4. A. Ramaswamy, "CPO: Progress & The Road Ahead"