

一、背景与AI/ML系统的核心互连需求
2025年正值Google首款TPU(张量处理单元)发布10周年。过去十年间,每一代TPU系统均在性能、可扩展性与系统效率上实现跨越式提升,而这一演进始终围绕Google“规模化”的核心DNA——Google构建并运营着全球最大的基础设施,支撑着搜索、邮件、YouTube及Gemini等全球高频应用。

当前,AI与机器学习(ML)需求呈指数级增长:一方面,模型规模以每年超10倍的速度扩张,从2018年BERT的9360万参数、GPT-2的15亿参数,发展至如今超1.5万亿参数的模型(如Deepseokv3、Llama3等),且增长趋势无放缓迹象;另一方面,ML系统的规模化维度不断拓展,除了模型预训练阶段的规模需求,后续的训练后推理、测试时推理(如学习模型的推理任务)均对基础设施提出更高要求。

AI/ML集群本质是大型分布式共享内存计算系统,但其发展面临严重的“互连瓶颈”:计算性能的增长速度远超互连性能——过去20年,硬件峰值浮点运算能力(HW FLOPs)增长了6万倍(每2年增长3倍),而内存与互连带宽的增长差距超过3个数量级。

为实现高效的内存共享与高性能AI/ML计算,系统必须具备高带宽、低延迟、无损耗的互连能力,既支持“横向扩展”(scale-out),也需满足“纵向扩展”(scale-up)需求。在此背景下,光互连技术成为突破铜缆性能限制的关键,不仅能支撑AI/ML系统超越铜缆的规模化边界,还能推动拓扑创新,并提升系统可靠性与灵活性。

二、TPU系统中光互连的发展历程与架构设计

1. TPU系统的迭代与光互连的引入
自2018年TPU v2起,Google逐步将光互连技术融入TPU系统,每一代产品均在芯片规模、拓扑结构与光互连参数上实现突破:

- 2018年TPU v2:每超级集群(superpod)包含256颗TPU芯片,采用2D环面(2D Torus)拓扑,单芯片芯片间互连(ICI)带宽为800GB/s,尚未引入光模块;
- 2020年TPU v3:超级集群芯片数提升至1024颗,仍保持2D环面拓扑,单芯片ICI带宽维持800GB/s,首次引入光互连技术,采用400Gbps有源光缆(AOC),光通道波特率为50G;
- 2022年TPU v4:芯片数跃升至4096颗,拓扑升级为3D环面(3D Torus),单芯片ICI带宽调整为600GB/s,光模块升级为400G OSFP,同时引入光交叉连接(OCS),光通道波特率仍为50G;
- 2023年TPU v5p:超级集群芯片数进一步增至8960颗,延续3D环面拓扑,单芯片ICI带宽翻倍至1200GB/s,光模块更新为800G OSFP,光通道波特率提升至100G,OCS技术继续沿用;
- 2025年TPU v7(代号Ironwood):超级集群芯片数达到9216颗,保持3D环面拓扑与1200GB/s的单芯片ICI带宽,采用800G OSFP光模块,光通道波特率提升至200G,同时实现1.77PB的直接寻址共享高带宽内存(HBM),创下共享内存多处理器的新纪录,可高效支撑稠密模型与稀疏模型。
2. 3D环面拓扑与立方体构建块设计
TPU v4、v5p及v7均采用“4×4×4立方体构建块”(Cube)作为核心架构单元:立方体内的TPU处理器通过铜互连(铜ICI)连接,而不同立方体之间则通过光互连实现拼接。这种设计可根据任务需求,将多个立方体动态组合成任意尺寸、任意形状的“切片”(slice),且所有切片均为完整的3D环面结构——通过光互连实现“环绕链路”(wrap-around links)连接,既能降低网络直径,又能提升二分带宽(bisection bandwidth),从而显著优化系统性能。

以TPU v4为例,其超级集群由64个4×4×4立方体构建块(对应64个机架)组成,可组合出最大8×16×16(2048颗芯片)的切片;TPU v5p的最大切片尺寸扩展至16×16×24(6144颗芯片);TPU v7则进一步支持8×20×52(8320颗芯片)的切片。此外,该架构将故障域缩小至单个立方体:当某个立方体出现故障时,调度器会自动选择健康的立方体替换故障单元,作业在替换立方体上的重新调度时间从传统的分钟级/小时级缩短至秒级,大幅降低平均修复时间(MTTR),提升系统可靠性。




三、光互连的关键技术演进
1. 波特率、波长与光谱效率的优化
为匹配TPU系统的规模化需求,光互连的波特率、波长数量与波长间距持续迭代:
- TPU v4(2022年):光通道波特率为50G,每OCS链路支持4个波长,波长间距为20nm(采用粗波分复用CWDM);
- TPU v5p(2023年):波特率提升至100G,每OCS链路波长数量翻倍至8个,波长间距缩小至10nm(采用波分复用WDM);
- TPU v7(2025年):波特率进一步提升至200G,每OCS链路仍保持8个波长与10nm间距。

在TPU v4至v5p阶段,系统优先追求“功率效率”,通过PAM4调制方式提升波特率,并增加波长数量以减少OCS的使用量,光学组件的减少意味着更低的故障概率,从而提升系统可靠性。随着TPU系统规模持续扩大,“光谱效率”的重要性日益凸显,系统需在功率效率与光谱效率之间实现平衡,相干传输(Coherent Transmission)技术成为关键方向。
2. 相干传输技术的优势与需求

相干传输技术相比直接检测(IM-DD)系统具备显著优势:一是光谱效率提升4倍;二是对OCS系统中的多路径干扰(MPI)具备更好的耐受性;三是在光调制器性能良好的前提下,可提供更优的链路预算。此外,相干传输对色散与非线性的耐受性更强,可用于园区网与城域网,支撑ML系统突破单集群的规模限制。
不过,相干系统要应用于数据中心内部的ML系统,仍需解决三大问题:一是进一步提升能量效率,需开发低功耗数字信号处理器(DSP);二是降低前向纠错(FEC)延迟,要求延迟低于300ns;三是需设计O波段(O band)相干系统,采用少量固定波长,以更好地支持OCS系统的规模化。
从技术演进趋势来看,过去数年相干系统的能量效率已取得巨大进步,随着7nm、5nm CMOS工艺的应用,以及400G ZR、800G LR1等标准的推进,相干技术在数据中心的适用性持续提升。
3. 光调制器的技术对比与选择

光调制器是相干系统的核心组件,不同技术路线各有优劣:
- 硅光子(SiPh)调制器:制造工艺简单,易于集成,但存在带宽有限、插入损耗高、半波电压(Vpi)大的局限,难以满足高性能需求;
- 薄膜铌酸锂(TFLN)调制器:具备优异的线性度,半波电压-长度乘积(Vpi-L)低至2V·cm,插入损耗小,带宽高(3dB带宽约140GHz),且对直接检测(IM-DD)与低功耗光互连(LPO)系统同样有益。不过,要实现相干传输,TFLN调制器需采用零啁啾差分驱动设计;
- 硅-有机混合(Si-Organic Hybrid)调制器:尺寸紧凑,Vpi-L低至0.3V·cm(比TFLN低一个数量级),但需高极化电压,且其聚合物系统的可靠性与稳定性仍需验证。
从链路预算提升效果来看,TFLN等新型调制器对相干系统的增益远大于直接检测系统:当驱动摆幅从0.4Vpi提升至1Vpi时,直接检测系统的链路预算仅提升2.2dB,而相干系统可提升7dB;当驱动摆幅超过1Vpi时,直接检测系统无额外增益,相干系统的链路预算则可进一步提升至10.2dB。
4. 空心光纤对延迟的优化
传统单模光纤(SMF)的光信号在掺杂玻璃纤芯中传输,而空心光纤(HCF)以空气为纤芯,光在空气中的传输速度比在硅中快约50%,可减少1/3的延迟预算。这种低延迟特性不仅能提升系统性能,还能减少用于缓冲传输数据的硅芯片面积,适配ML系统对低延迟的需求。不过,空心光纤需采用O波段设计,才能满足数据中心内部(intra-DC)的应用场景。

四、AI/ML系统中光互连的核心挑战
1. 可靠性与故障管理
TPU系统的链路故障对ML任务影响显著:以TPU v4为例,其日均ICI链路故障率为0.004%,若系统包含100万条链路,每天将出现约40次故障。与传统云系统不同,ML超级集群是“紧耦合”系统,同步训练任务对故障极不耐受——单次链路故障会导致整个系统暂停,大幅降低系统吞吐量。

从故障模式来看,光模块的故障类型超过100种(呈现“长尾分布”),实现10倍或100倍的可靠性提升难度极大。具体故障原因包括:固件问题(主要故障类型之一)、制造质量问题(如组件装配缺陷),而激光可靠性问题尚未出现。此外,光模块内部的绑线(wire bond)与环氧树脂(epoxy)是故障高发点,两者导致的故障在模块故障中占比显著。

2. 设计与测试的优化需求

为提升光模块可靠性,需从设计、制造与测试三方面改进:
- 设计层面:减少模块内部的离散组件,推进无引线键合、无环氧树脂设计,降低故障源;
- 制造与测试层面:增加老化测试(soak test与burn-in test),筛选出早期失效(infant mortality)的模块,消除间歇性链路波动,最终提升平均无中断时间(MTBI)与平均无故障时间(MTBF);
- 诊断层面:加强遥测(telemetry)与诊断能力,实现更快、更精准的故障定位,缩短平均修复时间(MTTR)。
此外,超大规模云服务商(Hyperscalers)运营着数百万个光收发器,通过仪表盘实时监控模块参数与故障场景,掌握比模块厂商更全面的现场故障数据与症状,这为厂商与云服务商的协作提供了基础——双方可通过数据共享优化模块设计与测试标准。
五、未来技术方向

为支撑AI/ML系统的持续规模化,光互连技术需在以下方向突破:
1. 高密度模块:开发更高集成度的光模块,提升单位空间的带宽密度;
2. 高速率链路:推进400G/ lane的链路技术,进一步提升单通道带宽;
3. 低功耗并行链路:研发TRO、LPO、NPO(近封装光)、CPO(共封装光)等低功耗技术,平衡带宽与能耗;
4. O波段相干系统:完善O波段少波长相干设计,适配数据中心内部的规模化需求;
5. 可靠性提升:持续优化光模块的无引线键合、无环氧树脂设计,强化制造测试流程,提升长期稳定性。
六、总结
光互连技术是Google TPU系统支撑AI/ML规模化的核心支柱之一——从TPU v3的首次引入,到v7的1.77PB共享内存与200G波特率,光互连实现了拓扑创新、带宽提升与延迟优化。当前,系统需在功率效率与光谱效率间平衡,解决可靠性“长尾故障”与低延迟需求,而相干传输、新型调制器、空心光纤及高可靠性设计将成为未来关键突破点。这些技术的演进,不仅将推动TPU系统性能提升,也将为全球AI/ML基础设施的规模化提供核心支撑。