首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OFC 2025: AI时代的光互连需求

OFC 2025: AI时代的光互连需求

作者头像
光学小豆芽
发布2025-06-09 14:59:09
发布2025-06-09 14:59:09
6520
举报

今年OFC大会上,对于AI场景下scale-out/scale-up光互连的讨论异常热烈,有数十个相关的workshop与pannel discussion,如下图所示。有些大佬的同一个ppt在不同的workshop里反复出现,大佬们彼此间立场不同,反复阐述各自相同的观点,比较有意思。小豆芽这里梳理下相关的信息,方便大家参考。

图片
图片

随着AI大模型的发展,算力的需求每两年增加100倍。而单颗GPU算力每两年提升了3.3倍, 内存带宽提升了1.4倍,电互连带宽每两年增加1.4倍。因此业界开始采用多颗GPU组合成一个超节点(superpod)的方式,多个超节点形成AI集群,形成一个更大的计算单元来进行大模型的训练。如何高效地实现节点内与节点间的数据交互也就成为了一个重要的问题。光互连在其中扮演了不可替代的角色。

图片
图片

典型的AI集群网络架构如下图所示,超节点间的互联对应scale-out网络,也称为front-end网络,其网络架构与传统数据中心网络架构相似。多个超节点构成AI集群(cluster),即所谓的万卡、十万卡集群。由于其传输距离从几十米到几公里,scale-out网络主要采用可插拔光模块方案,Nvidia也在今年推出了CPO交换机方案。节点内的互联则对应scale-up网络,也称为back-end网络,目前主要采用铜缆方案,实现多颗GPU之间高带宽、低延迟的互联。对于scale-up网络,随着传输速率的进一步提升以及网络规模扩展导致的跨机柜互联需求,未来有望采用光学方案。Nvidia的NVL72服务器配置了72颗B200芯片, 18颗NV switch芯片, 共计5182根铜缆实现了GPU之间的全互联。

图片
图片

AI场景下的光互连主要有以下几个强需求,

  • 高带宽

交换机与光模块的带宽演进,如下图所示,交换机的总lane数达到512,单lane的速率达到200Gbps, 总带宽为102.4Tbps,每两年带宽一番。而对于光模块,其带宽约每四年一番。两者之间存在一定的不匹配,这主要通过增加光学通道数来解决。

图片
图片

(图片来自https://www.photonics.com/Articles/Charting_the_Path_Toward_16T_and_32T_Optical/a70490)

进一步增加光学通道数,主要有两个途径,更多波长或者更多光纤。小豆芽此前的一篇文章有所介绍,可以参看(AI互联下的带宽扩展: 更多波长还是更多光纤?)。下图给出了两种方案的对比,由于scale-out网络对高radix的要求,更多光纤的方案更加满足需求,但是光纤数目的增加带来了光纤管理的难度。

图片
图片
  • 低功耗

随着AI集群的进一步扩展,互联的功耗也相应增加。对于10万卡的AI集群,其光模块部分的功耗约为40MW。如何降低这一部分的功耗,让更多能量用于GPU的计算任务上?通过去除模块中的DSP芯片,利用ASIC芯片中的SerDes直接驱动OE光引擎,减小ASIC芯片与光引擎的距离,都可以降低整个链路的功耗,因而LPO与CPO的方案受到了业界的青睐。本届OFC大会中LPO与CPO的对比也是一个讨论焦点,这里不进行展开讨论。当信号速率达到200Gbps/lane时,铜缆的功耗约为4-5pJ/bit, 而传输距离被限制在2米以下,只能进行机架内的GPU互联,这一点限制了scale-up网络的扩展规模。

图片
图片

光学方案如果想要取代铜缆方案,能效比需要控制在5pJ/bit以下,双向带宽密度超过2.5Tbps/mm。当前报道的LPO典型功耗在10pJ/bit左右,Broadcom的CPO功耗为7pJ/bit,而Nvidia的CPO方案功耗为5.6pJ/bit。从能耗与带宽密度这两个角度看,基于多波长微环方案的CPO可能是最终解决方案。 

图片
图片
  • 高可靠性

对于AI互联网络来说,多颗GPU同时在进行并行计算,如果其中某一个器件失效,带来的影响是巨大的。因此AI互联对光引擎的可靠性提出了严苛的要求。Meta给出了Llama3运行54天中的故障失效分类,其中GPU自身失效的比例为58.7%,而网络互联相关的则占比8.4%。

图片
图片

可插拔光模块的失效原因中,PCB生产、wirebonding、光口污染、firmware故障等占据了很大的比例。AI集群高可靠性的要求对于光电器件的生产、组装等环节严格把控,以确保质量。相比于可插拔光模块与LPO, CPO由于采用晶圆级加工,器件集成度高,减小了中间链路的数目与潜在的故障点,从而降低链路抖动(link flap)的发生,如下图所示, 可插拔光模块的连接点数目为6,而CPO只有一个连接点。通过对光引擎的known-good-die测试,确保了封装前光引擎可以正常工作。通过采用外置可插拔激光器模块, 将最容易失效的激光器分离出去,如果出现故障,可以快速简单地进行替换。因此CPO的高可靠性,可以保障AI集群较长时间的稳定正常工作。Nvidia给出了一个具体的数据,通过使用其CPO交换机,网络韧性(resilence)提升了10倍。

What-is-CPO-CPO.jpg
What-is-CPO-CPO.jpg
  • 低成本

关于AI集群的互联成本要求,不同的workshop给出的数据略有区别,典型的要求为0.1$/Gbps。而目前可插拔光模块的价格大约0.5$/Gbps。这两个数字间还存在一定的差距。大多数的报告没有对成本进行分析讨论。VCSEL可否凭借其成本优势应用到在scale-up网络中?Lumentum、Coherent、Furukawa等公司都在进行基于VCSEL方案的CPO开发。

以上是对AI场景下光互联需求的简单整理,包括高带宽、高带宽密度、低功耗、高可靠性、低成本等。实际网络部署时,需要考虑的因素会更多,可能需要做一些权衡,无法做到每一个维度都是最优的选择,如下图所示。光互连在带宽与传输距离的优势,其必定会取代铜缆方案,应用于scale-up网络中。当然铜缆方案也在继续演进,例如CPC(co-packaged copper)方案。对于scale-out网络,短期内可能还是以可插拔光模块为主。CPO技术是否会提早应用于scale-up网络中?在Nvidia的技术路线中,希望GPU的带宽每两年提升一倍,scale-up中的GPU数目每两年提升2-4倍。这对AI集群的光互联提出了演进的要求与方向。AI技术的蓬勃发展,成为了光互连演进的强大动力。光互连成为了AI基础设施中非常重要的一部分,需要从各个维度进行努力,为AI提供稳定可靠的高速数据通路。

图片
图片
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光学小豆芽 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档