首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >窄而快VS宽而慢:NVIDIA揭秘AI数据中心光学互连的演进与破局之道

窄而快VS宽而慢:NVIDIA揭秘AI数据中心光学互连的演进与破局之道

作者头像
光芯
发布2025-10-29 15:50:04
发布2025-10-29 15:50:04
770
举报
文章被收录于专栏:光芯前沿光芯前沿

本次报告由 NVIDIA 公司科学家 Liron Gantz 在Optica Industry Meeting上报告,核心聚焦光学互连的研究愿景(非最终产品定义),旨在通过光子技术解决 AI 大规模部署中的低延迟、高带宽与低功耗需求。

一、研究范围:两大核心网络领域界定

Liron 首先明确了 AI 数据中心中光学互连的两大应用场景,两者在连接范围、主导介质上存在显著差异:

- Scale-up:

定义为“将大量 GPU 通过高带宽连接整合为一个‘超节点’”,物理范围限于单个机架,当前主导连接介质为铜。核心需求是实现机架内 GPU 间的高效协同,突破单机架算力上限。

- Scale-out:

定义为“连接多个机架或整个数据中心”,覆盖范围从米级到公里级,此前长期由可插拔光收发器主导。核心需求是实现跨机架、跨数据中心的长距离高带宽通信。

二、现有技术痛点:可插拔光模块的“不可扩展性”

针对当前主流的可插拔光模块,Liron 指出其存在两大核心限制,导致功耗与性能难以匹配 AI 规模化需求:

1. 凸点数量限制:ASIC与PCB封装之间的凸点(Bump)数量有限,直接制约引脚密度,无法支撑更高带宽的信号传输。

2. 距离导致的损耗:ASIC 与光引擎之间物理距离较远,信号传输中会产生大量损耗,进而转化为额外热量,增加散热压力,最终推高整体功耗。

Liron 强调,从实测功耗数据来看,当前可插拔光模块的设计已“难以扩展”,无法满足 AI 数据中心持续增长的算力与能效需求。

三、核心解决方案:CPO(共封装光学)技术

为解决可插拔光模块的痛点,NVIDIA 推出 CPO 技术,其核心逻辑是“缩短光引擎与 ASIC 的距离”:

- 技术原理:将光引擎直接集成到 ASIC 所在的有机封装或 MCM(多芯片模块)上,大幅缩短信号传输路径。

- 关键成效:仅通过“物理集成”这一调整,即可实现60%的功耗降低,同时减少信号损耗与散热需求。

- 合作与工艺:NVIDIA 采用了 TSMC(台积电)的共封装工艺,验证了 CPO 技术的量产可行性,但目前仍受“凸点数量”限制,带宽潜力未完全释放。

- 配套概念“窄而快”:CPO 当前采用“窄而快”设计思路——即使用单波长高速调制(如 200G、400G 速率),通过提升单通道速率弥补带宽限制,这也是 NVIDIA 早期 CPO 产品的核心设计逻辑。

四、未来技术路径:“窄而快”vs“宽而慢”的选择

Liron 提出两种光学互连的长期演进路径,明确了 NVIDIA 对未来方向的判断:

1. 短期路径:窄而快(Narrow and Fast)

- 核心逻辑:依赖单波长或少量波长,通过“提升单通道调制速率”实现带宽增长(如从 100G 升级至 200G、400G)。

- 已发布产品:Spectrum X、Quantum X——这两款 CPO 交换机是“窄而快”路径的代表,已在年内发布。

- 局限性:能效提升呈“边际递减”,随着速率提升,电子学部分的能耗与信号噪声会快速增加,难以持续优化。

2. 长期路径:宽而慢(Wide and Slow)

- 核心逻辑:采用多波长或多并行通道,以“降低单通道速率”换取更高能效(如用 10 个 100G 通道替代 1 个 1000G 通道)。

- 关键支撑技术:

◆ 先进封装:需采用 2.5D 光学集成——在光引擎与有机封装之间增加“中介层”(Interposer),大幅提升凸点数量与引脚密度,支撑多通道并行传输。

◆ 紧凑调制器:选用“微环调制器”(Ring Modulator),其体积小、集成度高,可在有限空间内实现多通道调制。

- 核心优势:将性能提升的“负担”从“电子学”转移到“光子学”——Liron 认为,当前光子学技术仍处于“初级阶段”,在调制效率、集成度等方面有巨大提升空间,是更可持续的长期方向。

五、未来优化方向:四大技术突破点

为推动“宽而慢”路径落地,NVIDIA 明确了四大关键优化领域:

1. 高效调制器研发:目标不是“更快的调制速度”,而是“更高的能量效率”,降低每比特信号的调制能耗。

2. 接收灵敏度提升:通过采用 APD(雪崩光电二极管)或集成增益模块,增强光信号接收端的灵敏度,减少信号损耗带来的性能损失。

3. 热调谐优化:一方面改进加热器设计,另一方面提升温度隔离能力,减少环境温度变化对光器件性能的影响,降低热管理功耗。

4. 拓扑保护设计:通过器件结构优化,提升光器件对“工艺偏差”的抗干扰能力,减少因制造误差导致的性能波动,进而降低额外的热调谐需求与功耗。

此外,Liron 特别提到:“宽而慢”路径高度依赖激光器厂商——需其提供“多波长激光器”(如相干光源、锁模激光器),以支撑多通道并行传输。

六、问答环节:关键行业观点与指引

1. 对光子学行业的公开指引

Liron 明确:短期内(1-2 代产品),“窄而快”路径仍有价值,铌酸锂(Lithium Niobate)调制器或等离激元(Plasmonic)调制器可在高速场景中发挥作用;但长期来看,行业必须转向“宽而慢”路径,提前布局先进封装与多波长激光器技术。

2. 对全光交换(OCS)的看法

认为 OCS(纯光交换)不会取代当前的电气互连,更可能作为“额外的网络层”存在——适用于特定拓扑重构场景,但无法覆盖所有互连需求,最终会形成“电气互连+OCS”的混合网络架构。

3. 光学技术优先级判断标准

核心指标是每比特能耗(皮焦/比特,pJ/bit) ——无论技术路径(scale-up/scale-out、光子加速器),最终选择“能耗更低”的方案。Liron 提到,若能实现“亚皮焦/比特”的链路(已在论文中验证Nvidia:迈向<1pJ/bit高速光互连的路线图),光学技术将在 scale-up 领域(与铜竞争)具备吸引力。

4. 2D 光纤阵列的重要性

随着 2.5D 集成落地,光引擎体积会大幅缩小,传统一维光纤排列无法在有限的边沿(Beachfront)内连接足够多的光纤——因此2D 光纤阵列是必然选择,且更倾向“表面耦合”(如光栅耦合器,但非唯一方案),而非难度更高的边缘耦合。

七、核心结论

NVIDIA 认为,AI 数据中心的光学互连已进入“转型期”:短期通过 CPO 技术(窄而快)解决当前功耗痛点,长期需通过“宽而慢”路径+2.5D 封装+多波长技术,将性能提升的核心从电子学转移到光子学,最终实现“亚皮焦/比特”的超低能耗,让光学技术同时覆盖 scale-up 与 scale-out 场景。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档