OFC 2025：Celestial AI的Photonic Fabric技术助力AI时代的内存与网络革新

光芯

发布于 2025-04-08 21:44:15

8100

文章被收录于专栏：光芯前沿光芯前沿

Celestial AI公司的这份报告聚焦于其用于内存和计算解耦的技术平台——Photonic Fabric，详细阐述了光子学在AI领域的机遇、公司的解决方案、对AI大模型的影响以及相关演示结果。以下是对该报告的详细分析：

1. AI对内存和网络的需求及挑战

◆ 内存方面

AI的发展催生了新一代对GPU到GPU以及GPU到内存互连的需求。内存墙问题凸显，AI模型规模（以参数计数衡量）在7 - 8年内呈指数级增长，提升了7 - 8个数量级，而GPU上的未封装内存无法存储当前实际实施的模型大小，未来这一情况将更严峻。为解决此问题，内存解耦是一种方案，即将内存置于单独机架，但由于高带宽内存原本是短距离电气连接，实现内存分离需采用光连接。

◆ 网络方面

数据中心网络中，传统网络在底部多为以太网，向外扩展Scale out 的网络多为Infiniband，而向上扩展网络Scale up是AI系统核心，承载85%的流量。XPU封装带宽至关重要，它决定了网络效率和延迟。随着时间推移，封装带宽虽稳步增长（约每2年提升2倍），如从Nvidia的Blackwell（去年的GB 200，双工带宽达14.4 Tbps）到Ruben的28 Tbps，但未来需求将呈指数增长，最终受物理限制，必须采用光子学技术。

2. Celestial AI的Photonic Fabric技术平台

◆ 技术概述

这是一个全栈解决方案，涵盖全部的物理层。公司设计了驱动光子集成电路（PIC）的专用集成电路（ASIC），该ASIC具备多种数字功能，并通过先进封装技术整合。ASIC包含光子学模拟和混合信号（AMS）模块（如调制器驱动器、跨阻放大器等）、媒体访问控制（Omac），可进行链路管理、前向纠错（FEC）、FLIT生成，拥有完整的网络收敛层，对系统软件使用的网络具有透明性。技术采用台积电4/5nm CMOS工艺开发，其中PIC集成了所有光子元件。

◆ 关键技术细节

① 调制器选择

使用电吸收调制器（EAM）而非马赫 - 曾德尔干涉仪（MZI）或环形谐振器。EAM兼具环形谐振器的极端紧凑性和MZI的热稳定性，可将I/O放置在系统任意位置。例如，在功率消耗达数千瓦的GPU等芯片下放置该I/O，光子学不受热环境影响。

② 可扩展性

基于该技术，可实现芯片内互连，也能构建芯片间、芯片到内存或结构到结构的连接，扩展了应用范围。

3. 基于Photonic Fabric技术的产品

◆ GPU侧产品

采用小芯片（Chiplet）技术，便于进入市场和XPU生态系统。客户的AI XPU具有高速串行接口（如UCIe或MAX PHY），Celestial AI在其ASIC上设置相同PHY和IP，构建可与光子学通信的系统。

每个小模块提供1 Tbps/mm²的带宽密度，如正在开发的包含8个模块的产品芯片，第一代产品总封装带宽超14 TB/s，优于HBM.3E，可媲美Nvlink的带宽，且为光连接，传输距离可达50米；第二代产品带宽将接近30 Tbps，且该I/O占用芯片面积不到10%，还可置于ASIC内部，不占用芯片边缘（“beachfront”）位置，便于芯片边缘用于其他功能。

◆ 内存侧产品

开发了光互连的HBM，为标准生产的HBM添加相同光接口，推出Photonic fabric模块（或fabric memory模块）。每个模块包含2个HBM和4个DDR DIMM，其核心ASIC集成了内存控制器、光I/O接口及与光子学交互的功能。

该ASIC位于芯片中央（不同于传统将光子学I/O置于边缘），底部有HBM控制器，两侧有DDR控制器，顶部有PCIE控制器，内部还有交叉开关，使其兼具中等基数交换机功能。每个模块的HBM容量为48 - 72GB，可支持高达2TB的DDR，通过HBM缓存DDR，实现以HBM速度访问DDR存储，且模块内的16端口交换机可用于构建扩展网络。

◆ Photonic Fabric机架

将16个上述模块集成在1RU或2RU系统中，该设备内存容量达33TB（HBM速度），具有超100 Tbps的交换机（每个模块内置超10 Tbps交换机）。利用此设备可构建扩展网络，如连接16个XPU或GPU形成全连接网络，也可构建多层级、类似传统技术的网络，如连接128个XPU，同时可提供高速网络存储（以HBM速度访问800TB存储）。

4. 对AI模型的性能影响

◆ 内存需求与序列长度

以llama 3.1（4500亿参数模型，使用8个H100 GPU）为例，不同序列长度对每GPU内存需求不同。序列长度短时（如256），内存需求在H100的80GB限制内；但实际模型需更长序列长度（接近10000），此时即使小批量大小，内存需求也远超本地GPU处理能力，因此需构建扩展网络。

◆ 批量大小对模型的影响

对于大语言模型（LLMs）推理过程中的解码阶段（呈红色部分），由于其自回归特性，难以充分利用GPU。以H100 dgx box为例，序列长度为256时对基础设施无压力但不实用；序列长度增大到8000以上时，在单个DGX box上，当批量大小达到50以上，因内存不足，模型浮点运算利用率（flop utilization）仅为5%。而使用Photonic Fabric，可将批量大小提升至500，使浮点运算利用率提升5倍。对于更大模型，提升效果更显著，某些模型在特定用例中可提升100倍。

◆ 不同模型的性能提升

对llama 450（3.1）模型，使用OIO相对仅使用NVLink，性能提升3倍；外推到1万亿参数模型，提升可达4倍。对于推荐模型（如Amazon和Netflix使用的），其计算中会创建巨大嵌入表，内存限制更明显，以流行的推荐模型Dlrm为例，性能提升可达23倍。且该分析仅基于10TB的OIO设备，实际可按需扩展至数百TB，以适应未来模型发展。

5. 光引擎的表征数据

◆ 光电芯片样品

展示的是第三代样机（第四代即将推出并确定生产设计）。核心为5nm ASIC，具有高密度AMS模块，包含16个收发器通道，中间有4个四通道组件，每个角的4Rx、4Tx收发器尺寸约为0.5mm×0.5mm，可提供400Gbps带宽，总面积小于2平方毫米，双工带宽近2Tbps，实现了1Tbps/mm²的带宽密度，且具备量产条件（包含所有电源供应、重定时Retimer、低压差线性稳压器LDO等，经尺寸调整以满足生产要求）。

PIC与ASIC协同设计，通过光纤接口连接，使用光栅耦合器（适用于高端口数且需与半导体封装兼容的解决方案）。

◆ 光路设计与性能指标

① 光路设计

采用外部光源（光引擎，包含8个激光外部封装，来自多个供应商的成熟产品，为4波长DWDM系统）。激光通过复杂的分光和重组网络，每个波长对应一个EAM，经4×1复用器从芯片输出，每根光纤传输224Gbps数据，通过MPO连接器到接收端，接收端进行4 - 1解复用。

② 发射端

有完整的64 - 1串行器（是其自主IP一部分），调制器驱动器为高摆幅驱动器（1.8V摆幅），由于集成串行器，无需传输全板速率数据，降低了系统功耗。展示的眼图误码率（BER）曲线可达1E-18，消光比通常在3.5 - 4dB。

③ 接收端

包含完整的解串器（作为serdes一部分），经过TIA后有简单的模拟前馈均衡（1个预加重和1个后加重），之后是8个四分之一采样器，对数据进行解串。展示的浴盆曲线表明链路可在BER为1E-12下工作，灵敏度约为 - 11至 - 10dBm。在BER为1E - 9时，抖动约为0.2UI，整个系统经过多代验证。

由于serdes集成在系统中，接收器输出非单通道，而是已解串为64位，需通过serdes中的内建自测试（BIST）结构捕获眼图，展示的BIST输出扫描X和Y轴得到的眼图非常清晰。整个光 - 电路径的能量效率为2.8pJ/bit(不包含外置激光器)，这是包含serdes的完整可生产ASIC实现的效率，该效率对于挑战Nvlink等电子连接在扩展网络中的地位至关重要（Nvlink在功耗、密度和能量方面效率极高，仅在传输距离上受限）。

6. 问答环节补充信息

◆ 链接能耗预算

当前展示的链接能量预算不包含激光部分，激光能耗约为1pJ/bit量级，公司正在研究更高效的激光。

◆ EAM温度稳定性

EAM的固有稳定性约为35 - 40°C，即温度瞬间变化30 - 35°C时其性能不受影响。若超出此范围，公司有基于偏置的简单控制方案，可将温度范围扩展至85°C。在GPU工作负载变化导致局部温度快速小幅度变化时（虽只有几摄氏度，但变化快，一般控制方案难以及时响应），EAM的固有温度稳定性至关重要。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-04-08，如有侵权请联系 cloudcommunity@tencent.com 删除

fabric