首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >OFC 2025:Celestial AI的Photonic Fabric技术助力AI时代的内存与网络革新

OFC 2025:Celestial AI的Photonic Fabric技术助力AI时代的内存与网络革新

作者头像
光芯
发布2025-04-08 21:44:15
发布2025-04-08 21:44:15
8100
举报
文章被收录于专栏:光芯前沿光芯前沿

Celestial AI公司的这份报告聚焦于其用于内存和计算解耦的技术平台——Photonic Fabric,详细阐述了光子学在AI领域的机遇、公司的解决方案、对AI大模型的影响以及相关演示结果。以下是对该报告的详细分析:

1. AI对内存和网络的需求及挑战

◆ 内存方面

AI的发展催生了新一代对GPU到GPU以及GPU到内存互连的需求。内存墙问题凸显,AI模型规模(以参数计数衡量)在7 - 8年内呈指数级增长,提升了7 - 8个数量级,而GPU上的未封装内存无法存储当前实际实施的模型大小,未来这一情况将更严峻。为解决此问题,内存解耦是一种方案,即将内存置于单独机架,但由于高带宽内存原本是短距离电气连接,实现内存分离需采用光连接。

◆ 网络方面

数据中心网络中,传统网络在底部多为以太网,向外扩展Scale out 的网络多为Infiniband,而向上扩展网络Scale up是AI系统核心,承载85%的流量。XPU封装带宽至关重要,它决定了网络效率和延迟。随着时间推移,封装带宽虽稳步增长(约每2年提升2倍),如从Nvidia的Blackwell(去年的GB 200,双工带宽达14.4 Tbps)到Ruben的28 Tbps,但未来需求将呈指数增长,最终受物理限制,必须采用光子学技术。

2. Celestial AI的Photonic Fabric技术平台

◆ 技术概述

这是一个全栈解决方案,涵盖全部的物理层。公司设计了驱动光子集成电路(PIC)的专用集成电路(ASIC),该ASIC具备多种数字功能,并通过先进封装技术整合ASIC包含光子学模拟和混合信号(AMS)模块(如调制器驱动器、跨阻放大器等)、媒体访问控制(Omac),可进行链路管理、前向纠错(FEC)、FLIT生成,拥有完整的网络收敛层,对系统软件使用的网络具有透明性。技术采用台积电4/5nm CMOS工艺开发,其中PIC集成了所有光子元件。

◆ 关键技术细节

① 调制器选择

使用电吸收调制器(EAM)而非马赫 - 曾德尔干涉仪(MZI)或环形谐振器。EAM兼具环形谐振器的极端紧凑性和MZI的热稳定性,可将I/O放置在系统任意位置。例如,在功率消耗达数千瓦的GPU等芯片下放置该I/O,光子学不受热环境影响。

② 可扩展性

基于该技术,可实现芯片内互连,也能构建芯片间、芯片到内存或结构到结构的连接,扩展了应用范围。

3. 基于Photonic Fabric技术的产品

◆ GPU侧产品

采用小芯片(Chiplet)技术,便于进入市场和XPU生态系统。客户的AI XPU具有高速串行接口(如UCIe或MAX PHY),Celestial AI在其ASIC上设置相同PHY和IP,构建可与光子学通信的系统。

每个小模块提供1 Tbps/mm²的带宽密度,如正在开发的包含8个模块的产品芯片,第一代产品总封装带宽超14 TB/s,优于HBM.3E,可媲美Nvlink的带宽,且为光连接,传输距离可达50米;第二代产品带宽将接近30 Tbps,且该I/O占用芯片面积不到10%,还可置于ASIC内部,不占用芯片边缘(“beachfront”)位置,便于芯片边缘用于其他功能。

◆ 内存侧产品

开发了光互连的HBM,为标准生产的HBM添加相同光接口,推出Photonic fabric模块(或fabric memory模块)。每个模块包含2个HBM和4个DDR DIMM,其核心ASIC集成了内存控制器、光I/O接口及与光子学交互的功能。

该ASIC位于芯片中央(不同于传统将光子学I/O置于边缘),底部有HBM控制器,两侧有DDR控制器,顶部有PCIE控制器,内部还有交叉开关,使其兼具中等基数交换机功能。每个模块的HBM容量为48 - 72GB,可支持高达2TB的DDR,通过HBM缓存DDR实现以HBM速度访问DDR存储,且模块内的16端口交换机可用于构建扩展网络。

◆ Photonic Fabric机架

将16个上述模块集成在1RU或2RU系统中,该设备内存容量达33TB(HBM速度),具有超100 Tbps的交换机(每个模块内置超10 Tbps交换机)。利用此设备可构建扩展网络,如连接16个XPU或GPU形成全连接网络,也可构建多层级、类似传统技术的网络,如连接128个XPU,同时可提供高速网络存储(以HBM速度访问800TB存储)。

4. 对AI模型的性能影响

◆ 内存需求与序列长度

以llama 3.1(4500亿参数模型,使用8个H100 GPU)为例,不同序列长度对每GPU内存需求不同。序列长度短时(如256),内存需求在H100的80GB限制内;但实际模型需更长序列长度(接近10000),此时即使小批量大小,内存需求也远超本地GPU处理能力,因此需构建扩展网络。

◆ 批量大小对模型的影响

对于大语言模型(LLMs)推理过程中的解码阶段(呈红色部分),由于其自回归特性,难以充分利用GPU。以H100 dgx box为例,序列长度为256时对基础设施无压力但不实用;序列长度增大到8000以上时,在单个DGX box上,当批量大小达到50以上,因内存不足,模型浮点运算利用率(flop utilization)仅为5%。而使用Photonic Fabric,可将批量大小提升至500,使浮点运算利用率提升5倍。对于更大模型,提升效果更显著,某些模型在特定用例中可提升100倍。

◆ 不同模型的性能提升

对llama 450(3.1)模型,使用OIO相对仅使用NVLink,性能提升3倍;外推到1万亿参数模型,提升可达4倍。对于推荐模型(如Amazon和Netflix使用的),其计算中会创建巨大嵌入表,内存限制更明显,以流行的推荐模型Dlrm为例,性能提升可达23倍。且该分析仅基于10TB的OIO设备,实际可按需扩展至数百TB,以适应未来模型发展。

5. 光引擎的表征数据

◆ 光电芯片样品

展示的是第三代样机(第四代即将推出并确定生产设计)。核心为5nm ASIC,具有高密度AMS模块,包含16个收发器通道,中间有4个四通道组件,每个角的4Rx、4Tx收发器尺寸约为0.5mm×0.5mm,可提供400Gbps带宽,总面积小于2平方毫米,双工带宽近2Tbps,实现了1Tbps/mm²的带宽密度,且具备量产条件(包含所有电源供应、重定时Retimer、低压差线性稳压器LDO等,经尺寸调整以满足生产要求)。

PIC与ASIC协同设计,通过光纤接口连接,使用光栅耦合器(适用于高端口数且需与半导体封装兼容的解决方案)。

◆ 光路设计与性能指标

① 光路设计

采用外部光源(光引擎,包含8个激光外部封装,来自多个供应商的成熟产品,为4波长DWDM系统)。激光通过复杂的分光和重组网络,每个波长对应一个EAM,经4×1复用器从芯片输出,每根光纤传输224Gbps数据,通过MPO连接器到接收端,接收端进行4 - 1解复用。

② 发射端

有完整的64 - 1串行器(是其自主IP一部分),调制器驱动器为高摆幅驱动器(1.8V摆幅),由于集成串行器,无需传输全板速率数据,降低了系统功耗。展示的眼图误码率(BER)曲线可达1E-18,消光比通常在3.5 - 4dB。

③ 接收端

包含完整的解串器(作为serdes一部分),经过TIA后有简单的模拟前馈均衡(1个预加重和1个后加重),之后是8个四分之一采样器,对数据进行解串。展示的浴盆曲线表明链路可在BER为1E-12下工作,灵敏度约为 - 11至 - 10dBm。在BER为1E - 9时,抖动约为0.2UI,整个系统经过多代验证。

由于serdes集成在系统中,接收器输出非单通道,而是已解串为64位,需通过serdes中的内建自测试(BIST)结构捕获眼图,展示的BIST输出扫描X和Y轴得到的眼图非常清晰。整个光 - 电路径的能量效率为2.8pJ/bit(不包含外置激光器),这是包含serdes的完整可生产ASIC实现的效率,该效率对于挑战Nvlink等电子连接在扩展网络中的地位至关重要(Nvlink在功耗、密度和能量方面效率极高,仅在传输距离上受限)。

6. 问答环节补充信息

◆ 链接能耗预算

当前展示的链接能量预算不包含激光部分,激光能耗约为1pJ/bit量级,公司正在研究更高效的激光。

◆ EAM温度稳定性

EAM的固有稳定性约为35 - 40°C,即温度瞬间变化30 - 35°C时其性能不受影响。若超出此范围,公司有基于偏置的简单控制方案,可将温度范围扩展至85°C。在GPU工作负载变化导致局部温度快速小幅度变化时(虽只有几摄氏度,但变化快,一般控制方案难以及时响应),EAM的固有温度稳定性至关重要。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档