要点速览
- 基于PCIe 横向跨节点扩展AI集群的设想(Fig-2)
- 长距离 PCIe 线缆设计原型、信号处理方法、线缆选型(Fig-7/8/10)
Fig-1
AI基础设施扩展挑战
- AI模型持续扩展:
- 模型规模以6个月为周期翻倍增长。
- 随着多模态数据不断增加,模型规模会加速扩张。
- 需要更大的GPU集群:
- 每个机架的功率受限:
- 功耗限制:
总结: AI基础设施面临的主要挑战包括模型规模指数增长、GPU集群需求增加、功耗限制及热量管理。这对扩展多个机架中的计算集群带来了巨大压力。
Fig-2
左图是当前数据中心基于PCIe线缆实现的单机架互联通信,线缆长度不超过3m;
下一代PCIe希望延展到7m,已满足更大集群的互联通信。
Fig-3
基于PCIe扩展AI基础设施
左侧机架设计有以下几个亮点:
- 单个机架中包含通用计算节点(Compute)和AI加速节点(AI Cluster)
- 加速节点的设计,不是当前业界CPU+GPU的耦合设计,而是借鉴集中式存储架构,将控制节点和计算节点解耦,构建计算头节点(AI Headnode)和 AI加速计算阵列 JBOG(Just Bunch of GPUs),两者之间使用高速PCIe链路互联。
Note
这样设计的优势在于,简化GPU服务器主板设计,优化空间结构同时降低单位密度能耗;但节点间需要更密集的PCIe线路互联。
Fig-4
由于AI/ML工作负载导致的内存瓶颈
AI模型复杂度每6个月翻倍:
图表显示,AI工作负载需求持续增加(单位:Petaflops-days)。
需要更高的CPU效率和内存扩展能力。
每核心的内存带宽在下降:
图表展示CPU核心数量的增长,但每核心的内存带宽呈下降趋势。
原因:内存带宽未能跟上CPU扩展的速度。
服务器CPU封装和热量限制内存通道数量:
由于CPU的封装设计和热量管理,内存通道受到限制。
结果:CPU引发内存瓶颈,影响整体性能。
内存容量与计算节点绑定:
当前设计中,内存容量与计算节点(如CPU)紧密耦合。
内存资源因耦合设计被闲置,导致过度配置(over provisioning)。
Note
现代化数据应用系统内存瓶颈(内存墙)的客观原因:AI模型对内存容量的需求(容量和带宽)不断增大、服务器多核设计导致单位核心内存带宽下降(推理可能还是会在CPU上进行)、CPU封装线脚有限、计算和内存节点耦合设计。
Fig-5
异构基础设施的兴起
Converged Infrastructure(传统融合架构)
- 特点:
- 每个节点均包含固定的CPU、内存(DIMMs)、存储设备(Drives)、GPU和网络接口卡(NICs)。
- 配置静态,资源被捆绑(Stranded Resources)。
- 系统设计刚性(Rigid System Design),存在固定的托管成本(Fixed Hosting Costs)。
- 问题:
- 资源无法动态调配,易造成资源浪费。
- 缺乏灵活性,难以适应不同的工作负载需求。
运维成本挑战(OPEX Challenges)
- 高PUE(电源使用效率低):传统架构散热和电力管理成本高。
- 热管理难题:硬件密集排布导致热量集中难以有效散散。
- 软件性能优化复杂:传统架构因资源耦合需要复杂的性能调优。
---
Disaggregated/Composable Infrastructure(解耦/可组合架构)
- 特点:
- 各种硬件资源模块(CPU、NIC、存储设备、内存、GPU等)独立存在,通过PCIe/CXL交换机动态互联。
- 可根据工作负载需求,灵活组合不同类型的硬件资源。
- 优势:
- 高效性能(Efficient Performance):硬件资源按需组合,最大化资源利用率。
- 灵活成本模型(Flexible Cost Model):资源不再固定,降低托管和扩展成本。
- 低PUE(电源使用效率):集中冷却设计,更高效的散热管理。
- 裸机性能(Bare-Metal Performance):减少虚拟化和资源隔离的性能损耗。
解耦和可组合架构通过将硬件资源模块化设计,利用高速互联(如PCIe/CXL),可以根据工作负载需求动态组合硬件,显著提升资源利用效率、降低成本并简化运维。这种架构尤其适合多样化的AI/ML工作负载和动态云计算环境的需求。相比传统融合架构,其灵活性和性能优化潜力更高。
Fig-6
基于PCIe 扩展CPU计算节点的内存(JBOM)
Fig-7
PCIe 布线方案
外部布线覆盖范围的考量(External Cabling Reach Considerations)
1. 机架内布线(Within-the-rack)
- 场景:如AI服务器的头节点(Headnode)连接到GPU阵列(JBOG)。
- 技术:使用PCIe被动DAC(Direct Attach Cable)和Aries主动升降卡(Active Riser Card)。
- 覆盖范围:电缆长度最长3米。
- 特性:
- 支持完整的PCIe信道预算(Full PCIe channel budget)。
2. 机架间布线(Across-racks)
- 场景:如JBOG之间的连接。
- 技术:使用PCIe AEC(Active Electrical Cable,需要Retimer强化信号),带有集成的信号整形(Integrated Retimer)。
- 覆盖范围:电缆长度最长7米。
- 特性:
- 提供信号再生,确保数据传输完整性。
- 支持完整的PCIe信道预算。
3. 行间布线(Across-rows)
- 场景:未来可能的交换机(Switch)到交换机连接。
- 技术:使用PCIe AOC(Active Optical Cable),带有集成的信号整形。
- 覆盖范围:光纤长度最长50米。
- 特性:
- 使用光纤实现超长距离传输。
- 受限于延迟和PCIe重试缓冲深度(Latency and PCIe Retry Buffer Depth),而非光学或电气技术本身。
- 短距离(机架内,3米):使用被动DAC,适合紧凑的物理布局。
- 中距离(机架间,5-7米):使用AEC实现信号增强,满足多机架布线需求。
- 长距离(行间,20-50米):使用AOC,基于光纤技术,可支持数据中心更大范围的设备连接。
这些设计通过优化不同距离的信号传输技术,有效满足从机架内到跨行的大规模AI计算集群需求。
Retimer 在远距离信号传输中的作用
Retimer 是在远距离高速信号传输中提高信号完整性和可靠性的重要组件。它通过重新定时和均衡信号,克服了信号传输过程中因衰减和干扰而导致的质量问题。以下是它在远距离信号传输中的主要作用:
- 信号重生(Signal Regeneration):
- 随着信号在长距离电缆或光纤中传输,其幅度会减弱,且受到噪声和干扰的影响。Retimer 通过重新定时和重新驱动信号,使其恢复到初始的高质量状态,避免数据误码率(BER)的上升。
- 延长传输距离:
- 在 PCIe 或 CXL 等高速传输协议中,信号的物理传输距离受到带宽和衰减的限制。Retimer 的加入可以显著延长传输距离,例如从传统电缆的 3 米扩展到 7 米,甚至通过光缆扩展到 50 米。
- 降低信号抖动(Jitter):
- 信号抖动是高速传输中常见的问题,会影响时序和数据完整性。Retimer 能够重新定时数据流,去除信号的抖动,确保可靠传输。
- 多链路扩展支持:
- 在多链路(例如多个 GPU、JBOG)连接中,Retimer 保证每条链路的信号独立且完整,使复杂的多机架部署成为可能。
Fig-8
PCIe AECs 信号处理技术比较
表格说明了三种 PCIe 边带信号(REFCLK、PERST#、PRSNT#)的功能描述、在 AEC 中的处理方式及其替代方案。每种方案均具有优缺点,需根据实际需求选择适合的处理方式。
Fig-9
AECs:PCIe 与 Ethernet 的比较
两者的主要区别:
- 协议复杂性(Protocol Complexity):
- PCIe:
- 协议结构更简单,没有 PCIe 的复杂性。
- 支持向后兼容性。
- 需要复杂的链路训练(Link Training)。
- Ethernet:
- 需要复杂的链路训练(Link Training)。
- 互操作性(Interoperability):
- PCIe:
- 通常适用于统一的网络设备环境,互操作性要求相对较少。
- 支持多种设备类型和生态系统参与者(如 GPU、存储、网络设备等)。
- Ethernet:
- 更广泛的互操作性需求。
详细对比:
PCI Express(包括 CXL):
- 状态多样性:
- 包含多个“训练”状态(Training States),用于设备发现、链路宽度/速度配置、协议协商等。
- 低功耗状态(Low-power States):L0、L1、L2、L0s、L0p。
- 恢复状态(Recovery States):用于处理性能退化。
- 特殊状态:如 Reset、Hot Reset、Disabled。
- 复杂性:
- 协议状态图复杂,链路的初始化和训练过程较长。
- 适合需要高性能、复杂设备连接的场景,如 AI 加速、存储扩展等。
Ethernet:
- 状态简单:
- 基本上只有两个主要状态:链路关闭(Link-Down)和链路开启(Link-Up),中间有一个过渡训练状态。
- 功能限制:
- 没有专用的状态/协议来执行链路复位或禁用。
- 不支持低功耗状态。
- 不支持链路配置状态。
- 简化设计:
小结:
- PCIe 的特点:
- 协议复杂,支持更高级的设备发现、链路配置和低功耗状态。
- 更适合需要高带宽和复杂拓扑的应用(如 AI、存储和计算加速)。
- Ethernet 的特点:
- 协议简单,状态少,链路建立速度快。
- 更适合网络通信场景,复杂度低但缺乏高级功能。
因此,PCIe 更适合高速互联的计算和存储场景,而 Ethernet 更适合大范围、低复杂度的网络连接应用。
Fig-10
PCIe 线缆选型
对比的关键点
- 通道数量与尺寸:
- OSFP-XD 提供最多的 16 个通道,同时 PCB 尺寸更紧凑(2292 mm²)。
- QSFP 提供最少的 4 个通道,但 PCB 面积更大。
- 线缆支持与长度:
- 所有外形因子都支持被动 DAC 和主动 AEC。
- 在 64 GT/s 速率下,DAC 最大支持 3-4 米,AEC 支持 5-6 米。
- 功率能力:
- OSFP 和 OSFP-XD 的每通道功率能力最高,约 4.125W/通道,适合高性能应用。
- QSFP 的每通道功率最低,2.5W/通道,更适合低功耗场景。
- 光缆支持:
- 除了 CDFP,其他外形因子均支持主动光缆(AOC),便于更长距离的高效传输。
表格展示了 PCIe 布线规格差异,可根据带宽需求、功率要求及距离选择适合的布线解决方案。
Fig-11
- SFF-TA-1032 (CDFP) 使用电缆组件中的两块物理桨形卡(Paddle Card)。
- 这带来了一个重要挑战:如何将来自不同桨形卡的 Tx 和 Rx 信号连接到 Retimer 组件中?
- Rx 和 Tx 信号同时终止在 Retimer 中的必要性:
- 用于均衡阶段 2/3 的训练(Equalization Phase 2/3 Training)。
- 用于带内通道边界分析(In-band Lane Marginaling)。
技术细节:
- 上方图示为桨形卡的插针布局(Pinout),分为 上桨形卡(Upper Paddle Card Pinout) 和 下桨形卡(Lower Paddle Card Pinout)。
- Retimer 的作用是将不同桨形卡中的传输(Tx)和接收(Rx)信号重新定时和校正,确保信号质量。
Fig-12
Wrap Up
- 演进的 AI 和解耦计算系统拓扑:
- 需要更多的外部布线(External Cabling)以适应复杂的系统架构。
- 覆盖范围需求:
- 2米:适用于机架内布线。
- 7米:适用于机架之间的布线。
- 超过7米:适用于更大规模的集群部署。
- Retimer 支持的 AEC 和光学解决方案:
- 支持信号传输距离的延长,同时为主机/设备提供易于设计的 PCIe 合规接口。
- Retimer 的加入确保了信号的质量和完整性,是长距离传输的关键。
- PCIe AEC 和光学设计的复杂性:
- 相比 Ethernet,PCIe 的协议和互操作性设计更复杂。
- 涉及多个协议层的兼容性,适应不同类型的设备和生态系统。
- OSFP-XD/OSFP 的应用优势:
- 对于 PCIe/CXL x16/x8 应用而言,OSFP-XD/OSFP 是一个有吸引力的选择。
- 支持被动 DAC、主动 AEC 和光学解决方案,满足多种布线需求。