一、AI硬件平台定义
AI硬件平台由前端数据中心网络、Scale-Out集群网络、Scale-Up Pod网络等部分构成,包含CPU、GPU等计算单元,以及DPU、RDMA NICs等连接设备,实现与存储、其他系统及互联网等的连接。
二、AI平台接口
1. PCIe的作用与局限
通用计算平台长期依赖PCIe连接设备与主机CPU,其带宽约每3年翻倍,但无法满足AI平台对更高带宽和更低延迟的需求,促使加速器设计者寻找替代接口。
2. 其他接口
包括Nvlink、INFINIBAND以及自定义接口等,用于满足不同场景下的连接需求。
3. 新的Scale-up接口(UALink)
由UALink联盟开发,旨在为AI加速器提供优化的Scale-up解决方案,具备固定负载、虚拟通道、低延迟等特性,支持数百个加速器在一个pod集群中,聚焦低延迟、高带宽等方面。
三、加速器趋势
1. 功率不断增加,为在插槽内实现性能最大化,因为插槽内通信更高效,可处理更大工作负载。
2. I/O功率在总功率中的占比逐渐增大。
3. 封装内存容量不断提升,同时封装和电源解决方案占用空间更多。
四、Scale Up与Scale Out
1. Scale Up
指加速器之间紧密耦合的互连,通常使用铜缆以降低成本和功耗,可直接连接或通过交换机连接,带宽高,域大小适中(<1000个节点),需先进行Scale Up再进行Scale Out。
2. Scale Out
指更大的数据路径网络,通常使用传统网络适配器和交换机,短距离用铜缆,长距离用光纤,带宽中等,域大小大(数千个节点)。
3. 历史发展
非加速服务器经历了从Scale Up到Scale Out的过渡,大型SMP系统构建复杂,后来将复杂性转移到应用程序以管理大量服务器。
五、Scale Up相关要点
1. 域大小与带宽
AI平台需要更多功率、内存容量等,多种并行算法(如张量并行、管道并行、专家并行)都对高Scale Up带宽有需求,接口速度不断提升以满足带宽需求,且希望使用无源铜缆以降低成本和功耗,目前尚未完成从Scale Up到Scale Out的过渡。
2. 网络考虑
Scale Out通常由PCIe连接的传统网络适配器提供,可能影响密度,与Scale Up的带宽比约为10:1,不同机架的Scale Out交换机使用光收发器。
3. 互连与影响
pod大小受铜缆传输距离限制,每个加速器需相互连接或与交换机连接,pod大小增大会增加物理分离;Scale Up pod受复杂性、铜缆传输距离、封装密度等因素限制,可能需要液体冷却等特殊基础设施。
六、高密度计算趋势及影响
1. 趋势
AI集群的规模不断扩大,远超HPC超级计算机和大型机。
2. 次要影响
包括需要液体冷却以减小机箱尺寸,气流管理困难,维护性降低,以及液体冷却带来的泄漏控制和检测问题。
3. 液体冷却
HPC率先采用液体冷却,AI平台也逐渐更多地使用液体冷却,AI对功率的高需求推动流体温度降低,且液体冷却会增加组件拆卸难度。
七、铜互连与光学互连
1. 铜互连限制
存在多种损耗,随着比特率增加,短距离将向光学过渡。
2. 光学互连
AI的发展推动光学互连的应用,预计在计算层面也将很快采用;但光学互连在短距离应用中面临冷却、硅封装尺寸、激光器可靠性和成本等挑战;同时,光学互连除了提供高带宽、低功耗解决方案,还能简化AI系统中的一些挑战,如允许降低密度等。
八、总结
1. 目前AI硬件平台主要推动高密度解决方案,以最小化铜互连长度。
2. 高密度平台带来了液体冷却等额外问题。
3. 未来若光学互连成本、功耗足够低且可靠性高,可能取代铜作为本地互连,此时密度的重要性将降低。
以下为完整Slides: