前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >AFL白皮书:用于AI数据中心的高级网络

AFL白皮书:用于AI数据中心的高级网络

作者头像
AIGC部落
发布2025-03-24 17:16:24
发布2025-03-24 17:16:24
910
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

——扩展光纤网络以满足未来的数据中心需求

本文探讨针对AI工作负载优化的数据中心的关键考量因素。由于大语言模型(LLMs)对计算能力需求不断增长,数据中心需先进网络和创新物理层解决方案。还将了解AI数据中心在能耗、冷却、物理空间、网络拓扑、前后端网络及可扩展性方面的特点,为后续深入研究奠定基础。

AI数据中心网络的差异

  1. 能耗:AI数据中心因高性能硬件和LLMs训练、推理的计算需求,能耗远超传统数据中心。训练阶段受硬件效率、数据集大小和模型复杂度影响;推理阶段虽计算强度低于训练,但实时计算场景下能耗仍高。
  2. 电力和冷却:AI工作负载功耗是传统CPU数据中心的300 - 1000倍,需先进散热管理。传统风冷散热不足,液体冷却(直接芯片冷却、后门热交换器、浸没冷却)更有效,但浸没冷却存在环境和兼容性问题。AI驱动的冷却策略可降低碳排放。
  3. 物理空间需求:相比传统超大规模数据中心,AI数据中心需更多物理空间来集成计算集群、放置专业硬件和冷却设施,且要预留可扩展空间,未来规模还将扩大。

网络拓扑

  1. Clos拓扑(Leaf-spine叶脊架构):提供无阻塞、高带宽连接,减少拥塞和任务完成时间。采用多级分组交换网络,叶脊架构确保端点间“跳数”少,具备高性能、高带宽、低延迟特点,且扩展性和容错性强。
  1. Torus拓扑:能高效分配计算任务,实现节点间低延迟通信,适合并行计算系统,但需非标准软硬件,仅大型AI/ML运营商采用。
  1. 光电路交换:ML训练连接模式稳定,可考虑用慢电路交换技术替代快分组交换,其优势是与波长、带宽、协议无关,功耗低,但目前尚未商业化,成本和可靠性存疑。
  2. 混合拓扑:结合不同结构元素,如核心层Clos网络、聚合层Dragonfly拓扑、计算集群Torus拓扑和层间光连接开关(OCS),具备独立层扩展、高可用性和成本优化等优点。
  3. 胖树网络:具有平衡连接、多路径和高扩展性特点,由ToR、叶和脊交换机组成。能实现等带宽分配、非阻塞性能、负载均衡和容错,适用于AI工作负载,便于管理和扩展。

前端网络(FENW)与后端网络(BENW)

  1. FENW:连接每个节点(CPU),通常有并行管理网络,用于数据管理,链接外部连接、数据存储和各类服务器。
  2. BENW:连接加速器,在训练时共享模型更新信息,创建低延迟网络。对延迟要求严格,连接密度高,采用专门网络协议和开关,如Nvidia的NVLink和Google的ICI。

其他关键要素

  1. 连接器选择:AI/ML服务器和交换机连接密度高,推动采用多光纤连接器,如MPO系列及新一代高密度连接器,MF VSFF连接器有望成为板载光学(OBO)外部连接标准。
  2. 电缆配置:AI数据中心需高质量电缆,光纤电缆因高速、可靠和抗干扰性成为理想选择,同时要注重电缆管理,采用结构化布线和颜色编码。
  3. 收发器和带宽选择:常用收发器有SFP+和QSFP28,考虑到未来需求,800GbE是前瞻性选择。
  4. 延迟和吞吐量优化:减少数据跳数、网络分段和使用高性能交换机可降低延迟,保证高速连接和合理拓扑可提高吞吐量。
  5. 服务质量(QoS):通过QoS机制为AI工作负载分配带宽,确保网络性能,采用流量整形、监管和排队技术。
  6. 边缘计算集成:边缘计算靠近数据源处理数据,降低延迟和带宽需求,可提升AI数据中心性能,保障数据安全。

AI数据中心后端网络要求

  1. 基本要求:提供无阻塞、无损分组传输,保持分组顺序,最小化抖动,远程直接内存访问(RDMA)至关重要,可通过InfiniBand或ROCE协议实现。
  2. 高效负载均衡(拥塞管理):根据训练或推理模型和作业流优化网络控制机制和参数,实现任务合理分配,包含冗余和故障转移措施。
  3. 综合网络控制:适应训练过程中动态网络需求,有效管理故障,确保可靠性,自动化连接过程,提高性能和可靠性。

构建大规模Clos网络

以支持131,072个端点的BENW为例,采用64端口交换机和800G或2x400G收发器构建非阻塞三阶段Clos拓扑,需计算交换机数量、光链路数量、功耗和服务器机架数量。

结论:

AI数据中心对先进AI技术需求增长,相比传统数据中心,能耗和散热问题突出,需要创新冷却和能源管理策略,以及高效光纤布线解决方案。在网络拓扑和后端网络设计方面,需实现加速器间低延迟连接。AFL的光纤网络解决方案能满足大规模AI和ML数据中心的连接需求,随着数据中心发展,高性能、节能光纤解决方案至关重要。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档