SuperMicro:AI存储硬件方案-Fig-1
云厂商 AI存储方案
大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。
最高性能的 AI 训练和推理。
存储需求:
- • 全部为 NVMe 存储。
- • 每个 SU 的性能要求:读取 125 GBps / 写入 62 GBps。
- • InfiniBand 或 Ethernet/RDMA,速率为 200Gb/s 或 400Gb/s。
- • 并行文件系统,高性能对象存储。
右下角图片显示单节点/单SU/4SU不同体系读写带宽,Good/Better/Best不同性能依据存储硬件配置(如SATA/SAS/NVMe SSD)和网络带宽条件。
SuperMicro:AI存储硬件方案-Fig-2
企业级AI存储方案
Pod 级别的部署(较云厂商规模、性能要求降低)
企业用例,推理与训练的比较
存储需求:
- • 全 NVMe 或 PB 级别的分层存储。
- • 性能与总体拥有成本(TCO)之间的平衡。
- • 大于 100 Gbps,首选以太网。
- • RDMA 可选。
- • 并行文件系统,高性能对象存储。
SuperMicro:AI存储硬件方案-Fig-3
基础计算硬件方案
在执行 AIOps 和 MLOps 时:
- • GPU 密集型服务器加速 AI 训练和推理。
- • GPUDirect 存储直接从/向 GPU 内存传输数据,消除了 CPU 或主内存的负载。
- • Supermicro 提供一系列 GPU 密集型服务器,以满足每个应用层级的需求。
SuperMicro:AI存储硬件方案-Fig-4
计算+存储(性能层) 方案
- • Active data is stored here (活跃数据存储于此)
- • 针对性能进行了优化,将数据尽可能快地传递给应用程序。
- • Supermicro Peta级存储系统:
- • 使用最新的 E3.S NVMe 存储的 1U 和 2U 服务器。
- • WEKA 数据平台:
- • 扩展式、分层存储解决方案。
- • 集群存储解决方案。
- • 数据保护和性能保障。
- • High-Performance All-Flash Tier(高性能全闪存层)
- • 应用层(Application Tier):使用 GPU 密集型服务器,通过 GPUDirect 存储进行直接传输。
- • 高性能全闪存存储层(All-Flash High-Performance Storage Tier):WEKA 系统管理 10%-20% 的存储容量。
SuperMicro:AI存储硬件方案-Fig-5
计算+存储(性能层)+容量层 方案
所有训练数据集和模型都存储在本地
- • 数据湖使用容量优化的存储。
- • 高容量的旋转磁盘存储,提供更低的每 TB 成本。
- • 支持备份和分层到私有云。
- • Supermicro 服务器加入了一个由第三方软件合作伙伴支持的扩展集群。
High-Capacity Data Lake(高容量数据湖)
- • 应用层(Application Tier):GPU 密集型服务器,通过 GPUDirect 存储直接进行传输。
- • 高性能全闪存存储层(All-Flash High-Performance Storage Tier):管理 10-20% 的存储容量。
- • 高容量存储层(High-Capacity Storage Tier in Data Lake):管理 80-90% 的存储容量,采用本地对象存储和基于云的存储,用于灾难恢复和业务连续性。
SuperMicro:AI存储硬件方案-Fig-6
方案验证
机架视角的集群组网方案
解决方案架构,分为三个层次:
- 1. 应用层(Application Tier):通过 Supermicro 8U GPU 服务器与 1/10/25 GbE 和 InfiniBand 网络连接至数据中心。
- 2. 全闪存层(All-Flash Tier):使用 Supermicro Petascale 存储服务器,通过 400 Gbps 的 InfiniBand 提供数据存取。
- 3. 对象层(Object Tier):SuperStorage 服务器提供 25 或 100 GbE 网络连接,用于高容量存储。
SuperMicro:AI存储硬件方案-Fig-7
全闪存储系统参数
主要特点(Key Features):
- • 支持双 Intel 和单 AMD 单 PCIe Gen5 处理器。
- • 支持 1U E1.S 和 E3.S,2U E3.3 TLC、QLC 和 CXL 设备,2U 全闪存容量高达 1PB。
- • 使用 EDSFF 设计进行优化的热设计。
- • 前置 SSD 和后置 IO 设计之间的平衡 PCIe 通道。
- • 4KB 随机读取 IOPS 可达 3000 万,128KB 顺序读取带宽超过 230 GB/s。
目标解决方案(Target Solutions):
- • 高性能 AI SDS(软件定义存储)构建模块。
- • 虚拟化和密集 VDI(虚拟桌面基础设施)。
- • 高性能对象存储。
- • 超融合基础设施。
- • 高性能 CDN 和视频流。