前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >SuperMicro:AI存储硬件方案

SuperMicro:AI存储硬件方案

作者头像
数据存储前沿技术
发布2025-02-11 18:30:12
发布2025-02-11 18:30:12
680
举报

SuperMicro:AI存储硬件方案-Fig-1

云厂商 AI存储方案

大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。

最高性能的 AI 训练和推理。

存储需求:

  • • 全部为 NVMe 存储。
  • 每个 SU 的性能要求:读取 125 GBps / 写入 62 GBps
  • • InfiniBand 或 Ethernet/RDMA,速率为 200Gb/s 或 400Gb/s。
  • • 并行文件系统,高性能对象存储。

右下角图片显示单节点/单SU/4SU不同体系读写带宽,Good/Better/Best不同性能依据存储硬件配置(如SATA/SAS/NVMe SSD)和网络带宽条件。

SuperMicro:AI存储硬件方案-Fig-2

企业级AI存储方案

Pod 级别的部署(较云厂商规模、性能要求降低)

企业用例,推理与训练的比较

存储需求:

  • • 全 NVMe 或 PB 级别的分层存储。
  • • 性能与总体拥有成本(TCO)之间的平衡。
  • • 大于 100 Gbps,首选以太网。
  • • RDMA 可选。
  • • 并行文件系统,高性能对象存储。

SuperMicro:AI存储硬件方案-Fig-3

基础计算硬件方案

在执行 AIOps 和 MLOps 时:

  • • GPU 密集型服务器加速 AI 训练和推理。
  • • GPUDirect 存储直接从/向 GPU 内存传输数据,消除了 CPU 或主内存的负载。
  • • Supermicro 提供一系列 GPU 密集型服务器,以满足每个应用层级的需求。

SuperMicro:AI存储硬件方案-Fig-4

计算+存储(性能层) 方案

  • • Active data is stored here (活跃数据存储于此)
  • • 针对性能进行了优化,将数据尽可能快地传递给应用程序。
    • • 更多利用率 -> 更好的投资回报(ROI)
  • • Supermicro Peta级存储系统:
    • • 使用最新的 E3.S NVMe 存储的 1U 和 2U 服务器。
  • • WEKA 数据平台:
    • • 扩展式、分层存储解决方案。
    • • 集群存储解决方案。
    • • 数据保护和性能保障。
  • • High-Performance All-Flash Tier(高性能全闪存层)
  • • 应用层(Application Tier):使用 GPU 密集型服务器,通过 GPUDirect 存储进行直接传输。
  • • 高性能全闪存存储层(All-Flash High-Performance Storage Tier):WEKA 系统管理 10%-20% 的存储容量。

SuperMicro:AI存储硬件方案-Fig-5

计算+存储(性能层)+容量层 方案

所有训练数据集和模型都存储在本地

  • • 数据湖使用容量优化的存储。
  • • 高容量的旋转磁盘存储,提供更低的每 TB 成本。
  • • 支持备份和分层到私有云。
  • • Supermicro 服务器加入了一个由第三方软件合作伙伴支持的扩展集群。

High-Capacity Data Lake(高容量数据湖)

  • • 应用层(Application Tier):GPU 密集型服务器,通过 GPUDirect 存储直接进行传输。
  • • 高性能全闪存存储层(All-Flash High-Performance Storage Tier):管理 10-20% 的存储容量。
  • • 高容量存储层(High-Capacity Storage Tier in Data Lake):管理 80-90% 的存储容量,采用本地对象存储和基于云的存储,用于灾难恢复和业务连续性。

SuperMicro:AI存储硬件方案-Fig-6

方案验证

机架视角的集群组网方案

解决方案架构,分为三个层次:

  1. 1. 应用层(Application Tier):通过 Supermicro 8U GPU 服务器与 1/10/25 GbE 和 InfiniBand 网络连接至数据中心。
  2. 2. 全闪存层(All-Flash Tier):使用 Supermicro Petascale 存储服务器,通过 400 Gbps 的 InfiniBand 提供数据存取。
  3. 3. 对象层(Object Tier):SuperStorage 服务器提供 25 或 100 GbE 网络连接,用于高容量存储。

SuperMicro:AI存储硬件方案-Fig-7

全闪存储系统参数

主要特点(Key Features):

  • • 支持双 Intel 和单 AMD 单 PCIe Gen5 处理器。
  • • 支持 1U E1.S 和 E3.S,2U E3.3 TLC、QLC 和 CXL 设备,2U 全闪存容量高达 1PB。
  • • 使用 EDSFF 设计进行优化的热设计。
  • • 前置 SSD 和后置 IO 设计之间的平衡 PCIe 通道。
  • 4KB 随机读取 IOPS 可达 3000 万,128KB 顺序读取带宽超过 230 GB/s

目标解决方案(Target Solutions):

  • • 高性能 AI SDS(软件定义存储)构建模块。
  • • 虚拟化和密集 VDI(虚拟桌面基础设施)。
  • • 高性能对象存储。
  • • 超融合基础设施。
  • • 高性能 CDN 和视频流。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 云厂商 AI存储方案
  • 企业级AI存储方案
  • 基础计算硬件方案
  • 计算+存储(性能层) 方案
  • 计算+存储(性能层)+容量层 方案
  • 方案验证
  • 全闪存储系统参数
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档