首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nvidia SCADA:GPU如何驾驭数据,突破内存墙?

Nvidia SCADA:GPU如何驾驭数据,突破内存墙?

作者头像
数据存储前沿技术
发布2025-12-21 14:24:25
发布2025-12-21 14:24:25
3210
举报

阅读收获

  • 深入理解AI时代数据中心计算支出结构“倒转”的趋势,以及新兴AI工作负载对内存/显存和I/O模式的颠覆性需求。
  • 掌握GenAI时代存储层级演进的逻辑,特别是“Storage-Next”新层级如何填补传统架构的空白,以及IOPS/TCO成为关键评估指标的原因。
  • 认识到GPU从“卸载设备”向“I/O编排器”转变的必然性,以及SCADA架构如何通过控制/数据分离、用户态驱动等技术实现GPU直接访问存储。
  • 了解SCADA在实际应用中如何通过绕过CPU内存,高效处理超大规模数据集,彻底打破AI训练和推理的“内存墙”,为未来AI系统设计提供新思路。

全文概览

ChatGPT的横空出世,不仅引爆了全球AI热潮,更悄然改变了数据中心的计算支出结构。曾几何时,CPU主导着绝大部分投入,但如今,GPU等加速器的支出正以前所未有的速度超越传统计算,预计到2030年将占据近90%的市场份额。这种“计算倒转”的背后,是推荐系统、向量数据库等新兴AI工作负载对海量内存/显存和极致I/O性能的饥渴。传统的存储层级和以CPU为中心的数据加载架构,在面对这些小粒度、高并发的AI I/O请求时,正日益暴露出其局限性。我们不禁要问:当GPU的计算能力不再是瓶颈,真正的挑战是否已转移到数据传输和存储I/O路径上?如何才能让GPU摆脱CPU的束缚,直接高效地驾驭数据,彻底打破AI训练和推理的“内存墙”?

👉 划线高亮 观点批注


数据中心计算倒转/反转
数据中心计算倒转/反转

数据中心计算倒转/反转

全球数据中心计算支出正在经历一场由AI(特别是ChatGPT所代表的生成式AI)引发的根本性“倒转”(Inversion)

  1. ChatGPT是分水岭: 2023年(Post-ChatGPT时代)是数据中心支出结构和总量发生剧变的转折点。
  2. 支出结构倒转: 在ChatGPT之前,数据中心支出(约90%)由“传统处理”(CPU)主导。在ChatGPT之后,“极端处理”(GPU/加速器)的支出占比从2023年开始迅速增长,并在2024年首次超过传统处理,预计到2030年将占据近90% 的市场份额。
  3. 市场增量来源: 未来几年(2023-2030年)全球数据中心支出的爆炸性增长(从约2200亿美元增至近7800亿美元),几乎完全是由AI驱动的“极端处理”需求所贡献的。而传统计算的市场支出则陷入停滞。

Note

从过去两年的数据中心投入成本来看,加速计算超越传统计算是明确的,当下对资产泡沫化的讨论已经浮出水面,存在的疑问是:

  1. 未来几年,持续大比例的资本投入,其可持续性如何维持?
  2. AI的产业价值,能否满足已投资项目的ROI要求?

新兴工作负载需要海量内存/显存
新兴工作负载需要海量内存/显存

新兴工作负载需要海量内存/显存

以推荐系统和向量数据库为代表的新兴AI工作负载,正在驱动对内存/显存容量的爆炸性需求。

  1. 需求呈指数级增长: 无论是推荐系统还是向量数据库,它们对内存/显存的需求都在近几年(尤其是2021年以后)呈现出指数级或准指数级的增长趋势。
  2. 规模已达TB级别: 顶级的推荐系统(如快手)所需的内存/显存已达到60 TB。大型向量数据库(如100亿向量规模)所需的总内存/显存也高达40 TB(32TB向量 + 8TB索引)。
  3. 索引开销巨大: 在向量数据库中,用于加速搜索的索引本身也需要消耗海量的内存/显存(例如,在百亿向量规模下,索引需要8 TB),这对内存/显存容量和带宽提出了巨大挑战。

AI业务存储IO 特征

AI工作负载正在根据其I/O模式(访问粒度和强度)分化为两大类,这正在推动存储评估指标从传统的“每TB成本”(TB/TCO)转向新兴的“每IOPS成本”(IOPS/TCO)。

  1. 工作负载分化:
    • 第一类:训练 (Training)。 以LLM预训练为代表,其特点是大块顺序I/O(10MB-1GB)。这类应用更关注存储的吞吐量总容量,因此传统的 TB/TCO(每TB成本)指标依然适用。
    • 第二类:推理 (Inference) 和 预测式AI (Predictive AI)。 包括LLM推理、RAG、向量数据库、推荐系统和图计算。这类应用的共同特点是极小的随机I/O(访问粒度低至 8B、64B、512B)和极大的数据集(高达 1PB 或 数百TB)。
  2. 存储挑战的变化:
    • 对于推理和预测式AI,性能瓶颈不再是存储容量或顺序吞吐量,而是系统处理海量、高并发、小I/O请求的能力,即 IOPS(每秒读写操作次数)。
    • 例如,RAG检索、图谱遍历、推荐系统都需要极低延迟地从庞大的数据集中随机读取微小的数据块。
  3. TCO(总拥有成本)指标的演变:
    • 由于这种分化,评估存储价值的指标正在演变。
    • 对于IOPS密集型的推理和预测式AI,IOPS/TCO(即花费每单位成本能获得多少IOPS性能)正成为比 TB/TCO(每TB容量的成本)更重要的衡量标准。

GenAI时代之前传统的数据存储层级模型
GenAI时代之前传统的数据存储层级模型

GenAI时代之前传统的数据存储层级模型

层级 (Layer)

层级名称

核心特性

IO大小 (IO Size)

介质与访问方式 (Media & Access)

主要关注点

1 (顶部)

Memory (内存)

高带宽和吞吐量

< 128B (小于128字节)

Local DDRs (本地DDR内存)

Performance per watt/dollar (每瓦特/每美元的性能)

2

Compute storage (计算存储)

内存池, 高性能闪存

4K (4KB)

Locally attached TLC Flash (本地连接的TLC闪存)

Capacity per watt/dollar (每瓦特/每美元的容量)

3

Warm storage (温存储)

中等性能, 远程访问

32KB – MBs (32KB至MB级别)

TLC/QLC/HDD, remote access (TLC/QLC/HDD, 远程访问)

Capacity per watt/dollar (每瓦特/每美元的容量)

4 (底部)

Cold storage (冷存储)

大容量归档, 批量传输

> MBs (大于MB级别)

HDDs, remote access (HDD, 远程访问)

Capacity per watt/dollar (每瓦特/每美元的容量)


GenAI时代之后的数据存储层级模型
GenAI时代之后的数据存储层级模型

GenAI时代之后的数据存储层级模型

新增层级 (红色方框高亮):

  • 在顶层的 "Memory" (内存) 和 "Compute storage" (计算存储) 之间,插入了一个新的层级,名为 "Storage-Next" (下一代存储)。
  • "Storage-Next" 的特性:
    • "IOPS/TCO":评估该层级的核心指标是 "每IOPS的总拥有成本",这印证了前几页PPT的观点。
    • "IO sizes of 512 - 8K" (IO大小为512字节 - 8KB):这精确匹配了之前定义的 "推理" 和 "预测式AI" 工作负载所需的小尺寸、随机IO模式
    • "Storage-Next drives" (下一代存储驱动器):这表明需要一种新型的硬件(驱动器)来实现这一层。

===

GenAI工作负载(特别是推理和预测式AI)已经打破了传统的存储层级,催生了一个全新的、以IOPS为核心的存储层级——"Storage-Next"。

  1. 传统层级的“断层”: "Pre-GenAI" 模型(上一张图)存在一个巨大的“断层”:它只有用于极小IO(<128B)的昂贵内存和用于4KB或更大IO的闪存/硬盘。它缺乏一个能够经济高效地处理 512B - 8K 这种小I/O的层级。
  2. 新层级 "Storage-Next" 的诞生: 为了填补这个断层,"Storage-Next" 层级应运而生。它专门用于承载AI推理、RAG和推荐系统所需的高并发、小I/O、大容量的数据(如向量、嵌入、图谱)。
  3. 价值衡量标准的“倒转”: "Storage-Next" 的出现,使数据层级的经济模型发生了分化(正如左侧两个相反的箭头所示):
    • 传统存储 (底层): 价值 = 容量成本 (Capacity/TCO)。
    • 新型存储 (高层): 价值 = 性能成本 (IOPS/TCO)。

Note

Storage-Next 层级的独立呈现,从IO行为上定义了新兴存储介质层的广泛需求,在此之前 Intel 的 Optane曾落地实践,但最终证明商业上没能坚持到AI需求爆发;另一方面业界正在尝试在软件层整合、优化小IO的读写访问。

哪个方案更好,目前讨论还为时尚早,当前阶段将成为关注IO行为存储厂商的高光时刻。


GPU 直接访问数据

从卸载设备到编排器,反思加速器-数据接口
从卸载设备到编排器,反思加速器-数据接口

从卸载设备到编排器,反思加速器-数据接口

当前以CPU为中心的数据加载架构(将GPU视为“卸载设备”)已成为GenAI工作负载的瓶颈;未来的架构需要将GPU转变为“编排器”,使其掌握数据控制权,并直接按需访问分层存储。

  1. 诊断问题 (Current Approach): 传统架构中,CPU负责控制一切,它从存储中预取数据块 (Tiling) 并“喂”给GPU。对于需要处理PB级数据和海量小I/O的AI应用(如前几张PPT所示),这种模式效率极低。
  2. 提出方案 (What applications need): 必须“反思加速器-数据接口”,实现控制权的反转
    • GPU成为“编排器”,取代CPU成为数据访问的控制中心。
    • CPU被“降级”,仅负责辅助性的“内务管理” (house keeping)。
    • 数据访问模式从CPU“推送” (push) 数据块,转变为GPU“拉取” (pull) 数据。GPU只在计算需要时才“按需” (on-demand) 从一个统一的分层存储池中抓取它需要的数据。
  3. 核心挑战 (绿色框): 这种新架构的关键可行性问题在于:GPU必须利用其强大的并行处理能力来发起海量、并发的数据请求,(此前这部分工作主要由SSD的控制器承担)从而 “隐藏” 因直接访问(相对较慢的)分层存储池(如 "Storage-Next" 层)而产生的I/O延迟。

软件和存储是新的瓶颈
软件和存储是新的瓶颈

软件和存储是新的瓶颈

在GenAI时代,系统瓶颈已从GPU的计算能力转移到了软件栈和存储I/O路径上。

关键信息点如下:

  1. AI工作负载的极端并行需求: 根据利特尔定律,为了充分利用现代硬件(如PCIe Gen6)来处理AI(如RAG)的512B小I/O,系统必须维持一个高达20,000+的队列深度(Qd)
  2. GPU并非瓶颈: GPU的并行架构(如上一张PPT所提)有能力 发出如此海量的并发I/O请求。
  3. 真正的瓶颈是CPU软件栈: 问题的根源在于传统的、由CPU驱动的软件栈。这个软件栈(即上一张图的 "Current Approach")习惯于"串行化" (serialize) 或"批处理" (batch) I/O,这会人为地压低系统实际的队列深度 (Qd)。

"BaM"项目通过一个成功的概念验证原型 (PoC),证明了前几张PPT中提出的“GPU作为I/O编排器”架构是可行的,并且能带来巨大的性能和性价比优势。

  1. 架构核心: "BaM" 的关键创新在于允许GPU绕过CPU,直接在用户空间创建和管理自己的NVMe I/O队列。这使得GPU能够发出并维持利特尔定律所需的高队列深度 (High QD),从而喂饱GPU和I/O总线。
  2. 惊人的性价比: "BaM" 在GNN、图计算和数据分析等I/O密集型工作负载上取得了显著的性能提升(最高8.3倍),以及极其夸张的性价比提升(最高38.3倍)。这表明通过解决I/O瓶颈,可以更高效地利用昂贵的GPU硬件。

SCADA 可扩展的加速数据访问

SCADA - 可扩展的加速数据访问
SCADA - 可扩展的加速数据访问

SCADA - 可扩展的加速数据访问

SCADA——一个用于解决AI I/O瓶颈的、可扩展的、生产级的软件架构。

  1. 从"BaM"到SCADA: 如果说"BaM"(上一张图)是一个成功的"本地"概念验证(GPU直连本地存储),那么SCADA就是该理念的 "规模化"和"网络化"的 产品级实现。它将存储解耦为一个远程的、可扩展的服务。
  2. 核心架构:控制/数据分离: SCADA的性能基石是将管理任务(控制路径)与数据传输(数据路径)完全分开。
  3. 消除瓶颈: SCADA通过两个关键技术解决了"CPU软件栈"瓶颈:
    • 服务器端: 使用 uNVMe (用户态驱动) 绕过内核,实现极致的IOPS。
    • 客户端: GPU应用线程成为数据请求的发起者。
    • 传输中: "数据路径"协议(可能基于RDMA和GPUDirect)允许数据从服务器存储直接流向GPU显存,最小化CPU负载和延迟。
  4. "GPU即编排器"的实现: 这个架构实现了"GPU作为I/O编排器"的愿景。GPU应用线程(通过SCADA Client)发起请求,数据(通过Data Path)直接流入GPU,CPU在数据流中被彻底旁路。

服务端设计:软件架构与组件
服务端设计:软件架构与组件

服务端设计:软件架构与组件

PPT的核心观点是详细阐述SCADA客户端如何为GPU开发者提供一个既易于使用又性能卓越的数据访问接口

  1. 易于集成: SCADA客户端是一个"纯头文件"库,可以无缝集成到现有的GPU应用程序中。
  2. 高性能缓存: 它最大的性能特性是允许应用在HBM(高带宽显存)中自定义一个软件缓存,这使得GPU可以将最关键的数据(如热点索引、图节点)保留在最快的内存中,以实现极致的访问性能。
  3. 高级编程抽象: SCADA隐藏了底层复杂的I/O和网络细节,转而为开发者提供了如"图"、"键值"等高级数据结构。这使得开发者可以专注于算法逻辑,而不是数据I/O。

客户端设计:软件架构与组件
客户端设计:软件架构与组件

客户端设计:软件架构与组件

SCADA服务器端的高性能实现机制:它本身就是一个由GPU(和Grace CPU)深度加速的数据处理引擎

  1. 服务器端GPU加速: SCADA不是一个传统的CPU I/O服务。它在服务器端使用GPU内核来直接处理数据请求,实现了从数据源(SSD)到数据处理(Server GPU)再到数据消费(Client GPU)的全流程GPU加速。
  2. CPU的角色被“降级”: 与客户端一样,服务器端的CPU也被从数据路径中解放出来,只负责“内务管理”(如缓冲区注册),从而消除了CPU软件栈瓶颈。
  3. 针对NVIDIA全栈优化: 该架构明确提到使用了GPU和Grace CPU进行加速,表明SCADA是为NVIDIA的现代数据中心平台(如Grace Hopper)量身定制的。
  4. 消除数据移动: SCADA的API设计旨在最小化数据移动,通过GPUDirect等技术实现数据从服务器存储到客户端显存的“零拷贝”直接访问,这是其实现"Scaled Accelerated Data Access"(可扩展的加速数据访问)的根本手段。

核心技术:控制面与数据面分离
核心技术:控制面与数据面分离

核心技术:控制面与数据面分离

PPT详细揭示了SCADA架构实现高性能的底层协议机制

  1. 数据路径 (Data Path): SCADA利用现有的、最先进的 GPUDirect 技术(包括本地的Storage DMA和远程的RDMA)来确保数据流的CPU旁路和零拷贝,实现了“数据直达GPU显存”。
  2. 控制路径 (Control Path): 这是SCADA的核心创新所在。为了解决"CPU软件栈"瓶颈(如利特尔定律所示),NVIDIA开发了一种全新的、面向GPU的专有协议
  3. 协议的目标: 该新协议的核心目标是减少"门铃"开销,使GPU能够真正利用其大规模并行性来提交海量的并发I/O请求,从而彻底解决了传统I/O模型中因软件开销而导致的"加速器停转" (stalling accelerators) 问题。

Note

从GPU厂商角度来看,优化加速器数据访问IO瓶颈的优先策略是软件层优化,构建符合GPU数据访问特征的通信协议,与SOC上集成更大容量 HBM/HBF 相比,软件方案一方面能更好整合上下游存储生态,另一方面也扩展了GPU 仅用来做加速处理的应用场景,或许这是GPU厂商更愿意看到的局面。


POC验证/性能数据

PPT通过直接的实验数据,强有力地证明了本系列演讲的核心论点:在GenAI所需的高并行、小I/O工作负载下,GPU是远比CPU更高效的I/O编排器。

  1. GPU完胜CPU: 实验证明,1个 NVIDIA H100 GPU 作为I/O发起者,可以产生 98 MIOps (512B小I/O),其性能是1个顶级48核Gen5 Intel CPU (43 MIOps) 的 2.28倍
  2. CPU是瓶颈的实证: 即使是NVIDIA上一代的、更便宜的L40S GPU (48 MIOps),在I/O处理能力上也优于Intel最新的Gen5 CPU (43 MIOps)。
  3. GPU潜力巨大: H100在仅使用24%利用率的情况下,就(在512B I/O下)跑满了96%的带宽。这证明GPU拥有海量的并行处理能力来发起I/O,完全有能力(如前几页所问)"隐藏存储延迟"并解决"加速器停转"问题。
  4. 架构可行性: SCADA架构(GPU作为编排器)和"Storage-Next"(PCIe Fabric + uNVMe)的组合在实践中被证明是高效且可行的。

PPT通过一个真实的、复杂的AI应用(GNN训练)展示了SCADA架构的革命性价值

  1. 核心对比: 实验将一个“理想的”基准(一个小数据集完全运行在昂贵的CPU内存中)与SCADA方案(一个22倍大的数据集运行在相对便宜的SSD上)进行对比。
  2. 惊人结果: 尽管处理的数据量大了22倍,并且是从SSD(而不是RAM)读取,SCADA系统的总训练时间仅仅慢了1.14倍(53秒 vs 46秒)。
  3. 技术解密 (The "How"): 成功的关键在于SCADA DOES NOT USE CPU MEMORY。SCADA架构(GPU作为I/O编排器 + GPUDirect)允许GPU绕过CPU内存,直接从SSD高速流式传输数据,其效率之高,几乎媲美了从主机内存中读取数据的速度。
  4. 最终启示(“内存墙”的打破): SCADA技术使得在GPU上训练远超内存容量(无论是CPU RAM还是GPU HBM)的超大规模数据集成为可能,且几乎没有性能损失。

  • SCADA的效率 (回顾): 对于可以装入内存的中等数据集 (IGBH Medium),SCADA从SSD读取的性能仅比从RAM读取慢1.14倍,效率极高。
  • SCADA的“能力” (核心信息): 对于真正的大规模数据集 (IGBH-Full),传统的主机内存 (Host memory) 方法直接因OOM(内存不足)而崩溃,任务根本无法运行 (0)
  • SCADA解决方案: SCADA架构通过完全绕过CPU内存,使GPU能够直接处理存储在SSD上的、远超内存容量的超大规模数据集,成功完成了任务 (1),将不可能变为了可能。
  • 高性能实现: SCADA不仅完成了任务,还高效地利用了70%的PCIe带宽,证明这是一个高性能、非阻塞的解决方案,彻底打破了AI训练的“内存墙”。

延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  • SCADA架构作为NVIDIA主导的解决方案,其在非NVIDIA硬件生态(如AMD、Intel GPU)中的普适性和兼容性将如何发展?
  • 除了SCADA,业界还有哪些技术路径或开源项目正在尝试解决AI存储I/O瓶颈?它们与SCADA相比有何异同和优劣?
  • 随着GPU在存储I/O路径中扮演越来越重要的角色,传统的存储控制器和存储软件栈将如何演进以适应这种“GPU即编排器”的新范式?

原文标题:Advancing Memory and Storage Architectures for Next-Gen AI Workloads[1]

Notice:Human's prompt, Datasets by Gemini-2.5-Pro

#FMS25 #SCADA数据访问路径

---【本文完】---

👇阅读原文,搜索🔍更多历史文章。


  1. https://files.futurememorystorage.com/proceedings/2025/20250807_OPSW-301-1_Mailthody-2025-08-07-15.14.33.pdf ↩
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI业务存储IO 特征
  • GPU 直接访问数据
  • SCADA 可扩展的加速数据访问
  • POC验证/性能数据
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档