全文概览
当今,大型语言模型(LLM)的推理正面临严峻挑战,尤其是在自回归模型中,键值(KV)缓存的内存消耗已成为瓶颈。KV缓存虽能避免重复计算,但其大小随序列长度和批处理规模线性增长,常常超出GPU高带宽内存(HBM)的容量。这使得企业在上下文长度、并发数和成本之间难以取舍,严重阻碍了大规模交互式AI服务的部署。面对这一挑战,解耦架构应运而生,将KV缓存从GPU内存中剥离,迁移至更具可扩展性和成本效益的外部存储层。那么,将存储从被动的数据仓库提升为推理流水线中主动且性能关键的组件,是否可行?Pure Storage的键值加速器(KVA)又如何在这一变革中脱颖而出?
阅读收获
01
摘要
大型语言模型(LLM)的推理,特别是自回归模型的推理,正严重受制于键值(KV)缓存的内存消耗瓶颈。
KV缓存用于存储中间注意力状态以避免重复计算,其大小随序列长度和批处理规模线性增长,常常超出昂贵的GPU高带宽内存(HBM)的容量。这迫使企业在上下文长度、批处理大小(并发数)和成本之间做出艰难权衡,阻碍了大规模交互式AI服务的部署。
为应对此挑战,行业正趋向于一种解耦架构,将KV缓存从GPU内存中剥离,迁移至更具可扩展性和成本效益的外部存储层。这一转变将存储从被动的数据仓库提升为推理流水线中主动且性能关键的组件。
Pure Storage的键值加速器(KVA)是这一新范式的创新实现。其独特之处在于,它是业界首个将KV缓存外部化到高性能全闪存存储平台(FlashBlade),并采用标准、通用的企业协议——NFS和S3——的解决方案。该方案通过复用预先计算的注意力状态,承诺在不改变模型或底层基础设施的前提下,实现显著的性能提升(在NFS协议下,首次令牌生成时间TTFT最多可提速20倍)。
本报告旨在对KVA架构、其与vLLM等LLM服务框架的集成方式进行批判性分析,并为评估其性能声明提供一个严谨的框架。我们将KVA与来自VAST Data、DDN和Hammerspace的竞争架构进行比较,揭示它们在解决同一问题时所采用的不同设计哲学。本报告的结论是,KVA代表了一种战略上务实、对企业友好的解决方案,有效降低了采纳外部化缓存技术的门槛。我们为评估此项技术的企业技术领导者提供具备可操作性的建议。
02
标准协议的战略作用
在技术选型上,高性能计算(HPC)领域长期依赖专用、低延迟的网络(如InfiniBand)和协议(如RDMA),它们通过绕过操作系统内核来最大化减少开销。与此相对,企业IT环境则普遍标准化于基于TCP/IP的协议,如NFS和S3,因为它们具有普遍性、易于管理以及强大的安全和生态系统支持。将KV缓存这样对延迟高度敏感的组件外部化,恰好处于这两种技术哲学的交汇点,引发了一场性能与简便性之间的权衡。
Pure KVA对NFS和S3的支持是一项深思熟虑的战略决策。其核心逻辑在于,一个足够快速和智能化的全闪存后端(如FlashBlade),能够通过标准以太网提供满足需求的性能,从而使标准协议在操作层面的优势成为企业客户更倾向的选择。
然而,标准NFS和S3协议与RDMA相比,确实存在更高的固有延迟和协议开销 1。Pure的架构依赖于FlashBlade平台的强大能力来弥补这一差距:
这一系列设计决策的背后,是将存储的角色从传统的数据存储库重新定义为推理计算周期中的一个主动参与者。过去,AI存储主要用于训练数据读取或模型加载,扮演“冷”或“温”数据的角色。而KV缓存是“热”数据路径,在每个令牌生成周期都会被访问。将KV缓存置于存储之上,极大地提升了存储阵列在整个系统中的战略地位。通过使用标准协议,Pure KVA旨在使这一全新的、主动的角色能够被主流企业IT部门轻松接纳和管理。这标志着一个战略性的转变:存储平台不再仅仅是数据的容器,而是直接参与计算的性能加速器,从而在AI时代重塑了企业存储的价值主张和总体拥有成本(TCO)模型。
03
外部KV缓存的架构集成
现代LLM服务系统正朝着将推理过程分解为预填充(Prefill)和解码(Decode)两个独立阶段的趋势发展。预填充阶段负责处理初始提示词,是一个计算密集型、可并行的过程;解码阶段则逐个生成令牌,是一个受内存带宽限制的迭代过程。将KV缓存外部化本身就是一种解耦,它将缓存状态从GPU计算节点中分离出来。
一个类似KVA的解决方案与推理过程的集成,其概念数据流可以被清晰地可视化。
这种集成并非凭空实现,而是依赖于特定的API和框架。诸如vLLM和Mooncake等项目提供了一个“KV连接器”或类似的抽象层。Pure KVA正是通过这样的连接器与vLLM集成,使其成为首个同时以NFS和S3提供此功能的企业级解决方案。
以下序列图详细描述了服务引擎与KVA后端之间的交互生命周期:
为了确保该架构的有效性,GPU与存储之间的数据传输必须极其高效。NVIDIA的GPUDirect Storage(GDS)技术是关键的促成因素,它允许存储系统直接与GPU内存进行数据传输,绕过了CPU和系统DRAM,从而显著降低I/O延迟并释放CPU资源。像VAST Data这样的竞争对手在其vLLM连接器中也明确提到了对GDS的支持,这已成为任何高性能外部缓存方案的必备技术。
尽管KVA可以在标准TCP/IP网络上运行,但Pure也指出,在支持RDMA的网络上性能会更佳。RDMA提供微秒级的延迟,而TCP/IP则为数十微秒,并且RDMA在数据传输过程中几乎不占用CPU资源 1。
因此,“外部KV缓存”并非一个简单的功能,而是一个紧密集成的算法-系统协同设计。其20倍的性能提升声明,只有在一个从上到下完全优化的技术栈中才可能实现。这个技术栈包括:LLM服务框架的API(vLLM KV连接器)、GPU的直接内存访问能力(GDS)、高效的网络协议(支持RDMA)以及存储后端的高度并行架构(FlashBlade)。这个链条中的任何一个环节出现瓶颈,都将使整个方案的优势化为乌有。
04
延迟与性能评估框架
将KV缓存移出GPU内存是一种权衡:它释放了宝贵的HBM资源,但引入了额外的访问延迟。这种权衡是否可行,完全取决于存储层次结构中各层级的性能和成本特性。
01
存储层次结构:成本分析
下表对AI应用中不同内存和存储层级的关键指标进行了量化比较,为决策者提供了评估外部KV缓存方案所需的基础数据。该模型清晰地揭示了采用外部NVMe闪存作为缓存层的动机:其每GB成本远低于HBM,如果能够有效控制其带来的延迟损失,将成为一个极具吸引力的选择。
表1:AI内存与存储层级对比分析(2025年估算值)
层级 | 内存/存储介质 | 典型访问延迟 | 典型带宽(每设备/堆栈) | 估算成本/GB (2025) | |
---|---|---|---|---|---|
0 | GPU内存 | HBM3e | < 10 ns (片上) | > 3.2 TB/s | ~30 |
1 | 主机内存 | 服务器DDR5 RDIMM | ~50–100 ns | ~100-150 GB/s | ~10 |
2 | 外部存储 | NVMe闪存 (如FlashBlade) | 100 µs - 2 ms | > 10 GB/s | ~0.50 |
02
性能声明:TTFT vs. TPOT
Pure Storage宣称的“推理速度提升20倍”特指在缓存命中的情况下,首次令牌生成时间(Time-to-First-Token, TTFT) 的改善。这衡量的是当提示词的KV状态已被缓存时,生成响应中第一个令牌的延迟。
这并不意味着每输出令牌时间(Time-Per-Output-Token, TPOT) 也提升了20倍。TPOT主要受限于GPU本身的内存带宽,用于生成后续的令牌。因此,一个应用的整体性能增益是TTFT改善、缓存命中率和TPOT三者共同作用的结果。那些具有高提示词重复率、长提示词和短输出的工况,如检索增强生成(RAG)、聊天机器人和多租户SaaS平台,将从中获益最多。
03
缓存测试最佳实践
评估此类系统需要一种能够反映真实世界工作负载的精细化方法。
05
竞争格局与替代架构
外部KV缓存已成为存储供应商在AI技术栈中提升自身价值和相关性的一个全新战略战场。Pure Storage并非孤军奋战,数个主要竞争者也已发布了具有不同架构哲学的解决方案。
下表对主流外部KV缓存方案进行了结构化对比,使决策者能够迅速把握不同厂商的设计思路及其内在权衡,从而将Pure的策略置于更广阔的市场背景中进行考量。
表2:外部KV缓存解决方案架构对比
厂商 / 解决方案 | 核心架构与存储介质 | 集成方法 | 关键技术差异 / 设计哲学 |
---|---|---|---|
Pure Storage / KVA | 共享式全闪存UFFO¹ (FlashBlade) | 原生协议 (NFS/S3),通过vLLM KV连接器 | 简洁性与企业集成:利用现有的标准协议,依赖后端存储阵列的原始性能。 |
VAST Data / VUA | 解耦共享一切架构 (DASE) on NVMe闪存 | 基于代理 (VUA agent) 在GPU服务器上;vLLM插件 | 智能前缀缓存:将键分解为块以实现部分上下文匹配,使用V-Tree元数据搜索快速定位相关缓存条目。 |
DDN / Infinia | 高并发对象存储平台 (Infinia) | 软件框架集成 (LMCache) | 大规模并发与扩展:平台设计用于处理每秒10万次以上的并发调用,并保持亚毫秒级延迟,专注于大规模推理系统。 |
Hammerspace / Tier 0 | 通过并行全局文件系统聚合本地NVMe | 内核集成的并行文件系统 (绕过NFS客户端/服务器) | 极致的邻近性:将GPU服务器内的本地NVMe SSD转变为统一、共享的高性能存储层,专注于最小化网络跳数。 |
¹ UFFO: 统一快速文件与对象 (Unified Fast File and Object)
★
对不同设计哲学的分析
06
结论与建议
Pure Storage的KVA是针对LLM推理中关键的KV缓存瓶颈而推出的一个及时且战略合理的解决方案。
其最鲜明的特点是采用标准的NFS和S3协议,这反映了其优先考虑企业集成、操作简便性和统一数据管理,而非追求专有高性能协议的战略选择。这一策略的成功,依赖于FlashBlade全闪存平台卓越的底层性能,以满足主动推理缓存严苛的延迟要求。尽管竞争对手提供了侧重于智能代理或超局部性的替代架构,但Pure的方案以其独特的定位,吸引着那些希望将现有数据基础设施以最小化中断的方式扩展到AI流水线中的企业客户。
★
结论与建议
Notice:Human's prompt, Datasets by Gemini-2.5-Pro-DeepResearch
#KvCache卸载 #LLM内存优化
---【本文完】---
👇阅读原文,查看历史文章,推荐PC端打开 💻(更新到 8.16)。