首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >最近热议的 KV Cache 是如何工作的?

最近热议的 KV Cache 是如何工作的?

作者头像
数据存储前沿技术
发布2025-10-09 10:43:06
发布2025-10-09 10:43:06
860
举报

全文概览

当今,大型语言模型(LLM)的推理正面临严峻挑战,尤其是在自回归模型中,键值(KV)缓存的内存消耗已成为瓶颈。KV缓存虽能避免重复计算,但其大小随序列长度和批处理规模线性增长,常常超出GPU高带宽内存(HBM)的容量。这使得企业在上下文长度、并发数和成本之间难以取舍,严重阻碍了大规模交互式AI服务的部署。面对这一挑战,解耦架构应运而生,将KV缓存从GPU内存中剥离,迁移至更具可扩展性和成本效益的外部存储层。那么,将存储从被动的数据仓库提升为推理流水线中主动且性能关键的组件,是否可行?Pure Storage的键值加速器(KVA)又如何在这一变革中脱颖而出?

阅读收获

  • 了解KV缓存外部化对于解决LLM推理瓶颈的关键作用,以及它如何优化上下文长度和并发处理能力。
  • 掌握Pure Storage KVA通过NFS和S3等标准协议实现KV缓存加速的创新方法,及其在企业环境中的应用优势。
  • 理解外部KV缓存与LLM服务框架(如vLLM)的集成方式,以及GPUDirect Storage(GDS)等关键技术在提升数据传输效率中的作用。

01

摘要

大型语言模型(LLM)的推理,特别是自回归模型的推理,正严重受制于键值(KV)缓存的内存消耗瓶颈。

KV缓存用于存储中间注意力状态以避免重复计算,其大小随序列长度和批处理规模线性增长,常常超出昂贵的GPU高带宽内存(HBM)的容量。这迫使企业在上下文长度、批处理大小(并发数)和成本之间做出艰难权衡,阻碍了大规模交互式AI服务的部署。

为应对此挑战,行业正趋向于一种解耦架构,将KV缓存从GPU内存中剥离,迁移至更具可扩展性和成本效益的外部存储层。这一转变将存储从被动的数据仓库提升为推理流水线中主动且性能关键的组件。

Pure Storage的键值加速器(KVA)是这一新范式的创新实现。其独特之处在于,它是业界首个将KV缓存外部化到高性能全闪存存储平台(FlashBlade),并采用标准、通用的企业协议——NFS和S3——的解决方案。该方案通过复用预先计算的注意力状态,承诺在不改变模型或底层基础设施的前提下,实现显著的性能提升(在NFS协议下,首次令牌生成时间TTFT最多可提速20倍)。

本报告旨在对KVA架构、其与vLLM等LLM服务框架的集成方式进行批判性分析,并为评估其性能声明提供一个严谨的框架。我们将KVA与来自VAST Data、DDN和Hammerspace的竞争架构进行比较,揭示它们在解决同一问题时所采用的不同设计哲学。本报告的结论是,KVA代表了一种战略上务实、对企业友好的解决方案,有效降低了采纳外部化缓存技术的门槛。我们为评估此项技术的企业技术领导者提供具备可操作性的建议。

02

标准协议的战略作用

在技术选型上,高性能计算(HPC)领域长期依赖专用、低延迟的网络(如InfiniBand)和协议(如RDMA),它们通过绕过操作系统内核来最大化减少开销。与此相对,企业IT环境则普遍标准化于基于TCP/IP的协议,如NFS和S3,因为它们具有普遍性、易于管理以及强大的安全和生态系统支持。将KV缓存这样对延迟高度敏感的组件外部化,恰好处于这两种技术哲学的交汇点,引发了一场性能与简便性之间的权衡。

Pure KVA对NFS和S3的支持是一项深思熟虑的战略决策。其核心逻辑在于,一个足够快速和智能化的全闪存后端(如FlashBlade),能够通过标准以太网提供满足需求的性能,从而使标准协议在操作层面的优势成为企业客户更倾向的选择。

  • 易于集成:企业可以利用现有的网络基础设施、数据管理工具以及围绕NFS和S3建立的技能体系。这避免了引入新的协议栈,并简化了部署流程。
  • 避免客户端锁定:与那些可能需要在GPU服务器上安装专有代理或内核模块的解决方案不同,基于原生协议的方法提供了更清晰的责任分离。存储系统仅提供一个标准端点,从而增强了互操作性。
  • 统一数据治理:KV缓存数据可以与存储在同一平台上的其他企业数据一样,使用相同的策略和工具(如Pure1)进行管理、保护(例如,使用SafeMode快照)和保障安全。这对于受监管行业而言是一项至关重要的优势。

然而,标准NFS和S3协议与RDMA相比,确实存在更高的固有延迟和协议开销 1。Pure的架构依赖于FlashBlade平台的强大能力来弥补这一差距:

  • 硬件层面:采用大规模并行、全闪存NVMe架构,配备为高吞吐量和一致性低延迟而设计的DirectFlash模块。
  • 软件层面:Purity//FB操作环境专为并行文件和对象工作负载优化,并具备服务质量(QoS)等功能,以有效管理多租户环境。
  • 性能声明:Pure声称,这种软硬结合的架构能够提供“微秒级延迟”,足以在标准以太网上实现显著的性能加速(NFS下提速20倍,S3下提速6倍),并预期在支持RDMA的网络上实现更高性能。

这一系列设计决策的背后,是将存储的角色从传统的数据存储库重新定义为推理计算周期中的一个主动参与者。过去,AI存储主要用于训练数据读取或模型加载,扮演“冷”或“温”数据的角色。而KV缓存是“热”数据路径,在每个令牌生成周期都会被访问。将KV缓存置于存储之上,极大地提升了存储阵列在整个系统中的战略地位。通过使用标准协议,Pure KVA旨在使这一全新的、主动的角色能够被主流企业IT部门轻松接纳和管理。这标志着一个战略性的转变:存储平台不再仅仅是数据的容器,而是直接参与计算的性能加速器,从而在AI时代重塑了企业存储的价值主张和总体拥有成本(TCO)模型。

03

外部KV缓存的架构集成

现代LLM服务系统正朝着将推理过程分解为预填充(Prefill)和解码(Decode)两个独立阶段的趋势发展。预填充阶段负责处理初始提示词,是一个计算密集型、可并行的过程;解码阶段则逐个生成令牌,是一个受内存带宽限制的迭代过程。将KV缓存外部化本身就是一种解耦,它将缓存状态从GPU计算节点中分离出来。

一个类似KVA的解决方案与推理过程的集成,其概念数据流可以被清晰地可视化。

这种集成并非凭空实现,而是依赖于特定的API和框架。诸如vLLM和Mooncake等项目提供了一个“KV连接器”或类似的抽象层。Pure KVA正是通过这样的连接器与vLLM集成,使其成为首个同时以NFS和S3提供此功能的企业级解决方案。

以下序列图详细描述了服务引擎与KVA后端之间的交互生命周期:

为了确保该架构的有效性,GPU与存储之间的数据传输必须极其高效。NVIDIA的GPUDirect Storage(GDS)技术是关键的促成因素,它允许存储系统直接与GPU内存进行数据传输,绕过了CPU和系统DRAM,从而显著降低I/O延迟并释放CPU资源。像VAST Data这样的竞争对手在其vLLM连接器中也明确提到了对GDS的支持,这已成为任何高性能外部缓存方案的必备技术。

尽管KVA可以在标准TCP/IP网络上运行,但Pure也指出,在支持RDMA的网络上性能会更佳。RDMA提供微秒级的延迟,而TCP/IP则为数十微秒,并且RDMA在数据传输过程中几乎不占用CPU资源 1。

因此,“外部KV缓存”并非一个简单的功能,而是一个紧密集成的算法-系统协同设计。其20倍的性能提升声明,只有在一个从上到下完全优化的技术栈中才可能实现。这个技术栈包括:LLM服务框架的API(vLLM KV连接器)、GPU的直接内存访问能力(GDS)、高效的网络协议(支持RDMA)以及存储后端的高度并行架构(FlashBlade)。这个链条中的任何一个环节出现瓶颈,都将使整个方案的优势化为乌有。

04

延迟与性能评估框架

将KV缓存移出GPU内存是一种权衡:它释放了宝贵的HBM资源,但引入了额外的访问延迟。这种权衡是否可行,完全取决于存储层次结构中各层级的性能和成本特性。

01

存储层次结构:成本分析

下表对AI应用中不同内存和存储层级的关键指标进行了量化比较,为决策者提供了评估外部KV缓存方案所需的基础数据。该模型清晰地揭示了采用外部NVMe闪存作为缓存层的动机:其每GB成本远低于HBM,如果能够有效控制其带来的延迟损失,将成为一个极具吸引力的选择。

表1:AI内存与存储层级对比分析(2025年估算值)

层级

内存/存储介质

典型访问延迟

典型带宽(每设备/堆栈)

估算成本/GB (2025)

0

GPU内存

HBM3e

< 10 ns (片上)

> 3.2 TB/s

~30

1

主机内存

服务器DDR5 RDIMM

~50–100 ns

~100-150 GB/s

~10

2

外部存储

NVMe闪存 (如FlashBlade)

100 µs - 2 ms

> 10 GB/s

~0.50

02

性能声明:TTFT vs. TPOT

Pure Storage宣称的“推理速度提升20倍”特指在缓存命中的情况下,首次令牌生成时间(Time-to-First-Token, TTFT) 的改善。这衡量的是当提示词的KV状态已被缓存时,生成响应中第一个令牌的延迟。

这并不意味着每输出令牌时间(Time-Per-Output-Token, TPOT) 也提升了20倍。TPOT主要受限于GPU本身的内存带宽,用于生成后续的令牌。因此,一个应用的整体性能增益是TTFT改善、缓存命中率和TPOT三者共同作用的结果。那些具有高提示词重复率、长提示词和短输出的工况,如检索增强生成(RAG)、聊天机器人和多租户SaaS平台,将从中获益最多。

03

缓存测试最佳实践

评估此类系统需要一种能够反映真实世界工作负载的精细化方法。

  • 工作负载模拟:应避免使用随机数据的合成基准测试。采用来自目标应用的代表性提示词,才能准确衡量缓存命中率。
  • 测量高百分位延迟:平均延迟具有误导性。单次的高延迟事件就可能导致GPU停顿。必须测量p99和p99.9延迟,以了解系统在负载下的尾部性能和一致性。
  • 隔离瓶颈:使用监控工具测量整个技术栈的延迟:GPU等待时间、网络延迟(如ping)和存储I/O延迟,以确定真正的瓶颈所在。
  • 缓存预热与测试时长:运行测试的时间应足够长,以使缓存达到预热和稳定状态。初始结果可能会因缓存为空而产生偏差。
  • 并发测试:使用多个并发客户端进行测试,以模拟生产负载,并发现“吵闹邻居”问题或存储后端的竞争。

05

竞争格局与替代架构

外部KV缓存已成为存储供应商在AI技术栈中提升自身价值和相关性的一个全新战略战场。Pure Storage并非孤军奋战,数个主要竞争者也已发布了具有不同架构哲学的解决方案。

下表对主流外部KV缓存方案进行了结构化对比,使决策者能够迅速把握不同厂商的设计思路及其内在权衡,从而将Pure的策略置于更广阔的市场背景中进行考量。

表2:外部KV缓存解决方案架构对比

厂商 / 解决方案

核心架构与存储介质

集成方法

关键技术差异 / 设计哲学

Pure Storage / KVA

共享式全闪存UFFO¹ (FlashBlade)

原生协议 (NFS/S3),通过vLLM KV连接器

简洁性与企业集成:利用现有的标准协议,依赖后端存储阵列的原始性能。

VAST Data / VUA

解耦共享一切架构 (DASE) on NVMe闪存

基于代理 (VUA agent) 在GPU服务器上;vLLM插件

智能前缀缓存:将键分解为块以实现部分上下文匹配,使用V-Tree元数据搜索快速定位相关缓存条目。

DDN / Infinia

高并发对象存储平台 (Infinia)

软件框架集成 (LMCache)

大规模并发与扩展:平台设计用于处理每秒10万次以上的并发调用,并保持亚毫秒级延迟,专注于大规模推理系统。

Hammerspace / Tier 0

通过并行全局文件系统聚合本地NVMe

内核集成的并行文件系统 (绕过NFS客户端/服务器)

极致的邻近性:将GPU服务器内的本地NVMe SSD转变为统一、共享的高性能存储层,专注于最小化网络跳数。

¹ UFFO: 统一快速文件与对象 (Unified Fast File and Object)

对不同设计哲学的分析

  • Pure (以协议为中心):其“智能”体现在高性能的存储后端,而接口则保持简单和标准化。这种方式对重视稳定性和互操作性的传统企业IT部门极具吸引力。
  • VAST (以代理为中心):其“智能”在于GPU主机上的VUA代理,它在访问存储前执行智能查找。这可能提高像RAG这类复杂工作负载的缓存命中率,但为GPU服务器增加了一个额外的软件组件。
  • Hammerspace (以局部性为中心):其“智能”在于能够聚合最快存储介质——本地NVMe——的全局文件系统。这种方式通过最小化网络距离来优先保证原始性能,但其挑战在于如何有效编排分布式、易失性的存储资源。
  • DDN (以规模为中心):其“智能”在于平台处理海量并发请求的能力。这主要针对超大规模和大型企业部署,在这些场景中,同时发生的请求数量是首要挑战。

06

结论与建议

Pure Storage的KVA是针对LLM推理中关键的KV缓存瓶颈而推出的一个及时且战略合理的解决方案。

其最鲜明的特点是采用标准的NFS和S3协议,这反映了其优先考虑企业集成、操作简便性和统一数据管理,而非追求专有高性能协议的战略选择。这一策略的成功,依赖于FlashBlade全闪存平台卓越的底层性能,以满足主动推理缓存严苛的延迟要求。尽管竞争对手提供了侧重于智能代理或超局部性的替代架构,但Pure的方案以其独特的定位,吸引着那些希望将现有数据基础设施以最小化中断的方式扩展到AI流水线中的企业客户。

结论与建议

  1. 评估工作负载的可缓存性(何时评估):外部KV缓存并非万能药,其投资回报率与缓存命中率直接相关。在评估之前,应分析生产或目标工作负载是否具备以下特征:
    • 高提示词重复率:是否存在大量用户发出相同或相似查询的场景?(例如,RAG系统查询相同文档)。
    • 长且共享的上下文:是否正在构建对话式AI或聊天机器人,其中对话历史需要被反复处理?。
    • 基于模板的生成:是否使用标准化的提示词模板来执行摘要、翻译或其他任务?
    • 如果以上问题的答案是肯定的,那么像KVA这样的解决方案将是降低TCO的有力候选者。
  2. 采用系统级的评估框架(如何评估)
    • 不要将KVA视为一个孤立的存储功能来评估。必须测试从GPU服务器到网络再到FlashBlade的整个技术栈。
    • 使用您特定的LLM(如Llama 3.1 70B)和服务框架(vLLM)进行基准测试,以在您的环境中验证Pure的性能声明。
    • 关注端到端的应用指标:缓存命中时的TTFT改善情况、对TPOT的影响,以及在并发负载下的整体系统吞吐量。
  3. 将KVA置于统一数据平台战略中(为何评估)
    • 将对支持KVA的平台(如FlashBlade)的投资,视为构建统一AI数据管道的基础元素,而不仅仅是解决推理问题的单点方案。
    • 同一个平台既可以服务于“热”的KV缓存,也可以存储“温”的模型权重和“冷”的训练数据集,所有数据均可通过相同的文件和对象协议访问。
    • 这种被Pure称为“数据存储平台”的方法,能够简化基础设施、减少数据孤岛,并在整个AI生命周期中实现一致的数据管理和治理。因此,采纳KVA的决策应成为关于企业AI数据基础设施未来发展的更广泛战略对话的一部分。

参考资料

  1. RDMA Explained: The Backbone of High-Performance Computing ..., accessed on August 10, 2025, https://www.digitalocean.com/community/conceptual-articles/rdma-high-performance-networking
  2. Server Memory Prices | Server RAM Module Price List & Trends ..., accessed on August 10, 2025, https://memory.net/memory-prices/

Notice:Human's prompt, Datasets by Gemini-2.5-Pro-DeepResearch

#KvCache卸载 #LLM内存优化

---【本文完】---


👇阅读原文,查看历史文章,推荐PC端打开 💻(更新到 8.16)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档