# LLM推理中 KVCache 提示推理效率的几点应用

> 这是基于2025 AICon大会的马腾的演讲整理而成

通过kvCache的优化提升效率，如模型算法优化减少KVCache产生量，KVCache压缩，KVCache复用，KVCache共享，

## 前言

在大模型应用的浪潮中，有一个问题始终困扰着从业者：如何在保证服务质量的同时，降低推理成本、提高吞吐效率？答案或许就藏在"KVCache"这个看似技术化的概念中。

KVCache，全称Key-Value Cache，是大模型推理过程中最核心的优化点之一。随着模型参数规模的急剧膨胀，KVCache的存储和传输开销已经成为制约大模型规模化应用的主要瓶颈。本文将从技术原理、优化策略到工程实践，深入解析KVCache优化的来龙去脉。

## 一、KVCache是什么

### 1.1 基本概念

在Transformer架构中，每个token的输出都需要与之前所有的token进行注意力计算。为了避免重复计算，系统会将之前token的Key和Value向量缓存起来，这就是KVCache的由来。

形象地说，KVCache就像一个"记忆缓冲区"，它存储了对话历史的上下文信息，使得模型在生成下一个token时不需要重新计算所有的历史信息。从计算角度看，KVCache的引入将自回归生成的时间复杂度从O(n²)降低到了O(n)，大大提升了推理效率。

### 1.2 KVCache的规模

然而，KVCache的规模往往超出我们的想象。以一个中等规模的大模型为例：

每个token的KVCache大小约为几十KB，取决于模型的层数、注意力头数和向量维度。假设一个模型有32层，每层32个注意力头，向量维度为128，那么每个token的KVCache约为128KB。

在实际的对话场景中，一个请求可能包含数千个token，KVCache总量可能达到几百MB甚至更高。如果考虑高并发场景，系统需要同时服务大量的请求，KVCache的总量可能达到TB甚至PB级别。这对存储和传输都提出了极高的要求。

### 1.3 KVCache的挑战

KVCache带来的挑战主要体现在以下几个方面：

**内存占用**是首要问题。GPU显存是稀缺资源，大量的KVCache会占用宝贵的显存空间，影响模型的并行处理能力。

**传输开销**同样不容忽视。在分布式推理场景下，KVCache需要在不同的GPU甚至不同的服务器之间传输，带宽成为重要的瓶颈。

**管理复杂性**也不可小觑。KVCache的生命周期管理、缓存策略、淘汰机制等都需要精心设计，复杂的管理逻辑本身也会带来额外的开销。

## 二、KVCache优化技术全景

### 2.1 计算层面的优化

在计算层面，KVCache的优化主要关注如何减少计算量和提高计算效率：

**GQA/MQA（Grouped Multi-Query Attention）** 是目前最主流的优化方案。传统的Multi-Head Attention每个头都有独立的KV向量，而GQA/MQA将多个头分组共享KV向量，在几乎不损失模型效果的前提下，大幅减少了KVCache的存储和计算开销。

**MLA（Multi-head Latent Attention）** 是一种更加激进的优化方案，它通过低秩压缩的方式减少KVCache的维度，进一步降低存储和计算开销。

**YOCO/CLA（Cross-Layer Attention）** 则从跨层的角度寻找优化空间，通过层间的KVCache共享来减少冗余。

**量化技术**也是重要的优化手段。FP8、Int4等量化格式可以在可接受的精度损失下，显著减少KVCache的存储空间。

### 2.2 调度层面的优化

在调度层面，优化重点是如何更高效地管理和利用KVCache：

![](https://developer.qcloudimg.com/http-save/yehe-1293908/0fc8afb60c7d7b8ce2185f3e3f2d0328.png)

**PagedAttention** 是vLLM提出的革命性方案。传统的KVCache管理采用连续的内存分配方式，容易产生内存碎片和浪费。PagedAttention借鉴了操作系统的虚拟内存思想，采用分页管理KVCache，大大提高了内存利用率。

**Continus Batching** 是一种动态批处理策略，允许不同请求在不同的时间点加入和退出批处理，提高了系统的整体吞吐效率。

**Prefix Caching** 是SGLang提出的优化方案。对于具有相同前缀的请求（如系统提示词），可以共享KVCache，避免重复计算。RadixAttention数据结构可以高效地管理和查找可复用的KVCache。

**Sparse KVCache** 是DeepSeek NSA探索的方向。通过识别和过滤不重要的token，有选择地保留KVCache，在效果和效率之间取得平衡。

### 2.3 架构层面的优化

在架构层面，Mooncake等系统探索了更加激进的优化方案：

**分布式KVCache池**：将KVCache从单个GPU中解放出来，形成独立的分布式缓存服务。不同的推理节点可以按需访问和共享KVCache，提高了资源的利用效率。

**预取和预填充策略**：通过智能预测用户的下一步请求，提前进行KVCache的预取和预填充，减少等待时间。

**异构存储架构**：利用CPU内存、NVMe SSD等更便宜的存储介质来扩展KVCache的容量，通过精细的冷热数据管理来平衡成本和性能。

## 三、Mooncake的工程实践

### 3.1 系统设计理念


![](https://developer.qcloudimg.com/http-save/yehe-1293908/903bae3e8111d2fb197402127a3b1b5b.png)

Mooncake是我们在KVCache优化方面的工程实践，其设计理念可以概括为"分离"和"协同"。

![](https://developer.qcloudimg.com/http-save/yehe-1293908/05c680132976cca4447ff0b93688231f.png)

**分离**指的是将KVCache从模型推理过程中分离出来，形成独立的服务。模型推理节点不再负责KVCache的存储和管理，而是专注于计算任务。这种分离带来了几个好处：推理节点可以更专注于计算，提高资源利用率；KVCache服务可以独立扩展，适应不同的负载特征；不同推理节点之间可以共享KVCache，减少重复计算。

**协同**指的是通过精细的调度策略，实现KVCache服务与推理服务之间的协同。Mooncake实现了多种协同机制，包括基于预测的预取策略、基于优先级的缓存淘汰策略、基于负载的流控策略等。

### 3.2 关键技术实现

**Transfer Engine**：Mooncake的核心是一个高效的KVCache传输引擎。它解决了几个关键问题：如何高效地进行跨节点KVCache传输？如何处理网络抖动和传输失败？如何平衡传输延迟和带宽利用率？通过自研的传输协议和调度算法，Mooncake实现了毫秒级的KVCache传输延迟。

**缓存管理策略**：Mooncake实现了多种缓存管理策略，包括LRU、LFU、优先级等。针对AI场景的特点，还设计了基于语义相似度的缓存策略，可以识别和复用语义相近的KVCache。

**预取和预填充**：基于历史请求的模式分析，Mooncake可以预测用户的下一步请求，提前进行KVCache的预取。对于系统提示词等高频复用的内容，Moonake会进行主动的预填充，确保随时可用。

### 3.3 效果验证

在实际部署中，Mooncake带来了显著的效果提升：

**TTFT（Time To First Token）降低30%**：通过预取和预填充策略，用户的首token响应时间显著缩短。

**吞吐量提升2.6倍**：通过更高效的内存管理和调度策略，系统可以服务更多的并发请求。

**GPU利用率提升**：KVCache的分离使得GPU可以更专注于计算任务，利用率得到了明显的提升。

## 四、经验总结与展望

### 4.1 实践经验

在KVCache优化的实践中，我们总结了几点经验：

**量化指标至关重要**：KVCache优化效果需要通过准确的指标来衡量。首token延迟、token间延迟、吞吐量、GPU利用率等指标都需要持续监控和优化。

**场景驱动优化**：不同的应用场景对KVCache的需求不同。在线服务更关注延迟，离线批处理更关注吞吐，混合负载需要综合权衡。优化策略应该因场景而异。

**系统思维不可或缺**：KVCache优化不是孤立的技术点，而是涉及到计算、存储、网络、调度等多个方面的系统工程。需要从系统的角度来思考和解决问题。

### 4.2 未来方向

展望未来，KVCache优化还有几个值得关注的方向：

**更激进的压缩技术**：包括基于语义的压缩、基于神经网络的压缩等，在保证效果的前提下进一步减少KVCache的规模。

**更智能的预取策略**：结合用户行为预测和场景理解，实现更加精准的预取。

**更广泛的共享机制**：探索跨用户、跨会话、跨应用的KVCache共享，进一步提高资源利用效率。

## 结语

KVCache优化是大模型规模化应用的关键一环。它不像模型训练那样炫目，也不像产品设计那样有趣，但它是支撑大模型落地的底层基础设施。

在这个领域，没有一劳永逸的解决方案，只有持续不断的优化和迭代。随着模型规模的进一步扩大和应用场景的日益丰富，KVCache优化将持续成为重要的研究课题和工程实践方向。

让我们一起，在这个看似枯燥却至关重要的领域中，探索更多的可能性。



通过kvCache的优化提升效率，如模型算法优化减少KVCache产生量，KVCache压缩，KVCache复用，KVCache共享，

LLM推理中 KVCache 提示推理效率的几点应用

高级工程师

人工智能

算法

架构设计

KVCache优化技术提升大模型推理效率，通过GQA/MQA、量化、PagedAttention等方案减少存储计算开销。Mooncake系统实践KVCache分离与协同，实现30%首token延迟降低和2.6倍吞吐提升。未来将探索更智能的压缩预取技术，推动大模型规模化应用。

大模型应用

数据管理

数据结构

内存管理

服务器

4核4G3M云服务器 新用户低至38元/年！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

LLM推理中 KVCache 提示推理效率的几点应用-腾讯云开发者社区-腾讯云

LLM推理中 KVCache 提示推理效率的几点应用

LLM推理中 KVCache 提示推理效率的几点应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐