首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >分布式KVCache多级缓存架构 - FlexKV正式开源!

分布式KVCache多级缓存架构 - FlexKV正式开源!

作者头像
腾讯开源
发布2025-10-10 10:30:57
发布2025-10-10 10:30:57
270
举报

1、项目简介

FlexKV 是由腾讯云主导并开源的分布式KVCache多级缓存架构,用以解决分布式 KV Cache 和多级缓存的精细管理,并建起推理引擎到云存储的桥梁。FlexKV将 KV Cache 逐层缓存至内存、SSD 及云端扩展存储,充分利用整个推理集群节点上的存储资源及外置扩展资源,以存换算,提高性价比和系统吞吐,并极大降低 TTFT 等延迟指标。

在 2025 年腾讯全球数字生态大会主峰会上,腾讯正式宣布 FlexKV 项目开源。

2. 典型案例

在知名 SSD 厂商群联电子(Phison) 的实测中,FlexKV 在真实场景下显著降低推理延迟:

产品说明增强搜索:使用FlexKV预缓存产品说明文档 KV Cache,客户搜索时直接复用,TTFT 降低 70%

医疗问答助手:使用FlexKV预缓存多个医疗知识库 KV Cache,客户提问时即时提取,对话时延降低 57%

3. 架构设计

FlexKV由三大核心引擎协同工作:

StorageEngine —— 数据存储引擎

负责初始化并管理三级缓存(内存 / SSD / 扩展云存储),保持与 GPU 内部 KV 形状(shape)完全一致,通过 block ID 快速计算物理偏移。

支持 block-wise 模式,可将多个网络层(layer)的 KV 缓存合并为更大粒度的 block,提升 I/O 传输效率,降低单位访问开销。

GlobalCacheEngine —— 全局缓存控制引擎

负责决策数据调度路径、源端与目标端 block ID 映射,实现智能缓存管理。它包括:

RadixTree:高效支持前缀匹配(match/insert),用于快速定位缓存块

内存池(mempool):实时追踪缓存空间使用,触发 LRU 等淘汰策略

当新请求到达时,GlobalCacheEngine 将比对各级存储中已缓存的 token 数量,智能决策是否从 SSD 或远端扩展存储拉取数据,并通过内存中转至 GPU,实现最优访问路径。

TransferEngine —— 高性能数据传输引擎

负责执行 GlobalCacheEngine 下发的数据搬运指令。

核心特性:

多进程 + 多线程架构:最大化并行传输能力

支持 io_uring、异步 I/O 等高性能 I/O 技术:突破传统 I/O 瓶颈,实现毫秒级数据搬运

3. 核心优势

FlexKV 以“以存换算”为核心理念,通过多级缓存架构显著降低推理延迟、提升系统吞吐。主要优势包括:

分层缓存,弹性降本

支持“内存 → SSD → 可扩展云存储”三级缓存体系。用户既可利用本地闲置资源构建低成本缓存,也可在云原生环境中接入远端共享存储,实现跨节点 KV Cache 共享与无限扩展。

极致性能,毫秒响应

融合 Blockwise 存储、优化 RadixTree、多进程并行、io_uring 异步 I/O 等多项技术,将 KV Cache 存取延迟压降至毫秒至亚毫秒级,大幅减少 Prefill 阶段计算负载。

开源开放,轻松集成

提供完整、清晰的示例代码与接入文档,开发者可零改造或极低改造将 FlexKV 集成至主流推理框架,如 vLLM 与 Dynamo,快速落地生产环境。

4. 未来规划

FlexKV 将持续迭代,重点推进以下方向:

框架深度适配:陆续发布对 vLLM、SGLang 等主流推理框架的官方支持

分布式查询能力:构建多节点共享 KV Cache 查询架构

延迟极致优化:引入压缩、智能调度等机制,进一步压降端到端延迟

其他扩展存储接入:支持 GooseFS 等其他可扩展存储接入,强化云原生存储生态

5. 项目地址

欢迎 Star & Fork,共建高性能分布式KVCache多级缓存架构!

GitHub 主仓库:https://github.com/taco-project/FlexKV

欢迎加入 FlexKV 客户交流群,获取最新动态、技术答疑与使用支持!

关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

#腾讯云、#高性能、#分布式、#缓存架构、#开源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2. 典型案例
  • 3. 架构设计
    • StorageEngine —— 数据存储引擎
    • GlobalCacheEngine —— 全局缓存控制引擎
    • TransferEngine —— 高性能数据传输引擎
  • 3. 核心优势
  • 4. 未来规划
  • 5. 项目地址
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档