1、项目简介
FlexKV 是由腾讯云主导并开源的分布式KVCache多级缓存架构,用以解决分布式 KV Cache 和多级缓存的精细管理,并建起推理引擎到云存储的桥梁。FlexKV将 KV Cache 逐层缓存至内存、SSD 及云端扩展存储,充分利用整个推理集群节点上的存储资源及外置扩展资源,以存换算,提高性价比和系统吞吐,并极大降低 TTFT 等延迟指标。
在 2025 年腾讯全球数字生态大会主峰会上,腾讯正式宣布 FlexKV 项目开源。
在知名 SSD 厂商群联电子(Phison) 的实测中,FlexKV 在真实场景下显著降低推理延迟:
● 产品说明增强搜索:使用FlexKV预缓存产品说明文档 KV Cache,客户搜索时直接复用,TTFT 降低 70%
● 医疗问答助手:使用FlexKV预缓存多个医疗知识库 KV Cache,客户提问时即时提取,对话时延降低 57%
FlexKV由三大核心引擎协同工作:
负责初始化并管理三级缓存(内存 / SSD / 扩展云存储),保持与 GPU 内部 KV 形状(shape)完全一致,通过 block ID 快速计算物理偏移。
支持 block-wise 模式,可将多个网络层(layer)的 KV 缓存合并为更大粒度的 block,提升 I/O 传输效率,降低单位访问开销。
负责决策数据调度路径、源端与目标端 block ID 映射,实现智能缓存管理。它包括:
● RadixTree:高效支持前缀匹配(match/insert),用于快速定位缓存块
● 内存池(mempool):实时追踪缓存空间使用,触发 LRU 等淘汰策略
当新请求到达时,GlobalCacheEngine 将比对各级存储中已缓存的 token 数量,智能决策是否从 SSD 或远端扩展存储拉取数据,并通过内存中转至 GPU,实现最优访问路径。
负责执行 GlobalCacheEngine 下发的数据搬运指令。
核心特性:
● 多进程 + 多线程架构:最大化并行传输能力
● 支持 io_uring、异步 I/O 等高性能 I/O 技术:突破传统 I/O 瓶颈,实现毫秒级数据搬运
FlexKV 以“以存换算”为核心理念,通过多级缓存架构显著降低推理延迟、提升系统吞吐。主要优势包括:
分层缓存,弹性降本
支持“内存 → SSD → 可扩展云存储”三级缓存体系。用户既可利用本地闲置资源构建低成本缓存,也可在云原生环境中接入远端共享存储,实现跨节点 KV Cache 共享与无限扩展。
极致性能,毫秒响应
融合 Blockwise 存储、优化 RadixTree、多进程并行、io_uring 异步 I/O 等多项技术,将 KV Cache 存取延迟压降至毫秒至亚毫秒级,大幅减少 Prefill 阶段计算负载。
开源开放,轻松集成
提供完整、清晰的示例代码与接入文档,开发者可零改造或极低改造将 FlexKV 集成至主流推理框架,如 vLLM 与 Dynamo,快速落地生产环境。
FlexKV 将持续迭代,重点推进以下方向:
● 框架深度适配:陆续发布对 vLLM、SGLang 等主流推理框架的官方支持
● 分布式查询能力:构建多节点共享 KV Cache 查询架构
● 延迟极致优化:引入压缩、智能调度等机制,进一步压降端到端延迟
● 其他扩展存储接入:支持 GooseFS 等其他可扩展存储接入,强化云原生存储生态
欢迎 Star & Fork,共建高性能分布式KVCache多级缓存架构!
GitHub 主仓库:https://github.com/taco-project/FlexKV
欢迎加入 FlexKV 客户交流群,获取最新动态、技术答疑与使用支持!
关注腾讯开源公众号
获取更多最新腾讯官方开源信息!
#腾讯云、#高性能、#分布式、#缓存架构、#开源