LLM推理提速：写在UCM将开源之际

数据存储前沿技术

发布于 2025-10-09 10:53:16

750

全文概览

大型语言模型（LLM）的爆发式增长，正将“AI工厂”推向工业化深水区。然而，在这条高效的智能生产线上，一个看似不起眼的“内存墙”问题——KV Cache的急剧膨胀，正成为制约LLM推理效率、吞吐量和长上下文应用，成为核心瓶颈。GPU高带宽显存（HBM）的昂贵与稀缺，使得如何智能地管理和卸载KV Cache，成为AI工厂提升生产力的关键。

面对华为UCM、NVIDIA Dynamo、Mooncake和LMCache等多样化的新兴解决方案，我们该如何选择，才能真正突破性能瓶颈，实现成本与效率的平衡？本文将深入剖析这些架构的设计哲学与实践价值，助您洞悉LLM推理优化的前沿趋势。

阅读收获

掌握LLM推理中KV Cache内存瓶颈的本质与经济驱动力。
理解华为UCM、NVIDIA Dynamo、Mooncake、LMCache四大KV Cache卸载方案的架构差异与适用场景。
洞悉不同技术栈（Rust, C++, Python, CUDA）在LLM系统设计中的权衡与考量。
获取针对MLOps工程师和系统架构师的实战建议，指导技术选型与平台评估。

👉 划线高亮观点批注

现代AI工厂中的推理瓶颈

随着大型语言模型（LLM）的工业化应用进入深水区，“AI工厂”（AI Factory）概念应运而生。它不再仅仅是服务器集群代名词，而是一个集成先进硬件、专用软件和自动化工作流，旨在规模化开发、训练和部署AI模型的数字基础设施 1。在这个范式下，AI工厂将原始数据转化为能够产生商业价值的智能服务，而高吞吐、低延迟的推理能力，正是这条“生产线”上至关重要的环节 2。然而，一个看似不起眼的技术细节——键值缓存（Key-Value Cache, KV Cache）的管理，正逐渐演变为制约整条生产线效率的核心瓶颈。

KV Cache卸载：价值与驱动力

在LLM推理过程中，GPU显存（HBM）的消耗主要来自两个方面：模型权重和KV Cache 4。模型权重在加载后是静态的，而KV Cache则是一个动态增长的庞然大物。它的大小与批处理大小（batch size）和序列长度（sequence length）呈线性正相关，这使其成为GPU高带宽显存（HBM）这一最昂贵、最稀缺资源的几乎无上限的消耗者 4。

这种巨大的内存压力带来了可量化的挑战。以Llama 2 7B模型为例，一个包含4096个token序列的单次请求，其KV Cache就能消耗约2 GB的HBM 4。对于像Llama 3 70B这样更庞大的模型，处理单个用户128k token的上下文窗口，KV Cache的占用更是高达约40 GB 6。这种内存压力直接限制了系统的吞吐量，阻碍了长上下文模型的普及，并频繁导致内存不足（Out-of-Memory, OOM）错误，从而迫使AI工厂的“生产线”停摆 6。

由此，AI推理领域面临一个“不可能三角”困境：即在成本、效率和性能三者之间难以兼得 7。为了打破这一僵局，将KV Cache卸载（offloading）到成本更低、容量更充裕的内存层级（如CPU DRAM、NVMe SSD）成为业界核心策略。这一举措不仅能提升资源利用率，避免为管理缓存而过度配置高端GPU，从而降低计算成本，甚至能在处理具有重复上下文请求时，通过避免KV Cache的重复计算来显著降低延迟 8。

KV Cache管理难点

然而，KV Cache管理并非简单“数据搬家”，它涉及一系列复杂的系统级挑战，这些挑战共同构成了所谓的“内存墙”问题。

内存管理的复杂性：核心挑战在于管理一个复杂的内存层级结构。系统必须智能地决定何时、何地以及何种数据需要被逐出。传统的缓存替换策略，如最近最少使用（LRU）或最不经常使用（LFU），对于LLM工作负载中独特的、非均匀的访问模式往往表现不佳，导致性能次优 10。
延迟瓶颈：卸载操作本身会引入延迟。数据必须通过PCIe或网络等相对较慢的互连总线进行传输。因此，通过释放HBM所获得的性能增益，必须大于从较慢存储层级检索缓存所付出的延迟代价。这一权衡至关重要，并且高度依赖于具体的工作负载。例如，对于包含大量长共享前缀（shared prefixes）的工作负载，卸载能带来显著收益；但对于大量一次性的、无重复的短提示（one-shot prompts），卸载反而可能成为不必要的I/O开销，从而降低整体性能 8。
碎片化与低效：朴素的KV Cache分配方式会导致GPU显存内部产生严重的内存碎片。尽管像vLLM中的PagedAttention这样的技术通过将内存划分为固定大小的块（block）来有效缓解内部碎片问题，但如何在更广泛的内存层级间高效管理这些块，依然是一个悬而未决的难题 4。
分布式协调：在现代AI工厂的多节点分布式环境中，KV Cache的管理不再局限于单台机器。跨节点维护缓存的一致性、追踪缓存位置以及实现高效的节点间传输，都极大地增加了系统的复杂性 10。这正是像华为UCM 、NVIDIA Dynamo，Mooncake Store、LMCache 等新一代框架试图在更高层次的编排层解决的核心问题 11。

这些挑战背后，揭示了LLM推理领域一个根本性范式转变。早期，LLM优化主要集中在提升原始计算能力（FLOPs）。然而，对于构成生成式任务主体的解码（decode）阶段，性能瓶颈已从计算密集型转向了内存带宽密集型。

解码阶段虽然每次只生成一个token，但需要访问包含先前所有token历史的完整KV Cache 4。这意味着，为了生成一个新token，系统需要从内存中读取海量的KV Cache数据。相比之下，完成单个token所需的矩阵运算量则显得微不足道。因此，系统的性能瓶颈不再是GPU的计算速度，而是HBM的内存带宽 5。这一转变意味着，仅仅升级到拥有更高TFLOPs的GPU可能无法有效改善解码延迟。解决方案必须着眼于减少数据移动，而这正是智能缓存与卸载技术的核心目标。

伴随这一转变，KV Cache管理的角色也发生深刻演进。最初，KV Caching只是一种避免重复计算的优化技巧 12。但随着上下文窗口增长，其体积迅速膨胀，甚至超过了模型权重本身，成为主要内存消耗者 5。KV Cache的局限性开始直接定义整个系统能力上限，如最大并发用户数和最大上下文长度。因此，新一代的推理系统不再将KV Cache管理视为一个附加功能，而是将其作为整个系统设计的核心架构支柱。例如，Mooncake提出的“以KV Cache为中心”的设计理念，甚至在物理上将生成缓存的预填充（prefill）阶段与消耗缓存的解码（decode）阶段分离，正是这一架构思想演进的极致体现 14。

新兴方案架构分析

面对共同的挑战，业界涌现出多种解决方案，它们在架构设计、干预层次和核心理念上各有千秋。本章将对华为UCM、NVIDIA Dynamo、Moonshot AI的Mooncake以及芝加哥大学的LMCache进行深度架构剖析，旨在揭示其设计背后权衡与哲学。

华为UCM：异构内存抽象

华为推理记忆数据管理器（Unified Cache Manager, UCM）被定位为一个“AI推理加速套件”或“系统级补充方案” 7。其核心架构思想是创建一个统一、分层内存层级结构。UCM能够根据数据的访问频率或“热度”，自动管理KV Cache数据在三个层级间的分布：HBM（热数据）、DRAM（温数据）和SSD（冷数据）7。

该系统采用模块化设计，主要由三部分构成：连接各种推理引擎与计算资源的推理引擎插件（Connector）、支持多级KV Cache管理与加速算法的功能库（Accelerator），以及高效的KV Cache访问适配器（Adapter） 7。这种设计表明UCM采用了一种中间件（middleware）的实现方式，旨在与多样的推理引擎和硬件后端兼容。

从战略层面看，UCM推出是应对特定挑战的产物。它被明确地定义为一个旨在解决硬件局限的软件方案，其目标是减少对稀缺、昂贵且常常受外部供应链控制的高端HBM芯片的依赖 17。通过更高效地利用技术相对成熟、供应更稳定的硬件（如DRAM和国产SSD），UCM试图在硬件受限的条件下实现具有竞争力的性能，这无疑是应对地缘政治引发的供应链风险的战略性举措 18。

Dynamo：分布式编排

NVIDIA Dynamo的定位与UCM截然不同。它本身并非一个系统中间件产品，而是一个更高层次的、与具体引擎无关的编排框架（orchestration framework）。Dynamo专为管理大型多节点分布式环境中的推理工作负载而设计，其宏大愿景是成为“AI工厂的操作系统” 11。它的核心关注点在于集群级别的调度、路由和资源管理。

Dynamo的架构创新体现在以下几个关键组件：

分离式预填充与解码（Disaggregated Prefill & Decode）：Dynamo在逻辑层面实现了这一分离。它能够将计算密集的预填充阶段和内存带宽密集的解码阶段调度到不同的、动态分配的GPU工作单元上，从而最大化整个集群的资源利用率 11。
动态GPU规划器/调度器（Dynamic GPU Planner/Scheduler）：该组件持续监控GPU集群容量和服务等级目标（SLO），并据此做出智能资源分配决策，以适应动态变化的工作负载 22。
KV感知的“智能路由器”（KV-Aware "Smart Router"）：这是Dynamo的核心缓存管理机制。它能够追踪KV Cache在整个GPU集群中的位置，并将新的请求智能地路由到已经持有相关缓存的GPU工作单元，从而避免昂贵的重计算 11。
KV Cache卸载：Dynamo支持将KV Cache卸载到多级内存层级，以提升整个系统的吞吐量 11。

参考阅读

**揭秘 NVIDIA Dynamo：分布式AI推理的高效引擎**

主要内容：该文章详细介绍了NVIDIA Dynamo，这是一款专为大规模分布式环境设计的开源推理框架，旨在解决生成式AI模型在推理过程中遇到的高成本、复杂部署和资源利用率低等挑战。Dynamo通过解耦式服务、智能路由和动态资源调度等技术，将推理吞吐量提升30倍以上。

Mooncake：KV Cache解耦

Moonshot AI的Mooncake则将“解耦”（disaggregation）的理念推向了极致。它实现的不仅是逻辑上的分离，更是在物理层面将预填充和解码阶段部署到不同的计算集群中 14。Mooncake通过整合整个GPU集群中未被充分利用的CPU、DRAM和SSD资源，创建了一个专用的、解耦的KV Cache池，称之为“Mooncake Store” 15。整个系统的设计都围绕着KV Cache的生命周期展开。

Mooncake的核心组件是其全局调度器——“Conductor”。作为系统的大脑，Conductor是一个以KV Cache为中心的调度器，它负责做出复杂的决策：将请求路由到何处以最大化缓存复用、如何管理缓存在存储池和计算实例间的传输，甚至实现了一套基于预测的“提前拒绝”（early rejection）策略，以便在系统过载、SLO面临风险时主动丢弃请求以保护系统稳定性 15。

Mooncake的设计哲学可以概括为“以更多的存储换取更少的计算”（Trading More Storage for Less Computation）15。它是在一个超大规模、长期处于过载状态的生产环境（即Kimi智能助手服务）中诞生并经过实战检验的。因此，其设计的首要目标是在严格遵守SLO的前提下，最大化有效吞吐量 14。

参考阅读

《月之暗面：存储换算，倍增LLM推理效率》

主要内容：该文章深入探讨了KVCache（Key-Value Cache）技术在大型语言模型（LLM）推理中的应用与优化。文章首先介绍了Mooncake系统，该系统通过增加存储资源来减少计算开销，提高LLM推理效率。重点分析了以KV缓存为中心的架构设计，展示了如何通过高效的KV缓存管理和调度策略，如预填充缓存和分块预填充策略，显著提升推理性能。

Dave's point

此处可以了解到 KVCache 管理模块只是 Dynamo 与 Mooncake AI 架构中的一部分特性，合理的对标应该是今年3月发布的 ModelEngine。

LMCache：细粒度缓存

芝加哥大学的LMCache则在另一个抽象层次上运作。它并非一个独立的系统，而是一个LLM服务引擎扩展（engine extension），旨在与vLLM等主流框架紧密集成 30。它的关注点并非集群级的宏观编排，而是缓存机制本身的算法创新。

LMCache标志性创新在于其 “非前缀缓存”（Non-Prefix Caching） 能力。传统缓存系统只能在新提示（prompt）与已缓存序列拥有完全相同前缀时才能复用缓存。而LMCache打破了这一限制，它能够识别并复用任何共享的文本片段所对应的KV Cache，无论该片段出现在提示的哪个位置 30。这一特性在检索增强生成（RAG）和多轮问答（QA）等场景中尤为强大，因为在这些场景下，相同的文档或上下文片段常常以非连续的方式重复出现。

除了这一核心算法，LMCache也支持分层缓存（GPU、CPU DRAM、本地磁盘），并通过与vLLM的集成，提供了高性能的CPU卸载和P2P缓存共享等功能 30。

Summary

这四种技术架构选择，清晰地展示了解决KV Cache问题的不同干预层次。

LMCache处于最低层，是对推理引擎内部算法的增强。
UCM处于中间件层，它在引擎和硬件之间提供了一个系统级的抽象层。
Dynamo则位于编排层，作为集群级的控制平面，管理着多个独立的推理引擎。
Mooncake则代表了最高层次的干预，它从根本上重新设计了整个服务架构。这种层次差异表明，解决内存墙问题并非只有一条“正确”的道路。最优解取决于一个组织愿意投入的工程改造深度和希望获得的控制粒度，选择范围可以从一个简单的插件到一个彻底的基础设施革新。

同时，这些技术的设计哲学也深受其创造者背景的影响。NVIDIA的Dynamo旨在构建一个广泛的、引擎无关的平台，其最终目的是驱动NVIDIA硬件生态的规模化销售；其模块化和对多后端的支持是实现这一战略的关键 11。Moonshot AI的Mooncake则是为了解决一个具体的、超大规模的商业问题——在高负载下高效运行Kimi服务；其设计高度专业化且“固执己见”，将吞吐量和SLO置于首位，不惜进行颠覆性的系统重构 27。芝加哥大学的LMCache源于学术研究，其核心贡献是一种新颖的算法，展示了一种更高效的核心任务执行方式；其价值在于算法的巧妙性及其被集成到其他系统中的潜力 30。而UCM是复杂商业背景下的产业整合，要在硬件限制下实现AI技术的自主可控。这些差异揭示了一个深刻的现实：技术架构并非纯粹的工程实践，它被其创造者的经济、战略和体制环境深刻地塑造着。

架构与特性速览

为了直观地比较这四种技术的架构差异，下表从多个维度进行了总结。

特性	华为 UCM	NVIDIA Dynamo	Moonshot AI Mooncake	LMCache (芝加哥大学)
核心架构	中间件抽象层	分布式编排框架	以KV Cache为中心的完全解耦系统	推理引擎扩展
缓存策略	基于热度的三级分层缓存 (HBM/DRAM/SSD)	分布式KV感知路由，最大化全局缓存复用	全局解耦缓存池，动态迁移与复制	基于内容的非前缀细粒度复用
关键组件	Connector, Accelerator, Adapter	Planner, Smart Router, Workers	Conductor (全局调度器), Mooncake Store	引擎内集成模块
目标环境	以国产化软硬件生态为主的异构推理集群	大规模多节点云环境，异构模型部署	超大规模单一服务，长期过载的生产环境	基于vLLM的部署，尤其适用于RAG/Agent场景

跨平台技术深度对比

本章将根据开源社区（GitHub ）上的代码库，对四种技术进行更细致、基于证据的横向比较，深入探讨它们在项目起源、技术选型、发展蓝图和市场成熟度等方面的差异。

项目起源

华为 UCM：于2025年8月12日正式发布 16，并计划于 2025年9月开源 18。
NVIDIA Dynamo：虽然Dynamo继承了NVIDIA在Triton项目上的长期经验 22，但作为一个独立开源框架，它主要是在2025年崭露头角，其GitHub仓库在 2025年8月发布了新版本（Dynamo Release v0.4.1） 11。最早 v0.1.0 发布于今年 3.18，因此推测其代码库开源实践应该为2025年3月。
Mooncake (Moonshot AI)：其研究论文被2025年2月举行的FAST '25会议收录 15。但该系统早已在Kimi服务中大规模部署，这表明其核心研发工作至少贯穿了整个2024年，甚至更早 14。本文以其最早发布版本实践为准（2025年1月20号）
LMCache (芝加哥大学)：其主GitHub仓库显示最新版本（v0.3.5）发布于2025年8月 30。初始提交日期同样未知 30，但其相关的测试仓库lmcache-tests的提交记录可以追溯到11个月前（以2024年末为基准），暗示项目可能始于2024年末 36。

从时间线可以看出，这些解决方案并非前后迭代的产物，而是各大技术力量为解决同一个紧迫问题而进行的并行探索。华为、NVIDIA这样的行业巨头，与Moonshot AI、芝加哥大学这样的创新力量，几乎在2025年中后期集中发布了各自的解决方案。这强烈地表明，KV Cache引发的内存墙问题，在此时已经演变成一个全行业性的、亟待解决的危机。

系统开发语言对比

Dynamo (Rust 69.9%, Python 18.0%)：Dynamo的核心组件（如与OpenAI兼容的前端和路由器）选择使用Rust，这是一个深思熟虑的工程决策。Rust提供了与C++相媲美的性能，同时通过编译时检查保证了内存安全。这对于构建一个需要管理成千上万个GPU工作单元且必须保持高稳定性的分布式控制平面至关重要 11。Python则被用于实现可扩展性和与机器学习生态的集成（例如，后端引擎的封装）11。
Mooncake (C++ 80.6%，Python 7.4%)：对于一个追求极致性能、每一微秒延迟都至关重要的底层服务平台，C++是合乎逻辑的选择。它提供了构建Conductor调度器和Mooncake Store这类组件所需的底层内存和执行控制能力。相关研究中提及的RDMA传输，通常也是通过C/C++进行底层管理的 37。
LMCache (Python 93.4%, CUDA 4.6%)：LMCache的设计目标是作为vLLM等基于Python的服务引擎的扩展。因此，其代码库以Python为主是实现无缝集成的必要条件 30。而为了规避Python的性能瓶颈，其性能最敏感的操作（很可能涉及GPU上的缓存查找或数据处理）则通过定制的CUDA核函数实现 30。
UCM (Python 52.2%, C++ 45.5%)：考虑到华为自身的昇思（MindSpore）和CANN生态，其核心库采用C++开发，并提供Python接口供上层调用。

编程语言选择并非表面细节，它直接反映了每个项目的架构哲学和集成策略。Dynamo的Rust体现了对控制平面稳定性的极致追求；Mooncake的C++（推断）代表了对全栈系统裸金属性能的执着；LMCache的Python则优先考虑了与现有生态的兼容性和集成便利性。这些选择从根本上影响了开发体验、潜在的错误类型、性能特征以及项目所能吸引的社区类型。

从开发路线图到技术蓝图

Dynamo：其路线图指向构建更复杂的调度（“基于SLA的规划器”）和路由（“条件化解耦”）能力，并计划支持更多后端引擎 11。其技术蓝图是成为一个通用、智能的AI模型编排层。
Mooncake：作为一个内部系统，其发展路线由Kimi服务的业务需求驱动。其发表的论文本身就是一份技术蓝图，核心是针对长上下文和过载场景的持续优化 27。未来的工作可能包括改进Conductor调度器的预测模型和进一步优化节点间的缓存传输效率（后续的FlowKV论文也聚焦于此）37。
LMCache：其路线图由学术研究引领。其引用的论文揭示了未来研究方向，包括KV Cache压缩（Cachegen）、流式处理，甚至为LLM构建类似CDN的分布式架构 30。其蓝图是不断推动缓存效率算法前沿。
UCM：其路线图具有强烈的战略色彩。短期计划是通过开源来围绕多元化算力，构建自主AI生态系统。长期技术目标是扩展对更多主流推理引擎兼容性，构筑大模型推理的存储生态位。

市场成熟度与生态系统集成

生产就绪度：
- Mooncake：在特定环境下的成熟度最高。它已经在Kimi服务的超大规模生产环境中经过了严酷的实战检验，每日处理超过千亿级别的token 14。但它并非一个通用的、开箱即用的产品。
- UCM：处于试点阶段。它已在中国银联的三个业务场景中成功试用，证明了其在真实世界中的有效性 16。其大规模可用性取决于后续的开源发布。
- Dynamo：一个新兴的平台。虽然年轻，但它得到了NVIDIA的全力支持，后者在构建成功生态系统（如CUDA、Triton）方面拥有无可匹敌的经验。Dynamo与NVIDIA AI Enterprise和NIMs的集成，预示着其强大的企业级市场前景 23。虽然Dynamo自身的生产用户尚未公布，但其前身Triton已被亚马逊、微软、Snap等巨头广泛使用 22。
- LMCache：一个生产可用的组件。尽管源于学术界，但它获得了vLLM、llm-d和KServe等生产级推理栈的官方支持，这为其进入生产环境铺平了道路 30。它拥有一个活跃的开源社区（GitHub星标数超过5.1k）30。
生态系统：
- Dynamo的生态是其核心优势：引擎无关的特性使其能够凌驾于整个市场之上，成为一个通用的控制平面。
- LMCache的生态在于其与vLLM——事实上的开源推理引擎标准——深度集成。
- UCM的生态是它正在努力构建的——围绕多元化算力构建一个自主AI生态系统的中国本土AI技术栈。
- Mooncake的生态目前主要局限于Moonshot AI内部，尽管他们也开源了与论文相关的代码 39。

开源项目对比

下表对各项目的关键信息进行了汇总，以便于快速比较。

项目	首次公开/发布	主要开发语言	开源协议	主要支持者	成熟度	生产案例
华为 UCM	2025年8月12日	Python C++	待定 (计划开源)	华为	试点阶段	中国银联
NVIDIA Dynamo	2025年3月	Rust, Python	未知	NVIDIA	新兴平台	未公布
Mooncake	2025年2月 (论文)	C++	未知 (代码已部分开源)	Moonshot AI	生产级部署	Kimi 智能助手
LMCache	~2024年末	Python, CUDA	Apache 2.0	芝加哥大学	生产可用组件	vLLM/KServe集成

综合分析与技术决策启示

本章将综合前述分析，为技术决策者提供可操作的见解和战略建议，旨在回答一个隐含的核心问题：“面对这些技术，我应该关注哪一个，以及为什么？”

华为UCM：地缘创新

对UCM的分析不应仅停留在技术层面，更应将其视为一个战略性产物。它是对全球供应链博弈的直接且巧妙的回应 17。

UCM体现了以软件创新弥补硬件短板的原则。通过使技术相对落后的硬件能够发挥出接近业界前沿的性能，它有效地削弱了技术出口管制的影响 19。此外，华为决定开源UCM，是一项旨在围绕多元化算力构建一个自主AI生态系统的战略举措，意图在中国市场打造一个能够与NVIDIA/CUDA主导地位相抗衡的替代方案 20。这对于全球AI硬件和软件的竞争格局具有深远的影响。

对技术实践者的建议

对于MLOps工程师：这些系统的兴起意味着推理部署不再是简单的“将模型部署到端点”的任务。它已经演变成一个复杂的分布式系统问题。Kubernetes、服务网格和分布式追踪等技能，正变得与模型优化本身同等重要。Dynamo/ModelEngine 的出现尤其凸显了这一趋势。
对于系统架构师：核心启示是，内存层级结构已经从服务器内部扩展到了整个数据中心。在设计新的AI平台时，网络与DRAM或SSD一样，都是内存系统不可或缺的一部分。像Mooncake和Dynamo这样的架构，已经将节点间通信视为内存管理的首要基础。
评估策略：对于任何考虑采用这些技术的团队，建议从特定工作负载概念验证（PoC）开始。评估重点不应仅仅是原始吞吐量，而应是针对常见用例（例如，长上下文RAG vs. 短交互对话）在特定SLO（如首token时间TTFT，token间时间TBT）下的性能表现。可以利用Dynamo文档中提到的GenAI-Perf等工具来创建贴近现实的基准测试 11。最终的选择，不应是哪个技术在真空中“最好”，而是在特定的生产工作负载和组织背景下，哪个技术是“最合适”的。

参考资料

What Is an AI Factory? | Supermicro, accessed September 6, 2025, https://www.supermicro.com/en/glossary/ai-factory
What is an AI Factory? | NVIDIA Glossary, accessed September 6, 2025, https://www.nvidia.com/en-us/glossary/ai-factory/
What Is an AI Factory? - F5, accessed September 6, 2025, https://www.f5.com/company/blog/defining-an-ai-factory
Mastering LLM Techniques: Inference Optimization | NVIDIA Technical Blog, accessed September 6, 2025, https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/
LLM Inference Series: 4. KV caching, a deeper look | by Pierre Lienhart | Medium, accessed September 6, 2025, https://medium.com/@plienhar/llm-inference-series-4-kv-caching-a-deeper-look-4ba9a77746c8
Accelerate Large-Scale LLM Inference and KV Cache Offload with CPU-GPU Memory Sharing | NVIDIA Technical Blog, accessed September 6, 2025, https://developer.nvidia.com/blog/accelerate-large-scale-llm-inference-and-kv-cache-offload-with-cpu-gpu-memory-sharing/
Huawei Launches AI Inference Technology (UCM) to Address ..., accessed September 6, 2025, https://en.eeworld.com.cn/mp/AIxintianxia/a405991.jspx
KV cache offloading | LLM Inference Handbook - BentoML, accessed September 6, 2025, https://bentoml.com/llm/inference-optimization/kv-cache-offloading
KV Cache Offloading - When is it Beneficial? - NetApp Community, accessed September 6, 2025, https://community.netapp.com/t5/Tech-ONTAP-Blogs/KV-Cache-Offloading-When-is-it-Beneficial/ba-p/462900
A Survey on Large Language Model Acceleration based on KV Cache Management - OpenReview, accessed September 6, 2025, https://openreview.net/pdf?id=z3JZzu9EA3
ai-dynamo/dynamo: A Datacenter Scale Distributed ... - GitHub, accessed September 6, 2025, https://github.com/ai-dynamo/dynamo
KV Caching in LLMs, explained visually - Daily Dose of Data Science, accessed September 6, 2025, https://www.dailydoseofds.com/p/kv-caching-in-llms-explained-visually/
KV Caching Explained: Optimizing Transformer Inference Efficiency - Hugging Face, accessed September 6, 2025, https://huggingface.co/blog/not-lain/kv-caching
Research team from Department of Computer Science and Technology wins Best Paper Award at FAST 2025, accessed September 6, 2025, https://www.cs.tsinghua.edu.cn/csen/info/1084/4580.htm
Mooncake: Trading More Storage for Less Computation — A KVCache-centric Architecture for Serving LLM Chatbot - USENIX, accessed September 6, 2025, https://www.usenix.org/system/files/fast25-qin.pdf
On August 12, Huawei officially released UCM, an innovative AI inference technology. According to information, as an inference acceleration suite centered on KV Cache, UCM integrates multi-type cache acceleration algorithm tools to manage KV Cache memory data generated during the inference process in a hierarchical manner, which can expand the inference context window, achieve - Webull, accessed September 6, 2025, https://www.webull.com/news/13321810914796544
Huawei preps AI SSD to ease GPU memory bottlenecks - Blocks and Files, accessed September 6, 2025, https://blocksandfiles.com/2025/08/26/huawei-ai-ssd/
Inside Huawei's Breakthrough in AI Software - AI Magazine, accessed September 6, 2025, https://aimagazine.com/news/how-huaweis-ucm-software-boosts-ai-memory-efficiency
Huawei launches UCM algorithm as reliable alternative to HBM chips, accessed September 6, 2025, https://www.huaweicentral.com/huawei-launches-ucm-algorithm-as-reliable-alternative-to-hbm-chips/
Huawei Unveils UCM: The Gambit Raises Stakes In The AI Chip War — And Could Complicate Nvidia's China Deals - Tekedia, accessed September 6, 2025, https://www.tekedia.com/huawei-unveils-ucm-the-gambit-raises-stakes-in-the-ai-chip-war-and-could-complicate-nvidias-china-deals/
[News] Huawei Unveils UCM Algorithm to Cut HBM Reliance, Reportedly Goes Open-Source in September - TrendForce, accessed September 6, 2025, https://www.trendforce.com/news/2025/08/13/news-huawei-unveils-ucm-algorithm-to-cut-hbm-reliance-reportedly-goes-open-source-in-september/
NVIDIA Dynamo, A Low-Latency Distributed Inference Framework for Scaling Reasoning AI Models | NVIDIA Technical Blog, accessed September 6, 2025, https://developer.nvidia.com/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/
Diving into Nvidia Dynamo: AI Inference at Scale - Gradient Flow, accessed September 6, 2025, https://gradientflow.com/ai-inference-nvidia-dynamo-ray-serve/
NVIDIA Dynamo: The Future Of High-Speed AI Inference - All Tech Magazine, accessed September 6, 2025, https://alltechmagazine.com/nvidia-dynamo-the-future-of-high-speed-ai-inference/
How to configure the KV Cache Manager to connect to external storage? #423 - GitHub, accessed September 6, 2025, https://github.com/ai-dynamo/dynamo/issues/423
[Papierüberprüfung] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving - Moonlight, accessed September 6, 2025, https://www.themoonlight.io/de/review/mooncake-a-kvcache-centric-disaggregated-architecture-for-llm-serving
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving - arXiv, accessed September 6, 2025, https://arxiv.org/pdf/2407.00079
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving - arXiv, accessed September 6, 2025, https://arxiv.org/html/2407.00079v2
Mooncake: Trading More Storage for Less Computation — A KVCache-centric Architecture for Serving LLM Chatbot | USENIX, accessed September 6, 2025, https://www.usenix.org/conference/fast25/presentation/qin
LMCache/LMCache: Supercharge Your LLM with the ... - GitHub, accessed September 6, 2025, https://github.com/LMCache/LMCache
raw.githubusercontent.com, accessed September 6, 2025, https://raw.githubusercontent.com/LMCache/LMCache/dev/README.md
Dynamo Inference Framework - NVIDIA Developer, accessed September 6, 2025, https://developer.nvidia.com/dynamo
About Us | LMCache blog website, accessed September 6, 2025, https://blog.lmcache.ai/aboutme/
How Huawei's UCM Software Boosts AI Memory Efficiency | Telco Magazine, accessed September 6, 2025, https://telcomagazine.com/news/how-huaweis-ucm-software-boosts-ai-memory-efficiency
Releases · LMCache/LMCache - GitHub, accessed September 6, 2025, https://github.com/LMCache/LMCache/releases
LMCache/lmcache-tests - GitHub, accessed September 6, 2025, https://github.com/LMCache/lmcache-tests
arXiv:2504.03775v1 [cs.DC] 3 Apr 2025, accessed September 6, 2025, https://www.arxiv.org/pdf/2504.03775
Huawei launches UCM algorithm as reliable alternative to HBM chips : r/Sino - Reddit, accessed September 6, 2025, https://www.reddit.com/r/Sino/comments/1momwxc/huawei_launches_ucm_algorithm_as_reliable/
Moonshot AI · GitHub, accessed September 6, 2025, https://github.com/moonshotai