输入三个prompt，token长度分别是：31、29、30，vllm会concat成一个长度为90个token的输入，一次跑完prefill。

https://mp.weixin.qq.com/s/_ITKzGmkVIw1zeDndcKzfg

作为vLLM的核心技术，默认是启用的。

在此之前，一般的模型服务，把多个用户的请求组成batch，一起推理，一起返回。但对于大模型来说，有的用户请求需要生成很长的回答，需要经过很多轮decode，如果在一个batch里，其他用户请求只能等着一起返回，这样的调度明显不适合大模型。

continuous batching简单来说，就是让处理完成的请求即时返回，batch里添加新的请求，新请求可以是prefill，也可以是decode，提升显卡利用率。

下图中正在处理的request有5个，第1、2个request正在做decode，后面几个request刚开始做prefill。

通过控制logits_indices，从对应位置取每个request的结果。

每个attn算子都有AttentionMeta信息，会保存当前正在处理的request的进度。

在vllm v1版本里，chunked prefill也是默认开启的。

允许 vLLM 将大的prefill分成较小的块，并将它们与decoder请求一起批处理。

此功能通过更好地平衡计算密集型（prefill）和内存密集型（decoder）操作，有助于提高吞吐量和延迟性能。

假如有一个48 token长度的prompt，被分成了3个chunk，第一个chunk首先被处理，按照正常的prefill流程处理。

从第二个chunk开始，mask的生成将会不一样，并且因为

注意力机制是需要感知上下文的

，所以需要使用到第一个chunk的kv cache。（既不像prefill，也不像decoder）

第三个chunk类似，三个chunk结束后，只有最后一个chunk的结果会生成token。

三次chunked推理attn_mask生成过程如下：

48个token直接计算注意力，时间复杂度是48^2（16^2*9）。

分三次chunk的时间复杂度：16^2 + 16*32 + 16*48 = 16^2*6

在vllm里面，chunked prefill在attn算子中执行实例如下，上一个chunk token长度是16，当前chunk长度是15。kv cache里面有上一次chunk的kv缓存：

https://mp.weixin.qq.com/s/TA7DY1cynVNPYW-sVI2zHw

多轮对话、系统默认提示词等场景，有大量的prompt已经处理过，保存处理好的kvcache，可以节省很多计算量。

如下图所示，浅橙色表示prefill，深橙色表示命中cache的prefill，青色表示decode。

从req2开始，AB命中了缓存，prefill阶段传入模型的token id只有F，Embed、Linear、Norm等算子只需要计算F，在attn算子，需要从cache中拿到AB的kv，合并到一起进行注意力计算。

vllm中运行示例如下图所示，107个token长度的输入，有48个token命中了缓存，position_id从48开始。

投机解码是一种能够降低内存受限的大语言模型推理过程中词间延迟的技术，目前业界主要分成：draft model、n-gram、Medusa、Eagle、MLPspeculator、MTP等几种，基于统计或小模型实现预测未来的N个token。下面的表格介绍了目前主流的几种投机解码方法：

MTP属于spec decode中的一种，运行时会加载一种drafter，但目前MTP还没有专门的drafter，和Eagle共用。当前vllm中有Medusa、Eagle、Ngram三种drafter，运行示例如下图：

我使用小米的MiMo模型（主要因为7B单卡可以运行），在vllm==0.10.0版本里没有跑起来，加载模型报错。升级vllm到0.11.0，可以正常运行。

draft token计算过程和DeepSeek技术报告里面的一致，先运行一遍prefill，然后根据num_speculative_tokens设置，运行MTP模型N次，生成N个draft_token_id。

prefill生成的1个token，加N个draft_token_id，一次给大模型处理。在我的例子中draft_token_id=4，运行示例如下图：

输出所有token的logits，在sample采样的时候，决定哪些token被放弃。

vLLM中如何实现大模型推理加速技术？

总结了vLLM框架的推理加速技术，比如chunked prefill、prefix caching、continuous batching、投机解码、MTP等。主要从代码实现角度，分析vLLM源码中如何实现这些技术。

AI Infra工程师

人工智能

vLLM优化技术解析：batchprefill合并输入提升效率，chunkedprefill拆分大prompt平衡计算与内存负载，prefixcaching减少重复计算，投机解码技术（Medusa、EAGLE等）降低延迟。详解vLLM的高效推理实现原理与性能优化策略。

AI驱动 智领未来

tione

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

vLLM中如何实现大模型推理加速技术？

vLLM中如何实现大模型推理加速技术？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐