前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

作者头像
wayn
发布于 2025-04-09 07:37:55
发布于 2025-04-09 07:37:55
69902
代码可运行
举报
文章被收录于专栏:wayn的程序开发wayn的程序开发
运行总次数:2
代码可运行

vLLM(Virtual Large Language Model)是由加州大学伯克利分校团队开发的高性能大模型推理框架,其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。

对比 ollama 作为个人开发者部署模型工具而言,vLLM 专注于高并发请求和大规模生产环境,适用于企业级应用和需要高效推理的场景。vLLM 通过优化内存管理和并发处理,适合处理高负载的生产环境 ‌。


一、vLLM 核心优势

高性能相关

1. PagedAttention 技术(分页注意力机制)

核心创新:借鉴操作系统虚拟内存分页机制,将注意力计算中的Key/Value 缓存(KV Cache)划分为固定大小的“页”,动态分配显存,显著减少内存碎片化。

  • 传统问题:传统框架需为每个请求预分配连续显存空间,导致利用率低(仅 20%-40%)。
  • vLLM 解决方案:按需分配显存页,支持动态扩展,显存利用率提升至接近 100%。

例如,LLaMA-7B 模型显存占用可从 14GB 压缩至 4GB(使用 INT4 量化)。 支持长上下文(如 128K 或 10M token)的高效处理,减少显存浪费。

2. 连续批处理(Continuous Batching)

动态合并请求:实时合并多个推理请求,避免静态批处理的等待延迟,最大化 GPU 利用率。

吞吐量提升:

  • 相比 Hugging Face Transformers,吞吐量提升 24 倍(如 LLaMA-7B 模型)。
  • 在高并发场景下,吞吐量可达传统框架的 5-10 倍。
3. 量化支持(模型压缩与加速)

兼容主流量化方法:支持 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache 等,显著降低显存占用和计算开销。

量化效果:

  • INT4 量化:将 7B 模型显存需求从 14GB 压缩至 4GB,同时保持精度损失<1%。
  • 适用于消费级显卡(如 RTX 4090)部署 7B-13B 模型。
4. 高性能与分布式推理

多 GPU 张量并行:支持分布式部署,例如在 4 块 A100 GPU 上运行 70B 参数模型。

CUDA 优化:使用 CUDA/HIP 图(CUDA Graphs)加速模型执行。 -高性能 CUDA 内核优化,减少计算延迟。

易用性相关

5. 易用性与兼容性

与 Hugging Face 无缝集成:支持 50+主流模型(如 LLaMA、Qwen、Mistral、XVERSE 等)。

OpenAI API 兼容:可直接替换 OpenAI 接口,提供标准 API 服务(如/v1/completions)。

灵活的部署选项:支持流式输出、前缀缓存、多 LoRA 适配及离线批量推理。

6. 解码算法多样性

并行采样(Parallel Sampling):单次前向传播生成多个输出(如多种回答),降低计算成本。

波束搜索(Beam Search):提升生成文本的准确性和多样性。

自定义解码策略:支持根据场景选择最优解码算法。

二、部署环境准备

vLLM 是一个 Python 库,包含预编译的 C++ 和 CUDA (12.1) 二进制文件。

依赖环境

  • 操作系统:Linux
  • Python:3.8 - 3.12
  • GPU:计算能力 7.0 或更高(例如 V100、T4、RTX20xx、A100、L4、H100 等)

ps: vLLM 只能在 Linux 系统上才能完全运行。

使用 pip 安装

可以使用 python 的 pip 工具安装 vLLM:

代码语言:javascript
代码运行次数:1
运行
AI代码解释
复制
# (Recommended) Create a new conda environment.
#(推荐)创建一个新的 conda 环境。

conda create -n myenv python=3.10 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
# 安装带有 CUDA 12.1 的 vLLM。

pip install vllm

使用 docker 安装

vLLM 提供了一个官方 Docker 镜像用于部署。该镜像可用于运行与 OpenAI 兼容服务器,并且可在 Docker Hub 上以 vllm/vllm-openai 的形式获取。

代码语言:javascript
代码运行次数:1
运行
AI代码解释
复制
docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model mistralai/Mistral-7B-v0.1

使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,而 PyTorch 在底层使用共享内存在进程之间共享数据,特别是在张量并行推理中。

默认情况下,为实现最广泛分发,vLLM 将为所有 GPU 类型进行构建。如果您只是针对机器运行的当前 GPU 类型进行构建,则可以为 vLLM 添加参数 --build-arg torch_cuda_arch_list= "" 来查找当前 GPU 类型并为其构建。


三、模型下载启动

这里用 DeepSeek 最新模型 V3-0324 模型下载来给大家作为参考。

在 huggingface 搜索 deepseek-ai/DeepSeek-V3-0324 即可找到 deepseek v3 的最新模型,

点击 Use this model 即可找到下载模型命令,

在 vllm 种,我们要下载模型并使用其中一个模型来启动服务器,请使用 vllm serve 命令,例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
vllm serve "deepseek-ai/DeepSeek-V3-0324"

安装并启动后,服务启动在 http://localhost:8000/。

分布式推理和服务

vLLM 支持分布式张量并行推理和服务。目前,我们支持 Megatron-LM 的张量并行算法。我们还支持将管道并行作为在线服务的测试版功能。我们使用 Ray 或 python 的原生多进程来管理分布式运行时。在单节点部署时可以使用多进程,多节点推理目前需要 Ray。

这也是 vllm 对比 ollama 的核心优势。能有效地利用多核 CPU 和 GPU 资源,显著提升 LLM 的推理速度

单节点多 GPU 部署

要运行多 GPU 服务,在启动服务器时传入张量并行 --tensor-parallel-size 参数。例如要在 4 个 GPU 上运行 API 服务器:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 设置张量并行(需多GPU)
vllm serve "deepseek-ai/DeepSeek-V3-0324" \
  --tensor-parallel-size 4 \  # 根据GPU数量调整
多节点多 GPU 部署

可以将张量并行与管道并行结合使用。张量并行大小是每个节点要使用的 GPU 数量,管道并行大小是要使用的节点数量.例如,如果 2 个节点中有 8 个 GPU(每个节点 4 个 GPU),则可以将张量并行大小设置为 4,将管道并行大小设置为 2。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
vllm serve "deepseek-ai/DeepSeek-V3-0324" \
    --tensor-parallel-size 4 \ # 根据GPU数量调整
    --pipeline-parallel-size 2 # 根据节点数量调整
关键参数说明

参数

说明

--tensor-parallel-size

GPU 张量并行度,需与 GPU 数量匹配(如 4 卡设为 4)。

--max-batch-size

最大批量请求大小,默认 16,可调高以提升吞吐。

--swap-space

磁盘交换空间,避免显存溢出(如设为 20GiB)。

--enable-async-execution

启用异步执行,减少等待时间。

更多关于多节点多 GPU 部署的信息可以参考官方文档:https://docs.vllm.ai/en/stable/serving/distributed_serving.html

四、跟 vLLM 推理服务交互

通过 python 代码交互

服务器运行后,可以通过 python 代码调用其 API:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from openai import OpenAI

client = OpenAI(base_url='http://localhost:3000/v1', api_key='na')

# Use the following func to get the available models
# model_list = client.models.list()
# print(model_list)

chat_completion = client.chat.completions.create(
   model="deepseek-ai/DeepSeek-V3-0324",
   messages=[
      {
            "role": "user",
            "content": "Tell me something about large language models."
      }
   ],
   stream=True,
)
for chunk in chat_completion:
   print(chunk.choices[0].delta.content or"", end="")

通过 cli 交互

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
curl -X POST "http://localhost:8000/v1/chat/completions" \
 -H "Content-Type: application/json" \
 --data '{
  "model": "deepseek-ai/DeepSeek-V3-0324",
  "messages": [
   {
    "role": "user",
    "content": "What is the capital of France?"
   }
  ]
 }

五、总结

通过本文,你已掌握 vLLM 从环境配置到高性能推理服务部署的全流程。vLLM 凭借其灵活性和高效性,成为大模型落地的首选工具。无论是本地开发还是云服务器部署,只需根据硬件资源调整参数,即可快速实现高并发、低延迟的推理服务。

👨‍💻欢迎关注我的公众号「程序员wayn」,技术成长社群正招募热爱coding的你,加入我们,一起深入探讨技术、分享经验、共同成长!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 waynblog 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
VR减肥、味觉减肥全是噱头!从神经和基因层面来看,真正的黑科技减肥方法是这两种!
在减肥这件大事上,科学家可是操碎了心。 冬天不减肥,夏天徒伤悲,在美食面前,肥胖问题快成了人生大事: 我们先来看世界卫生组织(WHO)发布的一组数据: 从1975年开始至今,全球肥胖人数增加了约3倍; 至2016年底,18岁及以上的成年人中,超过19亿人体重超重,其中超过6.5亿人是肥胖的; 至2016年底,超过3.4亿5-19岁的儿童和青少年超重或肥胖; 至2016年底,有4100万5岁以下的儿童超重或肥胖。 所以,作为一名成年人,患有肥胖症的概率是十分之一,即每十个人中就有一个人患有肥胖症!!! 看到这
镁客网
2018/05/30
5700
8.28 VR扫描:东京大学发明电颚刺激GJS技术,改变饮食体验
近日,东京大学与大阪大学研究团队,展示了他们最新发明的电颚刺激GJS技术。该技术可用于解决传统电流舌刺激GTS存在移动的问题。据悉,GJS技术能够控制味道,改变饮食体验,并且效果可以持续很长一段时间。
VRPinea
2018/09/28
6290
10.25 VR扫描:宏碁增资500万美元成StarVR最大股东;Unreal 4.18正式开放下载
宏碁成StarVR最大股东:增资500万美元占股66.7% 今日,宏碁和星风工作室(Starbreeze)宣布,宏碁将再次向双方合资公司StarVR注资500万美元,占股比例提高到 66.7%,而星风
VRPinea
2018/05/17
6210
10.24VR行业大事件:App Lab应用数量飙升至1457款,是Quest主商店的三倍多
(VRPinea 10月24日讯)今日重点新闻:Meta官方测试平台App Lab目前拥有1457款游戏和应用;罗永浩的AR公司完成由美团投资的近4亿元人民币天使轮融资;VR拳击游戏《Golden Gloves VR》已登陆Meta Quest头显。
VRPinea
2022/11/17
4960
10.24VR行业大事件:App Lab应用数量飙升至1457款,是Quest主商店的三倍多
10.17 VR扫描:Sixense宣布Kickstarter众筹的STEM控制器将全额退款
今日,Sixense宣布将向STEM控制器项目的Kickstarter众筹支持者和预购用户,全额退款。据悉,Sixense早在2013年就开始为VR探索手部控制器,但这家公司一直未能生产消费者版的STEM控制器。
VRPinea
2018/11/07
4820
如何科学减肥?这款小程序,教你边吃边瘦
不过在加强运动的同时,我们也不能忽视饮食这个更为重要的因素,比如说控制食物摄入的热量。
知晓君
2018/08/01
7311
如何科学减肥?这款小程序,教你边吃边瘦
提到减肥就是跑步?你尝试过当前最流行的VR减肥法吗?
众所周知,VR是一种在家里既能休闲娱乐,又能达到锻炼效果的游戏模式。虽说每个人一场体验下来都会大汗淋漓,但VR锻炼效果有多好,其实很难用数值体现。因此很多人并不清楚,玩VR所消耗的卡路里到底能不能比得
VRPinea
2018/05/17
8040
11.7 VR圈大事件:谷歌支持WebVR 的Chrome浏览器,Adobe展示VR中编辑360度视频编辑器CloverVR
谷歌支持WebVR 的Chrome浏览器将在明年1月推出 谷歌宣布计划在安卓系统发布一个公共版本的 Chrome,支持 WebVR 1.1。WebVR 的“稳定版”发布意味着它会被制作成一个一样的 C
VRPinea
2018/05/14
8820
【快报】机器学习识别自杀行为准确率达到93% | 赛灵思推出FPGA加速堆栈方案,比CPU快40倍
1 赛灵思推出FPGA加速堆栈方案,比CPU快40倍,比其它FPGA方案快6倍 赛灵思公司(Xilinx)近日在2016全球超算大会(SC 16))上宣布推出一套全新的技术——赛灵思可重配置加速堆栈方
新智元
2018/03/26
6140
【快报】机器学习识别自杀行为准确率达到93%  | 赛灵思推出FPGA加速堆栈方案,比CPU快40倍
10.12 VR扫描:PSVR将于本月17日开启周年活动,游戏折扣高达60%
PSVR将于本月17日开启周年活动,提供六折优惠 今日,索尼官方表示,PlayStation VR周年纪念活动将于10月17日开始,将大规模打折促销其VR游戏和体验。据了解,此次打折将提供高达60%的
VRPinea
2018/05/17
5620
8.8 VR扫描:售价或1200美元,Magic Leap将今晚/明早公布发售或正式发售
根据Magic Leap创始人Rony Abovetz社交媒体更新信息的细节分析,Magic Leap One创作者版本或将于美国时间8月8日发售,或将于美国时间8月8日公布发售信息。售价预估在1200美元左右。
VRPinea
2018/08/21
2700
8.8 VR扫描:售价或1200美元,Magic Leap将今晚/明早公布发售或正式发售
在VR中大快朵颐的我,永远都是身体苗条的小仙女
月初才过完劳动节,月末又紧接着迎来了端午节。五一的堵堵堵还记忆犹新,虽说端午节高速不免通,但想想距离下一个国假还要再等四个月,不少人都会选择在端午节出行。 想想外面炽热的阳光以及“人从众”的拥挤景象,
VRPinea
2018/05/16
7950
2.21 VR扫描:HTC发布两款全新VR概念机;Facebook与索尼宣布退出GDC 2020
(VRPinea 2月21日电)今日重点新闻:HTC发布两款全新VR概念机,Facebook与索尼宣布退出GDC 2020,Magic Leap招聘信息显示已成立日本分部。
VRPinea
2020/02/26
4680
减肥人士要哭:食物不吃看看也不行,因为你的大脑会发炎
万博 发自 凹非寺 量子位 | 公众号 QbitAI 想吃美食却担心长胖,那看一看满足一下眼睛的欲望,总无伤大雅吧? 想必这是很多减肥人士的真实想法。 But!你可能想简单了,只看不吃,虽然能减少能量摄入,但依然对身体有害。 来自瑞士巴塞尔大学的最新研究显示,对于肥胖人群来说,减肥只看不吃,可能会让你的胰岛素分泌出现紊乱,对健康造成影响。 而造成这种结果的背后机制,就在你的大脑里: 只看不吃,能让大脑发炎 研究人员发现,控制餐前或者用餐之初胰岛素分泌的关键,是一种叫做白细胞介素1β的细胞因子,而这种细胞因
量子位
2022/07/18
1900
减肥人士要哭:食物不吃看看也不行,因为你的大脑会发炎
春节吃胖了?VR《减肥攻略》教你成为全街最靓的仔!
所以说,长胖都是有原因的。但年假马上就要结束,该开学的开学,该上班的上班,你真的准备带着“一身肥肉”去见人吗?听起来就有些莫名尴尬。
VRPinea
2019/04/28
6980
春节吃胖了?VR《减肥攻略》教你成为全街最靓的仔!
2.13 VR扫描:Magic Leap获Axel Springer投资,金额未透露
Magic Leap获Axel Springer投资,金额未透露 据悉,欧洲最大的数字出版社Axel Springer已完成对Magic Leap的投资,但未透露具体投资金额。Axel Spring
VRPinea
2018/05/18
7830
2.22 VR扫描:阿里携手百联,将打造个性化VR购物体验
阿里巴巴联手百联,打造VR购物 日前,阿里巴巴集团与百联集团共同宣布达成战略合作。百联集团是中国最大的多元化全业态零售集团,总部位于上海,大半条南京路都在其麾下。双方计划在未来,利用VR、AR、MR这
VRPinea
2018/05/15
6000
成本仅18元,DIY微型Steam VR追踪器了解一下?
近日,东京大学高级科学与技术研究中心的教授Masahiko Inami,在推特上发布了一张自制的小型Steam VR追踪器图片。
VRPinea
2018/07/26
5820
成本仅18元,DIY微型Steam VR追踪器了解一下?
压力太大?这款VR头显能为你打造心灵禅室
虚拟现实技术一直与手机以及视频游戏行业息息相关。然而,日本的一家技术公司正在利用虚拟现实技术平台做一些不同的事:压力管理。 把VR头显与大脑监控相结合,DG实验室的脑电波VR头显内置了脑电图(EEG)
VRPinea
2018/05/14
7440
11.8 VR扫描:eMagin推全球最亮Micro OLED显示器;VR教育平台Shinta VR完成A轮融资
(VRPinea 11月8日讯)今日重点新闻:eMagin推出全球最亮全彩Micro OLED显示器,其亮度高达10000尼特;印尼VR开发商Shinta VR获得A轮融资,新资金将用来招聘人才,以及进一步开发其VR平台;德国初创公司rooom旗下的eventCloud平台为今年的AWE博览会提供了虚拟会议和展览平台。
VRPinea
2021/11/16
3160
推荐阅读
VR减肥、味觉减肥全是噱头!从神经和基因层面来看,真正的黑科技减肥方法是这两种!
5700
8.28 VR扫描:东京大学发明电颚刺激GJS技术,改变饮食体验
6290
10.25 VR扫描:宏碁增资500万美元成StarVR最大股东;Unreal 4.18正式开放下载
6210
10.24VR行业大事件:App Lab应用数量飙升至1457款,是Quest主商店的三倍多
4960
10.17 VR扫描:Sixense宣布Kickstarter众筹的STEM控制器将全额退款
4820
如何科学减肥?这款小程序,教你边吃边瘦
7311
提到减肥就是跑步?你尝试过当前最流行的VR减肥法吗?
8040
11.7 VR圈大事件:谷歌支持WebVR 的Chrome浏览器,Adobe展示VR中编辑360度视频编辑器CloverVR
8820
【快报】机器学习识别自杀行为准确率达到93% | 赛灵思推出FPGA加速堆栈方案,比CPU快40倍
6140
10.12 VR扫描:PSVR将于本月17日开启周年活动,游戏折扣高达60%
5620
8.8 VR扫描:售价或1200美元,Magic Leap将今晚/明早公布发售或正式发售
2700
在VR中大快朵颐的我,永远都是身体苗条的小仙女
7950
2.21 VR扫描:HTC发布两款全新VR概念机;Facebook与索尼宣布退出GDC 2020
4680
减肥人士要哭:食物不吃看看也不行,因为你的大脑会发炎
1900
春节吃胖了?VR《减肥攻略》教你成为全街最靓的仔!
6980
2.13 VR扫描:Magic Leap获Axel Springer投资,金额未透露
7830
2.22 VR扫描:阿里携手百联,将打造个性化VR购物体验
6000
成本仅18元,DIY微型Steam VR追踪器了解一下?
5820
压力太大?这款VR头显能为你打造心灵禅室
7440
11.8 VR扫描:eMagin推全球最亮Micro OLED显示器;VR教育平台Shinta VR完成A轮融资
3160
相关推荐
VR减肥、味觉减肥全是噱头!从神经和基因层面来看,真正的黑科技减肥方法是这两种!
更多 >
LV.5
安徽省刀锋网络科技有限公司后台开发
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验