首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >vllm+vllm-ascend本地部署QwQ-32B

vllm+vllm-ascend本地部署QwQ-32B

原创
作者头像
zjun
发布2025-04-21 19:27:29
发布2025-04-21 19:27:29
63300
代码可运行
举报
运行总次数:0
代码可运行

1 模型下载

可按照此处方法下载预热后的模型,速度较快(推荐artget方式)

代码语言:javascript
代码运行次数:0
运行
复制
https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms

或者从hugging face官方下载。

2 vllm-ascend安装

2.1 使用vllm+vllm-ascend基础镜像

基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest

  • 拉取镜像(v0.7.0.3的正式版本尚未发布) docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev

启动镜像

QwQ-32B 需要70G以上显存,2张64G的卡

代码语言:javascript
代码运行次数:0
运行
复制
docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/davinci_manager --device /dev/devmm_svm --device /dev/hisi_hdc -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info -v /etc/ascend_install.info:/etc/ascend_install.info -v /xxx/models/llmmodels:/usr1/project/models quay.io/ascend/vllm-ascend:v0.7.3-dev bash

/xxx/models/llmmodels是宿主机放模型的目录,/usr1/project/models是容器内目录

2.2 源码编译安装

代码语言:javascript
代码运行次数:0
运行
复制
# Install vLLM
git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm
cd vllm
VLLM_TARGET_DEVICE=empty pip install . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

# Install vLLM Ascend
git clone  --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

具体可以参考链接:https://vllm-ascend.readthedocs.io/en/latest/installation.html

3 启动模型

openai兼容接口

代码语言:javascript
代码运行次数:0
运行
复制
vllm serve /usr1/project/models/QwQ-32B --tensor_parallel_size 2 --served-model-name "QwQ-32B" --max-num-seqs 256 --max-model-len=4096 --host xx.xx.xx.xx --port 8001 &
  • /usr1/project/models/QwQ-32B:模型路径
  • tensor_parallel_size:和卡数量保持一致
  • served-model-name:接口调用需要传入的模型名称 vllm其余具体参数含义请参考vllm官方文档

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 模型下载
  • 2 vllm-ascend安装
    • 2.1 使用vllm+vllm-ascend基础镜像
  • 启动镜像
    • 2.2 源码编译安装
  • 3 启动模型
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档