Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek-基于vLLM部署

DeepSeek-基于vLLM部署

作者头像
运维小路
发布于 2025-03-03 14:06:46
发布于 2025-03-03 14:06:46
1.1K09
代码可运行
举报
文章被收录于专栏:运维小路运维小路
运行总次数:9
代码可运行

注:使用不同的推理模型,需要的模型文件是不一样的,比如我前面用的ollama下载的模型,则只能在ollma里面使用,不能拿到vLLM来使用。

1.vLLM介绍

vLLM相比ollama复杂,ollama启动以后,读取模型文件就可以提供服务,但是vllm则只是一个框架,本身不具有启动服务的能力,它需要依赖python来启动服务。虽然vLLM比较复杂,但是他具有组成集群跑更大模型的能力,所以我这里先用单机版来让搭建对这个vLLM有一个的理解,后期再深入。

2.miniconda环境准备

miniconda可以方便的管理多个Python环境,也可以不用安装直接使用物理机或者虚拟机的Python环境。由于我是复用的上次的Linux+GPU的环境,所以这里我也使用miniconda来提供Python环境。

安装过程需要先回车,在阅读同意协议,最后更新环境变量。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#下载
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh
#安装,该操作会下载800m 的文件
bash miniconda.sh 
#安装完成提示
==> For changes to take effect, close and re-open your current shell. <==
Thank you for installing Miniconda3!

3.创建vLLM虚拟环境

需要先退出当前bash重新进入,进入以后,左边就会多出一个base。这里的Python版本是conda自带的,中途还需要输入一个y。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda create --name vllm python=3.12.9

4.切换进入vLLM虚拟Python环境

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
(base) [root@MiWiFi-RD03-srv ~]# conda activate vllm
(vllm) [root@MiWiFi-RD03-srv ~]# 

5.下载vLLM

强烈建议采用原生自带高版本的内核,由于我这个机器是复用上次Linux+GPU的机器,所以我又重新编译了gcc,然后中途还遇到了很多问题。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#安装vLLM,大概会产生8G的内容。
#我这里加速用华为会报错,用阿里则没问题。
(vllm) [root@MiWiFi-RD03-srv ~]#  pip install vllm -i https://mirrors.huaweicloud.com/repository/pypi/simple
Looking in indexes: https://mirrors.huaweicloud.com/repository/pypi/simple
Collecting vllm

6.下载模型

模型下载可以手工去国内镜像网站下载,也可以用下面的脚本进行下载。

代码语言:javascript
代码运行次数:1
运行
AI代码解释
复制
#国内镜像站
https://hf-mirror.com/deepseek-ai/DeepSeek-R1

脚本下载

代码语言:javascript
代码运行次数:4
运行
AI代码解释
复制
#下载一个python包,用于下载模型
(vllm) [root@MiWiFi-RD03-srv ~]#  pip install modelscope -i https://mirrors.huaweicloud.com/repository/pypi/simple
Looking in indexes: https://mirrors.huaweicloud.com/repository/pypi/simple
Collecting modelscope
代码语言:javascript
代码运行次数:2
运行
AI代码解释
复制
#创建下载文件
vi down_model.py

#下载代码
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B', 
                              cache_dir='/root/deepseekr1_1.5b', 
                              revision='master')
#执行下载
python down_model.py

7.启动模型

最后的参数是我这个显卡性能不行,才需要加的,默认只要本地路径即可。

代码语言:javascript
代码运行次数:1
运行
AI代码解释
复制
vllm serve \
/root/deepseekr1_1.5b/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
--dtype=half

8.访问模型

这个vLLM相比ollma也会更麻烦,就算在控制台操作也需要额外配置,这个配置还只能做到定向问题,人工还需要形成对话模式则还需要改写代码才能实现。

代码语言:javascript
代码运行次数:1
运行
AI代码解释
复制
import requests
import json

def stream_chat_response():
    response = requests.post(
        "http://localhost:8000/v1/chat/completions",
        json={
            "model": "/root/deepseekr1_1.5b/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
            "messages": [{"role": "user", "content": "写一篇关于AI安全的短论文"}],
            "stream": True,
            "temperature": 0.7
        },
        stream=True
    )

    print("AI: ", end="", flush=True)  # 初始化输出前缀
    full_response = []

    try:
        for chunk in response.iter_lines():
            if chunk:
                # 处理数据帧
                decoded_chunk = chunk.decode('utf-8').strip()
                if decoded_chunk.startswith('data: '):
                    json_data = decoded_chunk[6:]  # 去除"data: "前缀

                    try:
                        data = json.loads(json_data)
                        if 'choices' in data and len(data['choices']) > 0:
                            delta = data['choices'][0].get('delta', {})

                            # 提取内容片段
                            content = delta.get('content', '')
                            if content:
                                print(content, end='', flush=True)  # 实时流式输出
                                full_response.append(content)

                            # 检测生成结束
                            if data['choices'][0].get('finish_reason'):
                                print("\n")  # 生成结束时换行

                    except json.JSONDecodeError:
                        pass  # 忽略不完整JSON数据

    except KeyboardInterrupt:
        print("\n\n[用户中断了生成]")

    return ''.join(full_response)

# 执行对话
if __name__ == "__main__":
    result = stream_chat_response()
    print("\n--- 完整响应 ---")
    print(result)

我后面用Ubuntu 20.4 重新部署了一次,大概的步骤和上面的步骤基本一致。但是没有手工编译gcc的步骤,这里的gcc也是满足要求的,并且安装驱动的是也只安装了显卡的驱动,CUDA都自带,安装步骤如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#类似安装源,下载地址和方法参考上小节
dpkg -i nvidia-driver-local-repo-ubuntu2004-570.86.15_1.0-1_amd64.deb 
apt-get update

#安装驱动,甚至都不用安装cuda驱动就可以,安装完成系统需要重启系统
apt-get install nvidia-driver-570
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维小路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek-容器化(Docker)部署vLLM和Open WebUI
前面小节我们通过conda创建虚拟Python环境,实现vLLM和OpenWebUI的配置,但是这个安装部署会非常繁琐非费时间。我们今天将使用容器来部署。环境还是使用ubuntu20.4,复用上个环境已经安装GPU驱动和模型文件。
运维小路
2025/03/06
2.4K0
DeepSeek-容器化(Docker)部署vLLM和Open WebUI
DeepSeek-Open WebUI部署
前面部署了vLLM版本以后,访问它比较麻烦。如何才能更好的实现访问呢,这个就是我们今天要讲的Open WebUI,它可以向我们使用官方DeepSeek一样直接在网页进行对话。
运维小路
2025/03/04
4260
DeepSeek-Open WebUI部署
【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署,文末有福利
vLLM(Very Large Language Model Serving)是由加州大学伯克利分校团队开发的高性能、低延迟大语言模型(LLM)推理和服务框架。其核心创新在于PagedAttention技术,通过将注意力键值(KV)缓存分页管理,显著提升显存利用率并降低碎片化问题,使吞吐量比传统框架(如Hugging Face Transformers)提升24倍。该框架支持连续批处理、动态显存分配和多GPU并行推理,能够高效处理8k+长上下文请求,并兼容OpenAI API接口,开发者可快速部署Hugging Face模型。通过集成FP8、AWQ等量化技术,vLLM在保证推理精度的同时大幅降低资源消耗,目前已成为企业级AI部署(如DeepSeek-R1 671B模型分布式集群)的首选方案。
AI浩
2025/03/17
4790
【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署,文末有福利
DeepSeek-多机多卡集群部署
前面我们无论是直接部署,还是容器部署都还是单机的模型,受单机GPU限制,并不能跑比较大的模型,今天我们将用多台机器组成一个集群来跑一个更大的模型。
运维小路
2025/03/06
1K0
DeepSeek-多机多卡集群部署
DeepSeek r1本地部署手把手教程
https://developer.nvidia.com/rdp/cudnn-archive
蛋黄
2025/03/03
2170
【独家首发】百元显卡逆袭记:Tesla M40 24G挑战 66G显存的 SRE-Qwen运维大模型,测完又要涨价了!
你好,我是术哥,云原生开源技术布道者:KubeSphere Ambassador、Milvus 北辰使者。很高兴在「运维有术」与你相遇。
运维有术
2025/03/13
5840
【独家首发】百元显卡逆袭记:Tesla M40 24G挑战 66G显存的 SRE-Qwen运维大模型,测完又要涨价了!
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
我记得,梦的开始,源于Ollama。很早以前的一篇文章教大家如何通过 Ollama 来使用开源 LLM,许多人最初接触 AI 时也是从Ollama开始的。Ollama 之所以出色,是因为它使用了 GGML 格式,这是一种‘轻量版’的大语言模型,以较低精度运行,能够轻松适配普通硬件。这使得在本地系统上运行这些模型变得简单高效,真正为 AI 的广泛应用铺平了道路。
AI进修生
2024/12/02
15.2K0
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
在 TKE 上部署 AI 大模型
本文介绍如何在 TKE 上部署 AI 大模型,以 DeepSeek-R1 为例,使用 Ollama、vLLM 或 SGLang 运行大模型并暴露 API,然后使用 OpenWebUI 提供交互界面。
imroc
2025/02/20
3390
在 TKE 上部署 AI 大模型
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
vLLM(Virtual Large Language Model)是由加州大学伯克利分校团队开发的高性能大模型推理框架,其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。
wayn
2025/04/09
5170
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
【DeepSeek】在本地计算机上部署DeepSeek-R1大模型实战(完整版)
2025年1月,中国春节期间,DeepSeek爆火,称为全球最炙手可热的大模型。DeepSeek一路 “狂飙”,在美国科技界和美股市场掀起惊涛骇浪,1月27日,美国三大股指开盘即暴跌,英伟达、微软、谷歌母公司Alphabet、Meta等美国主要科技股均遭遇股市地震,其中英伟达跌近17%,单日市值蒸发约6000亿美元,创美股最高纪录。
Francek Chen
2025/02/12
1.5K0
【DeepSeek】在本地计算机上部署DeepSeek-R1大模型实战(完整版)
7B/1.5B模型!DeepSeek实测10.5Tokens/s,RK3576/RK3588本地部署
DeepSeek的免费开源使得AI需求猛增,各个行业应用都在积极接入DeepSeek,为能源电力、智能制造、智慧医疗等工业应用赋能。
创龙科技Tronlong
2025/04/03
4820
7B/1.5B模型!DeepSeek实测10.5Tokens/s,RK3576/RK3588本地部署
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
Open-R1 是由 HuggingFace 发布的一个完全开放的项目,旨在通过三个主要步骤复现 DeepSeek-R1 的完整训练流程。这个项目的目标是让更多人能够理解和使用 DeepSeek-R1 的技术方案,从而推动大模型技术的发展和应用。
致Great
2025/01/27
4750
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
【人工智能】学会这几个命令,你也能快速完成DeepSeek R1的本地部署!!!
相信大家现在对DeepSeek这个国产AI已经并不陌生了,并且大部分的朋友已经开始用上了DeepSeek。
蒙奇D索隆
2025/02/10
1140
【人工智能】学会这几个命令,你也能快速完成DeepSeek R1的本地部署!!!
LLM运行框架对比:ollama与vllm浅析
开源的LLM已经成为程序员、爱好者和希望在日常工作中使用生成式AI并保持隐私的用户的最佳选择,对于企业的私有化部署而言也是如此。这些模型提供了优秀的性能,有时在许多任务中可以与大型的闭源模型 (如 GPT-4o 或 Claude Sonnet 3.5) 相媲美。
半吊子全栈工匠
2025/03/10
1.2K1
LLM运行框架对比:ollama与vllm浅析
什么是DeepSeek-R1蒸馏模型?
DeepSeek在DeepSeek-V3之后发布了另一个革命性的模型,即DeepSeek-R1,这看起来是一个重大的发布,因为这个模型在几个基准测试中已经超越了OpenAI-o1,即SOTA推理模型。
码农编程进阶笔记
2025/04/26
1400
什么是DeepSeek-R1蒸馏模型?
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
“以开源精神和长期主义追求普惠 AGI” 是 DeepSeek 一直以来的坚定信念
山河已无恙
2025/02/25
1.1K0
DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)
DeepSeek-模型(model)介绍
我们前面部署过Win版本,也部署过Linux版本,也部署过单机版本,也部署过集群版,中途采用过多个模型,那这个模型到底是什么,我能选择什么模型呢?什么是蒸馏版,满血版,什么是量化版呢?
运维小路
2025/03/10
3400
DeepSeek-模型(model)介绍
手把手带你3步本地私有化部署DeepSeekR1,亲测成功
DeepSeek 是国内顶尖 AI 团队「深度求索」开发的多模态大模型,具备数学推理、代码生成等深度能力,堪称"AI界的六边形战士"。
烟雨平生
2025/02/10
6.6K0
手把手带你3步本地私有化部署DeepSeekR1,亲测成功
使用 vLLM 部署 DeepSeek 模型,并通过 NextChat 打造高性能 ChatBot
随着生成式 AI 和大语言模型(LLM)的兴起,越来越多的企业和开发者希望能在自己的环境内快速部署高效的 AI 应用。本文将详细介绍如何在某逊使用 SageMaker 部署基于 vLLM 的 DeepSeek 模型,并通过 SageMaker Endpoint 对外提供服务。同时,我们还将探讨如何利用开源项目 NextChat 构建 ChatBot 聊天应用,实现流式推理与 Reasoning 输出,并在 UI 上实现流式交互效果。
JavaEdge
2025/03/31
4570
详解几种常见本地大模型个人知识库工具部署、微调及对比选型(2)
这里首先介绍的是大模型侧的工具安装部署实践,至于为什么先提大模型侧后提知识库侧呢?这是因为大模型通常是知识库操作和应用的基础与核心,是提供智能决策的引擎。它们构建了理解和生成文本、图像、语音等多模态反应的基础能力,是整个智能应用的心脏,同时,由于这次主题是本地大模型个人知识库,所以大模型的安装、配置、优化和部署是首要步骤,也是确保知识库工具能够顺畅运行的基石。
zhouzhou的奇妙编程
2024/06/12
4.3K0
推荐阅读
相关推荐
DeepSeek-容器化(Docker)部署vLLM和Open WebUI
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验