前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在 Kubernetes 上部署 llama3

在 Kubernetes 上部署 llama3

原创
作者头像
imroc
发布于 2024-04-30 13:33:19
发布于 2024-04-30 13:33:19
9501
举报

Ollama 与 OpenWebUI 介绍

Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 API

OpenWebUI 是一个大模型的 Web UI 交互工具,支持 Ollama,即调用 Ollama 暴露的 API 实现与大模型交互:

部署方案选型

OpenWebUI 的仓库中自带 Ollawma + OpenWebUI 的部署方式,主要是 kustomizehelm 这两种方式,参考 open-webui 仓库的 kubernetes 目录

但我更推荐直接写 YAML 进行部署,原因如下:

  1. Ollama + OpenWebUI 所需 YAML 相对较少,直接根据需要写 YAML 更直接和灵活。
  2. 不需要研究 OpenWebUI 提供的 kustomizehelm 方式的用法。

选择模型

Llama3 目前主要有 8b70b 两个模型,分别对应 80 亿和 700 亿规模的参数模型,CPU 和 GPU 都支持,8b 是小模型,对配置要求不高,一般处于成本考虑,可以直接使用 CPU 运行,而 70b 则是大模型, CPU 肯定吃不消,GPU 的配置低也几乎跑不起来,主要是显存要大才行,经实测,24G 显存跑起来会非常非常慢,32G 的也有点吃力,40G 的相对流畅(比如 Nvdia A100)。

准备 Namespace

准备一个 namespace,用于部署运行 llama3 所需的服务,这里使用 llama namespace:

代码语言:bash
AI代码解释
复制
kubectl create ns llama

部署 Ollama

代码语言:yaml
AI代码解释
复制
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: ollama
  namespace: llama
spec:
  serviceName: "ollama"
  replicas: 1
  selector:
    matchLabels:
      app: ollama
  template:
    metadata:
      labels:
        app: ollama
    spec:
      containers:
        - name: ollama
          image: ollama/ollama:latest
          ports:
            - containerPort: 11434
          resources:
            requests:
              cpu: "2000m"
              memory: "2Gi"
              nvidia.com/gpu: "0" # 如果要用 Nvidia GPU,这里声明下 GPU 卡
            limits:
              cpu: "4000m"
              memory: "4Gi"
          volumeMounts:
            - name: ollama-volume
              mountPath: /root/.ollama
          tty: true
  volumeClaimTemplates:
    - metadata:
        name: ollama-volume
      spec:
        accessModes: ["ReadWriteOnce"]
        resources:
          requests:
            storage: 200Gi # 注意要确保磁盘容量能够容纳得下模型的体积
---
apiVersion: v1
kind: Service
metadata:
  name: ollama
  namespace: llama
  labels:
    app: ollama
spec:
  type: ClusterIP
  ports:
    - port: 11434
      protocol: TCP
      targetPort: 11434
  selector:
    app: ollama

部署 OpenWebUI

OpenWebUI 是大模型的 web 界面,支持 llama 系列的大模型,通过 API 与 ollama 通信,官方镜像地址是:ghcr.io/open-webui/open-webui,在国内拉取速度非常慢,如果你的环境有 DockerHub 加速,可以替换成 DockerHub 里长期自动同步的 mirror 镜像:docker.io/imroc/open-webui

代码语言:yaml
AI代码解释
复制
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: webui-pvc
  namespace: llama
  labels:
    app: webui
spec:
  accessModes: ["ReadWriteOnce"]
  resources:
    requests:
      storage: 2Gi

---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: webui
  namespace: llama
spec:
  replicas: 1
  selector:
    matchLabels:
      app: webui
  template:
    metadata:
      labels:
        app: webui
    spec:
      containers:
        - name: webui
          image: imroc/open-webui:main # docker hub 中的 mirror 镜像,长期自动同步,可放心使用
          env:
            - name: OLLAMA_BASE_URL
              value: http://ollama:11434 # ollama 的地址
          tty: true
          ports:
            - containerPort: 8080
          resources:
            requests:
              cpu: "500m"
              memory: "500Mi"
            limits:
              cpu: "1000m"
              memory: "1Gi"
          volumeMounts:
            - name: webui-volume
              mountPath: /app/backend/data
      volumes:
        - name: webui-volume
          persistentVolumeClaim:
            claimName: webui-pvc

---
apiVersion: v1
kind: Service
metadata:
  name: webui
  namespace: llama
  labels:
    app: webui
spec:
  type: ClusterIP
  ports:
    - port: 8080
      protocol: TCP
      targetPort: 8080
  selector:
    app: webui

打开 OpenWebUI

你有很多方式可以将 OpenWebUI 暴露给集群外访问,比如 LoadBalancer 类型 ServiceIngress 等,也可以直接用 kubectl port-forward 的方式将 webui 暴露到本地:

代码语言:bash
AI代码解释
复制
kubectl -n llama port-forward service/webui 8080:8080

浏览器打开:http://localhost:8080,首次打开需要创建账号,第一个创建的账号为管理员账号。

下载模型

方法一:通过 OpenWebUI 下载

进入 OpenWebUI 并登录后,在 设置-模型 里,输出需要下载的 llama3 模型并点击下载按钮(除了基础的模型,还有许多微调的模型,参考 llama3 可用模型列表)。

接下来就是等待下载完成:

注意:如果页面关闭,下载会中断,可重新打开页面并重新输入要下载的模型进行下载,会自动断点续传。

方法二:执行 ollama pull 下载

进入 ollama 的 pod:

代码语言:bash
AI代码解释
复制
kubectl -n llama exec -it ollama-0 bash

执行 ollama pull 下载需要的模型,这里以下载 70b 模型为例:

代码语言:bash
AI代码解释
复制
ollama pull llama3:70b

等待下载完成。

注意: 如果 kubectl 的连接中断,下载也会中断,可重新执行命令断点续传。

你也可以使用 nohup ollama pull llama3:70b & 来下载,通过 tail -f nohup.out 查看下载进度,这样可以保证即使 kubectl 中断或退出也会继续下载。

方案三:使用 init container 自动下载模型

如果不想每次在新的地方部署需要手动下载模型,可以修改 Ollama 的部署 YAML,加个 initContainer 来实现自动下载模型(自动检测所需模型是否存在,不存在才自动下载):

代码语言:yaml
AI代码解释
复制
initContainers:
  - name: pull
    image: ollama/ollama:latest
    tty: true
    stdin: true
    command:
      - bash
      - -c
      - |
        model="llama3:8b" # 替换需要使用的模型,模型库列表: https://ollama.com/library/llama3
        ollama serve &
        sleep 5 # 等待 ollama server 就绪,就绪后才能执行 ollama cli 工具的命令
        result=`ollama list | grep $model`
        if [ "$result" == "" ]; then
          echo "downloading model $model"
          ollama pull $model
        else
          echo "model $model already been downloaded"
        fi
    volumeMounts:
      - name: ollama-volume
        mountPath: /root/.ollama

开始对话

打开 OpenWebUI 页面,选择模型,然后就可以在对话框中开始对话了。

小技巧

GPU 调度策略

对于像 70b 这样的模型,需要较好的 GPU 才能跑起来,如果集群内有多种 GPU 节点,需要加下调度策略,避免分配到较差的 GPU。

比如要调度到显卡型号为 Nvdia Tesla V100 的节点,可以给节点打上 label:

代码语言:bash
AI代码解释
复制
kubectl label node gpu=v100

然后配置下调度策略:

代码语言:yaml
AI代码解释
复制
      nodeSelector:
        gpu: v100

省钱小妙招

  • 如果使用云厂商托管的 Kubernetes 集群,且不需要大模型高可用,可以购买竞价实例(Spot),会便宜很多。
  • 如果只在部分时间段使用,可以使用定时伸缩,在不需要的时间段将 Ollama 和 OpenWebUI 的副本数自动缩到 0 以停止计费,比如 使用 KEDA 的 Cron 触发器实现定时伸缩。

常见问题

节点无公网导致模型下载失败

ollama 所在机器需要能够访问公网,因为 ollama 下载模型需要使用公网,否则会下载失败,无法启动,可通过查看 init container 的日志确认:

代码语言:bash
AI代码解释
复制
$ kubectl logs -c pull ollama-0
time=2024-04-26T07:29:45.487Z level=INFO source=images.go:817 msg="total blobs: 5"
time=2024-04-26T07:29:45.487Z level=INFO source=images.go:824 msg="total unused blobs removed: 0"
time=2024-04-26T07:29:45.487Z level=INFO source=routes.go:1143 msg="Listening on [::]:11434 (version 0.1.32)"
time=2024-04-26T07:29:45.488Z level=INFO source=payload.go:28 msg="extracting embedded files" dir=/tmp/ollama188207103/runners
time=2024-04-26T07:29:48.896Z level=INFO source=payload.go:41 msg="Dynamic LLM libraries [cuda_v11 rocm_v60002 cpu cpu_avx cpu_avx2]"
time=2024-04-26T07:29:48.896Z level=INFO source=gpu.go:121 msg="Detecting GPU type"
time=2024-04-26T07:29:48.896Z level=INFO source=gpu.go:268 msg="Searching for GPU management library libcudart.so*"
time=2024-04-26T07:29:48.897Z level=INFO source=gpu.go:314 msg="Discovered GPU libraries: [/tmp/ollama188207103/runners/cuda_v11/libcudart.so.11.0]"
time=2024-04-26T07:29:48.910Z level=INFO source=gpu.go:126 msg="Nvidia GPU detected via cudart"
time=2024-04-26T07:29:48.911Z level=INFO source=cpu_common.go:11 msg="CPU has AVX2"
time=2024-04-26T07:29:49.089Z level=INFO source=gpu.go:202 msg="[cudart] CUDART CUDA Compute Capability detected: 6.1"
[GIN] 2024/04/26 - 07:29:50 | 200 |      45.692µs |       127.0.0.1 | HEAD     "/"
[GIN] 2024/04/26 - 07:29:50 | 200 |     378.364µs |       127.0.0.1 | GET      "/api/tags"
downloading model llama3:70b
[GIN] 2024/04/26 - 07:29:50 | 200 |      15.058µs |       127.0.0.1 | HEAD     "/"
pulling manifest ⠏ time=2024-04-26T07:30:20.512Z level=INFO source=images.go:1147 msg="request failed: Get \"https://registry.ollama.ai/v2/library/llama3/manifests/70b\": dial tcp 172.67.182.229:443: i/o timeout"
[GIN] 2024/04/26 - 07:30:20 | 200 | 30.012673354s |       127.0.0.1 | POST     "/api/pull"
pulling manifest
Error: pull model manifest: Get "https://registry.ollama.ai/v2/library/llama3/manifests/70b": dial tcp 172.67.182.229:443: i/o timeout

大模型的生成速度非常慢

70b 是 700 亿参数的大模型,使用 CPU 运行不太现实,使用 GPU 也得显存足够大,实测用 24G 显存的显卡运行速度也非常非常慢,如果没有更好的 GPU,如何提升生成速度呢?

可以使用多张 GPU 卡并行,修改 ollama 的 YAML,在 requests 中声明 GPU 的地方,多声明一些 GPU 算卡:

代码语言:yaml
AI代码解释
复制
resources:
  requests:
    nvidia.com/gpu: "4"

这样,在模型跑起来的时候,几张 GPU 算卡可以均摊显存,而不至于跑满:

参考资料

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
您好,您在部署时,是否遇到了这样的问题-- ERROR [TypeOrmModule] Unable to connect to the database. Retrying (1)...,如果遇到了的话,您是怎么解决的呢?另外您可否帮忙部署一下,可以有偿
您好,您在部署时,是否遇到了这样的问题-- ERROR [TypeOrmModule] Unable to connect to the database. Retrying (1)...,如果遇到了的话,您是怎么解决的呢?另外您可否帮忙部署一下,可以有偿
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
[计算机网络]课程论文:万字长文详解QUIC协议,为什么有了TCP我们还需要QUIC?
在三十年前,我们见证了显卡和网卡作为CPU的辅助外设的时代。然而,随着技术的发展,这些外设逐渐演变成了核心组件,GPU和SmartNIC现在在某些应用场景中扮演着类似CPU的角色。这种转变反映了硬件技术的进步和应用需求的变化。
程序员洲洲
2024/06/07
5160
[计算机网络]课程论文:万字长文详解QUIC协议,为什么有了TCP我们还需要QUIC?
HTTP/3来了!存续二十多年的TCP协议最终被抛弃!
6 月 6 日,IETF QUIC 和 HTTP 工作组成员 Robin Marx 宣布,经过 5 年的努力,HTTP/3 被标准化为 RFC 9114,这是 HTTP 超文本传输协议的第三个主要版本。同时,HTTP/2 也更新为 RFC 9113标准,HTTP/1.1 和通用 HTTP 语义和缓存概念在 RFC 9110-9112 中也得到了加强。 TCP 是 Internet 上使用和部署最广泛的协议之一,多年来一直被视为网络基石,随着HTTP/3正式被标准化,QUIC协议成功“上位”,UDP“取代”T
SDNLAB
2022/07/19
1.2K0
HTTP/3来了!存续二十多年的TCP协议最终被抛弃!
QUIC协议原理浅解
导语 | QUIC,HTTP3 的传输层实现,是近年来诞生的非常强悍的传输协议,它利用 UDP 解决了当前基于 TCP 协议的 HTTP 的许多问题,提升了在弱网环境下的网络通信体验,下面让我们来一探究竟。文章作者:江炜隆,腾讯云CDN产品研发工程师。 一 、QUIC究竟是什么 1. 什么是QUIC? QUIC(Quick UDP Internet Connection)是谷歌推出的一套基于 UDP 的传输协议,它实现了 TCP + HTTPS + HTTP/2 的功能,目的是保证可靠性的同时降低
腾讯云开发者
2021/03/16
4.1K0
QUIC 和 HTTP/3:提升网络性能的关键技术
QUIC(Quick UDP Internet Connections)是一种基于 UDP 的传输层协议,旨在解决 TCP 在高延迟和丢包环境下的性能问题。HTTP/3 则是 HTTP 协议的最新版本,它基于 QUIC 协议而非 TCP,以提供更高效、可靠的网络服务。
陆业聪
2024/09/26
8190
QUIC 和 HTTP/3:提升网络性能的关键技术
AXP-QUIC:自适应X路QUIC网络传输加速
导语:  腾讯云即时通信IM实现了一种网络自适应的X路QUIC传输加速技术AXP-QUIC(Adaptive X-PATH QUIC),已应用于IM SDK客户端到服务端的数据传输。该技术建立了一套客户端弱网自评估模型,根据网络链路的RTT,丢包率,吞吐量,并结合主动探测,判断终端当前是否处于弱网络环境。同时将QUIC协议和多通道传输技术相结合,根据终端所处的网络环境,实时自动决定切换网络链路或使用多链路进行传输。通过AXP-QUIC技术,即时通信IM能够在70%丢包的弱网络环境下,保证消息100%可靠传输
腾讯云音视频
2022/12/10
1.4K0
AXP-QUIC:自适应X路QUIC网络传输加速
QUIC会成为互联网传输的颠覆者吗?
 点击上方“LiveVideoStack”关注我们 翻译:Alex 技术审校:刘连响 本文来自Compira Labs,作者为Ravid Hadar。 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- QUIC 影音探索 #012# 当计算机科学家注意到TCP的限制性使它无法继续支持新的、更加先进的互联网服务时,他们对QUIC的兴趣便与日俱增。作为传输协议,QUIC是替代TCP的最重要“候选人”,它将有可能为互联网数据传输打开新的局面。 在昨天的文章中,我们讨论了什么是Q
LiveVideoStack
2022/06/09
6860
QUIC会成为互联网传输的颠覆者吗?
HTTP/3特性分析及未来发展
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- 翻译、编辑:Alex 技术审校:刘连响 本文来自Smashing Magazine,原文链接: https://www.smashingmagazine.com/2021/08/http3-performance-improvements-part2/ HTTP/3 Robin讲HTTP/3 #005# 到现在为止,我们主要对比了QUIC和TCP中的性能特性。那么HTTP/3和
LiveVideoStack
2023/04/04
4130
HTTP/3特性分析及未来发展
HTTP 3规范正式发布
6月6日,IETF QUIC、比利时的HTTP工作组成员Robin Mark在Twitter上宣布: 历时 5 年,HTTP 3终于被标准化为RFC 9114。将与RFC 9204(QPACK header 压缩)和 RFC 9218 (可扩展的优先级)一起开启 Web 的新篇章!
xiangzhihong
2022/06/14
1.1K0
HTTP 3规范正式发布
HTTP/3协议详解:当QUIC遇上TCP的中年危机
传统HTTP协议历经多次迭代仍难逃TCP协议的限制。HTTP/1.1的队头阻塞、HTTP/2的多路复用假象,最终在移动互联网时代遭遇致命瓶颈——5G网络下高达30%的页面加载时间消耗在TCP握手环节(Google 2023性能报告)。
Jimaks
2025/05/12
2260
HTTP/3协议详解:当QUIC遇上TCP的中年危机
HTTP/3核心概念之QUIC
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 翻译、编辑:Alex 技术审校:刘连响 本文来自Smashing Magaz
LiveVideoStack
2022/09/08
9810
HTTP/3核心概念之QUIC
科普:QUIC 协议原理分析
本文将主要介绍 QUIC 协议产生的背景和核心特性。
腾讯技术工程官方号
2018/01/10
9.1K1
科普:QUIC 协议原理分析
系统性能调优必知必会(1)note
HTTP/2 协议虽然大幅提升了 HTTP/1.1 的性能,然而,基于 TCP 实现的 HTTP/2 遗留下 3 个问题:
早起的鸟儿有虫吃
2023/03/21
5300
系统性能调优必知必会(1)note
QUIC协议的演进之路
当通过网络传输数据时,一种新的协议QUIC(Quick UDP Internet Connection,快速UDP互联网连接)正在成为FAANG的默认选择。本篇文章描述了QUIC协议是如何克服其他版本HTTP的限制脱颖而出的。
LiveVideoStack
2021/08/27
5910
QUIC协议的演进之路
QUIC之拥塞控制和0-RTT连接建立
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- 翻译、编辑:Alex 技术审校:刘连响 本文来自Smashing Magazine,原文链接: https://www.smashingmagazine.com/2021/08/http3-performance-improvements-part2/ QUIC Robin讲HTTP/3 #003# 速览: 在经过五年的开发之后,新的HTTP/3协议终于接近尾声。让我们一起深入
LiveVideoStack
2022/09/14
8680
QUIC之拥塞控制和0-RTT连接建立
看 B 站,可以更快!
现在用谷歌浏览器看 B 站视频,默认是用 HTTP/2 协议,它相比 HTTP/1.1 性能提高很多,但是其实看 B 站视频还能更快!
小林coding
2021/03/15
1.4K0
http 3.0 QUIC 方案你知道多少?
QUIC(Quick UDP Internet Connections)是一种基于用户数据报协议(UDP)的高效、可靠的传输协议,由Google开发并在IETF标准化为RFC 9000。QUIC的目标是解决TCP和TLS在现代互联网应用场景中的一些局限性,特别是降低延迟、改善拥塞控制以及应对连接迁移等问题。
Jacky-易小天
2024/04/16
2000
QUIC:下一代通信协议
一. 前言 自 2015 年以来,QUIC 协议开始在 IETF 进行标准化并被国内外各大厂商相继落地。 鉴于 QUIC 具备“0RTT 建连”、“支持连接迁移”等诸多优势,即将成为下一代互联网协议。 阅读完本文你将了解和学习到: HTTP协议发展史 HTTP各版本存在的问题,以及各版本解决了哪些问题 QUIC协议特性 再也不怕面试官问HTTP相关的问题了! 行文思路: 从历史使用最广泛的HTTP1.1开始,介绍各版本存在的问题,以及新版本如何解决旧版本存在的问题 二. HTTP协议发展史 HTTP
QQ音乐前端团队
2021/11/22
1K0
天下武功,唯'QUICK'不破,探究QUIC的五大特性及外网表现
QUIC简介 QUIC(Quick UDP Internet Connections)是谷歌提出的一种传输协议,由于其建立在UDP之上,使得相对于TCP之上的SPDY、HTTP2等其他协议,QUIC的可定制和优化的空间更大.在UDP的上层,QUIC提供了可靠、有序、安全、而且更快速的传输服务.目前,在Chrome中有85%以上关于谷歌自有业务的请求响应都是通过QUIC承载,可以说QUIC已经经受住了真实复杂外网环境的考验。因其理论特性及较好的外网表现,HTTP3协议也将以QUIC为原型进行草案。 谷
腾讯移动品质中心TMQ
2019/08/15
1.5K0
天下武功,唯'QUICK'不破,探究QUIC的五大特性及外网表现
对话Robin Marx:HTTP/3和QUIC将带来重大机遇和挑战
  点击上方“LiveVideoStack”关注我们 ---- 策划、翻译:Alex 技术审校:刘连响 Robin Marx 人物对话 #004# 6月7日,IETF贡献者、HTTP/3和QUIC工作组成员Robin Marx在推特上宣布:“历时五年,HTTP/3终于被标准化为RFC 9114!” 图片来源:推特 这是互联网的重要时刻。 作为HTTP的最新版本,HTTP/3将带来重大机遇和挑战。 为了更好地理解这一新发布的标准,LiveVideoStack邀请了Robin Marx加入我们的访谈,请他
LiveVideoStack
2022/07/18
3770
对话Robin Marx:HTTP/3和QUIC将带来重大机遇和挑战
QUIC网络协议简介
QUIC 全称 Quick UDP Internet Connection, 是谷歌公司研发的一种基于 UDP 协议的低时延互联网传输协议。在2018年IETF会议中,HTTP-over-QUIC协议被重命名为HTTP/3,并成为 HTTP 协议的第三个正式版本。本文将介绍QUIC协议的优势、特性和原理。
蒙古上单2
2019/03/27
5.4K0
QUIC网络协议简介
推荐阅读
相关推荐
[计算机网络]课程论文:万字长文详解QUIC协议,为什么有了TCP我们还需要QUIC?
更多 >
LV.3
这个人很懒,什么都没有留下~
作者相关精选
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档