
中心思想:ollama是推理引擎,提供大模型接口服务,chatbox提供可视化界面,借用大模型能力与用户对话。
安装包下载在 ollama 的官网
https://ollama.com/download找到对应系统版本下载,比如linux 系统对应的命令为:
curl -fsSL https://ollama.com/install.sh | sh比如在linux中得到安装文件,可通过以下命令安装。
tar -zxf ollama-linux-amd64.tgz -C /usr/local下载对应模型文件: 同样在ollama官网,model栏找到 deepseek 对应的蒸馏版本,获取下载命令
ollama run deepseek-r1:14b在第一次运行时候,ollama 会自动的进行模型下载,时间较长。再次调用时候,就会加载本地模型。
此时,ollama 服务就会启动了,接下来就是使用chatbox 构建可交互的界面。
使用chatbox 进行交互界面的搭建。 首先下载chatbox客户端,并配置本地模型的API地址。
https://chatboxai.app/zh以上流程是在网路正常,没有任何限制,人品合格的情况下的情况。否则会有很多问题。
https://www.gy328.com/app/ollama/很不巧,此网站只有mac 和win版本。对于linux可以尝试github加速下载。
https://git.zhike.in/需要打开ollama github 的仓库地址,找到对应的release版本,右键将连接拷贝到以上网址的界面中。
很不巧,如果文件太大会失败。那只能通过浏览器+翻墙下载了。
使用ollama 运行微调之后的大模型,是一个很现实的问题,光使用官方模型,体现不了一丁点能力。
思路:需要对微调之后的模型转换到GGUF格式,并创建对应的配置文件后,ollama 才能对其进行管理。
ps:使用命令 ollama run + model 命令进行下载的模型是经过ollama 特殊加工的,即是对GGUF格式进行的二次封装,属于私有格式。
假设我们已经有了 GGUF格式的大模型,配置好文件就可以运行了。
步骤: 1.确认模型文件是GGUF格式,并记录其绝对路径。
2.创建Modelfile,使用FROM指令指定模型路径。
3.使用ollama create创建模型别名。
4.运行模型并测试。具体示例操作:
创建一个名为的文件Modelfile.txt,其中包含FROM要导入的模型的本地文件路径的指令。
FROM /model/qwen-7B-q8.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 10在ollama 中创建模型,可以自定义模型文件名
ollama create qwen-7b-q8 -f Modelfile.txt运行导入的模型
ollama run qwen-7b-q8接下来是,如何将大模型转换为GGUF 格式,需要使用 llama.cpp
Ilama.cpp可以量化模型,而ollama则是解决量化后的模型怎么更方便的跑起来的问题。
llama.cpp的主要目标是能够在各种硬件上实现LLM (大型语言模型)推理,无论是本地还是云端,都只需最少的设置,并提供最先进的性能。
示例将huggingface 的模型转换到 GGUF 文件格式。首先克隆llama.cpp仓库:
git clone https://github.com/ggml-org/llama.cpp安装必要的 Python 依赖:
pip instal1 -r requirements.txt使用也很简单,传入 HuggingFace 的模型和输出位置等参数即可:
python convert_hf_to_gguf.py model_dir
--outfile qwen-7b-q8.gguf
--outtype q8_0其中的参数 outtype作用为制定量化的类型,常用的量化格式有
q4_k_m: 4-bit,平衡质量和速度
q8_8: 8-bit,更高质量
f16: 16-bit,无损压缩参考地址:
https://www.runoob.com/ollama/ollama-tutorial.html
https://github.com/ollama/ollama/blob/main/docs/api.md