
DeepSeek现在流行度正盛,今年的机器学习就用他作为一个开端,开整。 本文是基于百度aistudio的在线课程《DeepSeek从云端模型部署到应用开发》。
ollama地址如下:https://ollama.com/

单击download,在弹出的页面选择window,linux或mac对应版本,本文选择window。
官方下载的比较慢,这里提供一个百度网盘的下载连接
链接: https://pan.baidu.com/s/1le4sza2FWEz8P7e_4Xq9HQ?pwd=c9qc 提取码: c9qc 复制这段内容后打开百度网盘手机App,操作更方便哦 –来自百度网盘超级会员v9的分享
下载完成,默认安装在C盘,双击安装,会提示如下

安装完成,弹出如下窗口

检测是否安装成功,检查安装是否成功:命令行(win+r)输入cmd,输入ollama -v命令,提示下面的信息说明安装成功。
ollama -v
如果想要安装在指定位置,自定义安装路径,可以打开命令提示符,输入以下命令并按 Enter 键: ollamasetup.exe /DIR=“D:\你的自定义路径” 将 “D:\你的自定义路径” 替换为你希望的安装路径。安装程序将按照指定路径进行安装。
CPU
大模型进行交互我们提出的问题需要模型进行推理给出答复,基本情况下都是使用GPU进行推理,如果没有GPU,退而求其次可以使用CPU不过模型的运行流畅度会差点。 CPU建议至少16G内存,如果低于这个配置,大模型进行推理运行效果会很慢或者是直接运行不起来。
GPU显卡
GPU可以实现高性能的科学计算,目前大模型底层都是使用GPU进行训练推理。 推荐:最好用GPU进行模型推理,不过没有GPU显卡使用CPU也可以。 DeepSeek R1有很多不同大小模型,下面说下不同大小模型建议GPU显卡大小: 1.5B 模型 建议至少4GB显存 7B\8B 模型 建议至少8GB显存 14B 模型 建议至少12GB显存 32B 模型 建议至少24GB显存:一块4090显卡 70B 模型 建议至少48-96GB显存:1块H100显卡 671B 模型 建议至少960GB显存:10块以上H100显卡
一般来说我们自己本地想要体验使用32B及32B以下的模型就可以了,模型太大的化成本太高除非企业内部为了安全需要本地部署或者你自己不差钱,要不还是去官网体验满血完整版DeepSeek R1吧(目前该模型太火热,使用过程中经常会出现模型太忙请稍后访问,出现这种情况多刷新几次即可)。
电脑任务管理器–选择性能,即可查看

基于此电脑配置,我可以安装7/8B的版本。
在ollama官方的model中,可以看到模型的下载方式,如
ollama run deepseek-r1可下载对应的大模型到本地

Windows系统模型模型下载到C:Users\你的电脑用户名.ollama目录下,我的在

本文选择DeepSeek-R1-Distill-Qwen-7B版本
ollama run deepseek-r1:7b如下:

目前下载的速度还是可以的,如果下载速度比较慢,可以先把模型下载到本地,然后在用ollama去加载。
下载完成,开始第一次提问吧。

这时打开 http://127.0.0.1:11434 可以看到

开始提问



在cmd输入以下指令安装ollama可视化界面:
python -m pip install ollama_gui输入以下指令运行可视化界面:
python -m ollama_gui在弹出的窗口就可以对话了

按下 Win + R 键,输入 sysdm.cpl,然后按 Enter 键,打开“系统属性”窗口。 在“系统属性”窗口中,单击"高级",点击“环境变量”按钮。 在“环境变量”窗口中,点击“新建”按钮。 在“新建系统变量”窗口中,输入变量名 OLLAMA_MODELS,变量值为你希望的模型存储路径(例如 D:\Ollama\Models),然后点击“确定”。 点击“确定”保存环境变量设置。

为了确保模型路径已成功修改,可以使用以下命令验证: echo %OLLAMA_MODELS% 如果输出显示为你设置的路径,则表示环境变量已正确配置。

大模型下载最常用的两个平台是huggingface和modelscope(魔塔社区),本文选用魔塔社区下载。 魔塔社区提供了很多开源模型,魔塔社区地址如下: https://www.modelscope.cn/home

单击模型,搜索,即可查看到想要下载的模型 下载模型后,按照如下办法进行测试 如何用Ollama直接加载官网没有的本地大模型
safetensors是一种由Hugging Face推出的新型的安全的模型存储格式。它特别关注模型的安全性和隐私保护,同时保证了加载速度。safetensors文件仅包含模型的权重参数,不包括执行代码,这有助于减少模型文件的大小并提高加载速度。此外,safetensors支持零拷贝(zero-copy)和懒加载(lazy loading),没有文件大小限制,并且支持bfloat16/fp8数据类型。但safetensors没有重点关注性能和跨平台交换。在大模型高效序列化、数据压缩、量化等方面存在不足,并且它只保存了张量数据,没有任何关于模型的元数据信息。
而gguf格式是一种针对大模型的二进制文件格式。专为GGML及其执行器快速加载和保存模型而设计。它是GGML格式的替代者,旨在解决GGML在灵活性和扩展性方面的限制。它包含加载模型所需的所有信息,无需依赖外部文件,这简化了模型部署和共享的过程,同时有助于跨平台操作。此外,GGUF还支持量化技术,可以降低模型的资源消耗,并且设计为可扩展的,以便在不破坏兼容性的情况下添加新信息。
总的来说,safetensors更侧重于安全性和效率,适合快速部署和对安全性有较高要求的场景,特别是在HuggingFace生态中。而gguf格式则是一种为大模型设计的二进制文件格式,优化了模型的加载速度和资源消耗,适合需要频繁加载不同模型的场景。
ollama listollama run 模型名字将“模型名字”替换为你需要启动的模型名称,例如:
ollama run llama2ollama rm 模型名字将“模型名字”替换为你需要卸载的模型名称,例如:
ollama rm llama2上面部署完后发现都是在命令行进行操作,使用体验不是很好,怎么办了,我们可以通过ChatBox AI实现可视化界面操作。 Chatbox AI安装
安装地址:Chatbox AI官网:办公学习的AI好助手,全平台AI客户端,官方免费下载

可以先选择启动网页版体验下

可以选择use my own API Key/Local Model,在弹出的页面选择ollama api

进入ollama api设置页面

单击save,然后输入问题,结果出现网络,因为访问不到本地,存在跨域问题。


还得下载后使用。
单击免费下载到windows

下载后安装并打开

单击使用自己的 API key或本地模型

设置参数,选择本地模型

单击保存并使用

本文完成deepseek+ollama的本地部署与chatbox AI的使用。