
在人工智能的浪潮中,越来越多的开发者和企业开始尝试将大规模语言模型(LLMs)部署到本地环境中,以降低成本、提高数据安全性并提升应用性能。高性能应用服务HAI 和 Ollama 作为一种新兴的工具,为开发者提供了一个轻松的本地部署与调用接口,支持多种大模型的使用与管理。

本文将深入探讨 高性能应用服务HAI 结合 Ollama API 的基础设施、主要功能及其在实际项目中的应用,带你走在前沿的人工智能技术应用之路。
在过去几年中,云端大模型的部署逐渐成为了主流,但随着模型体积的逐步增大,云端服务的成本也在水涨船高。而对于一些特定的行业或应用场景,安全性、响应速度以及对个性化定制需求的提升,也让本地部署成为一种理想的选择。Ollama 的出现为开发者提供了高效的解决方案,它不仅支持本地模型的管理,还允许开发者在无需高配置硬件的前提下,使用诸如 混元、LLaMA、deepseek 等多种大模型。
Ollama 提供的 API 使得开发者能够通过简单的接口与本地大模型进行交互,从而有效降低了使用 AI 技术的门槛。
Ollama 的核心优势在于其 API 的多功能性与灵活性。通过这些 API,用户可以完成文本生成、对话管理、模型管理等多项任务。我们将从基础功能到进阶功能逐一讲解。本文将介绍如何使用 Ollama API 进行文本生成,重点使用 deepseek-r1:7b 进行交互。
腾讯云高性能应用服务 HAI 已经为我们预先安装好了 Ollama,开发者可以直接使用。只需打开 HAI 服务器,通过 JupyterLab 的 SSH 连接服务器,查看端口号后即可启动 Ollama。
启动 Ollama 的命令如下:
ollama serve执行此命令后,Ollama 即可在本地运行。

Ollama 提供了 RESTful API,主要使用 POST /api/generate 接口进行文本生成。以下是具体的请求方式与参数说明。
可以使用 curl 发送请求,示例如下:
curl http://localhost:6399/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "请解释量子纠缠的概念。",
"stream": false
}'参数 | 必填 | 说明 |
|---|---|---|
model | ✅ | 模型名称(如 |
prompt | ✅ | 输入提示,模型根据此生成响应 |
stream | ❌ | 是否流式返回(默认 |
format | ❌ | 返回格式(如 |

如果希望逐步接收模型的响应,可以将 stream 设置为 true,示例如下:
curl http://localhost:6399/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "请讲述一个科幻故事",
"stream": true
}'返回

curl http://localhost:6399/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "介绍黑洞的形成过程。",
"format": "json",
"stream": false
}'
Ollama 还支持多轮对话,适用于构建聊天机器人、智能客服等应用。通过 messages 参数,你可以定义多轮对话的上下文,模型将依据历史对话内容进行回答。
例如,发送多轮对话请求:
curl http://localhost:6399/api/chat -d '{
"model": "deepseek-r1:7b",
"messages": [
{"role": "user", "content": "你好"},
{"role": "assistant", "content": "你好!有什么可以帮助你的吗?"},
{"role": "user", "content": "人工智能的发展趋势是什么?"}
]
}'
model: (必需)模型名称prompt: 要生成响应的提示suffix: 模型响应后的文本images: (可选)一个base64编码的图像列表(用于多模态模型,如 llava )高级参数(可选):
format: 返回响应的格式。目前唯一接受的值是 jsonoptions: 其他模型参数,如 temperature、seed 等system: 系统消息template: 要使用的提示模板context: 从先前对 /generate 的请求中返回的上下文参数,可以用于保持简短的对话记忆stream: 如果设置为 false ,响应将作为单个响应对象返回,而不是一系列对象流raw: 如果设置为 true ,将不会对提示进行任何格式化。如果您在请求API时指定了完整的模板提示,可以选择使用 raw 参数keep_alive: 控制模型在请求后保留在内存中的时间(默认:5m)为了使外部应用能够访问本地的 Ollama 服务,我们需要开放 API 接口。首先,可以查看公网 IP 地址,确保外网可以访问。

点击添加规则按钮

接下来,在服务器中设置防火墙规则,开放所需的端口(例如 6399 或其他指定端口)。完成后,在防火墙规则中将显示已添加的记录。

完成开放后,列表中会增加一条记录。

然后,我们可以使用 Postman 等工具,向开放的 API 接口发送请求进行测试:
http://你的外网IP:11434/api/generate通过此方法,开发者可以轻松搭建自己的本地 AI 服务,并通过开放的 API 接口与外部进行交互。

最后不要忘记关机哦!

Ollama API 为开发者提供了灵活且高效的本地大模型管理与交互方式。本文详细介绍了如何使用 deepseek-r1:7b 进行文本生成,并展示了高性能应用服务HAI 结合 API 的基本请求方式及进阶用法。无论是自动化内容生成,还是构建智能对话系统,Ollama 都能为你提供强有力的支持。
如果你对本地大模型推理及应用感兴趣,高性能应用服务HAI 是一个值得尝试的强大工具,它能够帮助你快速搭建属于自己的 AI 助手或服务,推动你在人工智能领域的进一步探索。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。