使用 HAI 结合 Ollama API 打造高效文本生成系统：deepseek-r1:7b 实践指南

原创

不惑

修改于 2025-02-06 14:56:59

6442

文章被收录于专栏：GoboyGoboy

在人工智能的浪潮中，越来越多的开发者和企业开始尝试将大规模语言模型（LLMs）部署到本地环境中，以降低成本、提高数据安全性并提升应用性能。高性能应用服务HAI 和 Ollama 作为一种新兴的工具，为开发者提供了一个轻松的本地部署与调用接口，支持多种大模型的使用与管理。

本文将深入探讨 高性能应用服务HAI 结合 Ollama API 的基础设施、主要功能及其在实际项目中的应用，带你走在前沿的人工智能技术应用之路。

Ollama：本地大模型部署的新选择

在过去几年中，云端大模型的部署逐渐成为了主流，但随着模型体积的逐步增大，云端服务的成本也在水涨船高。而对于一些特定的行业或应用场景，安全性、响应速度以及对个性化定制需求的提升，也让本地部署成为一种理想的选择。Ollama 的出现为开发者提供了高效的解决方案，它不仅支持本地模型的管理，还允许开发者在无需高配置硬件的前提下，使用诸如混元、LLaMA、deepseek 等多种大模型。

Ollama 提供的 API 使得开发者能够通过简单的接口与本地大模型进行交互，从而有效降低了使用 AI 技术的门槛。

Ollama API：功能解析

Ollama 的核心优势在于其 API 的多功能性与灵活性。通过这些 API，用户可以完成文本生成、对话管理、模型管理等多项任务。我们将从基础功能到进阶功能逐一讲解。本文将介绍如何使用 Ollama API 进行文本生成，重点使用 deepseek-r1:7b 进行交互。

安装与启动 Ollama

腾讯云高性能应用服务 HAI 已经为我们预先安装好了 Ollama，开发者可以直接使用。只需打开 HAI 服务器，通过 JupyterLab 的 SSH 连接服务器，查看端口号后即可启动 Ollama。

启动 Ollama 的命令如下：

ollama serve

执行此命令后，Ollama 即可在本地运行。

发送 API 请求

Ollama 提供了 RESTful API，主要使用 POST /api/generate 接口进行文本生成。以下是具体的请求方式与参数说明。

API 请求示例

可以使用 curl 发送请求，示例如下：

curl http://localhost:6399/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "请解释量子纠缠的概念。",
  "stream": false
}'

请求参数说明

参数	必填	说明
model	✅	模型名称（如 `deepseek-r1:7b`）
prompt	✅	输入提示，模型根据此生成响应
stream	❌	是否流式返回（默认 `true`）
format	❌	返回格式（如 `json`）

响应示例

进阶使用

开启流式输出

如果希望逐步接收模型的响应，可以将 stream 设置为 true，示例如下：

curl http://localhost:6399/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "请讲述一个科幻故事",
  "stream": true
}'

使用 JSON 格式化响应

curl http://localhost:6399/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "介绍黑洞的形成过程。",
  "format": "json",
  "stream": false
}'

多轮对话（对话补全）

Ollama 还支持多轮对话，适用于构建聊天机器人、智能客服等应用。通过 messages 参数，你可以定义多轮对话的上下文，模型将依据历史对话内容进行回答。

例如，发送多轮对话请求：

curl http://localhost:6399/api/chat -d '{
  "model": "deepseek-r1:7b",
  "messages": [
    {"role": "user", "content": "你好"},
    {"role": "assistant", "content": "你好！有什么可以帮助你的吗？"},
    {"role": "user", "content": "人工智能的发展趋势是什么？"}
  ]
}'

主要参数说明

model: （必需）模型名称
prompt: 要生成响应的提示
suffix: 模型响应后的文本
images: （可选）一个base64编码的图像列表（用于多模态模型，如 llava ）

高级参数（可选）：

format: 返回响应的格式。目前唯一接受的值是 json
options: 其他模型参数，如 temperature、seed 等
system: 系统消息
template: 要使用的提示模板
context: 从先前对 /generate 的请求中返回的上下文参数，可以用于保持简短的对话记忆
stream: 如果设置为 false ，响应将作为单个响应对象返回，而不是一系列对象流
raw: 如果设置为 true ，将不会对提示进行任何格式化。如果您在请求API时指定了完整的模板提示，可以选择使用 raw 参数
keep_alive: 控制模型在请求后保留在内存中的时间（默认：5m）

开放 API

为了使外部应用能够访问本地的 Ollama 服务，我们需要开放 API 接口。首先，可以查看公网 IP 地址，确保外网可以访问。

点击添加规则按钮

接下来，在服务器中设置防火墙规则，开放所需的端口（例如 6399 或其他指定端口）。完成后，在防火墙规则中将显示已添加的记录。

完成开放后，列表中会增加一条记录。

然后，我们可以使用 Postman 等工具，向开放的 API 接口发送请求进行测试：

http://你的外网IP:11434/api/generate

通过此方法，开发者可以轻松搭建自己的本地 AI 服务，并通过开放的 API 接口与外部进行交互。

最后不要忘记关机哦！

结语

Ollama API 为开发者提供了灵活且高效的本地大模型管理与交互方式。本文详细介绍了如何使用 deepseek-r1:7b 进行文本生成，并展示了高性能应用服务HAI 结合 API 的基本请求方式及进阶用法。无论是自动化内容生成，还是构建智能对话系统，Ollama 都能为你提供强有力的支持。

如果你对本地大模型推理及应用感兴趣，高性能应用服务HAI 是一个值得尝试的强大工具，它能够帮助你快速搭建属于自己的 AI 助手或服务，推动你在人工智能领域的进一步探索。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek