在人工智能的浪潮中,越来越多的开发者和企业开始尝试将大规模语言模型(LLMs)部署到本地环境中,以降低成本、提高数据安全性并提升应用性能。高性能应用服务HAI 和 Ollama 作为一种新兴的工具,为开发者提供了一个轻松的本地部署与调用接口,支持多种大模型的使用与管理。
本文将深入探讨 高性能应用服务HAI 结合 Ollama API 的基础设施、主要功能及其在实际项目中的应用,带你走在前沿的人工智能技术应用之路。
在过去几年中,云端大模型的部署逐渐成为了主流,但随着模型体积的逐步增大,云端服务的成本也在水涨船高。而对于一些特定的行业或应用场景,安全性、响应速度以及对个性化定制需求的提升,也让本地部署成为一种理想的选择。Ollama 的出现为开发者提供了高效的解决方案,它不仅支持本地模型的管理,还允许开发者在无需高配置硬件的前提下,使用诸如 混元、LLaMA、deepseek 等多种大模型。
Ollama 提供的 API 使得开发者能够通过简单的接口与本地大模型进行交互,从而有效降低了使用 AI 技术的门槛。
Ollama 的核心优势在于其 API 的多功能性与灵活性。通过这些 API,用户可以完成文本生成、对话管理、模型管理等多项任务。我们将从基础功能到进阶功能逐一讲解。本文将介绍如何使用 Ollama API 进行文本生成,重点使用 deepseek-r1:7b
进行交互。
腾讯云高性能应用服务 HAI 已经为我们预先安装好了 Ollama,开发者可以直接使用。只需打开 HAI 服务器,通过 JupyterLab 的 SSH 连接服务器,查看端口号后即可启动 Ollama。
启动 Ollama 的命令如下:
ollama serve
执行此命令后,Ollama 即可在本地运行。
Ollama 提供了 RESTful API,主要使用 POST /api/generate 接口进行文本生成。以下是具体的请求方式与参数说明。
可以使用 curl
发送请求,示例如下:
curl http://localhost:6399/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "请解释量子纠缠的概念。",
"stream": false
}'
参数 | 必填 | 说明 |
---|---|---|
model | ✅ | 模型名称(如 |
prompt | ✅ | 输入提示,模型根据此生成响应 |
stream | ❌ | 是否流式返回(默认 |
format | ❌ | 返回格式(如 |
如果希望逐步接收模型的响应,可以将 stream
设置为 true
,示例如下:
curl http://localhost:6399/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "请讲述一个科幻故事",
"stream": true
}'
返回
curl http://localhost:6399/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "介绍黑洞的形成过程。",
"format": "json",
"stream": false
}'
Ollama 还支持多轮对话,适用于构建聊天机器人、智能客服等应用。通过 messages
参数,你可以定义多轮对话的上下文,模型将依据历史对话内容进行回答。
例如,发送多轮对话请求:
curl http://localhost:6399/api/chat -d '{
"model": "deepseek-r1:7b",
"messages": [
{"role": "user", "content": "你好"},
{"role": "assistant", "content": "你好!有什么可以帮助你的吗?"},
{"role": "user", "content": "人工智能的发展趋势是什么?"}
]
}'
model
: (必需)模型名称prompt
: 要生成响应的提示suffix
: 模型响应后的文本images
: (可选)一个base64编码的图像列表(用于多模态模型,如 llava
)高级参数(可选):
format
: 返回响应的格式。目前唯一接受的值是 json
options
: 其他模型参数,如 temperature
、seed
等system
: 系统消息template
: 要使用的提示模板context
: 从先前对 /generate
的请求中返回的上下文参数,可以用于保持简短的对话记忆stream
: 如果设置为 false
,响应将作为单个响应对象返回,而不是一系列对象流raw
: 如果设置为 true
,将不会对提示进行任何格式化。如果您在请求API时指定了完整的模板提示,可以选择使用 raw
参数keep_alive
: 控制模型在请求后保留在内存中的时间(默认:5m
)为了使外部应用能够访问本地的 Ollama 服务,我们需要开放 API 接口。首先,可以查看公网 IP 地址,确保外网可以访问。
点击添加规则按钮
接下来,在服务器中设置防火墙规则,开放所需的端口(例如 6399 或其他指定端口)。完成后,在防火墙规则中将显示已添加的记录。
完成开放后,列表中会增加一条记录。
然后,我们可以使用 Postman 等工具,向开放的 API 接口发送请求进行测试:
http://你的外网IP:11434/api/generate
通过此方法,开发者可以轻松搭建自己的本地 AI 服务,并通过开放的 API 接口与外部进行交互。
最后不要忘记关机哦!
Ollama API 为开发者提供了灵活且高效的本地大模型管理与交互方式。本文详细介绍了如何使用 deepseek-r1:7b 进行文本生成,并展示了高性能应用服务HAI 结合 API 的基本请求方式及进阶用法。无论是自动化内容生成,还是构建智能对话系统,Ollama 都能为你提供强有力的支持。
如果你对本地大模型推理及应用感兴趣,高性能应用服务HAI 是一个值得尝试的强大工具,它能够帮助你快速搭建属于自己的 AI 助手或服务,推动你在人工智能领域的进一步探索。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。