快速使用 QwQ-32B 模型

最近更新时间:2025-03-07 10:57:02

我的收藏

背景介绍

QwQ-32B 是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。此外,在 QwQ-32B 中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
HAI 已提供 QwQ-32B 模型预装环境,用户可在 HAI 中快速启动,进行测试并接入业务。

快速使用

步骤一:创建 QwQ-32B 应用

2. 单击新建,进入高性能应用服务 HAI 购买页面
选择应用:选择社区应用,应用选择 QwQ-32B
地域:建议选择靠近您实际地理位置的地域,降低网络延迟、提高您的访问速度。
算力方案:选择合适的算力套餐。
说明:
在单并发访问模型的情况下,建议最低配置如下:
模型
参数量级
推荐算力套餐
QwQ-32B
32B
GPU 进阶型
具体算力套餐配置及参数可参考 套餐类型
实例名称:自定义实例名称,若不填则默认使用实例 ID 替代。
购买数量:默认1台。
3. 单击立即购买。
4. 核对配置信息后,单击提交订单,并根据页面提示完成支付。
5. 等待创建完成。单击实例任意位置并进入该实例的详情页面。同时您将在站内信中收到登录密码。此时,可通过可视化界面(GUI)或命令行(Terminal)使用 QwQ-32B 模型。
6. 您可以在此页面查看实例的详细的配置信息,到此为止,说明您的 QwQ-32B 应用实例购买成功。

步骤二:使用 QwQ-32B 模型

等待几分钟创建完成后,您将在站内信中收到登录密码。此时,可通过可视化界面 (GUI) 或命令行 (Terminal) 使用 QwQ-32B 模型。

通过 OpenWebUI 可视化界面使用(推荐)

1. 登录 高性能应用服务 HAI 控制台,选择算力连接 > OpenWebUI

2. 在新窗口中,单击开始使用。

3. 自定义名称、电子邮箱、密码,创建管理员账号。

4. 完成管理员账号创建后,即可开始使用。


通过 AnythingLLM 可视化界面使用(推荐)

1. 登录 高性能应用服务 HAI 控制台,选择算力连接 > AnythingLLM

2. 新建窗口后,单击页面左下角设置,进入设置页面。单击左侧导航栏 LLM 首选项进入配置。
LLM 提供商选择为 Ollama
Ollama Base URL 修改为:该台 HAI 实例的公网 IP:6399,例如:http://11.111.711.110:6399。
Ollama Model 处选择需要使用的模型,例如:QwQ-32B。
Ollama Keep Alive 处按需配置保活时长。(模型在每次超过保活时长后会被移除,再次使用时需重新载入模型,耗时较久,若不存在频繁切换模型诉求,建议将保活时长尽可能调大)

3. 配置完成后,回到项目页面,单击 upload a document 上传本地文件。

4. 上传文件后,选中希望使用的文件,单击 Move to Workspace 将文件添加至项目。单击 Save and Embed,完成配置。

5. 您可直接与模型进行对话,模型会根据对话内容智能调用本地知识库内容。


通过终端连接命令行使用

1. 高性能应用服务 HAI 控制台,选择算力连接 > 终端连接(SSH)

2. 在弹出的 OrcaTerm 登录页面中,输入站内信中的登录密码,单击登录

3. 登录成功后,输入以下命令加载默认模型:
ollama run qwq

通过 JupyterLab 命令行使用

1. 高性能应用服务 HAI 控制台,选择算力连接 > JupyterLab

2. 新建一个 Terminal

3. 输入以下命令加载默认模型:
ollama run qwq

进阶使用

API 调用

实例环境中已预装并启动 Ollama serve,该服务支持通过 REST API 进行调用。您可以参考 Ollama API 文档,以了解具体的调用方式和方法。

常见问题

Ollama/API 的端口号是哪个?

HAI 调用 Ollama 的 API 端口使用 6399,OpenWebUI 端口使用 6699,其他端口详情请参见 常用端口

如何通过 API 使用模型?

实例环境中已预装并启动 Ollama serve,该服务支持通过 REST API 进行调用。您可以参考 Ollama API 文档,以了解具体的调用方式和方法。

中国大陆地域通过 Ollama 下载模型速度慢怎么办?

目前北京、上海、广州的资源,可通过 高性能应用服务 HAI 控制台 单击加速设置,开启学术加速后,提高资源访问速度。相关能力介绍可参考 开启学术加速


提示资源紧张,排队人数过多,如何处理?

由于使用火热,部分地域可能出现售罄情况,无法成功创建实例。已付款项将会原路退回。建议更换地域重新购买或稍后重试。