高性能应用服务 HAI 快速使用 QwQ-32B 模型

背景介绍
QwQ-32B 是一款拥有 320 亿参数的模型，其性能可与具备 6710 亿参数（其中 370 亿被激活）的 DeepSeek-R1 媲美。此外，在 QwQ-32B 中集成了与 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。
HAI 已提供 QwQ-32B 模型预装环境，用户可在 HAI 中快速启动，进行测试并接入业务。
快速使用
步骤一：创建 QwQ-32B 应用
1. 登录 高性能应用服务 HAI 控制台。
2. 单击新建，进入高性能应用服务 HAI 购买页面。
选择应用：选择社区应用，应用选择 QwQ-32B。
地域：建议选择靠近您实际地理位置的地域，降低网络延迟、提高您的访问速度。
算力方案：选择合适的算力套餐。
说明：
在单并发访问模型的情况下，建议最低配置如下：
模型
参数量级
推荐算力套餐
QwQ-32B
32B
GPU 进阶型
具体算力套餐配置及参数可参考 套餐类型。
实例名称：自定义实例名称，若不填则默认使用实例 ID 替代。
购买数量：默认1台。
3. 单击立即购买。
4. 核对配置信息后，单击提交订单，并根据页面提示完成支付。
5. 等待创建完成。单击实例任意位置并进入该实例的详情页面。同时您将在站内信中收到登录密码。此时，可通过可视化界面（GUI）或命令行（Terminal）使用 QwQ-32B 模型。
6. 您可以在此页面查看实例的详细的配置信息，到此为止，说明您的 QwQ-32B 应用实例购买成功。
步骤二：使用 QwQ-32B 模型
等待几分钟创建完成后，您将在站内信中收到登录密码。此时，可通过可视化界面 (GUI) 或命令行 (Terminal) 使用 QwQ-32B 模型。
通过 OpenWebUI 可视化界面使用（推荐）
1. 登录 高性能应用服务 HAI 控制台，选择算力连接 > OpenWebUI。
﻿
2. 在新窗口中，单击开始使用。
﻿
3. 自定义名称、电子邮箱、密码，创建管理员账号。
﻿
4. 完成管理员账号创建后，即可开始使用。
﻿
通过 AnythingLLM 可视化界面使用（推荐）
1. 登录 高性能应用服务 HAI 控制台，选择算力连接 > AnythingLLM。
﻿
2. 新建窗口后，单击页面左下角设置，进入设置页面。单击左侧导航栏 LLM 首选项进入配置。
将 LLM 提供商选择为 Ollama。
将 Ollama Base URL 修改为：该台 HAI 实例的公网 IP:6399。
在 Ollama Model 处选择需要使用的模型，例如：QwQ-32B。
在 Ollama Keep Alive 处按需配置保活时长。（模型在每次超过保活时长后会被移除，再次使用时需重新载入模型，耗时较久，若不存在频繁切换模型诉求，建议将保活时长尽可能调大）
﻿
3. 配置完成后，回到项目页面，单击 upload a document 上传本地文件。
﻿
4. 上传文件后，选中希望使用的文件，单击 Move to Workspace 将文件添加至项目。单击 Save and Embed，完成配置。
﻿
5. 您可直接与模型进行对话，模型会根据对话内容智能调用本地知识库内容。
﻿
通过终端连接命令行使用
1. 在 高性能应用服务 HAI 控制台，选择算力连接 > 终端连接(SSH)。
﻿
2. 在弹出的 OrcaTerm 登录页面中，输入站内信中的登录密码，单击登录。
﻿
3. 登录成功后，输入以下命令加载默认模型：
ollama run qwq
通过 JupyterLab 命令行使用
1. 在 高性能应用服务 HAI 控制台，选择算力连接 > JupyterLab。
﻿
2. 新建一个 Terminal。
﻿
3. 输入以下命令加载默认模型：
ollama run qwq
进阶使用
API 调用
实例环境中已预装并启动 Ollama serve，该服务支持通过 REST API 进行调用。您可以参考 Ollama API 文档，以了解具体的调用方式和方法。
常见问题
Ollama/API 的端口号是哪个？
HAI 调用 Ollama 的 API 端口使用 6399，OpenWebUI 端口使用 6699，其他端口详情请参见 常用端口。
如何通过 API 使用模型？
实例环境中已预装并启动 Ollama serve，该服务支持通过 REST API 进行调用。您可以参考 Ollama API 文档，以了解具体的调用方式和方法。
中国大陆地域通过 Ollama 下载模型速度慢怎么办？
目前北京、上海、广州的资源，可通过 高性能应用服务 HAI 控制台 单击加速设置，开启学术加速后，提高资源访问速度。相关能力介绍可参考 开启学术加速。
﻿
提示资源紧张，排队人数过多，如何处理？
由于使用火热，部分地域可能出现售罄情况，无法成功创建实例。已付款项将会原路退回。建议更换地域重新购买或稍后重试。

快速使用 QwQ-32B 模型

本页目录：

背景介绍

快速使用

步骤一：创建 QwQ-32B 应用

步骤二：使用 QwQ-32B 模型

通过 OpenWebUI 可视化界面使用（推荐）

通过 AnythingLLM 可视化界面使用（推荐）

通过终端连接命令行使用

通过 JupyterLab 命令行使用

进阶使用

API 调用

常见问题

Ollama/API 的端口号是哪个？

如何通过 API 使用模型？

中国大陆地域通过 Ollama 下载模型速度慢怎么办？

提示资源紧张，排队人数过多，如何处理？