背景介绍
QwQ-32B 是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。此外,在 QwQ-32B 中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
HAI 已提供 QwQ-32B 模型预装环境,用户可在 HAI 中快速启动,进行测试并接入业务。
快速使用
步骤一:创建 QwQ-32B 应用
1. 登录 高性能应用服务 HAI 控制台。
2. 单击新建,进入高性能应用服务 HAI 购买页面。
选择应用:选择社区应用,应用选择 QwQ-32B。
地域:建议选择靠近您实际地理位置的地域,降低网络延迟、提高您的访问速度。
算力方案:选择合适的算力套餐。
实例名称:自定义实例名称,若不填则默认使用实例 ID 替代。
购买数量:默认1台。
3. 单击立即购买。
4. 核对配置信息后,单击提交订单,并根据页面提示完成支付。
5. 等待创建完成。单击实例任意位置并进入该实例的详情页面。同时您将在站内信中收到登录密码。此时,可通过可视化界面(GUI)或命令行(Terminal)使用 QwQ-32B 模型。
6. 您可以在此页面查看实例的详细的配置信息,到此为止,说明您的 QwQ-32B 应用实例购买成功。
步骤二:使用 QwQ-32B 模型
等待几分钟创建完成后,您将在站内信中收到登录密码。此时,可通过可视化界面 (GUI) 或命令行 (Terminal) 使用 QwQ-32B 模型。
通过 OpenWebUI 可视化界面使用(推荐)
1. 登录 高性能应用服务 HAI 控制台,选择算力连接 > OpenWebUI。

2. 在新窗口中,单击开始使用。

3. 自定义名称、电子邮箱、密码,创建管理员账号。

4. 完成管理员账号创建后,即可开始使用。

通过 AnythingLLM 可视化界面使用(推荐)
1. 登录 高性能应用服务 HAI 控制台,选择算力连接 > AnythingLLM。

2. 新建窗口后,单击页面左下角设置,进入设置页面。单击左侧导航栏 LLM 首选项进入配置。
将 LLM 提供商选择为 Ollama。
将 Ollama Base URL 修改为:该台 HAI 实例的公网 IP:6399,例如:http://11.111.711.110:6399。
在 Ollama Model 处选择需要使用的模型,例如:QwQ-32B。
在 Ollama Keep Alive 处按需配置保活时长。(模型在每次超过保活时长后会被移除,再次使用时需重新载入模型,耗时较久,若不存在频繁切换模型诉求,建议将保活时长尽可能调大)

3. 配置完成后,回到项目页面,单击 upload a document 上传本地文件。

4. 上传文件后,选中希望使用的文件,单击 Move to Workspace 将文件添加至项目。单击 Save and Embed,完成配置。

5. 您可直接与模型进行对话,模型会根据对话内容智能调用本地知识库内容。

通过终端连接命令行使用
1. 在 高性能应用服务 HAI 控制台,选择算力连接 > 终端连接(SSH)。

2. 在弹出的 OrcaTerm 登录页面中,输入站内信中的登录密码,单击登录。

3. 登录成功后,输入以下命令加载默认模型:
ollama run qwq
通过 JupyterLab 命令行使用
1. 在 高性能应用服务 HAI 控制台,选择算力连接 > JupyterLab。

2. 新建一个 Terminal。

3. 输入以下命令加载默认模型:
ollama run qwq
进阶使用
API 调用
常见问题
Ollama/API 的端口号是哪个?
如何通过 API 使用模型?
中国大陆地域通过 Ollama 下载模型速度慢怎么办?

提示资源紧张,排队人数过多,如何处理?
由于使用火热,部分地域可能出现售罄情况,无法成功创建实例。已付款项将会原路退回。建议更换地域重新购买或稍后重试。