操作场景
HAI 推理集群是专为高性能、低延迟、高并发的 AI 模型线上服务设计的基础设施,广泛应用于需要将训练完成的大语言模型(LLM)、视觉模型、多模态模型等部署为生产级服务的场景。本文详细介绍如何在 HAI 高性能应用服务中创建推理集群,涵盖操作流程、参数配置说明及注意事项,帮助您快速完成集群部署并用于模型推理服务。
操作步骤
1. 登录 HAI 推理集群控制台,进入推理集群管理页面。

2. 创建推理集群,新增服务按钮位于推理集群管理页面的左上角,单击后可启动服务创建流程,支持从已有模型或镜像创建推理服务实例。

3. 进入服务创建页面后,按照页面指引依次填写各项配置参数,完成推理服务的部署基础信息设置。

服务名称:自定义服务名称,若不填则默认使用服务的实例 ID 替代。
模型:选择您想要部署的模型。单击应用后可预览应用环境配置详情及应用介绍信息。
推理框架:选择您想要的推理框架,不同框架带来的加速效果不同。
地域:建议选择靠近目标客户的地域,降低网络延迟、提高您的客户的访问速度。
算力套餐:您可根据自己所需的配置进行选择。算力套餐对应的显存、算力、CPU、内存信息在算力方案卡片进行展示。
副本数:默认单副本。
4. 单击部署服务,即可完成部署您专有的推理集群。
