首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >MindIE PD分离部署Q&A

MindIE PD分离部署Q&A

作者头像
AI布道Mr.Jin_2025
发布2025-05-27 20:20:54
发布2025-05-27 20:20:54
3840
举报

PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记录分享一下。

单机部署

Q:运行deploy.sh 报错 core dump

A:大概率是选择了错误了 镜像,例如A2的机器使用了A3的镜像。

Q:运行deploy.sh 后,pods的状态为UnexpectedAdmissionError

A:mindie_service_single_container.yaml配置文件中,resources/requests/huawei.com/Ascend910的值目前只能为8,小于8会触发报错。

多机部署

Q:运行deploy.sh 后,coordinator一直显示not ready

A:可能是没有配置正确的rank_table_file,导致P、D节点没有拿到device信息,不能载入模型,解决方案参考 https://zhuanlan.zhihu.com/p/1900192566378497634

Q:拉起k8s失败,输出 kubectl get configmap rings-config-mindie-server-p0...

A:可能是之前的进程没有删除干净;deployment目录下面的yaml文件的配置可能需要修改,如果是单机16卡,则npu的卡数需要改成16;可以查看 /var/log/mindx-dl/ascend-operator的日志,检查是否有json文件的格式错误。

参数配置建议

使用benchmark工具发送请求。

llama3-8B

卡数

输入输出

concurrency

发送频率

prefill_bs

decode_bs

PD混部

1

257-60

7

10

100

PD分离

2+3

257-60

1000

93

2

18

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 单机部署
  • 多机部署
    • 参数配置建议
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档