首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【FAQ】集群训练与预测相关问题汇总

【FAQ】集群训练与预测相关问题汇总

作者头像
用户1386409
发布2018-03-15 14:30:57
发布2018-03-15 14:30:57
8590
举报
文章被收录于专栏:PaddlePaddlePaddlePaddle

导语

在使用指南的最后一部分,我们汇总了使用PaddlePaddle过程中的常见问题,本部分推文目录如下:

2.22:【FAQ】模型配置相关问题汇总

2.23:【FAQ】参数设置相关问题汇总

2.24:【FAQ】本地训练与预测相关问题汇总

2.25:【FAQ】集群训练与预测相关问题汇总

2.26:如何贡献代码

2.27:如何贡献文档

集群训练与预测相关问题汇总
|1.集群多节点训练,日志中保存均为网络通信类错误

集群多节点训练,日志报错为网络通信类错误,比如 Connection reset by peer 等。 此类报错通常是由于某一个节点的错误导致这个节点的训练进程退出,从而引发其他节点无法连接导致,可以参考下面的步骤排查:

  • 从 train.log , server.log 找到最早报错的地方,查看是否是其他错误引发的报错(比如FPE,内存不足,磁盘空间不足等)。
  • 如果发现最早的报错就是网络通信的问题,很有可能是非独占方式执行导致的端口冲突,可以联系OP,看当前MPI集群是否支持resource=full参数提交,如果支持增加此参数提交,并更换job 端口。
  • 如果当前MPI集群并不支持任务独占模式,可以联系OP是否可以更换集群或升级当前集群。

|PS

集群训练与预测相关FAQ较少,点击导语推文目录查看其它部分FAQ,点击阅读原文访问Github Issue。

为了方便大家问题的跟进解决,我们采用Github Issue来采集信息和追踪进度。大家遇到问题请搜索Github Issue,问题未解决请优先在Github Issue上提问,有助于问题的积累和沉淀。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档