首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当作业挂起时,我在哪里可以找到slurm诊断信息?

当作业挂起时,可以通过以下方式找到slurm诊断信息:

  1. 查看作业状态:使用命令squeue -u <用户名>可以查看当前用户的作业状态。如果作业处于挂起状态,可以看到作业的JOBID。
  2. 查看作业详细信息:使用命令scontrol show job <JOBID>可以查看作业的详细信息,包括作业的状态、挂起原因等。
  3. 查看作业日志:使用命令scontrol show job <JOBID> -dd可以查看作业的详细日志信息。在日志中可以找到关于作业挂起的诊断信息。
  4. 查看集群状态:使用命令sinfo可以查看集群的状态信息,包括节点的状态、负载情况等。如果作业挂起是由于资源不足导致的,可以在这里找到相关信息。
  5. 查看节点状态:使用命令scontrol show node <节点名>可以查看指定节点的状态信息。如果作业挂起是由于节点故障导致的,可以在这里找到相关信息。

需要注意的是,以上命令都是在使用Slurm作业调度系统的情况下才适用。如果使用其他作业调度系统,可能会有不同的命令和方式来查找作业的诊断信息。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

1分47秒

反光衣实时识别检测系统

5分33秒

JSP 在线学习系统myeclipse开发mysql数据库web结构java编程

16分8秒

人工智能新途-用路由器集群模仿神经元集群

领券