当作业挂起时,可以通过以下方式找到slurm诊断信息:
squeue -u <用户名>
可以查看当前用户的作业状态。如果作业处于挂起状态,可以看到作业的JOBID。scontrol show job <JOBID>
可以查看作业的详细信息,包括作业的状态、挂起原因等。scontrol show job <JOBID> -dd
可以查看作业的详细日志信息。在日志中可以找到关于作业挂起的诊断信息。sinfo
可以查看集群的状态信息,包括节点的状态、负载情况等。如果作业挂起是由于资源不足导致的,可以在这里找到相关信息。scontrol show node <节点名>
可以查看指定节点的状态信息。如果作业挂起是由于节点故障导致的,可以在这里找到相关信息。需要注意的是,以上命令都是在使用Slurm作业调度系统的情况下才适用。如果使用其他作业调度系统,可能会有不同的命令和方式来查找作业的诊断信息。
领取专属 10元无门槛券
手把手带您无忧上云