首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当作业挂起时,我在哪里可以找到slurm诊断信息?

当作业挂起时,可以通过以下方式找到slurm诊断信息:

  1. 查看作业状态:使用命令squeue -u <用户名>可以查看当前用户的作业状态。如果作业处于挂起状态,可以看到作业的JOBID。
  2. 查看作业详细信息:使用命令scontrol show job <JOBID>可以查看作业的详细信息,包括作业的状态、挂起原因等。
  3. 查看作业日志:使用命令scontrol show job <JOBID> -dd可以查看作业的详细日志信息。在日志中可以找到关于作业挂起的诊断信息。
  4. 查看集群状态:使用命令sinfo可以查看集群的状态信息,包括节点的状态、负载情况等。如果作业挂起是由于资源不足导致的,可以在这里找到相关信息。
  5. 查看节点状态:使用命令scontrol show node <节点名>可以查看指定节点的状态信息。如果作业挂起是由于节点故障导致的,可以在这里找到相关信息。

需要注意的是,以上命令都是在使用Slurm作业调度系统的情况下才适用。如果使用其他作业调度系统,可能会有不同的命令和方式来查找作业的诊断信息。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • CONQUEST 编译安装指南 Slurm 篇

    在实际的生产环境中,使用单用户模式直接运行命令的机会不是很多,通常是采用提交作业任务给集群计算的方式。这样一来既能节约资源和时间,又能申请到更大规模的计算资源,对于平台管理人员还是用户来说都是非常有利的。国家超算中心,地方超算中心,学校超算中心一般都对外提供这样的服务,不过需要按核时进行计费。所谓“核时”就是一个 CPU 核运行一个小时,这也是高性能计算中通常使用的资源衡量单位。作为超算中心或者高性能集群,必不可缺的就是集群作业管理系统,它可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。

    01

    使用ApDiag工具进行WinCC脚本诊断

    1使用ApDiag工具进行WinCC脚本诊断概述 WinCC 的C脚本功能非常强大,可以提供较高的自由度。但是,不恰当地组态和使用脚本功能会显著降低系统性能,也可能导致系统崩溃。本文所讨论的脚本问题主要为C脚本的阻塞和挂起问题,即如果在过小的周期内正在运行的动作太多或者动作的执行时间过长(要处理的动作将越聚越多),或者动作已被挂起(休眠、循环、输出对话框、等待另一个应用程序的响应...),则等待队列可能会溢出。所有其它动作均将积聚在等待队列中,不能及时进行处理。 针对以上问题,可以使用 ApDiag 诊断工具进行分析和诊断,ApDiag 工具主要可以提供以下功能:

    02

    超硬核!操作系统学霸笔记,考试复习面试全靠它

    3)引入挂起操作后,进程的状态转换: (1)阻塞态可以通过释放变为就绪态。活动阻塞释放变为活动就绪,静止阻塞释放变为静止就绪。 (2)活动态和静止态可以进行相互转换,活动到静止称为挂起,静止到活动可以称为激活。活动态和静止态最本质的区别为活动态在内存中,静止态暂时调出内存,进入外存 (3由执行态可以直接变为静止就绪态,即时间片用完,直接调离内存 (4)静止态(外存)必须通过激活变为非静止态(调入内存)才能够参与进程的三台转换。 4)进程挂起之后不是原封不动的将进程移出内存,而是会先将一些必要的信息写入外存。再释放PCB

    02
    领券