腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Slurm
中
按
JOBID
排序
作业
在
Slurm
中
,我希望通过按照用户的
JOBID
升序
排序
来squeue给定用户的
作业
。我试过了但它不起作用。你有什么想法吗?
浏览 3
提问于2017-03-14
得票数 5
回答已采纳
2
回答
如何更新
Slurm
中
的
作业
节点号?
、
我试过:它不起作用。 注意:我可以使用scontrol更改墙壁时间。但是,当我试图更改节点数时,它失败了。
浏览 0
提问于2018-03-21
得票数 2
回答已采纳
4
回答
Slurm
作业
,知道它在哪个节点上
、
在
bash/
slurm
中
是否有一种方法可以让脚本知道它运行在哪个节点上?sstat是这样做的,但是我需要知道我的工作id是什么,脚本似乎也不知道这个id(或者至少我还没有找到它)。
浏览 7
提问于2017-05-12
得票数 4
回答已采纳
1
回答
出错时自动重新运行使用sbatch --array提交的
作业
、
我正在以数组的形式提交
作业
。有时,一个
作业
会因为难以诊断的gpu内存问题而出错。只需重新运行
作业
即可获得成功。 我想要做的是捕获这个错误,记录它,并将
作业
放回
slurm
的队列
中
重新运行。如果数组
作业
不能做到这一点,那也没关系,使用数组并不是必须的(尽管这是首选)。我尝试过使用sbatch --rerun,但这似乎不能满足我的需要(我认为这个选项用于
在
slurm
检测到硬件错误后重新运行,或者
在
作业
运行
浏览 40
提问于2019-04-25
得票数 1
回答已采纳
1
回答
如何将
SLURM
作为输入参数传递给python?
、
、
我是用
SLURM
训练一批卷积神经网络的新手。为了跟踪所有训练好的CNN,我想把
SLURM
jobID
作为输入参数传递给python。将其他变量作为参数传递很好。但是,我无法访问
SLURM
作业
人员的身份。以下是我的最新代码: #!echo &q
浏览 1
提问于2019-08-10
得票数 2
回答已采纳
1
回答
使用scontrol更新的
SLURM
释放资源会导致未知的结束时间。
、
我有一个程序,它将在
作业
执行期间动态释放资源,使用以下命令:然而,这有时会导致一些非常奇怪的行为。
作业
重新排队的地方。sacct -j 14485901448590.01448590 2调整大小01:06:42 1:12:42 0827,tnxt-0663 1448
浏览 1
提问于2018-12-05
得票数 0
2
回答
SLURM
:保存
作业
脚本
、
在
SLURM
中
,我可以很容易地指定用于
在
作业
脚本
中
登录的文件:#SBATCH --error=logs/error-%j我怎么能做到这一点?(主要的困难似乎是获取%j)。
浏览 3
提问于2017-07-30
得票数 0
1
回答
如何将
slurm
变量打印到标准
slurm
输出?
、
、
我希望将以下变量打印到
Slurm
生成的标准输出文件
slurm
-XXXXX.out
中
。现在,我正在为每个
作业
生成一个单独的.info文件。echo "
SLURM
Job ID : ${
SLURM
_JOB_ID}" >> $
SLURM
_SUBMIT_DIR/$jobName.$
JOBID
.info echo "
SLURM
Job name : ${
SLUR
浏览 0
提问于2021-01-27
得票数 0
回答已采纳
3
回答
如何更新
作业
以允许我
在
作业
运行完成后收到电子邮件(
slurm
)
、
、
、
我
在
一个计算集群上提交了几个
作业
,但是没有设置--mail-user。我现在可以更新规格吗?希望
在
作业
运行完成后收到电子邮件。非常感谢!
浏览 1
提问于2016-07-02
得票数 2
1
回答
如何通过依赖于
作业
列表的sbatch提交
SLURM
作业
、
、
我有一个shell脚本,它向
SLURM
提交多个
作业
。这些
作业
是
在
以下循环中提交的:slurmids=() # storage of
slurm
job ids for k in $(seq 1 $nb_partitions除了提交
作业
外,此循环还创建数组slurmids,该数组包含所有
SLURM
作业
的
作业
ids列表。现在,我有另一个
SLURM
作业
,我想提交给sba
浏览 2
提问于2021-07-01
得票数 1
回答已采纳
2
回答
在
并行处理
中
更改$TMPDIR
、
、
我
在
一个高性能计算系统上运行了一个批处理
作业
来对对齐读取进行
排序
,并使用GNU并行来加快我的工作速度,但是我的工作失败了,原因如下: module load samtools/1.2 ls *
浏览 1
提问于2015-07-30
得票数 3
1
回答
ArangoDB
在
SlurmS批处理提交后保持沉默
、
我试图
在
超级计算机上以集群模式运行ArangoDB .它在登录节点上运行。我遵循以下说明:我试图使用以下链接更改日志设置:,如果我将日志输入到"info“,那么我将一无所获。正如我所说:
在
登录节点上,所有这些都可以工作。我怀疑问题可能是斯隆和阿兰神的互动
浏览 1
提问于2018-06-19
得票数 0
1
回答
如何找到与批处理
作业
相关的流程?
、
、
当我
在
多节点系统上使用sbatch启动
作业
时,会在涉及的节点上启动一些进程。 如何找到由于sbatch运行而在这些节点上运行的进程(进程ID)?我检查了
slurm
文档,但没有找到任何显示涉及的进程的命令(例如scontrol或sstat)。
浏览 4
提问于2020-04-09
得票数 4
回答已采纳
1
回答
在
SLURM
之外使用srun
、
我有一个通常在
SLURM
下运行的代码。就像这样 if !srun <srun params> lengthy_command echo "Error occured" fi 但更改该行后,脚本将不再在交互式会话
中
运行(
在
SLURM
之外)。我
在
srun文档中看不到任何指向这个方向的东西。
浏览 26
提问于2019-01-15
得票数 3
回答已采纳
1
回答
列出
作业
的挂起步骤
Granted job allocation 1720for i in (seq 70)end1720.0 sleep RUNNING1720.63 sleep RUNNING 我的问题是,步骤的状态与像
作业
浏览 3
提问于2017-08-02
得票数 1
回答已采纳
1
回答
SLURM
:从脚本访问壁时间限制
、
可以从
SLURM
脚本
中
访问壁时间限制吗?对于PBS扭矩,这个问题已经得到了的回答。
SLURM
是否有类似的环境值?
浏览 6
提问于2017-05-23
得票数 3
回答已采纳
1
回答
使用批处理脚本提交
作业
Slurm
、
、
、
我试图通过
SLURM
提交
作业
,但通过S批处理包含
SLURM
命令,因此使用了批处理脚本。我创建的脚本确实提交了
slurm
作业
,但也包含了其他我不确定它们来自何处的
作业
(见下文);特别是
作业
中
的.bat和.ext。任何关于正在发生的事情的洞察力都将受到赞赏。mem=2G#SBATCH --mail-type=ALL# echo &
浏览 1
提问于2021-05-11
得票数 0
1
回答
SLURM
是否可以
在
完成任何
作业
时触发脚本(由前端-
SLURM
用户实现)?
正如我们所知,
SLURM
可以
在
工作完成后发送电子邮件。当任何
作业
完成时,
SLURM
能触发脚本(由前端-
SLURM
用户实现)吗?示例解决方案:这将迫使我让while()检查并等待提交的
作业
已经完成。这可能会占用额外的CPU使用量。
jobID
=$(sbatch -U user -N1 run.sh | cut -d " " -f4-); job_state=$(sacct -j $
jobID
浏览 4
提问于2017-04-17
得票数 3
回答已采纳
1
回答
slurm
: DependencyNeverSatisfied错误,即使
在
崩溃的
作业
重新排队之后。
我的目标是使用
slurm
依赖关系构建一个管道,并处理
slurm
作业
崩溃的情况。 基于下面的和第29节,建议使用scontrol requeue $
jobID
,这将重新排队已经取消的
作业
。如果可以从提交脚本
中
检测到
作业
崩溃,并且崩溃是随机的,那么您可以简单地使用scontrol requeue $
SLURM
_JOB_ID请求
作业
,以便它再次运行。
在
我重新排队一个被取消的
作业
后,它的依赖
作业</
浏览 0
提问于2018-05-13
得票数 5
回答已采纳
1
回答
slurm
停止
作业
的访问原因
有没有办法找出
slurm
取消
作业
的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。如果达到了资源限制,我也想知道是哪一个。
浏览 12
提问于2017-07-28
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券