腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3873)
视频
沙龙
2
回答
解决SLURM“s
批处理
:
错误
:批
作业
提交
失败
:
请求
的
节点
配置
不可用
”
错误
、
、
我们有一个4 GPU
节点
,有2 36核心CPU和200 GB内存可用在我们
的
本地集群。当我试图
提交
一个具有折叠
配置
的
作业
时:#
SBATCH
--ntasks=40#
SBATCH
--mem-per-cpu=1500MB#
SBATCH
--time=
浏览 0
提问于2019-03-21
得票数 8
回答已采纳
1
回答
使用slurm调度程序在多个
节点
上运行MPI
作业
、
、
、
我试图使用特定
的
任务/
节点
配置
运行MPI应用程序。我需要总共运行8个MPI任务,其中4个在一个
节点
上,4个在另一个
节点
上。#!/bin/bash#
SBATCH
--nodes=2#
SBATCH
--ntasks-per-node=4 #
SBATCH
--bi
浏览 6
提问于2020-06-08
得票数 0
1
回答
批量
作业
提交
失败
:
请求
的
节点
配置
不可用
我正在尝试
提交
此
作业
:
sbatch
--gres=gpu:v100:1 -p defq -J convolutional-mnist /cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm
sbatch
:
错误
:
批处理
作业
提交
失败
:
请求
的
节点
配置
<
浏览 34
提问于2019-01-23
得票数 0
1
回答
SLURM
错误
:s
批处理
:
错误
:批
作业
提交
失败
:
请求
的
节点
配置
不可用
集群硬件由30个
节点
组成,每个
节点
都有以下规格:两个套接字(IntelXeone5-2650 v2)
的
16个核(启用多线程
的
32个核) 64 GByte 1866 MT/s主存,名为: aria。slurm
配置
文件如下所示:#
SBATCH
--cpus-per-task=#
SBATCH
--ntasks-per-nod
浏览 1
提问于2019-09-17
得票数 0
1
回答
Slurm :即使资源可用,也不能分配资源
/a.out但是,我确实看到一些
节点
满足上述
配置
。两个
节点
的
scontrol输出如下所示: NodeName=compute140 Arch=x86_64 CoresP
浏览 2
提问于2018-06-10
得票数 4
回答已采纳
1
回答
sbatch
:
错误
:
批处理
作业
提交
失败
:
请求
的
节点
配置
不可用
、
、
、
、
问题与分配给
作业
的
CPU数量无关。在这个问题之前,我有一个关于Nvidia驱动程序
配置
的
错误
,在通过运行'NVIDIA-Linux-x86_64-410.79.run --no-drm‘解决这个
错误
后,我无法通过'nvidia-smi’非常感谢您
的
帮助!PS在第一个问题之前,我可以流畅地运行类似的
作业
command:
sbatch
md.s
sbatch
: error: Batch job su
浏览 1721
提问于2020-09-25
得票数 0
回答已采纳
1
回答
S
批处理
将计算
节点
发送到“耗尽”状态。
、
在我们
的
小型集群中新安装和
配置
的
计算
节点
上,我无法使用
批处理
脚本和“
sbatch
”命令
提交
slurm
作业
。
提交
后,
请求
的
节点
将更改为“耗尽”状态。但是,我可以使用'srun‘交互地运行相同
的
命令。作品: srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo
浏览 0
提问于2019-03-22
得票数 1
回答已采纳
1
回答
如何在Slurm
错误
中查找哪个
节点
名称无效:“s
批处理
:
错误
:批
作业
提交
失败
:指定
的
无效
节点
名称”
、
对于这个bash脚本,我得到了这个
错误
“s
批处理
:
错误
:批
作业
提交
失败
:指定
的
无效
节点
名”#
SBATCH
--gpus=1#
SBATCH
-A overcap#
SBATCH
--time=10:00 #
SBATCH
浏览 0
提问于2022-09-20
得票数 0
1
回答
更改外部SLURM变量
的
值
我正在运行一个bash脚本,使用SLURM在Linux集群上运行
作业
。脚本
的
相关部分如下所示(slurm.sh):#
SBATCH
-p parallel#
SBATCH
--exclusive#
SBATCH
-e err.log#
SBATCH
--open-mode=append #
SBATCH
--cpus-
浏览 2
提问于2014-05-30
得票数 0
1
回答
在同一个slurm工人上并行运行多个
作业
我们
的
SLURM集群中有一些相当胖
的
节点
(例如,14个核心)。我试图将其
配置
为可以并行运行多个
批处理
作业
,例如,每个
请求
3个核心。但是,我不能让它起作用。#!/bin/bash#
SBATCH
--job-name=job1##
SBATCH
浏览 0
提问于2017-06-12
得票数 2
2
回答
使用
批处理
写入文件
、
我是slurm
的
新手,我正在尝试对shell脚本进行
批处理
,以便写入文本文件。我
的
shell脚本(标题为"troublesome.sh")如下所示:#
SBATCH
-N 1 echo "It worked!"如预期
的
那样传送到doeswork.txt。但是,当我运行
sbatch
troublesome.sh > doesnotwork.txt时,生成<
浏览 4
提问于2020-06-24
得票数 0
3
回答
Slurm不能运行多个
sbatch
任务
、
我已经在2
节点
集群上安装了Slurm。两个
节点
都是计算
节点
,其中一个也是控制器。我能够一次成功地运行多个
作业
的
srun。我正在运行GPU
作业
,并已确认可以使用srun在多个GPU上运行多个
作业
,最多可达系统中
的
GPU数量。但是,当我尝试使用相同
的
测试文件运行
sbatch
时,它将只运行一个
批处理
作业
,并且只在同时也是控制器
的
计算
节点
上运行。其他<e
浏览 79
提问于2019-02-14
得票数 0
1
回答
Slurm:如何重新启动
失败
的
工人
作业
、
、
如果在slurm集群上运行数组
作业
,如何重新启动
失败
的
工人
作业
? 在Sun引擎队列中,可以将#$ -r y添加到
作业
文件中,以指示如果
作业
失败
,应该重新启动
作业
--此标志
的
Slurm等效于什么?
浏览 2
提问于2018-06-02
得票数 1
回答已采纳
1
回答
如何使用SLURM限制在同一
节点
上运行
的
作业
数?
我有一个由100个
作业
组成
的
作业
数组。我希望最多可以将
作业
数组中
的
2个
作业
分配给同一个
节点
。我怎么能用SLURM做这件事?谢谢!
浏览 4
提问于2017-11-19
得票数 3
回答已采纳
1
回答
Slurm开始了比我要求
的
更多
的
工作
、
、
、
、
我使用slurm、OpenMPI和python (带MKL
的
anaconda)在多
节点
集群上运行
作业
。当我
提交
作业
时,一切似乎都像预期
的
那样工作。但是,如果我登录到运行该
作业
的
一个
节点
,并使用htop查看正在运行
的
进程,我会看到我启动
的
作业
,并且对于每个
作业
,我会看到另外10个“克隆”进程,它们占用与我启动
的
作业
相同
的<
浏览 3
提问于2016-01-06
得票数 0
2
回答
SLURM‘`srun`’vs‘`
sbatch
`’及其参数
、
、
、
、
根据
的
说法,srun是用来
提交
作业
的
,
sbatch
是用来
提交
作业
供以后执行
的
,但是实际
的
差别对我来说并不清楚,他们
的
行为似乎是一样
的
。例如,我有一个有两个
节点
的
集群,每个
节点
都有两个CPU。如果我连续执行srun testjob.sh & 5x,它将很好地排队等待第五个
作业
,直到CPU可用为止,执行
sbatch<
浏览 21
提问于2017-05-03
得票数 148
回答已采纳
1
回答
如何让slurm为每个
节点
分配一个任务?
我正在运行大约400个文件通过SLURM管道与
批处理
。当我用
sbatch
./myscript.sh file_x对一个任务排队时,所有的文件都会排队到同一个
节点
。我在S
批处理
脚本
的
开头尝试了一个#
SBATCH
参数
的
变体,但没有成功。到目前为止,我尝试过
的
是: -n,-ntasks= batch不启动任务,它
请求
资源分配并
浏览 0
提问于2019-07-10
得票数 2
回答已采纳
1
回答
创建低优先级slurm
作业
,如果
提交
了另一个
作业
,则该
作业
将挂起或
请求
、
我目前正在我
的
学校运行一个包含20个计算
节点
的
HPC
作业
。我想以一种很好
的
方式使用所有这些,这样如果另一个学生需要一个计算
节点
,我
的
作业
就会暂停/暂停,然后在资源再次可用时被
请求
。我
的
想法是
提交
10个
作业
,每个
作业
使用两个
节点
,如下所示:#
SBATCH
--job-name
浏览 4
提问于2022-02-21
得票数 1
1
回答
Slurm:是否可以通过
批处理
来给出或更改
提交
作业
的
pid
、
当我们通过
sbatch
提交
作业
时,通过增量命令
提交
作业
的
pid值。根据我
的
观察,这个命令再次从1开始。
sbatch
-N1 run.sh//目标是在可能
的
情况下更改
提交
的
批处理
作业
的
id。 例如,Q1在slurm下有一个正在运行
的
作业
。当我们
浏览 3
提问于2017-04-10
得票数 0
回答已采纳
1
回答
TensorFlow与Slurm交互会话一起工作,但不使用Slurm
作业
、
我正在尝试在Slurm集群
的
GPU上运行一些TensorFlow/Jax代码。当我
请求
一个交互式GPU会话并运行我
的
代码时,一切都很完美。但是当我
提交
我
的
Slurm工作时,我会收到一个经典
的
failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detectedTensorFlow
错误
。我怀疑这是个贫民窟
的
问题,但我不确定。有人知道
错误
<e
浏览 4
提问于2020-12-28
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java Batch in CICS series:Java 批处理教程
Elasticsearch性能监控(二)
如何在Redhat7.3的CDH5.14中启用Kerberos
MapReduce之任务执行与作业调度
redis集群配置及python操作
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券