我经常在几个不同的集群上运行作业,并希望使用一个小的bash脚本检查SLURM和SGE作业的状态。 对于大多数集群,我都可以这样做 printf "\n Jobs on Cluster X \n \n"
ssh user@clusterXname bash -c "'
squeue -u user
exit
'"
printf "\n" 这给了我一个类似这样的输出。 AXON上的作业 JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASO
我在研究分布式Tensorflow。
# Create and start a server for the local task.
server = tf.train.Server(cluster,
job_name=FLAGS.job_name,
task_index=FLAGS.task_index)
if FLAGS.job_name == "ps":
server.join()
当我只启动一台ps服务器时。我看到它使用了所有的GPU和所有的GPU内存。
(我的环境:2个特斯拉K80 GPU)
+------------------