在SLURM中的工作状态

我想查看我最近在集群上运行的所有作业(完成,失败和正在运行)。 我还想看到每个作业1入口。 执行sacct每个工作与State: FAILED, FAILED, COMPLETED重做3线State: FAILED, FAILED, COMPLETED 。 这是什么意思,我如何查看我想看到的实际信息?

我不明白真实的JobName是什么意思。

这是一个输出的副本:

  JobID JobName Partition Account AllocCPUS State ExitCode ------------ ---------- ---------- ---------- ---------- ---------- -------- 2160852 R interact cluster_u+ 2 COMPLETED 0:0 2160864 R interact cluster_u+ 2 COMPLETED 0:0 2161424 R interact cluster_u+ 2 COMPLETED 0:0 2161430 R interact cluster_u+ 0 CANCELLED+ 0:0 2161431 R interact cluster_u+ 2 COMPLETED 0:0 2161668 R interact cluster_u+ 2 COMPLETED 0:9 2161682 myjob+ general cluster_u+ 2 FAILED 1:0 2161682.bat+ batch cluster_u+ 1 FAILED 1:0 2161682.0 true cluster_u+ 1 COMPLETED 0:0 2161683 myjob+ general cluster_u+ 2 FAILED 1:0 2161683.bat+ batch cluster_u+ 1 FAILED 1:0 2161683.0 true cluster_u+ 1 COMPLETED 0:0 

提交脚本(注意<%%>中的值由R中的包BatchJobs处理):

  #!/bin/bash #SBATCH -J <%= job.name %> # name of the job #SBATCH -p general #SBATCH --mem <%= resources$memory %> # Memory requirements in Kbytes #SBATCH -o ./logs/<%= job.name %>_log.txt # Memory requirements in Kbytes eval "R --vanilla --slave < <%= rscript %>" 

sacct会在每个作业打印一行,然后在该作业中每个作业一行打印一行。

  2161683 myjob+ general cluster_u+ 2 FAILED 1:0 <- the job 2161683.bat+ batch cluster_u+ 1 FAILED 1:0 <- the batch script 2161683.0 true cluster_u+ 1 COMPLETED 0:0 <- the R step 

作业状态失败,因为脚本本身状态失败。 您的脚本中有一个工作步骤,并且正确终止。

我经常诉诸sacct |grep -v "^[0-9]*\." 只能得到工作信息。