我想查看我最近在集群上运行的所有作业(完成,失败和正在运行)。 我还想看到每个作业1入口。 执行sacct
每个工作与State: FAILED, FAILED, COMPLETED
重做3线State: FAILED, FAILED, COMPLETED
。 这是什么意思,我如何查看我想看到的实际信息?
我不明白真实的JobName
是什么意思。
这是一个输出的副本:
JobID JobName Partition Account AllocCPUS State ExitCode ------------ ---------- ---------- ---------- ---------- ---------- -------- 2160852 R interact cluster_u+ 2 COMPLETED 0:0 2160864 R interact cluster_u+ 2 COMPLETED 0:0 2161424 R interact cluster_u+ 2 COMPLETED 0:0 2161430 R interact cluster_u+ 0 CANCELLED+ 0:0 2161431 R interact cluster_u+ 2 COMPLETED 0:0 2161668 R interact cluster_u+ 2 COMPLETED 0:9 2161682 myjob+ general cluster_u+ 2 FAILED 1:0 2161682.bat+ batch cluster_u+ 1 FAILED 1:0 2161682.0 true cluster_u+ 1 COMPLETED 0:0 2161683 myjob+ general cluster_u+ 2 FAILED 1:0 2161683.bat+ batch cluster_u+ 1 FAILED 1:0 2161683.0 true cluster_u+ 1 COMPLETED 0:0
提交脚本(注意<%%>中的值由R中的包BatchJobs处理):
#!/bin/bash #SBATCH -J <%= job.name %> # name of the job #SBATCH -p general #SBATCH --mem <%= resources$memory %> # Memory requirements in Kbytes #SBATCH -o ./logs/<%= job.name %>_log.txt # Memory requirements in Kbytes eval "R --vanilla --slave < <%= rscript %>"
sacct会在每个作业打印一行,然后在该作业中每个作业一行打印一行。
2161683 myjob+ general cluster_u+ 2 FAILED 1:0 <- the job 2161683.bat+ batch cluster_u+ 1 FAILED 1:0 <- the batch script 2161683.0 true cluster_u+ 1 COMPLETED 0:0 <- the R step
作业状态失败,因为脚本本身状态失败。 您的脚本中有一个工作步骤,并且正确终止。
我经常诉诸sacct |grep -v "^[0-9]*\."
只能得到工作信息。