分析非常长的运行任务

你怎么能够分析一个很长的运行脚本,产生大量的其他进程?

我们有一个需要很长时间才能完成的工作–11小时以上,有时超过17小时,所以它运行在Amazon EC2实例上。

(这是袖扣DNA排列和东西。)

工作正在执行大量的stream程,脚本和实用程序等。

我们怎样才能确定哪一部分工作花费最长的时间?

每个进程每秒简单的CPU利用率可能就足够了。 我们怎样才能得到它?

你的问题有很多解决方案:

  • munin是一个伟大的监控工具,可以扫描系统中的几乎所有东西,并做出好的图表:)。 这是很容易安装和使用它。

  • atop可能是一个简单的解决方案,它可以定期扫描cpu,内存和磁盘,并且可以将所有这些信息存储到文件中( -W选项),然后您必须分析这些文件以检测瓶颈。

  • sar ,它可以扫描系统上的所有内容,但是更难于理解(例如,您必须使用RRDtool自己创建图)