sorting需要2小时的stream浪汉 – 约100米线

我可以做什么来优化这种types?

我在跑步:

mytime="$(time ( cat quotes_2009-04.txt | tr [:space:] '\n' | grep -v "^\s*$" | sort | uniq -c ) 2>&1 1>/dev/null )" 

接着:

 echo "$mytime" 

得到以下输出:

 real 134m0.107s user 105m27.274s sys 42m34.889s 

这里是我正在使用的数据集:

在这里输入图像描述

原始数据集的预览:

在这里输入图像描述

这里是stream浪机上的细节:

在这里输入图像描述

我能做些什么来优化这种types?

将您的数据分成几个文件,并行排序每个文件,然后合并文件。 看这里例如。