在1个文件中查找最常出现的重复string

序言:我们被赋予尽可能快的实施脑袋翻译的任务。 为了尽可能快地使这个解释器,我们想要做一些brainfuck指令,如[ – <+>]原生于我们的翻译。 我们想用更多的指令来做到这一点,所以我们想知道我们应该执行哪些指令。

我们发现了很多关于比较两个独立文件的信息,但是有什么方法可以在文件中find重复出现的string吗? 例如:

文件:

Hi, this is my text also, it is an example of my question 

返回:

 2 x ' is ' 2 x ' my ' 2 x ', ' 

你知道Windows或Linux中的任何程序可以执行此操作吗?

使用sh,coreutils / sort和awk:

 awk 'BEGIN { FS="[,. ;!?]" } { for (i=1; i<=NF;i++) { A[$i]++ } } END { for (a in A) { print A[a], a } }' | sort -k1 -n -r 

您可以在FS变量中自定义分隔符。