awk +筛选日志文件

我用下面的awk命令来过滤重复的行

例:

cat LogFile | awk '!seen[$0]++' 

问题是,在某些情况下,我们需要过滤重复的行,尽pipe一些领域是不同的,他们并不重要

例如

日志文件:

  [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08 [INFO],[02/Jun/2014-19:31:25],EXE,ds1a,INHT VERION , 1.4.4.3-08 [INFO],[02/Jun/2014-19:32:40],EXE,ds1a,INHT VERION , 1.4.4.3-08 

请看看这个文件–LogFile

我需要从第三个分隔符“ ”删除重复行直到行的结尾,

而不pipe第三个分隔符是什么

所以最后我应该得到这个过滤的文件:(应该总是在列表中的第一个)

  [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08 

所以请帮我完成我的任务

如何从第三个分隔符“ ”过滤LofFile,并忽略这些字段: [INFO],[………..],EXE,

备注 – 植入也可以使用perl单线

用GNU awk for gensub():

 $ awk '!seen[gensub(/([^,]*,){3}/,"","")]++' file [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08 

使用任何支持RE间隔的awk(大多数现代awk):

 $ awk '{key=$0; sub(/([^,]*,){3}/,"",key)} !seen[key]++' file [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08 

使用perl单行:

 perl -lne '$k = s/(.*?,){3}//r; print if !$seen{$k}++' file.log 

输出:

 [INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08 

说明:

开关

  • -l :启用行结束处理。 ( 只有当日志文件的最后一行缺少新行时才需要
  • -n :为输入文件中的每一行创建一个while(<>){..}循环。
  • -e :告诉perl在命令行上执行代码。

代码

  • $k = s/(.*?,){3}//r :保存变量$k第三个逗号后的所有内容
  • print if !$seen{$k}++ :如果之前没有看到钥匙,则打印该行。

使用autosplit的方式稍有不同:

 perl -aF, -ne'print unless $seen{"@F[3..$#F]"}++' logfile.txt 

你可以有:

 awk 'BEGIN{FS=OFS=","}{o=$0;$1=$2=$3=""}!seen[$0]++{print o;}' ...