bash脚本:网站中出现的单词

我需要制作一个脚本来统计网页上出现的单词

我在做什么是计算随机IP(避免检查相同ips不止一次),使用nmap来查看端口80是否是开放的,知道它是否是一个Web服务器,然后我使用W3M将HTTP页面作为文件。 计算单词出现之后很容易

我有几个问题和问题

  • 这个过程需要很多,但我想不出有什么方法可以让它更快
  • 许多端口80打开的ips不是网站,他们不起来,他们可能有一些问题,有没有办法只检查网站已经启动?
  • 这种方法只检查一个网站的索引页中的单词出现,有没有办法检查其他公共页面?

非常感谢

我用awk做类似的事情。 Awk对文本解析非常棒。 我所做的是分析在Apache日志中完成每个IP地址的HTTP GET数量。 所以像你这样的机器人可以很容易地出现在我的统计数据中:P使用awk,我超越了所有同事在PHP,Ruby和bash脚本中所做的所有解决方案。

问题是你没有生成统计每个文件(或页面)。 你正在总结所有的结果吧? 所以我会使用SQLite来跟踪一个单词在所有扫描文本中出现的次数。 使用shell脚本在SQLite中添加数据是很容易的(也是很快的)。

此外,您应该使用wget – spider或其他蜘蛛HTTP客户端,因为他们不仅会从索引页面下载内容,而且还会从第一页中的所有具有链接(HREF)的页面下载内容。 所以你可以递归地扫描一个网站。