我怎样才能使用Perl来抓取一个网站,揭示其内容与JavaScript?

我需要编写一个Perl脚本来抓取一个网站。 该网站只能用JavaScript抓取,而用户在Windows上。

我有我的工作机器上,有IE6的Win32 :: IE ::机械化的方式,但后来我转移到我的上网本有IE8,甚至无法获取一个简单的页面。

是Win32 :: IE ::机械化最新版本的IE浏览器?

但是,更重要的是,鉴于最近的WinXP机器,什么是最快,最简单的方法来刮一个网站,只显示其内容通过JavaScript?

WWW :: seleniumium 。

  • 它允许你指定使用哪个浏览器(从一开始就支持IE和Firefox)
  • 它支持通过xpath元素,表ID,文本(正则表达式匹配!)和URL访问元素
  • 它提供了瑞士军刀的用户交互选项,为您提供灵活的模拟最终用户浏览的方式

您需要下载seleniumium Remote Control ,并让它在后台运行,以便模块正常工作。

如果你的页面加载时间是不可预测的,这可能不是一个好的选择。

看看Win32 :: Watir 。 这是一个较新的模块,并明确支持IE 6,7和8。

我没有看到有关WWW :: Mechanize的提及,所以我只是为了完整性而提出来。 硒也变得非常流行,可以在很多测试场景中使用。

WWW :: Scripter和它的:: Plugin :: Javascript可能可以帮助你。