什么是一个好的工具或工具集,下载一个URL列表,只提取文本内容? 蜘蛛不是必需的,但是可以控制下载的文件名,而线程是一个奖金。
该平台是Linux。
wget
|
html2ascii
注意:html2ascii也可以被称为html2a
或html2text
(我无法在网上找到适当的手册页)。
另见: lynx
。
Python 美丽的汤可以让你建立一个不错的提取器。
我知道w3m可以用来渲染一个html文档,并将文本内容放在一个文本文件中,例如www.google.com> file.txt。
剩下的,我确定可以使用wget。
在Sourceforge上查找适用于PHP的Simple HTML DOM解析器。 用它来解析你用CURL下载的HTML。 每个DOM元素将有一个“纯文本”属性,应该只给你的文字。 我在使用这种组合的很多应用程序中相当成功。
PERL(实用提取和报告语言)是一种非常适合这种工作的脚本语言。 http://search.cpan.org/包含具有所需功能的模块的分配。
使用wget下载所需的html,然后在输出文件上运行html2text。