HTML下载和文本提取

什么是一个好的工具或工具集,下载一个URL列表,只提取文本内容? 蜘蛛不是必需的,但是可以控制下载的文件名,而线程是一个奖金。

该平台是Linux。

Solutions Collecting From Web of "HTML下载和文本提取"

wget | html2ascii

注意:html2ascii也可以被称为html2ahtml2text (我无法在网上找到适当的手册页)。

另见: lynx

Python 美丽的汤可以让你建立一个不错的提取器。

我知道w3m可以用来渲染一个html文档,并将文本内容放在一个文本文件中,例如www.google.com> file.txt。

剩下的,我确定可以使用wget。

在Sourceforge上查找适用于PHP的Simple HTML DOM解析器。 用它来解析你用CURL下载的HTML。 每个DOM元素将有一个“纯文本”属性,应该只给你的文字。 我在使用这种组合的很多应用程序中相当成功。

PERL(实用提取和报告语言)是一种非常适合这种工作的脚本语言。 http://search.cpan.org/包含具有所需功能的模块的分配。

使用wget下载所需的html,然后在输出文件上运行html2text。