HTML下载和文本提取

什么是一个好的工具或工具集，下载一个URL列表，只提取文本内容？蜘蛛不是必需的，但是可以控制下载的文件名，而线程是一个奖金。

该平台是Linux。

wget | html2ascii

注意：html2ascii也可以被称为html2a或html2text （我无法在网上找到适当的手册页）。

另见： lynx 。

Python 美丽的汤可以让你建立一个不错的提取器。

我知道w3m可以用来渲染一个html文档，并将文本内容放在一个文本文件中，例如www.google.com> file.txt。

剩下的，我确定可以使用wget。

在Sourceforge上查找适用于PHP的Simple HTML DOM解析器。用它来解析你用CURL下载的HTML。每个DOM元素将有一个“纯文本”属性，应该只给你的文字。我在使用这种组合的很多应用程序中相当成功。

PERL（实用提取和报告语言）是一种非常适合这种工作的脚本语言。 http://search.cpan.org/包含具有所需功能的模块的分配。

使用wget下载所需的html，然后在输出文件上运行html2text。