如何刮去网站上的所有内容?

我开发的网站,有时客户已经有网站,但需要他们完全改造,但大部分内容和图像需要保持不变。 我正在寻找软件,即使它的成本或是一个桌面应用程序,可以很容易地让我input一个URL,并将所有内容刮到本地机器上的指定文件夹。 任何帮助将非常感激。

htttrack将为你工作得很好。 这是一个离线浏览器,将拉下网站。 您可以根据需要进行配置。 这不会明显拉下PHP,因为PHP是服务器端代码。 唯一可以拉下来的是html和javascript以及任何推送到浏览器的图像。

file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com')); 

节省你的钱慈善。

内容是指整个页面的内容,因为你可以“保存为…”整个页面与大多数包括媒体。

Firefox中,在工具 – >页面信息 – >媒体中,包含您可以下载的页面上的每个媒体列表。

不要为这样的事情而烦恼PHP。 你可以使用wget轻松地抓取整个网站。 但是,请注意,它不会解析CSS这样的东西,所以它不会抓取任何通过(比如说) background-image: URL('/images/pic.jpg')引用的文件,但会阻碍大部分别的你。

这个类可以帮你抓取内容: http : //simplehtmldom.sourceforge.net/

你可以通过保存浏览器的选项来实现这一点去文件 – >保存页面在Firefox中,所有的图像和JS将被保存在一个文件夹

几年前我开始使用HTTrack ,我很高兴。 它似乎是为了得到我自己看不到的页面。

您可以通过http://scrapy.org网站抓取网站并获取您想要的内容。

Scrapy是一个快速的高级屏幕抓取和网页爬行框架,用于抓取网站并从其页面中提取结构化数据。 它可以用于广泛的用途,从数据挖掘到监视和自动化测试。