我开发的网站,有时客户已经有网站,但需要他们完全改造,但大部分内容和图像需要保持不变。 我正在寻找软件,即使它的成本或是一个桌面应用程序,可以很容易地让我input一个URL,并将所有内容刮到本地机器上的指定文件夹。 任何帮助将非常感激。
htttrack将为你工作得很好。 这是一个离线浏览器,将拉下网站。 您可以根据需要进行配置。 这不会明显拉下PHP,因为PHP是服务器端代码。 唯一可以拉下来的是html和javascript以及任何推送到浏览器的图像。
file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com'));
节省你的钱慈善。
内容是指整个页面的内容,因为你可以“保存为…”整个页面与大多数包括媒体。
Firefox中,在工具 – >页面信息 – >媒体中,包含您可以下载的页面上的每个媒体列表。
不要为这样的事情而烦恼PHP。 你可以使用wget
轻松地抓取整个网站。 但是,请注意,它不会解析CSS这样的东西,所以它不会抓取任何通过(比如说) background-image: URL('/images/pic.jpg')
引用的文件,但会阻碍大部分别的你。
这个类可以帮你抓取内容: http : //simplehtmldom.sourceforge.net/
你可以通过保存浏览器的选项来实现这一点去文件 – >保存页面在Firefox中,所有的图像和JS将被保存在一个文件夹
几年前我开始使用HTTrack ,我很高兴。 它似乎是为了得到我自己看不到的页面。
您可以通过http://scrapy.org网站抓取网站并获取您想要的内容。
Scrapy是一个快速的高级屏幕抓取和网页爬行框架,用于抓取网站并从其页面中提取结构化数据。 它可以用于广泛的用途,从数据挖掘到监视和自动化测试。