如何启用'wget'来用Javascript下载HTML的全部内容

我有一个网站 ,我想使用Unix wget下载。 如果您查看文件的源代码和内容,则其中包含“摘要”部分。 然而,在发出像这样的wget命令之后:

 wget -O downdloadedtext.txt http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik 

downdloadedtext.txt的内容不完整,与该网站的源代码不同。 例如它不包含摘要部分。 有没有正确的方法来正确地获取全部内容?

我之所以这样问,是因为我想在HTML中自动从不同的值下载。

你需要把链接放在引号内:

  wget -O downdloadedtext.txt 'http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik' 

这是因为&有一个特殊的含义,将命令分成多个命令。

&字符在shell中有特殊的含义。 引用URI,以便您实际请求您要请求的URI。

您可以使用-p (– --page-prerequisites )标志来通知wget检索链接的资源。 从man wget

该选项使Wget下载正确显示给定HTML页面所需的所有文件。 这包括内联图像,声音和引用的样式表等内容。

你也可以看看--follow-tags选项,它可以让你限制这个过程:

Wget有一个HTML标记/属性对的内部表,它在递归检索期间查找链接文档时会考虑它。 但是,如果用户只想要考虑这些标签的子集,则应该使用此选项以逗号分隔列表的形式指定这些标签。