我正尝试使用wget工具下载网站的内容。 我用-R选项来拒绝一些文件types。 但还有一些我不想下载的文件。 这些文件命名如下,没有任何扩展名。
string-ID
例如:
newsbrief-02
我怎么能告诉wget不要下载这些文件(他们的名字以指定的string开头的文件)?
您不能在wget -R
键中指定正则表达式,但可以指定一个模板(如在shell中的文件模板)。
答案是这样的:
$ wget -R 'newsbrief-*' ...
你也可以用?
和符号类[]
。
欲了解更多信息,请参阅信息wget 。
由于(显然)v1.14 wget
接受正则表达式:– --reject-regex
和--accept-regex
(缺省时为--regex-type posix
,如果使用libpcre
支持编译,可以设置为pcre
)。
注意看来你可以使用--reject-regex
每个wget
调用一次。 也就是说,你必须使用|
在一个正则表达式,如果你想选择几个正则表达式:
wget --reject-regex 'expr1|expr2|…' http://example.com