Articles of wget

可以在每个http请求上分配一个新的IP地址?

每当需要使用wget等命令发出http请求时,是否可以为我的服务器更改或分配新的IP地址? 谢谢大家 更新 这个原因正是Tor项目试图实现的目标。 我不想留下什么要求我的服务器的痕迹,我认为经常更改我的IP地址可以帮助我和我的用户使用互联网而不被跟随。 🙂

发送POST请求wget

我正在尝试保存一个具有dopostback链接的CSV文件。 我目前有头和cookies,但没有得到与CSV的CSV文件。 这是标题: http://pregame.com/sportsbook_spy/default.aspx POST /sportsbook_spy/default.aspx HTTP/1.1 Host: pregame.com User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate Referer: http://pregame.com/sportsbook_spy/default.aspx Cookie: Ccd=035ad31fe6ae4ecfa471cb7cb6f3a487b42fd4986df80e1a; Scd=0ad1b088c2c4b0097b3a7d3b32c34ec9d1585fde04336f0b; __utma=258943563.1458961190.1370891037.1370891037.1370970458.2; __utmz=258943563.1370891037.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __atuvc=8%7C24; __utmb=258943563.8.10.1370970458; ASP.NET_SessionId=hzk5pwlo3y3kdwuuybcxoliq; AuthorizationCookie=6688A75D-8B99-4CD2-80C5-595236C99E47; __utmc=258943563 Connection: keep-alive Content-Type: application/x-www-form-urlencoded Content-Length: 1092 __EVENTTARGET=ctl00%24content%24ctl00%24w_9613%24_fffffffff60c1bf9%24ctl00%24lbDownload&__EVENTARGUMENT=&__VIEWSTATE=%2FwEPDwUKMTgwNjUyODkwM2QYAQU%2BY3RsMDAkY29udGVudCRjdGwwMCR3Xzk2MTUkX2ZmZmZmZmZmZjYwYzFiZjkkY3RsMDAkZ3JkQ29tbWVudHMPPCsADAEIAgFk&ctl00%24header%24ctl00%24w_156%24_fffffffff60c1bf9%24ctl00%24Search1%24SearchText=&ctl00_header_ctl00_w_156__fffffffff60c1bf9_ctl00_Search1_filter=&ctl00%24content%24ctl00%24w_9613%24_fffffffff60c1bf9%24ctl00%24txtGameDt=06%2F11%2F2013&ctl00%24content%24ctl00%24w_9613%24_fffffffff60c1bf9%24ctl00%24hdnAllowDownload=1&ctl00%24content%24ctl00%24w_9613%24_fffffffff60c1bf9%24ctl00%24hfSport=all&ctl00%24content%24ctl00%24w_9613%24_fffffffff60c1bf9%24ctl00%24hfCal=0&ctl00%24content%24ctl00%24w_9615%24_fffffffff60c1bf9%24ctl00%24txtComment=&ctl00%24content%24ctl00%24w_9615%24_fffffffff60c1bf9%24ctl00%24hfParentId=0&ctl00%24content%24ctl00%24w_9615%24_fffffffff60c1bf9%24ctl00%24hfReplyId=0&ctl00%24content%24ctl00%24w_9615%24_fffffffff60c1bf9%24ctl00%24hfReportAbuse=0&ctl00%24content%24ctl00%24w_9615%24_fffffffff60c1bf9%24ctl00%24hfIsLoggedIn=0 HTTP/1.1 200 OK Cache-Control: no-cache, no-store Pragma: no-cache Transfer-Encoding: chunked Content-Type: […]

跳过使用Wget成功下载的文件

所以我有这个Bash子例程使用wget下载文件,现在我的问题是如何跳过成功下载的文件。 该脚本下载了大量文件,一旦下载失败,它将重新下载所有文件,从头开始覆盖这些成功的下载(可能由于重新下载而不完整)。 那么如何跳过那些成功下载的文件呢? DownloadFile() { paramURL=$1 paramFilename=$2 if [ $flag_archive_fetch = "false" ]; then wget "–timeout=180" "–tries=5" "$paramURL" "-O" "${scratch_dir}$paramFilename" else unzip -o "$archive_file" "$paramFilename" -d "${scratch_dir}" fi touch "${scratch_dir}$paramFilename" }

如何wget更新的目录文件

我想编写一个bash脚本来下载和安装最新的每日编译程序(RStudio)。 是否有可能让wget只下载目录中的最新文件http://www.rstudio.org/download/daily/desktop/ ?

如何避免使用GNU并行的Bash脚本中的SIGCHLD错误

我正在循环运行script.sh。 该脚本包含一个并行的wget命令。 我收到以下错误: Signal SIGCHLD received, but no signal handler set. 循环如下所示: for i in {1..5}; do /script.sh; done 而导致错误的行看起来像这样(省略选项和设置): cat file.txt | parallel -j15 wget 研究: 我不是GNU并行的专家,但脚本似乎大部分时间工作正常,除非我得到上述错误。 在查看SIGCHLD时,我了解到并行可以创build“僵尸进程”,有时我们需要“收获”这些进程。 此外,我发现你可以杀死进程,因为有时他们可以占用所有可用的连接。 试图理解: 但是,我不知道是什么原因造成的问题。 这是我的平行吗? 我不是“收获”过程吗? 我应该明确杀死进程吗? 是因为我在一个循环中运行一个并行脚本? 我的问题: 我该如何解决SIGCHLD错误? 如果你有这方面的经验,非常感谢你的洞察力。

从github下载tarball而不curl

我有一个embedded式系统,我不能安装任何东西,唯一的工具,我可能用来获取的东西是wget。 事实certificate,你不能用wget做同样的事情,你可以用curl来做。 我也不能交叉编译这个系统,所以我需要求助于Python或shell脚本。 有一个名为Dulwich的git的纯Python实现实际上有一些我需要交叉编译的C代码…所以我甚至用这个方法来看看这个,FYI。 我需要的是从github仓库获取代码,显而易见的解决scheme是使用他们提供的tarball。 我通常复制链接从存储库页面下载zipbutton,并使用授权令牌,而不是用户名和密码。 它的工作原理很简单,就像这样: curl -L https://<token>@github.com/<org|user>/<repo>/archive/master.tar.gz | tar xz 事实certificate,wget是更尴尬,无论我尝试只是工作。

wget:不要遵循redirect

如何防止wget跟踪redirect?

如何使用curl或wget将文件下载到目录中?

我知道我可以使用以下2个命令来下载文件: curl -O example.com/file.zip wget example.com/file.zip 但我希望他们进入一个特定的目录。 所以我可以做到以下几点: curl -o mydir/file.zip example.com/file.zip wget -O mydir/file.zip example.com/file.zip 有没有办法不必指定文件名? 像这样的东西: curl -dir mydir example.com/file.zip

在Linux服务器上保存完整网页的最佳方法是什么?

我需要在我的Linux服务器上存档完整的页面,包括任何链接的图像等。 寻找最佳解决scheme。 有没有办法保存所有的资产,然后重新链接所有的工作在同一个目录? 我想过使用curl,但我不确定如何做到这一切。 另外,我可能需要PHP的DOM? 有没有办法在服务器上使用Firefox,并在地址加载或类似之后复制临时文件? 任何和所有的input欢迎。 编辑: 看起来好像wget是'不'工作的文件需要被渲染。 我有服务器上安装的Firefox,有没有办法加载在Firefox中的URL,然后抓住临时文件,并清除后的临时文件?

无法通过variables内部的引号传递wgetvariables

我想编写一个wget命令来下载一个网页,所有的附件和jpeg等 当我手动input脚本的时候,它是有效的,但是我需要运行这个35000次来存档一个不受我控制(国际公司政治,但我是数据所有者)的旧网站。 我的问题一直在变化会话参数。 我的脚本到目前为止如下: cnt=35209 # initialise the headers general_settings='-4 -P xyz –restrict-file-names=windows -nc –limit-rate=250k' html_page_specific='–convert-links –html-extension' proxy='–proxy-user=xxxxxx –proxy-password=yyyyyyy' session="–header=\'Host: mywebsite.com:9090\' –header=\'User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:20.0) Gecko/20100101 Firefox/20.0\'" address=http://mywebsite.com:9090/browse/item-$cnt echo $general_settings $proxy $session $cookie $address echo echo echo Getting item-$cnt… #while [ $cnt -gt 0 ] #do # # get the page wget –debug […]