如何使用curl下载youtube-8m数据集

Youtube-8m下载网页提供以下curl说明:

mkdir -p ~/data/yt8m_video_level; cd ~/data/yt8m_video_level curl data.yt8m.org/download.py | partition=1/video_level/train mirror=us python curl data.yt8m.org/download.py | partition=1/video_level/validate mirror=us python curl data.yt8m.org/download.py | partition=1/video_level/test mirror=us python 

我已经创build了目录,现在正在尝试下载培训数据。

当我执行时:

 curl data.yt8m.org/download.py | partition=1/video_level/train mirror=us python 

我收到以下错误信息:

“分区”不被识别为内部或外部命令,可操作程序或batch file。

如果我用脱字符逃脱| 像这样:

 curl data.yt8m.org/download.py ^| partition=1/video_level/train mirror=us python 

然后,命令提示符将打印http://data.yt8m.org/download.py的后续内容:

curl:(6)无法parsing主机:|
curl:(6)无法parsing主机:分区= 1
curl:(6)无法parsing主机:mirror = eu
curl:(6)无法parsing主机:python

如何使用curl将此数据集下载到Windows 10?

该脚本旨在运行在*nixUnixlinux或…)环境中。

你有安装Windows的bash吗? 如果是这样,那就是快速解决方案,只需在该环境中运行脚本/ cmds(并确保which python返回了正确的/path/to/preferred/version_of/python )。

为了解释/扩展代码的作用, *nix允许设置特定于在行末尾运行的命令的env vars。 与“ *nix包含的代码“说”相同的东西的另一种方法是

 export partition=1/video_level/test export mirror=us curl data.yt8m.org/download.py | python 

所以你想要 | 作为管道,不想逃避它。

在旧的DOS .bat文件中的等效物将是

 set partition = 1/video_level/test set mirror = us curl data.yt8m.org/download.py | python 

但是,旧版本的dos有多少可以“存储”在| (管)。 我不知道Windows Cmd-Prompt中的当前限制是什么,所以您可能需要创建自己的临时文件,然后输入它们,即

 set partition = 1/video_level/test set mirror = us curl data.yt8m.org/download.py > %TEMP%\mytempFile python < %TEMP%\mytempFile 

我不是一个python程序员,所以我可能会错过pythonistas中完全明显的东西。


只是看了下载的源代码。 你注意到了吗?

 print ('Starting fresh download in this directory. Please make sure you ' 'have >2TB of free disk space!') 

IHTH