我正在考虑使用hadoop处理现有的Windows 2003服务器上的大型文本文件(大约10个四核心16GB的RAM)
问题是:
有没有什么好的教程如何在Windows上configurationhadoop集群?
有什么要求? java + cygwin + sshd? 还要别的吗?
HDFS,它在Windows上播放不错吗?
我想在stream模式下使用hadoop。 任何build议,工具或技巧来开发我自己的映射器/减速器在C#?
你用什么来提交和监督工作?
谢谢
从Hadoop文档 :
Win32被支持作为开发平台 。 分布式操作在Win32上没有经过很好的测试,所以不支持作为生产平台 。
我认为这就是:“你是独立的”。
也就是说,根据Hadoop wiki的入门页面,如果您不想安装Cygwin和Java shim,可能会有希望:
也可以使用Java Service Wrapper作为Windows Services运行Hadoop守护进程(单独下载)。 这仍然需要安装Cygwin,因为Hadoop需要它的df命令。
我想底线是这听起来不是不可能的,但是你会一直游到上游。 我已经完成了一些Hadoop安装(在Linux上用于生产,Mac用于开发),而当我们在其他平台上如此简单的时候,我不打扰Windows。
虽然不是您可能想要听到的答案,但是我强烈建议将这些机器重新命名为Linux服务器,然后在那里运行Hadoop。 您将受益于在该平台上进行的教程和体验以及测试,并花时间解决业务问题而不是运营问题。
但是,您仍然可以使用C#编写作业。 由于Hadoop支持“流式”实现,因此您可以使用任何语言编写作业。 使用Mono框架,您应该能够在Windows平台上编写几乎任何.NET代码,并在Linux上运行相同的二进制文件。
您也可以很容易地从Windows访问HDFS – 虽然我不建议在Windows上运行Hadoop服务,但是您当然可以从Windows平台运行DFS客户端,以便将文件复制到分布式文件系统中或从中分发文件。
对于提交和监控作业,我认为你主要是靠自己的…我不认为有任何为Hadoop作业管理开发的通用系统。
如果您正在寻找map / reduce,您可以尝试查看MySpace在Windows上运行的新地图/缩减框架http://qizmt.myspace.com/