有人可以给初学者一个高层次,简单的解释Hadoop的工作原理吗?

我知道memcached是如何工作的。 Hadoop如何工作?

Hadoop由许多组件组成,这些组件是Apache Hadoop项目的每个子项目。 其中两个主要是Hadoop分布式文件系统(HDFS)和MapReduce框架 。

这个想法是,你可以把许多现成的计算机联网在一起来创建一个集群。 HDFS在群集上运行。 将数据添加到群集时,会将其分割为大块/块(通常为64MB)并分布在群集中。 HDFS允许复制数据以允许从硬件故障中恢复。 它几乎预计硬件故障,因为它意味着与标准的硬件工作。 HDFS基于Google关于其分布式文件系统GFS的文章。

Hadoop MapReduce框架运行在存储在HDFS上的数据上。 MapReduce'工作'旨在以高度并行的方式提供基于键/值的处理能力。 由于数据分布在集群中,因此可以拆分MapReduce作业,以便对存储在集群上的数据运行许多并行进程。 MapReduce的Map部分只能运行在他们可以看到的数据上,也就是运行在特定机器上的数据块。 Reduce汇集了来自地图的输出。

其结果是提供了高度并行的批处理能力的系统。 系统可以很好地扩展,因为您只需添加更多的硬件来增加存储能力或缩短MapReduce作业运行的时间。

一些链接:

  • Hadoop MapReduce的字数统计介绍
  • Google文件系统
  • MapReduce:大型集群上的简化数据处理