Loading
0

Hadoop

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  1. 高可靠性——Hadoop按位存储和处理数据的能力值得人们信赖。
  2. 高扩展性——Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  3. 高效性——Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  4. 高容错性——Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
  5. 低成本——与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop由许多元素构成。其架构元素包括:

HDFS——对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode,它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。

NameNode——NameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode上的复制块上。对于最常见的3个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。

DataNode——ataNode 也是一个通常在HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个NameNode 和大量 DataNode。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。

Linux 集群——Hadoop框架可在单一的Linux平台上使用。

Hadoop项目模块:

Hadoop Common——常见的实用程序,支持其他Hadoop模块。

Hadoop Distributed File System (HDFS™)——一个分布式文件系统,它提供了高通量访问应用程序数据。

Hadoop YARN——一个集群作业调度和资源管理的框架。

Hadoop MapReduce——YARN-based系统并行处理大型数据集。