瑭锦-tanjurd：怎样搭建简单的HADOOP集 - 武汉洪山光谷数据库培训

瑭锦-tanjurd：怎样搭建简单的HADOOP集群
Hadoop的工作原理是将一个非常大的数据集切割成一个较小的单元，以能够被查询处理。同一个节点的计算资源用于并行查询处理。当任务处理结束后，其处理结果将被汇总并向用户报告，或者通过业务分析应用程序处理以进行进一步分析或仪表盘显示。
瑭锦-tanjurd 总结了Hadoop系统有三个主要的功能节点：客户机、主机和从机。客户机将数据文件注入到系统之中，从系统中检索结果，以及通过系统的主机节点提交分析工作等。主机节点有两个基本作用：管理分布式文件系统中各节点以及从机节点的数据存储，以及管理Map/Reduce从机节点的任务跟踪分配和任务处理。数据存储和分析处理的实际性能取决于运行数据节点和任务跟踪器的从机节点性能，而这些从机节点则由各自的主机节点负责沟通和控制。从节点通常有多个数据块，并在作业期间被分配处理多个任务。
Hadoop软件的安装和配置：Hadoop集群有多种构建方式：手工下载tar文件并复制到集群中，利用Yum仓库，利用Puppet等自动化部署工具。
　瑭锦-tanjurd不建议采用手工方式，那只适合很小的集群(4节点以下)，而且会带来很多维护和排障上的问题，因为所有的变更都需要用scp或ssh的方式手工应用到所有的节点上去。
　　从以下方面来看，利用Puppet等部署工具是佳的选择：安装，配置，维护，扩展性，监控，排障
　　Puppet是Unix/Linux下的一个自动化管理引擎，它能基于一个集中式的配置执行增加用户、安装软件包、更新服务器配置等管理任务。我们将主要讲解如何利用Yum和Puppet来安装Hadoop。
　　利用Yum/Puppet搭建Hadoop集群：要利用Puppet搭建Hadoop集群，瑭锦-tanjurd提醒首先要符合以下前置条件：包含所有必需Hadoop软件的中央仓库，用于Hadoop部署的Puppet装载单(manifest)，用于Hadoop配置管理的Puppet装载单，用于集群维护的框架(主要是sh或ksh脚本)，以支持集群的start/stop/restart，利用puppet构建整个服务器(包括操作系统和其它软件)
　　瑭锦-tanjurd特别提醒：如果要用Yum来安装Hadoop集群，则所有服务器应该预先构建完成，包括操作系统和其它软件都应安装完毕，yum仓库也应在所有节点上设置完毕。
更多知识尽在瑭锦-tanjurd：http://www.Ta***
瑭锦学院：http://www.tj-ac***
智能职涯：http://www.bigdat***