hadoop安装(4)_下载安装配置hadoop

前文我们对hadoop集群安装的Linux环境基本准备完毕,那么本节要讲解的重点就是下载hadoop版本软件,在Linux集群节点上部署hadoop软件。具体步骤如下:

1、下载hadoop软件,总所周知hadoop是apache下面的一个开源项目,所以我们得去apache官网去下载,下载地址如下:

https://hadoop.apache.org/release/2.10.0.html

本文常用的是hadoop 2.x系列进行安装演示的。

2、上传hadoop软件包到各个集群节点的/usr/local/目录下,然后解压hadoop软件包,具体命令如下:

tar -zxvf /usr/local/hadoop-2.10.0.tar.gz

3、配置hadoop的环境变量,在/etc/profile文件的末尾添加上hadoop的环境变量。如下:

export HADOOP_HOME=/usr/local/hadoop-2.10.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存完后,执行source /etc/profile使之生效。同理其它节点也上传一下hadoop软件包和设置环境变量。

4、配置hadoop配置文件,在启动hadoop之前,需要对一些配置文件进行环境配置和节点配置,hadoop的配置文件都在/hadoop-2.10.0/etc/hadoop文件夹下。具体需要配置的文件如下:

对hadoop-env.sh和yarn-env.sh文件添加上本节点的jdk环境变量,如下图:

hadoop安装

hadoop安装

5、对core-site.xml进行配置,添加配置代码如下:

<configuration>
<property>
<!-- 指定HDFS中NameNode的地址 -->
    <name>fs.defaultFS</name>
    <value>hdfs://hdp-master-01/</value>
</property>
<!-- 指定hadoop临时目录 -->
<property>
    <name>hadoop.tmp.dir </name>
    <value>/usr/temp/hdp</value>
</property>
<property>
   <name>io.file.buffer.size</name>
   <value>131072</value>
 </property>
</configuration>

6、对hdfs-site.xml文件进行配置,添加配置代码如下:

<configuration>
        <!-- NameNode永久存储名称空间和事务日志的本地文件系统上的路径 -->
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/dfs/name</value>
        </property>
        <!-- DataNode本地文件系统上应存储其块的路径列表-->
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/dfs/data</value>
        </property>
        <!-- 指定HDFS副本的数量,默认为3 ,这里我们由于只建了两个子节点,所以选择2-->
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
         <!--指定可以通过web访问hdfs目录-->
        <property>
                <name>dfs.webhdfs.enabled</name>
                <value>true</value>
        </property>
         <!--如果是true,则打开权限检查系统;如果是false,权限检查就是关闭的,但是其他行为没有改变。-->
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
        <!--此参数用于设置Web服务器使用的用户名,如果将这个参数设置为超级用户的名称,则所有Web客户就可以看到所有的信息-->
        <property>
                <name>dfs.web.ugi</name>
                <value>supergroup</value>
        </property>
</configuration>

7、对mapred-site.xml文件进行配置,由于hadoop只提供了一个mapred-site.xml.template的模板,所以要对他进行改名,再配置代码,如下:

mv ./mapred-site.xml.template mapred-site.xml

配置代码:

<configuration>
        <!-- 执行框架设置为Hadoop YARN -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
       
        <!-- MapReduce JobHistory服务器的配置 -->
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>hdp-master-01:10020</value>
        </property>
        <!-- MapReduce JobHistory服务器的web端口配置,默认端口是19888。 -->
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>hdp-master-01:19888</value>
        </property>
</configuration>

8、对yarn-site.xml进行配置,常用的配置代码如下:

<configuration>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                <name>yarn.resourcemanager.address</name>
                <value>hdp-master-01:8032</value>
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.address</name>
                <value>hdp-master-01:8030</value>
        </property>
        <property>
                <name>yarn.resourcemanager.resource-tracker.address</name>
                <value>hdp-master-01:8031</value>
        </property>
        <property>
                <name>yarn.resourcemanager.admin.address</name>
                <value>hdp-master-01:8033</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address</name>
                <value>hdp-master-01:8088</value>
        </property>
</configuration>

9、修改配置文件slaves,是指定哪几个节点执行启动datanode。代码如下:

hdp-slave-01
hdp-slave-02

10、然后把刚刚上面主节点配置好的配置文件都复制到各个子节点上。

11、进入master节点,对NAMENODE进行格式化,命令如下:

cd /usr/local/hadoop-2.10.0/bin/
./hadoop namenode -format

12、在主节点master上的hadoop目录下执行start-all.sh命令启动hadoop。

./sbin/start-all.sh

13、启动完毕,可以查看主节点的和子节点的jps进程。如下图,表示hadoop集群安装成功。

hadoop安装