Hadoop大数据开发基础与实战(微课版)-教案-教学设计 第02章 搭建Hadoop集群_第1页
Hadoop大数据开发基础与实战(微课版)-教案-教学设计 第02章 搭建Hadoop集群_第2页
Hadoop大数据开发基础与实战(微课版)-教案-教学设计 第02章 搭建Hadoop集群_第3页
Hadoop大数据开发基础与实战(微课版)-教案-教学设计 第02章 搭建Hadoop集群_第4页
Hadoop大数据开发基础与实战(微课版)-教案-教学设计 第02章 搭建Hadoop集群_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据开发实战(慕课版)教学设计课程名称:Hadoop大数据开发实战(慕课版)授课年级:_______________________授课学期:_______________________教师姓名:______________________课程名称第2章搭建Hadoop集群计划学时4学时内容分析本章主要介绍安装准备、Linux基本命令、Hadoop集群搭建、Hadoop集群测试、使用Hadoop集群教学目标与教学要求要求学生了解虚拟机的安装和克隆、掌握Linux基本命令的用法、熟悉Linux系统网络配置、掌握Hadoop集群的搭建和配置方法、熟悉Hadoop集群案例操作教学重点Linux基本命令、Hadoop集群搭建、Hadoop集群测试、使用Hadoop集群教学难点Linux基本命令、Hadoop集群搭建、Hadoop集群测试、使用Hadoop集群教学方式课堂讲解及ppt演示教学过程第一课时(搭建Hadoop集群)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Hadoop的基本知识,“工欲善其事,必先利其器”,在深入学习Hadoop,掌握其相关应用前,需要学会搭建集群环境。下面将带领大家从零开始搭建一个简单的Hadoop集群。本节主要讲解安装前的准备工作。Hadoop可以安装在Linux系统和Windows系统上使用。由于Linux系统具备便捷性和稳定性,所以在实际开发过程中,更多的Hadoop集群是在Linux系统上运行的,本书对Linux系统上的Hadoop集群搭建以及使用进行讲解。2.明确学习目标能够独立完成虚拟机安装能够独立完成虚拟机克隆能够掌握Linux系统网络配置能够独立完成SSH服务配置知识讲解虚拟机安装搭建Hadoop集群需要很多台机器,这在个人开发测试和学习时,肯定是不切实际的。所以,可以使用虚拟机软件在一台电脑中,搭建出多个Linux虚拟机环境,来进行个人开发测试和学习。下面就开始分步演示VMwareWorkstation虚拟软件工具进行Linux系统虚拟机安装配置的过程。1.创建虚拟机2.虚拟机启动初始化具体细节参见教材2.1.1节内容。虚拟机克隆一台搭载CentOS镜像文件的Linux虚拟机已经安装成功,但是搭建Hadoop集群,一台虚拟机远远不能满足需求,这时需要对已安装的虚拟机进行克隆。克隆就是复制原始虚拟机全部状态的,克隆操作一旦完成,克隆的虚拟机就可以脱离原始虚拟机独立存在,而且在克隆的虚拟机中和原始虚拟机中的操作是相对独立的,不相互影响(1)关闭虚拟机qf01,克隆虚拟机只能在虚拟机关机状态下进行。(2)鼠标右键单击虚拟机名称,选择“管理”,再选择“克隆”,进入“克隆虚拟机向导界面”,如图所示。(3)根据提示连续单击界面中的“下一步(N)”按钮,进入到“克隆类型”界面后,选择“创建完整克隆(F)”选项,如图所示。(4)在图中,单击“下一步”按钮,进入到设置虚拟机名称和位置界面,如图所示。设置虚拟机名称为qf02,位置为D:\hadoop\qf02,单击“完成”按钮。在图中,单击“完成”按钮,进入新虚拟机克隆过程,完成后在VMware的库列表中可以看到刚才克隆的虚拟机。上面演示了一台虚拟机的克隆,如果想克隆多台虚拟机,重复上述操作即可。Linux系统网络配置VMwareWorkstation的虚拟网络类型主要有3种:桥接模式、NAT(NetworkAddressTranstion,网络地址转换)模式、仅主机模式。三者的用途各不相同。(1)桥接模式可以将虚拟机直接连接到外部网络。(2)NAT模式可以与虚拟机共享主机的IP地址。(3)仅主机模式可以在专用网络内连接虚拟机。本教材使用虚拟网络的NAT模式,配置方式如下。主机名和IP映射配置开启克隆的虚拟机qf01,输入root用户的用户名和密码后进入虚拟机系统。然后,在终端窗口按照以下说明进行主机名和IP映射的配置。(1)配置主机名,具体指令如下。$vi/etc/sysconfig/network执行上述指令后,在打开的界面对HOSTNAME选项进行重新编辑,自定义主机名配置。在Hadoop集群搭建时,会将qf01、qf02、qf03主机名依次设置为qf01、qf02和qf03。(2)配置IP映射配置IP映射,要明确目前虚拟机的IP和主机名,并且IP地址须在VMware虚拟网络IP地址范围之内。所以,要先查询可选的IP地址范围,再进行IP映射配置。首先,单击VMware工具的“编辑”菜单下的“虚拟网络编辑(N)”菜单项,打开虚拟网络编辑器;选择“NAT模式”类型的VMnet8,单击“DHCP设置(P)”按钮会出现一个DHCP设置弹窗,如图示。然后,执行如下指令对IP映射文件hosts进行编辑。$vi/etc/hosts执行上述指令后,会打开一个hosts映射文件,为了保证后续相互关联的虚拟机能够通过主机名进行访问,自定义配置对应的IP和主机名映射,如图所示。读者在进行IP映射配置时,可以根据自己的DHCP设置和主机名规划IP映射。网络参数配置想要虚拟机能够正常使用,需要进行网络参数配置。(1)修改虚拟机的网卡配置文件,配置网卡设备的MAC(MediaAccessControl,介质访问控制)地址,具体指令如下。$vi/etc/udev/rules.d/70-persistent-net.rules因为虚拟机是克隆,所以在qf02虚拟机中会有eth0和eth1两块网卡(qf01虚拟机只有一块eth0网卡),这时删除多余的eth1网卡配置,只保留eth0一块网卡即可,操作方式:删除eth0网卡,将eth1网卡的参数NAME="eth1"修改为NAME="eth0"。(2)修改IP地址文件,设置静态IP,具体指令如下。$vi/etc/sysconfig/network-scripts/ifcfg-eth0执行上述指令,打开虚拟机的IP地址配置界面,如图所示。在图中所示的IP地址配置界面,配置以下参数:ONBOOT=yes:表示启动这块网卡;BOOTPROTO=static:表示静态路由协议,可以保持IP固定;IPADDR:表示虚拟机的IP地址,这里设置的IP地址要与前面IP映射配置时的IP地址保持一致,否则无法通过主机名找到对应IP;GATEWAY:表示虚拟机网关,一般将IP地址最后一个位数变2;NETMASK:表示虚拟机子网掩码,配置为。DNS1:表示域名解析器,此处采用Google提供的免费DNS服务器(也可以设置为PC端电脑对应的DNS)。配置效果验证重启虚拟机使当前配置生效,这里可以使用reboot指令重启系统。系统重启完毕之后,通过ifconfig指令查看IP配置是否生效,如图所示从图中可以看出,qf01主机的IP地址已经设置为31。执行“ping32”指令检测集群通信是否正常,如图所示。从图中可以看到,虚拟机可以正常接收数据,并且延迟正常,说明网络连接正常。至此,当前虚拟机的网络配置完毕。SSH服务配置SSH即SecureShell,是专为远程登录会话和其他网络服务提供安全保障的协议。当1台计算机的某些软件需要频繁使用SSH协议远程连接其他计算机时,需要人工填写大量密码,影响工作效率。要避免这类情况出现,同时兼顾安全问题,可以设置SSH免密登录。1.SSH远程登录功能配置在使用SSH服务之前,服务器必须安装并开启SSH服务。在CentOS系统中,执行rpm-qa|grepssh指令来查看当前机器是否安装了SSH服务,然后使用ps-e|grepsshd指令来查看SSH服务是否已经正常启动,如图所示。若目标服务器已经安装SSH服务,并且支持远程连接访问,便可以通过一个远程连接工具来连接访问目标服务器。本书使用实际开发中常用的MobaXtem远程连接工具来演示远程服务器的连接和使用。MobaXtem是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。本教材采用MobaXtem9.4版本进行介绍说明,(软件安装包见附录)下载安装完成后,按照以下步骤进行远程连接访问。(1)打开MobaXtem远程连接工具,单击导航栏上的Session,然后单击SSH创建快速连接,并根据虚拟机的配置信息进行设置,如图所示。(2)在图中单击“OK(确定)”按钮后,MobaXtem远程连接工具就会自动连接到远程目标服务器,如图所示。进入到图中所示界面,就表示通过MobaXtem远程连接服务器成功,后续就可以像在虚拟机终端窗口一样,也可以在该工具客户端上操作虚拟机。2.SSH免密登录功能配置如果1台机器需要SSH远程登录到其他机器,就在这台机器上配置SSH免密登录。SSH免密登录是通过配置公钥和私钥(“公私钥”认证)来实现的。此处的SSH免密登录是指虚拟机qf01通过SSH免密登录虚拟机qf02、qf03。(1)分别删除虚拟机qf01、qf02、qf03的~/.ssh目录。注意:在使用rm-rf命令时,要特别小心,避免误删文件。具体如下。[root@qf01~]#rm-rf.ssh[root@qf02~]#rm-rf.ssh[root@qf03~]#rm-rf.ssh(2)在虚拟机qf01上新建SSH公私秘钥对。具体如下。[root@qf01~]#ssh-keygen-trsa-P''-f~/.ssh/id_rsa(3)在虚拟机qf01上配置免密登录虚拟机qf01、qf02、qf03。在实际工作中,ssh-copy-id命令的作用:复制本地用户的公钥到远程主机指定用户的认证库中,实现本地用户通过SSH免密登录远程主机指定用户。本书进行模拟操作,实现虚拟机qf01(本地root用户)通过SSH免密登录虚拟机qf01、qf02、qf03(3台远程主机的root用户)。具体如下。[root@qf01~]#ssh-copy-idroot@qf01[root@qf01~]#ssh-copy-idroot@qf02[root@qf01~]#ssh-copy-idroot@qf03提示:出现(yes/no)?,输入yes,按下回车键。(4)验证SSH免密登录是否配置成功。具体如下。[root@qf01bin]#sshqf02出现如下内容,表明虚拟机qf01通过SSH成功登录虚拟机qf02。具体如下。[root@qf02~]#输入exit,按下回车键,退回到虚拟机qf01。第二课时(Linux基本命令、Hadoop集群搭建、Hadoop集群测试、使用Hadoop集群)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节介绍了Hadoop集群搭建前的准备工作,本节将介绍Linux基本命令、Hadoop集群搭建、Hadoop集群测试和使用Hadoop集群的相关内容。2.明确学习目标能够掌握Linux基本命令能够独立完成Hadoop集群搭建能够熟悉Hadoop集群测试能够掌握使用Hadoop集群知识讲解系统工作命令1.查看系统信息Linux中包含查看系统信息的命令,具体如表所示。命令含义uname-a显示当前系统相关信息uname-r显示系统内核版本uname-m显示计算机类型cat/proc/version查看当前操作系统相关信息cat/etc/redhat-release查看当前操作系统发行版信息2.查看当前主机名查看当前主机名,命令如下。hostname3.查看网卡信息查看网卡信息,命令如下。ifconfig4.查看系统时间查看系统时间,命令如下。date5.查看进程状态查看进程状态,命令如下。ps-aux6.动态显示进程状态动态显示进程状态,命令如下。top7.以树状图显示进程间的关系以树状图显示进程间的关系,命令如下。pstree8.结束正在运行的指定进程结束正在运行的指定进程,命令如下。kill-9进程ID9.下载网络文件下载网络文件,命令如下。wget下载地址磁盘操作命令1.显示系统磁盘的空间用量显示系统磁盘的空间用量命令,如表所示。命令含义df-h显示磁盘分区信息fdisk-l查看磁盘分区fdisk/dev/sdb管理磁盘分区du-sh目录或文件查看目录或文件占用的空间大小2.用户与组操作命令用户与组操作命令,如表所示。命令含义useraddxiaoqian 创建普通用户passwdxiaoqian设置用户密码su–xiaoqian切换用户groupaddqf创建用户组gpasswd-axiaoqianqf将用户添加到组中gpasswd-dxiaoqianqf将用户从组中删除groupdelqf删除组userdelxiaoqian删除用户目录与文件操作命令1.目录操作目录操作包括创建目录、查看目录、切换目录、删除目录,具体如表所示。命令含义mkdirabc 创建一个空目录mkdir-paba/abb/abc创建多级目录pwd查看当前所在目录ls-l(可以简写为ll)查看目录与文件的属性ls-a查看隐藏的目录与文件cdqf/aba/切换目录cd-返回上次目录rmdirabc只能删除空目录rmdir-pabc/abd连同上层空目录一起删除2.文件操作文件操作包括创建文件、查看文件、复制文件、移动文件、删除文件,具体如表所示。命令含义touchabc.txt 创建一个空白文件echohello>word.txt 新建word.txt文件,并写入内容hellollabc.txt查看文件信息cat/etc/hosts 查看文件内容more/etc/profile逐页显示文件内容head/etc/passwd查看文件前几行的内容tail/var/log/messages-查看文件后几行的内容grep'root'/etc/passwd对文件内容进行过滤,搜索关键词cp/tmp/file1.txt/opt 复制文件cp-r/tmp/test01/opt复制目录mv/opt/test01/tmp移动文件rmlinux.txt删除文件tar-cvffolder.tarfile1.txtfile2.txt将多个文件打成一个包tar-xvffolder.tar-C/home/xiaoqian解包到指定目录tar-zcvffile.tar.gzfolder1floder2将多个文件打包并压缩tar-zxvf/data3/data0.tar.gz-C/data2将文件解包并解压缩到指定目录权限操作命令1.常用的Linux文件权限常用的Linux文件权限有如下几种。444-r--r--r--644-rw-r--r--666-rw-rw-rw-751-rwxr-xr-x777-rwxrwxrwx以最后一行为例,可以看到-rwxrwxrwx,一共有10位。每位的含义如下。(1)第1位表示文件或目录,-表示文件,还可能有d或l出现在-的位置,其中,d表示目录,l表示软链接文件或软链接目录。(2)第2、3、4位表示文件所有者对文件或目录的权限,第5、6、7位表示同组用户对文件或目录的权限,第8、9、10位表示其他用户对文件或目录的权限。在修改文件或目录权限时,文件所有者(user)用u表示,同组用户(group)用g表示,其他用户(other)用o表示,所有用户(all)用a表示。(3)r表示只读权限,w表示写入权限,x表示执行权限。在修改文件或目录权限时,r可以用数字4表示,w可以用数字2表示,x可以用数字1表示。(4)+表示为指定的用户添加权限,-表示为指定的用户删除权限。具体示例如下:chmod7771.txt 为文件的所有用户设置读写执行权限chmoda+x2.txt 为文件的所有用户设置执行权限chmodu+x1.txt 为文件的所有者添加执行权限chmodo-w1.txt 为文件的其他用户删除写入权限Hadoop集群部署模式在使用Hadoop之前,首先要了解Hadoop集群部署模式,Hadoop的集群部署模式分为三种,分别是单机模式(Standalonemode)、伪分布式模式(Pseudo-Distributedmode)、全分布式模式(Clustermode),具体介绍如下。(1)单机模式:Hadoop的默认模式是单机模式。在不了解硬件安装环境的情况下,Hadoop第一次解压其源码包时,会保守地选择最低配置,完全运行在本地。此时它不需要与其他节点进行交互,不使用HDFS,也不加载任何Hadoop守护进程。单机模式不需要启动任何服务,一般只用于调试。(2)伪分布式模式:完全分布式模式的一个特例。Hadoop的守护进程运行在一台节点上,伪分布式模式用于调试Hadoop分布式程序中的代码,以及验证程序是否准确执行。(3)全分布式模式:Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同的节点担任不同角色,是真正的生产环境。在Hadoop环境中,服务器节点分为主节点(Master,1个)和从节点(slave,多个)。伪分布模式是集群模式的特例,将主节点和从节点合二为一。安装JDK因为Hadoop由Java语言开发,Hadoop集群的使用同样依赖于Java环境,所以在安装Hadoop集群前,需要先安装并配置好JDK。下面就在前面规划的Hadoop集群主节点qf01机器上分步骤演示,如何安装和配置JDK,具体如下。(1)将JDK安装包jdk-8u121-linux-x64.rpm(见附录A)放到/root/Downloads目录下(直接拖进MobaXtem工具目录里面即可)。(2)安装JDK。命令如下。[root@qf01~]#tar-zxvfjdk-8u121-linux-x64.rpm-C/usr/local/(3)配置JDK环境变量安装完JDK后,还需要配置JDK环境变量。使用“vi/etc/profile”指令打开profile文件,在文件底部添加如下内容即可。#配置JDK系统环境变量exportJAVA_HOME=/usr/local/jdk-8u121-linux-x64.rpmexportPATH=$PATH:$JAVA_HOME/bin在/etc/profile文件中配置完上述JDK环境变量后(注意JDK路径),保存退出。然后,执行“source/etc/profile”指令方可使配置文件生效。(4)JDK环境验证在完成JDK的安装和配置后,为了检测安装效果,可以输入以下指令。$java-version执行上述指令后,显示jdk版本信息,说明JDK安装和配置成功。安装HadoopHadoop是Apache基金会面向全球开源的产品之一(安装包见附录),本书以Hadoop2.7.3版本为例。(1)将安装包hadoop-2.7.3.tar.gz(见附录A)放到主节点qf01的/root/Downloads目录下,并解压到/usr/local/目录下。命令如下。[root@qf01~]#tar-zxvf/root/Downloads/hadoop-2.7.3.tar.gz-C/usr/local/(2)打开文件/etc/profile,配置hadoop环境变量。命令如下。[root@qf01~]#vi/etc/profile(3)编辑/etc/profile时,依次按下G键和o键,将光标移动到文件末尾,添加如下内容。编辑完成后,先按Esc键,后按shift加:键,输入wq保存退出。#HadoopenvironmentvariablesexportJAVA_HOME=/usr/java/jdk1.8.0_121exportHADOOP_HOME=/usr/local/hadoop-2.7.3exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin(4)使配置文件生效。命令如下。[root@qf01~]#source/etc/profile测试Hadoop是否安装成功。(1)查看Hadoop版本,输入以下内容。[root@qf01~]#hadoopversion输出如下内容即正确。Hadoop2.7.3(2)查看hadoop安装路径,输入如下内容。[root@qf01~]#whichhadoop输出如下内容即正确。/usr/local/hadoop-2.7.3/bin/hadoop可以在Hadoop解压目录下通过ll指令查看Hadoop目录结构,下面对比较重要目录内容及使用进行简单的介绍。bin:操作Hadoop相关服务(HDFS、Yarn)的脚本存放在此目录下,但是通常使用的脚本是sbin目录下的。etc:Hadoop配置文件存放在此目录下,主要包含core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。lib:Hadoop对外提供的编程动态库和静态库存放在此目录下。sbin:Hadoop管理脚本存放在此目录下,主要包含HDFS和YARN中各类服务的启动/关闭脚本。src:Hadoop的源码包存放在此目录下。Hadoop集群配置为了在多台机器上进行Hadoop集群搭建和使用,还需要对相关配置文件进行修改,来保证集群服务协调运行。接下来,先通过一张表来对Hadoop集群搭建可能涉及到的主要配置文件及功能进行述,如表所示。配置文件功能描述hadoop-env.sh配置Hadoop运行所需的环境变量yarn-env.sh配置Yarn运行所需的环境变量core-site.xmlHadoop核心全局配置文件,可在其他配置文件中引用该文件hdfs-site.xmlHDFS配置文件,继承core-site.xml配置文件mapred-site.xmlMapReduce配置文件,继承core-site.xml配置文件yarn-site.xmlYarn配置文件,继承core-site.xml配置文件Hadoop提供的默认配置文件core-default.xml、hdfs-default.xml、mapred-default.xml和yarn-default.xml中的参数很多,在此不再列举说明。具体使用时可以通过访问Hadoop官方文档/docs/stable/index.html,进入到文档最底部的Configuration部分进行学习和查看。下面来详细讲解Hadoop集群配置,具体步骤如下。1.配置Hadoop集群主节点(1)修改hadoop-env.sh文件进到主节点qf01解压包下的etc/hadoop/目录,用“vihadoop-env.sh”指令打开其中的hadoop-env.sh文件,找到JAVA_HOME参数位置,进行如下修改(注意JDK路径)。exportJAVA_HOME=/export/servers/jdk上述配置文件中设置的JDK环境变量是Hadoop运行时需要的,使Hadoop启动时能够执行守护进程。(2)在虚拟机qf01上,切换到/usr/local/hadoop-2.7.3/etc/hadoop/目录下。命令如下。[root@qf01~]#cd/usr/local/hadoop-2.7.3/etc/hadoop(2)配置core-site.xml文件。core-site.xml是Hadoop的核心配置文件,为了配置HDFS地址、端口号,以及临时文件目录。打开该配置文件,添加如下配置内容。1)打开core-site.xml文件。具体如下。[root@qf01hadoop]#vicore-site.xml2)将core-site.xml文件中的内容替换为以下内容。<configuration><!--指定文件系统的名称--><property><name>fs.defaultFS</name><value>hdfs://qf01:9000</value></property><!--配置Hadoop运行产生的临时数据存储目录--><property><name>hadoop.tmp.dir</name><value>/tmp/hadoop-qf01</value></property><!--配置操作HDFS的缓存大小--><property><name>io.file.buffer.size</name><value>4096</value></property></configuration>在上述文件中,配置了HDFS的主进程NameNode运行主机(即此次Hadoop集群的主节点位置),同时配置了Hadoop运行时生成数据的临时目录。(3)配置hdfs-site.xml文件。该文件用于设置HDFS的NameNode和DataNode两大进程。打开该配置文件,添加如下配置内容。1)打开hdfs-site.xml文件。具体如下。[root@qf01hadoop]#vihdfs-site.xml2)将hdfs-site.xml文件中的内容替换为以下内容。<configuration><!--配置HDFS块的副本数(全分布模式默认副本数是3,最大副本数是512)--><property><name>dfs.replication</name><value>3</value></property><!--配置-secondarynamenode所在主机的ip和端口--><property><name>node.secondary.http-address</name><value>qf02:50090</value></property>在上述配置文件中,HDFS数据块的副本数量(默认值为3,此处可省略)配置完成,并根据需要设置SecondaryNameNode所在服务的HTTP协议地址。(4)配置mapred-site.xml文件。此文件用于指定MapReduce运行时框架,是MapReduce的核心配置文件。该文件在etc/hadoop/目录中默认没有,需要先通过“cpmapred-site.xml.templatemapred-site.xml”命令将文件复制并重命名为“mapred-site.xml”。然后,打开mapred-site.xml文件进行修改,添加如下配置内容。1)打开mapred-site.xml文件。命令如下。[root@qf01hadoop]#vimapred-site.xml2)将mapred-site.xml文件中的内容替换为以下内容。<configuration><!--指定MapReduce的运行框架--><property><name></name><value>yarn</value></property></configuration>(5)配置yarn-site.xml。在此文件中,指定Yarn集群的管理者。打开该配置文件,添加如下配置内容。1)打开yarn-site.xml文件。命令如下。[root@qf01hadoop]#viyarn-site.xml2)将yarn-site.xml文件中的内容替换为以下内容。<configuration><!--指定启动Yarn的ResourceManager服务的主机--><property><name>yarn.resourcemanager.hostname</name><value>qf01</value></property><!--配置NodeManager启动时加载Shuffle服务--><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>在上述配置文件中,配置YARN的主进程ResourceManager运行主机为qf01,配置NodeManager运行时的附属服务,配置为mapreduce_shuffle才能正常运行MapReduce默认程序。(6)设置从节点(slave),即修改slaves文件。此文件用来记录Hadoop集群所有从节点(HDFS的DataNode和YARN的NodeManager)的主机名,来配合一键启动脚本启动集群的从节点(并且还需要保证关联节点配置了SSH免密登录)。打开此配置文件,首先删除里面的内容(默认localhost),然后进行如下配置。1)打开slaves文件。[root@qf01hadoop]#vislaves2)此处填写所有需要配置成从节点的主机名。具体做法是将slaves文件中的内容替换为以下内容。注意,每个主机名占一行。qf01qf02qf032.将集群主节点的配置文件分发到其他子节点完成Hadoop集群主节点qf01的配置后,还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点qf02和qf03上,具体指令如下。[root@qf01~]#scp/etc/profileqf02:/etc/profile[root@qf01~]#scp/etc/profileqf03:/etc/profile[root@qf01~]#scp-r/usr/local/hadoop-2.7.3qf02:/usr/local/[root@qf01~]#scp-r/usr/local/hadoop-2.7.3qf03:/usr/local/执行完上述所有指令后,还需要在qf02和qf03子节点上分别执行“source/etc/profile”指令立即刷新配置文件。整个集群所有节点都有了Hadoop运行所需要的环境和文件,Hadoop集群安装配置完成。格式化文件系统前面已经完成Hadoop集群的安装和配置。但还不能直接启动集群,因为在初次启动HDFS集群时,必须对主节点进行格式化处理,具体指令如下。[root@qf01~]#hdfsnamenode-format或者[root@qf01~]#hadoopnamenode-format执行上述任意一条命令均可以进行Hadoop集群格式化。执行格式化指令之后,必须出现了“hasbeensuccessfullyformatted”信息,才表明HDFS文件系统成功格式化。然后就可以正式启动集群了;否则,需要查看命令是否正确,或之前Hadoop集群的安装和配置是否正确。此外需要注意的是,上述格式化命令令只需要在Hadoop集群初次启动前执行一次即可,后续重复启动时就不需要执行格式化了。启动和关闭Hadoop进程命令Hadoop集群的启动,需要启动其内部包含的两个集群框架,HDFS集群和YARN集群。启动方式有单节点逐个启动和使用脚本一键启动两种。启动和关闭Hadoop进程的常用命令及含义,如表所示。命令含义start-dfs.sh启动Hadoop的HDFS进程:NameNode、SecondaryNameNode、DataNodestop-dfs.sh关闭Hadoop的HDFS进程:NameNode、SecondaryNameNode、DataNodehadoop-daemon.shstartnamenode单独启动某个节点的NameNode进程hadoop-daemon.shstopnamenode单独关闭某个节点的NameNode进程hadoop-daemon.shstartdatanode单独启动某个节点的DataNode进程hadoop-daemon.shstopdatanode单独关闭某个节点的DataNode进程hadoop-daemons.shstartnamenode启动所有节点的NameNode进程hadoop-daemons.shstopnamenode关闭所有节点的NameNode进程hadoop-daemons.shstartdatanode启动所有节点的DataNode进程hadoop-daemons.shstopdatanode关闭所有节点的DataNode进程hadoop-daemon.shstartsecondarynamenode单独启动SecondaryNameNode进程hadoop-daemon.shstopsecondarynamenode单独关闭SecondaryNameNode进程start-yarn.sh启动Hadoop的Yarn进程:ResourceManage、NodeManagerstop-yarn.sh关闭Hadoop的Yarn进程:ResourceManage、NodeManageryarn-daemon.shstartresourcemanager单独启动ResourceManage进程yarn-daemon.shstopresourcemanager单独关闭ResourceManage进程yarn-daemons.shstartnodemanager单独启动NodeManager进程yarn-daemons.shstopnodemanager单独关闭NodeManager进程启动和查看Hadoop进程(1)在虚拟机qf01上,启动Hadoop进程。命令如下。[root@qf01hadoop]#start-dfs.sh[root@qf01hadoop]#start-yarn.sh(2)查看Hadoop进程。1)在虚拟机qf01中查看Hadoop进程。具体如下。[root@qf01hadoop]#jps3856NameNode5284Jps3974DataNode4472NodeManager4362ResourceManager提示:以3856NameNode

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论