Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理

上传人：q*** IP属地：山东上传时间：2025-09-02 格式：PPTX 页数：69 大小：5.14MB 积分：15 举报 版权申诉

Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理_第2页

Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理_第3页

Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理_第4页

Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理_第5页

已阅读5页，还剩64页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第二章Hadoop的安装配置与管理2.1实验准备2.1实验准备通过物理机器虚拟化4台虚拟机，设置1个主（Master）节点、3个从（Slave）节点，节点之间通过局域网相互连通。NameNode00DataNode01DataNode02DataNode032.1实验准备主节点主要配置名称节点（NameNode）和JobTracker角色，总体负责分布式数据的处理和分解任务的执行；3个从节点主要配置数据节点（DataNode）和TaskTracker角色，负责分布式数据的存储，以及分布式任务的执行。2.1实验准备需要用到的软件2.1实验准备设置系统用户名和密码2.2配置一个单节点环境2.2.1运行一个虚拟环境CentOS在计算机上安装虚拟机，下载VMware12后，安装并打开VMware12，再添加CentOS到虚拟机的CD/DVD中，执行菜单栏中的“文件”→“打开”命令，选择CentOS文件，单击“打开”按钮2.2.1运行一个虚拟环境CentOS2.2.1运行一个虚拟环境CentOS在CentOS上单击鼠标右键，从弹出的快捷菜单中选择“设置”命令，弹出“虚拟机设置”对话框，其中显示虚拟系统的主要硬件参数信息，用户可以根据自己的机器性能进行配置，这里保持默认配置2.2.2配置网络VMware提供了3种工作模式：桥接（Bridged）模式、网络地址转换（NetworkAddressTranslation，NAT）模式和仅主机（Host-Only）模式。在学习VMware虚拟网络时，建议选择Host-Only模式Bridged模式NAT模式Host-Only模式在Bridged模式下，VMware虚拟出来的操作系统就像是局域网中一台独立的主机，它可以访问局域网内的任何一台机器。同时在Bridged模式下，需要手动为虚拟系统配置IP地址和子网掩码，而且要与宿主机器处于同一网段，这样虚拟系统才能和宿主机器通信。使用NAT模式就是让虚拟系统借助NAT功能，通过宿主机器所在的网络来访问公网。也就是说，使用NAT模式可以在虚拟系统中安全地访问互联网。使用NAT模式最大的优势就是虚拟系统接入互联网非常简单，不需要进行任何其他配置，只需要宿主机器能访问互联网即可。在Host-Only模式中，所有的虚拟系统是可以相互通信的，但虚拟系统和真实环境是被隔离开的。在Host-Only模式下，虚拟系统的TCP/IP配置信息[如IP地址、网关地址、域名服务器（DomainNameServer，DNS）等都可以由VMnet1（使用Host-Only模式）虚拟网络的动态主机配置协议（DynamicHostConfigurationProtocol，DHCP）服务器来分配。2.2.2配置网络2.2.1运行一个虚拟环境CentOS对VMnet1的网络配置进行修改步骤1，启动虚拟机，登录root账户2.2.2配置网络步骤2，在Windows网络连接中打开VMnet1网络，然后设置IPv4，2.2.2配置网络步骤3，在Linux桌面环境中的任务栏右侧的计算机图标上单击鼠标右键，在弹出的快捷菜单中选择“WiredSettings”选项，打开“NetworkConnections”对话框。选择“Autoeth1”，单击“Edit”按钮，弹出“EditingAutoeth1”对话框，选择“IPv4Settings”选项，在“Method”中选择“Manual”，然后增加IP地址，单击“Apply”按钮2.2.2配置网络步骤4，打开终端，重启网络服务器，使配置生效，当出现3个“OK”后，说明网络配置成功，可以用ifconfig命令查看网络配置情况.2.2.2配置网络使用PieTTY连接到Linux的步骤步骤1，打开PieTTY客户端软件，在文本框中填写目标IP地址，端口号是22，以SSH模式访问端口。单击“Open”按钮2.2.2配置网络步骤2，进入目标IP地址的Linux系统后，输入用户名和密码，即可进入命令行窗口2.2.3创建新的用户组和用户创建用户组命令groupadd[-g[-o]][-r][-f]groupname2.2.3创建新的用户组和用户添加Hadoop用户命令useradd[-dhomedir][-ggroupname][-m][-sshell][-uuserid][accountname]2.2.3创建新的用户组和用户创建Hadoop用户组和Hadoop用户创建用户组hadoopGroup，并创建hadoop用户，将该用户添加到这个组，用户主目录为/home/hadoop2.2.4上传文件到CentOS并配置Java和Hadoop环境1．使用WinSCP传输文件在root用户下，执行命令rm-rf/usr/local/*，删除目录下的所有内容（当前内容无用）。使用WinSCP把JDK文件从Windows复制到/usr/local目录下，以下是使用WinSCP传输文件的步骤。步骤1，打开WinSCP后，在“WinSCP登录”对话框中单击“新建”按钮，如图2-13所示。在弹出的新建对话框中输入IP地址和用户信息后，单击“确定”按钮。步骤2，在WinSCP验证窗口的“用户名”文本框中输入Linux的用户名，单击“确定”按钮，如图2-14所示。步骤3，WinSCP窗口左侧是Windows端，右侧是Linux端，可以直接拖动文件来进行传输，2-15所示2.2.4上传文件到CentOS并配置Java和Hadoop环境1．使用WinSCP传输文件2.2.4上传文件到CentOS并配置Java和Hadoop环境1．使用WinSCP传输文件2.2.4上传文件到CentOS并配置Java和Hadoop环境2．解压文件在虚拟机终端执行如下命令将JDK文件解压到当前目录： tar-zvxfjdk-8u211-linux-x64.tar.gz。其中，参数z表示调用gzip压缩程序的功能，v表示显示详细解压过程，x表示解压文件参数指令，f参数后跟解压的文件名。为了后面写环境变量方便，执行如下命令更改文件名为jdk1.8： mvjdk1.8.0_211jdk1.8。同样，执行解压命令将Hadoop解压到当前目录，并移动到Hadoop用户的主目录：

tar-zvxfhadoop-3.2.2-x64.tar.gz mvhadoop-3.2.2/home/hadoop/hadoop3.22.2.4上传文件到CentOS并配置Java和Hadoop环境3．目录规划具体目录的准备与配置如下。（1）创建程序存储目录/home/hadoop/hadoop3.2，用来存储Hadoop程序文件。（2）创建数据存储目录/home/hadoop/hadoop3.2/hdfs，用来存储集群数据。（3）创建目录/home/hadoop/hadoop3.2/hdfs/name，用来存储文件系统元数据。（4）创建目录/home/hadoop/hadoop3.2/hdfs/data，用来存储真正的数据。（5）创建日志目录/home/hadoop/hadoop3.2/logs，用来存储日志信息。（6）创建临时目录/home/hadoop/hadoop3.2/tmp，用来存储临时生成的文件。2.2.4上传文件到CentOS并配置Java和Hadoop环境3．目录规划为还不存在目录的Hadoop程序创建目录： mkdir–p/home/hadoop/hadoop3.2/hdfs在hadoop3.2当前目录下执行命令：

chgrp-RhadoopGrouphadoop3.2为hadoopGroup组赋予权限：

chmod-Rg=rwxhadoop3.22.2.4上传文件到CentOS并配置Java和Hadoop环境4．导入JDK环境变量执行cd/etc命令后，再执行viprofile命令，对profile文件进行编辑，在“#/etc/profile”下行添加如下代码2.2.4上传文件到CentOS并配置Java和Hadoop环境4．导入JDK环境变量执行命令sourceprofile，使配置立即生效。执行命令java–version，查看是否安装成功。2.2.4上传文件到CentOS并配置Java和Hadoop环境5．导入Hadoop环境变量用前述方法，在profile文件中添加如下内容。2.2.4上传文件到CentOS并配置Java和Hadoop环境5．导入Hadoop环境变量执行hadoop命令，查看Hadoop环境变量配置是否成功2.2.5修改Hadoop配置文件（1）配置~/hadoop3.2/etc/hadoop下的hadoop-env.sh、yarn-env.sh、mapred-env.sh，修改JAVA_HOME值（添加文字：exportJAVA_HOME=/usr/local/jdk1.8/）2.2.5修改Hadoop配置文件（2）配置~/hadoop3.2/etc/hadoop/slaves，这个文件保存所有从节点2.2.5修改Hadoop配置文件（3）配置~/hadoop3.2/etc/hadoop/core-site.xml，将以下代码添加到文件中。<configuration><property><name>fs.defaultFS</name><value>hdfs://node:9000/</value><description>设定NameNode的主机名及端口</description></property>

<property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp/hadoop-${}</value><description>存储临时文件的目录</description></property>

<property><name>xyuser.hadoop.hosts</name><value>*</value></property>

<property><name>xyuser.hadoop.groups</name><value>*</value></property> </configuration>2.2.5修改Hadoop配置文件（4）配置~/hadoop3.2/etc/hadoop/hdfs-site.xml，添加如下代码。<configuration>

<property><name>node.http-address</name><value>node:50070</value><description>设定NameNode的地址和端口</description></property>

<property><name>node.secondary.http-address</name><value>node1:50090</value><description>设定SecondaryNameNode的地址和端口</description></property>

<property><name>dfs.replication</name><value>3</value><description>设定HDFS存储文件的副本数，默认为3</description></property>

<property><name>.dir</name><value>file:///home/hadoop/hadoop3.2/hdfs/name</value><description>NameNode用来持续存储命名空间和交换日志的本地文件系统路径</description></property>

<property><name>dfs.datanode.data.dir</name><value>file:///home/hadoop/hadoop3.2/hdfs/data</value><description>DataNode用于在本地存储块文件的目录列表</description></property>

<property><name>node.checkpoint.dir</name><value>file:///home/hadoop/hadoop3.2/hdfs/namesecondary</value><description>设置SecondaryNameNode来存储临时镜像的本地文件系统路径。如果该位置显示一个用逗号分隔的文件列表，则镜像将会冗余复制到所有目录</description></property>

<property><name>dfs.webhdfs.enabled</name><value>true</value><description>判断是否允许网页浏览HDFS文件</description></property>

<property><name>dfs.stream-buffer-size</name><value>131072</value><description>默认是4KB，作为Hadoop缓冲区，用于Hadoop读HDFS的文件和写HDFS的文件，Map的输出也用到了这个缓冲区容量，对于现在的硬件而言，可以设置为128KB（131072B），甚至是1MB（但会过大，Map和Reduce任务可能会出现内存溢出的情况）</description></property></configuration>2.2.5修改Hadoop配置文件（5）配置~/hadoop3.2/etc/hadoop/mapred-site.xml，添加如下代码。<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>node:10020</value></property>

<property><name>mapreduce.jobhistory.webapp.address</name><value>node:19888</value></property>

</configuration>2.2.5修改Hadoop配置文件（6）配置~/hadoop3.2/etc/hadoop/yarn-site.xml，添加如下代码。<configuration><property><name>yarn.resourcemanager.hostname</name><value>node</value></property>

<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>

<property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property>

<property><name>yarn.resourcemanager.address</name><value>node:8032</value></property>

<property><name>yarn.resourcemanager.scheduler.address</name><value>node:8030</value></property>

<property><name>yarn.resourcemanager.resource-tracker.address</name><value>node:8031</value></property>

<property><name>yarn.resourcemanager.admin.address</name><value>node:8033</value></property>

<property><name>yarn.resourcemanager.webapp.address</name><value>node:8088</value></property>

</configuration>2.2.6修改CentOS主机名修改当前会话中的主机名：

hostnamenode要想修改配置文件中的主机名，可以执行命令：

vi/etc/sysconfig/network。2.2.7绑定hostname与IP地址执行命令vi/etc/hosts，在hosts文件中增加内容如下。00 node01 node102 node203 node3执行命令pingnode，检验hosts文件是否修改成功2.2.8关闭防火墙如果不关闭防火墙，则可能会出现以下3种情况。（1）HDFS的Web管理页面会出现打不开文件浏览页面的情况。（2）后台运行脚本（如Hive）会出现莫名其妙的假死状态。（3）在删除和增加节点时，数据迁移处理时间会增长，甚至不能正常完成相关操作。执行命令serviceiptablesstop关闭防火墙，执行命令serviceiptablesstatus查看防火墙状态，以确认防火墙关闭2.2.8关闭防火墙执行上面的命令可以关闭防火墙，但因为重启后防火墙还会自动启动，所以还要禁止防火墙自动启动。执行命令chkconfigiptablesoff禁止防火墙自动启动，执行命令chkconfig--list|grepiptables验证禁止防火墙自动启动是否成功2.3境节点之间的免密码登录2.3.1什么是SSHSSH是由国际互联网工程任务组（InternetEngineeringTaskForce，IETF）中的网络工作小组（NetworkWorkingGroup）制定的。SSH是建立在应用层和传输层基础上的安全外壳协议，专为远程登录会话和其他网络服务提供安全协议，即利用SSH可以有效防止远程管理过程中的信息泄露问题，且SSH具有高可靠性。2.3.2复制虚拟机节点配置完SSH后，关闭当前开启的虚拟机，然后在菜单栏中选择“虚拟机”→“管理”→“克隆”命令，打开“克隆虚拟机向导”对话框，选择“创建完整克隆”，单击“下一步”按钮，再设置复制的虚拟机名称和安装位置2.3.3配置SSH免密码登录（1）以root用户为例，登录root用户后设置SSH（当然也可以登录创建的用户进行设置），运行ssh-keygen-trsa-p''-f~/.ssh/id_rsa命令以后，系统出现一系列提示，在每一个提示页面按Enter键确认。运行结束以后，在$HOME/.ssh/目录下会新生成两个文件：id_rsa和id_rsa.pub。前者是存放私钥的文件，后者是存放公钥的文件。2.3.3配置SSH免密码登录（2）远程主机将用户的公钥保存在登录后的用户主目录的$HOME/.ssh/authorized_keys文件中，执行catid_rsa.pub>>authorized_keys命令，在本机上生成authorized_keys，并验证能否对本机进行SSH免密码登录。2.3.3配置SSH免密码登录（3）对其他所有节点重复上述操作，生成各自的authorized_keys，通过ssh-copy-id命令复制各自的公钥到Node2节点（可以随机指定某个存在的节点）。以Node1节点为例，使用ssh-copy-id命令把Node1节点的公钥复制到Node2节点的authorized_keys文件，并验证是否配置成功。2.3.3配置SSH免密码登录（4）在Node2节点复制其他所有节点公钥后的authorized_keys文件如图所示。由此可见，所有节点的公钥都已经加入了这个文件。也就是说，其他节点可以免密码登录到Node2节点，只要把这个文件远程复制到其他所有节点中，即在Node2节点上执行远程复制，节点之间就可以实现免密码登录了。2.4Hadoop的启动和测试2.4.1格式化文件系统首先格式化NameNode，执行命令hdfsnamenode-format，提示信息的倒数第2行出现“Exitingwithstatus0”表示格式化成功，如图所示。在Linux中，0表示成功，1表示失败。因此，如果返回“Exitingwithstatus1”，就应该好好分析前面的提示信息。一般来说问题出在前面的配置文件和hosts文件中，修改其中的问题后，将文件同步到其他节点上以保持环境相同，再接着执行格式化操作。2.4.2启动HDFS执行start-dfs.sh脚本命令，启动HadoopHDFS服务。2.4.2启动HDFS通过jps命令在各节点上验证HDFS是否启动。2.4.2启动HDFS以通过网络验证HDFS的启动状况2.4.3启动YARN在主节点Node上，执行命令start-yarn.sh2.4.3启动YARN可以通过jps查看各个节点启动的进程来验证YARN是否启动，当然最方便的方法是在浏览器的地址栏中输入http://node:8088/，按Enter键2.4.3启动YARN启动JobHistoryServer，通过Web浏览器的控制台查看集群计算的任务信息。执行如下命令启动历史任务管理器。mr-jobhistory-daemon.shstarthistoryserver启动成功后，访问http://node:19888/，可以查看任务执行历史信息2.4.5集群验证执行如下命令，在HDFS上创建目录。 hdfsdfs-mkdir-p/data/wordcount hdfsdfs-mkdir-p/output/目录/data/wordcount用来存储Hadoop自带的WordCount例子的数据文件，运行这个例子的结果将输出到该目录中的/output/wordcount文件中。执行如下命令，将本地文件上传到HDFS中（这里上传一个配置文件）。 hdfsdfs-put/home/hadoop/hadoop3.2/etc/hadoop/core-site.xml/data/wordcount/执行如下命令可以查看上传后的文件情况。 hdfsdfs-ls/data/wordcount执行如下命令运行WordCount案例。 hadoopjar/home/hadoop/hadoop3.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jarwordcount/data/wordcount/output/wordcount2.4.5集群验证访问http://node:8088/，可以监视节点的运行情况2.4.6需要了解的默认配置2.5动态管理节点2.5.1动态增加和删除DataNode1．修改配置文件在NameNode下修改配置文件，如果集群版本是Hadoop0.x，则配置存储在文件conf/hadoop-site.xml中；而在Hadoop2.x及之后的版本中，配置存储在文件conf/hdfs-site.xml中。需要配置的参数为dfs.hosts和dfs.hosts.exclude。2.5.1动态增加和删除DataNode2．添加一个节点向Hadoop中添加一个新的节点的相关步骤如下。（1）对新的DataNode做好相关配置（SSH配置、Hadoop配置、IP地址配置等）工作。（2）在主节点上的slaves文件列表中加入该DataNode的主机名（非必须，方便以后重启集群用）。（3）若有datanode-allow.list文件，则在主节点的datanode-allow.list中加入该DataNode的主机名，若没有，则可以自己创建后加入。（4）运行命令hadoop-daemon.shstartdatanode，在该DataNode上启动DataNode进程。2.5.1动态增加和删除DataNode3．删除一个节点在Hadoop中删除一个节点的相关步骤如下。（1）在主节点上修改datanode-deny.list（没有的话可以自己创建），添加要删除的相应节点的主机名。（2）在主节点上刷新节点配置情况，通过运行命令hadoopdfsadmin–refreshNodes实现。（3）此时在WebUI上可以看到该节点的状态变为Decommissioning状态，之后变为Dead状态。也可以通过hadoopdfsadmin-report命令查看删除节点的操作是否成功。（4）运行命令hadoop-daemon.shstopdatanode，在从节点上关闭DataNode进程（非必须）。2.5.1动态增加和删除DataNode4．重新加入各个被删除的节点下面是关于重新加入被删除的节点的操作说明。（1）在主节点的datanode-deny.list中删除相应节点的主机名。（2）在主节点刷新节点配置情况，通过

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理

文档简介

温馨提示

最新文档

评论

Hadoop大数据处理技术基础与实践（微课版）（第3版） 课件 第二章- Hadoop的安装配置与管理

文档简介

温馨提示

最新文档

评论

相关文档

Hadoop大数据处理技术基础与实践（微课版）（第3版）课件第二章- Hadoop的安装配置与管理