第3章Hadoop安装课件

上传人：1*** IP属地：贵州上传时间：2023-07-16 格式：PPT 页数：45 大小：603KB 积分：25 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3章Hadoop的安装目录安装UbuntuServer配置SSH公钥认证安装配置Hadoop安装Hadoop2.2.0CompanyNameVMware网络适配器的连接模式桥接模式NAT模式仅主机（hostonly）模式CompanyName“仅主机模式”网络的设置配置VMwareWorkstation中“虚拟网络编辑器”的设置设置VMware中VMnet1属性。设置虚拟机网络适配器连接模式原则：虚拟机的网络适配器采用“仅主机”模式，并设置为一静态IP，宿主机的VMnet1设置一个与虚拟机在同一网段的IP，这样宿主机与虚拟机就可以互相访问了。CompanyNameUbuntuServer安装Ubuntu下载地址：创建虚拟机安装UbuntuServer远程管理UbuntuServerCompanyName安装JDK下载JDK：解压JDK压缩包到/usr配置JDK环境变量:hadoop@master:~$sudonano/etc/profileJAVA_HOME=/usr/lib/jdkPATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportJAVA_HOMEexportPATHexportCLASSPATH构建Linux服务器集群CompanyName构建Linux服务器集群克隆虚拟机slave1,slave2修改虚拟机的名称。sudonano/etc/hostname修改虚拟机的IP：sudonano/etc/network/interfaces配置hosts文件：$sudonano/etc/hosts0master0slave10slave2注意：此操作在每个虚拟主机都必须做一遍。要互相能ping通CompanyName配置SSH公钥认证公钥认证的好处：1.公钥认证允许使用空密码，省去每次登录都需要输入密码的麻烦。2.多用户管理服务器时，可以通过多个公钥登录同一用户帐户，因而可以避免认证用户时需要密码，从而导致密码泄密事件的发生。并且使用passwd修改密码，也不会影响到其他用户的登录。3.做空密码的公钥认证，为运维自动化提供了便捷方法。4.如果使用putty软件，暂时不支持密码保存功能，每次登录都必须输入相应的密码，而公钥管理可以方便地进行登录，省去输入密码的麻烦操作。CompanyName公钥认证的工作原理公钥认证方式使用了非对称加密算法。一个密钥称为公钥，用于加密，另一个密钥称为私钥，用于解密。把公钥放在远程系统（服务器）合适的位置，然后从本地开始进行ssh连接。此时，远程的sshd会产生一个随机数并用我们产生的公钥进行加密后发给本地，本地会用私钥进行解密并把这个随机数发回给远程系统。最后，远程系统的sshd会得出结论——我们拥有匹配的私钥允许我们登录。CompanyNameSSH客户端的安装SSH客户端安装命令：$sudoapt-getinstallopenssh-client测试命令：hadoop@master:~$sshlocalhostCompanyNameSSH配置1.在master机器生成密钥对：hadoop@master:~$ssh-keygen-trsa-P''-f~/.ssh/id_rsacd~/.ssh~/.ssh$catid_rsa.pub>>./authorized_keys2.slave1、slave2的/home/Hadoop/下建立.ssh目录Hadoop@slave1:~$mkdir.sshHadoop@slave2:~$mkdir.ssh3.在master服务器中将authorized_keys复制到slave1,slave2中hadoop@master:~/.ssh$scpauthorized_keyshadoop@slave1:/home/hadoop/.ssh/hadoop@master:~/.ssh$scpauthorized_keyshadoop@slave2:/home/hadoop/.ssh/或：ssh-copy-id-i~/.ssh/id_rsa.pubhadoop@slave1ssh-copy-id-i~/.ssh/id_rsa.pubhadoop@slave2CompanyNameSSH配置4.SSH服务器的设置hadoop@master:~$cd/etc/sshhadoop@master:/etc/ssh$sudocpsshd_configsshd_config.bakhadoop@master:/etc/ssh$sudonanosshd_config修改下列语句：PermitRootLoginyesUsePAMyes#PasswordAuthenticationyesCompanyName3.3.1单机安装Hadoop1.解压hadoophadoop@master:~$tarzxvf./hadoop-1.2.1.tar.gzhadoop@master:~$mvhadoop-1.2.1/hadoop2.配置Hadoop的环境变量hadoop@master:~$sudonano/etc/profile在文件的尾部加入下在两句。exportHADOOP_HOME=/home/hadoop/hadoopexportPATH=$PATH:$HADOOP_HOME/bin3.启动Hadoophadoop@master:~$./start-all.shCompanyName3.3.1单机安装Hadoop4.运行jps查看Java进程。hadoop@master:~/hadoop/bin$jps5.查看HDFS文件系统hadoop@master:~/hadoop/bin$hadoopfs-lsCompanyName3.3.2伪分布式安装文件名称说

明hadoop用于执行hadoop脚本命令，被hadoop-daemon.sh调用执行，也可以单独执行，一切命令的核心hadoop-daemon.sh通过执行hadoop命令来启动/停止一个守护进程（daemon）。该命令会被bin目录下面所有以“start”或“stop”开头的所有命令调用来执行命令，hadoop-daemons.sh也是通过调用hadoop-daemon.sh来执行命令的，而hadoop-daemon.sh本身就是通过调用hadoop命令来执行任务。start-all.sh全部启动，它会调用start-dfs.sh及start-mapred.shstart-dfs.sh启动NameNode、DataNode及SecondaryNameNodestart-mapred.sh启动MapReducestop-all.sh全部停止，它会调用stop-dfs.sh及stop-mapred.shstop-balancer.sh停止balancerstop-dfs.sh停止NameNode、DataNode及SecondaryNameNodestop-mapred.sh停止MapReduce$HADOOP_HOME/bin目录CompanyName3.3.2伪分布式安装$HADOOP_HOME/conf目录文件名称说

明core-site.xmlHadoop核心全局配置文件，可以其他配置文件中引用该文件中定义的属性，如在hdfs-site.xml及mapred-site.xml中会引用该文件的属性。该文件的模板文件存在于$HADOOP_HOME/src/core/core-default.xml，可将模板文件拷贝到conf目录，再进行修改。hadoop-env.shHadoop环境变量hdfs-site.xmlHDFS配置文件，该模板的属性继承于core-site.xml。该文件的模板文件存在于$HADOOP_HOME/src/hdfs/hdfs-default.xml，可将模板文件拷贝到conf目录，再进行修改。mapred-site.xmlMapReduce的配置文件，该模板的属性继承于core-site.xml。该文件的模板文件存在于$HADOOP_HOME/src/mapred/mapredd-default.xml，可将模板文件拷贝到conf目录，再进行修改。masters用于设置所有secondaryNameNode的名称或IP，每一行存放一个。如果是名称，那么设置的secondaryNameNode名称必须在/etc/hosts有ip映射配置。slaves用于设置所有slave的名称或IP，每一行存放一个。如果是名称，那么设置的slave名称必须在/etc/hosts有ip映射配置。CompanyName3.3.2伪分布模式的安装1.修改hadoop/conf下的core-site.xmlhadoop@master:~/hadoop/conf$sudonanocore-site.xml<configuration><property><name></name><value>localhost:9000</value></property></configuration>2.修改hadoop/conf下的hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>CompanyName3.3.2伪分布模式的安装3.修改hadoop/conf下的mapred-site.xml<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>4.格式化文件系统hadoop@master:~/hadoop/bin$hadoopnamenode-format5.运行hadoophadoop@master:~/hadoop/bin$start-all.sh6.运行jps查看Java进程hadoop@master:~/hadoop/bin$jps7.停止hadoophadoop@master:~/hadoop/bin$stop-all.sh3.3.3分布式安装1.修改hadoop/conf/masters文件hadoop@master:~/hadoop/conf$sudonanomastersmaster主机名hadoop角色jps运行结果IP地址用户名/密码安装路径mastermasterslavesNameNodeSecondaryNameNodeJobTrackerTaskTrackerDataNode0hadoop/hadoop/home/hadoop/hadoopslave1slavesDataNodeTaskTracker0slave2slavesDataNodeTaskTracker0CompanyName3.3.3分布式安装2.修改hadoop/conf/slavers文件hadoop@master:~/hadoop/conf$sudonanoslavesmasterslave1Slave23.配置环境变量/etc/profile#hadoopenvironmentexportHADOOP_HOME=/home/hadoop/hadoopexportPATH=$PATH:$HADOOP_HOME/bin注意：以上这步骤在每台机器上都要修改一次4.在master机上编辑hadoop-env.shexportJAVA_HOME=/usr/lib/jdkCompanyName3.3.3分布式安装5.在master机上编辑core-site.xml<configuration><property><name></name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop/tmp</value></property></configuration>CompanyName3.3.3分布式安装6.在master机上编辑hdfs-site.xml<configuration><property><name>dfs.replication</name><value>3</value></property></configuration>7.在master机上编辑mapred-site.xml<configuration><property><name>mapred.job.tracker</name><value>master:9001</value></property></configuration>3.3.3分布式安装8.把hadoop安装文件夹复制到其他主机hadoop@master:~$scp-rhadoophadoop@slave1:/home/hadoop/hadoophadoop@master:~$scp-rhadoophadoop@slave2:/home/hadoop/hadoop9.hadoop启动hadoop@hadoop:~$cdhadoophadoop@hadoop:~/hadoop$bin/hadoopnamenode–format9.启动Hadoop：hadoop@master:~/hadoop$bin/start-all.sh10.用jps查看Java进程在master，slave1和slave2服务器上的结果$jpsCompanyName3.3.3分布式安装11.通过WEB页面查看Hadoop状况查看系统HDFS的状况：查看系统的MapReduce状况：12.停止hadoophadoop@master:~/hadoop$bin/stop-all.shCompanyName3.3.4Hadoop管理员常用命令显示支持的命令列表:$hadoopnamenode–help1.NameNode相关命令命令选项描述-format格式化NameNode。它启动NameNode，格式化NameNode，之后关闭NameNode。-upgrade分发新版本的Hadoop后，NameNode应以upgrade选项启动。-rollback将NameNode回滚到前一版本。这个选项要在停止集群，分发老的Hadoop版本后使用。-finalizefinalize会删除文件系统的前一状态。最近的升级会被持久化，rollback选项将再不可用，升级终结操作之后，它会停掉NameNode。-importCheckpoint从检查点目录装载镜像并保存到当前检查点目录，检查点目录由fs.checkpoint.dir指定。CompanyName3.3.4Hadoop管理员常用命令2.SecondaryNameNode命令运行secondarynamenode命令对EditsLog进行操作命令选项描述-checkpoint[force]如果EditLog的大小>=fs.checkpoint.size，启动Secondarynamenode的检查点过程。如果使用了-force，将不考虑EditLog的大小。-geteditsize打印EditLog大小。CompanyName3.3.4Hadoop管理员常用命令3.

datanode命令hadoopdatanode[-rollback]命令选项描述-rollback将DataNode回滚到前一个版本。这需要在停止DataNode，分发老的Hadoop版本之后使用。CompanyName3.3.4Hadoop管理员常用命令4.dfsadmin命令1）返回安全模式是否开启hadoop@master:~/hadoop/bin$hadoopdfsadmin-safemodeget2）SafemodeisOFF进入安全模式hadoop@master:~/hadoop$bin/hadoopdfsadmin-safemodeenter3）离开安全模式hadoop@master:~/hadoop/bin$hadoopdfsadmin-safemodeleave4）检查HDFS状态，包括DN信息hadoop@master:~/hadoop$bin/hadoopdfsadmin–report查看HDFS基本统计信息CompanyName3.3.4Hadoop管理员常用命令fsck命令1）检查HDFS块状态，是否损坏hadoopfsck/注意：此命令运行时间较长。2）检查HDFS块状态，删除损坏块hadoopfsck/-deleteCompanyName3.3.4Hadoop管理员常用命令6.job命令1）列出正在运行的Jobhadoopjob–list2）杀死某个进hadoop进程hadoopjob–kill<job-id>7.pipes命令运行pipes作业命令选项描述-conf<path>作业的配置-jobconf<key=value>,<key=value>,...增加/覆盖作业的配置项-input<path>输入目录-output<path>输出目录-jar<jarfile>Jar文件名-inputformat<class>InputFormat类-map<class>JavaMap类-partitioner<class>JavaPartitioner-reduce<class>JavaReduce类-writer<class>JavaRecordWriter-program<executable>可执行程序的URI-reduces<num>reduce个数CompanyName3.3.4Hadoop管理员常用命令8.jobtracker命令运行MapReducejobTracker节点用法：hadoopjobtracker9.tasktracker命令运行MapReduce的taskTracker节点。用法：hadooptasktracker10.balancer命令运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。用法：hadoopbalancer[-threshold<threshold>]11.version命令打印版本信息。$hadoopversionCompanyName3.4双NameNode分布式安装Hadoop2.2.0Hadoop2.X加入了一些新的特征，其中最重要的就是加入了双NameNode，克服了Hadoop1.X中NameNode的单点问题。通常一个NameNode处于active状态，另一个NameNode处于standby状态。Hadoop2.0官方提供了两种HDFSHA的解决方案，一种是NFS，另一种是QJMCompanyName3.4.1安装配置Zooekeeper集群ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，ZooKeeper是以FastPaxos算法为基础，实现同步服务，配置维护和命名服务等分布式应用。下载zookeeper-3.4.5.tar.gz，下载地址：CompanyName3.4.1安装配置Zooekeeper集群1.解压hadoop@hadoop01:~$tar-zxvfzookeeper-3.4.5.tar.gzhadoop@hadoop01:~$mvzookeeper-3.4.5zookeeper2.修改配置hadoop@hadoop01:~$cdzookeeper/confhadoop@hadoop01:~/zookeeper/conf$cpzoo_sample.cfgzoo.cfgnanozoo.cfg修改：dataDir=/home/hadoop/zookeeper/tmp在最后添加：server.1=hadoop01:2888:3888server.2=hadoop02:2888:3888server.3=hadoop03:2888:3888CompanyName3.4.1安装配置Zooekeeper集群创建一个tmp文件夹mkdir/home/hadoop/zookeeper/tmp再创建一个空文件hadoop@hadoop01:~/zookeeper/tmp$touchmyid最后向该文件写入IDhadoop@hadoop01:~/zookeeper/tmp$echo1>myid3.将配置好的zookeeper拷贝到其他节点hadoop@hadoop01:~$scp-rzookeeperhadoop@hadoop02:/home/hadoop/zookeeperhadoop@hadoop01:~$scp-rzookeeperhadoop@hadoop03:/home/hadoop/zookeeper提示：修改hadoop02、hadoop03对应zookeeper/tmp/myid内容

hadoop02：

echo2>/home/hadoop/zookeeper/tmp/myid hadoop03：

echo3>/home/hadoop/zookeeper/tmp/myidCompanyName3.4.2安装Hadoop2.2.01.解压hadoop2.2.0hadoop@hadoop01:~$tar-zxvfhadoop-2.2.0.tar.gzhadoop@hadoop01:~$mvhadoop-2.2.0hadoop2.修改/etc/profile添加以下内容，这一步需在所有节点上都做。exportHADOOP_HOME=/home/hadoop/hadoopexportPATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin3.修改hadoo-env.sh配置文件在$HADOOP_HOME/etc/hadoop目录下。hadoop@hadoop01:~$cdhadoop/etc/hadoophadoop@hadoop01:~/hadoop/etc/hadoop$nanohadoop-env.shexportJAVA_HOME=/usr/lib/jdkCompanyName3.4.2安装Hadoop2.2.04.修改core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://ns1</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop/tmp</value></property><property><name>ha.zookeeper.quorum</name><value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value></property></configuration>建tmp文件夹：hadoop@hadoop01:~/hadoop$mkdirtmp3.4.2安装Hadoop2.2.05.修改hdfs-site.xml6.修改slaves7.配置YARN修改yarn-site.xml8.修改mapred-site.xml9.复制hadoop文件夹hadoop@hadoop01:~$scp-rhadoophadoop@hadoop02:/home/hadoop/hadoophadoop@hadoop01:~$scp-rhadoophadoop@hadoop03:/home/hadoop/hadoop3.4.2安装Hadoop2.2.010.启动zookeeper分别在hadoop01、hadoop02、hadoop03上启动zookeeperhadoop@hadoop02:~$cdzookeeper/binhadoop@hadoop02:~/zookeeper/bin$./zkServer.shstart11.11.启动journalnode（在hadoop01上启动所有journalnode）hadoop@hadoop01:~/zookeeper/bin$cd/home/hadoop/hadoop/sbinhadoop@hadoop01:~/hadoop/sbin$hadoop-daemons.shstartjournalnode运行jps命令检验，多了JournalNode进程：hadoop@hadoop01:~/hadoop/sbin$

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3章Hadoop安装课件

文档简介

温馨提示

最新文档

评论

第3章Hadoop安装课件

文档简介

温馨提示

最新文档

评论

相关文档