Hadoop HBase 使用指南.docx_第1页
Hadoop HBase 使用指南.docx_第2页
Hadoop HBase 使用指南.docx_第3页
Hadoop HBase 使用指南.docx_第4页
Hadoop HBase 使用指南.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章 集群的搭建1.1 集群的结构实验环境中共有6台服务器,搭建完全分布式HDFS与HBase环境,采用的Hadoop与HBase版本为hadoop0.20.2HBase0.92.0,其中一台节点做为NameNode和Master,另一台做为Master备份节点(可以不要备份Master节点),剩余四台则做为DataNode和RegionServer节点,并且在其上运行Zookeeper服务,整个实验环境结构如图 31所示。图 11 HBase 集群结构1.2 基础环境整个系统要能正常的运行,在各机器上安装需要的程序软件之前,也要正确的配置好网络连接、程序参数和系统设置等,主要包括:操作系统Ubuntu10.04、sun-java-6和OpenSSH。分别在每台服务器上安装上述的系统和程序,过程中要注意:根据Hadoop和HBase的系统兼容性要求Linux系统的版本可以不一致,不影响HDFS和HBase的运行。JDK的版本、安装位置和环境变量的设置都应保持一致。OpenSSH要设置为无密码访问,确保各服务器之间能正常通信。各服务器配置如表 31所示。表 11服务器的配置信息主机名IP地址(在同一网段内)备注Master1Master2Slave1Slave2Slave3Slave400901020304NameNode和Master节点Master备份节点DataNode和RegionServerDataNode和RegionServerDataNode和RegionServerDataNode和RegionServer1.3 软件的安装集群中Hadoop和HBase的版本要保持一致,并确保Hadoop和HBase版本相互之间兼容。1.3.1 SSH设置 免密码SSH设置。生成密钥对,执行如下命令:$ ssh-keygen -t rsa然后一直按键,就会按照默认的选项将生成的密钥对保存在.ssh/id_rsa文件中,如图1-9所示。图1-9 将密钥对保存在.ssh/id.rsa文件中进入.ssh目录,执行如下命令:$ cp id_rsa.pub authorized_keys此后执行$ ssh localhost,可以实现用SSH 连接并且不需要输入密码。 SSH配置。该配置主要是为了实现在机器之间执行指令时不需要输入密码。在所有机器上建立.ssh目录,执行:$ mkdir .ssh在ubuntunamenode上生成密钥对,执行:$ ssh-keygen -t rsa然后一直按键,就会按照默认的选项将生成的密钥对保存在.ssh/id_rsa文件中。接着执行如下命令:$cd /.ssh$cp id_rsa.pub authorized_keys$scp authorized_keys ubuntudata1:/home/grid/.ssh$scp authorized_keys ubuntudata2:/home/grid/.ssh最后进入所有机器的.ssh目录,改变authorized_keys文件的许可权限:$chmod 644 authorized_keys这时从ubuntunamenode向其他机器发起SSH连接,只有在第一次登录时需要输入密码,以后则不再需要。1.3.2 JDK安装实验使用jdk-6u24-linux-x86.bin,软件放在共享文件夹下。把Java安装到目录/usr/ java/jdk1.6.0_24,使用如下命令:$ cd /usr/java/$ /mnt/hgfs/share/jdk-6u24-linux-x86.bin JDK设置编辑系统文件/etc/profile ,在文件最后添加JDK的环境变量。#set java environmentJAVA_HOME=/usr/ java/jdk1.6.0_24CLASSPATH=.:$JAVA_HOME/bin:$PATHPATH=$JAVA_HOME/bin:$PATHExport JAVA_HOME CLASSPATH PATH1.3.3 Hadoop的安装实验使用的是Hadoop-0.20.2.tar.gz安装包,包括HDFS和MapReduce,安装过程如下:首先把Hadoop-0.20.2.tar.gz安装包解压到Linux /home/UserName目录下,命令为:$tar -zxvf / Hadoop-0.20.2.tar.gz /home/UserName解压文件之后需要对Hadoop进行配置,Hadoop的配置文件存放在/home/UserName/hadoop-0.20.2/conf目录之下,其中包括一个环境配置文件Hadoop-env.sh、核心配置文件core-site.xml、分布式文件系统HDFS配置文件hdfs-site.xml、MapReduce计算框架配置文件mapred-site.xml、主节点配置文件masters和从节点配置文件slaves,需要对各文件进行表 32所示配置。表 12 Hadoop配置文件文件名注释Hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlmastersslaves配置Java环境变量:JAVA_HOME=/usr/java/jdk1.6.0_21HDFS服务端口:=hdfs:/localhost:9000配置HDFS的参数:如数据副本数目等MapReduce服务端口:mapred.job.tracker=localhost:9001设置NameNode,添加NameNode主机名设置Slaves,所有DataNode主机名在一台服务器上安装完之后,可以把Hadoop目录下的所有文件Copy到集群中其它服务器上来完成整个集群的安装,其命令为:$scp -rf /home/UserName/hadoop-0.20.2/ slave1:/home/Username/运行Hadoop前要对NameNode的命名空间进行初始化,在Hadoop目录下运行:$bin/hadoop NameNode -format然后启动Hadoop的守护进程:$bin/start-all.sh系统成功运行之后master之上将会运行NameNode、Secondary NameNode和JobTracker三个进程,slave节点之上会运行DataNode和TaskTracker二个进程。通过命令:$bin/hadoop dfsadmin -report可以查看整个系统的运行状态信息。1.3.4 HBase的安装HBase的安装包hbase-0.92.0.tar.gz包含分布式数据库HBase和Zookeeper,将其解压到目录/home/UserName/下。HBase的配置文件在conf目录下,包含环境配置文件hbase-env.sh、HBase数据库运行参数配置文件hbase-site.xml和Region服务器列表文件regionservers,需要对文件进行如表 33所示配置:表 13 HBase配置文件文件名注释hbase-env.shhbase-site.xmlregionservers设置由HBase管理Zookeeper:HBASE_MANAGES=true设置HBase的参数:hbase:rootdir=hdfs:/UbuntuMaster:9000/hbasehbase.cluster.distributed=trueRegion服务器列表HBase是运行在HDFS之上的,所以必须确保HDFS处于正常运行状态。同时因为存在版本兼容性问题,在启动HBase之前必须让HBase确定集群中所使用的Hadoop的版本,需要把Hadoop目录下的hadoop-0.20.2-core.jar替换掉HBase/lib目录下的hadoop-core-1.0.0.jar。最后确保集群中每台服务器的系统时间保持相对一致(误差小于30秒),进入HBase目录输入命令以启动HBase:$bin/start-hbase.sh接着启动HBase的外壳程序,命令如下:$bin/hbase shell在shell模式下可以对HBase进行创建表、添加数据、读取数据和删除表等操作。第2章 实验中常见的问题和解决方法2.1 问题1:节点不能正常启动1.Datanode,RegionServer 进程可以启动但是系统不能正常使用-节点系统时间不同步。解决方法:修改集群各个节点的系统时间,把时间误差控制在30秒之内,命令为:$Sudo Date s time$hwclock systohc 2.Datanode 进程启动后不久,自动结束-系统命名空间出错解决方法:由于namenode和datanode空间版本不匹配,需要把所有Datanode节点存储的内容删除,然后重新formate命名空间,在重新启动Hadoop,可以解决这个问题2.2 问题2:节点能够正常启动,但是某些datanode不能访问。1如果是在版本较新的桌面linux系统中,可能是IP配置出现问题,要把IPV6的配置清空,禁用IPV6服务。2.长时间运行之后,也会出现个别节点不提供服务的情况,这是需要把该节点的服务关闭后重新启动。$HBase regionserver start2.3 问题3:HMaster不能启动错误 Address already in use9000端口已经被占用,可以查看系统占用9000端口的服务,很有可能是多吃启动HBase并且没有正常结束的原因,可以重新启动计算机。如果9000端口被其他服务占用可以为HBase重新配置其他端口2.4 问题4:数据备份和数据库切换问题HBase数据库是在HDFS的文件系统上创建一个存储目录,所以要备份HBase数据只需要在HDFS的shell中,在HBase目录copy到本地即可。如果要更换数据库,需要修改HBase的配置文件,改变HBase指向的文件目录即可。2.5 问题5:Call to master:9000 f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论