Hadoop实战(虚拟多台电脑).doc_第1页
Hadoop实战(虚拟多台电脑).doc_第2页
Hadoop实战(虚拟多台电脑).doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop的下载地址: /dyn/closer.cgi/hadoop/core/ 版本:hadoop0.17.1 JDK的安装: 要求必须安装jdk1.5.07以上的版本。 分步式环境的搭建: 1、 硬件环境 我们采用了3台机器来构建,都安装的是Red Hat 4.1.2-42系统,并且都有一个名为“mingjie“的帐号,如下: 主机名称:hdfs1 ip:21 功能:NameNode,JobTracker 主机名称:hdfs2 ip:27 功能:DataNode,TaskTracker 主机名称:hdfs3 ip:28 功能:DataNode,TaskTracker 重点:修改3台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析 localhost 7 hdfs1 3 hdfs2 3 hdfs3 2、 每台机器都要安装java环境,我们的路径统一为“/opt/modules/jdk1.6“,并添加到系统环境变量sudo vi /etc/profile JAVA_HOME=/opt/modules/jdk1.6 PATH=$JAVA_HOME/bin:$PATH:$CATALINA_HOME/bin CLASSPATH=$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME 3、 下载hadoop0.17.1,将hadoop解压到/home/mingjie/,建议最好也将hadoop的目录添加到环境变量里面去: HADOOP_HOME=/home/mingjie/hadoop-0.17.1 #这是hadoop的主目录 export HADOOP_HOME HADOOP_CONF_DIR=$HADOOP_HOME/conf #这是hadoop的配置文件目录 export HADOOP_CONF_DIR HADOOP_LOG_DIR=/home/mingjie/hadoop-0.17.1/log 存放运行日志目录 export HADOOP_LOG_DIR export PATH=$PATH:$HADOOP_HOME/bin 4、 安装ssh,并生成公钥和私钥 运行 ssh-keygen -t rsa,根据屏幕提示直接选择“回车” 会在用户目录/.ssh/产生两个文件,id_rsa,id_rsa.pub cat /.ssh/id_dsa.pub /.ssh/authorized_keys 以上配置完成后,执行一下ssh localhsot,确认你的每台机器都可以使用ssh 5、 将master服务器上的authorized_keys的内容加到slave两台机器的authorized_keys文件中。让master也可以不需要密码访问2台slave服务器。 sudo scp authorized_keys hdfs2:/home/mingjie/.ssh/ sudo scp authorized_keys hdfs3:/home/mingjie/.ssh/ ssh hdfs2 ssh hdfs3 6、 接下来,我们要修改hadoop的conf/masters、conf/slaves这2个文件: Master设置(/conf/masters):hdfs1 Slave设置(/conf/slaves):hdfs2 hdfs3 7、 修改conf/hadoop-env.sh: export JAVA_HOME=/opt/jdk1.6.0_03 8、 修改conf/hadoop-site.xml,这里只是几个常用的属性配置,有关hadoop的性能优化调整,需要研究hadoop-default.xml: /你的namenode的配置,机器名加端口 hdfs:/hdfs1:54310/ mapred.job.tracker/你的JobTracker的配置,机器名加端口 hdfs:/hdfs1:54311 dfs.replication/数据需要备份的数量,默认是三 1 hadoop.tmp.dir/Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。 /home/mingjie/hadoop-0.17.1/tmp/ mapred.child.java.opts/java虚拟机的一些参数可以参照配置 -Xmx512m dfs.block.size/block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性校验,默认配置512是checksum的最小单元。 5120000 The default block size for new files. 9、 然后将hadoop的整体环境拷贝到hdfs2、hdfs3上面去 scp -r /home/mingjie/hadoop.0.17.1 hdfs2:/home/mingjie/ hadoop.0.17.1 scp -r /home/mingjie/ hadoop.0.17.1 hdfs3:/home/mingjie/ hadoop.0.17.1 10、 在hdfs1这个namenode上面格式化一个新的分布式文件系统HDFS,就是hadoop-site.xml文件中指定的hadoop.tmp.dir路径 /bin/hadoop namenode format 到此大致上就完成了hadoop环境布署 启动hadoop:/bin/start-all.sh 停止hadoop:/bin/stop-all.sh 说明: (1) 执行启动Hadoop进程后, 在master服务器会启动3个java进程,分别的NameNode,SecondNameNode,JobTracker,在LOG目录下会产生2个文件,分别对应NameNode的运行日志和JobTracker的运行日志, 在slave服务器会启动2个java进程,分别为DataNode,TaskTracker,,在LOG目录下会产生2个文件,分别对应DataNode的运行日志和TaskTracker的运行日志,可以通过查看日志分析hadoop的启动是否正确。 (2) 通过IE浏览分布式文件系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论