Hadoop1.2.1伪分布模式安装小结.doc_第1页
Hadoop1.2.1伪分布模式安装小结.doc_第2页
Hadoop1.2.1伪分布模式安装小结.doc_第3页
Hadoop1.2.1伪分布模式安装小结.doc_第4页
Hadoop1.2.1伪分布模式安装小结.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop1.2.1伪分布模式安装小结 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 其安装模式有单机模式,伪分布式,真正分布式,针对伪分布模式的安装总结如下:1:软件环境准备1.1Hadoop: 我们使用hadoop Release 1.2.1(stable)版本,下载链接:/apache/hadoop/common/hadoop-1.2.1/我们选择hadoop-1.2.1-bin.tar.gz文件下载。1.2Java: Java在这里使用的是jdk1.7版本的,当然也可以使用1.6的,下载链接:/technetwork/java/javase/downloads/jdk7-downloads-1880260.html我们选择Linux x86的jdk-7u40-linux-i586.tar.gz版本下载,因为我的Linux机器是32位的;如果Linux机器是64的就必须选择64位的下载,可以选择jdk-7u40-linux-x64.tar.gz;这个步骤非常重要,不同的机器必须要配置不同的jdk版本。2:安装到Linux中2.1创建目录: 首先我们创建一个目录:mkdir /data/installation,该目录存储下载好的的两个安装文件包。mkdir /data/software/hadoop,该目录存储hadoop程序文件。mkdir /data/software/java,该目录存储jdk的文件。mkdir /data/software/eclipse,该目录存储eclipse的文件。注意:在实际安装的时候我们最好单独为运行hadoop程序建立一个账号,并赋予相关权限。在这里我直接以root身份安装。2.2解压安装包文件: 把刚刚下载好的文件都放到/data/installation/目录下。首先解压java安装包文件,运行以下命令:tar -xzvf /data/installation/jdk-7u40-linux-x64.tar.gz -C /data/software/java/然后解压hadoop安装包文件,运行以下命令:tar -xzvf /data/installation/hadoop-1.2.1-bin.tar.gz -C /data/software/hadoop/最后解压eclipse安装包文件,运行以下命令:tar -xzvf /data/installation/eclipse-standard-kepler-SR1-linux-gtk.tar.gz -C /data/software/eclipse/3:配置Hadoop Hadoop环境的配置关重要,首先必须要配置java运行环境。3.1配置java环境: 添加JAVA_HOME,CLASSPATH环境变量:使用vi /etc/profile命令编辑profile文件,在文件末尾加上以下内容:HADOOP_INSTALL=/data/software/hadoop/hadoop-1.2.1/JAVA_HOME=/data/software/java/jdk1.7.0_40PATH=$JAVA_HOME/bin:$HADOOP_INSTALL/bin:$PATHCLASSPATH=$JAVA_HOME/libexport JAVA_HOME PATH CLASSPATH HADOOP_INSTALL然后保存,退出,使用source /etc/profile使刚刚的更改立即生效。然后使用java version命令,查看是否配置成功,如果成功会出现以下信息:java version 1.7.0_40Java(TM) SE Runtime Environment (build 1.7.0_40-b43)Java HotSpot(TM) Client VM (build 24.0-b56, mixed mode)3.2配置ssh环境: 使用以下命令设置ssh无密码连接:ssh-keygen -t dsa -P -f /.ssh/id_dsacat /.ssh/id_dsa.pub /.ssh/authorized_keys测试ssh配置是否成功:ssh localhost可以看到配置成功了,连接无需使用密码了;配置ssh无密码访问有很多种方法,以上只是其中一种,以下是另外一种方法:cd ssh-keygen -t rsacd .sshcp id_rsa.pub authorized_keysssh hostname /测试连接hostname是否成功3.3配置hadoop环境: 我们首先进入到/data/software/hadoop/hadoop-1.2.1/conf这个目录,然后可以看到haddoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml这四个文件以及需要在完全分布模式配置的slaves和masters文件:3.3.1配置hadoop-env.sh:首先我们用vi hadoop-env.sh命令编辑打开hadoop-env.sh文件,找到JAVA_HOME关键字所在的行,把前面的#号去掉,然后填写实际的JAVA_HOME地址:export JAVA_HOME=/data/software/java/jdk1.7.0_403.3.2配置core-site.xml: vi core-site.xml打开core-site.xml文件,然后在configuration标签中加入以下内容:hdfs:/localhost:9000hadoop.tmp.dir/data/tmp/hadoop_tmp3.3.3配置hdfs-site.xml:在configuration标签中加入以下内容,所有不存在的目录都要预先创建:dfs.data.dir/data/appdata/.dir/data/appdata/hadoopnamedfs.replication13.3.4配置mapred-site.xml:在configuration标签中加入以下内容:mapred.job.trackerlocalhost:90014:启动hadoop4.1:测试hadoop配置是否成功:4.2:格式化namenode:cd /data/software/hadoop/hadoop-1.2.1/bin./hadoop namenode format4.3:启动hadoop进程,运行start-all.sh:cd /data/software/hadoop/hadoop-1.2.1/bin./start-all.sh 我们可以通过java的jps命令来查看进程是否启动成功,从下图可以看到,我们已经成功启动SecondaryNamenode,JobTracker,NameNode,DataNode,TraskTracker五个进程,而刚好这五个进程是hadoop所需要的。如果有一个进程没有启动成功,就表示整个集群没有正常工作,我们可以进入/data/software/hadoop/hadoop-1.2.1/libexec/./logs/目录下查看失败日记。4.4:从浏览器查看hadoop信息: 我们可以从本机或者其他机器的浏览器访问hadoop。查看jobtracker信息:07:50030/jobtracker.jsp上图显示的只是该页面的部分信息。查看namenode信息:07:50070/dfshealth.jsp上图显示的只是该页面的部分信息。查看trasktracker信息:07:50060/tasktracker.jsp5:hadoop实例 在这里我们来测试下hadoop自带的examples例子,该例子里面有个wordcount类,wordcount用来计算文件里面每一个单词出现了多少次数。examples jar包位于hadoop安装目录下,名称叫做hadoop-examples-1.2.1.jar:5.1:进入到bin目录中去首先我们进入到bin目录中去:cd /data/software/hadoop/hadoop-1.2.1/bin5.2:创建文件夹 然后我们创建一个input文件夹,并且创建3个文件,给每个文件写一些内容:mkdir inputecho “hello hadoop” input/f1.txtecho “hello word” input/f2.txtecho “hello java” input/f3.txt5.3:在hadoop中创建文件夹 使用以下命令在hadoop中创建文件夹:hadoop dfs mkdir input 然后我们查看在hadoop中是否已经创建该文件夹:hadoop dfs ls /user/root我们可以看到已经成功在hadoop中创建了input文件夹。5.4:把文件复制到hadoop中 使用以下命令把文件从Linux中复制到hadoop中:hadoop dfs put input/* input查看文件是否在hadoop中:hadoop dfs ls input查看文件内容是否一致:hadoop dfs cat input/f1.txt 可以看到,文件已经成功放入hadoop文件系统中了。5.5:从浏览器中查看文件内容 我们也可以从浏览器中浏览整个hdfs文件系统的目录,打开namenode链接:07:50070/dfshealth.jsp然后里面会有个Browse the filesystem超级链接,点击进去就可以看到相应的目录结构了。5.6:运行examples例子 我们使用以下命令来运行wordcount程序:hadoop jar ./hadoop-examples-1.2.1.jar wordcount input output 注意当前目录是bin目录,而jar包在上一级目录中,则定位jar包需要用到.来表示上级目录,wordcount表示jar包中的类名,表示要执行这个类,input是输入文件夹,output是输出文件夹,必须不存在,它由程序自动创建,如果预先存在output文件夹,则会报错。 我们可以看到程序已经运行成功,接下来就是查看运行结果了。5.7:查看运行结果 我们可以查看output文件夹的内容来检查程序是否成功创建文件夹,通过查看o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论