hadoop的开发.docx

上传人：仙*** IP属地：河南上传时间：2020-01-07 格式：DOCX 页数：22 大小：985.36KB 积分：16 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

注意：本文的配置环境是： CygWin最新版本2.769下载地址 Window7-64bit JDK1.6.0_31-win64 (JRE6)下载地址 Eclipse-Indigo. Hadoop 0.20.2 (注意：0.20.203版本不可用，会导致tasktracker无法启动)下载地址-华丽分割-环境安装&配置：1.JDK，我的安装目录：C/Java，安装后视图安装好了JDK，然后配置JAVA_HOME环境变量:然后，把JDK下面的BIN目录追加到环境变量PATH后面。2.CygWin，安装过程中记得选择所需的包，这里需要的是:Net Category下的：openssh,opensslBaseCategory下的：sed （若需要Eclipse，必须sed）Devel Category下的：subversion（建议安装）。具体请参考下面的图示：安装完成后，把CygWin的bin目录以及usr/sbin 追加到系统环境变量PATH中。3.Hadoop把下载的hadoop-0.20.2.tar.gz解压到指定目录。我把解压后的Hadoop程序放到了Cygwin根目录下的hadoop文件夹中。具体如下图示：（不要使用0.20.203版本的Hadoop！）下面开始配置Hadoop。需要配置的文件：（hadoop/conf目录下）1. hadoop-env.sh 2. core-site.xml 3. hdfs-site.xml 4. mapred-site.xml第一个文件 hadoop-env.sh把里面的JAVA_HOME改掉，注意export前面的#号要去掉。而且必须要使用linux的路径表达方式。我的jdk路径是 C:JAVAjdk1.6.0_31，在CygWin中对应的路径为： /cygdrive/c/java/jdk1.6.0_31第二个文件：core-site.xml首先删除它，然后把hadoop/src/core目录下的core-default.xml文件复制到conf目录下，并命名为core-site.xml。然后修改其中的变量，如下所示。（确保端口号（我的是9100）未被占用）第三个文件：hdfs-site.xml首先把它删除，然后复制src/hdfs目录下的hdfs-default.xml到conf目录下，并改名为hdfs-site.xml然后修改dfs.replication变量，如下图示：该变量意思是文件系统中文件的复本数量。在单独的一个数据节点上运行时，HDFS无法将块复制到三个数据节点上。第四个文件：mapred-site.xml首先删除它，然后复制src/mapred目录下的mapred-default.xml到conf目录下，并改名为mapred-site.xml，然后修改其mapred.job.tracker变量：（同样确保端口号未被占用）-华丽分割-配置SSH服务（首先确认安装了OpenSSH,OpenSSL两个包）1.打开CygWin输入SSH-HOST-CONFIG2.系统提示：should privilege separation be used ? 回答：no3.系统提示：if sshd should be installed as service?回答：yes4.系统提示：the value of CYGWIN environment variable 输入: ntsec5.成功下面是图示（我自己当时没记录，所以参考的是网络上的图片）下一步，进入Window系统的服务菜单，打开Cygwin的SSHD服务：如下图所示：下面继续回到CygWin环境：执行如下命令：1.ssh-keygen然后一直回车2.cd /.ssh3. cp id_rsa_pub anthorized_keys4.exit 退出cygwin，若不退出，可能出错再次登录时查看一下：5运行 ssh localhost 若有提示，则回车。6执行 ps 若看到有/usr/bin/ssh 进程，说明成功-华丽分割-启动Hadoop第0步：为了避免jobtracker，info could only be replicated to 0 node,instead of 1错误，最好把 hadoop/conf目录下面的 masters和slaves文件全部改为（原内容为：localhost）第一步，在hadoop目录下创建目录logs，用于保存日志第二步，格式化管理者，即namenode，创建HDFS执行命令： bin/hadoop namenode -format，下面示代表成功此时，执行ps，应该能看到ssh进程，且看不到java虚拟机进程。第三步，启动Hadoop，执行命令： bin/start-all.sh然后执行jps命令，你可能会看到如下图：会发现Datanode ，Secondarynamenode以及TaskTracker都没有启动。网上有人说是JPS的问题，具体不是很清楚，但本文后面的文件系统可以使用。Datanode可以保存数据，继续看吧。不过此时执行PS命令，能看到5个JVM进程。不知道这算不算成功，但我的Logs日志文件夹里面没有报错。-华丽分割-文件系统操作为了验证HDFS能够正常工作我们可以进行文件的上传操作。执行命令：bin/hadoop fs -mkdir Inbin/hadoop fs -put *.txt In以上命令会在HDFS中建立In文件夹，然后把本地Hadoop目录下的所有文本文件上传到HDFS中，Hadoop目录下共用四个txt文件：OK，上传的太少，不爽，再上传一部电影。比如，我要把一个视频文件movie.mpg上传到HDFS中，首先，在Hadoop根目录下建立文件夹local，然后把movie.mpg拷贝到其中下面执行命令：然后，查看文件系统是否有上述文件：可以看到Movie.mpg在HDFS中。同样在Eclipse中也能看到哇：OK，突然不能贴图了，我再接着写一篇吧。介绍一下常见的错误处理。上一篇最后贴的图是在Eclipse下查看文件系统组成。配置Eclipse插件请参考/flyoung2008/archive/2011/12/09/2281400.html-继续上一篇。上传完视频以后，可以通过如下几个命令查看系统的运行情况：bin/hadoop dfsadmin -reportbin/hadoop dfs -lsr / 查看文件系统OK。我在配置过程中主要遇到的错误是：错误1. .could only be replicated to 0 nodes,instead of 1这个错误主要的解决方法是:1.把 tmp文件全部删除。2.然后把hadoop/conf目录下的slaves,masters文件内容全部改成 3.重新格式化namenode :(bin/hadoop namenode -format)也许你不知道hadoop 的tmp文件在哪里，默认情况下应该才 cygwin根目录下的tmp文件夹内：如下图所示：把它们都删掉。就OK了。 (cd /tmp , rm -rf *)参考博客：/blog/1279495错误2：name node is in safe mode直接输入命令： bin/hadoop dfsadmin -safemode leave 离开安全模式基于Eclipse的Hadoop应用开发环境配置我的开发环境：操作系统centos5.5 一个namenode 两个datanodeHadoop版本：hadoop-Eclipse版本：eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃，让人郁闷)第一步：先启动hadoop守护进程具体参看：/flyoung2008/archive/2011/11/29/2268302.html第二步：在eclipse上安装hadoop插件1.复制 hadoop安装目录/contrib/eclipse-plugin/hadoop--eclipse-plugin.jar 到 eclipse安装目录/plugins/ 下。 2.重启eclipse，配置hadoop installation directory。如果安装插件成功，打开Window-Preferens，你会发现Hadoop Map/Reduce选项，在这个选项里你需要配置Hadoop installation directory。配置完成后退出。3.配置Map/Reduce Locations。在Window-Show View中打开Map/Reduce Locations。在Map/Reduce Locations中新建一个Hadoop Location。在这个View中，右键-New Hadoop Location。在弹出的对话框中你需要配置Location name，如Hadoop，还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如：Map/Reduce Master019001DFS Master019000配置完后退出。点击DFS Locations-Hadoop如果能显示文件夹(2)说明配置正确，如果显示拒绝连接，请检查你的配置。第三步：新建项目。 File-New-Other-Map/Reduce Project 项目名可以随便取，如WordCount。复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。第四步：上传模拟数据文件夹。为了运行程序，我们需要一个输入的文件夹，和输出的文件夹。在本地新建word.txtjava c+ python cjava c+ javascript helloworld hadoopmapreduce java hadoop hbase 通过hadoop的命令在HDFS上创建/tmp/workcount目录，命令如下：bin/hadoop fs -mkdir /tmp/wordcount通过copyFromLocal命令把本地的word.txt复制到HDFS上，命令如下：bin/hadoop fs -copyFromLocal /home/grid/word.txt /tmp/wordcount/word.txt第五步：运行项目1.在新建的项目Hadoop，点击WordCount.java，右键-Run As-Run Configurations 2.在弹出的Run Configurations对话框中，点Java Application，右键-New，这时会新建一个application名为WordCount 3.配置运行参数，点Arguments，在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”，如：hdfs:/centos1:9000/tmp/wordcount/word.txt hdfs:/centos1:9000/tmp/wordcount/out4、如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)-Xms512m -Xmx1024m -XX:MaxPermSize=256m5.点击Ru

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

hadoop的开发.docx

文档简介

温馨提示

最新文档

评论

hadoop的开发.docx

文档简介

温馨提示

最新文档

评论

相关文档