大数据环境搭建——已验证通过.doc

上传人：清*** IP属地：河南上传时间：2020-01-26 格式：DOC 页数：20 大小：586.50KB 积分：12 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Cygwin的安装1.先在/install.html上下载安装文件打开后双击setup.exe安装。如下图：2.直接点击下一步后如下图：图中有三个选项，意思一看就懂啊。这里直选择下一步3.直接点击下一步后如下图:这里是要选择安装路径，设置在哪里都可以。没有特殊要求。4.设置好路径后下一步进入下图：这是设置Cygwin安装文件的目录。先安装的exe只是个引导它需要自己下载安装文件。设置这个目录就是存储这些文件的。5.设置好后下一步进入下图：这里是你网络的链接方式，第一个是直接链接，第二个是使用IE代理，第三个使用你指定的HTTP/FTP代理。你要根据你自己的情况选择。通常选第一个如不好使则查看你的联网是否使用了代理用了就选下面两个中的一个。6.设置好后下一步进入下图：选择其中一个url用作下载的站点。我选第一就行挺快的。你的不行可以试试别的。也可以在下面的User URL中添加url写完地址一点Add就加入到上面的url列表中了。然后选择你自己加入的url即可。如果自己加入可以尝试一下这个url：/pub/。然后点击下一步进行安装文件的下载，需要点时间。如果点击下一步后出现这个错误Internal Error: gcrypt library error 60 illegal tag。就是上一步网络选择的问题或者选择的url不能下载。自己可以尝试改动一下。正常下载的话也可能出现一个警告窗口如下图：点击确定即可。随即会进入下图。7.来到此图就要开始进行一些配置了。选择一下要安装的包。如下图：首先：选择其中的Base Default，通常这里的包都已经选择上了。你要确保sed已选择上，这样你可以在eclipse中使用hadoop了。如下图这样即可：其次：选择Devel Default，将其中的subversion选中第一个即可。如下图：最后：选择Net default包，将其中的openssh及openssl选上。如下图：经过上述包选择后点击下一步即可。8.来到这个图中如下：都是些你不用也不能改的东西，包依赖的一些提示信息。直接点一下步。这是将进入下载及安装你刚刚所选择的包的过程。随后不用再说了。设置是否在桌面显示图标之类额。随后结束了。9.打开cygwin进行配置，首先输入：ssh-host-config.回车。会让你输入yes/no输入no。回车。见到Have fun！就说明成功了。见下图：10.先到计算机管理服务处开启CYGWIN sshd服务。开启后在cygwin中输入：ssh localhost进行登录。回车后，会提示是否继续链接选择yes。随后输入系统用户密码登录。注意：如果你当前使用的用户没有密码就设定一个。否则没有密码你即使不输你回车也不好使。如下图：11.这是进行ssh的无密码登录。输入ssh-keygen，提示输入的地方直接按回车即可。执行后如下图：随后执行下图中的命令。 1、cd /.ssh/ 2、ls 3、cp id_rsa.pub authorized_keys到此步即可。再ls就会看到authorized_keys如下图：完成后输入exit退出。可能需要输入几次。没退出就再输一个exit。呵呵。12.然后再次打开cygwin。这回直接输入ssh localhost登录命令就可以直接进入了。不在需要密码了。如下图：至此cygwin就配置结束了。你可以使用了。Hadoop的配置1.下载hadoop安装包可以到这个网站上下载/dist/hadoop/core/如果下载不下来自己到网上找找很多的。选一个版本下载。我用的是hadoop-0.20.2。2.解压到一个目录下。随便选择按个目录。建议直接选择一个根目录。随后进行配置。这里配置的是伪分布式了。需要配置四个文件。都在conf目录下。分别为：hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。下面逐一说明：3.hadoop-env.sh这个文件中主要配置JAVA_HOME路径。需要注意的是：1.jkd是1.6以上版本。2.路径应该是linux风格的。打开后将export前面的#注释符去掉，路径为/cygdrive/你的jdk路径（注：这里修改必须利用TXT打开否则修改后会出问题！）。如果路径中有空格需要将路径用括起来（注：若路径中带有空格，如Program Files的情况，加”也无作用，则创建软连接即可解决，如下：里面有空格programfiles你可以找个目录设置一个软链接，比如说ln-sC:ProgramFilesJavajdk1.7.0_07/usr/local/然后将hadoop-env.sh里的JAVA_HOME改成exportJAVA_HOME=/usr/local/jdk1.7.0_07就可以了）。设置后如下图：4. core-site.xml 配置属性很多。到也可以简化自己设置几个属性就可以了。这里我们直接复制src/core下的core-default.xml到conf下并改名为core-site.xml替换原来的。修改下列属性如下： hadoop.tmp.dir/hadoop/tmp A base for other temporary directories. 设置临时的文件hadoop默认中有了但重启后会被删除所以还得需要格式化所以手动设定一个。避免格式化。 hdfs:/localhost:90005. hdfs-site.xml这个也同样到src/hdfs下把hdfs-default.xml复制到conf下改名替换。修改下列属性： .dir /hadoop/name DFS名节点存放位置 dfs.data.dir /hadoop/data DFS数据节点存放位置 dfs.replication 1 存放副本数，这是为了安全考虑的在集群中要多放几个。咱们是伪分布式的就一个可以了。6. mapred-site.xml这个也同样到src/mapred中把mapred-default.xml复制到conf中改名替换。修改下列属性： mapred.job.tracker localhost:9001 MapReduce 的jog tracker运行在所在主机及端口号。 mapred.local.dir /hadoop/temp MapReduce的运行中间数据文件的存放路径7. 这就可以了。设置就结束了。下面运行试一试。使用cygwin进入到hadoop安装路径下的bin文件夹中。查看显示如下：首先格式化：./hadoop namenode format 如果让选择Y/N 选择Y。如下图：其次运行：./start-all.sh 如下图则成功了。总共会启动五个节点。最后：运行一下自带的wordcount例子。1.先在本地文件建立一个文件夹(最好建在hadoop的安装文件在同一个目录下)如testin随后在里面建几个文件txt或java的随意。在里面输入以下英文单字。如file1.java 内容Hello world ！file2.java 内容：I love you ！2.在cygwin中建一个hadoop hdfs上的目录如testin。命令如下：./hadoop dfs mkdir testin3.将本地的两个文件上传到dfs上去。./hadoop dfs put /testin/*.java testing（注意这里的FileForHadoop是例子中testin文件目录，加与不加可按具体情况而定）此时运行./hadoop dfs ls testin 就会就会发现已有了这两个文件了。 2、3步执行如下图： 4.执行 ./hadoop jar ././hadoop-0.20.2-examples.jar wordcount testin testout如下图则成功了5.查看结果 ./hadoop dfs -ls testout 会发现下面有两个文件一个是日志一个是结果文件。 ./hadoop dfs -cat testout/part-r-00000 查看统计单字的结果文件执行如下图：至此hadoop就安装配置都已结束并经过测试已经可以正常运行了。开始云学习吧。安装Eclipse插件打开解压后的文件夹，把hadoop-0.19.2/contrib/eclipse-plugin下的hadoop-0.19.2- eclipse- plugin.jar文件拷到eclipse 的plugins目录下，重启eclipse，在Window-Open Perspective-other，弹出的窗口中应该有一项Map/Reduce项，代表安装成功了。如果没有的话，把eclipse下的 configuration/org.eclipse.update文件夹删了，再重启eclipse。启动Hudoop集群启动五个cygwin。在第一中启动NameNode，执行：cd hadoop-0.19.2bin/hadoop namenode在第二个中启动Secondary NameNode，执行：cd hadoop-0.19.2bin/hadoop secondarynamenode第三个中启动job tracker 执行：cd hadoop-0.19.2bin/hadoop jobtracker第四个中启动data node ，执行cd hadoop-0.19.2bin/hadoop datanode最后一个启动 task tracker，执行：cd hadoop-0.19.2bin/hadoop tasktracker在Eclipse中配置环境启动eclipse，转到Map/Reduce Perspective,在上图的Map/Reduce Locations里，新建一个Location，填入以下值 * Location Name - localhost * Map/Reduce Master o Host - localhost o Port 9101（视自己的.xml里的修改而定！9001） * DFS Master o Check Use M/R Master Host o Port - 9100（视自己的.xml里的修改而定！9000） * User name - 默认上传文件到HDFS 打开一个cygwin，执行 cd hadoop-0.19.1 bin/hadoop fs -mkdir In bin/hadoop fs -put *.txt In这时，在eclipse的Project explorer的DFS location中，应该能反应变化，没有的话，reconnect一下好了，东西都准备好了，下篇就可以开始创建工程了。启动Eclipse，右键点击 Project Explorer 窗口，选择 New - Project. 找到 Map/Reduce Project，点Next ，输入名字。点击下面的Config Hadoop Install Directiory，输入Hadoop的目录，如：C:/cygwin/home/User/hadoop-0.19.2 右键点击新创建的 Hadoop工程，选择 New - Other 转到 Map/Reduce 文件夹, 选择 MapReduceDriver 然后点击 Next ，输入名字，点击Finish。新创建了一个文件，但是有错误，把 conf.setInputPath(new Path(src);conf.setOutputPath(new Path(out);换为conf.setInputFormat(TextInputFormat.class);co

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据环境搭建——已验证通过.doc

文档简介

温馨提示

最新文档

评论

大数据环境搭建——已验证通过.doc

文档简介

温馨提示

最新文档

评论

相关文档