虚拟化与云计算课程实验报告——Hadoop平台搭建

上传人：缘*** IP属地：河北上传时间：2020-08-08 格式：DOC 页数：28 大小：5.53MB 积分：12 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、虚拟化与云计算实验报告目录一、实验目标1二、实验内容1三、实验步骤1四、实验遇到的问题及其解决方法1五、实验结论1一、实验目的1. 实验题目：配置和使用SAN存储掌握在Linux上配置iSCSI target服务的方法。2. 实验题目：Hadoop&MapReduce安装、部署、使用Hadoop-HDFS配置运行MapReduce程序，使用MapReduce编程二、实验内容1. 实验题目：配置和使用SAN存储配置在Linux上iSCSI实现两台机器间的共享存储。2. 实验题目：Hadoop&MapReduce1. 掌握在集群上（使用虚拟机模拟）安装部署Hadoop-HDFS的方法。2. 掌握在

2、HDFS运行MapReduce任务的方法。3. 理解MapReduce编程模型的原理，初步使用MapReduce模型编程。三、实验步骤及实验结果1. 实验题目：配置和使用SAN存储在实验1中我作为主机提供共享存储空间，实验地点是在机房，但是由于我当时没有截图所以回寝室在自己的电脑上重做，以下为主机步骤：1.1确定以root身份执行以下步骤sudo su 1.2安装iSCSI Target软件1.3修改/etc/default/iscsitargetISCSITARGET_ENABLEtrue1.4创建共享存储共享存储可以是logical volumes, image files, hard d

3、rives , hard drive partitions or RAID devices例如使用image file的方法，创建一个10G大小的LUN：dd if=/dev/zero of=/storage/lun1.img bs=1024k count=102401.5 修改/etc/iet/ietd.conf添加： Target .example:storage.lun1IncomingUser username password OutgoingUser Lun 0 Path=/storage/lun1.img,Type=fileio Alias LUN1

4、 #MaxConnections 61.6修改/etc/iet/initiators.allow如果只允许特定IP的initiator访问LUN，则如下设置.example:storage.lun1 00如果任意initiator均可以访问，则：ALL ALL1.6启动/重启动iSCSI target/etc/init.d/iscsitarget start/etc/init.d/iscsitarget restart2. 实验题目：Hadoop&MapReduce1. 安装JDK在实验中安装为OpenJDK 6 Runtime2. 安装op

5、enssh-server，命令为：sudo apt-get install openssh-server，并检查ssh server是否已经启动：ps -e | grep ssh，如果只有ssh-agent那ssh-server还没有启动，需要/etc/init.d/ssh start，如果看到sshd那说明ssh-server已经启动了。3. 免密码ssh设置，确认能否不输入口令就用ssh登录localhost:ssh localhost如果不输入口令就无法用ssh登陆localhost，执行下面的命令：$ ssh-keygen -t rsa -f /.ssh/id_rsacat /.ssh

6、/id_rsa.pub /.ssh/authorized_keys再次执行ssh localhost，完成后请登入确认不用输入密码 4. 安装Hadoop解压Hadoop安装包到安装目录，在本实验中我新建了一个用户hadoop并把hadoop解压到home/hadoop文件夹下，在伪分布模式下使用的版本为0.20.203，在分布模式下因为要与Eclipse兼容所以最终使用版本为0.20.2，下面部分截图为版本为0.20.203。并编辑conf/hadoop-env.sh，将JAVA_HOME设置为Java安装根路径运行运行bin目录下的hadoop，如显示hadoop 脚本的使用文档，说明安装

7、已经完成。如下图所示：5. 安装部署单机伪分布式模式Hadoop-HDFSHadoop可以在单节点上以伪分布式模式运行。编辑/conf/core-site.xml hdfs:/localhost:9000 hadoop.tmp.dir /tmp/hadoop/hadoop-$ 编辑 /opt/hadoop/conf/hdfs-site.xml dfs.replication 1 编辑 /opt/hadoop/conf/mapred-site.xml mapred.job.tracker localhost:9001 格式化HDFSbin/had

8、oop namenode format启动Hadoop，启动后可使用命令jps查看已启动进程，观察是否namenode、datanode已启动，关闭所有服务，使用命令stop-all.sh，bin/ start-all.sh6. 浏览NameNode和JobTracker的网络接口，地址默认为：NameNode - http:/localhost:50070/JobTracker - http:/localhost:50030/7. 下面尝试在单机伪分布模式下运行wordcount样例程序将输入文件拷贝到分布式文件系统bin/hadoop fs -put home/lee/桌面testfile

9、 input运行Hadoop自带的wordcount例子bin/hadoop jar hadoop-examples-.jar wordcount input output将输出文件从分布式文件系统拷贝到本地文件系统查看bin/hadoop fs -get output /home/lee/文档cat /home/lee/文档/output/*8. 安装部署多机Hadoop-HDFS这个部署多机的实验在实验室没有做完，最后实在宿舍完成的，节点为两个，使用系统为wubi安装的Ubuntu，所以不需要桥接方式（因为有固定IP），以下步骤为我做为Master时的实验截图：本机名为

10、node1，另外一台机器为node2，两台机器均建立一个名为hadoop的管理员用户用于统一部署安装hadoop。编辑文件/etc/hosts ubuntu替换为 node1编辑 /etc/hostname文件删除该文件的所有内容，添加node1运行命令 hostname node1a) 指定IP地址编辑文件/etc/network/interfacesauto eth0iface eth0 inet staticaddress 96netmask 重启网络服务sudo /etc/init.d/networ

11、king restart查看IP地址 ifconfigb) 修改/etc/hosts文件node1中：96 node1 3 node2 node2中：96 node1 3 node2 c) 配置从node1无需输入密码ssh登录node1、node2，命令如下：首先在node1、node2下建立home/hadoop/.ssh文件夹在node1（master）上：$ssh-keygen -t rsa $cat .ssh/id_rsa.pub .ssh/authorized_keys这两行命令生成密钥

12、并将公钥导出到authorized_keys中，然后将此文件拷贝到node2（slaves）中的相同文件夹下，因为通过网络命令拷贝比较困难所以我在这里用U盘拷贝的，之后就可以成功无密码登录node2d) 编辑/conf/core-site.xml/此处为了方便查找我更改了hadoop.tmp.dir的文件目录，改为/home/hadoop/tmp hdfs:/node1:9000 hadoop.tmp.dir /home/hadoop/tmp e) 编辑 /opt/hadoop/conf/hdfs-site.xml，其中/这里我们将dfs.data.dir改为/

13、home/hadoop/data/将.dir的默认文件夹改为/home/hadoop/.dir/home/hadoop/name dfs.data.dir/home/hadoop/data dfs.replication 2 f) 编辑 /opt/hadoop/conf/mapred-site.xml mapred.job.tracker node1:9001 g) 配置jobtrackermasters文件配置如下：node1slaves文件配置如下：node2在主节点编辑hadoop的配置之后，将其拷贝到node2 的对应目录（U盘）h) 格式化HD

14、FSbin/hadoop namenode -formati) 启动Hadoop，启动后可使用命令jps查看namenode和datanode上已启动进程，观察是否namenode、datanode已启动，关闭所有服务，使用命令stop-all.sh，再分别按顺序在node1和node2上开启namenode（node1）、datanode（node2）、jobtracker（node1）、tasktracker（node2），注意我在此处只能分别开启，如果使用start-all.sh全部自动开启的话启动所有节点正常但是无活节点可用，可能与启动顺序有关，成功之后截图如下：j) 浏览NameNo

15、de和JobTracker的网络接口，地址默认为：NameNode - http:/node1:50070/JobTracker - http:/node1:50030/9. 安装eclipse和hadoop plugin for eclipse这里经过反复测试发下到现在为止只使用了eclipse 3.3和hadoop 0.20.2-plugin插件可以配置成功，最新版本均不能配置成功。具体做法是下载eclipse解压之后将hadoop安装路径下的contrib的下的jar插件复制到eclipse文件夹下的plugins文件夹下即可在eclipse下成功安装插件。10. 新建MapReduce

16、工程，并在eclipse中下方的Map/Reduce Locations 下新建刚刚添加好的node1并配置如下：11. 最后将写好的测试文件testfile上传到DFS Locations分布式文件系统中，并设置好文件的输入输出参数（如下图，输入输出文件/文件夹均在DFS中）。这里我根据要求将老师给的WordCount.java做了一定的修改，具体来说就是将第一个Job输出的文本文件作为输入，再次读入并交换为（用以是以词频为关键字并以单词为values，这样就能遍历统一词频的所以单词并以字符串的形式拼接起来，但是跟最后的要求还差一点就是因为时间的关系我没有实现一个比较函数的类并设置所以最后的

17、排序是默认的从小到大，而不是从大到小）下面截图如下：修改过的代码如下：import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.conf.*;import org.apache.hadoop.m

18、apreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache

19、.hadoop.mapreduce.lib.output.TextOutputFormat;public class WordCount public static class Map extends Mapper private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException

20、String line = value.toString();StringTokenizer tokenizer = new StringTokenizer(line);while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();context.write(word, one);public static class Reduce extends Reducer public void reduce(Text key, Iterable values, Context context)throws IOException, I

21、nterruptedException int sum = 0;for (IntWritable val : values) sum += val.get();context.write(key, new IntWritable(sum);public static class sortMap extends Mapper private Text wordcount = new Text();private Text word = new Text();public void map(LongWritable key, Text value, Context context)throws I

22、OException, InterruptedException String line = value.toString();StringTokenizer tokenizer = new StringTokenizer(line);while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();wordcount.set(tokenizer.nextToken();context.write(wordcount, word);public static class sortReduce extends Reducer publ

23、ic void reduce(Text key, Iterable values, Context context)throws IOException, InterruptedException String wordline = ;for (Text val : values) wordline += val + ,;context.write(key, new Text(wordline);public static void main(String args) throws Exception Configuration conf = new Configuration();Job j

24、ob = new Job(conf, wordcount);job.setJarByClass(WordCount.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);job.setMapperClass(Map.class);job.setReducerClass(Reduce.class);job.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(TextOutputFormat.class

25、);FileInputFormat.addInputPath(job, new Path(args0);FileOutputFormat.setOutputPath(job, new Path(args1);job.waitForCompletion(true);Job sortJob = new Job(conf, sortword);sortJob.setJarByClass(WordCount.class);sortJob.setOutputKeyClass(Text.class);sortJob.setOutputValueClass(Text.class);sortJob.setMa

26、pperClass(sortMap.class);sortJob.setReducerClass(sortReduce.class);sortJob.setInputFormatClass(TextInputFormat.class);sortJob.setOutputFormatClass(TextOutputFormat.class);FileInputFormat.addInputPath(sortJob, new Path(args1 + /part-r-00000);FileOutputFormat.setOutputPath(sortJob, new Path(args1 + /r

27、esult);sortJob.waitForCompletion(true);四、实验遇到的问题及其解决方法iSCSI target实验比较简单，所遇到的问题不多，主要是当时对于vim的操作上有一些不熟练所以耽误了一些时间；其次就是刚开始时NAT而不是桥接模式致使client连接不上我的机器浪费了一些时间，总体来说实验比较简单；此次实验中的问题主要集中在Hadoop/MapReduce这个实验上，程序的编写上不是特别困难，参照着网上的讲解和Hadoop API可以自己摸索个大概并修改老师给的程序；主要是在配置ssh无密码连接以及之后的Hadoop服务启动及重启之后再次开启服务上出现了一些问题，

28、下面挑选列举如下：1. 在分布模式下试图无密码登录node2的时候失败，之后按照网上教程尝试尝试用ssh中的scp命令传输文件失败；解决方法：出现问题的主要原因是因为当时对scp命令以及相关的参数不太了解，所以当时着急解决问题所以利用的是“土方法”U盘拷贝至slaves机并覆盖原有文件。之后实验完成之后又尝试了用scp在两台机器上拷贝过文件并成功。2. 首次无密码ssh连接成功，并在网页里显示正常（有活节点），但是在使用Eclipse 3.7和Hadoop-plugin .020.203尝试登录DFS分布式文件系统时显示无法连接；解决方法：经查此为版本问题，可能是由于Eclipse的版本太新而

29、Hadoop版本没跟上所致；最后使用网上有人运行成功的eclipse 3.3 和 Hadoop-0.20.2可以运行成功，正确添加node1节点；3. 头一天登录成功，第二天尝试再此登录的时候虽然显示各节点服务启动正常，但是在Eclipse中显示无法进入DFS文件系统，查看logs中的Namenode记录发现报错“could only be replicated to 0 nodes, instead of 1”；解决办法：经尝试此为节点启动顺序的问题，分别按顺序在node1和node2上开启namenode（node1）、datanode（node2）、jobtracker（node1）、t

30、asktracker（node2），注意我在此处只能分别开启，如果使用start-all.sh全部自动开启的话就会出现上述问题中的启动所有节点正常但是无活节点可用的情况。4. 有时stop-all.sh之后再此format之后再次启动会发现Namenode（或Datanode）无法启动成功；解决办法：此种错误出现的原因有：（1）查看logs发现报错为“XX does not exist”，说明我们在配置core-site.xml等文件中设置的文件夹路径不对或文件夹不存在；（2）logs文件中提示“NameNode is not formatted”，即Namenode节点未成功格式化；（3）“

31、Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /name/current目录下的VERSION文件，上面记录了版本信息）”，因为重启节点后数据更新导致了Namenode和Datanode版本不一致；针对以上三种情况的解决方案为：（1）根据logs报错信息重新mkdir；（2）重新hadoop namenode format；（3）如上所述此为上一次的文件未清理导致文件不匹配的出现的错误导致节点服务关闭，这时我们要分别删除配置文件中设置的hadoop.tmp.dir、.dir、dfs.data.dir

32、的文件夹下的目录清空并再此format即可；当然这不是最好的办法因为这样做会让上次上传的文件删除消失；更好的解决办法还在尝试；五、实验结论总体来说这次实验其实还是比较有趣的，有别于以前大多数时候做的纯编程，这次实验主要是实践环境上的配置，使用的技术也比较新；当然做的过程中比较苦恼，因为不太习惯Linux下的命令行模式以及log查询记录文档模式还有英文的一些API文档和提示信息，网上的信息也比较杂乱，致使差错、纠错比较耗费时间和精力；同时对于MapReduce编程模式的理解也花费了一定时间，不过也加深了我对分布式计算的理解；初步感觉MapReduce模式的有一些局限性，似乎只能处理能分解成这样的计算任务，但是觉得不是所有的传统在本地上的计算服务都能分解成这样的模式，可能比较适合于搜索等应用，范围具有一定局限性；当然也可能是我的理解还不够，今后会继续这方面的学习。此次试验中参考的网站有：1. Hadoop快速入门：/common/docs/r0.21.0/cn/q

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

虚拟化与云计算课程实验报告——Hadoop平台搭建

文档简介

温馨提示

最新文档

评论

虚拟化与云计算课程实验报告——Hadoop平台搭建

文档简介

温馨提示

最新文档

评论

相关文档