基于Hadoop的云计算试验平台搭建研究.doc_第1页
基于Hadoop的云计算试验平台搭建研究.doc_第2页
基于Hadoop的云计算试验平台搭建研究.doc_第3页
基于Hadoop的云计算试验平台搭建研究.doc_第4页
基于Hadoop的云计算试验平台搭建研究.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第31卷第1期沈阳师范大学学报(自然科学版)V0131 No12013年1月_,o越糯“o厂懿P,榭培Norm口Z L及i谢您i纱(拉豫Z&i跏卯)Jan 2013文章编号:16735862(2013)010085一05基于HadOOp的云计算试验平台搭建研究张岩1,郭松2,赵国海2(1沈阳师范大学计算机与数学基础教学部,沈阳110034;2沈阳师范大学教育技术学院,沈阳110034)摘 要:Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软 件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以 Hadoop为基础,借助虚拟机、强出粕re以及Linux、ubuntu、Hadoop、javajdk等软件,详细地介绍 了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了 虚拟机、java、Hadp等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提 出了在搭建试验平台时应该注意的用户权限、路径配置和使用ssH服务程序等问题。该试验平 台为系统中间件和应用服务的开发提供了基础。关键词:Hadoop;云计算;虚拟;java 中图分类号:TP311文献标志码:A doi:103969iissn 167358622013010190 引言云计算是继1980年大型计算机到客户端服务器的大转变之后的又一种巨变。云是分布式计 算(distributed computing)、并行计算(parallel computing)、效用计算(utility computing)、网络存储 (network storage technologies)、虚拟化(virtualization)、负载均衡(10ad balance)等传统计算机和网络 技术发展融合的产物。云计算的核心思想是把大量的资源通过网络进行统一存储、调度和使用,形成一 个庞大的资源库,给用户提供服务。2011年,工业和信息化部、国家发展和改革委员会联合印发关于 做好云计算服务创新发展试点示范工作的通知,确定在北京、上海、深圳、杭州、无锡等5个城市先行开 展云计算服务创新发展试点示范工作,显示出我国对于发展云计算的高度重视1。1开源云平台HadoopHadoop是一个在大型集群的廉价硬件设备上运行应用程序的开源云平台软件框架。Hadoop为 应用程序透明的提供了一组稳定、可靠的接口和数据服务2|。Hadoop中实现了Gb091e的MapReduce 算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执 行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写 的高吞吐率。由于应用了mapreduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处 理失败节点L3J。Hadoop的优势不但在于它的开源,而且它的设计根本就是存储和计算的高可扩展性,分布式文 件系统的备份恢复机制和Mapreduce的任务监控又保证了分布式处理的高可靠性。任何普通的PC上 安装运行Hadoop框架集群,都可以对海量的信息进行高效处理4。收藕日期:2012一08一12。 基金项目:辽宁省自然科学基金资助项目(201202197)。 作者简介:张岩(1968一),女,辽宁沈阳人,沈阳师范大学教授,硕士研究生导师。万方数据86 沈阳师范大学学报(自然科学版)第31卷为了能在实验室环境下实现云平台,并能够在云平台上进行开发测试,在考虑成本的前提下,可以 采用虚拟环境下的云平台的搭建,既节省资金又能完成试验的目的。2Hadoop虚拟平台搭建21硬件和软件需求软件:VMware虚拟机8o以上版本,Linux操作系统本文采用ubuntulo04版本,Hadooplo4,java-jdk 16x。硬件:一台清华同方个人PC,CPU采用132120,内存4 GB,硬盘500 GB,预装Windows)【P操作 系统。22Linux虚拟机安装与设置在Windows XP系统下安装订ware虚拟机以后,打开虚拟机,在虚拟机下安装Linux操作系统, 由于实验用的模拟平台采用一个主机和4个节点,需要虚拟5台计算机。为了能够网络通信,要对虚拟 机的网络进行相应得配置。VMware的虚拟网络适配器通常采用Bridge和NAT两种方式,使虚拟机能够进行网络连接5|:1)Bridge方式:可以给虚拟机分配一个与主机相同网段的IP地址,实现多台主机连接。2)NAT方式:VMware虚拟一个局域网,此种方式非常适合单主机多虚拟机构建集群。在虚拟 Hadoop系统集群中。在实验中采用NAT方式。通过clone选项可以看到在ware中安装了几台 虚拟机6l。打开etcnetworkinterfaces文件手动配置IP地址,这里是IP、网关、子网掩码等的一些配置;配 置IP地址和网关,使用$sudo geditetcnetworkinterfaces打开文件,在文件里面添加如下内容:7#上面的是回环#下面是网卡ethO的配置auto eth0#staic表示静态IP iface ethO inet static address 19216820510 netmask 255255255Ogateway 1921682052#net、mrk 19216830#broadcast 1921683255#后面两条是网络号和广播号,这个可以由其他信息计算,因此无需设置。使用sudo geditetcresolvconf命令配置DNS,把它设置为nameserver 2103020810。要实现Hadoop联机成功,要在主机和节点上都作相应的设置并制定主机8|。$sudo geditetchosts19216820510had019216820511cloudl19216820512cloud219216820513cloud319216820514cloud4实验中把hado设置为主机,其余都为节点。23在主机中手动安装JaVaJDK在虚拟机中下载JDK一6u24一linuX_i586bin,并将其拷贝到安装目录下,使用命令:$sudo chomod u+x jdk-6u24一linuX-i586bin给文件赋予权限$sudojdkl6o24安装文件万方数据第1期张岩,等:基于Hadoop的云计算试验平台搭建研究87打开profile文件添加如下代码:Export JAVAHOME=usrjavajdkl6024Export JRELHOME一$JAVAHOMEjreExport PATH一$PATH:$JAVAHOMEbin:$JREHOMEbinExport CLASSPATH一:$CLASSPATH:$JAVAHOMElib:$JRELHOMElib执行命令$sourceetcprofile使环境变量生效,输入java-version检查环境变量设置。24在主机中安装Had00p把Hadoop安装文件拷贝到安装目录下,进行解压缩后给文件赋予权限。1)用编辑器打开Bashrc文件进行更新,这个文件可以定位Hadoop、Java环境9|。#Set Hadoop_related environment variablesexport HADOOP-HOME=usr10calhadoop#Set JAVA HOMEexport JAVAHOME一usrjavajdkl6O一24#SOme convenient aliases and functions for running Hadoop_related commands unalias fs&devnunalias fs一”hadooD fs” unalias hls&devnull alias hls一”fsls”1zohead()hadoop fscat$1lzopdchead一1000 less)#Add Hadoop bindirectory to PATHexport PATH一$PATH:$HADOOP HOMEbin2)打开hadoop_envSh文件设置java安装路径10:Export JAVAHOME一usrjavajdkl60243)下面要修改3个重要文件: hadoopconfcore-sitexml; hadoopconfhdfssitexml; hadoopconfmapred_sitexml。修改Hadoopconfcore-sitexml,配置主节点11,在configuration中添加:hadooptmpdirapphadooptmpA base for other temporary directoriesfsdefaultnamehdfs:localhost:54310The name of the default file systemA URl whosescheme and authority determine the FileSystem implementatioIL Theuris scheme determines the config property(fSSCHEMEimpl)nami迤 the FileSystem implementation classThe uris authority is used to determine the host,port,etcf6r a filesystemt修改hadoopconfmapred-sitexml,为配置jobtracker12万方数据88 沈阳师范大学学报(自然科学版)第31卷mapredjobtrackerlocalhost:54311The host and port that the MapReduce job tracker runsatIf”local”,then jobs are run inprocess as a single map and reduce task修改hadoopconfhdfssitexml,这里要配置从节点的数13odfsreplication1Default block replicationThe actual number of replications can be specified when the file is created The default is used if replicatiop is not specified in create time最后,对HDFS文件系统进行格式化。Hado。p云平台主机就按装完成了。其他节点可以通过ssH进行克隆安装。把节点安装好以后可以使用14。25运行wordcountjava测试平台151)先在本地磁盘建立2个文件file01和file02; cuijjstationl$echo”Hello cuijj bye cuijjffile01 cuijjstationl$echo”Hello Hadoop Goodbye Hadoop”file022)在hdfs中建立一个input目录;cuijjstationl$hadoop dfsmkdir input3)将file01和file02拷贝到hdfs的input目录下; cuijjstationl$hadoop dfscopyFromI幻calhomecuijjfileoinput4)查看hdfs中有没有input目录; cuijjstationl$hadoop dfsls5)查看input目录下有没有复制成功file01和file02;6)执行wordcount(确保hdfs上没有output目录);cuijjstationl hadoop-o202$ had。op jar hadoop-o202一examplesjar wordcount input output7)运行完成,查看结果。 总结 经过测试Hadoop平台已经正常工作,云计算虚拟试验平台搭建完成,可供实验人员和开发人员在此平台上进行程序设计和开发应用系统。在搭建过程中发现几点应该在以后的搭建平台过程中引起注意:1)用户的权限问题。如果权限配置不正确,会导致java和Hadopp不能安装。2)路径的配置要正确。如果路径配置错误,会导致Hadoop运行时不能启动Java,从而Hadoop也 不能正常工作。万方数据第1期张岩,等:基于Hadoop的云计算试验平台搭建研究893)使用sSH服务程序。正确使用SSH服务程序克隆节点机,可以很大程度地简化安装过程。 通过研究和实验,实验用云计算虚拟平台已经搭建完成。该实验平台可以为进一步研究各种平台系统接口和中间件提供实验基础,并为深入研发基于云计算的用户服务创造条件。参考文献:1田杰棠我国云计算产业发展趋势及政策建议J经济纵横,2011(8):3135 2黎春兰,邓仲华论云计算的价值J图书与情报,2009(4):4247 3张建勋,古志民,郑超云计算研究进展综述J计算机应用研究,2010(2):429435 4张霖,罗永亮制造云构建关键技术研究J计算机集成制造系统,2010(16):25122522 5柯栋梁,郑啸,李乔云计算:实例研究与关键技术J小型微型计算机系统,2012(33):23212328 6刘立群,池洁构建基于网络协作学习教学环境J沈阳师范大学学报:自然科学版,2012,30(2):8185 7曹风兵,吴开贵,吴长泽基于Hadoop的校园云计算系统刀计算机系统应用,2011(6):4655 8王宏宇Hadoop平台在云计算中的应用J软件,2011(12):3337 9多雪松,张晶,高强。基于Hadoop的海量数据管理系统J微计算机信息,2010(13):20220510杨曼Hadoop云计算平台在高校试验室教学环节中的实现J电脑知识与技术,2011(9):21792182 11罗军舟,金嘉晖,宋爱波,等云计算:体系架构与关键技术J通信学报,2011(7):321 12江务学,张瑗,王志明MapReduce并行编程架构模型研究J微电子学与计算机,2011(6):168175 13孙福权,张达伟,程勖,等基于Had00p企业私有云存储平台的构建J辽宁工程技术大学学报:自然科学版,2011(12):913916 14崔杰,李陶深,兰红星基于Hadoop的海量数据存储平台设计开发J计算机研究与发展,2012(增刊1):1217 15李成华,张新访,金海,等MapReduce:新型的分布式并行计算编程模型J计算机工程与科学,2011(33):1291350In c伽struction of experiment platfo哪of HadVop b嬲ed doud c帅putingZHANG y口n1,GU0 SD咒92,ZHAOG0妇i 2(1Depanment 0fmputer and Mathematical Teacllillg,Shenyang No珊a1 UIliversity,Sheny锄g 110034,Clli舱;2C0llege of Education TechnolOgy,Shen)rang Nomal Unjversity,ShenyaIlg 110034,China)AbstI翟ct: Hadoop is a free open source cloud platfom,which is a framework that allows fbr the distributed processirlg of large data sets acmss clusters ofmputerS using simple programmiIlg modelsIt is a reliable,efficient,scalable cloudplatfonn,is very suitable for simulation test in laboratory envim咖e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论