版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计单词平均值
大数据算法作业4
Github:
https://github.cco/Cwcw32/BigDataCourccHoocwork
姓名:胥卜凡
指导教师:乔百友
目录
1虚拟机相关.....................................................................3
1.1创建虚拟机...............................................................3
1.2虚拟机配置................................................................4
2酉已置hadoop环境................................................................5
2.1ssh配置.................................................................5
2.2配置J/WA环境............................................................6
2.3安装Hadoop3.1.3........................................................7
2.4集群分布式配置...........................................................7
2.5安装eclipse............................................................16
3MapReduce程序设计与实现.....................................................18
3.1题目要求................................................................18
3.2算法设计................................................................18
3.3程序代码................................................................19
3.4实验结果及分析..........................................................23
3.4.1实验环境..........................................................23
3.4.2实验结果..........................................................23
3.4.3对比分析..........................................................32
4人员安排......................................................................34
5心得体会......................................................................34
6附录...........................................................................35
1虚拟机相关
环境:使用VMware平台进行虚拟机的相关配置。
图1-1
1.1创建虚拟机
操作系统采用ubuntu18.04LTS版本。
©
创建新的虚拟机
图1-2
新建虚拟机向导X
安找客户机操作系统
虚强机如同物理机,需要掾作系统。您将如何安袋客户机悚作系统?
安装来源:
O安装程序光盘(D):
无可用驱动器
O安装程序光盘映像文件(iso)(M):
C:\Users\29459\Downloads\ubuntu-18.04.5-desktop-ai、|浏览(R)...
@梢后安装操作系统(S),
创建的虚拟机将包含一个空白硬盘.
帮助〈上一步(B)下一步(N)>取消
图1-3
图1-6
之后终端中执行
“sudoapt-getupdatev
由于后续要进行文档编辑,这里采用vim,即
usudoaptgetinstallvim”
2配1闫)hadoop环境
2.1ssh配置
这里采用的hadoop版本是3.1.3
首先设置好ssh相关内容“sudoapt-getinstallopenssh-server
之后执行sshlocalhost
rheauthenticityofhost'localhost()'can*tbeestablished.
iCDSAkeyfingerprintisa9:28:e0:4e:89:46:a4:cd:75:8f:0b:8b:57:79:67:86.
vousurevouwanttocontinueconnectin。(ves/no)?ves._______________
图2-1
Yes即可
$exit
st
$cd~/.ssh/
—^sshLocaLhost
$ssh-keygen-trsa
$cat./id_rsa.pub>>./authorized_keys
图2-2
这样设置好密钥,之后就不用密码了
j9M«stcr:*$sshlocalhost
WelcometoJbuntu18.04.5LTS(CNU/LtnuxS.4.0-42-genericx86_64)
•Documentation:https:〃help.ubuntu.COR
•Management:https://landscape,canonical.COR
•Support:https:///advantage
*CanonicalLtvepatchisavailableforInstallation.
-ReducesystemrebootsandImprovekernelsecurity.Activateat:
https://ubuntu.con/ltvepatch
271个可升桀软件包。
216个安全更新。
有初版本”26.84.2LTS”可供使用
运行“do-release-upgrade”来弁级到新版本。
YourHardwareEnablenentStack(HWE)issupporteduntilApril2023.
Lostlogin:FrtHoy2821:12:472621fron78
图2-3
2.2配置JAVA环境
首先安装java环境,
Shell命令的</>
$
$cd/usr/lib
$sudomkdirjvm#z
进入用户的主目录
$cd~#hadoop
cdDownloads
安装:传到该目录下
$DK^jdk-8ul62-Linux-x64.tar.gzj
sudotar-zxvf./jdk-8ul62-linux-x64.tar.gz-C/usr/li
b/jvm#把:]DK文件解去利/usr/Itb/jvm〃及/、
图2-4
配置bashrc加下所示
j^Maiter-0G。
文件铲)■■(0i«(v)s*(s)««(n僖助x
exportJAVA_H0KE*/usr/ltb/jvR/jdki.8.e_162
exportJF£.HOM£«$(JAVA_HO«E)/jre
exportCLASSPATH*.:$(JAVAHOME)/ltb:${OREH(XE}/Ub
•xportPATH.$(JAVA_H0ME)/btn:$PATH:$PATH:7usr/Xocil/h«(k>op/btn:/u$r/Xocil/h«<k>op
/sbtn
・/・bashrc:executedbybash(l)fornon*loginshells.
•see/usr/share/doc/bash/exanples/startup*files(tnth«packageb^sh-doc)
।•forexeRples
PIfnotrunningtnter«cttvelypdon'tdoanything
上3・$•In
•f);;
1•)return;;
don'tputduplicatelinesorlinesstartt”with3时cethehistory.
SecUasli(1)fv«nvicvpllvn>
XSTCONTroL.lgnoreboth
appendtothehistoryfile,don'toverwriteit
bopt-shtstapp<nd
-/.26h,U1231,3»7C4.S5顶0;
图2-5
进行source之后检验java是否成功配置
j8Ma$ter:-$Java-version
javaversionw1.8.0_162*
Java(TM)SERunttRe-Environwent(build1.8.0_162-bl2)
JavaHotSpot(TM)64-BttServerVM(butld25.162-bl2,ntxednode)
图2-6
2.3安装Hadoop3.1.3
在共享文件夹共享文件后,执行如下命令
$sudotar-zxf~/下载/hadoop・3.l・3・tar.gz-C/usr/local
#解压到/usr/local中
$cd/usr/local/
$sudomv./hadoop-3.1.3/./hadoop
名改为hadoop
$sudochown-Rhadoop./hadoop
图2-7
检验hadoop版本
nayprinthelpwheninvokedw/oparaReterscrwith-h.
i®Haster:*$hadoopversion
ladoop3.1.3
;ourcocodarepositoryhttpc://gttbox./ropoc/asf/hadoop.git-rba631c4
J6b866728f8ec2f54able289526c98579
:onptledbyztangon2619-e9-12T02:47Z
:onptledwithprotoc2.S.6
tonsourcewithchecksumec785077c38S118dc91ddddeSec9799
hisconnandwasrunusing/usr/local/hadoop/share/hadcop/comnon/hadoop*common-3
1.3.jar
gst-S・
图2-8
2.4集群分布式配置
」我的次具帆
仁]Ubuntu64位
hadoopl
存hadoop2
首先将原虚拟机[^hadoopl克隆出2个来®hadoop3
之后进行网络配置,获得每个虚拟机的IP地址
图2-9
之后
$sudovim/etc/hostname
图2-10
将名称分别改为
Master
Slavel
Slave2
之后
图2-11
将3个虚拟机都改为如下所示
j@皿妹。仁-e®o
文件(F)蜩辑旧5ft(V)搜索⑸然助(H)
Sf
i27.e.e.ilocalhost
>j-vtrtual-macht
’3。Master
931Slave1
■32SlaveZ
*ThefollowirglinesaredesirableforIPv6capablehosts
::1tp6-lccalhosttp6-loopback
fe©6::6tp6-lccalnet
ffee::0tp6-mcastpreftx
ff02::1tp6>aUnodes
ff62::2ip6-allrouters
仝兹
图2-12
进行PING测试
J9Master:*$pingSlave】-c3
PINGSlavel(31)56(84)bytesofdata.
64bytesfronSlavel(192.168.8.131):tcnp_seqslttl=64ttRe=0.7eens
64bytesfronSlavel(192.168.8.131):tcnp_seq»2ttl=64ttne=e.688ns
64bytesfronSlavel(192.168.8.131):tcnp_seq«3ttl»64ns
—Slavelptrw)5tatisttes—
3packetstransmitted.3received,6%packetloss,tlx2841”
rttntn/avg/nax/nde/・e.688/6.8S8/1.186/0.231R5
j8Master:-$ptngSl,ve2•c3
PINCSlavt2(32)56(84)bytesofdata.
64bytesfro«Slaved(192.168.8.132):tCRp_seq«lttl=64ttne=1.16RS
64bytesfronSlave!(192.168.8.132):tcnp_seq=2ttl=64ttme=1.22RS
64bytesfronSlaveZ(192.168.8.132):tcnp_seq=3ttl=64ttne=0.346ns
・・・Slave2pingstatistics•••
3packetstransmitted,3received,0%packetloss,tine2664ns
rttmtn/avg/nax/Rde/=0.346/e.913/1.228/6.403RS
J0Master:-$pingMaster-c3
PINGMaster(30)56(84)bytesofdata.
64bytesfrowMaster(192.168.8.130):tcnp_seq=lttl=64ttne=0.014RS
64bytesfronHaste-(192.168.8.130):tcnp_seq=2ttl=64ttRe=0.027RS
6・1bytesfronHaste"(192.168.8.130):tcnp_seq=3ttl«64ttne=0.030RS
---Masterpingstatistics・・・
3packetstransnttted,3received,Wpacketloss,ttf*e2024ns
rttRtn/avg/MX/Adev■6.014/6.023/6.630/6.668RS
图2-13
成功。
之后进行如下操作进行ssh相关配置。
必须要让Master节点可以SSH无密码登录到各个Slave节点上。首先,生成
Master节点的公匙,如果之前已经生成过公钥,必须要删除原来生成的公
钥,重新生成一次,因为前面我们对主机名进行了修改。具体命令如下:
Shell命令的</>
$cd~/.ssh#如果没有该目录,先执行一次sshL
ocaLhost
$rm./id_rsa*#删除之前生成的公匙(如果已经存
在)
$ssh-keygen-trsa#执行该命令后,遇到提示信息,
直按回车就可以
为了让Master节点能够无密码SSH登录本札需要在Master节点上执行如下
命令:
Shell命令
$cat./id_rsa.pub>>./authorized_keys
完成后可以执行命令"sshMaster”来验证一下,可能会遇到提示信息,只要
输入yes即可,测试成功后,请执行“exit”命令返回原来的终端。
接下来,在Maste「节点将上公匙传输到Slavel节点:
Shell命令的</>
$scp.ssh/id_rsa.pubhadoop@Slavel:/home/hadoop/
图2-14
接着在Slavel节点上,将SSH公匙加入授权:
Shell命令的</>
$mkdir-/.ssh
在,则忽略本命令
$cat~/id_rsa・pub>>-/.ssh/authorized_keys
$rm-/id_rsa.pub
如果有其他Slave节点,也要执行将Master公匙传输到Slave节点以及在
Slave节点上加入授权这两步操作。
这样,在Master节点上就可以无密码SSH登录到各个Slave节点了,可在
Master节点上执行如下命令进行检验:
图215
在主机上进行检验
Irttmtn/avg/max/mdev=0.014/0.023/0.030/0.008ns
|j0Haster:*$sshSlavel
(welconetoUbuntu18.04.5LTS(GNU/LtnuxS.4.e-42-genertcx86_64)
Docunentation:https://help,ubuntu,con
Managenent:https://landscape.canonical・con
Support:https://ubuntu.con/advantage
I•CanonicalLtvepatchisavailableforinstallation.
-Reducesystemrebootsandimprovekernelsecurity.Activateat:
https://ubuntu.coa/ltvepatch
271个可升级软件包。
2ie个安全更新。
有标本IT3”可供使用
运行“do・relese・u凶rade”来升级到新版本。
YourHardwareEnablenentStack(HWE)tssupporteduntilApril2023.
Lastlogin:FrtMay2822:63:392621froR30
图2-16
接下来修改相关文件如下所示
workers:
J9SUvel:/usr/loc^l/hadoop/etc/hadoop
文件(F)编错(E)查看(V)搜索(S)终蟠⑴精助(H)
Slavel
SlaveZ
orkers"3L,21c全部
图2-17
Core-site,xml
<conftguratton>
<property>
<nane>fs.defaultFS</naae>
<value>hdfs://Master:96M</value>
</property>
<property>
<nonohddoop.tRp.dlr</n«ne>
<dcscrtptton>Abd$eforothertemporarydirectories.</dcscrtptton>
</property>
</conftgur«tton>
图2-18
hdfs-site.xml
J9Slavel:/usr/loc4l/hodoop/etc/hadoope©©
文件(F)坦珥(E)5fi(V)搜索(S)修等(T)精助(H)
Unlessrequiredbyapplicablelaworagreedtotnwriting,software
distributedundertheLicenseisdistributedonan"ASISHBASIS,
WITHOUTWARRANTIES0«CONDITIONSOFANYKIND,eitherexpressortnplted.
SeetheLicenseforthespecificlanguagegoverningpermissionsanc
limitationsundertheLicense.SeeaccompanyingLICENSEfile.
<!--Putsite-specificpropertyoverridestnthisfile.
<conftguratton>
〈property〉
<nane>dfs・nanenode.secondary.http-address</nane>
<value>Master:S669e</value>
</property>
(property〉
<none>df$.reolt.Cdtt.on</naRe>
<v«lue>3</vilue>
“property)
(property〉
<naRc>dfs・nanenode・nane,dtr</nanc>
<value>ftle:/usr/local/hadoop/tmp/dfs/nane</value>
</property>
<property>
<naRe>dfs.datanode.data.dtr</nane>
<value>ftle:/usr/local/hadoop/tmp/dfs/data</value>
</property>
i</conftguratton>
rhdfs-stte.xnl-36L,1353c底端
图2-19
mapred-site.xml
Jl9Slavel:/usr/local/hadoop/etc/h»joop
文件时蝙辑旧M(V)»»(S)终・(T)帮助(H)
<conft.guratt.on>
(property〉
<nARc>mapreduce・franework.ndne</nane>
<v«lue>yarn</value>
</propcrty>
<property>
<naRc>mdpreduce.jobhtstory.dddress</n«Rc>
<v«lue>Haster:10020</v«lue>
“property〉
<propcrty>
<naRc>mdprcduce.jobht.story.wcbapp.dddress</namc>
<v«lue>Master:19888</v«luc>
</property>
<property>
<nane>ydm.app.napreduce・afi・env</nane>
<value>H^DOOP_MAPRED-HOME=/usr/local/hadoop</valuc>
</property>
<property>
<nAR4»>mApr^dnr«»..pnv</naiw>
<value>H^XX>P_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
<naRe>mapreduce.reduce,env</nane>
<value>H^DOOP_MAPRED_HOME=/usr/local/hadoop</valu«>
</property>
</conftguratton>
图2-20
yarn-site,xml
文件(F)ttS(E)M(V)搜索(S)终*(T)帝助(H)
<?xmlverston=Bl.e"?>
<!--
LicensedundertheApacheLicense,Version2.0(the"License');
younaynotusethisfileexcepttncompliancewiththeLtcease.
YounayobtainacopyoftheLicenseat
http://www.apache.Org/ltcenses/LICENSE-2.6
Unlessrequiredbyapplicablelaworagreedtotnwriting,software
distributedundertheLicenseisdistributedonan"ASIS"BASIS,
WITHOUTWARRANTIESORCONDITIONSOFANYKIND,eitherexpressOftRplted.
SeetheLicenseforthespecificlanguagegoverningperntsstonsand
ItRttattonsundertheLicense.SeeaccompanyingLICENSEfile
-->
<conftguratton>
<property>
<nane>yarn.resourcef)anager.hostndMe</nane>
<vdlue>Md^lci«/vdluc>
</property>
(property〉
<name>yarn.nodeftanager.aux-servtces</nane>
<value>mapreduce_$huffle</value>
</property>
<!--SitespecificYAFNconftgurattonproperties->>
</conftguratton>
图2-21
注:
①上述注意和教程中不同,replication设置为3,并且将主节点同时作为名
称节点和数据节点使用。
②对于不同的电脑,如果像我一样是划分虚拟机的话,要在mapred-site.xml
中进行相关内存的设定,否则会出现MapReduce内存爆炸的问题。
<property>
<name>mapreduce.map.memory.mb</nane>
<value>1536</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xnxl024M</value>
</property>
<property>
<name>mapreduce.reduce,memory.tnb</name>
<value>2048</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xnx204@M</value>
图2-22
之后根据教程,
$cd/usr/local
$sudom-r./hadcop/trap
$sudora-r./hadcop/logs/*
$tar-zcf-*/hadoop.master.tar.gz./hadoop
图2-23
再把文件传给从节点
00:05
图2-24
从节点执行
jeSlavel:~$sudorm-r/usr/local/hadoop
jeSlavel:-$sudotar-zxf-/hadoop.master.tar.gz-C/usr/local
j@Slavel:-$sudochown-Rhadoop/usr/local/hadoop
chown:无效的用户:"hadoop"
j@Slavel:~$sudochown-Rhadoop/usr/local/j
chown:无效的用户:"hadoop"
sudochown-Rj/usr/local/hadoop
4GC1_4nc__________________________________________________________
图2-25
主节点执行格式化
j0Master:-$hdfsnawenode-fornat
202105-2822:14:54,676IN-0nanenode.NdaeNode:STARTUP_MSG:
STARTUP.HSC:StartingNaneMode
STARTUP.MSC:host=Master/30
STARTUPJSC:args=(-fo-nat]
STARTUP.MSC:version=3.1.3
S--T--A-R--T--U-P—MSC:classpath=/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/connon/ltb/comons-
net・3・6.ja「:/usr八ocal/hadx>p/share/hadoop/conRon/llb/p「otobuf・Java・2・5.6・jar:/us「/local/hadoop/sha「e/hado
op/cofvion/ltb/netty•3.10.5.Final.jar:/usr/local/hadoop/share/hadoop/coivion/ltb/kerby•pktx-1.0.1.jar:/usr/1
ocal/hadoop/share/hadoop/comon/ltb/jetty-uttl-9.3.24.720186605.jar:/usr/local/hadoop/share/hadoop/conmon/
ltb/guava-27.6-jre.jar:/us-/local/hadcx)p/share/hadoop/coRnon/ltb/jersey-json-1.19.jar:/usr/local/hadcx)p/sh
are/hadoop/coMon/ltb/kerb-core-1.6.1.jar:/usr/local/hadoop/share/hddoop/co<nr^on/ltb/parandmer-2.3.jar:/usr
/local/hadoop/share/hadoop/comon/ltb/json-snart-2.3.jar:/usr/local/hddoop/share/hadoop/coivK>n/ltb/token>p
rovtder-l.e.1.jar:/usr/loc)l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阳城县2024山西晋城市阳城县部分事业单位招聘118人笔试历年参考题库典型考点附带答案详解(3卷合一)
- 泽州县2024山西晋城泽州县事业单位招聘85人笔试历年参考题库典型考点附带答案详解(3卷合一)
- 榆次区2024山西晋中榆次区事业单位招聘(152人)笔试历年参考题库典型考点附带答案详解(3卷合一)
- 国家事业单位招聘2024国家粮食和物资储备局山东局事业单位招聘统一笔试笔试历年参考题库典型考点附带答案详解(3卷合一)
- 国家事业单位招聘2024中国科学院动物研究所鞘翅目形态与进化研究组助理研究员岗位招聘1人启笔试历年参考题库典型考点附带答案详解(3卷合一)
- 国家事业单位招聘2024中国农业发展银行软件开发中心校园招聘拟招录人员(第三批)笔试历年参考题库典型考点附带答案详解(3卷合一)
- 包头市2024内蒙古包头市招商投资促进局所属事业单位人才引进1人笔试历年参考题库典型考点附带答案详解(3卷合一)
- 中共越西县委组织部越西县人力资源和社会保障局2025年下半年公开考核招聘事业单位工作人员的备考题库完整参考答案详解
- 南宫市2025年公开招聘警务辅助人员的备考题库及参考答案详解1套
- 2025年杭州极弱磁场重大科技基础设施研究院校园招聘备考题库附答案详解
- QCDS方法分析框架
- 介绍我的家乡霞浦
- 2024年河北秦皇岛市公安医院招聘考试真题
- 西方哲学史考研重点资料
- 智慧树知道网课《大学英语(海南经贸职业技术学院)》课后章节测试答案
- 工程工程培训课件
- 2025年出租车隐患培训会议记录内容范文
- 医院肝病学科建设与诊疗进展汇报
- 2025年军队专业技能岗位文职人员招聘考试(电工)历年参考题库含答案详解(5卷)
- JJG 688-2025汽车排放气体测试仪检定规程
- 济南医院节能管理办法
评论
0/150
提交评论