NEU-works-t0p-大数据算法作业-作业4_第1页
NEU-works-t0p-大数据算法作业-作业4_第2页
NEU-works-t0p-大数据算法作业-作业4_第3页
NEU-works-t0p-大数据算法作业-作业4_第4页
NEU-works-t0p-大数据算法作业-作业4_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计单词平均值

大数据算法作业4

Github:

https://github.cco/Cwcw32/BigDataCourccHoocwork

姓名:胥卜凡

指导教师:乔百友

目录

1虚拟机相关.....................................................................3

1.1创建虚拟机...............................................................3

1.2虚拟机配置................................................................4

2酉已置hadoop环境................................................................5

2.1ssh配置.................................................................5

2.2配置J/WA环境............................................................6

2.3安装Hadoop3.1.3........................................................7

2.4集群分布式配置...........................................................7

2.5安装eclipse............................................................16

3MapReduce程序设计与实现.....................................................18

3.1题目要求................................................................18

3.2算法设计................................................................18

3.3程序代码................................................................19

3.4实验结果及分析..........................................................23

3.4.1实验环境..........................................................23

3.4.2实验结果..........................................................23

3.4.3对比分析..........................................................32

4人员安排......................................................................34

5心得体会......................................................................34

6附录...........................................................................35

1虚拟机相关

环境:使用VMware平台进行虚拟机的相关配置。

图1-1

1.1创建虚拟机

操作系统采用ubuntu18.04LTS版本。

©

创建新的虚拟机

图1-2

新建虚拟机向导X

安找客户机操作系统

虚强机如同物理机,需要掾作系统。您将如何安袋客户机悚作系统?

安装来源:

O安装程序光盘(D):

无可用驱动器

O安装程序光盘映像文件(iso)(M):

C:\Users\29459\Downloads\ubuntu-18.04.5-desktop-ai、|浏览(R)...

@梢后安装操作系统(S),

创建的虚拟机将包含一个空白硬盘.

帮助〈上一步(B)下一步(N)>取消

图1-3

图1-6

之后终端中执行

“sudoapt-getupdatev

由于后续要进行文档编辑,这里采用vim,即

usudoaptgetinstallvim”

2配1闫)hadoop环境

2.1ssh配置

这里采用的hadoop版本是3.1.3

首先设置好ssh相关内容“sudoapt-getinstallopenssh-server

之后执行sshlocalhost

rheauthenticityofhost'localhost()'can*tbeestablished.

iCDSAkeyfingerprintisa9:28:e0:4e:89:46:a4:cd:75:8f:0b:8b:57:79:67:86.

vousurevouwanttocontinueconnectin。(ves/no)?ves._______________

图2-1

Yes即可

$exit

st

$cd~/.ssh/

—^sshLocaLhost

$ssh-keygen-trsa

$cat./id_rsa.pub>>./authorized_keys

图2-2

这样设置好密钥,之后就不用密码了

j9M«stcr:*$sshlocalhost

WelcometoJbuntu18.04.5LTS(CNU/LtnuxS.4.0-42-genericx86_64)

•Documentation:https:〃help.ubuntu.COR

•Management:https://landscape,canonical.COR

•Support:https:///advantage

*CanonicalLtvepatchisavailableforInstallation.

-ReducesystemrebootsandImprovekernelsecurity.Activateat:

https://ubuntu.con/ltvepatch

271个可升桀软件包。

216个安全更新。

有初版本”26.84.2LTS”可供使用

运行“do-release-upgrade”来弁级到新版本。

YourHardwareEnablenentStack(HWE)issupporteduntilApril2023.

Lostlogin:FrtHoy2821:12:472621fron78

图2-3

2.2配置JAVA环境

首先安装java环境,

Shell命令的</>

$

$cd/usr/lib

$sudomkdirjvm#z

进入用户的主目录

$cd~#hadoop

cdDownloads

安装:传到该目录下

$DK^jdk-8ul62-Linux-x64.tar.gzj

sudotar-zxvf./jdk-8ul62-linux-x64.tar.gz-C/usr/li

b/jvm#把:]DK文件解去利/usr/Itb/jvm〃及/、

图2-4

配置bashrc加下所示

j^Maiter-0G。

文件铲)■■(0i«(v)s*(s)««(n僖助x

exportJAVA_H0KE*/usr/ltb/jvR/jdki.8.e_162

exportJF£.HOM£«$(JAVA_HO«E)/jre

exportCLASSPATH*.:$(JAVAHOME)/ltb:${OREH(XE}/Ub

•xportPATH.$(JAVA_H0ME)/btn:$PATH:$PATH:7usr/Xocil/h«(k>op/btn:/u$r/Xocil/h«<k>op

/sbtn

・/・bashrc:executedbybash(l)fornon*loginshells.

•see/usr/share/doc/bash/exanples/startup*files(tnth«packageb^sh-doc)

।•forexeRples

PIfnotrunningtnter«cttvelypdon'tdoanything

上3・$•In

•f);;

1•)return;;

don'tputduplicatelinesorlinesstartt”with3时cethehistory.

SecUasli(1)fv«nvicvpllvn>

XSTCONTroL.lgnoreboth

appendtothehistoryfile,don'toverwriteit

bopt-shtstapp<nd

-/.26h,U1231,3»7C4.S5顶0;

图2-5

进行source之后检验java是否成功配置

j8Ma$ter:-$Java-version

javaversionw1.8.0_162*

Java(TM)SERunttRe-Environwent(build1.8.0_162-bl2)

JavaHotSpot(TM)64-BttServerVM(butld25.162-bl2,ntxednode)

图2-6

2.3安装Hadoop3.1.3

在共享文件夹共享文件后,执行如下命令

$sudotar-zxf~/下载/hadoop・3.l・3・tar.gz-C/usr/local

#解压到/usr/local中

$cd/usr/local/

$sudomv./hadoop-3.1.3/./hadoop

名改为hadoop

$sudochown-Rhadoop./hadoop

图2-7

检验hadoop版本

nayprinthelpwheninvokedw/oparaReterscrwith-h.

i®Haster:*$hadoopversion

ladoop3.1.3

;ourcocodarepositoryhttpc://gttbox./ropoc/asf/hadoop.git-rba631c4

J6b866728f8ec2f54able289526c98579

:onptledbyztangon2619-e9-12T02:47Z

:onptledwithprotoc2.S.6

tonsourcewithchecksumec785077c38S118dc91ddddeSec9799

hisconnandwasrunusing/usr/local/hadoop/share/hadcop/comnon/hadoop*common-3

1.3.jar

gst-S・

图2-8

2.4集群分布式配置

」我的次具帆

仁]Ubuntu64位

hadoopl

存hadoop2

首先将原虚拟机[^hadoopl克隆出2个来®hadoop3

之后进行网络配置,获得每个虚拟机的IP地址

图2-9

之后

$sudovim/etc/hostname

图2-10

将名称分别改为

Master

Slavel

Slave2

之后

图2-11

将3个虚拟机都改为如下所示

j@皿妹。仁-e®o

文件(F)蜩辑旧5ft(V)搜索⑸然助(H)

Sf

i27.e.e.ilocalhost

>j-vtrtual-macht

’3。Master

931Slave1

■32SlaveZ

*ThefollowirglinesaredesirableforIPv6capablehosts

::1tp6-lccalhosttp6-loopback

fe©6::6tp6-lccalnet

ffee::0tp6-mcastpreftx

ff02::1tp6>aUnodes

ff62::2ip6-allrouters

仝兹

图2-12

进行PING测试

J9Master:*$pingSlave】-c3

PINGSlavel(31)56(84)bytesofdata.

64bytesfronSlavel(192.168.8.131):tcnp_seqslttl=64ttRe=0.7eens

64bytesfronSlavel(192.168.8.131):tcnp_seq»2ttl=64ttne=e.688ns

64bytesfronSlavel(192.168.8.131):tcnp_seq«3ttl»64ns

—Slavelptrw)5tatisttes—

3packetstransmitted.3received,6%packetloss,tlx2841”

rttntn/avg/nax/nde/・e.688/6.8S8/1.186/0.231R5

j8Master:-$ptngSl,ve2•c3

PINCSlavt2(32)56(84)bytesofdata.

64bytesfro«Slaved(192.168.8.132):tCRp_seq«lttl=64ttne=1.16RS

64bytesfronSlave!(192.168.8.132):tcnp_seq=2ttl=64ttme=1.22RS

64bytesfronSlaveZ(192.168.8.132):tcnp_seq=3ttl=64ttne=0.346ns

・・・Slave2pingstatistics•••

3packetstransmitted,3received,0%packetloss,tine2664ns

rttmtn/avg/nax/Rde/=0.346/e.913/1.228/6.403RS

J0Master:-$pingMaster-c3

PINGMaster(30)56(84)bytesofdata.

64bytesfrowMaster(192.168.8.130):tcnp_seq=lttl=64ttne=0.014RS

64bytesfronHaste-(192.168.8.130):tcnp_seq=2ttl=64ttRe=0.027RS

6・1bytesfronHaste"(192.168.8.130):tcnp_seq=3ttl«64ttne=0.030RS

---Masterpingstatistics・・・

3packetstransnttted,3received,Wpacketloss,ttf*e2024ns

rttRtn/avg/MX/Adev■6.014/6.023/6.630/6.668RS

图2-13

成功。

之后进行如下操作进行ssh相关配置。

必须要让Master节点可以SSH无密码登录到各个Slave节点上。首先,生成

Master节点的公匙,如果之前已经生成过公钥,必须要删除原来生成的公

钥,重新生成一次,因为前面我们对主机名进行了修改。具体命令如下:

Shell命令的</>

$cd~/.ssh#如果没有该目录,先执行一次sshL

ocaLhost

$rm./id_rsa*#删除之前生成的公匙(如果已经存

在)

$ssh-keygen-trsa#执行该命令后,遇到提示信息,

直按回车就可以

为了让Master节点能够无密码SSH登录本札需要在Master节点上执行如下

命令:

Shell命令

$cat./id_rsa.pub>>./authorized_keys

完成后可以执行命令"sshMaster”来验证一下,可能会遇到提示信息,只要

输入yes即可,测试成功后,请执行“exit”命令返回原来的终端。

接下来,在Maste「节点将上公匙传输到Slavel节点:

Shell命令的</>

$scp.ssh/id_rsa.pubhadoop@Slavel:/home/hadoop/

图2-14

接着在Slavel节点上,将SSH公匙加入授权:

Shell命令的</>

$mkdir-/.ssh

在,则忽略本命令

$cat~/id_rsa・pub>>-/.ssh/authorized_keys

$rm-/id_rsa.pub

如果有其他Slave节点,也要执行将Master公匙传输到Slave节点以及在

Slave节点上加入授权这两步操作。

这样,在Master节点上就可以无密码SSH登录到各个Slave节点了,可在

Master节点上执行如下命令进行检验:

图215

在主机上进行检验

Irttmtn/avg/max/mdev=0.014/0.023/0.030/0.008ns

|j0Haster:*$sshSlavel

(welconetoUbuntu18.04.5LTS(GNU/LtnuxS.4.e-42-genertcx86_64)

Docunentation:https://help,ubuntu,con

Managenent:https://landscape.canonical・con

Support:https://ubuntu.con/advantage

I•CanonicalLtvepatchisavailableforinstallation.

-Reducesystemrebootsandimprovekernelsecurity.Activateat:

https://ubuntu.coa/ltvepatch

271个可升级软件包。

2ie个安全更新。

有标本IT3”可供使用

运行“do・relese・u凶rade”来升级到新版本。

YourHardwareEnablenentStack(HWE)tssupporteduntilApril2023.

Lastlogin:FrtMay2822:63:392621froR30

图2-16

接下来修改相关文件如下所示

workers:

J9SUvel:/usr/loc^l/hadoop/etc/hadoop

文件(F)编错(E)查看(V)搜索(S)终蟠⑴精助(H)

Slavel

SlaveZ

orkers"3L,21c全部

图2-17

Core-site,xml

<conftguratton>

<property>

<nane>fs.defaultFS</naae>

<value>hdfs://Master:96M</value>

</property>

<property>

<nonohddoop.tRp.dlr</n«ne>

<dcscrtptton>Abd$eforothertemporarydirectories.</dcscrtptton>

</property>

</conftgur«tton>

图2-18

hdfs-site.xml

J9Slavel:/usr/loc4l/hodoop/etc/hadoope©©

文件(F)坦珥(E)5fi(V)搜索(S)修等(T)精助(H)

Unlessrequiredbyapplicablelaworagreedtotnwriting,software

distributedundertheLicenseisdistributedonan"ASISHBASIS,

WITHOUTWARRANTIES0«CONDITIONSOFANYKIND,eitherexpressortnplted.

SeetheLicenseforthespecificlanguagegoverningpermissionsanc

limitationsundertheLicense.SeeaccompanyingLICENSEfile.

<!--Putsite-specificpropertyoverridestnthisfile.

<conftguratton>

〈property〉

<nane>dfs・nanenode.secondary.http-address</nane>

<value>Master:S669e</value>

</property>

(property〉

<none>df$.reolt.Cdtt.on</naRe>

<v«lue>3</vilue>

“property)

(property〉

<naRc>dfs・nanenode・nane,dtr</nanc>

<value>ftle:/usr/local/hadoop/tmp/dfs/nane</value>

</property>

<property>

<naRe>dfs.datanode.data.dtr</nane>

<value>ftle:/usr/local/hadoop/tmp/dfs/data</value>

</property>

i</conftguratton>

rhdfs-stte.xnl-36L,1353c底端

图2-19

mapred-site.xml

Jl9Slavel:/usr/local/hadoop/etc/h»joop

文件时蝙辑旧M(V)»»(S)终・(T)帮助(H)

<conft.guratt.on>

(property〉

<nARc>mapreduce・franework.ndne</nane>

<v«lue>yarn</value>

</propcrty>

<property>

<naRc>mdpreduce.jobhtstory.dddress</n«Rc>

<v«lue>Haster:10020</v«lue>

“property〉

<propcrty>

<naRc>mdprcduce.jobht.story.wcbapp.dddress</namc>

<v«lue>Master:19888</v«luc>

</property>

<property>

<nane>ydm.app.napreduce・afi・env</nane>

<value>H^DOOP_MAPRED-HOME=/usr/local/hadoop</valuc>

</property>

<property>

<nAR4»>mApr^dnr«»..pnv</naiw>

<value>H^XX>P_MAPRED_HOME=/usr/local/hadoop</value>

</property>

<property>

<naRe>mapreduce.reduce,env</nane>

<value>H^DOOP_MAPRED_HOME=/usr/local/hadoop</valu«>

</property>

</conftguratton>

图2-20

yarn-site,xml

文件(F)ttS(E)M(V)搜索(S)终*(T)帝助(H)

<?xmlverston=Bl.e"?>

<!--

LicensedundertheApacheLicense,Version2.0(the"License');

younaynotusethisfileexcepttncompliancewiththeLtcease.

YounayobtainacopyoftheLicenseat

http://www.apache.Org/ltcenses/LICENSE-2.6

Unlessrequiredbyapplicablelaworagreedtotnwriting,software

distributedundertheLicenseisdistributedonan"ASIS"BASIS,

WITHOUTWARRANTIESORCONDITIONSOFANYKIND,eitherexpressOftRplted.

SeetheLicenseforthespecificlanguagegoverningperntsstonsand

ItRttattonsundertheLicense.SeeaccompanyingLICENSEfile

-->

<conftguratton>

<property>

<nane>yarn.resourcef)anager.hostndMe</nane>

<vdlue>Md^lci«/vdluc>

</property>

(property〉

<name>yarn.nodeftanager.aux-servtces</nane>

<value>mapreduce_$huffle</value>

</property>

<!--SitespecificYAFNconftgurattonproperties->>

</conftguratton>

图2-21

注:

①上述注意和教程中不同,replication设置为3,并且将主节点同时作为名

称节点和数据节点使用。

②对于不同的电脑,如果像我一样是划分虚拟机的话,要在mapred-site.xml

中进行相关内存的设定,否则会出现MapReduce内存爆炸的问题。

<property>

<name>mapreduce.map.memory.mb</nane>

<value>1536</value>

</property>

<property>

<name>mapreduce.map.java.opts</name>

<value>-Xnxl024M</value>

</property>

<property>

<name>mapreduce.reduce,memory.tnb</name>

<value>2048</value>

</property>

<property>

<name>mapreduce.reduce.java.opts</name>

<value>-Xnx204@M</value>

图2-22

之后根据教程,

$cd/usr/local

$sudom-r./hadcop/trap

$sudora-r./hadcop/logs/*

$tar-zcf-*/hadoop.master.tar.gz./hadoop

图2-23

再把文件传给从节点

00:05

图2-24

从节点执行

jeSlavel:~$sudorm-r/usr/local/hadoop

jeSlavel:-$sudotar-zxf-/hadoop.master.tar.gz-C/usr/local

j@Slavel:-$sudochown-Rhadoop/usr/local/hadoop

chown:无效的用户:"hadoop"

j@Slavel:~$sudochown-Rhadoop/usr/local/j

chown:无效的用户:"hadoop"

sudochown-Rj/usr/local/hadoop

4GC1_4nc__________________________________________________________

图2-25

主节点执行格式化

j0Master:-$hdfsnawenode-fornat

202105-2822:14:54,676IN-0nanenode.NdaeNode:STARTUP_MSG:

STARTUP.HSC:StartingNaneMode

STARTUP.MSC:host=Master/30

STARTUPJSC:args=(-fo-nat]

STARTUP.MSC:version=3.1.3

S--T--A-R--T--U-P—MSC:classpath=/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/connon/ltb/comons-

net・3・6.ja「:/usr八ocal/hadx>p/share/hadoop/conRon/llb/p「otobuf・Java・2・5.6・jar:/us「/local/hadoop/sha「e/hado

op/cofvion/ltb/netty•3.10.5.Final.jar:/usr/local/hadoop/share/hadoop/coivion/ltb/kerby•pktx-1.0.1.jar:/usr/1

ocal/hadoop/share/hadoop/comon/ltb/jetty-uttl-9.3.24.720186605.jar:/usr/local/hadoop/share/hadoop/conmon/

ltb/guava-27.6-jre.jar:/us-/local/hadcx)p/share/hadoop/coRnon/ltb/jersey-json-1.19.jar:/usr/local/hadcx)p/sh

are/hadoop/coMon/ltb/kerb-core-1.6.1.jar:/usr/local/hadoop/share/hddoop/co<nr^on/ltb/parandmer-2.3.jar:/usr

/local/hadoop/share/hadoop/comon/ltb/json-snart-2.3.jar:/usr/local/hddoop/share/hadoop/coivK>n/ltb/token>p

rovtder-l.e.1.jar:/usr/loc)l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论