




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档一、安装spark依赖的内容1.JDK spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python、java、Scala编写的代码 - scala编译器编译解释,生成class文件 - 由jvm负责执行class文件(与java代码执行一致)2.scala 由于spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译3.配置SSH免密码登录 集群节点无密码访问,与安装Hadoop时一致4.安装Hadoop hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装yarn版本的5.安装spark 安装spark,执行spark代码二、JDK安装1.下载地址 用户可以在官网下载相应版本的JDK,本例使用JDK1.6,下载地址为:/technetwork/java/javase/archive-139210.html development kit的bin包2.下载后,在相应的目录下执行bin文件(假设JDK目录是jdkpath) ./jdk-6u45-linux-i586.bin3.配置环境变量,修改/etc/profile文件增加以下内容 export JAVA_HOME= $jdkpath export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar4.生效profile(或者重启机器) source /etc/profile5.终端输入 java -version 输出类似如下说明安装成功 三、安装Scala1.下载地址 官网下载地址:/download/all.html 本例使用的是Scala 2.9.32.在安装目录下解压(假设Scala目录是scalapath) tar -zxvfscala-2.9.3.tgz3.配置环境变量,修改/etc/profile文件增加以下内容 export SCALA_HOME= $scalapath export PATH=$SCALA_HOME/bin:$PATH4.生效profile(或者重启机器) source /etc/profile四、配置SSH免密码登陆首先,需要配置各个机器间的相互访问:1、配置ssh的自动登陆(在master机上):$ssh-keygen-tdsa-P”-f/.ssh/id_dsa完成后会在/.ssh/(用户目录下)生成两个文件:id_dsa和id_dsa.pub。再把id_dsa.pub追加到授权key里面(当前并没有authorized_keys文件):$cat/.ssh/id_dsa.pub/.ssh/authorized_keys完成后可以实现无密码登录本机:$sshlocalhost2、把master上的id_dsa.pub文件追加到slaves机器的authorized_keys内(以slaves1节点为例):#拷贝master的id_dsa.pub文件(在master号机器上执行)$scpid_dsa.pubredmap:/home/redmap/注:(只需在主节点上运行ssh-kegen程序。其他节点的目录结构创建后,将刚才在主节点创建的keys通过scp拷贝到从节点的同样的目录上。)我们在实际执行中是手动把id_dsa.pub拷贝到其他slaves的节点中,而不是用scp命令。最好是直接手动拷贝过去,这样文件的权限是一致的。登录,进入用户目录下执行:$catid_dsa.pub.ssh/authorized_keys之后可以在master上不输入密码直接SSH访问slaves1五、安装Hadoop2.x1.下载Hadoop 下载地址/hadoop/common/ 本文使用hadoop-2.5.2.tar2.解压压缩包到指定目录 tar -zxvf hadoop-2.5.2.tar -C /usr/local (目录自定义) 如果需要修改拥有者 chown -R hduser:hadoophadoop-2.5.23.配置环境变量 编辑profile文件 vi /etc/profile 在profile文件增加以下内容 pythonview plaincopy1. exportHADOOP_HOME=/home/root/hadoop-2.5.2(安装路径)2. exportPATH=$PATH:$HADOOP_HOME/bin3. 4. exportPATH=$PATH:$HADOOP_HOME/sbin5. 6. exportHADOOP_MAPRED_HOME=$HADOOP_HOME7. 8. exportHADOOP_COMMON_HOME=$HADOOP_HOME9. 10. exportHADOOP_HDFS_HOME=$HADOOP_HOME11. 12. exportHADOOP_YARN_HOME=$HADOOP_HOME4.编辑配置文件 (1)进入Hadoop安装路径下的/etc/hadoop目录 (2)配置Hadoop-env.sh文件 增加 export JAVA_HOME=.(java JDK安装路径) (3)修改hadoop安装目录下/etc/hadoop目录中的core-site.xmlhtmlview plaincopy1. 2. 3. io.native.lib.available4. true5. 6. 7. 8. hdfs:/host:9000/本机的Ip地址或者域名,端口自己设置9. Thenameofthedefaultfilesystem.Eithertheliteralstringlocalorahost:portforNDFS.10. true11. 12. 13. hadoop.tmp.dir14. file:/home/tmp15. 16. (4)在etc/hadoop目录中编辑hdfs-site.xmlhtmlview plaincopy1. 2. 3. .dir4. file:/usr/hadoop23/dfs/name/本机保存name数据的目录,自定义5. DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable.Ifthisisacomma-delimitedlistofdirectories,thennametableisreplicatedinallofthedirectories,forredundancy.6. true7. 8. 9. dfs.datanode.data.dir10. file:/us/hadoop23/dfs/data/本机保存data数据的目录,自定义11. DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-delimitedlistofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.12. 13. true14. 15. 16. dfs.replication17. 118. 19. 20. dfs.permission21. false22. 23. 24. dfs.webhdfs.enabled25. true26. 27. 路径file:/usr/hadoop23/dfs/name与file:/usr/hadoop23/dfs/data是计算机中的一些文件夹,用于存放数据和编辑文件的路径必须用一个详细的URI描述。(5)在etc/hadoop目录中编辑mapred-site.xmlhtmlview plaincopy1. 2. 3. 4. 5. yarn6. yarn,local,classic7. 8. 9. mapreduce.jobhistory.address10. master:1002011. 12. 13. mapreduce.jobhistory.webapp.address14. master:1988815. 16. (6)编辑yarn-site.xmlhtmlview plaincopy1. 2. 3. yarn.resourcemanager.address4. host:port/本机的Ip地址或者域名,端口自己设置5. thehostisthehostnameoftheResourceManagerandtheportistheporton6. whichtheclientscantalktotheResourceManager.7. 8. 9. yarn.resourcemanager.scheduler.address10. host:port/本机的Ip地址或者域名,端口自己设置11. hostisthehostnameoftheresourcemanagerandportistheport12. onwhichtheApplicationsintheclustertalktotheResourceManager.13. 14. 15. 16. yarn.resourcemanager.resource-tracker.address17. host:port/本机的Ip地址或者域名,端口自己设置18. hostisthehostnameoftheresourcemanagerand19. portistheportonwhichtheNodeManagerscontacttheResourceManager.20. 21. 22. 23. yarn.resourcemanager.admin.address24. host:8033/本机的Ip地址或者域名,端口自己设置25. hostisthehostnameoftheresourcemanagerand26. portistheportonwhichtheNodeManagerscontacttheResourceManager.27. 28. 29. 30. yarn.resourcemanager.webapp.address31. host:8088/本机的Ip地址或者域名,端口自己设置32. hostisthehostnameoftheresourcemanagerand33. portistheportonwhichtheNodeManagerscontacttheResourceManager.34. 35. 36. 37. yarn.nodemanager.aux-services38. mapreduce.shuffle39. 40. 41. yarn.nodemanager.aux-services.mapreduce.shuffle.class42. org.apache.hadoop.mapred.ShuffleHandler43. 44. 45. yarn.resourcemanager.admin.address46. master:803347. 48. 49. yarn.resourcemanager.webapp.address50. master:808851. 52. 5.配置masters和slaves文件 (1)如果etc/hadoop目录下没有masters文件,则新建一个,并添加集群的主节点名称或者IP,最好和之前的配置格式一致,同为IP或者同为主机名称 比如:本文配置的masters文件内容为(master为某个主节点名称) master (2)修改slaves文件,添加所有slave机器的名称或IP 比如:本文配置的slaves文件内容为(由于配置的是伪分布式集群,所以内容和masters文件一样) master6.如果有多个slaves机器,则需要把配置好的Hadoop文件分发到各个节点相同路径下,修改profile文件和master一致,修改hosts文件,增加所有 的机器名称和IP对应关系,同时确保各个节点上Hadoop目录的权限,操作用户对Hadoop目录有拥有权 按以上的配置修改好集群的节点后,最好重启所有节点,确保所有配置文件生效7.格式化namenode hadoop namenode -format8.启动Hadoop ./sbin/start-all.sh9.查看是否启动成功 (1) 如果是单机伪分布式集群 执行 jps 命令,输出类似如下,则说明安装成功8451 SecondaryNameNode8721 NodeManager8592 ResourceManager9384 Jps8152 NameNode8282 DataNode (2) 如果是多个几点的分布式集群 在主节点执行jps命令时,只有 8451 SecondaryNameNode 8592 ResourceManager 9384 Jps 8152 NameNode 而在slave机器执行命令时,只有 9384 Jps 8282 DataNode 8721 NodeManager10.关闭Hadoop ./sbin/stop-all.sh六、安装spark1.x1.下载安装包 官网地址:/downloads.html 本文使用的是spark1.0.02.解压压缩包到指定目录 tar -zxvf spark-1.0.0.tar.gz -C 指定目录(假设为sparkpath)3.修改profile文件 vi /etc/profile 添加以下内容 export SPARK_HOME=sparkpath export PATH=$PATH:$SPARK_HOME/bin4.编辑spark安装目录下conf/spark-env.sh文件,增加以下参数 export SCALA_HOME=scalahome export JAVA_HOME=jdkhome export SPARK_MASTER_IP=master export SPARK_WORKER_MEMORY=256m (自定义,每个worker节点可用内存) export MASTER=spark:/master:7077 (master地址)5.编辑conf/slaves文件 增加所有worker节点的主机名或IP,最好所有的配置都统一为机器名6.启动spark集群 ./sparkpath/sbin/start-all.sh 如果只是一个伪分布式的集群执行jps命令时,会多出两个进程2222222 显示如上图所示,则说明配置成功,相应进程都启动 如果是多个节点的spark集群 则在master机器上只有 333333Master这个进程 而在slaves机器上只有444444Worker这个进程7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业自动化与智能电网的融合探讨
- 工业遗产在旅游业中的利用与发展前景分析
- 工业遗产改造为文化创意产业园的实践案例研究
- 工业设计的趋势与前景分析
- 工业设计创新与趋势分析
- 工作环境改善与团队效率关系研究
- 工厂操作人员必须了解的版本更新质量要求
- 工程物流项目的高效安全管理模式及实施策略探讨
- 市场分析与预测方法在市场营销中的应用
- 工程项目管理中的数据化决策与汇报
- 小学生火星天问一号祝融车分享
- AI技术在市场营销策略中的应用指南
- 2020年青海省(初三学业水平考试)中考数学真题试卷含详解
- 病理学智慧树知到期末考试答案章节答案2024年温州医科大学
- 大学英语写作网络课程智慧树知到期末考试答案章节答案2024年佳木斯大学
- T-CSTM 00607-2024 被动式超低能耗建筑外围护结构用防水隔汽膜、透汽膜及气密性配件
- DL-T5333-2021水电水利工程爆破安全监测规程
- 医疗废物收集人员个人防护要求
- 山东产权交易集团有限公司招聘(校招、社招)笔试真题2023
- (正式版)HGT 6263-2024 电石渣脱硫剂
- GB/T 6346.1-2024电子设备用固定电容器第1部分:总规范
评论
0/150
提交评论