spark搭建手册.docx_第1页
spark搭建手册.docx_第2页
spark搭建手册.docx_第3页
spark搭建手册.docx_第4页
spark搭建手册.docx_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop+Spark 大数据集群环境1. 配置集群的准备,文件包如下图:分布式机器如下:SparkMaster 192.168.35.129Ubuntu12.xSparkWorker1 192.168.35.130Ubuntu12.xSparkWorker 2 192.168.35.131Ubuntu12.x2. 配置linux 环境1.1 配置linux登录时可以使用root账户1.2 配置/etc/hostname,修改主机名SparkMaster,工作机为SparkWorker1、SparkWorker2,重启生效1.3 配置/etc/hosts ,如下图1.4 配置三台机器SSH无密码登录3. 安装java环境,安装到/usr/lib/java目录,配置环境变量,验证成功,如下图4. 安装hadoop1.1 将hadoop安装到 /usr/local/hadoop目录,配置环境变量1.2 在$HADOOP_HOME 下,按照下图操作创建目录,如下图1.3 进入$HADOOP_HOME目录,对配置文件进行如下图配置,如下图首先,修改hadoop-env.sh,JAVA_HOME=我们java安装目录,如下图然后,修改yarn-env.sh, JAVA_HOME=我们java安装目录,如下图然后,修改mapred-env.sh, JAVA_HOME=我们java安装目录,如下图然后,修改slaves文件,将客户机填写到文件中,如下图然后,修改core-site.xml,填写如图配置,如下图然后,修改hdfs-site.xml,填写如图配置,如下图然后,复制一份mapred-site.xml.template 为mapred-site.xml,如下图然后,修改yarn-site.xml,填写如图配置,如下图最后,将SparkMaster操作,同步到SparkWorker1和SparkWorker2上1.4 启动hadoop首先,收入hadoop namenode format,如下图然后,启动hdfs文件系统,如下图可以验证是否成功,使用jps命令,master有3个进程,worker2有两个进程,如下图同时登录hdfs文件系统web界面查看配置情况,如下图然后,启动yarn集群,如下图进行验证,使用jps命令,如下图最后,验证hadoop分布式集群在hdfs上,创建两个文件夹,如下图登录,hdfs的web界面,进行查看,如下图5. 安装scala安装到 /usr/lib/scala目录下,配置环境变量,验证如下图所有分布式集群都需要安装。6. 安装spark1.1 安装到 /usr/local/spark目录,配置环境变量1.2 修改spark配置文件,进入$SPARK_HOME/conf目录1.3 修改slaves文件,如下图1.4 复制spark-env.sh.template 到spark-env.sh ,并对其进行修改,如下图1.5 启动spark集群,进入sbin目录,启动start-all.sh 如下图启动后,jps命令,进程列表中会多出一个master进程,同样工作机 ,如下图1.6 到这里spark集群已经启动,我们可以登录web,进行验证1.7 进入bin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论