hadoop-spark集群部署手册

上传人：h*** IP属地：贵州上传时间：2018-11-27 格式：DOCX 页数：27 大小：479.80KB 积分：30 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 软件环境整体情况说明 4 5 6 7 JDK Hadoop （Master ）（Slave）（Slave）（Slave） Hive Scala Spark （Master ）（Worker）（Worker）（Worker） 2 安装包下载路径系统名软件包名下载路径 hadoop-2.2.0.tar.gz hive-1.2.1.tar.gz spark-1.5.1.tar.gz Spark scala-2.10.4.tgz 0/开源软件/ 3 Hadoop2.2 安装和配置 3.1集群网络环境节点 IP 地址和主机名分布如下： IP HostName 用户名 4 DashDB01.yun vod 5 spark01.yun vod 6 spark02.yun vod 7 spark03.yun vod 3.2环境搭建（每台机器都要操作） 3.2.1 修改 HostName（非必须） vim /etc/sysconfig/network 修改 HOSTNAME 为需要的名称重启服务器，进行生效 reboot 3.2.2 设置 Host映射文件 1. 使用 root 身份编辑/etc/hosts 映射文件，设置 IP 地址与机器名的映射，设置信息如下： vim /etc/hosts 4 DashDB01.yun 5 spark01.yun 6 spark02.yun 7 spark03.yun 2. 使用如下命令对网络设置进行重启 /etc/init.d/network restart 3. 验证设置是否成功 3.2.3 设置操作系统环境关闭防火墙在 Hadoop 安装过程中需要关闭防火墙和 SElinux，否则会出现异常 1. service iptables status 查看防火墙状态，如下所示表示 iptables 已经开启 2. 以 root 用户使用如下命令关闭 iptables chkconfig iptables off 关闭 SElinux 1. 使用 getenforce 命令查看是否关闭 2. 修改 /etc/selinux/config 文件将 SELINUX=enforcing 改为 SELINUX=disabled，执行该命令后重启机器生效 JDK安装及配置赋予 vod 用户/usr/lib/java 目录可读写权限，使用命令如下： sudo chmod -R 777 /usr/lib/java 把下载的安装包，上传到/usr/lib/java 目录下，使用如下命令进行解压 tar -zxvf jdk-7u55-linux-x64.tar.gz 解压后目录如下图所示：使用 root 用户配置 /etc/profile，该设置对所有用户均生效 vim /etc/profile 添加以下信息： export JAVA_HOME=/usr/lib/java/jdk1.7.0_55 export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 修改完毕后，使用 source /etc/profile java -version 更新 OpenSSL yum update openssl 无密码验证配置 1. 以 root 用户使用 vim /etc/ssh/sshd_config，打开 sshd_config 配置文件，开放 4 个配置，如下图所示： RSAAuthentication yes PubkeyAuthentication yes AuthorizedKeysFile .ssh/authorized_keys StrictModes no 2. 配置后重启服务 service sshd restart 3.使用 root 用户登录在 4 个节点，在/home/common 目录下，执行命令 mkdir .ssh 4. 使用 vod 用户登录在 4 个节点中使用如下命令生成私钥和公钥； sudo chown -R vod .ssh ssh-keygen -t rsa 5. 进入 /home/common/.ssh 目录在 4 个节点中分别使用如下命令 cp id_rsa.pub authorized_keys_DashDB01.yun 把公钥命名 authorized_keys_DashDB01.yun authorized_keys_spark01.yun authorized_keys_spark02.yun authorized_keys_spark03.yun 6. 把 3 个从节点 (spark01，spark02 ，spark03)的公钥使用 scp 命令传送到 DashDB01.yun 节点的/home/common/.ssh 文件夹中； scp authorized_keys_spark01.yun vodDashDB01.yun:/home/common/.ssh 最终 DashDB01.yun 节点中文件如下 7. 把 4 个节点的公钥信息保存到 authorized_key 文件中使用 cat authorized_keys_DashDB01.yun authorized_keys 命令 8. 把该文件分发到其他两个从节点上使用 scp authorized_keys vodspark01.yun:/home/common/.ssh 把密码文件分发出其余三台机器的.ssh 文件包含如下： 9. 在 4 台机器中使用如下设置 authorized_keys 读写权限 chmod 775 authorized_keys 10. 测试 ssh 免密码登录是否生效 3.3配置 Hadooop设置 3.3.1 准备 hadoop文件 1. 把 hadoop-2.2.0 目录移到/usr/local 目录下 cd /home/hadoop/Downloads/ sudo cp hadoop-2.2.0 /usr/local 2. 使用 chown 命令遍历修改 hadoop-1.1.2 目录所有者为 hadoop sudo chown -R vod /usr/local/hadoop-2.2.0 chmod 775 -R /usr/local/hadoop-2.2.0/ 3.3.2 在 Hadoop目录下创建子目录使用 vod 用户在 hadoop-2.2.0 目录下创建 tmp、name 和 data 目录，保证目录所有者为 vod cd /usr/local/hadoop-2.2.0 mkdir tmp mkdir name mkdir data ls 3.3.3 配置/etc/profile sudo vim /etc/profile 添加以下内容 export HADOOP_HOME=/usr/local/hadoop-2.2.0 export PATH=$PATH:$HADOOP_HOME/bin export YARN_HOME=$HADOOP_HOME export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOMR/etc/hadoop 使用命令使其生效 source /etc/profile 3.3.4 配置 hadoop-env.sh 1. 打开配置文件 hadoop-env.sh cd /usr/local/hadoop-2.2.0/etc/hadoop sudo vim hadoop-env.sh 2. 加入配置内容，设置了 hadoop 中 jdk 和 hadoop/bin 路径 export JAVA_HOME=/usr/lib/java/jdk1.7.0_55 export PATH=$PATH:/usr/local/hadoop-2.2.0/bin 3. 编译配置文件 hadoop-env.sh，并确认生效 source hadoop-env.sh 3.3.5 配置 yarn-env.sh 1. 在 /usr/local/hadoop-2.2.0/etc/hadoop 打开配置文件 yarn-env.sh cd /usr/local/hadoop-2.2.0/etc/hadoop sudo vim yarn-env.sh 2. 加入配置内容，设置了 hadoop 中 jdk 和 hadoop/bin 路径 export JAVA_HOME=/usr/lib/java/jdk1.7.0_55 3. 编译配置文件 yarn-env.sh，并确认生效 source yarn-env.sh 3.3.6 配置 core-site.xml 1. 使用如下命令打开 core-site.xml 配置文件 sudo vim core-site.xml 2. 在配置文件中，按照如下内容进行配置 hdfs:/4:9000 fs.defaultFS hdfs:/4:9000 io.file.buffer.size 131072 hadoop.tmp.dir file:/usr/local/hadoop-2.2.0/tmp Abase for other temporary directories. xyuser.hduser.hosts * xyuser.hduser.groups * 3.3.7 配置 hdfs-site.xml 1. 使用如下命令打开 hdfs-site.xml 配置文件 sudo vim hdfs-site.xml 2. 在配置文件中，按照如下内容进行配置 node.secondary.http-address 4:9001 .dir file:/usr/local/hadoop-2.2.0/name dfs.datanode.data.dir file:/usr/local/hadoop-2.2.0/data dfs.replication 2 dfs.webhdfs.enabled true dfs.permissions false 3.3.8 配置 mapred-site.xml 1. 默认情况下不存在 mapred-site.xml 文件，可以从模板拷贝一份 cp mapred-site.xml.template mapred-site.xml 2. 使用如下命令打开 mapred-site.xml 配置文件 sudo vim mapred-site.xml 3. 在配置文件中，按照如下内容进行配置 yarn mapreduce.jobhistory.address 4:10020 mapreduce.jobhistory.webapp.address 4:19888 3.3.9 配置 yarn-site.xml 1. 使用如下命令打开 yarn-site.xml 配置文件 sudo vim yarn-site.xml 2. 在配置文件中，按照如下内容进行配置 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler yarn.resourcemanager.address 4:8032 yarn.resourcemanager.scheduler.address 4:8030 yarn.resourcemanager.resource-tracker.address 4:8031 yarn.resourcemanager.admin.address 4:8033 yarn.resourcemanager.webapp.address 4:8088 3.3.10配置 slaves文件 1. 设置从节点 sudo vim slaves 修改为 spark01.yun spark02.yun spark03.yun 3.3.11向各节点分发 hadoop程序 1. 在 spark01.yun spark02.yun spark03.yun 机器中创建/usr/local/hadoop- 2.2.0 目录，然后修改该目录所有权限 sudo mkdir /usr/local/hadoop-2.2.0 sudo chown -R vod /usr/local/hadoop-2.2.0 sudo chmod 775 -R /usr/local/hadoop-2.2.0/ 2. 在 DashDB01.yun 机器上进入/usr/local/hadoop-2.2.0 目录，使用如下命令把 hadoop 文件夹复制到其他 3 台使用命令 cd /usr/local/hadoop-2.2.0 scp -r * vodspark01.yun:/usr/local/hadoop-2.2.0 scp -r * vodspark02.yun:/usr/local/hadoop-2.2.0 scp -r * vodspark03.yun:/usr/local/hadoop-2.2.0 3. 在从节点查看是否复制成功执行 chmod 775 -R /usr/local/hadoop-2.2.0/ 4每个节点配置/etc/profile sudo vim /etc/profile 添加以下内容 export HADOOP_HOME=/usr/local/hadoop-2.2.0 export PATH=$PATH:$HADOOP_HOME/bin export YARN_HOME=$HADOOP_HOME export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOMR/etc/hadoop 使用命令使其生效 source /etc/profile 3.4启动 hadoop 3.4.1 格式化 namenode ./bin/hdfs namenode -format 3.4.2 启动 hadoop cd /usr/local/hadoop-2.2.0/sbin ./start-all.sh 3.4.3 验证当前进行此时执行 jps 命令在 DashDB01.yun 上运行的进程有： namenode，secondarynamenode，resourcemanager spark01.yun spark02.yun 和 spark03.yun 上面运行的进程有： datanode，nodemanager 4 Hive1.2.1 安装和配置 4.1拷贝项目 sudo cp -r /home/common/Downloads/hive-1.2.1/ hive-1.2.1 更改文件夹所属 sudo chown -R vod /usr/local/hive-1.2.1 sudo chmod 775 -R /usr/local/hive-1.2.1 4.2配置/etc/profile sudo vim /etc/profile export HIVE_HOME=/usr/local/hive-1.2.1 export PATH=$HIVE_HOME/bin:$PATH export HIVE_CONF_DIR=$HIVE_HOME/conf source /etc/profile 4.3配置 hive(使用 mysql数据源) 前提条件：在 mysql 数据库建立 hive 用户并赋予相关权限 mysql CREATE USER hive IDENTIFIED BY mysql; mysql GRANT ALL PRIVILEGES ON *.* TO hive% WITH GRANT OPTION; mysql flush privileges; cd $HIVE_CONF_DIR/ cp hive-default.xml.template hive-site.xml vim hive-site.xml 修改下列参数： javax.jdo.option.ConnectionURL jdbc:mysql:/50:3306/hive?createDatabaseIfNotExist=true javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.ConnectionUserName hive javax.jdo.option.ConnectionPassword hive 执行命令 chmod 775 -R /usr/local/hive-1.2.1/ 4.4启动 HiveServer2(后台启动) cd $HIVE_HOME/bin nohup hive -service hiveserver2 OK Time taken: 4.824 seconds hive create table hwz(id int, name string); OK Time taken: 0.566 seconds hive select * from hwz; OK Time taken: 0.361 seconds $ hadoop dfs -lsr /user/hive Warning: $HADOOP_HOME is deprecated. drwxr-xr-x - hadoop supergroup 0 2012-03-22 12:36 /user/hive/warehouse drwxr-xr-x - hadoop supergroup 0 2012-03-22 12:36 /user/hive/warehouse/hwz 5 Scala 安装和配置 5.1拷贝安装包 cd /usr/lib sudo cp /home/common/Downloads/scala-2.10.4.tgz scala-2.10.4.tgz 5.2解压安装包 sudo tar -xvf scala-2.10.4.tgz sudo rm scala-2.10.4.tgz 给 scala 文件夹赋予相应的权限 sudo chown -R vod /usr/lib/scala-2.10.4 sudo chmod 775 -R /usr/lib/scala-2.10.4 5.3配置/etc/profile sudo vim /etc/profile export SCALA_HOME=/usr/lib/scala-2.10.4 export PATH=$PATH:$SCALA_HOME/bin source /etc/profile 5.4向每台机器分发 cd /usr/lib sudo mkdir scala-2.10.4 sudo chown -R vod /usr/lib/scala-2.10.4 sudo chmod 775 -R /usr/lib/scala-2.10.4 scp -r * vodspark03.yun:/usr/lib/scala-2.10.4 5.5 配置/etc/profile sudo vim /etc/profile export SCALA_HOME=/usr/lib/scala-2.10.4 export PATH=$PATH:$SCALA_HOME/bin source /etc/profile 5.6检测 scala -version 6 Spark 安装和配置 6.1在 master上安装并配置 Spark sudo cp -r /home/common/Downloads/spark-1.5.1/ spark-1.5.1 sudo chown -R vod /usr/local/spark-1.5.1 sudo chmod 775 -R /usr/local/spark-1.5.1 设置 SPARK_EXAMPLES_JAR 环境变量 sudo vim /etc/profile export SPARK_HOME=/usr/local/spark-1.5.1 export PATH=$PATH:$SPARK_HOME/bin export SPARK_EXAMPLES_JAR=$SPARK_HOME/lib/spark-assembly-1.5.1- hadoop2.2.0.jar source /etc/profile 在 conf/spark-env.sh 中设置 cd $SPARK_HOME/conf mv spark-env.sh.template spark-env.sh sudo vim spark-env.sh export JAVA_HOME=/usr/lib/java/jdk1.7.0_55 export SCALA_HOME=/usr/lib/scala-2.10.4 export SPARK_MASTER_IP=4 export SPARK_MASTER_PORT=7077 export MASTER=spark:/$SPARK_MASTER_IP:$SPARK_MASTER_PORT export SPARK_MEM=16g export SPARK_WORKER_MEMORY=32g export SPARK_WORKER_CORES=12 source spark-env.sh 在 conf/slaves, 添加 Spark worker的 hostname, 一行一个。 vim slaves spark01.yun spark02.yun spark03.yun 在 conf/spark-defaults.conf中设置 mv spark-defaults.conf.template spark-defaults.conf vim spark-defaults.conf spark.driver.maxResultSize 4g spark.local.dir /usr/local/spark-1.5.

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

hadoop-spark集群部署手册

文档简介

温馨提示

最新文档

评论

hadoop-spark集群部署手册

文档简介

温馨提示

最新文档

评论

相关文档