大数据环境集群环境搭建

上传人：开*** IP属地：河北上传时间：2021-12-28 格式：DOCX 页数：19 大小：47.11KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、本文档如对你有帮助，请帮忙下载支持!大数据环境搭建1、CentOS 6.52、JDK 1.83、Hadoop 2.64、Hive 1.1.05、ZooKeeper-3.4.96、kafka_2.11-7、Spark 2.1.18、flume-ng-1.6.0CentOS 6.5防火墙和DNS配置1、关闭防火墙service iptables stopchkconfig iptables offvi /etc/selinux/configSELINUX=disabled2、配置yumyum clean allyum makecacheyum install telnetJDK 1.7安装1、将

2、jdk-8u131-linux- 2、安装JDK：把压缩包放到/usr/java/目录下 tar -zxvf jdk-8u60-linux-3、配置jdk相关的环境变量vi /.bashrc 或者 vi /etc/profileexport JAVA_HOME=/usr/java/latestexport PATH= $PATH: $JAVA_HOME/binsource .bashrc 或者 source /etc/profile4、测试jdk安装是否成功：Java -version5、rm -f/etc/udev/rules.d/70-persistent-net.rules安装第二台和第

3、三台服务器1、安装上述步骤，再安装两台一模一样环境的服务器，因为后面 hadoop和spark都是要搭建集群的。2、集群的最小环境就是三台。因为后面要搭建ZooKeeper、kafka等集群。3、另外两台机器的 hostname分别设置为spark2和spark3即可，ip分别为4、在安装的时候，另外两台服务器的centos镜像文件必须重新拷贝一份，放在新的目录里，使用各自自己的镜像文件。5、服务器的硬盘文件也必须重新选择一个新的目录，以更好的区分。6、安装好之后，记得要在三台机器的/etc/hosts文件中，配置全三台机器的ip地址到hostname 的映射，而不能只配置本机，这个很重要！

4、7、在 windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。配置集群ssh免密码登录1、首先在三台机器上配置对本机的ssh免密码登录生成本机的公钥，过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在 /root/.ssh目录下ssh-keygen -t rsa将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了cd /root/ .sshcp id_rsa .pub authorized_keys2、接着配置三台机器互相之间的ssh免密码登录使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机

5、器的authorized_keys文件中（方便好用）root&sparkl 5sh-copy-5d -froot$spar 's passwor d ：now rry logging into the machine, wlTh", and check in:,ssh iutbori7Gd_keysio mmke sure we haven't added extra keys that you weren't expecting, rootl?sparkl -*Hadoop安装hadoop包1、使用hadoop-,使用 Wn SCP上传至U Cent

6、OS的/usr/local 目录下。2、将 hadoop 包进行解压缩：tar-zxvf hadoop-mv hadoop- 2.4 . 1 hadoop3、对hadoop目录进行重命名： 4、配置hadoop相关环境变量vi .bashrc 或者 vi/etc/profileexport HADOOP_HOME=/usr/local/hadoopexport PATH= $HADOOP_HOM历in: $HADOOP_HOM/Sbinsource .bashrc修改hadoop相关的配置文件进入 /usr/local/hadoop/etc/hadoop 目录下修改 core-site.xml

7、<property ><name><value > /设置hdfs集群对外提供的目录</ property >修改hdfs-site.xml /设置hdfs的一些目录，放在 /usr/local/data 的目录下面<property ><name><value >/usr/local/data/namenode</ value >< / property ><property ><name><value >/usr/local/data/datano

8、de</ value >< / property ><property ><name>本文档如对你有帮助，请帮忙下载支持!<value >/usr/local/data/tmp </ value >< / property ><property ><name >dfs.replication </ name><value >3</ value > / 设置副本数< / property >修改 mapred-site.xml /mapred

9、uce 的框架设置为 yarn<property ><name><value >yarn </ value >< / property >修改 yarn-site.xml<property ><name><value >spark1 </ value >< / property ><property ><name><value > mapreduce_shuffle </ value >< / property >修

10、改slaves文件spark2 spark3在另外两台机器上搭建hadoop1、使用如上配置在另外两台机器上搭建hadoop ,可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/pro刊e配置文件都拷贝过scp -r hadoop rootscp -r hadoop rootscp -r/etc/profile rootscp -r /etc/profile rootspark1 :/usr/local/spark2 :/usr/local/spark1 :/etc/spark2 :/etc/2、要记得对.bashrc 文件或者/etc/profile 进行

11、source ,以让它生效。3、记得在spark2 和spark3 的/usr/local目录下创建data目录。启动hdfs集群1、格式化namenode :在spark1 上执行以下命令，hdfs namenode -format2、启动 hdfs 集群：start-dfs . sh3、验证启动是否成功：jps、50070端口查看是否启动成功spark1 : namenode、datanode 、secondarynamenodespark2 : datanode本文档如对你有帮助，请帮忙下载支持!spark3 : datanode启动yarn集群1、启动 yarn 集群：start -y

12、arn.sh2、验证启动是否成功：jps、8088端口sparkl : resourcemanager 、nodemanagerspark2 : nodemanagerspark3 : nodemanagerhive 0.13 搭建安装hive包1、将的 apache-hive-2、解压缩 hive 安装包：tar -zxvf apache-hive-3、重命名 hive 目录： mv apache-hive- hive4、配置hive相关的环境变量，下面以.bashrc文件操作vi .bashrcexport HIVE_HOME=/usr/local/hiveexport PATH= $HI

13、VE_HOME/binsource .bashrc安装MySQL1、在 spark1 上安装 mysql 02、使用 yum 安装 mysql serveroyum install -y mysql-serverservice mysqld startchkconfig mysqld on3、使用 yum 安装 mysql connectoryum install -y mysql-connector-java-/usr/ local /hive/l4、将 mysql connector 拷贝到 hive 的 lib 包中cp /usr/share/java/mysql-connector-j

14、ava ib5、在mysql上创建hive元数据库，并对hive进行授权createdatabase ifnot exists hive_metadata;grant tifiedall privilegesby 'hive'onhivemetadata.*to'hive'grantall privilegesonhivemetadata.*to'hive'ocalhost' identifiedby 'hive'grant all privilegesonhivemetadata.*to'hive'spa

15、rk1'identifiedby 'hive'flush privileges; /刷新授权use hive_metadata;配置 hive-site.xmlmv hive- hive-site.xmlvi hive-site.xml<property ><value >jdbc:< / property ><property ><name><value >< / property ><property ><name><value >hive <

16、;/ value >< / property ><property ><name><value >hive </ value >< / property ><property ><name></ value ><value >/user/hive/warehouse</ property >配置 hive-env.sh 和 hive-config.shmv hive- hive-env . shvi /usr/ local /hive/bin/hive-co

17、nfig. shexport JAVA_HOME =/usr/java/latest export HIVE_HOME =/usr/ local /hive本文档如对你有帮助，请帮忙下载支持!export HADOOP_HOME =/usr/ local /hadoop验证hive是否安装成功直接输入hive命令，可以进入 hive命令行ZooKeeper安装ZooKeeper包1、将 zookeeper-2、对 zookeeper- -zxvf zookeeper-3、对 zookeeper 目录进行重命名：mv zookeeper-3.4.5 zk。4、配置zookeeper相关的环境变量

18、vi .bashrc 或者 vi /etc/profileexport ZOOKEEPER_HOME=/usr/local/zkexportPATH= $ZOOKEEPER_HOM历insource .bashrc酉己置 zoo.cfg 在/usr/local/zk/conf目录下vi zoo.cfg修改：dataDir=/usr/local/zk/data新增：server.0=spark1:2888:3888server.1=spark2:2888:3888server.2=spark3:2888:3888设置zk节点标识cd zkmkdir datacd datavi myid0搭建zk

19、集群1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。scp -r zk rootslave1:/usr/local/2、唯一的区别是 spark2和spark3的标识号分别设置为1和2。及myid中的值修改为1和2启动ZooKeeper集群1、分别在三台机器上执行：zkServer .sh start2、检查 ZooKeeper 状态：zkServer .sh statuskafka_安装 Scala 2.11.41、将 scala-2、对 scala- -zxvf scala-3、对 scala 目录进行重命名：

20、mv scala-2.11.4 scala4、配置scala相关的环境变量vi .bashrcexport PATH= $SCALA_HOMEbinsource .bashrc5、查看scala是否安装成功：scala -version6、按照上述步骤在 spark2和spark3机器上都安装好 scala。使用scp将scala和.bashrc拷贝到spark2和spark3上即可。安装Kafka包1、将 kafka_2、对 kafka_ -zxvf kafka_3、对kafka目录进行改名： mv kafka_ kafka4、配置 kafkavi /usr/local/kafka/conf

21、ig/pertiesbroker .id :依次增长的整数，0、1、2、3、4,集群中Broker 的唯一 idzookeeper .connect =,5、安装 slf4j将 slf4j-unzip slf4j-把 slf4j 中的 slf4j-nop-搭建kafka集群1、按照上述步骤在 spark2和spark3分另1J安装 kafka。用scp把kafka拷贝至U spark2和spark3行即可。2、唯一区别的，就是 perties中的broker.id ,要设置为1和2export SCALA_HOME=/usr/local/scala本文档

22、如对你有帮助，请帮忙下载支持!启动kafka集群1、在三台机器上分另1J执行以下命令：nohup bin/kafka-server-start.sh config/perties &（必须在kafka的主目录下执行 cd /kafka）2、解决 kafka Unrecognized VM option' UseCompressedOfopS 'vi bin/kafka-run- class . shif -z "$KAFKA_JVM_PERFORMANCE_OPTS" ; thenKAFKA_JVM_PERFORMANCE_OPT

23、S="-server -XX:+UseCompressedO ops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+CMSClass UnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+Disable ExplicitGC -"fi去掉-XX :+UseCompressedOops即可3、使用jps检查启动是否成功测试kafka集群使用基本命令检查 kafka是否搭建成功bin/kafka - topics . sh - zookeeper , - topic TestTopic

24、 - rep lication - factor 1 - partitions 1 - create在spark1 上执行bin/kafka - console - producer . sh - broker - list , - topic Tes tTopic在spark2 上执行bin/kafka - console - consumer . sh - zookeeper , - topic TestT opic - from - beginningSpark安装 spark 包1、将 spark-2、解压缩 spark 包：tar zxvf spark-3、更改 spark 目录

25、名： mv spark- spark4、设置spark环境变量vi .bashrcexport SPARK_HOME=/usr/local/sparkexport PATH= $SPARK_HOMEbinexport CLASSPATH=.: $CLASSPATH: $JAVA_HOM曰lib:$JAVA_HOMEjre/libsource .bashrc修改 spark-env . sh 文件1、cd /usr/ local /spark/conf2、cp spark- spark-env . sh3、vi spark-env . shexport JAVA_HOME =/usr/java/

26、latestexport SCALA_HOME =/usr/ local /scalaexport SPARK_MASTER_IP =export SPARK_WORKER_MEMORY=1 gexport HADOOP_CONF_DIR =/usr/ local /hadoop/etc/hadoop修改slaves 文件spark2spark3安装spark集群在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。启动spark集群1、在 spark目录下的 sbin目录2、执行./start-all.sh3、使用jsp和8080端口

27、可以检查集群是否启动成功4、进入spark-shell查看是否正常安装 spark 包1、停止 Spark2、将 spark-3、解压缩 spark 包：tar zxvf spark-4、修改spark环境变量vi .bashrcexport SPARK_HOME=/usr/local/spark-export PATH= $SPARK_HOMEbinexport CLASSPATH=.: $CLASSPATH: $JAVA_HOM曰lib:$JAVA_HOMEjre/libsource .bashrc修改spark-env.sh 文件1、cd /usr/local/spark/conf2、

28、cp spark- spark-env.sh3、vi spark-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=export SPARK_WORKER_MEMORY电export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves 文件spark2spark3安装spark集群在另外两个节点进行一模一样的配置，使用 scp将spark和.bashrc拷贝到spark2和spark3 即可。scp -r spark- rootspark1:/usr/local/启动spark集群1、在 spark目录下的 sbin目录2、执行./start-all.sh3、使用jsp和8080端口可以检查集群是否启动成功4、进

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据环境集群环境搭建

文档简介

温馨提示

最新文档

评论

大数据环境集群环境搭建

文档简介

温馨提示

最新文档

评论

相关文档