版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据,hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建大数据环境搭建1、CentOS 6.5 2、JDK 1.8 3、Hadoop 2.6 4、Hive 1.1.05、ZooKeeper-3.4.9 6、kafka_2.11-7、Spark 2.1.1 8、flume-ng-1.6.0CentOS 6.5防火墙和DNS配置 1、关闭防火墙service iptables stopchkconfig iptables offvi /etc/selinux/configSELI
2、NUX=disabled2、配置yumyum clean allyum makecacheyum install telnetJDK 1.7安装 1、将jdk-8u131-linux-x64.tar.gz通过上传到服务器中 2、安装JDK:把压缩包放到/usr/java/目录下tar -zxvf jdk-8u60-linux-x64.tar.gz3、配置jdk相关的环境变量vi /.bashrc 或者 vi /etc/profileexport JAVA_HOME=/usr/java/latestexport PATH=$PATH:$JAVA_HOME/binsource
3、.bashrc 或者 source /etc/profile4、测试jdk安装是否成功:Java -version 5、rm -f /etc/udev/rules.d/70-persistent-net.rules安装第二台和第三台服务器 1、安装上述步骤,再安装两台一模一样环境的服务器,因为后面hadoop和spark都是要搭建集群的。 2、集群的最小环境就是三台。因为后面要搭建ZooKeeper、kafka等集群。 3、另外两台机器的hostname分别设置为spark2和spark3即可,ip分别为08和192.16
4、8.1.109 4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。 5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。 6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname的映射,而不能只配置本机,这个很重要! 7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。配置集群ssh免密码登录 1、首先在三台机器上配置对本机的ssh免密码登录 生成本机的公钥,过程中不断敲回车即
5、可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下ssh-keygen -t rsa将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了cd /root/.sshcp id_rsa.pub authorized_keys2、接着配置三台机器互相之间的ssh免密码登录 使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用) Hadoop 2.4.1集群搭建 安装hadoop包1、使用hadoop-2.4.1.tar.gz,使用WinSCP上传
6、到CentOS的/usr/local目录下。2、将hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop4、配置hadoop相关环境变量vi .bashrc 或者 vi/etc/profileexport HADOOP_HOME=/usr/local/hadoopexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource .bashrc修改hadoop相关的配置文件 进入/usr/local/hadoop/etc/hadoop 目录
7、下 修改core-site.xml<property> <name></name> <value>hdfs:/spark1:9000</value> /设置hdfs集群对外提供的目录</property>修改hdfs-site.xml /设置hdfs的一些目录,放在/usr/local/data的目录下面<property> <name>.dir</name> <value>/usr/local/data/namenod
8、e</value></property><property> <name>dfs.data.dir</name> <value>/usr/local/data/datanode</value></property><property> <name>dfs.tmp.dir</name> <value>/usr/local/data/tmp</value></property><property> <name>
9、;dfs.replication</name> <value>3</value> /设置副本数</property>修改mapred-site.xml /mapreduce的框架设置为yarn<property> <name></name> <value>yarn</value></property>修改yarn-site.xml<property> <name>yarn.resourceman
10、ager.hostname</name> <value>spark1</value></property><property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property>修改slaves文件spark1spark2spark3在另外两台机器上搭建hadoop1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的ha
11、doop安装包和.bashrc或者/etc/profile 配置文件都拷贝过去。scp -r hadoop rootspark1:/usr/local/ scp -r hadoop rootspark2:/usr/local/ scp -r /etc/profile rootspark1:/etc/scp -r /etc/profile rootspark2:/etc/2、要记得对.bashrc文件或者/etc/profile进行source,以让它生效。3、记得在spark2和spark3的/usr/local目录下创建data目录。启动hdfs集群1、格式化namenode:在spark1
12、上执行以下命令,hdfs namenode -format2、启动hdfs集群:start-dfs.sh3、验证启动是否成功:jps、50070端口查看是否启动成功spark1:namenode、datanode、secondarynamenodespark2:datanodespark3:datanode启动yarn集群1、启动yarn集群:start-yarn.sh2、验证启动是否成功:jps、8088端口spark1:resourcemanager、nodemanagerspark2:nodemanagerspark3:nodemanagerhive 0.13搭建 安
13、装hive包 1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。 2、解压缩hive安装包:tar -zxvf apache-hive-0.13.1-bin.tar.gz。 3、重命名hive目录:mv apache-hive-0.13.1-bin hive 4、配置hive相关的环境变量,下面以.bashrc文件操作vi .bashrcexport HIVE_HOME=/usr/local/hiveexport PATH=$HIVE_HOME/binsource .bash
14、rc安装MySQL 1、在spark1上安装mysql。 2、使用yum安装mysql server。yum install -y mysql-serverservice mysqld startchkconfig mysqld on3、使用yum安装mysql connectoryum install -y mysql-connector-java4、将mysql connector拷贝到hive的lib包中cp /usr/share/java/mysql-connector-java-5.1.17.jar /usr/local/hive/lib5、在mysql上创建hi
15、ve元数据库,并对hive进行授权create database if not exists hive_metadata;grant all privileges on hive_metadata.* to 'hive''%' identified by 'hive'grant all privileges on hive_metadata.* to 'hive''localhost' identified by 'hive'grant all privileges on hive_metadata
16、.* to 'hive''spark1' identified by 'hive'flush privileges; /刷新授权use hive_metadata;配置hive-site.xmlmv hive-default.xml.template hive-site.xmlvi hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql:/spark1:3306/hive_metada
17、ta?createDatabaseIfNotExist=true</value></property><property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value></property><property> <name>javax.jdo.option.ConnectionUserName</name> <value>h
18、ive</value></property><property> <name>javax.jdo.option.ConnectionPassword</name> <value>hive</value></property><property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value></property>配置hiv
19、e-env.sh和hive-config.shmv hive-env.sh.template hive-env.shvi /usr/local/hive/bin/hive-config.shexport JAVA_HOME=/usr/java/latestexport HIVE_HOME=/usr/local/hiveexport HADOOP_HOME=/usr/local/hadoop验证hive是否安装成功 直接输入hive命令,可以进入hive命令行ZooKeeper 3.4.5集群搭建 安装ZooKeeper包 1、将zookeeper-3.4.5.ta
20、r.gz使用WinSCP拷贝到spark1的/usr/local目录下。 2、对zookeeper-3.4.5.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5.tar.gz。 3、对zookeeper目录进行重命名:mv zookeeper-3.4.5 zk。 4、配置zookeeper相关的环境变量vi .bashrc 或者 vi /etc/profileexport ZOOKEEPER_HOME=/usr/local/zkexport PATH=$ZOOKEEPER_HOME/binsource .bashrc配置zoo.cfg 在
21、/usr/local/zk/conf目录下vi zoo.cfg修改:dataDir=/usr/local/zk/data新增:server.0=spark1:2888:3888 server.1=spark2:2888:3888server.2=spark3:2888:3888设置zk节点标识cd zkmkdir datacd datavi myid0搭建zk集群 1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。 scp -r zk rootslave1:/usr/local/2、唯一的区别是s
22、park2和spark3的标识号分别设置为1和2。及myid 中的值修改为1 和2启动ZooKeeper集群1、分别在三台机器上执行:zkServer.sh start。2、检查ZooKeeper状态:zkServer.sh status。kafka_2.9.2-0.8.1集群搭建 安装Scala 2.11.4 1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。 2、对scala-2.11.4.tgz进行解压缩:tar -zxvf scala-2.11.4.tgz。 3、对scala目录进行重
23、命名:mv scala-2.11.4 scala 4、配置scala相关的环境变量vi .bashrcexport SCALA_HOME=/usr/local/scalaexport PATH=$SCALA_HOME/binsource .bashrc5、查看scala是否安装成功:scala -version 6、按照上述步骤在spark2和spark3机器上都安装好scala。使用scp将scala和.bashrc拷贝到spark2和spark3上即可。安装Kafka包 1、将kafka_2.9.2-0.8.1.tgz使用WinSCP拷贝到spark1的/us
24、r/local目录下。 2、对kafka_2.9.2-0.8.1.tgz进行解压缩:tar -zxvf kafka_2.9.2-0.8.1.tgz。 3、对kafka目录进行改名:mv kafka_2.9.2-0.8.1 kafka 4、配置kafkavi /usr/local/kafka/config/pertiesbroker.id:依次增长的整数,0、1、2、3、4,集群中Broker的唯一idzookeeper.connect=07:2181,08:2181,09:218
25、15、安装slf4j 将slf4j-1.7.6.zip上传到/usr/local目录下 unzip slf4j-1.7.6.zip 把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面搭建kafka集群 1、按照上述步骤在spark2和spark3分别安装kafka。用scp把kafka拷贝到spark2和spark3行即可。2、唯一区别的,就是perties中的broker.id,要设置为1和2启动kafka集群 1、在三台机器上分别执行以下命令:nohup bin/kafka-serv
26、er-start.sh config/perties & (必须在kafka的主目录下执行 cd /kafka)2、解决kafka Unrecognized VM option UseCompressedOops问题vi bin/kafka-run-class.sh if -z "$KAFKA_JVM_PERFORMANCE_OPTS" ; then KAFKA_JVM_PERFORMANCE_OPTS="-server -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSw
27、eepGC -XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -Djava.awt.headless=true"fi去掉-XX:+UseCompressedOops即可3、使用jps检查启动是否成功测试kafka集群 使用基本命令检查kafka是否搭建成功bin/kafka-topics.sh -zookeeper 10:2181,11:2181,12:2181 -topic TestTopic
28、-replication-factor 1 -partitions 1 -create在spark1 上执行bin/kafka-console-producer.sh -broker-list 07:9092,08:9092,09:9092 -topic TestTopic在spark2 上执行bin/kafka-console-consumer.sh -zookeeper 07:2181,08:2181,09:2181 -topic TestTopic -fro
29、m-beginningSpark 1.3.0集群搭建 安装spark包 1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。 2、解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。 3、更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4、设置spark环境变量vi .bashrcexport SPARK_HOME=/usr/local/sparkexport PATH=$SPARK_HOME/
30、binexport CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libsource .bashrc修改spark-env.sh文件1、cd /usr/local/spark/conf2、cp spark-env.sh.template spark-env.sh3、vi spark-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=07export SPARK_WORKER
31、_MEMORY=1gexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves文件spark2spark3安装spark集群 在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。启动spark集群 1、在spark目录下的sbin目录 2、执行 ./start-all.sh 3、使用jsp和8080端口可以检查集群是否启动成功 4、进入spark-shell查看是否正常Spark1.3.0升级1.5 安装spark包&
32、#160;1、停止Spark 1.3.0集群:SPARK_HOME/sbin/stop-all.sh 2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。 3、解压缩spark包:tar zxvf spark-1.5.1-bin-hadoop2.4.tgz。 4、修改spark环境变量vi .bashrcexport SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4export PATH=$SPARK_HOME/binexport CLASSPATH=.:$
33、CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libsource .bashrc修改spark-env.sh文件1、cd /usr/local/spark/conf2、cp spark-env.sh.template spark-env.sh3、vi spark-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=07export SPARK_WORKER_MEMORY=1gexport HADOOP
34、_CONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves文件spark2spark3安装spark集群 在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。 scp -r spark-1.5.1-bin-hadoop2.4 rootspark1:/usr/local/启动spark集群 1、在spark目录下的sbin目录 2、执行./start-all.sh 3、使用jsp和8080端口可以检查集群是否启动成功 4、进入spark-shel
35、l查看是否正常hadoop fs -put spark.txt /val lines = sc.textFile("hdfs:/spark1:9000/spark.txt")val words = lines.flatMap(line => line.split(" ")val pairs = words.map(word => (word, 1)val counts = pairs.reduceByKey(_ + _)counts.foreach(count => println(count._1 +":"+ co
36、unt._2) flume-ng-1.5.0-cdh5.3.6安装 安装flume 1、将flume-ng-1.5.0-cdh5.3.6.tar.gz使用WinSCP拷贝到sparkproject1的/usr/local目录下。 2、对flume进行解压缩:tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz 3、对flume目录进行重命名:mv apache-flume-1.5.0-cdh5.3.6-bin flume 4、配置scala相关的环境变量vi /.bashrcexport FLUME_HOME=/usr/local/flumeexport FLUME_CONF_DIR=$FLUME_HOME/confexport PATH=$FLUME_HOME/binsource /.bashrc修改flume配置文件 vi /usr/local/fl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年房地产经纪人资格考试试题及答案解析
- 超市采购教育培训
- 行长培训课件
- 《振兴杯》职业技能竞赛(维修电工)理论考试题库300题(附答案)
- 抑郁对中老年冠心病患者血清白介素 - 1β水平的影响:机制与临床关联研究
- 幼儿园春季活动安全保障方案
- 技术与营销双轮驱动:技术型企业国际产业链切入模式的多维剖析
- 新媒体运营内容编辑规划
- 超市员工入职前培训
- 2026年节后复工安全培训:筑牢防线 展望安全未来
- 神经内科卒中患者误吸风险的多维度评估
- 机加工检验员培训课件
- 上海市奉贤区2026届初三一模物理试题(含答案)
- 2025年数字货币跨境结算法律场景报告
- 医院消毒供应监测基本数据集解读与实践
- 2025年中国联通AI+研发效能度量实践报告
- 2026年新高考历史全真模拟试卷 3套(含答案解析)
- 恶性肿瘤高钙血症
- 民房火灾扑救要点与处置流程
- 安全生产自查自纠报告及整改措施
- 中小企业数字化转型城市试点实施指南
评论
0/150
提交评论