Hadoop集群部署方案

上传人：快*** IP属地：江西上传时间：2020-04-16 格式：DOC 页数：29 大小：1.21MB 积分：12 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Hadoop集群部署方案26目录 1.网络拓扑12.软件安装12.1.修改主机名12.2.修改host文件12.3.创建Hadoop 用户22.4.禁用防火墙22.5.设置ssh登录免密码22.6.安装hadoop43.集群配置53.1.修改脚本53.1.1.hadoop-env.sh53.1.2.yarn-env.sh53.2.配置文件53.2.1.core-site.xml53.2.2.hdfs-site.xml73.2.3.mapred-site.xml93.2.4.yarn-site.xml103.2.5.配置datanode133.3.创建目录134.启动zk集群145.启动hadoop145.1.启动所有节点journalnode145.2.格式化h1 namenode145.3.在h1上格式化ZK155.4.启动h1的namenode，zkfc165.5.启动h2上namenode165.6.同步h1上的格式化数据到h2165.7.启动 HDFS175.8.启动 YARN185.9.启动h2 ResourceManager185.10.h4上启动 JobHistoryServer195.11.查看ResourceManager状态196.浏览器访问196.1.namenode管理界面196.1.1.67:50070196.1.2.68:50070206.2.ResourceManager管理界面206.2.1.67:8088/216.2.2.68:8088/216.3.JournalNode HTTP 服务216.3.1.67:8480/216.4.Datanode HTTP服务226.4.1.67:50075/226.5.jobhistory 管理界面226.5.1.70:19888/jobhistory227.测试237.1.上传文件至hdfs237.2.验证hdfs HA237.3.验证yarn241. 网络拓扑h1h2h3h4IP67686970rolematsterslaverslaverslaverNamenode是（active）是（standby）否否Datanode是是是是ResourceManager是是否否NodeManager是是是是zkfc是是否否Journalnode是是是否JobHistory否否否是2. 软件安装2.1. 修改主机名修改四台机器的主机名，h1，h2，h3，h4查看是否修改成功uname -a2.2. 修改host文件修改三台机器/etc/hosts文件配置hadoop节点配置zk节点2.3. 创建Hadoop 用户1) 创建特定的Hadoop 用户帐号以区分Hadoop 和本机上的其他服务。sudo groupadd hadoopuseradd hadooppasswd hadoopusermod -a -G hadoop hadoop2) 给hadoop用户添加权限，打开/etc/sudoers文件：在root ALL=(ALL) ALL 后面添加hadoop ALL=(ALL) ALL 2.4. 禁用防火墙chkconfig iptables off2.5. 设置ssh登录免密码Hadoop 控制脚本(并非守护进程)依赖SSH 来执行针对整个集群的操作。例如，Namenode是通过SSH（Secure Shell）来启动和停止各个datanode上的各种守护进程的为了支持无缝式工作， SSH 安装好之后，需要允许hadoop 用户无需键入密码即可登陆集群内的机器。最简单的方法是每个机器创建一个无密码公钥/私钥对1) 生成密钥id_dsa.pub为公钥，id_dsa为私钥2) 将公钥文件复制成authorized_keys文件3) 修改.ssh目录的权限以及authorized_keys 的权限sudo chmod 644 /.ssh/authorized_keyssudo chmod 700 /.ssh4) 测试是否设置成功ssh h15) 对h2、h3、h4这几个节点上的hadoop用户也配置ssh，配置过程和上述在h1上一样6) 在h2、h3、h4这几个节点上都执行一次“cat /.ssh/id_rsa.pub | ssh hadooph1 cat /.ssh/authorized_keys”命令，将这几个节点上的共钥id_ras.pub拷贝到h1中的authorized_keys文件中拷贝完成后，h1中的authorized_keys文件内容7) 将h1中的authorized_keys文件分发到其他节点(h2、h3、h4)上，在hadoop1上，使用scp -r /.ssh/authorized_keys hadooph1:/.ssh/ 命令分发8) 测试2.6. 安装hadoop计算md5值，看文件是否完整sudo tar -zxvf ./hadoop-2.7.3.tar.gz # 解压到/usr/local中sudo mv ./hadoop-2.7.3/ ./hadoop # 将文件夹名改为hadoopsudo chown -R hadoop ./hadoop为了方便，使用hadoop命令或者start-all.sh等命令，修改Master上/etc/profile 新增export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/binsource /etc/profile使生效3. 集群配置3.1. 修改脚本3.1.1. hadoop-env.sh$vi hadoop-env.shexport JAVA_HOME=/usr/java/jdk1.8.0_403.1.2. yarn-env.sh$vi yarn-env.shexport JAVA_HOME=/usr/java/jdk1.8.0_403.1.3. hadoop-daemon.sh修改if $HADOOP_PID_DIR = ; then HADOOP_PID_DIR=/home/hadoop/tmpfi3.2. 配置文件3.2.1. core-site.xml hadoop.tmp.dir file:/usr/local/hadoop/tmp fs.defaultFS hdfs:/cluster erval 4320 erval 60 dfs.ha.fencing.methods sshfence dfs.ha.fencing.ssh.private-key-files /home/hadoop/.ssh/id_rsa dfs.ha.fencing.ssh.connect-timeout 30000 ha.zookeeper.quorum node1:2181,node2:2181,node3:2181 hadoop.security.authorization false 3.2.2. hdfs-site.xml services cluster nodes.cluster nn1,nn2 node.rpc-address.cluster.nn1 h1:8020 node.rpc-address.cluster.nn2 h2:8020 node.http-address.cluster.nn1 h1:50070 node.http-address.cluster.nn2 h2:50070 node.servicerpc-address.cluster.nn1 h1:53310 node.servicerpc-address.cluster.nn2 h2:53310 node.shared.edits.dir qjournal:/h1:8485;h2:8485;h3:8485/cluster dfs.ha.automatic-failover.enabled.cluster true vider.cluster node.ha.ConfiguredFailoverProxyProvider dfs.webhdfs.enabled true dfs.permissions.enabled false dfs.permissions false dfs.replication 2 .dir file:/usr/local/hadoop/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/dfs/data dfs.journalnode.edits.dir /usr/local/hadoop/dfs/journalnode 3.2.3. mapred-site.xml yarn mapreduce.jobhistory.address h4:10020 mapreduce.jobhistory.webapp.address h4:19888 mapred.job.reuse.jvm.num.tasks -1 mapreduce.reduce.shuffle.parallelcopies 10 3.2.4. yarn-site.xml yarn.nodemanager.aux-services mapreduce_shuffle yarn.log-aggregation-enable true yarn.nodemanager.remote-app-log-dir hdfs:/cluster/var/log/hadoop-yarn/apps yarn.resourcemanager.connect.retry-interval.ms 2000 yarn.resourcemanager.ha.enabled true yarn.resourcemanager.ha.automatic-failover.enabled true yarn.resourcemanager.ha.automatic-failover.embedded true yarn.resourcemanager.cluster-id cluster yarn.resourcemanager.ha.rm-ids rm1,rm2 yarn.resourcemanager.hostname.rm1 h1 yarn.resourcemanager.hostname.rm2 h2 yarn.resourcemanager.scheduler.class org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler yarn.resourcemanager.recovery.enabled true yarn.resourcemanager.zk-address node1:2181,node2:2181,node3:2181 yarn.resourcemanager.store.class org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore erval-ms 5000 3.2.5. 配置datanodevi slaves3.3. 创建目录mkdir /usr/local/hadoop/dfs/datamkdir /usr/local/hadoop/dfs/namemkdir /usr/local/hadoop/dfs/journalnodemkdir /usr/local/hadoop/tmpmkdir /home/hadoop/tmp4. 启动zk集群在zk节点（node1，node2，node3）执行：zkServer.sh start三个节点都启动后查看状态，一个 leader 两个follower此时执行jps查看进程，启动了QuorumPeerMain5. 启动hadoop5.1. 启动所有节点journalnode(h1,h2,h3上执行)./hadoop-daemon.sh start journalnode5.2. 格式化h1 namenodeh1上执行hdfs namenode -format成功的话，会看到 “successfully formatted” 和 “Exitting with status 0” 的提示5.3. 在h1上格式化ZK仅第一次需要做，在ZooKeeper集群上建立HA的相应节点，用于保存集群中NameNode的状态数据在h1执行：hdfs zkfc -formatZK5.4. 启动h1的namenode，zkfc执行：hadoop-daemon.sh start namenode，hadoop-daemon.sh start zkfc此时查看进程，zkfc，namenode都启动了5.5. 启动h2上namenode5.6. 同步h1上的格式化数据到h2h2执行： hdfs namenode -bootstrapStandby5.7. 启动 HDFS在h1执行：start-dfs.sh，一键启动所有hdfs进程，包括启动过的进程其他节点上的进程也都启动了也可以单独启动hadoop-daemon.sh start namenodehadoop-daemon.sh start datanodehadoop-daemon.sh start journalnodehadoop-daemon.sh start zkfc5.8. 启动 YARN在h1执行：start-yarn.shh3上进程5.9. 启动h2 ResourceManageryarn-daemon.sh start resourcemanager5.10. h4上启动 JobHistoryServer执行： mr-jobhistory-daemon.sh start historyserver5.11. 查看ResourceManager状态./yarn rmadmin -getServiceState rm16. 浏览器访问在windows中访问，某些连接打不开，需要配置host67 h168 h269 h370 h46.1. namenode管理界面6.1.1. 67:500706.1.2. 68:500706.2. ResourceManager管理界面用户可通过该地址在浏览器中查看集群各类信息6.2.1. h

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop集群部署方案

文档简介

温馨提示

最新文档

评论

Hadoop集群部署方案

文档简介

温馨提示

最新文档

评论

相关文档