大数据编程技术-从理论到实践 课件 第2章 Hadoop集群搭建及配置_第1页
大数据编程技术-从理论到实践 课件 第2章 Hadoop集群搭建及配置_第2页
大数据编程技术-从理论到实践 课件 第2章 Hadoop集群搭建及配置_第3页
大数据编程技术-从理论到实践 课件 第2章 Hadoop集群搭建及配置_第4页
大数据编程技术-从理论到实践 课件 第2章 Hadoop集群搭建及配置_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop集群搭建及配置授课教师|计算机学院《大数据编程技术》第二章目录CONTENTSPART01Hadoop运行模式PART02准备工作PART03Linux环境搭建PART04Hadoop集群配置2.1Hadoop运行模式01.本地运行模式(LocalMode)•无需启动任何守护进程,所有程序在单个JVM进程上独立执行,I/O操作直接在本地文件系统进行。

•适用场景:适合初学者进行API开发、代码逻辑测试及快速调试阶段,无需配置集群环境。02.伪分布式运行模式(Pseudo-DistributedMode)•所有Hadoop守护进程(如NameNode、DataNode、ResourceManager等)运行在一台物理节点上,模拟分布式集群的交互逻辑。

•适用场景:适合开发者理解HDFS分布式存储与YARN资源调度的基本原理,验证集群配置文件的正确性。03.完全分布式运行模式(Fully-DistributedMode)•守护进程分别部署在多台独立的服务器上,形成真正的分布式集群,充分利用集群的计算和存储资源。

•适用场景:生产环境的标准部署模式,也是本书后续实战部分采用的核心配置模式,可处理海量数据并提供高可用性。“磨刀不误砍柴工”,要想深入学习和掌握Hadoop的相关应用,首先必须得学会搭建一个属于自己的Hadoop集群,Hadoop有三种运行模式如下:2.2准备工作所需软件和工具在开始搭建Hadoop集群之前,我们需要准备以下软件和工具,以确保后续环境配置和集群搭建的顺利进行:•VMwareWorkStationPro17.5.x:专业的虚拟机软件,用于在物理机上快速创建和管理多个Linux虚拟机节点。

•LinuxCentos7.5:稳定且广泛使用的Linux发行版,是Hadoop官方推荐的生产和开发操作系统环境。

•JDK1.8:Hadoop底层基于Java开发,运行时必须依赖Java环境,推荐使用1.8长期支持版本。

•Hadoop3.3.6:本次搭建实验选用的目标版本,支持多种存储和计算模式,性能优异。

•Xftp7/Xshell7:高效的远程管理工具,用于Windows主机与Linux虚拟机之间的文件传输及命令行操作。2.3Linux环境搭建01.虚拟机安装:使用VMware创建虚拟机硬件环境,按需配置CPU核心数、运行内存大小和硬盘存储容量,满足后续集群运行的基础需求。02.网络配置:将虚拟机网络模式设置为“桥接模式”或“仅主机模式”,确保集群内的各个节点服务器之间网络互通,为后续分布式通信打下基础。03.模版虚拟机配置(关键步骤):完成基础OS安装后,配置静态IP地址和主机名;为了减少网络通信干扰,关闭防火墙和SELinux安全策略;最后安装常用系统工具(如wget、vim、net-tools等)。04.克隆虚拟机:基于配置好的“黄金模版机”,使用VMware的克隆功能,快速复制出集群所需的其他节点(例如hadoop01,hadoop02,hadoop03),统一环境,避免重复配置。💡核心要点:模版机配置完成后务必先关闭再克隆,避免节点间出现IP/UUID冲突。2.4Hadoop集群配置核心配置文件修改要让Hadoop集群正常工作,需在安装目录的/etc/hadoop/路径下修改以下核心配置文件:●hadoop-env.sh:设置JAVA_HOME环境变量,告知Hadoop运行环境中Java的具体安装路径。●core-site.xml:配置HDFS的默认文件系统(默认命名空间),以及集群运行时的临时数据存储目录。●hdfs-site.xml:定义HDFS的副本系数(默认通常为3),并指定NameNode元数据和DataNode实际数据块的存储目录。●mapred-site.xml:配置MapReduce计算框架的运行环境,指定将其运行在YARN资源调度与管理框架之上。●yarn-site.xml:配置YARN核心组件的网络地址,包括ResourceManager主节点地址和NodeManager上运行的附属服务(如Shuffle)。●workers(slaves):以纯文本形式列出集群中所有DataNode和NodeManager节点的主机名(或IP),告知NameNode和ResourceManager管理的从节点列表。2.4

Hadoop集群配置▍01.配置文件分发修改完所有核心配置文件后,必须将其同步到集群中的所有节点,以保证各个服务器之间的配置一致性。常用命令:#使用scp分发scp-r$HADOOP_HOME/etc/hadoop/node1:$HADOOP_HOME/etc/#使用rsync增量同步(推荐)rsync-av$HADOOP_HOME/etc/hadoop/node2:$HADOOP_HOME/etc/hadoop/▍02.格式化HDFS分布式文件系统在启动Hadoop集群之前,必须先对HDFS进行初始化,用于创建元数据目录并生成集群ID。执行要求:仅需在NameNode主节点上执行一次,切勿重复操作!执行命令:hdfsnamenode-format⚠️注意:若后续重复执行此命令,将清空HDFS所有的元数据,导致之前存储的数据彻底丢失。2.4Hadoop集群配置▍启动集群1.启动HDFS分布式文件系统:•在主节点(Master)的终端执行启动命令:start-dfs.sh•作用:该命令会自动启动主节点的NameNode和所有从节点的DataNode进程。2.启动YARN资源管理系统:•在主节点(Master)的终端执行启动命令:start-yarn.sh•作用:该命令会自动启动主节点的ResourceManager和所有从节点的NodeManager进程。❓课后思考题:执行上述两个启动命令后,你能想到哪几种方法,可以快速检查Hadoop集群是否已经成功启动并正常运行?2.4Hadoop集群配置-验证集群▍方法一:使用jps命令(命令行验证)在集群每个节点上执行jps命令,检查守护进程是否正常启动:●主节点(Master)进程检查:NameNode、ResourceManager、SecondaryNameNode●从节点(Slave)进程检查:DataNode、NodeManager▍方法二:WebUI访问(可视化验证)在本地浏览器输入主节点的IP地址和对应端口,可直观查看集群状态:●HDFS(NameNode)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论