Had数据基础技术 1_第1页
Had数据基础技术 1_第2页
Had数据基础技术 1_第3页
Had数据基础技术 1_第4页
Had数据基础技术 1_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop的安装CONTENTS目录01

安装前的准备02

Hadoop的安装和测试03

案例:Hadoop伪分布安装04

案例:Hadoop完全分布安装05

Hadoop安装常见问题解决06

Hadoop安装总结与扩展安装前的准备01VMware虚拟机的安装

VMware的作用可在一台物理机上创建多台虚拟机,模拟独立计算机,为伪分布式Hadoop环境提供基础

安装步骤从官网下载安装包,双击运行后选择安装目录,输入序列号即可完成安装Linux操作系统的安装

虚拟机创建打开VMware,执行“文件→新建虚拟机”,选择“自定义(高级)”,设置硬件兼容性、安装镜像等

系统配置依次完成处理器、内存、网络、磁盘配置,设置主机名为master,地区选Asia/Shanghai,设置root密码配置固定IP地址

定位配置文件网络配置文件位于/etc/sysconfig/network-scripts/目录,文件名格式为ifcfg-<接口名>修改配置参数将BOOTPROTO改为static,ONBOOT改为yes,添加IPADDR、NETMASK、GATEWAY、DNS1,重启网络服务生效节点间免密码通信生成密钥执行ssh-keygen-trsa生成密钥,按回车完成创建复制公钥用ssh-copy-id命令将公钥复制到目标节点,输入密码后验证免密登录是否成功远程连接虚拟机

下载安装Xmanager从官网下载安装包,按向导完成安装,确保包含远程桌面和SSH相关组件

配置Xshell连接新建会话,输入虚拟机IP地址,连接后输入用户名和密码,验证连接成功安装Java环境

上传并解压JDK用Xftp将JDK安装包上传到/opt目录,执行tar命令解压,移动到/usr/java目录

配置环境变量编辑/etc/profile文件,添加JAVA_HOME等变量,执行source命令使配置生效,用java-version验证Hadoop的安装和测试02Hadoop安装模式简介

伪分布模式在单节点模拟分布式环境,各守护进程独立运行,适用于测试和学习

完全分布模式在多节点部署,各节点承担不同角色,适用于生产环境,提供高可用性Hadoop的安装上传安装包用winscp将Hadoop安装包上传到/opt目录解压安装包执行tar命令解压到指定目录,查看解压后的文件结构Hadoop环境变量配置

编辑配置文件编辑/etc/profile文件,添加HADOOP_HOME等变量验证配置执行source命令使配置生效,用hadoopversion验证安装成功Hadoop的启动

格式化NameNode首次启动前执行hdfsnamenode-format命令初始化存储目录

启动守护进程用start-dfs.sh启动HDFS,start-yarn.sh启动YARN,用jps查看进程状态集群验证HDFS验证访问NameNode的Web界面(默认端口50070),查看HDFS状态和配置YARN验证访问ResourceManager的Web界面(默认端口8088),查看YARN状态和作业信息案例:Hadoop伪分布安装03配置SSH免密登录

生成密钥对执行ssh-keygen-trsa生成密钥,不设置密码直接回车

复制公钥到本地用ssh-copy-id命令将公钥复制到本机,验证sshlocalhost是否免密修改Hadoop配置文件core-site.xml配置设置默认文件系统为hdfs://localhost:9000,指定临时目录hdfs-site.xml配置设置副本数为1,关闭权限检查,适配单节点环境mapred-site.xml配置

框架指定设置为yarn,使MapReduce作业由YARN调度yarn-site.xml配置核心参数设置resourcemanager主机名,指定附属服务为mapreduce_shuffle,配置类路径workers文件配置

文件修改将workers文件中的内容改为master,确保启动时识别本地节点启动并验证伪分布集群

格式化与启动执行hdfsnamenode-format,然后用start-dfs.sh和start-yarn.sh启动服务

进程验证用jps查看NameNode、DataNode、ResourceManager、NodeManager等进程是否存在案例:Hadoop完全分布安装04集群节点规划

角色分配master作为NameNode,hadoop01作为ResourceManager,hadoop02作为SecondaryNameNode,所有节点作为DataNode和NodeManager修改Hadoop配置文件

hadoop-env.sh配置设置JAVA_HOME,指定各守护进程的运行用户为root

core-site.xml配置设置默认文件系统为hdfs://master:8020,指定临时目录和静态用户hdfs-site.xml配置

核心参数设置副本数为3,指定SecondaryNameNode运行在hadoop02:9868mapred-site.xml配置

历史服务配置设置jobhistory地址为hadoop01:10020,webapp地址为hadoop01:19888yarn-site.xml配置资源参数设置每个容器最小内存512MB,最大2048MB,开启日志聚集并保留一天workers文件配置文件内容

添加master、hadoop01、hadoop02三个节点的主机名分发安装包同步命令使用scp命令将/opt/software/hadoop-3.2.4目录复制到hadoop01和hadoop02的对应目录格式化NameNode

格式化操作执行hdfsnamenode-format,生成fsimage、seen_txid等文件,初始化HDFS存储集群启动与验证一键启动在master节点执行start-all.sh,启动所有HDFS和YARN服务Web界面验证访问master:50070查看HDFS状态,访问hadoop01:8088查看YARN状态Hadoop安装常见问题解决05网络配置问题

IP冲突解决检查虚拟机IP是否与局域网其他设备冲突,修改静态IP为未占用地址

网络服务故障重启network服务,查看日志定位错误,确保配置文件参数正确配置文件错误

语法检查检查XML配置文件的标签是否闭合,属性是否正确引用

参数验证核对配置参数的名称和值,确保与Hadoop版本匹配,如端口号、目录路径进程启动失败01日志分析查看Hadoop日志目录(默认在$HADOOP_HOME/logs)下的相关日志,定位错误原因02依赖检查验证Java环境变量是否正确,Hadoop安装包是否完整,权限是否足够Hadoop安装总结与扩展06安装流程回顾

01环境准备依次完成VMware安装、Linux安装、网络配置、Java安装,搭建基础环境

02集群部署根据模式选择伪分布或完全分布,修改配置文件,启动服务并验证安装模式对比

01伪分布模式优点:资源占用少,适合学习测试;缺点:性能有限,无法模拟真实集群

02完全分布模式优点:性能高,容错性强,适合生产;缺点:部署复杂,需要多台机器Hadoop生态扩展

相关组件Spark用于快速数据处理,Hive用于数据仓库,可基于已安装的Hadoop集群进一步部署

学习路径掌握Hadoop安装后,可深入学习HDFS、MapReduce原理,以及生态组件的使用思考与练习

单选题关于VMware,错误的说法是(C):A.虚拟软件;B.创建多虚拟机;C.虚拟机互相有关联;D.助力伪分布式安装

简答题简述Hadoop伪分布安装的流程:包括环境准备、配置文件修改、启动验证等步骤补充:Hadoop版本选择

版本分类稳定版(如3.2.x)适合生产环境,开发版包含新功能但稳定性稍弱选择建议优先选择社区活跃、文档齐全的稳定版本,确保兼容性和支持补充:虚拟机性能优化资源分配根据物理机配置合理分配虚拟机内存、CPU,避免资源过度占用存储优化使用SSD存储虚拟机磁盘,开启磁盘缓存,提升IO性能补充:Hadoop配置文件详解

core-site.xml作用定义Hadoop的核心配置,如默认文件系统、临时目录等

hdfs-site.xml常用参数dfs.replication(副本数)、node.secondary.http-address(SecondaryNameNode地址)补充:SSH免密登录原理

密钥对作用私钥保存在本地,公钥分发到目标节点,验证时无需输入密码即可建立连接

安全注意事项保护私钥文件权限,避免泄露,定期更换密钥对补充:Web界面功能介绍

HDFSWeb界面可查看数据节点列表、文件系统结构、存储使用情况

YARNWeb界面可查看资源使用情况、作业运行状态、容器信息补充:Hadoop集群维护服务管理使用stop-all.sh停止集群,start-all.sh启动,单独重启某服务用对应脚本日志管理定期清理logs目录下的旧日志,避免磁盘空间不足补充:Hadoop安装文档参考

官方文档ApacheHadoop官网文档:详细介绍各版本安装步骤和配置说明社区资源大数据论坛、博客中的安装教程,包含实际操作中的经验总结补充:Hadoop安装实验建议

硬件建议物理机至少8GB内存,分配给虚拟机4GB以上,确保Hadoop服务正常运行

软件版本推荐使用CentOS7和Hadoop3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论