版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
“十四五”职业教育河南省规划教材书目Hadoop大数据开发技术项目二
Hadoop技术入门目录Hadoop发行版介绍01Hadoop运行模式03Hadoop集群概念02项目设计与准备04项目实施05知识目标了解:Hadoop流行的各个版本熟知:Hadoop集群的概念;Hadoop的运行模式掌握:Hadoop依赖环境的安装部署;Hadoop集群的搭建;Hadoop的基本操作。
能力目标会安装Hadoop依赖环境:会虚拟机网络配置;会安装JavaJDK;能通过复制方式创建多个虚拟机;能对主机名称与IP进行映射配置;能够设置SSH免密登录能够安装Hadoop集群:配置Hadoop配置文件、同步Hadoop配置文件、配置Hadoop环境变量能够启动并测试Hadoop集群能够搭建HadoopHA(HA表示高可用,后同)集群,解决单点故障问题。
素质目标项目以实操为主,理论为辅,培养学生手、脑并用的良好学习习惯项目帮助学生熟练掌握Hadoop的基本技能和方法,这有助于将理论知识转化为实践能力,解决实际问题
Hadoop发行版介绍01Hadoop发行版介绍
后面学习的大数据技术框架99%都是Apache开源的,所以在这里我们会学习原
生Hadoop,只要掌握了原生Hadoop的使用,后期想要操作其他发行版的Hadoop也是很
简单的,其他发行版都是会兼容原生Hadoop的。原生Hadoop的缺点是没有技术支持,遇
到问题需要自己解决,或者通过官网的社区提问,但是回复一般比较慢,也不保证能解决
问题
;还有一点就是原生Hadoop搭建集群的时候比较麻烦,需要修改很多配置文件,如
果集群机器过多的话,运维人员的压力是比较大的,等后面我们自己在搭建集群的时候就
可以感受到了。01官方原生版本ApacheHadoopHadoop发行版介绍CDH是一个商业版本,它对官方原生版本做了一些优化,提供收费技术支持,提供
界面操作,方便集群运维管理,目前在企业中使用CDH的还是比较多的。虽然CDH是收
费的,但是CDH中的一些基本功能是不收费的,可以一直使用,只有高级功能是需要付
费才能使用的。02ClouderaHadoop(CDH)Hadoop发行版介绍HDP是开源的,也提供界面操作,方便运维管理,一般互联网公司偏向于使用HDP。
目前HDP已经被CDH收购,二者属于同一个公司的产品。03HortonworksHadoop(HDP)Hadoop发行版本介绍
一般初学者都会先使用官方原生版
本ApacheHadoop,其对于入门学习最好用,但需维护的工作比较多,更新频率比较快,
稳定性相对比较差
;Cloudera在大型互联网企业中用得较多
;Hortonworks文档较好。但
在实际生产环境中,包括Yahoo、IBM、Facebook、亚马逊、阿里巴巴、华为、百度、腾
讯等实力强的公司,都基于Hadoop原生版本进行了二次开发,来构建自己的大数据系统。
其他一些公司一般都会选择CDH或者HDP,方便运维管理,否则使用原生Hadoop集群
管理多台机器,效率会非常低。Cloudera在与Hortonworks合并后,便推出了新一代大数
据平台CDP,并正在逐步停用原有的大数据平台CDH和HDP。如何选择Hadoop版本呢?Hadoop集群概念02Hadoop集群概念
集群中的一台机器,负责管理文件系统的命名空间,并记录数据块分配情况。01NameNodeHadoop集群是由多台计算机组成的分布式系统,它们协同工作以存储和处理大规模
数据集。一个典型的Hadoop集群通常包括以下组件。Hadoop集群概念
集群中的多台机器,存储实际的数据块,并向
NameNode汇报数据块的状态。02DataNodeHadoop集群概念
集群中的另
一
个组件,负责资源管理和任务调度,可以调度运行MapReduce、Spark等计算任务03YARNHadoop集群概念
集群中可能还运行着多种数据处理和管理工具,如Hive、HBase、Pig等,用于数据分析、查询、存储等任务。04多种工具和应用程序Hadoop集群概念
在Hadoop集群中,数据被分割和存储在多个数据节点上,通过网络传输和并行计算的方式进行处理。这种分布式存储和处理方式具有高可靠性、高扩展性和高效性,可以在更广阔的空间和更短的时间内处理大量数据。
总的来说,Hadoop集群是为大数据处理而设计的分布式计算集群,它使用了许多分
布式计算和存储技术,为用户提供了高效、稳定和可靠的大数据处理环境。Hadoop运行模式03Hadoop运行模式
默认情况下Hadoop即为该模式,用于开发和调试,不对配置文件
进行修改,使用本地的文件系统,而不是分布式的文件系统。Hadoop不会启动NameNode(名称节点)、DataNode(用于存储数据)、JobTracker、TaskTracker等守
护进程,用于对MapReduce程序的逻辑进行调试,确保程序的正确。01单机模式Hadoop的运行模式分为三种:单机模式、伪分布式模式和完全分布式模式。Hadoop运行模式Hadoop的守护进程运行在本地机器上,模拟一个小规模的集群,Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同
一台机器上运行,它们是互相独立的Java进程。在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTracker服务来管理的独立进程。在单机模式
之上增加了代码调试功能,允许检查内存使用情况、HDFS输入、输出及其他的守
护进程交互。它类似于完全分布式模式,因此,这种模式常用来测试Hadoop程序
的执行是否正确。02伪分布式模式Hadoop运行模式
真正的分布式,数据存储在HDFS,由3个及以上的实体机或者
虚拟机组建的集群。现在企业大量使用的就是这种模式。03完全分布式模式Hadoop运行模式
从分布式应用的角度来说,集
群中的节点由一个JobTracker和若干个TaskTracker组成,JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上,这样便于数据的
本地计算。JobTracker和NameNode则无须在同一台机器上。在伪分布式模式下,
一台机
器既当NameNode又当DataNode,或者说既是JobTracker又是TaskTracker。没有所谓的
在多台机器上进行真正的分布式计算,故称为“伪分布式”。即使开启多个进程模拟完全分布式,也并不会真正提高程序执行的效率,这就是伪分布式模式与完全分布式模式的
区别。
那么伪分布式模式与完全分布式模式区别在哪里呢?总结
单机模式:无须任何守护进程,所有的程序都运行在同一个JVM上。在独立模式
下调试MR程序非常高效方便,所以一般该模式主要是在学习或者开发阶段调试
使用。
伪分布式模式:Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,伪
分布式是完全分布式的一个特例,一般用于模拟应用。
完全分布式模式:Hadoop守护进程运行在一个集群上,是企业选择的应用模式。
项目设计与准备04项目设计与准备
两者在逻辑上分离,但
在物理上常在一起。HDFS集群负责海量数据的存储,集群中的角色主要有NameNode、DataNode、SecondaryNode。YARN集群负责海量数据运算时的资源调度,集群中的角色主
要有ResourceManager、NodeManager。01Hadoop集群主要包含两个集群:HDFS集群和YARN集群项目设计与准备MapReduce是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进
行程序开发,打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。02MapReduce项目设计与准备
Hadoop是
典
型
的
主
从
架
构。HDFS的NameNode是
主,DataNode是
从
;YARN的ResourceManager是主,NodeManager是从。在正式集群部署之前,首先要做规划,规划好每个主机/节点分别运行Hadoop的哪些进程.03Hadoop集群架构项目设计与准备
指导部署,没有规划图,很可能在部署过程中迷失方向,
一个小小的细节没处理
好,可能导致集群启动失败。
方便日后项目交接,便于其他人进行查询,例如查询哪些进程在哪些节点上运行等。集群规划好处项目实施05项目设计与准备Hadoop集群规划表虚拟机名称主机
IP主机名称HDFSYARNcentos7-1192.168.56.101hp-masterNameNodeDataNodeResourceManagerNodeManagercentos7-2192.168.56.102hp-slave1DataNodeSecondaryNodeNodeManagercentos7-3192.168.56.103hp-slave2DataNodeNodeManager特别提示:每个虚拟机的IP网段可能都不一样,上面的主机IP需根据实际的IP
地址进行相应修改。项目实施1.虚拟机网络配置结合NAT模式和BridgedAdapter模式,在CentOS7环境里进行环境配置实现:(1)宿主机Ping通虚拟机;(2)虚拟机Ping通宿主机;(3)虚拟机Ping通外网;(4)虚拟机Ping通其他虚拟机。步骤如下:Hadoop集群规划特别提示:每个虚拟机的IP网段可能都不一样,上面的主机IP需根据实际的IP
地址进行相应修改。项目实施步骤一:虚拟机“网络”配置:打开“OracleVMVirtualBox管理器”→选中虚拟机列表中要设置的虚拟机→工具条单击“设置”按钮;步骤二:在设置对话框中选中左侧列表“网络”,发现右侧“网卡1”已经默认启用“启用网络连接”,且连接方式为“网络地址转换(NAT)”。单击“高级”按钮,发现“控制芯片”设置为“IntelPRO/1000MT桌面(82540EM)”;步骤三:在上面的基础上,选择“网卡2”选项卡。选中“启用网络连接”,连接方式选择“仅主机(Host-Only)客户端”;步骤四:修改虚拟机内网卡配置文件。为了重启后各个虚拟机的IP地址不变,需要到具体的系统中去设置网络,把各个虚拟机的IP地址固定化;步骤五:关闭防火墙。Hadoop集群规划项目实施2.安装JDK(1)下载JDK1.8安装包;(2)解压下载的JDK1.8安装包;(3)执行编辑profile文件,配置JDK环境;(4)保存profile配置,验证JDK环境。Hadoop集群规划表项目实施3.创建其他虚拟机(1)关闭虚拟机,让虚拟机处于关机状态;(2)在虚拟机首页,单击“控制”→“复制”;(3)在弹出的对话框中设置新虚拟机名称和保存路径;(4)单击“下一步”,选择“完全复制”;(5)单击“确认”后,复制第一台虚拟机;(6)进入虚拟机,修改enp0s8的IP地址;(7)依此操作,复制第二台虚拟机。Hadoop集群规划项目实施4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 在行政审批和政务信息管理局2026年春节节后收心会上的讲话提纲
- XX中学2025-2026学年春季学期校园作业管理实施方案
- XX中学2025-2026学年春季学期校园科技节活动实施方案
- 2025-2026学年山东省青岛市莱西市九年级(上)期末道德与法治试卷(五四学制)(含答案)
- 广东省广州市白云区2022-2023学年八年级上学期期末道德与法治试题(含答案)
- 医学PBL小组团队适应性与协作效能提升
- 医学AI临床验证中的患者隐私保护
- 叉车司机货物搬运政策法规试题及答案
- 技术流程:智能硬件测试流程规范
- 2025年AI心理健康评估工程师行业生态研究
- 2025年智能焊接机器人产业发展蓝皮书
- 2025年四川省成都市中考英语真题(原卷版)
- -湖南省岳阳市第十中学2024-2025学年八年级上学期入学数学试 卷
- DL∕T 1732-2017 电力物联网传感器信息模型规范
- (正式版)JB∕T 2397-2024 带式烧结机
- 金属学与热处理教案哈尔滨工业大学
- GB/T 12250-2023蒸汽疏水阀标志
- 中午吃饭员工管理制度
- 乳糜胸的护理教学课件
- 正确使用词语包括熟语主题讲座
- 高中地理必修一全册思维导图
评论
0/150
提交评论