




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据Hadoop 主流开源云架构介绍5.1 引例5.2 Hadoop 简述5.3 Hadoop 部署5.4 Hadoop 体系架构5.5 Hadoop 访问接口5.6 Hadoop 编程接口5.4 Hadoop体系架构5.4.1 Hadoop公共组件Common5.4.2 分布式文件系统HDFS5.4.3 分布式操作系统Yarn5.4.4 Hadoop安全机制简介45.4 Hadoop体系架构定位管理计算机资源提供用户接口一方面管理整个集群的计算资源(CPU、内存等)另一方面提供用户程序访问系统资源的API。分布式操作系统的基本功能:Yarn55.4 Hadoop体系架构体系架构Yarn的主
2、要思想是将MRv1版JobTracker的两大功能资源管理和任务调度,拆分成两个独立的进程:资源管理模块全局资源管理进程ResourceManager任务管理模块任务管理进程ApplicationMasterYarn依旧是master/slave结构主进程ResourceManager是整个集群资源仲裁中心从进程NodeManager管理本机资源ResourceManager和从属节点的进程NodeManager组成了Hadoop的分布式数据计算框架6ClientClientRespirceManagerNodeManagerContainerApp MstrNodeManagerContai
3、nerApp MstrNodeManagerContainerContainerMapReduce StatusJob SubmissionNode StatusResource Request5.4 Hadoop体系架构体系架构7Yarn在执行时包含以下独立实体: Client:客户端,负责向集群提交作业。 ResourceManager:集群主进程,仲裁中心,负责集群资源管理和任务调度。 Scheduler:资源仲裁模块。 ApplicationManager:选定,启动和监管ApplicationMaster。 NodeManager:集群从进程,管理监视Containers,执行具体任
4、务。 Container:本机资源集合体,如某Container为4个CPU,8GB内存。 ApplicationMaster:任务执行和监管中心。5.4 Hadoop体系架构体系架构ClientClientContainerContainerContainerContainerContainerContainerApplicationMasterApplicationManagerSchenuler95.4 Hadoop体系架构体系架构作业提交任务分配任务执行任务完成进度和状态更新ApplicationMaster失败ApplicationManager会重新选择一个Container再次执
5、行此任务对应的ApplicationMaster计算节点失败ApplicationMaster首先向Scheduler申请资源,接着根据申请到的资源重新分配失败节点上的任务任务失败or105.4 Hadoop体系架构体系架构从Yarn架构和Yarn任务执行过程能看出Yarn具有巨大优势:Yarn的设计大大减轻了ResourceManager的资源消耗,并且ApplicationMaster可分布于集群中任意一台机器,设计上更加优美。SchedulerApplicationMaster纯粹的资源仲裁中心ApplicationManager只监管ApplicationMaster负责任务整体执行1
6、1WebAppServerProxyResourceMangerJobHistoryServerNodeManagerNodeManagerNodeManager5.4 Hadoop体系架构体系架构Yarn典型拓扑除了ResourceManager和NodeManager两个实体外,Yarn还包括WebAppProxyServer和JobHistoryServer两个实体。125.4 Hadoop体系架构体系架构JobHistoryServer管理已完成的Yarn任务WebAppProxyServer 任务执行时的Web页面代理历史任务的日志和执行时的各种统计信息统一由JobTracker管理
7、Yarn将管理历史任务的功能抽象成一独立实体JobHistoryServer通过使用代理,不仅进一步降低了ResourceManager的压力,还能降低Yarn受到的Web攻击负责监管具体MapReduce任务执行全过程,将从Container那里收集过的任务执行信息汇总并显示到一个Web界面上135.4 Hadoop体系架构编程模板ApplicationMaster 是一个可变更的部分,只要实现不同的ApplicationMaster,就可以实现不同的编程模式MapReduce模板MapReduce类型的ApplicationMasterdistributedshell模板distribut
8、edshell类型的ApplicationMaster示例模板MapReduce模板Yarn的示例编程为“distributedshell”,该程序可以将给定的shell命令分布到机器执行Map把任务分解成为多个任务,Reduce把分解后多任务处理的结果汇总起来,得到最终结果14分段0分段1分段2分段3分段M-1Map()Map()Map()Map()Map()Reduce()Reduce()Reduce()Reduce()结果0结果1结果2结果R-1输入M个map任务R个Reduce任务输出分区5.4 Hadoop体系架构编程模板155.4 Hadoop体系架构编程模板映射阶段MapRedu
9、ce框架将用户输入的数据分割为M个片断,对应M个Map任务。化简阶段每一个Reduce操作的输入是一个片断,Reduce操作调用用户定义的Reduce函数,生成用户需要的键值对进行输出。一个MapReduce操作分为两个阶段:映射阶段和化简阶段。165.4 Hadoop体系架构调度策略容量调度算法(CapacityScheduler)公平调度算法(FairScheduler)核心问题YarnMapReduce任务的调度策略ResourceManager的Scheduler模块支持插拔,通过配置文件,用户可以个性化指定其调度策略175.4 Hadoop体系架构调度策略CapacitySchedu
10、ler是一种多用户多任务调度策略,它以队列为单位划分任务,以Container为单位分配资源,它也是Hadoop默认的调度策略,为多个用户共享集群资源提供安全可靠的保障。通过共建集群的方式,不但可以提高资源利用率,还能在必要时刻使用更多的集群资源,同时,组织机构间共建集群也大大降低了运维成本,容量调度策略通过队列来划分资源,队列间关系类似于一棵多叉树,队列间一层层继承,根队列称为root队列,Yarn初次启动时默认启动队列为root.default队列。容量调度算法185.4 Hadoop体系架构调度策略多级队列容量确定性安全性弹性多用户易操作性容量调度策略以队列来划分集群资源,不同机构可以在
11、集群里新建不同队列规定某队列占用集群资源的上下限,能够确保即使其他队列用到其最高峰时,也能预留充足资源留给此队列每个队列都有相应的访问控制列表ACL文件通过设置队列额外资源使用量,能够让此队列使用超出规定的资源量通过设置不同队列拥有资源的比例,避免某用户或某进程独占集群资源,实现多用户多任务调度主要包括实时配置和实时更改队列状态195.4 Hadoop体系架构调度策略实时配置:管理员能够以安全的方式,在不停止集群的情况下,实时更新队列配置实时更改队列状态:基于资源调度:Yarn支持资源密集型作业,作业在分配Container时其Container所包含的资源量是一定的,但Yarn允许此Cont
12、ainer在执行时占用更多的资源,目前只支持内存。运行态停止态不暂停集群管理用户权限作业提交Yarn205.4 Hadoop体系架构调度策略管理接口Web接口Shell命令接口yarn-site.xml指定使用容量调度策略。capacity-scheduler.xml配置全局多级队列和队列的ACL文件。mapred-site.xml配置客户端提交MapReduce任务时使用的队列。Hadoop-policy.xml配置全局ACL文件。$HADOOP_YARN_HOME/bin/yarn rmadmin refreshQueues,管理员可以通过此命令在不停止集群的情况下,使多级队列的配置立即生
13、效。215.4 Hadoop体系架构调度策略公平调度策略FairScheduler是一种允许多个Yarn任务公平使用集群资源的可插拔式调度策略FairScheduler会将资源分配给集群中所有的任务FairScheduler则会将正在执行任务释放的部分资源分配给等待队列里的任务集群资源满足时受限时从宏观上看,集群资源公平地为每一个任务所拥有,它不仅可以让短作业在合理的时间内完成,也避免了长作业长期得不到执行的尴尬局面。225.4 Hadoop体系架构调度策略默认队列队列间权重配置队列内多调度策略队列下限支持多用户访问控制列表ACL公平调度策略也通过队列来组织和管理任务,并且也支持多级队列,其队
14、列之间为多叉树结构设置某队列资源权重,权重越大,获得资源的比例越大队列内部的调度策略是可配置的,默认为FairSharePolicy策略为每个队列设置资源下限值,大大提高集群资源利用率通过多级队列可以将不同的用户分配到不同的队列里管理员可以设置队列的ACL文件,严格控制用户访问235.4 Hadoop体系架构调度策略接口yarn-site.xmlfair-scheduler.xml设定属性yarn.resourcemanager.scheduler.classYarn启动公平调度策略,设置属性yarn.scheduler.fair.allocation.file来指定多级队列文件位置。配置多级
15、队列的文件,此文件名与位置是通过Yarn配置文件yarn-site.xml里yarn.scheduler.fair.allocation.file属性指定5.4 Hadoop体系架构5.4.1 Hadoop公共组件Common5.4.2 分布式文件系统HDFS5.4.3 分布式操作系统Yarn5.4.4 Hadoop安全机制简介255.4 Hadoop体系架构Hadoop安全机制简介早期Hadoop版本假定HDFS和MapReduce运行在安全的环境中,它基本上没有安全措施。集群内部集群外部任何用户提交的MR任务都可以任意访问HDFS数据我们甚至可以启动一个非法slave连接到master,从而冒充集群slave骗取集群数据。随着Hadoop应用越来越广泛,它的安全机制也在不断完善。265.4 Hadoop体系架构Hadoop安全机制背景Hadoop 0.16Hado
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025鞋厂劳动合同范文
- 2025合作经营餐饮业务合同争议仲裁案裁决书
- 2025个人房屋租赁合同简化版
- 2025铬产品买卖合同格式范本
- 2025典范企业与银行贷款合同
- 部队党支部工作报告
- 保险箱租凭合同协议书
- 人教版半期试题及答案
- 2025年上海市房屋租赁居间合同
- 假离婚买房合同协议书
- 学校国际化发展与交流计划
- 四年级下册数学口算练习题
- 安徽省2024年普通高校招生普通本科批院校投档分数及名次(物理科目组合)
- 第二讲中国经济行稳致远-2025年春季学期 形势与政策课件
- 二级建造师继续教育题库(带答案)
- 通信四网合一施工方案
- LY/T 2071-2024人造板类产品生产综合能耗
- 2025年全球及中国环模式RDF制粒机行业头部企业市场占有率及排名调研报告
- 市场监管投诉举报培训
- 《新能源乘用车二手车鉴定评估技术规范 第1部分:纯电动》
- 课题申报参考:西藏地方与祖国关系史融入当地高校“中华民族共同体概论”课教学研究
评论
0/150
提交评论