版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5.1引例5.2Hadoop2.0简述5.3Hadoop2.0部署5.4Hadoop2.0体系架构5.5Hadoop2.0访问接口5.6Hadoop2.0编程接口5.4Hadoop2.0体系架构5.4.1Hadoop2.0公共组件Common5.4.2分布式文件系统HDFS5.4.3分布式操作系统Yarn5.4.4Hadoop2.0平安机制简介35.4Hadoop2.0体系架构定位管理计算机资源提供用户接口一方面管理整个集群的计算资源〔CPU、内存等〕另一方面提供用户程序访问系统资源的API。分布式操作系统的根本功能:Yarn45.4Hadoop2.0体系架构体系架构Yarn的主要思想是将MRv1版JobTracker的两大功能——资源管理和任务调度,拆分成两个独立的进程:资源管理模块全局资源管理进程ResourceManager任务管理模块任务管理进程ApplicationMasterYarn依旧是master/slave结构主进程ResourceManager是整个集群资源仲裁中心从进程NodeManager管理本机资源ResourceManager和附属节点的进程NodeManager组成了Hadoop2.0的分布式数据计算框架5ClientClientRespirceManagerNodeManagerContainerAppMstrNodeManagerContainerAppMstrNodeManagerContainerContainerMapReduceStatusJobSubmissionNodeStatusResourceRequest5.4Hadoop2.0体系架构体系架构6Yarn在执行时包含以下独立实体:①Client:客户端,负责向集群提交作业。②ResourceManager:集群主进程,仲裁中心,负责集群资源管理和任务调度。③Scheduler:资源仲裁模块。④ApplicationManager:选定,启动和监管ApplicationMaster。⑤NodeManager:集群从进程,管理监视Containers,执行具体任务。⑥Container:本机资源集合体,如某Container为4个CPU,8GB内存。⑦ApplicationMaster:任务执行和监管中心。5.4Hadoop2.0体系架构体系架构ClientClientContainerContainerContainerContainerContainerContainerApplicationMasterApplicationManagerSchenuler85.4Hadoop2.0体系架构体系架构作业提交任务分配任务执行任务完成进度和状态更新ApplicationMaster失败ApplicationManager会重新选择一个Container再次执行此任务对应的ApplicationMaster计算节点失败ApplicationMaster首先向Scheduler申请资源,接着根据申请到的资源重新分配失败节点上的任务任务失败or95.4Hadoop2.0体系架构体系架构从Yarn架构和Yarn任务执行过程能看出Yarn具有巨大优势:Yarn的设计大大减轻了ResourceManager的资源消耗,并且ApplicationMaster可分布于集群中任意一台机器,设计上更加优美。SchedulerApplicationMaster纯粹的资源仲裁中心ApplicationManager只监管ApplicationMaster负责任务整体执行10WebAppServerProxyResourceMangerJobHistoryServerNodeManagerNodeManagerNodeManager5.4Hadoop2.0体系架构体系架构Yarn典型拓扑除了ResourceManager和NodeManager两个实体外,Yarn还包括WebAppProxyServer和JobHistoryServer两个实体。115.4Hadoop2.0体系架构体系架构JobHistoryServer管理已完成的Yarn任务WebAppProxyServer
任务执行时的Web页面代理历史任务的日志和执行时的各种统计信息统一由JobTracker管理Yarn将管理历史任务的功能抽象成一独立实体JobHistoryServer通过使用代理,不仅进一步降低了ResourceManager的压力,还能降低Yarn受到的Web攻击负责监管具体MapReduce任务执行全过程,将从Container那里收集过的任务执行信息汇总并显示到一个Web界面上125.4Hadoop2.0体系架构编程模板ApplicationMaster是一个可变更的局部,只要实现不同的ApplicationMaster,就可以实现不同的编程模式MapReduce模板MapReduce类型的ApplicationMasterdistributedshell模板distributedshell类型的ApplicationMaster例如模板MapReduce模板Yarn的例如编程为“distributedshell〞,该程序可以将给定的shell命令分布到机器执行Map把任务分解成为多个任务,Reduce把分解后多任务处理的结果汇总起来,得到最终结果13分段0分段1分段2分段3分段M-1Map()Map()Map()Map()Map()Reduce()Reduce()Reduce()Reduce()结果0结果1结果2结果R-1输入M个map任务R个Reduce任务输出分区5.4Hadoop2.0体系架构编程模板145.4Hadoop2.0体系架构编程模板映射阶段MapReduce框架将用户输入的数据分割为M个片断,对应M个Map任务。化简阶段每一个Reduce操作的输入是一个<K2,list(V2)>片断,Reduce操作调用用户定义的Reduce函数,生成用户需要的键值对<K3,V3>进行输出。一个MapReduce操作分为两个阶段:映射阶段和化简阶段。155.4Hadoop2.0体系架构调度策略容量调度算法(CapacityScheduler)公平调度算法(FairScheduler)核心问题YarnMapReduce任务的调度策略ResourceManager的Scheduler模块支持插拔,通过配置文件,用户可以个性化指定其调度策略165.4Hadoop2.0体系架构调度策略CapacityScheduler是一种多用户多任务调度策略,它以队列为单位划分任务,以Container为单位分配资源,它也是Hadoop2.0默认的调度策略,为多个用户共享集群资源提供平安可靠的保障。通过共建集群的方式,不但可以提高资源利用率,还能在必要时刻使用更多的集群资源,同时,组织机构间共建集群也大大降低了运维本钱,容量调度策略通过队列来划分资源,队列间关系类似于一棵多叉树,队列间一层层继承,根队列称为root队列,Yarn初次启动时默认启动队列为root.default队列。容量调度算法175.4Hadoop2.0体系架构调度策略多级队列容量确定性平安性弹性多用户易操作性容量调度策略以队列来划分集群资源,不同机构可以在集群里新建不同队列规定某队列占用集群资源的上下限,能够确保即使其他队列用到其最顶峰时,也能预留充足资源留给此队列每个队列都有相应的访问控制列表ACL文件通过设置队列额外资源使用量,能够让此队列使用超出规定的资源量通过设置不同队列拥有资源的比例,防止某用户或某进程独占集群资源,实现多用户多任务调度主要包括实时配置和实时更改队列状态185.4Hadoop2.0体系架构调度策略实时配置:管理员能够以平安的方式,在不停止集群的情况下,实时更新队列配置实时更改队列状态:基于资源调度:Yarn支持资源密集型作业,作业在分配Container时其Container所包含的资源量是一定的,但Yarn允许此Container在执行时占用更多的资源,目前只支持内存。运行态停止态不暂停集群管理用户权限作业提交Yarn195.4Hadoop2.0体系架构调度策略管理接口Web接口Shell命令接口yarn-site.xml指定使用容量调度策略。capacity-scheduler.xml配置全局多级队列和队列的ACL文件。mapred-site.xml配置客户端提交MapReduce任务时使用的队列。Hadoop-policy.xml配置全局ACL文件。$HADOOP_YARN_HOME/bin/yarnrmadmin–refreshQueues,管理员可以通过此命令在不停止集群的情况下,使多级队列的配置立即生效。205.4Hadoop2.0体系架构调度策略公平调度策略FairScheduler是一种允许多个Yarn任务公平使用集群资源的可插拔式调度策略FairScheduler会将资源分配给集群中所有的任务FairScheduler那么会将正在执行任务释放的局部资源分配给等待队列里的任务集群资源满足时受限时从宏观上看,集群资源公平地为每一个任务所拥有,它不仅可以让短作业在合理的时间内完成,也防止了长作业长期得不到执行的为难局面。215.4Hadoop2.0体系架构调度策略默认队列队列间权重配置队列内多调度策略队列下限支持多用户访问控制列表ACL公平调度策略也通过队列来组织和管理任务,并且也支持多级队列,其队列之间为多叉树结构设置某队列资源权重,权重越大,获得资源的比例越大队列内部的调度策略是可配置的,默认为FairSharePolicy策略为每个队列设置资源下限值,大大提高集群资源利用率通过多级队列可以将不同的用户分配到不同的队列里管理员可以设置队列的ACL文件,严格控制用户访问225.4Hadoop2.0体系架构调度策略接口yarn-site.xmlfair-scheduler.xml设定属性启动公平调度策略,设置属性来指定多级队列文件位置。配置多级队列的文件,此文件名与位置是通过Yarn配置文件yarn-site.xml里属性指定5.4Hadoop2.0体系架构5.4.1Hadoop2.0公共组件Common5.4.2分布式文件系统HDFS5.4.3分布式操作系统Yarn5.4.4Hadoop2.0平安机制简介245.4Hadoop2.0体系架构Hadoop2.0平安机制简介早期Hadoop版本假定HDFS和MapReduce运行在平安的环境中,它根本上没有平安措施。集群内部集群外部任何用户提交的MR任务都可以任意访问HDFS数据我们甚至可以启动一个非法slave连接到master,从而冒充集群slave骗取集群数据。随着Hadoop应用越来越广泛,它的平安机制也在不断完善。255.4Hadoop2.0体系架构Hadoop平安机制背景Hadoop0.16Hadoop0.20Hadoop0.21Hadoop0.22根本上没有平安机制模仿Linux文件权限开始引入第三认证Kerberos继续引入第三认证KerberosKerberos认证开始稳定265.4Hadoop2.0体系架构Hadoop平安机制背景数据未加密用户和效劳弱验证Hadoop可能面临的平安问题Hadoop平安机制架构思想使用Kerberos来实现Hadoop用户认证Kerberos鉴定登录用户〔效劳〕是否是其声称的用户〔效劳〕Hadoop
决定这个用户到底拥有多少权限本章未完待续百度排名首位的大数据资料和交流中心百度排名首位的云计算资料和交流中心终生免费的智能硬件大数据托管平台扫一扫,进入万物云终生免费
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境友好型产品选材指南
- 2024-2025学年山西工程职业学院单招《语文》题库检测试题打印附参考答案详解【A卷】
- 2024-2025学年度执法资格复习提分资料及答案详解(历年真题)
- 2024-2025学年度公务员考试《常识》预测复习附答案详解【培优B卷】
- 2024-2025学年度专升本常考点试卷【黄金题型】附答案详解
- 2024-2025学年度公务员(省考)考前冲刺练习含完整答案详解(网校专用)
- 2024-2025学年中级软考全真模拟模拟题完整版附答案详解
- 2024-2025学年公务员考试《常识》通关题库及参考答案详解(能力提升)
- 雨课堂学堂在线学堂云《机械工程伦理(湖州师范学院)》单元测试考核答案
- 中铁五一活动方案策划(3篇)
- 危重新生儿转运规范及流程
- 《高血压诊断与治疗》课件
- 2025-2030中国建筑应用光伏(BAPV)行业市场发展趋势与前景展望战略分析研究报告
- 《国家行政机关》课件
- 《烟气脱硝技术》课件
- 儒林外史每回试题及答案
- 体检报告书写规范
- 2025年四川藏区高速公路有限责任公司招聘笔试参考题库含答案解析
- 妇女节女性健康知识讲座关爱女性健康主题宣教课件
- 《 AWS焊接技术培训 》课件
- 继续执行申请书
评论
0/150
提交评论