Hadoop主流开源云架构四PPT课件.pptx_第1页
Hadoop主流开源云架构四PPT课件.pptx_第2页
Hadoop主流开源云架构四PPT课件.pptx_第3页
Hadoop主流开源云架构四PPT课件.pptx_第4页
Hadoop主流开源云架构四PPT课件.pptx_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子工业出版社 云计算 第三版 配套课件 主编 刘鹏教授 第5章 Hadoop2 0主流开源云架构 四 1 本套PPT下载地址 云计算的红宝书 书籍购买地址 微信扫描二维码 关注云计算头条 电子工业出版社 云计算 第三版 配套课件 包邮且有刘鹏教授亲笔签名 2 教授 博导 学科带头人 清华大学博士 现任中国云计算专家咨询委员会秘书长 中国信息协会大数据分会副会长 工业与信息化部云计算研究中心专家 主持完成科研项目25项 发表论文80余篇 出版专业书籍15本 获部级科技进步二等奖4项 三等奖4项 主编了国内第一本云计算教材 云计算 和第一本云计算编程书籍 实战Hadoop 创办了知名的中国云计算 和中国大数据 网站 曾率队夺得2002PennySort国际计算机排序比赛冠军 两次夺得全国高校科技比赛最高奖 并三次夺得清华大学科技比赛最高奖 荣获 全军十大学习成才标兵 排名第一 南京 十大杰出青年 江苏省 333高层次人才培养工程 中青年科学技术带头人 清华大学 学术新秀 等称号 刘鹏 5 4Hadoop2 0体系架构 5 4 1Hadoop2 0公共组件Common 5 4 2分布式文件系统HDFS 5 4 3分布式操作系统Yarn 5 4 4Hadoop2 0安全机制简介 6 5 4Hadoop2 0体系架构 定位 管理计算机资源 提供用户接口 一方面管理整个集群的计算资源 CPU 内存等 另一方面提供用户程序访问系统资源的API 分布式操作系统的基本功能 Yarn 7 5 4Hadoop2 0体系架构 体系架构 Yarn的主要思想是将MRv1版JobTracker的两大功能 资源管理和任务调度 拆分成两个独立的进程 资源管理模块 全局资源管理进程ResourceManager 任务管理模块 任务管理进程ApplicationMaster Yarn依旧是master slave结构主进程ResourceManager是整个集群资源仲裁中心从进程NodeManager管理本机资源ResourceManager和从属节点的进程NodeManager组成了Hadoop2 0的分布式数据计算框架 8 5 4Hadoop2 0体系架构 体系架构 9 Yarn在执行时包含以下独立实体 Client 客户端 负责向集群提交作业 ResourceManager 集群主进程 仲裁中心 负责集群资源管理和任务调度 Scheduler 资源仲裁模块 ApplicationManager 选定 启动和监管ApplicationMaster NodeManager 集群从进程 管理监视Containers 执行具体任务 Container 本机资源集合体 如某Container为4个CPU 8GB内存 ApplicationMaster 任务执行和监管中心 5 4Hadoop2 0体系架构 体系架构 Client Client 11 5 4Hadoop2 0体系架构 体系架构 作业提交 任务分配 任务执行 任务完成 进度和状态更新 ApplicationMaster失败 ApplicationManager会重新选择一个Container再次执行此任务对应的ApplicationMaster 计算节点失败 ApplicationMaster首先向Scheduler申请资源 接着根据申请到的资源重新分配失败节点上的任务 任务失败 or 12 5 4Hadoop2 0体系架构 体系架构 从Yarn架构和Yarn任务执行过程能看出Yarn具有巨大优势 Yarn的设计大大减轻了ResourceManager的资源消耗 并且ApplicationMaster可分布于集群中任意一台机器 设计上更加优美 Scheduler ApplicationMaster 纯粹的资源仲裁中心 ApplicationManager 只监管ApplicationMaster 负责任务整体执行 13 WebAppServerProxy ResourceManger JobHistoryServer NodeManager NodeManager NodeManager 5 4Hadoop2 0体系架构 体系架构 Yarn典型拓扑 除了ResourceManager和NodeManager两个实体外 Yarn还包括WebAppProxyServer和JobHistoryServer两个实体 14 5 4Hadoop2 0体系架构 体系架构 JobHistoryServer 管理已完成的Yarn任务 WebAppProxyServer 任务执行时的Web页面代理 历史任务的日志和执行时的各种统计信息统一由JobTracker管理 Yarn将管理历史任务的功能抽象成一独立实体JobHistoryServer 通过使用代理 不仅进一步降低了ResourceManager的压力 还能降低Yarn受到的Web攻击 负责监管具体MapReduce任务执行全过程 将从Container那里收集过的任务执行信息汇总并显示到一个Web界面上 15 5 4Hadoop2 0体系架构 编程模板 ApplicationMaster是一个可变更的部分 只要实现不同的ApplicationMaster 就可以实现不同的编程模式 MapReduce模板 MapReduce类型的ApplicationMaster distributedshell模板 distributedshell类型的ApplicationMaster 示例模板 MapReduce模板 Yarn的示例编程为 distributedshell 该程序可以将给定的shell命令分布到机器执行 Map把任务分解成为多个任务 Reduce把分解后多任务处理的结果汇总起来 得到最终结果 16 分区 5 4Hadoop2 0体系架构 编程模板 17 5 4Hadoop2 0体系架构 编程模板 映射阶段 MapReduce框架将用户输入的数据分割为M个片断 对应M个Map任务 化简阶段 每一个Reduce操作的输入是一个片断 Reduce操作调用用户定义的Reduce函数 生成用户需要的键值对进行输出 一个MapReduce操作分为两个阶段 映射阶段和化简阶段 18 5 4Hadoop2 0体系架构 调度策略 ResourceManager的Scheduler模块支持插拔 通过配置文件 用户可以个性化指定其调度策略 19 5 4Hadoop2 0体系架构 调度策略 CapacityScheduler是一种多用户多任务调度策略 它以队列为单位划分任务 以Container为单位分配资源 它也是Hadoop2 0默认的调度策略 为多个用户共享集群资源提供安全可靠的保障 通过共建集群的方式 不但可以提高资源利用率 还能在必要时刻使用更多的集群资源 同时 组织机构间共建集群也大大降低了运维成本 容量调度策略通过队列来划分资源 队列间关系类似于一棵多叉树 队列间一层层继承 根队列称为root队列 Yarn初次启动时默认启动队列为root default队列 容量调度算法 20 5 4Hadoop2 0体系架构 调度策略 多级队列 容量确定性 安全性 弹性 多用户 易操作性 容量调度策略以队列来划分集群资源 不同机构可以在集群里新建不同队列 规定某队列占用集群资源的上下限 能够确保即使其他队列用到其最高峰时 也能预留充足资源留给此队列 每个队列都有相应的访问控制列表ACL文件 通过设置队列额外资源使用量 能够让此队列使用超出规定的资源量 通过设置不同队列拥有资源的比例 避免某用户或某进程独占集群资源 实现多用户多任务调度 主要包括实时配置和实时更改队列状态 21 5 4Hadoop2 0体系架构 调度策略 实时配置 管理员能够以安全的方式 在不停止集群的情况下 实时更新队列配置 实时更改队列状态 基于资源调度 Yarn支持资源密集型作业 作业在分配Container时其Container所包含的资源量是一定的 但Yarn允许此Container在执行时占用更多的资源 目前只支持内存 运行态 停止态 不暂停集群 管理用户权限 作业提交 Yarn 22 5 4Hadoop2 0体系架构 调度策略 管理接口 Web接口 Shell命令接口 yarn site xml指定使用容量调度策略 capacity scheduler xml配置全局多级队列和队列的ACL文件 mapred site xml配置客户端提交MapReduce任务时使用的队列 Hadoop policy xml配置全局ACL文件 HADOOP YARN HOME bin yarnrmadmin refreshQueues 管理员可以通过此命令在不停止集群的情况下 使多级队列的配置立即生效 23 5 4Hadoop2 0体系架构 调度策略 公平调度策略 FairScheduler是一种允许多个Yarn任务公平使用集群资源的可插拔式调度策略 FairScheduler会将资源分配给集群中所有的任务 FairScheduler则会将正在执行任务释放的部分资源分配给等待队列里的任务 满足时 受限时 从宏观上看 集群资源公平地为每一个任务所拥有 它不仅可以让短作业在合理的时间内完成 也避免了长作业长期得不到执行的尴尬局面 24 5 4Hadoop2 0体系架构 调度策略 默认队列 队列间权重配置 队列内多调度策略 队列下限 支持多用户 访问控制列表ACL 公平调度策略也通过队列来组织和管理任务 并且也支持多级队列 其队列之间为多叉树结构 设置某队列资源权重 权重越大 获得资源的比例越大 队列内部的调度策略是可配置的 默认为FairSharePolicy策略 为每个队列设置资源下限值 大大提高集群资源利用率 通过多级队列可以将不同的用户分配到不同的队列里 管理员可以设置队列的ACL文件 严格控制用户访问 25 5 4Hadoop2 0体系架构 调度策略 接口 yarn site xml fair scheduler xml 设定属性yarn resourcemanager scheduler classYarn启动公平调度策略 设置属性yarn scheduler fair allocation file来指定多级队列文件位置 配置多级队列的文件 此文件名与位置是通过Yarn配置文件yarn site xml里yarn scheduler fair allocation file属性指定 5 4Hadoop2 0体系架构 5 4 1Hadoop2 0公共组件Common 5 4 2分布式文件系统HDFS 5 4 3分布式操作系统Yarn 5 4 4Hadoop2 0安全机制简介 27 5 4Hadoop2 0体系架构 Hadoop2 0安全机制简介 早期Hadoop版本假定HDFS和MapReduce运行在安全的环境中 它基本上没有安全措施 集群内部 集群外部 任何用户提交的MR任务都可以任意访问HDFS数据 我们甚至可以启动一个非法slave连接到master 从而冒充集群slave骗取集群数据 随着Hadoop应用越来越广泛 它的安全机制也在不断完善 28 5 4Hadoop2 0体系架构 Hadoop安全机制背景 Hadoop0 16 Hadoop0 20 Hadoop0 21 Hadoop0 22 基本上没有安全机制 模仿Linux文件权限 开始引入第三认证Kerberos 继续引入第三认证Kerberos Kerberos认证开始稳定 29 5 4Hadoop2 0体系架构 Hadoop安全机制背景 数据未加密 用户和服务弱验证 Hadoop可能面临的安全问题 Hadoop安全机制架构思想 使用Kerberos来实现Hadoop用户认证 Kerberos鉴定登录用户 服务 是否是其声称的用户 服务 Hadoop决定这个用户到底拥有多少权限 本章未完待续 百度排名首位的大数据资料和交流中心 32 百度排名首位的云计算资料和交流中心 33 终生免费的智能硬件大数据托管平台 扫一扫 进入万物云 34 终生免费的环境大数据共享平台 扫一扫 进入环境云 35 云创大数据给您一步到位的解决方案 高校Hadoop教学科研 一揽子解决方案 云计算 大数据时代 社会亟需相关人才 而高校缺平台 缺人才 缺经验 怎么办 建设一个Hadoop实验平台一套开源的Hadoop一体机和开发环境 详细的指导书籍和实验设计 培养一支云计算师资队伍来自云计算高手的系列培训 早在2010年就培训了全国第一批云计算师资力量 营造一个大数据科研环境为科研提供技术支持 与大数据应用相结合 让科研迈上新台阶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论