已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,Hadoop云计算平台作业调度算法的研究,姓名:岳黎明导师:甄成刚,硕士学位论文毕业答辩,目录,4,2,1,论文主要研究内容,3,前言,Hadoop云计算平台,总结与展望,4,1前言,1.课题背景和研究意义,现有的海量数据对各大公司的数据处理技术构成威胁,诸如Hadoop,OpenStack等并行计算框架应运而生。,Hadoop云平台上运行着多种类型的作业,现有的调度器不能够满足特定作业的需求。,关系型数据库能够处理百万、千万级别的数据,但当处理过亿级别的数据时会显得力不从心。,2Hadoop关键技术,1.HDFSHadoopDistributedFileSystem,是一个分布式的文件系统。它具有如下优点:可靠性可扩展性,2.MapReduce,它是一个并行计算的框架,采用“分而治之”的思想来处理大数据集,运用此框架编写的MapReduce程序可以运行在多台计算机上。,Map的主要目的就是把一个复杂的问题分解成多个子问题并行处理;Reduce主要是对Map的处理结果进行合并。,3.Hadoop的作业调度流程,TaskTracker2,TaskTracker1,JobTracker,TaskScheduler,assignTasks(),tasklist,tasks-to-lauch,Task,launch,Client,submitJob(),notify,initJob(),?,3论文主要研究内容,1.推测执行任务,为执行慢的任务启动另外一个任务来处理相同的数据分片,这个任务就称为推测执行的任务。当有一个任务完成时,即终止另外一个任务。,在计算集群中,一些诸如资源分布不均,程序的错误或者是硬件的故障等因素,会造成同一个作业的多个任务之间速度的不协调、快慢不一致。,推测执行任务的不足,运用progressiaverageProgress20%来判断是否启动推测执行的任务,没有考虑到Hadoop异构集群中不同配置的节点的性能,它们执行任务的速度存在着较大的差异,针对这一差异性,运用同样的策略显然存在着不足。,某个任务的进度超过80%以后,这些任务永远都不会启动推测执行的任务,只能等待到达一定时间以后,将它们标记为failed(失败的)任务,并重新启动另一个任务。,没有考虑各个节点执行任务时速度的差异,只是将选定的推测执行的任务随机的分配给另外一个节点执行,而不管该节点是否负载。,解决方案:对于推测执行的任务,让它在快节点上执行;当某个任务的进度小于80%时,progressi(Level);,job4,job5,job6,job7,job1,job2,job3,maptask0,maptask1,reducetask0,reducetask1,maptask3,job1,任务分配的过程,任务的分配是在从节点发送心跳包的过程中进行的,从节点每个3秒钟就会向Master发送一次心跳包,Master调用调度器执行任务分配的操作,并把相应的任务分配给该节点。,合法性检查,failedMaps,nonRunningMapCache,nonLocalMaps,runningMapCache,nonLocalRunningMaps,如果一个作业在某个节点上失败任务数目超过一个阀值或者是剩余磁盘容量不足,则不再将改作业的任务分配各该节点。,存放失败过的任务的集合,本地任务、同一机架上的任务、不同一机架上的任务,没有输入数据的任务,推测执行的任务,推测执行的任务,4.实验验证,运用Hadoop中附带的teragen分别产生100M、400M以及1000M的文件,分别在集群负载低时和集群负载高时向Hadoop平台中提交terasort作业(用于对数据集排序)。,3总结与展望,1.总结搭建了一个Hadoop云平台推测执行任务的判断方法慢节点的判断方法设计了一个双队列的调度器,并对任务分配算法做出了相应的改进,2.展望图形化的任务管理界面多个主节点协同工作,共同为调度器提供服务,发表论文:1风电场数据中心Hadoop云平台作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级地理上册 1.4 地球的公转说课稿 (新版)商务星球版
- 2025某单位门卫聘用合同
- 2025合作协议样书标准版
- 2025合同模板电子产品销售协议合同范本
- 2025-2026学年上海市沪教版三年级上学期10月阶段练习数学测试卷【附解析】
- 2025汽车配件供应商合作协议书
- 浙江邮政考试题库及答案
- 回民医院考试题目及答案
- 2025年运动健身小常识知识考察试题及答案解析
- 小学体育教师资格考试面试试题与参考答案2024年
- 净化设备施工方案
- 沙田路灯升降车施工方案
- 卓越绩效管理模式
- 2025 高中环境保护之国际气候谈判课件
- 大模型在企业的应用实践
- 油菜飞播作业合同2025年合同履行进度跟踪
- 2025-2026学年第一学期小学科学三年级上册期末测试卷(教科版2024)及答案(三套)
- 5.3 实际问题与一元一次方程 第1课时 配套、工程问题 教学设计 2024-2025学年人教版七年级数学上册
- 扬州市数据局:2025可信数据空间基础知识
- 2025秋季《中国石油报》社有限公司高校毕业生招聘考试参考试题及答案解析
- 《工程勘察设计收费标准》(2002年修订本)-完整版-1
评论
0/150
提交评论