版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
张义目录0102Map任务各个阶段数据位置Map任务各个阶段1Map任务各个阶段map任务有几个阶段。为了了解作业运行缓慢的原因,需要了解map任务执行的阶段。以下是map任务各个阶段的概述:读取阶段:在此阶段,map任务读取输入数据,读取的数据量与配置的Hadoop块大小相同,例如256MB。在此阶段,需要查看该阶段的总持续时间,以及每个map任务读取的数据量。map阶段:在此阶段,Hadoopmap数据。在此阶段,需要查看处理记录的总数和每个记录的平均执行时间。检查map任务中的输入记录的尺寸,能发现一些异常数据,这些数据可能会延迟最终作业。Map任务各个阶段溢出阶段:在这个阶段,Hadoop对中间数据进行排序,将其划分为各种reduce任务,并将中间数据写入磁盘。需要查看溢出阶段花费的总时间。合并阶段:多个溢出文件会被合并到一个单独的溢出文件中,某个redcue任务会读取这个单独的文件。需要查看这个合并阶段花费的时间。在开始讨论影响map和reduce任务的关键因素之前,我们还要了解任务位置的重要性。数据位置2数据位置数据区域对于MapReduce作业及其map/reduce任务至关重要。在前面学习的作业计数器列表中,可以找到关键位置计数器。例如,一个MapReduce作业可能有64个map任务和8个reduce任务。这些任务分配如下:启动map任务:64启动redcue任务:8机架本地map任务:10数据本地map任务:54数据位置Hadoop喜欢在输入数据所在节点的NodeManager上分配任务。如果需要将数据从其他节点传输到计算节点,则Hadoop需要使用额外的网络成本来传输数据。在理想情况下,所有作业都应是数据本地性的map任务,其中数据都在任务运行的同一节点上。当然,退而求次策略是它们是机架本地map任务,任务从同一机架中的其他节点获取数据。不是数据本地任务或机架本地任务都会涉及网络数据传输的成本。数据位置调优map任务意味着调优map任务的各个阶段,注意消耗大量时间的阶段。可以通过调优各种map编程技术来调优map任务的某些方面。还可以通过调优Hadoopmap相关配置参数来调优map任务。后面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有关教师爱岗敬业演讲稿模板十篇
- 糖尿病患者的护理
- 幼儿园资助自查报告
- 浅谈中职生自我管理模式的建立
- 服装公司生产计划方案(2篇)
- 绩效方案制定说明(2篇)
- 科室评优评先方案(2篇)
- 土地复垦方案评审办法(2篇)
- 安全方案预案制度(2篇)
- 2023年计算机及外部设备维修服务项目评价分析报告
- 【机场安保实习报告3200字】
- 在eclipse 上进行abap开发
- 幼儿园中班健康课件《避暑好办法》
- 五年级数学上册《小数除法-循环小数》
- 保温工程施工方案(STP真空绝热板)1保温建筑
- 关于公司“三重一大”决策事项清单
- 人工智能在互联网科技行业中的道德与伦理问题探讨
- 新人教版四年级数学下册平均数省名师优质课赛课获奖课件市赛课一等奖课件
- Β-内酰胺类药物交叉过敏的机理及临床实践课件
- 高考作文主题训练:双向奔赴
- 岩棉生产环境影响报告完整
评论
0/150
提交评论