2023学年完整公开课版map任务调优_第1页
2023学年完整公开课版map任务调优_第2页
2023学年完整公开课版map任务调优_第3页
2023学年完整公开课版map任务调优_第4页
2023学年完整公开课版map任务调优_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

张义目录0102Map任务各个阶段数据位置Map任务各个阶段1Map任务各个阶段map任务有几个阶段。为了了解作业运行缓慢的原因,需要了解map任务执行的阶段。以下是map任务各个阶段的概述:读取阶段:在此阶段,map任务读取输入数据,读取的数据量与配置的Hadoop块大小相同,例如256MB。在此阶段,需要查看该阶段的总持续时间,以及每个map任务读取的数据量。map阶段:在此阶段,Hadoopmap数据。在此阶段,需要查看处理记录的总数和每个记录的平均执行时间。检查map任务中的输入记录的尺寸,能发现一些异常数据,这些数据可能会延迟最终作业。Map任务各个阶段溢出阶段:在这个阶段,Hadoop对中间数据进行排序,将其划分为各种reduce任务,并将中间数据写入磁盘。需要查看溢出阶段花费的总时间。合并阶段:多个溢出文件会被合并到一个单独的溢出文件中,某个redcue任务会读取这个单独的文件。需要查看这个合并阶段花费的时间。在开始讨论影响map和reduce任务的关键因素之前,我们还要了解任务位置的重要性。数据位置2数据位置数据区域对于MapReduce作业及其map/reduce任务至关重要。在前面学习的作业计数器列表中,可以找到关键位置计数器。例如,一个MapReduce作业可能有64个map任务和8个reduce任务。这些任务分配如下:启动map任务:64启动redcue任务:8机架本地map任务:10数据本地map任务:54数据位置Hadoop喜欢在输入数据所在节点的NodeManager上分配任务。如果需要将数据从其他节点传输到计算节点,则Hadoop需要使用额外的网络成本来传输数据。在理想情况下,所有作业都应是数据本地性的map任务,其中数据都在任务运行的同一节点上。当然,退而求次策略是它们是机架本地map任务,任务从同一机架中的其他节点获取数据。不是数据本地任务或机架本地任务都会涉及网络数据传输的成本。数据位置调优map任务意味着调优map任务的各个阶段,注意消耗大量时间的阶段。可以通过调优各种map编程技术来调优map任务的某些方面。还可以通过调优Hadoopmap相关配置参数来调优map任务。后面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论