版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲:张义目录0102Partitioner功能MapReduce各阶段的压缩Partitioner功能1Partitioner功能reducer处理它们从mapper接收的键/值对。这些数据按键进行排序,在默认情况下这些键被随机分配给reducers。Hadoop将相同的键发送到同一个reducer,无论哪个mapper发出这些键。自定义mapper过程以确定哪个键到哪个reducer会更有效率。开发人员可以通过对partitioner类进行编码来实现把指定键发送到对应的reducer。Partitioner功能如果在测试集群中测试自定义的partitioner,请不要在本地模式下运行,否则只能使用单个reducer,导致绕过partitioner。只有当多个reducer在运行时,才能运行partitioner,因此可以在常规集群或伪分布式集群中测试作业。MapReduce各阶段的压缩2MapReduce各阶段的压缩在MapReduce作业的以下阶段可以启用压缩:map输入:在map阶段,可以将map任务的输入数据压缩。压缩输入数据不仅可以节省存储空间,还可以加速输入数据的传输。可以使用bzip2的可拆分压缩算法或使用zlib压缩的SequenceFile格式。reduce:可以压缩最终的reduce输出。MapReduce各阶段的压缩map输出(shuffle和排序):在此阶段,可以压缩中间(map)
输出。shuflle通常是最耗时的处理步骤,因为它产生大量的网络流量,因此处理大量中间数据时,压缩它是一个很好的策略。压缩map输出文件会减少reduce函数需要读取的字节数。使用快速编解码器,如Snappy或lzo(或lz4)来压缩map输出。例如,虽然lzo编解码器生成比gzip编解码器更大的压缩文件,但是由于在从磁盘上读取数据的速度要快得多,所以map阶段的平均速度快了约4倍。速度(而不是压缩文件大小)是这种压缩编解码器的核心优势。启用map输出的压缩后,将pression.type参数的值从默认值RECORD更改为BLOCK,以增加压缩率MapReduce各阶段的压缩map会将过多的输出记录溢出到磁盘,因此,限制mapper输出对性能至关重要,因为它不仅涉及磁盘I/O,而且涉及网络I/O和内存使用。让mapper输出尽可能少,可以显著提高性能。可以通过以下策略减少mapper输出:配置mapper输出的压缩。这可能是最简单的配置,并且具有最明显的效果。在mapper端而不是reducer端过滤记录。对于map
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
 - 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
 - 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
 - 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
 - 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
 - 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
 - 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
 
最新文档
- 城市立交桥建设与交通流线优化方案
 - 幼儿户外安全活动组织方案
 - 燃气设备安装验收合格标准及流程
 - 广东深基坑土方开挖工程专项施工方案(高边坡)
 - 2025年考执业药师法规试题及答案
 - 服装店销售技巧与客户关系维护
 - 注浆加固专项施工方案
 - 医药行业质量控制标准与检测流程
 - 2025安全生产月知识竞赛题库及答案
 - 2025年水泥检验的试题及答案
 - (2025年)国家林业和草原局直属事业单位招聘考试试题及答案
 - 锂电池pack基础知识培训课件
 - 风景园林考试试题及参考答案详解完整版
 - 社区干部笔试题库及答案
 - 数学活动自然数被3整除的规律
 - 城区供水特许经营权项目社会稳定风险评估报告
 - 十年(2016-2025年)高考数学真题分类汇编:专题30 解析几何解答题综合(解析版)
 - 售楼中心弱电工程设计方案
 - 2025至2030全球及中国酒店收益优化解决方案行业项目调研及市场前景预测评估报告
 - 加油站防雷安全生产责任制度
 - 2025年公开选拔副科级领导干部试题及答案
 
            
评论
0/150
提交评论