Hadoop大数据开发基础与案例实战(微课版)课件 5.1认识MapReduce(完)_第1页
Hadoop大数据开发基础与案例实战(微课版)课件 5.1认识MapReduce(完)_第2页
Hadoop大数据开发基础与案例实战(微课版)课件 5.1认识MapReduce(完)_第3页
Hadoop大数据开发基础与案例实战(微课版)课件 5.1认识MapReduce(完)_第4页
Hadoop大数据开发基础与案例实战(微课版)课件 5.1认识MapReduce(完)_第5页
已阅读5页,还剩11页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据项目开发——认识MapReduce目录content02MapReduce设计思想01MapReduce简介03MapReduce特点MapReduce简介在大数据时代,数据量非常大,不能把数据放在一个单机上运行,而是借助一个集群通过多台机器同时并行处理大规模数据集,帮助我们获得海量的计算能力;单机无法运行集群多台机器并行处理MapReduce简介开源实现谷歌公司最早提出分布式并行编程MapReduce,Hadoop平台对它进行了开源实现,成为Hadoop平台两个核心组件之一。MapReduce简介任何一个节点出现问题不会影响其他节点正常运行,又设置了冗余和容错机制。整个集群可以随意增加减少计算节点,计算节点只需要很廉价的PC机。只需要告诉Hadoop“做什么?”,整个系统框架自动实现分布式部署。Hadoop平台对Google上的MapReduce进行了很多相关的优化处理:集群架构和容错性硬件价格及扩展性编程和学习难度MapReduce设计思想Reduce函数Map函数屏蔽所有编程细节,把复杂的并行编程过程高度抽象为:MapReduce名称的由来:MapReduce整个框架中核心设计只有这两个函数,底层的细节都被隐藏掉了,所以它极大的降低了分布式并行编程的难度,这是MapReduce的突出优点。MapReduce设计思想策略理念函数两个函数一个策略一个理念MapReduce的设计思想总结有:一个策略,一个理念,两个函数。MapReduce设计思想一个策略:“分而治之”第一步:MapReduce采用分而治之;第二步:把非常庞大的数据集,切分成非常多的独立小分片;第三步:然后为每一个分片单独地启动一个Map任务;最后:最终通过多个Map任务,并行地在多个机器上去处理。MapReduce设计思想一个理念:”计算向数据靠拢”机器:数据机器:数据机器:数据机器:计算在大数据计算设计时,采用“计算向数据靠拢”,移动计算比移动数据更加经济,大大减少了整个网络中数据传输开销,大大提升整个分布式程序的处理性能。机器:数据MapReduce设计思想MapReduce把复杂的并行编程过程高度抽象为Map和Reduce两个函数Map对一组数据元素进行某种重复式的处理,提取数据的特征。Reduce对Map的中间结果进行某种进一步的结果整理。两个函数:Map函数和Reduce函数=+MapReduce设计思想统一构架,隐藏系统层细节通过抽象模型和计算框架把需要“做什么”与“怎么做”分开,为设计者提供一个高层的编程接口和框架。将具体完成并行计算任务相关的诸多系统层细节隐藏起来,交给计算框架去处理。MapReduce优点0203易于编程良好的扩展性高容错性01只需要告诉Hadoop“做什么?”,整个系统框架自动实现分布式部署。整个集群可以随意增加减少计算节点,计算节点只需要很廉价的PC机。任何一个节点出现问题不会影响其他节点正常运行,又设置了冗余和容错机制。MapReduce不足不擅长实时计算不擅长流式计算不擅长有向图计算性能局限应用局限MapReduce不足不擅长流式计算不擅长有向图计算不擅长实时计算MapReduce无法在毫秒或者秒级内返回结果。321流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化;MapReduce适用于海量数据的离线批处理;不适合数据事务处理或单一请求处理。多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO开销,导致性能非常低。MapReduce不足Map任务和Reduce任务存在着严格的依赖关系,Map任务的中间结果存储在本地磁盘上,Reduce任务需要从磁盘上获取Map计算的中间结果并将其作为Reduce的输入,这样就会产生大量的磁盘IO开销,使得计算机性能降低。性能局限MapReduce不适合一般的Web应用,因为这些应用只是简单的数据访问且每次访问请求所需要的资源非常少,同时还需要满足高并发访问需求。应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论