基于Hadoop的大数据处理关键技术综述22_第1页
基于Hadoop的大数据处理关键技术综述22_第2页
基于Hadoop的大数据处理关键技术综述22_第3页
基于Hadoop的大数据处理关键技术综述22_第4页
基于Hadoop的大数据处理关键技术综述22_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2015.6.15基于Hadoop的大数据处理关键技术综述大数据背景介绍ContentHadoop定义、特特点大数据对系系统的需需求、大大数据和和云计算算的关系系大数据市场场分析大数据处理理的技术术关键12Hadoop原理、优优点Hadoop体系架构构Hadoop核心设计计:MapReduce、HDFS大数据背景介绍1定义为了更为为经济的的从高频频率获取取的、大容量的的、不同同结构和和类型的的数据中中获取价价值,而设计的新一代代架构和和技术特点大数据对对系统的的需求大数据和和云计算算的关系系High performance 高并发读读写的需需求高并发、实时动动态获取取和更新新数据Huge St

2、orage海量数据据的高效效率存储储和访问问的需求求类似SNS网站,海海量用户户信息的的高效率率实时存存储和查查询High Scalability & HighAvailability 高可扩展展性和高高可用性性的需求求需要拥有有快速横横向扩展展能力、提供7*24小时不间间断服务务云计算改改变了IT,而大数据据则改变变了业务务云计算是是大数据据的IT基础,大数据须须有云计计算作为为基础架架构,才才能高效效运行通过大数数据的业业务需求求,为云云计算的的落地找找到了实实际应用用大数据市市场分析析2011年是中国国大数据据市场元元年,一一些大数数据产品品已经推推出,部部分行业业也有大大数据应应用案例

3、例的产生生。2012年-2016年,将迎迎来大数数据市场场的飞速速发展。2012年中国大大数据市市场规模模达到4.7亿元,2013年大数据据市场将将迎来增增速为138.3%的飞跃,到2016年,整个个市场规规模逼近近百亿。政府、互互联网、电信、金融的的大数据据市场规规模较大大,四个个行业将将占据一一半市场场份额。由于各个个行业都都存在大大数据应应用需求求,潜在在市场空空间非常常可观。大数据处处理的技技术关键键分析技术术:数据处理理:自然然语言处处理技术术;统计和分分析:地地域占比比,文本本情感分分析,A/Btest,topN排行榜;数据挖掘掘:建模模,聚类类,分类类,排名名;模型预测测:预测测

4、模型,机器学学习,建建模仿真真。存储技术术:结构化数数据:海海量数据据查询、统计、更新等等操作效效率低非结构化化数据:图片、视频、word、pdf、ppt等文件存存储,不不利于检检索,存存储和查查询半结构化化数据:转换为为结构化化数据或或者按照照非结构构化存储储。大数据技技术:数据采集集:ETL工具;数据存取取:关系系数据库库,NoSQL,NewSQL,等基础架构构支持:云存储储,分布布式文件件系统等等;计算结果果展现:云计算算,标签签云,关关系图等等。解决方案案:Hadoop(MapReduce技术)、MongoDB、流计算算(twitter的strom和yahoo!的S4)Hadoop大数

5、据主主要应用用技术Hadoop2Hadoop最先是由由Apache公司在2005年引入的的,起源源于google开发的MapReduce和GoogleFileSystem(GFS)项目。Hadoop作为新一一代的架架构和技技术,因因为有利利于并行行分布处处理“大数据据”而备备受重视视。ApacheHadoop是一个用用java语言实现现的软件件框架,在由大大量计算算机组成成的集群群中运行行海量数数据的分分布式计计算,它它可以让让应用程程序支持持上千个个节点和和PB级别的数数据。Hadoop是项目的的总称,主要是是由分布布式存储储(HDFS)、分布布式计算算(MapReduce)等组成成 。Ha

6、doop原理Hadoop原理假设系统每秒处理理4000个文件处理4千万个文文件=10000秒约为2.7小时处理4千万个文件处理400万个文件处理400万个文件处理400万个文件切分成十台机器处理约为17分钟=约为17分钟=约为17分钟=结果合并输出 优点可扩展:不论是是存储的的可扩展展还是计计算的可可扩展都都是Hadoop的设计根根本。经济:框架可可以运行行在任何何普通的的PC上。可靠:分布式式文件系系统的备备份恢复复机制以以及MapReduce的任务监监控保证证了分布布式处理理的可靠靠性。高效:分布式式文件系系统的高高效数据据交互实实现以及及MapReduce结合LocalData处理的模模

7、式,为为高效处处理海量量的信息息作了基基础准备备。不适合存储小文件(不建建议)大量的随随机读(不建议议)对文件的的修改(不支持持)应用模式式为:write-once-read-many存取模式式Hadoop体系架构构MapReduceHBasePigChuKwaHivePig是一个基基于Hadoop的大规模模数据分分析平台台,Pig为复杂的的海量数数据并行行计算提提供了一一个简易易的操作作和编程程接口hive是基于Hadoop的一个工工具,提提供完整整的sql查询功能能,可以以将sql语句转换换为MapReduce任务进行行运行Chukwa是基于Hadoop的集群监监控系统统,由yahoo贡献

8、ZooKeeper:高效的的,可扩扩展的协协调系统统,存储和协协调关键键共享状状态HBase是一个开开源的,基于列列存储模模型的分布式数数据库MapReduce是一种编编程模型型,用于于大规模模数据集集(大于于1TB)的并行行运算HDFS是一个分分布式文文件系统统。有着着高容错错性的特特点,并并且设计计用来部部署在低低廉的硬硬件上,适合那那些有着着超大数数据集的的应用程程序ZooKeeperMapReduceMap:任务的的分解Reduce:结果的的汇总两大核心心设计HDFSNameNode:文件管管理DataNode:文件存存储Client:文件获获取Hadoop核心设计计MapReduce

9、映射、化化简编程程模型(分分而治之之)1.根据输入入数据的的大小和和参数的的设置把把数据分分成splits,每个split对于一个个map线程。2.Split中的数据据作为Map的输入,Map的输出一一定在Map端。3.Map的输出到到Reduce的输入的的过程(shuffle过程):第一阶段段:在map端完成内内存-排序-写入磁盘盘-复制第二阶段段:在reduce端完成映映射到reduce端分区-合并-排序4.Reduce的输入到到Reduce的输出最后排好好序的key/value作为Reduce的输入MapReduce是一种编编程模型型,用于于大规模模数据集集的并行行运算。Map(映射)和

10、Reduce(化简),采用用分而治治之思想想,先把把任务分分发到集集群多个个节点上上,并行行计算,然后再再把计算算结果合合并,从从而得到到最终计计算结果果。多节节点计算算,所涉涉及的任任务调度度、负载载均衡、容错处处理等,都由MapReduce框架完成成,不需需要编程程人员关关心这些些内容。HDFS分布式文文件系统统什么是分分布式文文件系统统?分布式文文件系统统是指文文件系统统管理的的物理存存储资源源不一定定直接在在本地节节点上,而是通通过计算算机网络络与节点点相连。分布式式文件系系统设计计基于客客户机/服务器模模式,一一个典型型的网络络可能包包括多个个供用户户访问的的服务器器。用户户可以在在

11、任意一一台客户户机上访访问其他他机器的的文件系系统。为什么需需要分布布式文件件系统?高扩展能能力:HDFS采用元数数据中心心化管理理,然后后通过客客户端暂暂存数据据分布减减小元数数据的访访问压力力;高可用性性:一是是整个文文件系统统的可用用性,二二是数据据的完整整和一致致性。数数据完整整性通过过文件的的镜像和和文件自自动修复复来解决决;弹性存储储:可以以根据业业务需要要灵活地地增加或或缩减数数据存储储以及增增删存储储池中的的资源,而不需需要中断断系统运运行;HDFS分布式文文件系统统NameNode可以看作作是分布布式文件件系统中中的管理理者,存存储文件件系统的的meta-data,主要负负责

12、管理理文件系系统的命命名空间间,集群群配置信信息,存存储块的的复制。DataNode是文件存存储的基基本单元元。它存存储文件件块在本本地文件件系统中中,保存存了文件件块的meta-data,同时周周期性的的发送所所有存在在的文件件块的报报告给NameNode。Client就是需要要获取分分布式文文件系统统文件的的应用程程序。HDFS是一个高高度容错错性的分分布式文文件系统统,能提提供高吞吞吐量的的数据访访问,非非常适合合大规模模数据集集上的应应用。HDFS的高可用用性NameNode挂了怎么办? 系统采用双NameNode节点分布管理设计方案,支持分布式的元数据服务器,支持元数据自动日志功能,

13、实现用户数据和元数据的备份和自动恢复,当一台服务器发生宕机时,其管理功能可以有另外的服务器接管,系统可以正常运行,对外提供服务。NameNode NameNode是用来管理文件系统命名空间的组件 一个HDFS集群只有一台active的NameNode 一个HDFS集群只有一个命名空间,一个根目录 NameNode上存放了HDFS的元数据 元数据保存在NameNode的内存当中,以便快速查询 1G内存大致可以存放1,000,000个块对应的元数据信息 按缺省每块64M计算,大致对应64T实际数据Datanode 一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是

14、元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。增加DataNode节点后? 系统平台增加新节点之后,系统自动在所有节点之间均衡数据。系统后台根据忙闲程度,自动发起,占用很少系统资源,无需人工干预,实现数据均衡分布。HDFS具体操作作文件写入入:1.Client向NameNode发起文件件写入的的请求2.NameNode根据文件件大小和和文件块块配置情情况,返返回给Client它所管理理部分DataNode的信息。3.Client将文件划划分为多多个文件件块,根根据DataNode的地址信信息,按按顺序写写入到每每一个DataNode块中。文件读取取:1.Client向NameNode发起文件件读取的的请求2.NameNode返回文件件存储的的DataNode的信息。3.Client读取文件件信息。Client1Client2DataNode节点NameNode1NameNode2NFS服务器正常运行行状态单点失效效状态HBASE分布式数据存储储HBase

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论