




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop基础知识培训,江西电信大数据支撑团队,2014年中国电信大数据技术与应用培训,2企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,主要内容,第一篇Hadoop综述第二篇HDFS分布式文件系统第三篇MapReduce分布式计算框架第四篇常用Hadoop组件介绍,3企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第一篇Hadoop综述,:什么是Hadoop:Hadoop生态系统:Hadoop的厂商:Hadoop的部署,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop是什么?,Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署在廉价的硬件上,构建分布式系统。yMapReduce分布式计算框架允许用户在不了解分布式底层细节的情况下开发并行、分布的应用程序,利用大规模计算资源,解决传统高性能单机无法解决的大数据处理问题HadoopNutchLucene,高性能全文索引工具包,高性能搜索引擎工具包,版本演进,对应Cloudera公司的CDH3u5,对应Cloudera公司的CDH4,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop的特点,Hadoop运用于海量数据处理,主要有如下几个优势:方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP生态系统,y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所示:,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,发展目标,HADOOP生态系统,(1)实时应用场景(05s):Storm、S4等;(2)交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:ClouderaImpala、ApacheDrill、Shark等;(3)非交互式场景(1m1h):通常运行时间较长,处理数据量较大,对容错性和扩展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP厂商,Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop厂商通过技术创新各显神通。,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,物理上的Hadoop集群,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,逻辑部署的Hadoop集群,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,简介:江西电信Hadoop批处理平台共由62台PC服务器构成,形成物理上独立的3个RACK,按照功能角色分组,主控节点、数据节点、Hive接入节点、元数据节点、监控告警节点和ETL节点。主控节点6台(2台Namenode、1台Jobtracker、3台Zookeeper)数据节点56台,江西电信物理部署的Hadoop集群,12企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第二篇HDFS,一:HDFS简介二:HDFS架构三:漫画HDFS之读写机制四:漫画HDFS之容错性五:漫画HDFS之复制策略,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1HDFS简介,HDFS(HADOOPDISTRIBUTEDFILESYSTEM),是一个分布式文件系统。它是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2HDFS架构,Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanode上存储多份副本,默认3份,基本概念,Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系,Datanode:负责存储数据,数据以block的形式存在,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3HDFS之漫画读写,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3HDFS之漫画读写(续),企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3HDFS之漫画读写,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3HDFS之漫画读写,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4HDFS之漫画容错,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4HDFS之漫画容错,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4HDFS之漫画容错,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4HDFS之漫画容错,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,5HDFS之漫画复制策略,24企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第二篇MapReduce,一:MapReduce基础二:MapReduce优劣三:MapReduce工作原理,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1MapReduce基础,MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作由Map(映射)和Reduce(归约)组成,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1MapReduce示例,1.输入端根据输入文本大小进行切片形成适合Map处理的数据片,2.分片后的数据申请Map资源,执行本地单词映射操作,3.通过交换将map生成的结果按照单词进行归并重组,4.重组后的结果,申请Reduce资源,进行单词的合并统计,5.对Reduce的结果进行记录合并生成输出文件,MapReduce过程示例,对输入的文本进行单词统计,对输入的文本进行单词统计,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2MapReduce执行过程,从MapReduce在整个Hadoop框架的位置可以看出作为Hadoop最成熟的批处理框架,MapReduce起到承上启下的作用,一方面可以操作HDFS中的数据,另一方面可以被封装,提供Hive、Pig这样的上层组件的调用,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,MapReduce优劣,MapReduce的缺点,通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和灾备管理等,这样将极大地简化开发者工作MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框架,在伸缩性方面都与MapReduce相差甚远。MapReduce的缺点MapReduce最大的不足则在于,其不适应实时应用的需求,目前还无法满足用户交互式的需求。,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3MapReduce+YARN,30企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第四篇Hadoop常用组件简介,:Hadoop常用组件Hbase简介:Hadoop常用组件Hive简介:Hadoop常用组件Pig简介:Hadoop常用组件Zookeeper简介:Hadoop常用组件Sqoop简介:Hadoop常用组件Hue简介,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1Hbase简介,HBase是一个分布式的、多版本的、面向列的开源数据库利用HadoopHDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统利用HadoopMapReduce来处理HBase中的海量数据利用Zookeeper作为协同服务,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HBase简介(续),大:一个表可以有上亿行,上百万列面向列:面向列(族)的存储和权限控制,列(族)独立检索稀疏:对于为空的列,并不占用存储空间,因此,表可以设计的非常稀疏多版本:每条记录中的数据可以有多个版本无类型:存在HBase中的数据都是字符串,无其他类型,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HBase与RDBMS对比,Hbase的优点y1列的可以动态增加,并且列为空就不存储数据,节省存储空间.y2可以自动切分数据,使得数据存储自动具有水平扩展.y3可以提供高并发读写操作的支持Hbase的潜在缺点y1不能支持条件查询,只支持按照Rowkey来查询y2暂时不能支持Masterserver的故障切换,当Master宕机后,整个存储系统就会挂掉,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2HBase体系结构,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hbase应用场景,成熟的数据分析主题,业务场景简单,不需要关系数据库中很多特性,查询模式已经确定并且不易改变,传统的关系型数据库已经无法承受负荷,高速插入,有大量读取清单的需求,并且有快速随机访问的需求适合海量的,但是同时也是简单的操作,具备低延时的数据返回,比如说key-value的操作,是生产环境对外访问可行的方式,海量数据存储的驱使,具备动态扩展系统容量的需求,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop常用组件Hive简介,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的类sql查询功能,可以将类sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,当前数据分析方法,百万级,千万级,亿万级以上,Unix/Linux工具awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等,RDBMS,如Mysql、MongodbOracle、DB2等,分布式:OracleRAC、GreenplumHadoop(开源免费)MPP,主要基于单机计算,基于集群并行计算,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HIVEVSSQL,数据存储HDFS/HBaseRawDevice/LoaclFS数据格式用户自定义系统决定数据更新不支持(覆盖之前数据)支持索引有(0.8版本新增)有执行MapReduceExecutor执行延迟高低可扩展性高(UDF、UDAF、UDTF)低数据规模大(数据大于TB)小数据检查读时模式写时模式,列分隔符(通常为空格、”t”、”x001)行分隔符(”n”),随时间变化的如MYSQL:MyISAM、InnoDB、MEMORYSQL:,需要经常进行修改的,面向用户的数据添加数据,,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Pig是Hadoop上层的衍生架构,对比Hive(一种声明式的语言),Pig是一种过程语言,类似于存储过程一步一步的对数据进行转化Pig对MapReduce算法实现了一套shell,类似SQL语句,在Pig中称为PigLatin,可以对数据进行排序、过滤、求和、分组(groupby)、关联(Joining)等操作Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的UDF(user-definedfunctions)。,Hadoop常用组件Pig简介,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Pig和Hive的对比,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Pig的设计哲学,Pig语言可以操纵各种类型的数据,无论数据是否是元数据、是否结构化,都没有问题,甚至可以扩展到对键/值数据的操作,Pigseatanything,Pig设计是独立成体系的,可以在Hadoop上的HDFS上实现运行,也可以在其它的文件系统运行,Pigliveanywhere,Pig可以快速的处理数据,今后对pig的持续改进,将不会让它为了实现某种功能而降低性能,目的就是为了让Pig可以自由的飞翔,Pigsfly,Pig被设计为易于操作和修改,用户可以自己定义函数实现很多数据操作的功能,为了更好的让数据操作函数共享,pig发起了一个全球的pigbank的计划,上面会有全球pig开发工程师共享的数据操作函数,这些函数可以免费共享和使用,Pigsaredomesticanimals,Pig什么都能吃,Pig哪儿都能活,Pig哪儿都能养,让pig飞翔,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。,Hadoop常用组件ZooKeeper简介,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,sqoop主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。,H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大班人际交往活动方案
- 大班幼儿计划活动方案
- 夜市公益助农活动方案
- 大学元旦班级活动创意活动方案
- 地摊换购活动方案
- 地产圈层活动活动方案
- 基金公司激励活动方案
- 墨尔本闯关活动方案
- 2025-2030中国稀土永磁材料全球竞争格局及下游应用拓展与投资战略规划
- 大学周边活动方案
- 火锅店领班的岗位职责和工作流程
- 二人合伙协议书(电子版)
- 上门厨师项目商业计划书
- 第35届中国化学奥林匹克(初赛竞赛)试题及参考答案
- 许可证有效期内辐射安全和防护工作总结
- 四川省中小流域暴雨洪水计算表格(尾矿库洪水计算)
- 山东大学齐鲁医学院
- 椅子部件图纸
- 街道综合协管员笔试题
- 入库单(标准范本)
- GB/T 4744-2013纺织品防水性能的检测和评价静水压法
评论
0/150
提交评论