版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据与hbase应用关于hadoop与hbase的介绍和开发应用周勇沂2014年10月16日目 录2大数据与与HADOOP介绍1HDFS介绍2Hbase介绍3Hbase应用431、WINDOWS进进程间通通信方式式第一章大大数据与与HADOOP介绍第一章HADOOP介绍41、大数据据的背景景与定义义日益信息息化的时时代5大数据的的定义与与特征“Big dataisdatathat exceedsthe processingcapacityofconventional database systems”OReillyRadar,“WhatIsBig Data?”,January2012所谓大数
2、数据,就就是用现现有的一一般技术术难以管管理的大大量数据据的集合合-野村综合合研究所所大数据顺顺应大规规模信息息化到新新阶段而而诞生的的数据库革革命性运运动NoSQL(NoSQL=NotOnlySQL)不同的NoSQL场景不同同,可比比性不高高原则:解放思想想,事实实求是6巨量GBTBPBEBDaily Historical种类多WebAPPSocial NetworkEmail半结构XMLLogClickstreamxDR实时Real-timeNear real-time大数据的的挑战7一个关系系型数据据库的表表数据量量上亿时时分区分表分库导致上层层复杂度度提高,成本倍倍增IO天花板,非线性
3、性单机计算算大数据对对系统的的需求High performance 高并发读读写的需需求高并发、实时动动态获取取和更新新数据Huge Storage海量数据据的高效效率存储储和访问问的需求求类似SNS社会性网网络服务务网站,海量用用户信息息的高效效率实时时存储和和查询High Scalability & HighAvailability 高可扩展展性和高高可用性性的需求求需要拥有有快速横横向扩展展能力、提供7*24小时不间间断服务务8第一章HADOOP介绍92、HADOOP起源和特特点Hadoop的的创立和和演进10谷歌三大大论文GFS(2003)SanjayGhemawat(美国工工程院士士
4、)(GFS,MR,Bigtable)HowardGobioffShun-TakLeungmap/reduce (2004)Dean Jeffrey(美国工工程院士士)(Adsense,pb,News,Codesearch)SanjayGhemawatBigtable(2006)FayChangDean JeffreySanjayGhemawat.Doug Cutting和和YahooLucene-Nutch-Hadoop大数据主主要应用用技术Hadoop可扩展:不论是存存储的可可扩展还还是计算算的可扩扩展都是是Hadoop的设计根根本。经济:框架可以以运行在在任何普普通的PC上。可靠:分布式文
5、文件系统统的备份份恢复机机制以及及MapReduce的任务监监控保证证了分布布式处理理的可靠靠性。高效:分布式文文件系统统的高效效数据交交互实现现以及MapReduce结合LocalData处理的模模式,为为高效处处理海量量的信息息作了基基础准备备11大数据主主要应用用技术HadoopHadoop作为新一一代的架架构和技技术,因因为有利利于并行行分布处处理“大数据据”而备备受重视视。ApacheHadoop是一个用用java语言实现现的软件件框架,在由大大量计算算机组成成的集群群中运行行海量数数据的分分布式计计算,它它可以让让应用程程序支持持上千个个节点和和PB级别的数数据。Hadoop是项目
6、的的总称,主要是是由分布布式存储储(HDFS)、分布布式计算算(MapReduce)等组成成12Hadoop解解决了什什么难题题?13简单地想想想看,假设我我们需要要读一个个10TB的数据集集,怎么么办?在传统的的系统上上,这需需要很长长时间,因为硬硬盘的传传输速度是受受限的。一个简简单的办办法是将将数据存存储在多多个磁盘盘上,同同时从多个磁磁盘并行行读取数数据,这这将大大大减少读读取时间间Hadoop的的基本概概念14分布式存存储HDFS文件分块块自行备份份分布式计计算Map/Reduce函数式设设计(map/reduce)第一章HADOOP介绍153、MapReduceHadoop解解决了
7、什什么难题题?16化整为零零,分片片处理;本地化计计算,并并行IO,降低低网络通通信MapReduce映射、化化简编程程模型171.根据输入入数据的的大小和和参数的的设置把把数据分分成splits,每个split对于一个个map线程。2.Split中的数据据作为Map的输入,Map的输出一一定在Map端。3.Map的输出到到Reduce的输入的的过程(shuffle过程):第一阶段段:在map端完成内内存-排序-写入磁盘盘-复制第二阶段段:在reduce端完成映映射到reduce端分区-合并-排序4.Reduce的输入到到Reduce的输出最后排好好序的key/value作为Reduce的输入
8、,输出不不一定是是在reduce端。MapReduce是一种编编程模型型,用于于大规模模数据集集的并行行运算。Map(映射)和Reduce(化简),采用用分而治治之思想想,先把把任务分分发到集集群多个个节点上上,并行行计算,然后再再把计算算结果合合并,从从而得到到最终计计算结果果。多节节点计算算,所涉涉及的任任务调度度、负载载均衡、容错处处理等,都由MapReduce框架完成成,不需需要编程程人员关关心这些些内容。181、WINDOWS进进程间通通信方式式第二章HDFS介绍HDFS分布式文文件系统统19NameNode可以看作作是分布布式文件件系统中中的管理理者,存存储文件件系统的的meta-
9、data,主要负负责管理理文件系系统的命命名空间间,集群群配置信信息,存存储块的的复制。DataNode是文件存存储的基基本单元元。它存存储文件件块在本本地文件件系统中中,保存存了文件件块的meta-data,同时周周期性的的发送所所有存在在的文件件块的报报告给NameNode。Client就是需要要获取分分布式文文件系统统文件的的应用程程序。HDFS是一个高高度容错错性的分分布式文文件系统统,能提提供高吞吞吐量的的数据访访问,非非常适合合大规模模数据集集上的应应用。HDFS特点20可扩展,只需添添加服务务器健壮性,高度容错错性,文件删除除恢复机机制机架感知知数据冗余余,副本机制制负载均衡衡适
10、合流式式访问,一次写入入,多次读取取默认块大大小64MB,适合PB级以上数数据的存存储和处处理MapReduce分布式计计算框架架,利用存储储节点的的CPU资源HDFS优缺点21HDFS优点:适合大数数据处理理(支持持GB,TB,PB级别的数数据存储储,支持持百万规规模以上上的文件件数量)适合批处处理(支支持离线线的批量量数据处处理,支支持高吞吞吐率)高容错性性(以数数据块存存储,可可以保存存多个副副本,容容易实现现负载均均衡)HDFS缺点:小文件存存取(占占用namenode大量内存存),1百万个文文件,至至少300M内存不支持并并发写入入(同一一时刻只只能有一一个进程程写入,不支持持随机修
11、修改)多用户写写入,任任意修改改文件低延时(几十毫毫秒),它是为为高数据据吞吐量量设计的的HDFS分布式文文件系统统22HDFS架构分析析HDFS分布式文文件系统统23HDFS分布式文文件系统统24HDFS文件读取取流程HDFS分布式文文件系统统25文件写入入流程261、WINDOWS进进程间通通信方式式第二章HBASE的介绍Hbase简介27来源于FayChang所撰写的的Google论文“Bigtable”HBase HadoopDatabase分布式存存储系统统高可靠性性高性能面向列可伸缩可在廉价价PCServer上搭建Hadoo生态环境境28底层HDFS为HBase提供了可可靠的文文件
12、存储储MapReduce为它提供供了高性性能的计计算Pig和Hive提供了HBase的查询功功能,Hive提供的方方法类似似与SQL语句Sqoop提供了Hbase与关系数数据库的的导入导导出功能能Zookeeper提供了协协调以及及failover功能.Hbase架构291商品目录录就是一一张大表表(Bigtable),由商品品编号(key)和装商品品的木箱箱(ColumnFamily列族)组成。2一个编号号下商品品(如某辆单单车的零零件),最好只只用一种种规格箱箱子就装装完,但但某些零零件大小小差别过过大,不不得不使使用多种种箱子(多个列族族)3此大型超超市总部部(HMaster)以楼层为为
13、租赁的的基本单单位,每每层成为为一个销销售分区区(HRegion)。 此大大型超市市租用了了好多栋栋分布在在全球各各地的购购物大楼楼(HRegionserver),并托管管了商品品的存储储和搬运运。超市市总部(HMaster)只管理到到销售分分区(HRegion),并记录在在一张地地址本上上(放在内存存上)4每层楼销销售分区区(HRegion)都放一定定范围编编号的商商品,如如果这个个范围编编号的商商品过多多了,就就会再租租多一层层楼来存存储(分分裂)HBase架构304,购物大大楼(HRegionserver)只有一个个大门口口负责登登记人员员进出(Hlog);进门后可可以通往往各个层层楼,
14、每每个楼层层就是一一个销售售分区(HRegion)5,关于一一个销售售分区(Hregion)a,每层楼根根据商品品木箱(列族ColumnFamily)的规格多多少,分分为多个个专卖店店(Store)b,每个专卖卖店(Sotre),由促销仓仓(放内存上上的Memstore)和0个或多个个普通仓仓(放hfile上的Sotrefile)组成HRegionServer入库过程程简介31Hstore分流简介介32Client写入-存入MemStore,一直到到MemStore满-Flush成一个StoreFile,直至增增长到一一定阈值值-出发Compact合并操作作-多个StoreFile合并成一一个
15、StoreFile,同时进进行版本本合并和和数据删删除-当StoreFiles Compact后,逐步步形成越越来越大大的StoreFile-单个StoreFile大小超过过一定阈阈值后,触发Split操作,把把当前RegionSplit成2个Region,Region会下线,新Split出的2个孩子Region会被HMaster分配到相相应的HRegionServer上,使得得原先1个Region的压力得得以分流流到2个Region上hfile文件格式式33hfile文件由6部分组成成:data block,meta block(可选),file info,data block index,
16、meta block index,trailer。data block存储了表表数据,meta block存储了布布隆过滤滤器索引引数据,file info存储了本本文件的的相关信信息,index存储了datablock和metablock的索引数数据,trailer存储了本本文件的的相关信信息。341、WINDOWS进进程间通通信方式式第三章HBASE的应用HBaseShell35名称命令表达式创建表create 表名称, 列名称1,列名称2,列名称N添加记录 put 表名称, 行名称, 列名称:, 值查看记录get 表名称, 行名称查看表中的记录总数count 表名称删除记录delete
17、表名 ,行名称 , 列名称删除一张表先要屏蔽该表,才能对该表进行删除,第一步 disable 表名称 第二步 drop 表名称查看所有记录scan 表名称 查看某个表某个列中所有数据scan 表名称 , 列名称:更新记录 就是重写一遍进行覆盖Hbase编程36封装好的的HbaseDAO例子importcom.etrans.lib.db.hbase.dao.TrackDaoImpl;private GpsTrack vo =new GpsTrack();方式一TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.openTable(false, 1024
18、*1024 *32);trackDao.insert(vo);/增、改为为同一接接口trackDao.list(startKey,endKey, selectedColSet,filter);trackDao.closeTable();trackDao= null;方式二TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.insert(vo);trackDao.list(startKey,endKey, selectedColSet,filter);trackDao= null;Hbase编程37TrackDaoImpl操作对象象如何初初始化初始化表名StringCONST_TABLE_NAME =“track;对象与hbase表字段映映射关系系OverridepublicvoidinitSchema()addHbaseCol(newHbaseCol(ar
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 膝关节置换术后功能恢复训练
- 颞颩关节置换术后的护理要点
- 2026广东深圳市宝安区中英公学高薪诚聘特色普通高中各科教师备考题库及完整答案详解(夺冠系列)
- 2026云南曲靖市陆良县人力资源和社会保障局招聘公益性岗位3人备考题库及完整答案详解(全优)
- 北京2011年海淀区高三二模语文试题及答案
- 2026年3月山东济南轨道交通集团运营有限公司社会招聘备考题库附参考答案详解(满分必刷)
- 2026浙江金华市浦江县教育系统招聘教师20人备考题库附参考答案详解【完整版】
- 2026江西省人力资源有限公司招聘生产服务一线人员16人备考题库含答案详解【能力提升】
- 2026北京城市副中心投资建设集团有限公司春季校园招聘25人备考题库附答案详解【夺分金卷】
- 2026广西钦州市统计局面向社会招聘编外人员2人备考题库附参考答案详解(模拟题)
- 福建省莆田市2026届高中毕业班第二次质量调研测试试卷(莆田二检) 英语+答案
- Songmont山下有松品牌手册
- 2025年河南经贸职业学院单招职业技能考试试题及答案解析
- 2026年吉林水利电力职业学院单招职业技能考试题库附答案详解(精练)
- 2026森岳科技(贵州)有限公司招聘工作人员29人考试备考试题及答案解析
- 2026年浙江省十校联盟高三3月质量检测试题试英语试题试卷含解析
- 2026年春季人教版小学数学二年级下册教学计划(含进度表)
- 雨课堂学堂在线学堂云《导弹总体设计导论(国防科技)》单元测试考核答案
- 信息技术中考知识点(汇编册)
- 2025年高一政治上学期教学工作总结及2026年工作计划
- 精神卫生法知识课件
评论
0/150
提交评论