




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1大数据与大数据与hbasehbase应用应用关于关于hadoophadoop与与hbasehbase的介绍和开发应用的介绍和开发应用2目 录2大数据与HADOOPHADOOP介绍1HDFSHDFS介绍2HbaseHbase介绍3Hbase应用4331 1、WINDOWSWINDOWS进程间通信方式进程间通信方式4第一章 HADOOP介绍41 1、大数据的背景与定义、大数据的背景与定义5日益信息化的时代56大数据的定义与特征“Big data is data that exceeds the processing capacity of conventional database system
2、s” OReilly Radar, “What Is Big Data?”, January 2012所谓大数据,就是用现有的一般技术难以管理的大量数据的集合 - - 野村综合研究所 大数据顺应大规模信息化到新阶段而诞生的 数据库革命性运动 NoSQL (NoSQL = Not Only SQL )不同的 NoSQL场景不同,可比性不高原则: 解放思想,事实求是6巨量GBTBPBEBDaily Historical种类多WebAPPSocial NetworkEmail半结构XMLLogClickstreamxDR实时Real-timeNear real-time7大数据的挑战7一个关系型数据
3、库的表数据量上亿时分区分表 分库导致上层复杂度提高,成本倍增IO天花板,非线性单机计算8大数据对系统的需求 High performance 高并发读写的需求高并发读写的需求高并发、实时动态获取和更新数据 Huge Storage 海量数据的高效率存储和访问的需求海量数据的高效率存储和访问的需求类似SNS社会性网络服务网站,海量用户信息的高效率实时存储和查询 High Scalability & High Availability 高可扩展性高可扩展性和高可用性的需求和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务89第一章 HADOOP介绍92 2、HADOOPH
4、ADOOP起源和特点起源和特点10Hadoop的创立和演进10谷歌三大论文GFS(2003)Sanjay Ghemawat(美国工程院士)(GFS,MR,Bigtable)Howard GobioffShun-Tak Leungmap/reduce (2004)Dean Jeffrey(美国工程院士)(Adsense,pb,News,Code search)Sanjay GhemawatBigtable(2006)Fay ChangDean JeffreySanjay Ghemawat.Doug Cutting和YahooLucene - Nutch - Hadoop11大数据主要应用技术Ha
5、doopl 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。l 经济:框架可以运行在任何普通的PC上。l 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。l 高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备1112大数据主要应用技术Hadoop Hadoop作为新一代的架构和技术,因为有利于并行分布处理 “大数据”而备受重视。 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让
6、应用程序支持上千个节点和PB级别的数据。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成1213Hadoop解决了什么难题?13简单地想想看,假设我们需要读一个10TB的数据集,怎么办?在传统的系统上,这需要很长时间,因为硬盘的传输速度是受限的。一个简单的办法是将数据存储在多个磁盘上,同时从多个磁盘并行读取数据,这将大大减少读取时间14Hadoop的基本概念14分布式存储分布式存储HDFS文件分块自行备份分布式计算分布式计算Map/Reduce 函数式设计(map /reduce)15第一章 HADOOP介绍153 3、MapReduceMap
7、Reduce16Hadoop解决了什么难题?16 化整为零化整为零,分片处理;分片处理; 本地化计算本地化计算,并行并行IO,降低网络通信降低网络通信17MapReduce映射、化简编程模型171. 根据输入数据的大小和参数的设置把数据分成splits, 每个split对于一个map线程。2. Split中的数据作为Map的输入, Map的输出一定在Map端。3. Map的输出到Reduce的输入的过程(shuffle过程): 第一阶段:在map端完成内存-排序-写入磁盘-复制 第二阶段:在reduce端完成映射到reduce端分区-合并-排序4. Reduce的输入到Reduce的输出 最后
8、排好序的key/value作为Reduce的输入,输出不一定是在reduce端。MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。 18181 1、WINDOWSWINDOWS进程间通信方式进程间通信方式19HDFS分布式文件系统19NameNode可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要负责管理文件
9、系统的命名空间,集群配置信息,存储块的复制。DataNode是文件存储的基本单元。它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。 Client就是需要获取分布式文件系统文件的应用程序。 HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。20HDFS特点20可扩展,只需添加服务器健壮性,高度容错性,文件删除恢复机制机架感知数据冗余, 副本机制负载均衡适合流式访问,一次写入,多次读取默认块大小64MB,适合PB级以上数据的存储和处理 MapReduce分布式计算框架, 利用存
10、储节点的CPU资源21HDFS优缺点21 HDFS优点:优点:适合大数据处理(支持GB,TB,PB级别的数据存储,支持百万规模以上的文件数量)适合批处理(支持离线的批量数据处理,支持高吞吐率)高容错性(以数据块存储,可以保存多个副本,容易实现负载均衡)HDFS缺点:缺点:小文件存取(占用namenode大量内存),1百万个文件,至少300M内存不支持并发写入(同一时刻只能有一个进程写入,不支持随机修改)多用户写入,任意修改文件低延时(几十毫秒),它是为高数据吞吐量设计的22HDFS分布式文件系统22HDFS架构分析架构分析 23HDFS分布式文件系统2324HDFS分布式文件系统24HDFS文
11、件读取流程文件读取流程25HDFS分布式文件系统25文件写入流程文件写入流程 26261 1、WINDOWSWINDOWS进程间通信方式进程间通信方式27Hbase简介27来源于来源于 Fay Chang 所撰写的所撰写的Google论文论文“Bigtable” HBase Hadoop Database分布式存储系统分布式存储系统高可靠性高可靠性高性能高性能面向列面向列可伸缩可伸缩可在廉价可在廉价PC Server上搭建上搭建28Hadoo生态环境28底层底层HDFS为为HBase提供了可靠的文件存储提供了可靠的文件存储 Map Reduce为它提供了高性能的计算为它提供了高性能的计算 Pi
12、g和和Hive提供了提供了HBase的查询功能的查询功能,Hive提供的方法类似与提供的方法类似与SQL语句语句Sqoop提供了提供了Hbase与关系数据库的导入导出功能与关系数据库的导入导出功能 Zookeeper提供了协调以及提供了协调以及failover功能功能.29Hbase架构291 商品目录就是一张大表商品目录就是一张大表(Bigtable),由商品编号,由商品编号(key)和装商品的木箱和装商品的木箱(ColumnFamily列族列族)组成。组成。2 一个编号下商品一个编号下商品(如某辆单车的零件如某辆单车的零件),最好只用一种规格箱子就装完,但,最好只用一种规格箱子就装完,但某
13、些零件大小差别过大,不得不使用多种箱子某些零件大小差别过大,不得不使用多种箱子(多个列族多个列族) 3 此大型超市总部此大型超市总部(HMaster)以楼层为租赁的基本单位,每层成为一个销售分以楼层为租赁的基本单位,每层成为一个销售分区区(HRegion)。 此大型超市租用了好多栋分布在全球各地的购物大楼此大型超市租用了好多栋分布在全球各地的购物大楼(HRegionserver),并托管了商品的存储和搬运。超市总部,并托管了商品的存储和搬运。超市总部(HMaster)只管理到只管理到销售分区销售分区(HRegion),并记录在一张地址本上并记录在一张地址本上(放在内存上放在内存上)4 每层楼销
14、售分区每层楼销售分区(HRegion)都放一定范围编号的商品,如果这个范围编号都放一定范围编号的商品,如果这个范围编号的商品过多了,就会再租多一层楼来存储(分裂)的商品过多了,就会再租多一层楼来存储(分裂)30HBase架构304,购物大楼,购物大楼(HRegionserver)只有一个大门口负责登记人员进出只有一个大门口负责登记人员进出(Hlog); 进门后可以进门后可以通往各个层楼,每个楼层就是一个销售分区通往各个层楼,每个楼层就是一个销售分区(HRegion)5,关于一个销售分区,关于一个销售分区(Hregion) a,每层楼根据商品木箱每层楼根据商品木箱(列族列族ColumnFamil
15、y)的规格多少,分为多个专卖店的规格多少,分为多个专卖店(Store) b,每个专卖店每个专卖店(Sotre), 由促销仓由促销仓(放内存上的放内存上的Memstore)和和 0个或多个普通仓个或多个普通仓(放放hfile上的上的Sotrefile)组成组成31HRegionServer入库过程简介3132Hstore分流简介32Client写入写入 - 存入存入MemStore,一直到,一直到MemStore满满 - Flush成一个成一个StoreFile,直至增长到一定阈值直至增长到一定阈值 - 出发出发Compact合并操作合并操作 - 多个多个StoreFile合并成一个合并成一个S
16、toreFile,同时进行版本合并和数据删除,同时进行版本合并和数据删除 - 当当StoreFiles Compact后,逐步后,逐步形成越来越大的形成越来越大的StoreFile - 单个单个StoreFile大小超过一定阈值后,触发大小超过一定阈值后,触发Split操操作,把当前作,把当前Region Split成成2个个Region,Region会下线,新会下线,新Split出的出的2个孩子个孩子Region会被会被HMaster分配到相应的分配到相应的HRegionServer上,使得原先上,使得原先1个个Region的的压力得以分流到压力得以分流到2个个Region上上33hfile
17、文件格式33hfile文件由文件由6部分组成:部分组成:data block,meta block(可选可选),file info,data block index,meta block index,trailer。data block存储了表数据,存储了表数据,meta block存储了布隆过滤器存储了布隆过滤器索引数据,索引数据,file info存储了本文件的相关信息,存储了本文件的相关信息,index存储了存储了datablock和和metablock的的索引数据,索引数据,trailer存储了本文件的相关信息。存储了本文件的相关信息。34341 1、WINDOWSWINDOWS进程间
18、通信方式进程间通信方式35HBase Shell35名称命令表达式创建表create 表名称, 列名称1,列名称2,列名称N添加记录 put 表名称, 行名称, 列名称:, 值查看记录get 表名称, 行名称查看表中的记录总数count 表名称删除记录delete 表名 ,行名称 , 列名称删除一张表先要屏蔽该表,才能对该表进行删除,第一步 disable 表名称 第二步 drop 表名称查看所有记录scan 表名称 查看某个表某个列中所有数据scan 表名称 , 列名称:更新记录 就是重写一遍进行覆盖36Hbase编程36封装好的封装好的Hbase DAO例子例子import com.etr
19、ans.lib.db.hbase.dao.TrackDaoImpl;private GpsTrack vo = new GpsTrack();方式一方式一TrackDaoImpl trackDao = new TrackDaoImpl();trackDao.openTable(false, 1024 * 1024 * 32); trackDao.insert(vo); /增、改为同一接口trackDao.list(startKey, endKey, selectedColSet, filter);trackDao.closeTable();trackDao = null;方式二方式二TrackDaoImpl trackDao = new TrackDaoImpl();trackDao.insert(vo);trackDao.list(startKey, endKey, selectedColSet, filter);trackDao = null;37Hbase编程37 TrackDaoImpl 操作对象如何初始化操作对象如何初始化初始化表名String CONST_TABLE_NAME = “track; 对象与hbase表字段映射关系Override public void initSchema() addHbaseCol(new HbaseCo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025门座式起重机租赁合同
- 2025育儿嫂服务合同范本
- 2025工程咨询服务合同变更要求书新
- 2025年新高考物理模拟试卷试题及答案详解(精校打印)
- 2025设备租赁合同书样本
- 2025《构建城市轨道交通合同》
- 2025二手商品买卖合同范本
- 2025冷却系统维护保养合同书
- 2025房地产抵押借款合同
- 2025合同管理考点:合同违约责任的设计要点
- 齿轮 轮齿的磨损和损伤 第1部分:术语和特性
- DZ∕T 0283-2015 地面沉降调查与监测规范(正式版)
- 酚醛板薄抹灰外保温技术与标准解析
- 2024数据中心间接蒸发冷却解决方案
- 移动取消宽带委托书
- 光伏项目高处坠落的风险点及控制措施(A)
- 四大名著课本剧主持词
- MOOC 理解马克思-南京大学 中国大学慕课答案
- 30题腾讯云智研发技术运营岗位常见面试问题含HR问题考察点及参考回答
- 《客舱安全与应急处置》-课件:颠簸处置程序
- 第5课南亚东亚与美洲的文化课件-高中历史选择性必修3
评论
0/150
提交评论