从零开始学Hadoop教学PPT从零开始学Hadoop大数据分析配书资源7 HBase_第1页
从零开始学Hadoop教学PPT从零开始学Hadoop大数据分析配书资源7 HBase_第2页
从零开始学Hadoop教学PPT从零开始学Hadoop大数据分析配书资源7 HBase_第3页
从零开始学Hadoop教学PPT从零开始学Hadoop大数据分析配书资源7 HBase_第4页
从零开始学Hadoop教学PPT从零开始学Hadoop大数据分析配书资源7 HBase_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HBase,温春水,NoSQLHBase数据模型HBase体系架构HBase体系架构中的组件HBase集群安装HBaseShellJavaAPI访问HBase,大纲,大数据生态系统,Mhout底层是MR算法库Pig是把Latin语言转化成MRHBase依赖于HDFSHBase依赖于Zookeeper实现高可靠性,大数据生态系统,NoSQL,泛指非关系型的数据库。随着互联网的兴起,传统的关系数据库在应付超大规模和高并发的系统已经显得力不从心。NoSQL是非关系型的数据存储,NoSQL,键值(Key-Value)存储数据库Redis列存储数据库。Cassandra,HBase文档型数据库MongoDb图形(Graph)数据库Neo4J图形模型,NoSQL数据库的四大分类,数据模型比较简单;对数据库性能要求较高;不需要高度的数据一致性;对于给定key,比较容易映射复杂值的环境,NoSQL数据库适用场景,成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。查询速度:nosql数据库将数据存储于缓存之中,关系型数据库将数据存储在硬盘中,自然查询速度远不及nosql数据库。存储数据的格式:nosql的存储格式是key,value形式、文档形式、图片形式等等,所以可以存储基础类型以及对象或者是集合等各种格式,而数据库则只支持基础类型。扩展性:关系型数据库有类似join这样的多表查询机制的限制导致扩展很艰难。,关系型数据库与非关系型数据库的区别,HBaseHadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库)没有严格的结构Key/Value,HBase,HBase数据模型,ROWKEY决定一行数据按照字典顺序排序的。Rowkey只能存储64k的字节数据,HBase数据模型,ColumnFamily列族&qualifier列HBase表中的每个列都归属于某个列族,列族必须作为表模式(schema)定义的一部分预先给出。createtest,course列名以列族作为前缀,每个“列族”都可以有多个列成员(column);如course:math,course:english,新的列族成员(列)可以随后按需、动态加入;权限控制、存储以及调优都是在列族层面进行的;HBase把同一列族里面的数据存储在同一目录下,由几个文件保存。,HBase数据模型,在HBase每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒序排序,最新的数据版本排在最前面。时间戳的类型是64位整型。时间戳可以由HBase(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。,Timestamp时间戳,由行和列的坐标交叉决定;单元格是有版本的;单元格的内容是未解析的字节数组;由rowkey,column(=+),version唯一确定的单元。cell中的数据是没有类型的,全部是二进制字节码形式存储。,Cell单元格,HLog文件就是一个普通的HadoopSequenceFile,SequenceFile的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息。可用作恢复数据是由HBase自动调用,HLog(WALlog),HBase体系架构,Zookeeper:存储元数据HMaster不存储数据HBase是Master/Slave架构Hmaster类似HDFS中的NameNodeHRegionServer类似HDFS中的DataNode,HBase体系架构,Client包含访问HBase的接口并维护cache来加快对HBase的访问Zookeeper保证任何时候,集群中只有一个master存贮所有Region的寻址入口实时监控Regionserver的上线和下线信息。并实时通知Master存储HBase的schema和table元数据,HBase体系架构,Master为Regionserver分配region负责Regionserver的负载均衡发现失效的Regionserver并重新分配上面的region管理用户对table的增删改操作RegionServerRegionserver维护region,处理对这些region的IO请求Regionserver负责切分在运行过程中变得过大的region,HBase体系架构,RegionHBase自动把表水平划分成多个区域(region),每个region会保存一个表里面某段连续的数据;每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region(裂变);当表中的行不断增多,就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。,HBase数据模型,Memstore与storefile一个region由多个store组成,一个store对应一个CF(列族)store包括位于内存中的memstore和位于磁盘的storefile写操作先写入memstore,当memstore中的数据达到某个阈值,hregionserver会启动flashcache进程写入storefile,每次写入形成单独的一个storefile当storefile文件的数量增长到一定阈值后,系统会进行合并在合并过程中会进行版本合并和删除工作,形成更大的storefile当一个region所有storefile的大小和超过一定阈值后,会把当前的region分割为两个,并由hmaster分配到相应的regionserver服务器,实现负载均衡客户端检索数据,先在memstore找,找不到再找storefile,HBase数据模型,HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegionserver上。HRegion由一个或者多个Store组成,每个store保存一个columnsfamily。每个Store又由一个memStore和0至多个StoreFile组成。如图:StoreFile以HFile格式保存在HDFS上。,HBase数据模型,单机版分布式参考:,Hbase集群安装,分布式参考官网和相关文档元数据在zookeeper中,HBase集群安装,hbase(main):005:0help删除表Disabletable1Droptable1创建表createtest,cf1,cf2desctest显示所有的表list,HBase相关命令,插入数据puttest,123,c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论