《大数据平台部署与运维》课件-HBase基本配置_第1页
《大数据平台部署与运维》课件-HBase基本配置_第2页
《大数据平台部署与运维》课件-HBase基本配置_第3页
《大数据平台部署与运维》课件-HBase基本配置_第4页
《大数据平台部署与运维》课件-HBase基本配置_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11讲:HBase基本配置

计算机工程学院1HBase适用场景目录HBase简介2使用HDFS作为文件存储系统,可存储海量数据支持索引rowkey,可随机、实时查询非关系型,适合稀疏数据存储HBase简介为什么使用HBase?GoogleBigTableHBase利用GFS作为文件存储系统利用HDFS作为文件存储系统运行MapReduce处理存储的海量数据同样利用HadoopMapReduce处理海量数据利用Chubby作为协同服务利用Zookeeper作为协同服务HBase简介HBase是GoogleBigTable的开源实现HBase简介HBase在Hadoop生态圈的位置HBase(HadoopDatabase)是一个高可靠性,高性能,可伸缩,面向列的,非关系型的分布式数据库分布式数据库使用HDFS作为文件存储系统,实现数据分布式存储HBase为搭建在集群中的主从架构数据库HBase简介HBase是什么?非关系型数据模型把HBase想象成一个连续的、分布式的、多维度的并且排序的Map。Map的索引是行关键字、列关键字以及时间戳;Map中的每个value都是一个未经解析的byte数组。HBase简介HBase是什么?(rowkey,columnfamily,column,timestamp)ValueHBase简介HBase是什么?扩展性强并发性能好数据模型灵活学号姓名性别出生日期高中名称本科名称硕士名称……1001张三男1985.06XX高中清华清华……1002李四男1985.06XX高中清华1003王五男1985.08XX高中中科大高可靠性1.HBase提供WAL和Replication机制2.HDFS本身的副本机制很大程度上保证了HBase的高可靠性3.协调服务的ZooKeeper组件是经过工业验证的,具备高可用性和高可靠性高性能Rowkey的设计和底层架构设计使HBase拥有较高的读写性能可伸缩HBase分布式架构支持节点扩容HBase简介HBase是一个列式存储数据库HBase简介HBase的特性1HBase适用场景目录HBase简介2HBaseHDFS数据存储HBase是一个数据库,构建在HDFS之上,数据以表、行和列的形式存储HDFS是一个分布式的文件系统,用于存储大量文件数据读取方式随机读取&小范围扫描&全表扫描全文件顺序读取或分区数据读取写入方式随机写入仅能追加删除方式指定删除不支持指定删除,只能全文件删除HBase适用场景HDFSVSHBaseHBaseRDBMS硬件集群商用硬件较贵的多处理器硬件容错针对单个或少个节点宕机没有影响需要额外较复杂的配置数据大小TB到PB级数据,千万到十亿级行GB到TB级数据,十万到百万级行数据层一个分布式、多维度的、排序的Map行或列导向数据类型只有Bytes多种数据类型支持事务单个行的ACID支持表间和行间的ACID查询语言支持自身提供的APISQL索引Row-key索引支持吞吐量每秒百万查询每秒千次查询HBase适用场景HBaseVSRDBMSHBaseHive延迟性在线,低延迟批处理,较高延迟结构化非结构化数据结构化数据适用人员程序员分析人员HBase适用场景HBaseVSHiveHBase:在线实时查询Hive:离线批量报表查询

针对已经存在的Hadoop集群

针对大量的数据

要求快速随机读取或写入

简单访问模式只需要增加数据的场景

只有批量处理而不是随机读取的场景复杂的访问模式(如joins)

需要完全SQL支持

单个节点可以处理所有数据的场景HBase适用场景HBase适用场景YESNO目录1HBase数据模型HBase架构2HBase读写流程3HBase数据模型传统关系型模型(逻辑视图)行列HBase数据模型逻辑模型(逻辑视图)行列时间戳命名空间命名空间是对表的逻辑分组,不同的命名空间类似于关系型数据库中的不同的Database数据库。利用命名空间,在多租户场景下可做到更好的资源和数据隔离。表对应于关系型数据库中的一张张表,HBase以“表”为单位组织数据,表由多行组成。行行由一个RowKey和多个列族组成,一个行有一个RowKey,用来唯一标示。HBase数据模型数据模型术语列族/列簇每一行由若干列族组成,每个列族下可包含多个列。列的限定符列的限定符是列族中数据的索引。例如给定了一个列族content,那么限定符可能是content:html,也可以是content:pdf。列族在创建表格时是确定的了,但是列的限定符是动态地并且行与行之间的差别也可能是非常大的。单元格单元格由RowKey、列族、列限定符唯一定位,单元格之中存放一个值(Value)和一个版本号。时间戳单元格内不同版本的值按时间倒序排列,最新的数据排在最前面HBase数据模型HBase数据模型物理模型(物理视图)通过列族来存储的。一个新建的限定符(column_family:column_qualifier)可以随时地添加到已存在的列族中HBase数据存储可以看成是<rowkey,columnfamily:columnqualifier,timestamp>->cell(value-t2,value-t3…)。HBase数据模型“info”“FirstName”:Cary“LastName”:Grant“Street”:12232MainSt“Birthday”:1929-02-21RowKeyColumnFamily65126“info”“LastName”:Smith“Street”:1211Sycamore“ColumnQualifier”:Cell<65,”info:FirstName”,timestamp>->”Cary”<65,”info:LastName”,timestamp>->”Grant”<65,”info:Street”,timestamp>->”12232MainSt”<65,”info:Birthday”,timestamp>->”1929-02-21”<126,”info:LastName”,timestamp>->”Smith”<126,”info:Street”,timestamp>->”1211Sycamore”数据规模大,单表可容纳数十亿行,上百万列。无模式,不像关系型数据库有严格的Scheme,每行可以有任意多的列,列可以动态增加,不同行可以有不同的列,列的类型没有限制。稀疏,值为空的列不占存储空间,表可以非常稀疏,但实际存储时,能进行压缩。面向列族,面向列族的存储和权限控制,支持列族独立查询。数据多版本,利用时间戳来标识版本数据无类型,所有数据以字节数据形式存储数据类型单一:HBase中的数据都是字符串,没有类型。HBase数据模型HBase表特点目录1HBase架构HBase数据模型2HBase读写流程3HBase架构HBase架构图1.Client包含了访问HBase的接口,如HBaseshell、JavaAPI等2.

Client还维护了对应的cache来加速HBase的访问,比如.META.元数据的信息HBase架构Client通过Zoopkeeper来保证集群中只有1个HMaster在运行,如果HMaster异常,会通过竞争机制产生新的HMaster提供服务存储所有Region的寻址入口实时监控HRegionServer的状态,将HRegionServer的上线和下线信息实时通知给HMaster存储HBase的schema和table元数据,包括有哪些Table,每个Table有哪些ColumnFamilyHBase架构Zookeeper主节点服务,管理HRegionServer,HMaster功能包含:协调数据库元数据变化;监控HRegionServer节点;管理HRegionServer的负载均衡;失败HRegionServer重启;分配region到HRegionServer,在HRegionServer退出时迁移其内的HRegion到其他HRegionServer上;Admin职能:Table的新建、删除、修改等的实现HBase架构HMaster存储和管理regions;处理读取/写入请求;当region数据过多时,自动分割为regions

表操作直接和客户端连接;负责和底层HDFS的交互,存储数据到HDFS负责Storefile的合并工作HBase架构HRegionServerHBase表被分割为多个region;每个region包含多个行数据;HBase架构HRegionHLog记录数据的变更,包括序列号和实际数据在系统出现故障的时候,数据可以通过这个日志文件重建HBase架构HLog(WALlog):WAL意为writeaheadlog(预写日志)每一个region由一个或多个store组成,至少是一个store每个ColumnFamily建一个store一个Store由一个memStore和0或者多个StoreFile组成HBase架构StorememStore是放在内存里的。保存修改的数据即keyValues。当memStore的大小达到一个阀值(默认128MB)时,memStore会被flush到文件HBase架构MemstorememStore内存中的数据写到文件后就是StoreFileStoreFile底层是以HFile的格式保存当storefile文件的数量增长到一定阈值后,系统会进行合并(minor、majorcompaction),在合并过程中会进行版本合并和删除工作(majar),形成更大的storefile。HBase

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论