HBase分布式数据库技术与应用 课件3项目二-任务二-初探HBase数据模型_第1页
HBase分布式数据库技术与应用 课件3项目二-任务二-初探HBase数据模型_第2页
HBase分布式数据库技术与应用 课件3项目二-任务二-初探HBase数据模型_第3页
HBase分布式数据库技术与应用 课件3项目二-任务二-初探HBase数据模型_第4页
HBase分布式数据库技术与应用 课件3项目二-任务二-初探HBase数据模型_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《HBase分布式数据库实战》HBase分布式数据库实战项目二认识HBase任务二

初探HBase数据模型回顾知识点1HBase简介回顾知识点2

HBase系统架构回顾任务引入数据模型(DataModel)是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。任务概要任务描述:从本项目开始,我们将从技术层面学习HBase,本任务将讲解HBase的概念视图及物理视图的相关知识点。任务教学目标:掌握HBase概念视图中的相关概念。掌握HBase物理视图中的相关概念。一概念视图二物理视图教学内容HBase数据模型概述知识点一(一)概念视图在HBase的概念视图中,HBase实际上就是一个稀疏、多维、持久化存储的映射表,它采用行键(RowKey)、列(ColumnFamily)、列限定符(ColumnQualifier)和时间戳(Timestamp)进行索引,每个值都是未经解释的字节数组byte[]。重要元素表行列族列限定符单元格时间戳数据坐标(一)概念模型HBase数据的概念视图示例行键时间戳列族content列族anchor“com.cnn.www”t5

anchor:=”CNN”t4

anchor:my.look.ca=”CNN.com”“com.cnn.www”t3content:html=”<html>...”

t2content:html=”<html>...”

t1content:html=”<html>...”(一)概念模型HBase采用表来组织数据,表由行和列组成,列划分为若干个列族。表每个HBase表都由若干行组成,每个行由行键(RowKey)来标识。行键可以是任意字符串(最大长度是64KB,实际应用中长度一般为10〜100字节)行(一)概念模型一个HBase表被分组成许多“列族”的集合,它是基本的访问控制单元。列族需要在表创建时就定义好,在HBase中,访问控制、磁盘和内存的使用统计都是在列族层面进行的。列族列族里的数据通过列限定符(或列)来定位。列限定符不用事先定义,也不需要在不同行之间保持一致。列限定符没有数据类型,总被视为字节数组byte[]。列限定符(一)概念模型在HBase表中,通过行、列族和列限定符确定一个“单元格”(Cell)。单元格中存储的数据没有数据类型,总被视为字节数组byte[]。每个单元格中可以保存一个数据的多个版本,每个版本对应一个不同的时间戳。单元格每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引。每次对一个单元格执行操作(新建、修改、删除)时,HBase都会隐式地自动生成并存储一个时间戳。一个单元格的不同版本是根据时间戳降序的顺序进行存储的,这样最新的版本可以被最先读取。时间戳(一)概念模型HBase使用坐标来定位表中的数据,对于我们熟悉的关系数据库而言,数据定位可以理解为采用“二维坐标”,即根据行和列就可以确定表中一个具体的值。但是,HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此可以视为一个“四维坐标”,即[行键,列族,列限定符,时间戳]。数据坐标物理视图知识点二(二)物理视图概念视图&物理视图在之前的概念视图中,我们可以看到,有些列是空的,即这些列上面不存在值。在物理视图中,这些空的列不会被存储成null,而是根本就不会被存储,当请求这些空白的单元格的时候,会返回null值。(二)物理视图1.面向列的存储(二)物理视图1.面向列的存储行式数据库主要适合于小批量的数据处理,如联机事务型数据处理,我们平时熟悉的Oracle和MySQL等关系数据库都属于行式数据库。列式数据库主要适合于批量数据处理和即席查询(Ad-HocQuery)。(二)物理视图2.表和region对于每个HBase表而言,表中的行是根据行键的值的字典序进行维护的,表中包含的行的数量可能非常庞大,无法存储在一台机器上,需要分布存储到多台机器上。因此,需要根据行键的值对表中的行进行分区,每个行区间构成一个分区,被称为“Region”(二)物理视图2.表和regionMaster主服务器会把不同的Region分配到不同的Region服务器上,但是同一个Region是不会被拆分到多个Region服务器上的。每个Region服务器负责管理一个Region集合,通常在每个Region服务器上会放置10〜1000个Region。(二)物理视图2.region的定位HBase数据的概念视图示例层次名称作用第一层ZooKeeper文件记录了-ROOT-表的位置信息第二层-ROOT-表记录了.META.表的Region位置信息,-ROOT-表只能有一个Region。通过-ROOT-表就可以访问.META.表中的数据第三层.META.表记录了用户数据表的Region位置信息,.META.表可以有多个Region,保存了HBase中所以用户数据表的Region位置信息HBase使用类似B+树的三层结构来保存Region位置信息在本任务中,我们主要学习了以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论