版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据技术——HBase分布式数据库湖南软件职业技术大学HBase概述HBase是什么HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,利用HBase技术可在廉价的PCServer上搭建大规模结构化存储集群。HBase是GoogleBigTable的开源实现,与Google的BigTable利用GFS作为其文件存储系统类似,HBase则利用Hadoop的HDFS作为其文件存储系统。Google运行MapReduce来处理Bigtable中的海量数据,而HBase则利用Hadoop的MapReduce来处理HBase中的海量数据。GoogleBigtable利用Chubby作为协同服务,而HBase则利用Zookeeper作为协同服务。湖南软件职业技术大学无模式:同一个表的不同行可以有截然不同的列。面向列:HBase是面向列的存储和权限控制,并支持列独立索引。容量巨大:单表可以有百亿行、数百万列。高可靠性:HBase提供了预写日志(WAL)和副本(Replication)机制,防止数据丢失。稀疏性:表可以设计得非常稀疏,值为空的列并不占用存储空间。扩展性:HBase底层文件存储依赖HDFS,它天生具备可扩展性。高性能:底层的LSM(Log-StructuredMergeTree)数据结构和RowKey有序排列等架构上的独特设计,使得HBase具备非常高的写入性能。HBase的特点湖南软件职业技术大学HBase模型及架构HBase逻辑模型湖南软件职业技术大学HBase中的一个表有若干行,每行有很多列,列中的值可以有多个版本,每个版本的值称为一个单元格,每个单元格存储的是该列不同时间的值。HBase表的逻辑模型如图所示。
表HBase
是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase
的表也是由行和列组成,但
HBase
同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(ColumnFamily),这种组织形式主要是出于HBase存取性能的考虑。
行健Rowkey
既是
HBase
表的行键,也是
HBase
表的主键。HBase
表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。因为Rowkey
会被冗余存储,所以长度不宜过长,Rowkey
过长将会占用大量的存储空间同时会降低检索效率。其次
Rowkey
应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,从而造成单台节点超出自身承受能力)。另外需要保证Rowkey的唯一性。
列簇HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:和anchor:my.look.ca都是列簇anchor的成员。列簇是表的schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。
单元格HBase中通过RowKey和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间戳是
64
位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。HBase逻辑模型HBase物理模型湖南软件职业技术大学在物理上,表是按列列簇分开存储的。HBase的列是按列簇分组的,HFile是面向列的物理文件,可以存放行的不同列,一个列簇的数据存放在多个HFile中,最重要的是一个列簇的数据会被同一个Region管理,物理上存放在一起。表8-1为列簇contens物理模型,表8-2为列簇anchor物理模型。HBase物理模型湖南软件职业技术大学
HBase表中的所有行都是按照RowKey的字典顺序排列,在行的方向上分割为多个Region。Region是HBase数据管理的基本单位,数据移动、数据的负债均衡以及数据的分裂都是以Region为单位来进行操作。Region的切分方式如图所示。HBase物理模型湖南软件职业技术大学
Region是HBase中分布式存储就和负债均衡的最小单元。不同的Region会分布到不同的RegionServer上,Region的负债均衡如图所示。HBase物理模型湖南软件职业技术大学Region虽然是分布式存储的最小单元,但并不是存储的最小单元。Region由一个或多个Store组成,每个Store保存一个ColumnFamily。每个Store又由一个MemStore和零至多个StoreFile组成。MemStore代表写缓存,StoreFile存储在HDFS之上。Region的组成结构如图所示。HBase基本构架湖南软件职业技术大学HBase是一个分布式系统架构,除了底层HDFS之外,HBase包含4个核心功能模块,他们分别是客户端、协调服务模块、主节点和从节点。HBase基本架构如图。ThanksHadoop大数据技术——Sqoop安装部署Sqoop概述
ApacheSqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据迁移。用户可以在Sqoop的帮助下,轻松地将RDBMS中的数据导入到Hadoop或者与其相关的系统(如HBase和Hive)中;同时也可以将数据从Hadoop系统导出到RDBMS。因此,可以说Sqoop就是一个桥梁,连接了RDBMS与Hadoop。湖南软件职业技术大学Sqoop的优势湖南软件职业技术大学
Sqoop可以高效地、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间。Sqoop可以自动地完成数据库与Hadoop系统中数据类型的映射与转换。Sqoop支持多种数据库,比如,MySQL、Oracle和PostgreSQL等数据库。Sqoop架构及工作机制湖南软件职业技术大学
Sqoop的架构是非常简单,它主要由3个部分组成:sqoop客户端、Hadoop平台和外部存储系统,如图所示:用户向sqoop发起一个命令之后,这个命令会转换为一个基于Map任务的MapReduce作业。Map任务会访问数据库的元数据信息,通过并行Map任务将RDBMS的数据读取出来,然后导入Hadoop中。当然也可以将Hadoop中的数据导入RDBMS中。它的核心思想就是通过基于Map任务(只有Map)的MapReduce作业来实现数据的并发复制和传输。SqoopImport流程湖南软件职业技术大学Sqoop数据导入流程是:首先用户输一条SqoopImport命令,Sqoop会从RDBMS中获取元数据信息,Sqoop获取这些信息之后会将命令转换为基于Map的MapReduce作业。MapReduce作业中有很多Map任务,每个Map任务从数据库中读取一片数据,多个Map任务实现并发复制,将整个数据快速复制到HDFS上。SqoopExport流程湖南软件职业技术大学
Sqoop数据局导出流程是:首先用户输入一条SqoopExport命令,Sqoop会获取RDBMS的元数据,建立Hadoop字段与数据库表字段的映射关系。然后将输入命令转换为基于Map的MapReduce作业,这样MapReduce作业中会有很多个Map任务,他们并行地从HDFS读取数据,并将整个数据复制到RDBMS中。ThanksHadoop大数据技术——Flume日志采集系统Flume概述
Flume是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。湖南软件职业技术大学Flume架构设计湖南软件职业技术大学
Flume之所以比较强大,是源于自身的一个设计-Agent。Agent本身是一个Java进程,它运行在日志收集节点之上。Agent里面包含3个核心组件:source、Channel和Sink。Flume构架如图所示。Flume架构设计湖南软件职业技术大学
客户端操作消费数据的来源,可以将数据发送给FlumeAgent。Flume支持多种数据源,如Avro、Log4j、Syslog和Http。Flume自带很多Source组件支持采集各种数据源,常见的类型见表。Flume架构设计湖南软件职业技术大学Channel是中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026山东菏泽牡丹区育华职业中等专业学校招聘1人考试参考试题及答案解析
- 2026四川内江职业技术学院常态化招聘高层次人才20人考试备考题库及答案解析
- 2026云南临沧市永德县小勐统镇卫生院见习人员招聘2人考试备考试题及答案解析
- 小儿感冒的护理经验分享
- 2026新疆阿勒泰布喀公路建设开发有限公司招聘1人考试备考题库及答案解析
- 2026年曲靖市富源县公安局招聘警务辅助人员(1人)考试备考试题及答案解析
- 2026天津中医药大学第二批招聘4人考试备考题库及答案解析
- 2026重庆医科大学编外聘用人员招聘(第2轮)考试参考试题及答案解析
- 2026年南昌八一起义纪念馆招聘编外人员2人考试参考题库及答案解析
- 2026年宁波北仑区戚家山街道编外工作人员招聘1人考试备考题库及答案解析
- GB/T 26160-2010中国未成年人头面部尺寸
- GB/T 1095-2003平键键槽的剖面尺寸
- 小学二年级数学寒假作业
- 《凝聚态物理学新论》配套教学课件
- 《发明专利申请书》word版
- 2023年(中考)初中英语知识归纳总结(二)(精华打印版)
- 学术论文的撰写方法与规范课件
- 【高等数学练习题】兰州职业技术学院专升本自考真题汇总(附答案解析)
- 学术道德学术规范(答案)
- 学习《政府采购货物和服务招标投标管理办法》(财政部令第87号)
- 高考作文与阅读-朱以撒:挺拔之姿(附精彩点评与文章珠玑)
评论
0/150
提交评论