版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《HBase分布式数据库实战》HBase分布式数据库实战项目二认识HBase任务一浅谈HBase运行机制回顾知识点1
数据创新回顾知识点2
海量数据与NoSQL回顾知识点3HBase的由来回顾知识点4HBase的崛起回顾回顾知识点5HBase的使用场景任务引入广告成为互联网公司的一个主要收入来源。我们现在每天通过HBase处理百亿级广告的请求和曝光日志,访问HBase的延迟,80%在20ms之内,保证了数据的秒级实时回流,实现检索、曝光、点击和效果日志百亿数据的实时关联,提供完整丰富的用户特征数据。精细的特征数据会带来更好的模型,产生更好的广告效果,进而提升广告收入。任务概要任务描述:本任务介绍HBase的运行机制,包括HBase系统架构以及Region服务器、Store和HLog这三者的工作原理。任务教学目标:掌握HBase的系统架构知识。一HBase简介二HBase系统架构教学内容HBase简介知识点一HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。(一)HBase简介(一)HBase简介HBase和BigTable的底层技术对应关系项目BigTableHBase文件存储系统GFSHDFS海量数据处理MapReduceHadoopMapReduce协同服务处理ChubbyZookeeper(一)HBase简介1.HBase与传统关系数据库的对比分析随着Web2.0应用的不断发展,传统的关系数据库已经无法满足Web2.0的需求,无论在数据高并发方面,还是在高可扩展性和高可用性方面,传统的关系数据库都显得力不从心标题文字添加数据类型数据操作存储模式数据索引数据维护可伸缩性传统数据库(一)HBase简介2.HBase访问接口HBase访问接口类型特点场合NativeJavaAPI最常规和高效的访问方式适合HadoopMapReduce作业并行批处理HBase表数据HBaseShellHBase的命令行工具,最简单的接口适合于HBase管理ThriftGateway利用Thrift序列化技术,支持C++、PHP、Python等多种语言适合其他易购系统在线访问HBase表数据RESTGateway解除了语言限制支持REST风格的HttpAPI访问HBasePig使用PigLatin流式编程语言来处理HBase中的数据适合做数据统计Hive简单当需要以类似SQL语言的方式来访问HBase的时候HBase系统架构知识点二(二)HBase系统架构(二)HBase系统架构1.Client客户端Client客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程。HBase客户端使用HBase的RPC机制与Master和Region服务器进行通信。其中,对于管理类操作,客户端与Master进行RPC;而对于数据读写类操作,客户端则会与Region服务器进行RPC。Client客户端(二)HBase系统架构2.Zookeeper服务器在HBase服务器集群中,每个Region服务器都需要到Zookeeper中进行注册,Zookeeper会实时监控每个Region服务器的状态并通知给Master,这样,Master就可以通过Zookeeper随时感知到各个Region服务器的工作状态。Zookeeper服务器HBase中可以启动多个Master,但是Zookeeper可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯一一个Master在运行。Zookeeper中保存了-ROOT-表的地址和Master的地址,客户端可以通过访问Zookeeper获得-ROOT-表的地址,并最终通过“三级寻址”找到所需的数据。(二)HBase系统架构3.Master主服务器Master主要负责表和Region的管理工作。•管理用户对表的增加、删除、修改、查询等操作。•实现不同Region服务器之间的负载均衡。•在Region分裂或合并后,负责重新调整Region的分布。•对发生故障失效的Region服务器上的Region进行迁移。Master(二)HBase系统架构4.Region服务器点击此处添加正文,文字是您思想的提炼,为了最终呈现发布的良好效果,请言简意赅的阐。并根据需要酌情增减文字,即便信息错综复杂,需用更多的文字来表述。请您尽可能提炼思想的精髓。恰如其分的表达观点,往往事半功倍。Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。HBase一般采用HDFS作为底层存储文件系统,因此Region服务器需要向HDFS文件系统中读写数据。Region服务器(二)HBase系统架构4.Region服务器Region服务器内部管理了一系列Region对象和一个HLog文件,其中HLog是磁盘上面的记录文件,它记录着所有的更新操作。点击此处添加文本内容,如关键词、部分简单介绍等。(二)HBase系统架构4.Region服务器用户读写数据的过程当用户写入数据时,会被分配到相应的Region服务器去执行操作。用户数据首先被写入到MemStore和HLog中,当操作写入HLog之后,commit()调用才会将其返回给客户端。当用户读取数据时,Region服务器会首先访问MemStore缓存,如果数据不在缓存中,才会到磁盘上面的StoreFile中去寻找。(二)HBase系统架构4.Region服务器缓存的刷新MemStore缓存的容量有限,系统会周期性地调用Region.flushcache()把MemStore缓存里面的内容写到磁盘的StoreFile文件中,清空缓存,并在HLog文件中写入一个标记,用来表示缓存中的内容已经被写入StoreFile文件中。每个Region服务器都有一个自己的HLog文件,在启动的时候,每个Region服务器都会检查自己的HLog文件,确认最近一次执行缓存刷新操作之后是否发生新的写入操作。(二)HBase系统架构4.Region服务器Region服务器是HBase的核心模块,而Store则是Region服务器的核心。每个Store对应了表中的一个列族的存储。每个Store包含一个MemStore缓存和若干个StoreFile文件。Store的工作原理(二)HBase系统架构4.Region服务器HLog的工作原理HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(WriteAheadLog),也就是说,用户更新数据必须首先被记入日志后才能写入MemStore缓存,并且直到MemStore缓存内容对应的日志已经被写入磁盘之后,该缓存内容才会被刷新写入磁盘。在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师资格考试初中美术面试强化训练精练试题解析
- 宁乡社区工作者考试真题库(2025版)
- 【2024】新湘美版艺术美术七年级上册第五单元第3课 非遗文化潮起来 教案
- 中医骨科护理的饮食指导
- 护理服务质量提升方法
- 前置胎盘心理支持护理查房
- 山西省朔州市怀仁市城镇第七小学校2025年数学三年级下学期期末监测试题(含解析)
- 山西省晋中市寿阳县2025届四下数学期末预测试题含答案
- 徐州市重点中学2026年中考押题物理预测卷含解析
- 2026届区级联考上海市青浦区市级名校中考物理模试卷含解析
- 2026年河南省胸科医院医护人员招聘笔试参考题库及答案详解
- 新录用公务员考察报告
- 2026年福建厦漳泉城际铁路有限责任公司社会招聘34人笔试备考试题及答案详解
- 2025年江苏省泰州市初二地生会考考试试题及答案
- 2026-2030中国基础油行业运行形势及需求规模预测报告
- 湖南省株洲市攸县2024-2025学年六年级下学期语文期末考试试卷(含答案)
- 浙江省金华市2026年某中学高一语文分班考试真题含答案
- 2025年江苏省八年级地理生物会考考试试题及答案
- 2026年湖北省黄冈市初二地生会考真题试卷+解析及答案
- 2026年渝中区北碚区社区工作者招聘考试参考试题及答案解析
- AI赋能绩效管理:从传统考核到智能驱动的全流程升级
评论
0/150
提交评论