版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目6购物网站中的海量数据库存储技术任务1实施HBase系统架构项目背景
随着互联网电商的快速发展和数据量的急剧增长,传统的关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题,无法满足大规模数据实时处理应用的需求,无法满足购物网站中海量数据的存储需求。本项目将介绍大数据领域的海量数据库存储技术HBase,通过HBase数据存储技术来解决大数据时代购物网站后台数据的存储及实时处理应用的需求。知识目标了解HBase基本概念。理解HBase架构。掌握HBase数据模型。掌握HBase特点
及其应用场景。技能目标在实际应用中,能够进行HBase数据库的安装与部署;能够使用HBase数据库开发开发项目。素质目标
培养职业道德和责任意识,注重数据安全与隐私保护的重要性,培养学生或从业者对用户数据的尊重和保护意识。促进团队合作精神,引导团队协作精神,培养团队合作能力以及有效沟通技巧。鼓励创新与持续学习,不断探索HBase的新功能及其应用场景,激发创新思维,并认识到终身学习的重要性,以适应快速发展的信息技术领域。content目录01HBase组件的功能和数据存储介绍02Region服务器工作原理03HBase系统架构HBase组件功能介绍01HBase组件详细功能介绍接下来详细说明HBase每个组件的功能和数据存储中过程中的主要任务。1.客户端Client在Client中包含了访问HBase的各种接口,如HBaseshell、JavaAPI等。Client还维护了对应的cache来加速HBase的访问,如Meta元数据的信息。Meta元数据信息的表结构如下表:HBase中的非关系型数据模型结构
图Meta元数据信息表结构2.ZooKeeper服务器通过ZoopKeeper来保证集群中只有一个Master在运行,如果Master异常,会通过竞争机制产生新的Master提供服务。存储所有Region的寻址入口,实时监控HRegionServer的状态,将Region服务器的上线和下线信息实时通知给Master,存储HBase的Schema和Table元数据,包括有哪些Table、每个Table有哪些ColumnFamily等数据。3.Master主服务器
Master是主节点服务,管理Region服务器。Master的功能如下:①协调数据库元数据变化。②监控Region服务器节点。③管理Region服务器的负载均衡。④失败Region服务器重启。⑤分配Region到Region服务器,在Region服务器退出时迁移其内的Region到其他Region服务器上。⑥Admin职能:Table的新建、删除、修改等的实现。4.Region服务器Region服务器是HBase集群的工作节点,负责存储和处理数据。Region服务器的主要功能如下:①存储和管理Regions。②处理读取/写入请求。③当region数据过多时,自动分割为regions。④表操作直接和客户端连接。⑤负责和底层HDFS的交互,存储数据到HDFS。⑥负责Storefile的合并工作。HBase组件详细功能介绍5.Region
在Region服务器内可以有多个Region,一张HBase表被可被分割为多个Region;每个Region包含多个行数据;HBase表和Region及其内部存储文件StoreFile之间的关系,如图所示。HBase表和Region结构关系图HBase组件详细功能介绍6.HLogHBase采用HLog日志文件保证系统恢复。HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(WriteAheadLog);用户更新数据必须首先写入日志后,才能写入MemStore缓存;并且,直到MemStore缓存内容对应的日志已经写入磁盘,该缓存内容才能被刷写到磁盘。在系统出现故障的时候,数据可以通过这个日志文件重建。7.Store
每一个Region由一个或多个Store组成,至少有一个Store。每个ColumnFamily列簇建一个Store存储文件;一个Store由一个memStore和若干StoreFile组成。8.StoreFilememStore内存中的数据写到文件后就是StoreFile,StoreFile底层是以HFile的格式保存当storefile文件的数量增长到一定阈值后,系统会进行合并(minor、majorcompaction),在合并过程中会进行版本合并和删除工作(majar),形成更大的StoreFile。HBase组件详细功能介绍Region服务器工作原理02拓展内容
1.Region服务器工作原理(1)用户读写数据过程
用户写入数据时,被分配到相应Region服务器去执行,用户数据首先被写入MemStore和HLog中,只有当操作写入HLog之后,commit()调用才会将其返回给客户端。当用户读取数据时,Region服务器会首先访问MemStore缓存,如果找不到,再去磁盘上面的StoreFile中寻找。(2)缓存的刷新系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在HLog里面写入一个标记。每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。每个Region服务器都有一个自己的HLog文件,每次启动都检查该文件,确认最近一次执行缓存刷新操作之后是否发生新的写入操作;如果发现更新,则先写入MemStore,再刷写到StoreFile,最后删除旧的HLog文件,开始为用户提供服务。(3)StoreFile的合并每次刷写都生成一个新的StoreFile,数量太多,影响查找速度。调用Spact()把多个合并成一个,合并操作比较耗费资源,只有数量达到一个阈值才启动合并。Store是Region服务器的核心,多个StoreFile合并成一个Store;单个StoreFile过大时,又触发分裂操作,一个父Region被分裂成两个子Region,如下图所示。Store工作原理
2.Store工作原理
3.HBase读流程HBase读流程如图所示。①Client先访问ZooKeeper,获取hbase:meta表位于哪个RegionServer。②访问对应的RegionServer,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个Region中,并将该table的region信息以及meta表的位置信息缓存在客户端的metacache,以方便下次访问。③与目标RegionServer进行通信。④分别在BlockCache(读缓存),MemStore和StoreFile(HFile)中查询目标数据,并将查到的所有数据进行合并。此处所有数据是指同一条数据的不同版本(timestamp)或者不同的类型(Put/Delete)。⑤将从文件中查询到的数据块(Block,HFile数据存储单元,默认大小为64KB)缓存到BlockCache。⑥将合并后的最终结果返回给客户端。
4.HBase写流程
HBase的写流程主要包括客户端处理阶段、RegionServer处理阶段以及后续的Flush和Compaction过程。(1)客户端处理阶段
客户端接收用户的写入请求,并进行预处理。根据集群的元数据(存储在ZooKeeper中),客户端定位写入数据所在的RegionServer。客户端将写入请求发送给对应的RegionServer。(2)RegionServer处理阶段RegionServer接收到写入请求后,首先将数据写入WAL(Write-AheadLog,预写日志),以确保数据的持久化,即使系统崩溃也能恢复数据。RegionServer将数据写入对应Region的列簇MemStore中,以支持快速的读取操作。(3)Flush和Compaction过程
当MemStore中的数据大小达到一定的阈值时,系统会异步执行Flush操作,将内存中的数据写入HDFS中的HFile文件中,实现数据的持久化存储。随着时间的推移和数据的增加,HDFS中会产生多个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校签订实习合同范本
- 彩钢支架购买合同范本
- 承包抚育林木合同范本
- 客户安全协议合同范本
- 建筑工程转包合同协议
- 家电售后外包合同范本
- 初三化学水的净化习题讲课教案(2025-2026学年)
- AirPollution空气污染教案(2025-2026学年)
- 大班数学我们的班级教案反思
- 新版典范英语市公开课百校联赛获奖教案
- 儿童锁骨骨折保守治疗
- 医院培训课件:《血源性职业暴露的预防及处理》
- 广东省2025届普通高中毕业班第二次调研考试 物理试卷(含答案)
- DB41T 2495-2023 预应力钢筒混凝土管道施工质量验收评定规范
- 上海市华东师范大学附属天山学校2024-2025学年高一上学期期中评估英语试卷(无答案)
- 松下-GF2-相机说明书
- 考察提拔干部近三年个人工作总结材料
- 幼儿园大班语言《蜂蜜失窃谜案》原版有声课件
- 电镀在光电器件中的关键作用
- 施工方案与安全保障措施
- GB/Z 20833.5-2023旋转电机绕组绝缘第5部分:重复冲击电压下局部放电起始电压的离线测量
评论
0/150
提交评论