版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与hbase运用
关于hadoop与hbase的引见和开发运用周勇沂2021年10月16日目录2大数据与HADOOP引见1HDFS引见2Hbase引见3Hbase运用431、WINDOWS进程间通讯方式
第一章大数据与HADOOP引见第一章HADOOP引见41、大数据的背景与定义日益信息化的时代5大数据的定义与特征“Bigdataisdatathatexceedstheprocessingcapacityofconventionaldatabasesystems〞O’ReillyRadar,“WhatIsBigData?〞,January2021所谓大数据,就是用现有的普通技术难以管理的大量数据的集合----野村综合研讨所大数据顺应大规模信息化到新阶段而诞生的数据库革命性运动NoSQL(NoSQL=NotOnlySQL)不同的NoSQL场景不同,可比性不高原那么:解放思想,现实求是6巨量GBTBPBEBDaily~Historical种类多WebAPPSocialNetworkEmail…半结构XMLLogClickstreamxDR…实时Real-timeNearreal-time大数据的挑战7※一个关系型数据库的表数据量上亿时★分区★分表★分库※导致上层复杂度提高,本钱倍增IO天花板,非线性单机计算大数据对系统的需求★Highperformance–高并发读写的需求 高并发、实时动态获取和更新数据★HugeStorage–海量数据的高效率存储和访问的需求 类似SNS社会性网络效力网站,海量用户信息的高效率实时存储和查询★HighScalability&&HighAvailability–高可扩展性和高可用性的需求 需求拥有快速横向扩展才干、提供7*24小时不延续效力8第一章HADOOP引见92、HADOOP来源和特点Hadoop的创建和演进10谷歌三大论文
GFS(2003) SanjayGhemawat(美国工程院士) (GFS,MR,Bigtable) HowardGobioff Shun-TakLeung
map/reduce(2004) DeanJeffrey(美国工程院士)
(Adsense,pb,News,Codesearch) SanjayGhemawat
Bigtable(2006) FayChang DeanJeffrey
SanjayGhemawat...DougCutting和YahooLucene->Nutch->Hadoop大数据主要运用技术——Hadoop可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运转在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapReduce的义务监控保证了分布式处置的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处置的方式,为高效处置海量的信息作了根底预备11大数据主要运用技术——Hadoop
Hadoop作为新一代的架构和技术,由于有利于并行分布处置“大数据〞而备受注重。ApacheHadoop是一个用java言语实现的软件框架,在由大量计算机组成的集群中运转海量数据的分布式计算,它可以让运用程序支持上千个节点和PB级别的数据。Hadoop是工程的总称,主要是由分布式存储〔HDFS〕、分布式计算〔MapReduce〕等组成12Hadoop处理了什么难题?13简单地想想看,假设我们需求读一个10TB的数据集,怎样办?在传统的系统上,这需求很长时间,由于硬盘的传输速度是受限的。一个简单的方法是将数据存储在多个磁盘上,同时从多个磁盘并行读取数据,这将大大减少读取时间Hadoop的根本概念14分布式存储HDFS 文件分块 自行备份分布式计算Map/Reduce 函数式设计〔map/reduce〕第一章HADOOP引见153、MapReduceHadoop处理了什么难题?16化整为零,分片处置;本地化计算,并行IO,降低网络通讯MapReduce——映射、化简编程模型171.根据输入数据的大小和参数的设置把数据分成splits,每个split对于一个map线程。2.Split中的数据作为Map的输入,Map的输出一定在Map端。3.Map的输出到Reduce的输入的过程(shuffle过程): 第一阶段:在map端完成内存->排序->写入磁盘->复制第二阶段:在reduce端完成映射到reduce端分区->合并->排序4.Reduce的输入到Reduce的输出最后排好序的key/value作为Reduce的输入,输出不一定是在reduce端。MapReduce是一种编程模型,用于大规模数据集的并行运算。Map〔映射〕和Reduce〔化简〕,采用分而治之思想,先把义务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的义务调度、负载平衡、容错处置等,都由MapReduce框架完成,不需求编程人员关怀这些内容。181、WINDOWS进程间通讯方式
第二章HDFS引见HDFS—分布式文件系统
19NameNode 可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要担任管理文件系统的命名空间,集群配置信息,存储块的复制。DataNode 是文件存储的根本单元。它存储文件块在本地文件系统中,保管了文件块的meta-data,同时周期性的发送一切存在的文件块的报告给NameNode。Client 就是需求获取分布式文件系统文件的运用程序。
HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适宜大规模数据集上的运用。HDFS特点
20★可扩展,只需添加效力器★强壮性,高度容错性,文件删除恢复机制★机架感知★数据冗余,副本机制★负载平衡★适宜流式访问,一次写入,多次读取★默许块大小64MB,适宜PB级以上数据的存储和处置★MapReduce分布式计算框架,利用存储节点的CPU资源HDFS优缺陷
21HDFS优点:★适宜大数据处置〔支持GB,TB,PB级别的数据存储,支持百万规模以上的文件数量〕★适宜批处置〔支持离线的批量数据处置,支持高吞吐率〕★高容错性〔以数据块存储,可以保管多个副本,容易实现负载平衡〕HDFS缺陷:★小文件存取〔占用namenode大量内存〕,1百万个文件,至少300M内存★不支持并发写入〔同一时辰只能有一个进程写入,不支持随机修正〕★多用户写入,恣意修正文件★低延时〔几十毫秒〕,它是为高数据吞吐量设计的HDFS—分布式文件系统
22HDFS架构分析HDFS—分布式文件系统
23HDFS—分布式文件系统
24HDFS文件读取流程HDFS—分布式文件系统
25文件写入流程
261、WINDOWS进程间通讯方式
第二章HBASE的引见Hbase简介27★来源于FayChang所撰写的Google论文“Bigtable〞★HBase–HadoopDatabase分布式存储系统★高可靠性★高性能★面向列★可伸缩★可在廉价PCServer上搭建Hadoo生态环境28底层HDFS为HBase提供了可靠的文件存储MapReduce为它提供了高性能的计算Pig和Hive提供了HBase的查询功能,Hive提供的方法类似与SQL语句Sqoop提供了Hbase与关系数据库的导入导出功能Zookeeper提供了协调以及failover功能.Hbase架构291商品目录就是一张大表(Bigtable),由商品编号(key)和装商品的木箱(ColumnFamily列族)组成。2一个编号下商品(如某辆单车的零件),最好只用一种规格箱子就装完,但某些零件大小差别过大,不得不运用多种箱子(多个列族)3此大型超市总部(HMaster)以楼层为租赁的根本单位,每层成为一个销售分区(HRegion)。此大型超市租用了好多栋分布在全球各地的购物大楼(HRegionserver),并托管了商品的存储和搬运。超市总部(HMaster)虽然理到销售分区(HRegion),并记录在一张地址本上(放在内存上)4每层楼销售分区(HRegion)都放一定范围编号的商品,假设这个范围编号的商品过多了,就会再租多一层楼来存储〔分裂〕HBase架构304,购物大楼(HRegionserver)只需一个大门口担任登记人员进出(Hlog);进门后可以通往各个层楼,每个楼层就是一个销售分区(HRegion)5,关于一个销售分区(Hregion)a,每层楼根据商品木箱(列族ColumnFamily)的规格多少,分为多个专卖店(Store)b,每个专卖店(Sotre),由促销仓(放内存上的Memstore)和0个或多个普通仓(放hfile上的Sotrefile)组成HRegionServer入库过程简介31Hstore分流简介32Client写入->存入MemStore,不断到MemStore满->Flush成一个StoreFile,直至增长到一定阈值->出发Compact合并操作->多个StoreFile合并成一个StoreFile,同时进展版本合并和数据删除->当StoreFilesCompact后,逐渐构成越来越大的StoreFile->单个StoreFile大小超越一定阈值后,触发Split操作,把当前RegionSplit成2个Region,Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上,使得原先1个Region的压力得以分流到2个Region上hfile文件格式33hfile文件由6部分组成:datablock,metablock(可选),fileinfo,datablockindex,metablockindex,trailer。datablock存储了表数据,metablock存储了布隆过滤器索引数据,fileinfo存储了本文件的相关信息,index存储了datablock和metablock的索引数据,trailer存储了本文件的相关信息。341、WINDOWS进程间通讯方式
第三章HBASE的运用HBaseShell35名称命令表达式创建表create'表名称','列名称1','列名称2','列名称N'添加记录put'表名称','行名称','列名称:','值'查看记录get'表名称','行名称'查看表中的记录总数count'表名称'删除记录delete'表名','行名称','列名称'删除一张表先要屏蔽该表,才能对该表进行删除,第一步disable'表名称'第二步drop'表名称'查看所有记录scan"表名称"查看某个表某个列中所有数据scan"表名称",['列名称:']更新记录就是重写一遍进行覆盖Hbase编程36封装好的HbaseDAO例子importcom.etrans.lib.db.hbase.dao.TrackDaoImpl;privateGpsTrackvo=newGpsTrack();★方式一TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.openTable(false,1024*1024*32);trackDao.insert(vo);//增、改为同一接口trackDao.list(startKey,endKey,selectedColSet,filter);trackDao.closeTable();trackDao=null;★方式二TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.insert(vo);trackDao.list(startKey,endKey,selectedColSet,filter);trackDao=null;Hbase编程37※TrackDaoImpl操作对象如何初始化★初始化表名StringCONST_TABLE_NAME=“track";★对象与hbase表字段映射关系@OverridepublicvoidinitSchema(){ addHbaseCol(newHbaseCol("artistName","an")); addHbaseCol(newHbaseCol("year","ye",true)); addHbaseCol(newHbaseCol("downCount","dc",HbaseColType.LONG));}★如何生成rowkey@
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装修工程施工设计方案
- 卸料平台专项施工方案
- 施工升降机安全协议书
- 2026陕西西安文理学院高层次人才和紧缺特殊专业人才引进50人备考题库及答案详解(基础+提升)
- 2026黑龙江哈尔滨(春季)延寿县乡镇卫生院招聘医学毕业生4人备考题库含答案详解(培优a卷)
- 2026福建福州市船政幼儿园教师招聘1人备考题库及完整答案详解1套
- 2026贵州贵阳市第一幼儿园花果园分园教师急聘1人备考题库附答案详解(研优卷)
- 2026湖北格爱建筑工程有限公司招聘7人备考题库含答案详解(a卷)
- 2026年河南省焦作市事业单位联考招聘628名备考题库含答案详解(a卷)
- 2026年山东师范大学第二附属中学第二批公开招聘人员备考题库(4名)及完整答案详解1套
- 广东省珠海市文园中学2024-2025学年七年级下学期语文期中试卷(含答案)
- 西餐制度管理制度
- 消防大队安全警示教学课件
- 司法实践中的价格鉴证应用
- AI在医疗质量控制中的全流程管理
- 2025重庆机场集团有限公司校园招聘36人考试核心试题及答案解析
- 数字疗法在糖尿病管理中的创新应用
- 膀胱内异物护理查房
- 二尖瓣钳夹术护理查房
- 物料供应商遴选制度
- 新能源汽车商业计划书范本
评论
0/150
提交评论