




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据应用技术介绍,2014年2月,Hadoop生态系统,Hadoop生态系统,Hadoop介绍,HDFS 特点,HDFS缺点,HDFS 部署结构,HDFS 读写过程,MapReduce 部署结构,MapReduce 计算模型,Input,k1, v1,Map,k2, v2,Reduce,k3, v3,Output,MapReduce 扩展接口,InputFormat Mapper Partitioner Reducer OutputFormat,Map,Reduce,MapReduce实例,MapReduce内部结构,Hadoop 2.0,引入一个新的资源管理系统YARN HDFS单点故障得以解决 HDFS Federation HDFS 快照 通过NFS访问HDFS 支持Window系统,Hadoop1 VS Hadoop2,集群资源管理,Hadoop介绍,Yarn 运行原理图,Hbase介绍,1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群,Hbase体系结构,HBase 系统架构图,HBase部件说明,Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum存储-ROOT-表地址、HMaster地址 HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况 Zookeeper避免HMaster单点问题 HMaster: HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master在运行 主要负责Table和Region的管理工作: 1 管理用户对表的增删改查操作 2 管理HRegionServer的负载均衡,调整Region分布 3 Region Split后,负责新Region的分布 4 在HRegionServer停机后,负责失效HRegionServer上Region迁移,Table&Region,Table随着记录增多不断变大,会自动分裂成多份Splits,成为Regions 一个region由startkey,endkey)表示 不同region会被Master分配给相应的RegionServer进行管理,HregionServer,-ROOT- & .META.,.META. 记录用户表的Region信息,同时,.META.也可以有多region -ROOT- 记录.META.表的Region信息,但是,-ROOT-只有一个region Zookeeper中记录了-ROOT-表的location 客户端访问数据的流程: Client - Zookeeper - -ROOT- - .META. - 用户数据表 多次网络操作,不过client端有cache缓存,HBase 数据模型,Row Key: Table主键,Table中记录按照Row Key排序 Timestamp: 每次对数据操作对应的时间戳,也即数据的version number Column Family: 列簇,一个table在水平方向有一个或者多个列簇,列簇可由任 意多个Column组成,列簇支持动态扩展,无须预定义数量及 类型,二进制存储,用户需自行进行类型转换,Hbase Shell,Hbase shell,Hbase与RDBMS,数据类型:Hbase只有简单的字符串类型。 数据操作:Hbase只有很简单的插入、查询、删除、清空操作,没有复杂的表和表之间的关系。 存储模式:Hbase是基于列式存储,每个列族由几个文件保存,不同列族的文件是分离的。 数据维护:更新操作是替换版本,删除只是逻辑标记 可伸缩性:,参考资料,Lucene搜索结构,基于文档的搜索,Tika是一个内容抽取的工具集合。 支持work,ppt,execl,PDF等,大数据统计,Elastics
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全教育知识培训方案课件
- 农业无人机租赁平台运营模式创新与竞争力提升研究
- 农业废弃物资源化利用项目技术改造路径研究报告
- 理财行业面试题库及答案
- 农业产业强镇资金申请报告:2025年政策导向与产业协同发展
- 农业产业园项目2025年市场机会分析与效益评估报告
- 婴幼儿配方食品营养配方优化与婴幼儿听力保护研究报告
- 太阳能光伏发电技术前瞻研究报告
- 安全教育培训记录与监理课件
- 新能源行业2025年危机公关法律法规解读
- 2025年大学辅导员招聘考试题库
- 2025-2026学年七年级英语上学期第一次月考(Unit 1-2)(广州专用沪教版2024)解析卷
- 2025全国企业员工全面质量管理知识竞赛试题及答案
- DB4419T 23-2024 建设工程施工无废工地管理规范
- 社会组织管理概论全套ppt课件(完整版)
- 轧机设备安装施工方案
- (完整版)IATF16949新版过程乌龟图的编制与详解课件
- 制药企业仓库温湿度分布的验证
- 满堂脚手架工程施工方案
- GB∕T 3099.4-2021 紧固件术语 控制、检查、交付、接收和质量
- 山东临清实验中学2012学年八年级语文 7课背影共3课时教案(表格版) 人教新课标版
评论
0/150
提交评论