大数据应用技术介绍(PPT37页).ppt_第1页
大数据应用技术介绍(PPT37页).ppt_第2页
大数据应用技术介绍(PPT37页).ppt_第3页
大数据应用技术介绍(PPT37页).ppt_第4页
大数据应用技术介绍(PPT37页).ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据应用技术介绍 2014年2月 Hadoop生态系统 Hadoop生态系统 Hadoop介绍 HDFS特点 HDFS缺点 HDFS部署结构 HDFS读写过程 MapReduce部署结构 MapReduce计算模型 Input k1 v1 Map k2 v2 Reduce k3 v3 Output MapReduce扩展接口 InputFormatMapperPartitionerReducerOutputFormat Map Reduce MapReduce实例 MapReduce内部结构 Hadoop2 0 引入一个新的资源管理系统YARNHDFS单点故障得以解决HDFSFederationHDFS快照通过NFS访问HDFS支持Window系统 Hadoop1VSHadoop2 集群资源管理 Hadoop介绍 Yarn运行原理图 Hbase介绍 1高可靠性2高效性3面向列4可伸缩5可在廉价PCServer搭建大规模结构化存储集群 Hbase体系结构 HBase系统架构图 HBase部件说明 Client 使用HBaseRPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRegionServer进行数据读写类操作Zookeeper ZookeeperQuorum存储 ROOT 表地址 HMaster地址HRegionServer把自己以Ephedral方式注册到Zookeeper中 HMaster随时感知各个HRegionServer的健康状况Zookeeper避免HMaster单点问题HMaster HMaster没有单点问题 HBase中可以启动多个HMaster 通过Zookeeper的MasterElection机制保证总有一个Master在运行主要负责Table和Region的管理工作 1管理用户对表的增删改查操作2管理HRegionServer的负载均衡 调整Region分布3RegionSplit后 负责新Region的分布4在HRegionServer停机后 负责失效HRegionServer上Region迁移 Table Region Table随着记录增多不断变大 会自动分裂成多份Splits 成为Regions一个region由 startkey endkey 表示不同region会被Master分配给相应的RegionServer进行管理 HregionServer ROOT META META 记录用户表的Region信息 同时 META 也可以有多region ROOT 记录 META 表的Region信息 但是 ROOT 只有一个regionZookeeper中记录了 ROOT 表的location客户端访问数据的流程 Client Zookeeper ROOT META 用户数据表多次网络操作 不过client端有cache缓存 HBase数据模型 RowKey Table主键 Table中记录按照RowKey排序Timestamp 每次对数据操作对应的时间戳 也即数据的versionnumberColumnFamily 列簇 一个table在水平方向有一个或者多个列簇 列簇可由任意多个Column组成 列簇支持动态扩展 无须预定义数量及类型 二进制存储 用户需自行进行类型转换 HbaseShell Hbaseshell Hbase与RDBMS 数据类型 Hbase只有简单的字符串类型 数据操作 Hbase只有很简单的插入 查询 删除 清空操作 没有复杂的表和表之间的关系 存储模式 Hbase是基于列式存储 每个列族由几个文件保存 不同列族的文件是分离的 数据维护 更新操作是替换版本 删除只是逻辑标记可伸缩性 参考资料 Lucene搜索结构 基于文档的搜索 Tika是一个内容抽取的工具集合 支持work ppt execl PDF等 大数据统计 Elasticsea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论