大数据应用技术介绍_第1页
大数据应用技术介绍_第2页
大数据应用技术介绍_第3页
大数据应用技术介绍_第4页
大数据应用技术介绍_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据应用技术介绍2月第1页Hadoop生态系统第2页Hadoop生态系统Sub Project描述common分布式文件系统和通用I/O组件与接口(序列化,Java RPC和持久化数据结构)Avro支持高效跨语言RPC和持久数据存放序列化系统MapReduce分布式数据处理模型和执行环境,运行在大型商用机集群HDFS分布式文件系统,用于大型商用机集群PIGPig是SQL-like语言,是在MapReduce上构建一个高级查询语言,把一些运算编译进MapReduce模型Map和Reduce中,而且用户能够定义自己功效。Hive分布式、按列存放数据仓库。Hive管理HDFS中存放数据,并提供基于

2、SQL查询语言(由运行时引擎翻译成MapReduce作业)Hbase分布式、按列存放数据库。HBase使用HDFS作为底层存放,同时支持MapReduce批量式计算和点查询(随机读取)ZooKeeper分布式、可用性高协调服务。提供类似分布式锁基础服务。Sqoop在数据库和HDFS之间高效传输数据工具Flume分布式、可靠、和高可用海量日志聚合系统。ChukwaChukwa是基于Hadoop大集群监控系统,由yahoo贡献。第3页Hadoop介绍HDFSMapReduce第4页HDFS 特点存储大文件百兆以上级别文件百万级文件由于亿级别文件流式处理数据一次写多次多模式支持追加操作廉价的硬件环境

3、普通pc server组成集群环境第5页HDFS缺点低延时读操作高吞吐量而非低延时Hbase 解决了这个问题大量小数据文件最好每个文件大于100M多次写只支持一次写只支持在文件尾部添加,不支持随机写第6页HDFS 布署结构第7页HDFS 读写过程第8页MapReduce 布署结构JobTracker管理集群资源和Job调度TaskTracker管理Task运行第9页MapReduce 计算模型Inputk1, v1Mapk2, v2Reducek3, v3Output第10页MapReduce 扩展接口InputFormatMapperPartitionerReducerOutputForma

4、t第11页Map第12页Reduce第13页MapReduce实例第14页MapReduce内部结构第15页Hadoop 2.0引入一个新资源管理系统YARNHDFS单点故障得以处理HDFS FederationHDFS 快照经过NFS访问HDFS支持Window系统第16页Hadoop1 VS Hadoop2第17页集群资源管理Hadoop介绍第18页Yarn 运行原理图第19页Hbase介绍1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存放集群第20页Hbase体系结构第21页HBase 系统架构图第22页HBase部件说明Client:使用HBa

5、se RPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRegionServer进行数据读写类操作Zookeeper:Zookeeper Quorum存放-ROOT-表地址、HMaster地址HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer健康情况Zookeeper防止HMaster单点问题HMaster:HMaster没有单点问题,HBase中能够开启多个HMaster,经过ZookeeperMaster Election机制确保

6、总有一个Master在运行主要负责Table和Region管理工作:1 管理用户对表增删改查操作2 管理HRegionServer负载均衡,调整Region分布3 Region Split后,负责新Region分布4 在HRegionServer停机后,负责失效HRegionServer上Region迁移第23页Table&RegionTable伴随统计增多不停变大,会自动分裂成多份Splits,成为Regions一个region由startkey,endkey)表示不一样region会被Master分配给对应RegionServer进行管理第24页HregionServer第25页-ROOT

7、- & .META.META. 统计用户表Region信息,同时,.META.也能够有多region-ROOT- 统计.META.表Region信息,不过,-ROOT-只有一个regionZookeeper中统计了-ROOT-表location客户端访问数据流程:Client - Zookeeper - -ROOT- - .META. - 用户数据表屡次网络操作,不过client端有cache缓存第26页HBase 数据模型Row Key: Table主键,Table中统计按照Row Key排序Timestamp: 每次对数据操作对应时间戳,也即数据version numberColumn F

8、amily: 列簇,一个table在水平方向有一个或者多个列簇,列簇可由任 意多个Column组成,列簇支持动态扩展,无须预定义数量及 类型,二进制存放,用户需自行进行类型转换第27页Hbase Shell第28页Hbase shell第29页Hbase与RDBMS数据类型:Hbase只有简单字符串类型。数据操作:Hbase只有很简单插入、查询、删除、清空操作,没有复杂表和表之间关系。存放模式:Hbase是基于列式存放,每个列族由几个文件保留,不一样列族文件是分离。数据维护:更新操作是替换版本,删除只是逻辑标识可伸缩性:第30页参考资料第31页Lucene搜索结构第32页基于文档搜索Tika是一个内容抽取工具集合。支持work,ppt,execl,PDF等第33页大数据统计Elasticsearch:开源分布式实时搜索系统,结合Hbase实现海量数据存放和检索,同时提供索引数据统计功效,满足海量数据实时统计要求。ya主要功能特点real timedistributedhigh availabilitydocument orientedschema freerestf

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论