Hadoop基础知识培训.ppt_第1页
Hadoop基础知识培训.ppt_第2页
Hadoop基础知识培训.ppt_第3页
Hadoop基础知识培训.ppt_第4页
Hadoop基础知识培训.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Hadoop基础知识培训 江西电信大数据支撑团队 2014年中国电信大数据技术与应用培训 PDFcreatedwithpdfFactoryP 2企业信息化部 PDFcreatedwithpdfFactoryP 把信息化打造成为中国电信企业核心竞争力之一 主要内容 第一篇Hadoop综述 第二篇HDFS分布式文件系统第三篇MapReduce分布式计算框架 第四篇常用Hadoop组件介绍 3企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 第一篇Hadoop综述 什么是Hadoop Hadoop生态系统 Hadoop的厂商 Hadoop的部署 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Hadoop是什么 Hadoop是Apache基金会下的一个开源分布式计算平台 以分布式文件系统 HDFS 和分布式计算框架 MapReduce 为核心 为用户提供了底层细节透明的分布式基础设施 yHDFS的高容错性 高伸缩性等优点 允许用户将Hadoop部署在廉价的硬件上 构建分布式系统 yMapReduce分布式计算框架允许用户在不了解分布式底层细节的情况下开发并行 分布的应用程序 利用大规模计算资源 解决传统高性能单机无法解决的大数据处理问题HadoopNutchLucene 高性能全文索引工具包 高性能搜索引擎工具包 版本演进 对应Cloudera公司的CDH3u5 对应Cloudera公司的CDH4 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Hadoop的特点 Hadoop运用于海量数据处理 主要有如下几个优势 方便Hadoop可以运行在一般商业机器 X86服务器 构成的大型集群上弹性Hadoop通过增加集群节点 可以线性扩展以处理更大的数据集 同时在负载下降时 也可减少节点 以便高效使用资源 健壮Hadoop设计之初 将故障检测和自动恢复作为设计目标 可以从容处理通用计算平台上出现的硬件失效情况 简单Hadoop允许用户快速编写出高效的并行分布式代码 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 HADOOP生态系统 y经过几年的快速发展 Hadoop现在已经发展成为包含多个相关项目的软件生态系统 成为大数据处理技术的事实标准 目前典型的Hadoop生态系统如下所示 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 发展目标 HADOOP生态系统 1 实时应用场景 0 5s Storm S4等 2 交互式场景 5s 1m 这种场景通常能要求必须支持SQL 则可行系统有 ClouderaImpala ApacheDrill Shark等 3 非交互式场景 1m 1h 通常运行时间较长 处理数据量较大 对容错性和扩展性要求较高 可行系统有 MapReduce Hive Pig Stinger等 4 批处理场景 1h 通常运行时间很长 处理数据量很大 对容错性和扩展性要求很高 可行系统有 MapReduce Hive Pig Stinger等 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 HADOOP厂商 Hadoop处于近时间的大数据革命的风暴眼 在Hadoop取得成功的同时也促使主流市场对其稳定性 成熟的管理 丰富的SQL环境等提出更高要求 于是Hadoop厂商通过技术创新各显神通 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 物理上的Hadoop集群 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 逻辑部署的Hadoop集群 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 简介 江西电信Hadoop批处理平台共由62台PC服务器构成 形成物理上独立的3个RACK 按照功能角色分组 主控节点 数据节点 Hive接入节点 元数据节点 监控告警节点和ETL节点 主控节点6台 2台Namenode 1台Jobtracker 3台Zookeeper 数据节点56台 江西电信物理部署的Hadoop集群 PDFcreatedwithpdfFactoryP 12企业信息化部 PDFcreatedwithpdfFactoryP 把信息化打造成为中国电信企业核心竞争力之一 第二篇HDFS 一 HDFS简介二 HDFS架构三 漫画HDFS之读写机制四 漫画HDFS之容错性五 漫画HDFS之复制策略 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 1HDFS简介 HDFS HADOOPDISTRIBUTEDFILESYSTEM 是一个分布式文件系统 它是谷歌的GFS提出之后出现的一种用户级文件系统 有一定的容错性 能提供高吞吐量的数据访问 适合大规模数据集上的应用 HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 2HDFS架构 Block 大文件的存储会被分割为多个block进行存储 默认64MB 每一个blok会在多个datanode上存储多份副本 默认3份 基本概念 Namenode 主要负责存储一些metadata信息 主要包括文件目录 block和文件对应关系 以及block和datanote的对应关系 Datanode 负责存储数据 数据以block的形式存在 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 3HDFS之漫画读写 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 3HDFS之漫画读写 续 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 3HDFS之漫画读写 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 3HDFS之漫画读写 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 4HDFS之漫画容错 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 4HDFS之漫画容错 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 4HDFS之漫画容错 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 4HDFS之漫画容错 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 5HDFS之漫画复制策略 PDFcreatedwithpdfFactoryP 24企业信息化部 PDFcreatedwithpdfFactoryP 把信息化打造成为中国电信企业核心竞争力之一 第二篇MapReduce 一 MapReduce基础二 MapReduce优劣三 MapReduce工作原理 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 1MapReduce基础 MapReduce是一种编程模型 用于大规模数据集的并行计算 核心操作由 Map 映射 和 Reduce 归约 组成 极大地方便了编程人员在不会分布式并行编程的情况下 将自己的程序运行在分布式系统上 典型的MapReduce过程可以细分为Input Split Mappers Shuffle Partition Sort Reducers和Output等阶段 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 1MapReduce示例 1 输入端根据输入文本大小进行切片形成适合Map处理的数据片 2 分片后的数据申请Map资源 执行本地单词映射操作 3 通过交换将map生成的结果按照单词进行归并重组 4 重组后的结果 申请Reduce资源 进行单词的合并统计 5 对Reduce的结果进行记录合并生成输出文件 MapReduce过程示例 对输入的文本进行单词统计 对输入的文本进行单词统计 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 2MapReduce执行过程 从MapReduce在整个Hadoop框架的位置可以看出作为Hadoop最成熟的批处理框架 MapReduce起到承上启下的作用 一方面可以操作HDFS中的数据 另一方面可以被封装 提供Hive Pig这样的上层组件的调用 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 MapReduce优劣 MapReduce的缺点 通过MapReduce这个分布式处理框架 不仅能用于处理大规模数据 而且能将很多繁琐的细节隐藏起来 比如 自动并行化 负载均衡和灾备管理等 这样将极大地简化开发者工作 MapReduce的伸缩性非常好 也就是说 每增加一台服务器 其就能将差不多的计算能力接入到集群中 而过去的大多数分布式处理框架 在伸缩性方面都与MapReduce相差甚远 MapReduce的缺点 MapReduce最大的不足则在于 其不适应实时应用的需求 目前还无法满足用户交互式的需求 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 3MapReduce YARN PDFcreatedwithpdfFactoryP 30企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 第四篇Hadoop常用组件简介 Hadoop常用组件 Hbase简介 Hadoop常用组件 Hive简介 Hadoop常用组件 Pig简介 Hadoop常用组件 Zookeeper简介 Hadoop常用组件 Sqoop简介 Hadoop常用组件 Hue简介 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 1Hbase简介 HBase是一个分布式的 多版本的 面向列的开源数据库 利用HadoopHDFS作为其文件存储系统 提供高可靠性 高性能 列存储 可伸缩 实时读写的数据库系统利用HadoopMapReduce来处理HBase中的海量数据利用Zookeeper作为协同服务 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 HBase简介 续 大 一个表可以有上亿行 上百万列 面向列 面向列 族 的存储和权限控制 列 族 独立检索 稀疏 对于为空的列 并不占用存储空间 因此 表可以设计的非常稀疏 多版本 每条记录中的数据可以有多个版本 无类型 存在HBase中的数据都是字符串 无其他类型 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 HBase与RDBMS对比 Hbase的优点y1列的可以动态增加 并且列为空就不存储数据 节省存储空间 y2可以自动切分数据 使得数据存储自动具有水平扩展 y3可以提供高并发读写操作的支持Hbase的潜在缺点y1不能支持条件查询 只支持按照Rowkey来查询y2暂时不能支持Masterserver的故障切换 当Master宕机后 整个存储系统就会挂掉 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 2HBase体系结构 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Hbase应用场景 成熟的数据分析主题 业务场景简单 不需要关系数据库中很多特性 查询模式已经确定并且不易改变 传统的关系型数据库已经无法承受负荷 高速插入 有大量读取清单的需求 并且有快速随机访问的需求适合海量的 但是同时也是简单的操作 具备低延时的数据返回 比如说key value的操作 是生产环境对外访问可行的方式 海量数据存储的驱使 具备动态扩展系统容量的需求 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Hadoop常用组件 Hive简介 Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表 并提供完整的类sql查询功能 可以将类sql语句转换为MapReduce任务进行运行 其优点是学习成本低 可以通过类SQL语句快速实现简单的MapReduce统计 不必开发专门的MapReduce应用 十分适合数据仓库的统计分析 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 当前数据分析方法 百万级 千万级 亿万级以上 Unix Linux工具awk grep sort join等RDBMS 如MysqlPerl python java等 RDBMS 如Mysql MongodbOracle DB2等 分布式 OracleRAC GreenplumHadoop 开源免费 MPP 主要基于单机计算 基于集群并行计算 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 HIVEVSSQL 数据存储HDFS HBaseRawDevice LoaclFS数据格式用户自定义系统决定数据更新不支持 覆盖之前数据 支持索引有 0 8版本新增 有执行MapReduceExecutor执行延迟高低可扩展性高 UDF UDAF UDTF 低数据规模大 数据大于TB 小数据检查读时模式写时模式 列分隔符 通常为空格 t x001 行分隔符 n 随时间变化的如MYSQL MyISAM InnoDB MEMORY SQL 需要经常进行修改的 面向用户的数据添加数据 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Pig是Hadoop上层的衍生架构 对比Hive 一种声明式的语言 Pig是一种过程语言 类似于存储过程一步一步的对数据进行转化Pig对MapReduce算法实现了一套shell 类似SQL语句 在Pig中称为PigLatin 可以对数据进行排序 过滤 求和 分组 groupby 关联 Joining 等操作Pig也可以由用户自定义一些函数对数据集进行操作 也就是传说中的UDF user definedfunctions Hadoop常用组件 Pig简介 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 PDFcreatedwithpdfFactoryP Pig和Hive的对比 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 Pig的设计哲学 Pig语言可以操纵各种类型的数据 无论数据是否是元数据 是否结构化 都没有问题 甚至可以扩展到对键 值数据的操作 Pigseatanything Pig设计是独立成体系的 可以在Hadoop上的HDFS上实现运行 也可以在其它的文件系统运行 Pigliveanywhere Pig可以快速的处理数据 今后对pig的持续改进 将不会让它为了实现某种功能而降低性能 目的就是为了让Pig可以自由的飞翔 Pigsfly Pig被设计为易于操作和修改 用户可以自己定义函数实现很多数据操作的功能 为了更好的让数据操作函数共享 pig发起了一个全球的pigbank的计划 上面会有全球pig开发工程师共享的数据操作函数 这些函数可以免费共享和使用 Pigsaredomesticanimals Pig什么都能吃 Pig哪儿都能活 Pig哪儿都能养 让pig飞翔 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 ZooKeeper是一个针对大型分布式系统的可靠协调系统 提供的功能包括 配置维护 名字服务 分布式同步 组服务等 ZooKeeper的目标就是封装好复杂易出错的关键服务 将简单易用的接口和性能高效 功能稳定的系统提供给用户 Hadoop常用组件 ZooKeeper简介 PDFcreatedwithpdfFactoryP 企业信息化部 把信息化打造成为中国电信企业核心竞争力之一 sqoop主要用来在Hadoop和关系数据库中传递数据 通过sqoop 我们可以方便的将数据从关系数据库导入到HDFS 或者将数据从HDFS导出到关系数据库 Hadoop常用组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论