第2周1hdfs应用场景、部署原理与基本架构_第1页
已阅读1页,还剩32页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、HDFS应用场景、部署、原理与基本架构讲师:OpenPasValue目录HDFS的定义与特色HDFS的架构HDFS的工作原理HDFS如何与其他系统结合HDFS 2.0总结2HDFS基本file1file2file3file2file1Serverfile1 Serverfile2Server(10 * 1TB)Server(10 * 1TB)(10 * 1TB)(10 * 1TB)file4e3file4file3file43filfile1:node1,node2,node3 file2:node2,node3,node4 file3:node4,mode5,node6 file4:node

2、5,node6.node7.file1file20.5 TB1.2 TBfile3file450 GB100 GB以文件为基本难以实现负载均衡文件大小不同,负载均衡不易实现用户自己控制文件大小难以并行化处理只能利用一个节点资源处理一个文件无法动用集群资源处理同一个文件4HDFS基本file350 GB64MB64MB64MB64MBblock3block1block2Server(10 TB)Server(10 TB)Server(10 TB)Server(10 TB)5block3block4block4block3block4block1block2block1block2block3bl

3、ock1block2block1:node1,node2,node3 block2:node2,node3,node4 block3:node4,mode5,node6 block4:node5,node6.node7.HDFS的定义源自于的GFS于2003年10月HDFS是GFS克隆版Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务6HDFS的特色优点高容错性数据自动保存多个副本副本丢失后,自动恢复适合批处理移动计算而非数据数据位置给计算框架适合大数据处理GB、TB、甚至PB级数据百

4、万规模以上的文件数量10K+节点规模7HDFS的特色优点流式文件写入,多次保证数据一致性可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制8HDFS的特色不擅长的方面低延迟数据比如毫秒级低延迟与高吞吐率小文件存取占用NameNode大量内存寻道时间超过时间并发写入、文件随机修改一个文件只能有一个写者仅支持append9目录HDFS的定义与特色HDFS的架构HDFS的工作原理HDFS如何与其他系统结合HDFS 2.0总结10HDFS的架构11HDFS的架构12NamenodeMaster管理HDFS的名称空间管理数据块信息配置副本策略处理客户端读写请求DatanodeSlave实际的数据

5、块执行数据块读/写HDFS的架构13Cnt文件切分与NameNode交互,获取文件位置信息;与DataNode交互,读取或者写入数据;管理HDFS;HDFS。Secondary NameNode并非NameNode的热备;辅助NameNode,分担其工作量;定期合并fsimage和 fsedits,推送给 NameNode;在紧急情况下,可辅助恢复NameNode。fsimage与edits文件NameNode两个重要文件fsimage:元数据镜像文件(保存文件系统的目录树)edits:元数据操作日志(针对目录树的修改操作)元数据镜像内存中保存一份的内存中的镜像=fsiamge+edits定期

6、合并fsiamge与editsEdits文件过大将导致NameNode重启速度慢Secondary Namenode负责定期合并它们14fsimage与edits文件cnt通过http创建文件/home/dongNameNodeSecondary NameNode15get获取文件editsfsimage将fsimage加载到内存,并重做edits,生成新的fsimagefsimage.ckpteditsfsimage创建新的editsedits.newfsimage.ckpt重命名重命名editsfsimageFSDirectory数据块关系数据块关系文件与数据块关系DataNode与数据块

7、关系保存关系占用较多内存NameNode启动时,可通过心跳信息重构DataNode运行过程中定时汇报当前block信息关系NameNode重启速度慢合并fsimage与edits文件,生成接收DataNode的块信息的目录树16Block(数据块)文件被切分成固定大小的数据块默认数据块大小为64MB可配置为何数据块如此之大数据传输时间超过寻道时间(高吞吐率)一个文件方式按大小被切分成若干个block,默认情况下每个block有三个副本到不同节点上17目录HDFS的定义与特色HDFS的架构HDFS的工作原理HDFS如何与其他系统结合HDFS 2.0总结18HDFS文件写入流程19HDFS文件流水

8、线写入20HDFS文件流程21HDFS物理网络环境同一个机架内任意两个节点间共享 1Gbps带宽机架间带宽为2-10Gbps每个机架通常有16-64个节点22HDFS副本放置策略Hadoop 0.17之前 副本1 : 同机架的不同节点副本2 : 同机架的另一个节点副本3: 不同机架另一个节点其他副本: 随机挑选Hadoop 0.17 之后副本1: 同Cnt的节点上副本2: 不同机架中的节点上副本3: 同第二个副本的机架中的另一个节点上其他副本:随机挑选RackARackB23HDFS可靠性机制常见的三种错误情况文件完整性CRC32校验用其他副本取代损坏文件HeartbeatDatanode 定

9、期向Namenode送heartbeat元数据信息FSImage(文件系统镜像)、Editlog(操作日志) 多份动还原,当NameNode坏当后可以手文件损坏网络或者机器失效NameNode挂掉目录HDFS的定义与特色HDFS的架构HDFS的工作原理HDFS如何与其他系统结合HDFS 2.0总结25HDFS与MapReduce结合MapReduce作业的输入数据来自HDFSHDFS分块数据默认每个Map Task处理一个数据块MapReduce作业的最终结果写入HDFS确保数据安全可靠可作为下一个作业的输入MapReduce与HDFS关系低耦合,MapReduce可以与其他分布式文件系统结合;HDFS之上可以是其他计算框架26HDFS与Hbase结合Hbase中的文件操作日志文件WAL数据索引文件HFile(storefile)HDFS为Hbase提供可靠的数据存放服务数据三副本,安全可靠HDFS为Hbase提供数据共享服务Hbase不同服务可从HDFS上存取数据27目录HDFS的定义与特色HDFS的架构HDFS的工作原理HDFS如何与其他系统结合HDFS 2.0总结28HDFS 2.0NameNode HA基于NFS共享解决方案基于Bookeeper解决方案基于Qurom Journal Manager(QJM)解决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论