hadoop大数据就业课程课件代码二_第1页
hadoop大数据就业课程课件代码二_第2页
hadoop大数据就业课程课件代码二_第3页
hadoop大数据就业课程课件代码二_第4页
hadoop大数据就业课程课件代码二_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、深入浅出Hadoop, Hbase&Storm(新版)讲师:明义深入hdfsNameNode和DataNodeHDFS Federation (Hadoop2)NameNode HA (Hadoop2)NameNode和DataNodeHDFS架构以及后台进程介绍HDFS文件读写流程FSImage和EditLogRack AwarenessHDFS管理常用管理命令Offline Image/Edits Viewer添加和删除节点升级和回滚(balaner)HDFS架构HDFS的后台服务(进程)读文件的过程1, 使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求;

2、2, Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会返回有该block拷贝的DataNode地址;3, 客户端开发库Client会选取离客户端最接近的DataNode来读取block;如果客户端本身就是DataNode,那么将从本地直接获取数据.4, 读取完当前block的数据后,关闭与当前的DataNode连接,并为读取下一个block寻找最佳的DataNode;5, 当读完列表的block后,且文件读取还没有结束,客户端开发库会继续向Namenode获取下一批的block列表。6, 读取完一个block都会进行checksum验证,如

3、果读取datanode时出现错误,客户端会通知Namenode,然后再从下一个拥有该block拷贝的datanode继续读文件的过程写文件的过程1, 使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求;2, Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3, 当客户端开始写入文件的时候,开发库会将文件切分成多个packets,并在内部以数据队列data queue的形式管理这些packets,并向Namenode申请新的blocks,获取用来存储replicas的合适的datanod

4、es列表,列表的大小根据在Namenode中对replication的设置而定。4, 开始以pipeline(管道)的形式将packet写入所有的replicas中。开发库把packet以流的方式写入第一个datanode,该datanode把该packet存储之后,再将其传递给在此pipeline中的下一个datanode,直到最后一个datanode,这种写数据的方式呈流水线的形式。5, 最后一个datanode成功存储之后会返回一个ack packet,在pipeline里传递至客户端,在客户端的开发库内部维护着ack queue,成功收到datanode返回的ack packet后会从

5、ack queue移除相应的packet。6, 如果传输过程中,有某个datanode出现了故障,那么当前的pipeline会被关闭,出现故障的datanode会从当前的pipeline中移除,剩余的block会继续剩下的datanode中继续以pipeline的形式传输,同时Namenode会分配一个新的datanode,保持replicas设定的数量。写文件的过程FSImage和EditLogFSImage和EditLog所有metadata都会在namenode的内存中保存,用来快速访问对于写操作,namenode首先写入内存和EditLog(append),然后返回客户段Seconda

6、ry namenode会定期合并FSImage和EditLog并且将新的namenode发回给namenodeHDFS在启动的时候,namenode会合并FSImage和EditLogFSImage和EditLogRack Awareness第一个block副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是随机选取的,系统会尝试不选择哪些太满或者太忙的node)。第二个副本放置在与第一个节点不同的机架中的node中(随机选择)。第三个副本和第二个在同一个机架,随机放在不同的node中。Rack Awareness策略常用管理命令Offline Image/Edits Viewer添加和删除节点升级和回滚HDFS管理hadoop-daem

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论