《Hadoop技术原理》课件-4.HDFS进阶_第1页
已阅读1页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop技术原理HDFS进阶HDFS工作原理01HDFS工作原理01数据上传过程HDFS工作原理02数据读取过程HDFS工作原理03HDFS的常见问题

HDFS具有较高的容错性,可以兼容廉价的硬件,它把硬件出错看作一种常态,而不是异常,并设计了相应的机制检测数据错误和进行自动恢复,主要包括以下几种情形:名称节点出错数据节点出错数据出错HDFS工作原理04HDFS的容错性NameNode出错:用SecondaryNameNode备份的fsimage恢复

HA(HighAvailability)高可用:多个NameNodeDataNode出错:DataNode与NameNode通过“心跳”报告状态,失效后会启动数据冗余复制。数据出错:采用md5和sha1对数据块进行校验。HDFS高级功能02HDFS高级功能01安全模式安全模式是HDFS所处的一种特殊状态,在处于这种状态时,文件系统只接受读数据请求,不能对文件进行写,删除等操作。查看当前状态:[root@single~]#hdfsdfsadmin-safemodeget进入安全模式:[root@single~]#hdfsdfsadmin-safemodeenter强制离开安全模式:[root@single~]#hdfsdfsadmin-safemodeleave一直等待直到安全模式结束:[root@single~]#hdfsdfsadmin-safemodewaitHDFS高级功能02回收站HDFS为每一个用户都创建了回收站,这个类似操作系统的回收站。位置是/user/用户名/.Trash/。Hadoop回收站trash,默认是关闭的,可以通过配置core-site.xml文件开启此功能。修改conf/core-site.xml,增加如下内容<property><name>erval</name><value>1440</value></property>HDFS高级功能03快照快照可以使某个损坏的目录或整个损坏的HDFS恢复到过去的一个数据正确的时间点。快照比较常见的应用场景是数据备份,以防止一些用户错误或灾难。快照功能默认禁用,开启或禁用快照功能,需要针对目录操作,命令如下(<snapshotDir>表示某个目录):hdfsdfsadmin-allowSnapshot<snapshotDir>hdfsdfsadmin-disallowSnapshot<snapshotDir>创建快照、删除快照、重命名快照的命令如下:hdfsdfs-createSnapshot<snapshotDir>[<snapshotName>]hdfsdfs-deleteSnapshot<snapshotDir><snapshotName>hdfsdfs-renameSnapshot<snapshotDir><oldName><newName>HDFS高级功能04HDFS

HA(高可用)NameNode是集群的主节点,有单点失效的问题。HDFS高级功能05HDFS

HA(高可用)配置两个NameNode,一个为活跃状态,一个为备用状态。故障时马上切换。HDFS高级功能06HDFS其他问题虽然HDFSHA解决了“单点故障”问题,但是在系统扩展性、整体性能和隔离性方面仍然存在问题:系统扩展性方面,元数据存储在NameNode内存中,受内存上限的制约。整体性能方面,吞吐量受单个NameNode的影响。隔离性方面,一个程序可能会影响其他运行的程序,如一个程序消耗过多资源导致其他程序无法顺利运行。HDFSHA本质上还是单名称节点。HDFS高级功能07联邦Federation12341000个座位示例:如果只有1个门,压力大多增加3个门。约定小学生只能从1,中学生只能从2,高中生只能从3,大学生只能从4进来。如果门4关了,大学生这些人进不来了。D盘4个目录,4个名称空间,A/B/C/D共享空间一旦对应的名称空间没有了,下面的文件就找不到了。HDFS高级功能08联邦FederationHDFS的Federation指的是HDFS有多个NameNode或NameSpace,这些NameNode或NameSpace是联合的,它们相互独立且不需要互相协调,各自分工,管理自己的区域。每个NameNode或NameSpace有自己的池(pool),池与池之间独立的。一个namenode挂掉了,不会影响其他namenode。但所有的池(pool)都是共享一个HDFS的存储空间。缺点:每个NN都还是存在单点故障问题的。HDFS高级功能09联邦Federation一个NameSpace和它的BlockPool作为一个管理单元。当一个Namenode或NameSpace被删除,对应于DataNodes中的数据块池也会被删除。在集群的升级过程中,每个管理单元都是以一个整体进行升级的。这里引入ClusterID来标识集群中的所有节点。当一个NameNode格式化后,这个ClusterID会生成,格式化其他NameNode时如果指定这个ClusterID,则可以使其加入到同一个集群中。HDFS高级功能10联邦Federation采用Federation的最主要的原因是简单,Federation能够快速的解决大部分单Namenode的问题。

主要优点:NameSpace具体可扩展性支持多个namenode水平扩展整个文件系统的namespace。原来只有DataNode可以水平扩展,现在NameNode也可以水平扩展,这样减轻了单个NameNode的内存和服务压力性能提升多个NameNode可以提高读写时的数据吞吐量。隔离性可按照应用程序的用户和种类隔离不同类型的程序,一定程度上可控制资源的分配。HDFS高级功能11ClusterID简介HDFS的集群ID,是唯一的clusterID存储在哪里namenode的clusterID存储位置/usr/local/src/hadoop/data/namenode/current/VERSIONdatanode的clusterID存储位置/usr/local/src/hadoop/data/datanode/current/VERSION对比namenode和datanode的clusterID

namenode:clusterID=CID-016ffd53-767b-486b-9c26-5aea4bfb1f6b

datanode:clusterID=CID-016ffd53-767b-486b-9c26-5aea4bfb1f6bHDFS高级功能12ClusterID注意事项由于clusterID不一致,会导致datanode进程无法启动,并且它不会报错格式化之后的namenode的clusterID,如下:

clusterID=CID-a5c4f753-6355-46f6-9a07-3c3ca3849eeddatanode的clusterID,如下:

clusterID=CID-016ffd53-767b-486b-9c26-5aea4bfb1f6b解决方案:复制namenode的clusterID,然后粘贴覆盖掉datanode

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论