大数据技术基础及应用（微课版）课件第4章 HDFS分布式文件系统

上传人：y*** IP属地：山东上传时间：2025-12-06 格式：PPTX 页数：54 大小：5.25MB 积分：20 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章HDFS分布式文件系统前言本章主要讲述HDFS分布式文件系统的基本技术原理单击此处添加标题通过学习本节将能够学习HDFS分布式文件系统架构原理。01本节概述HDFS技术介绍HDFS架构设计HDFS数据保护机制熟悉华为云服务中OBS产品HDFS数据组织HDFS数据存储策略02学习目标目录01HDFS技术介绍02HDFS架构设计03HDFS数据保护机制04HDFS数据组织05HDFS数据存储策略文件系统相关介绍文件名:在文件系统中,文件名是用于定位存储位置。0201文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对数据访问和查找变得容易。数据块(Block):存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。0403元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。元数据（补充）1.文件和目录自身的属性信息,

例如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等。2.记录文件内容存储相关信息,

例如文件分块情况、副本个数、每个副本所在的DataNode信息等。3.用于记录HDFS中所有DataNode的信息,

实现对DataNode的管理。从类型上讲,元数据有三类重要信息:1.NameNode的本地磁盘文件:元数据镜像文件(fsimage):保存文件系统的完整元数据快照。元数据操作日志文件(edits):记录所有对文件系统的修改操作。2.DataNode的上报信息:DataNode定期向NameNode汇报自身存储的block信息及状态。从来源上讲,元数据主要来源于以下两部分:文件系统相关介绍文件系统相关介绍分布式文件系统分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。目前的分布式文件系统所采用的计算机集群都是普通硬件构成,这大大降低了硬件开销。定义:分布式文件系统(DistributedFileSystem)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。HDFS简介HDFS（HadoopDistributedFileSystem）是运行在通用硬件（所谓通用硬件就是指软件对于底层的硬件平台的配置和设备没有需求，可以随意搭建并且兼容）上的分布式文件系统。HDFS简介

流式数据：

又称为流数据，是一组

顺序、大量、快速、连续到

达的数据序列。HDFS支持的主要是大文件流数据,对于离散的小文件支持性较弱,尤其是对延迟比较敏感的应用,由于HDFS要支持高吞吐量,所以势必要以牺牲延迟作为代价。HDFS适合做什么?

大文件存储、流式数据访问HDFS不适合做什么?

大量小文件、随机写入、低延迟读取问题:HDFS简介系统设计目标1HDFS简介系统设计目标2作业点评1、30人提交，14人未交2、本地机向虚拟机传送软件，放置目录不对/root，应该为/opt。3

、网络配置问题。4、对mkdir,cd，ls，vi等命令使用不熟悉，命令与路径之间要空格5、很多同学没有安装完成Hadoop软件。HDFS应用场景HDFS是Hadoop技术框架中的分布式文件系统,对部署在多台独立物理机器上的文件进行管理。HDFS可应用于以下几种场景:公安、政府部门、事业单位数据网站用户行为数据存储气象数据存储目录01HDFS技术介绍02HDFS架构设计03HDFS数据保护机制04HDFS数据组织05HDFS数据存储策略HDFS组件构成——HDFS在FusionInsight产品的位置HDFS组件构成

在大数据的组件架构中，HDFS提供的是整个结构最底层的文件存储功能，它组织了文件形式，将数据切分为数据块存储起来，并且记载和维护元数据。HDFS分为三个组件：Namenode，Datanode，ClientNameNodeNamenode用于存储生成元数据。

该进程是由HDFS调入到内存中运行的。NameNode作为元数据的维护进程,为了能够提升整体读取的效率,将元数据的维护进程搭载在内存中进行运行,但是内存中的数据是易失的,只能用于元数据的使用,所以元数据还是需要在DataNode中进行存储。

当系统启动之后,服务器会拉起HDFS进程,然后NameNode加载到内存中,然后NameNode会加载元数据镜像文件到自身内存中。

Datanode用于存储实际的数据，每个Datanode会将自己维护的数据块信息上报到Namenode，运行多个实例。

HDFS默认最小的存储空间为block，每个block默认的大小为128MB。DataNode除了需要维护数据之外，还需要留有一部分的空间用于存储元数据镜像文件Fsimage。

如果NameNode和DataNode是部署在一起的，那么Fsimage就在DataNode上，其实相当于是在服务器的存储介质上。

如果NameNode和DataNode是分开部署的，那么就相当于Fsimage是存储在部署NameNode的服务器上的。如图所示：DataNodeClient

支持业务访问HDFS,并从Namenode和Datanode中获取数据,返回给用户。多个业务和实例一起运行。

这里所说的Client并不是指实际的用户应用,而是HDFS本身自带的进程,通过该进程可以访问HDFS。相当于HDFS是一间房,Client提供了进入的门,Client提供的接口主要有JDBC和ODBC接口。HDFS技术介绍HDFS架构设计HDFS数据保护机制HDFS数据组织HDFS数据存储策略HDFS的高可靠性（HA）架构在基本架构上增加了以下组件：ZooKeeper分布式协调，主要用来存储HA下的状态文件，主备信息。ZK个数建议3个及以上且为奇数个。NameNode主备NameNode主备模式，主提供服务，备合并元数据并作为主的热备。ZKFCZKFC(ZooKeeperFailoverController)用于控制NameNode节点的主备状态。JNJN(JournalNode)用于共享存储NameNode生成的Editlog。HDFS高可靠性（HA）HDFS高可靠性（HA）第四周作业点评1、30人提交，13人未交2、提交的同学有一部分同学是没做完的数据副本机制第一个副本在本地机器第二个副本在远端机架的节点第三个选择和第一个副本相同机架的不同节点第四个及以上,随机选择副本存放位置。副本放置策略:Distance(Rack1/D1,Rack1/D1)=0同一台服务器的距离为0Distance(Rack1/D1,Rack1/D3)=2同一机架不同的服务器距离为2Distance(Rack1/D1,Rack2/D1)=4不同机架的服务器距离为4副本距离计算公式:元数据持久化元数据持久化健壮机制HDFS技术介绍HDFS架构设计HDFS数据保护机制HDFS数据组织HDFS数据存储策略HDFS数据写流程HDFS数据写流程HDFS数据写流程HDFS数据读流程HDFS数据读流程HDFS数据读流程提交情况:34人提交,10人未交,满分7人未做完要求的所有实验部分指令不熟悉部分同学态度不端正存在问题:第五周课后

作业点评HDFS技术介绍HDFS架构设计HDFS数据保护机制HDFS数据组织HDFS数据存储策略配置HDFS数据存储策略01默认情况下,HDFSNameNode自动选择DataNode保存数据的副本。02DataNode上存在不同的存储设备,

数据需要选择一个合适的存储设备分级存储数据。DataNode不同目录中的数据重要程度不同,数据需要根据目录标签选择一个合适的DataNode节点保存DataNode集群使用了异构服务器,关键数据需要保存在具有高度可靠性的节点组中。在实际业务中,存在以下场景:一、配置HDFS数据存储策略-分级存储HDFS的异构分级存储框架提供以下四种存储介质RAM_DISK(内存虚拟硬盘)DISK(机械硬盘)ARCHIVE(高密度低成本存储介质)SSD(固态硬盘)四种存储类型的存储设备配置DataNode使用分级存储:01配置HDFS数据存储策略-分级存储策略ID名称Block放置位置（副本数）备选存储策略副本的备选存储策略15LAZY_PERSISTRAM_DISK:1,DISK:n-1DISKDISK12All_SSDSSD:nDISKDISK10ONE_SSDSSD:1,DISK:n-1SSD,DISKSSD,DISK7HOT(default)DISK:n<none>ARCHIVE5WARMDISK:1,ARCHIVE:n-1ARCHIVE,DISKARCHIVE,DISK2COLDARCHIVE:n<none><none>通过对四种存储类型进行合理组合,即可形成适用于不同场景的存储策略。1.标签存储概念？HDFS的标签存储（StoragePolicy），可以理解为给数据贴“标签”，告诉HDFS这些数据应该存在哪里（比如放内存、SSD、机械硬盘，还是归档存储），即智能存储数据。类似在家里整理东西：二、配置HDFS数据存储策略-标签存储

2.为什么要用标签存储？二、配置HDFS数据存储策略-标签存储

应用场景：3.配置DataNode使用标签存储用户通过数据特征灵活配置HDFS数据块存放策略：二、配置HDFS数据存储策略-标签存储

为一个HDFS目录设置一个标签表达式，每个DataNode可以对应一个或多个标签；当基于标签的数据块存放策略为指定目录下的文件选择DataNode节点进行存放时，根据文件的标签表达式选择出将要存放的DataNode节点范围；在这个DataNode节点范围内，遵守下一个指定的数据块存放策略进行存放。二、配置HDFS数据存储策略-标签存储

三、配置HDFS数据存储策略-节点组存储三、配置HDFS数据存储策略-节点组存储3.配置DataNode使用节点组存储：关键数据根据实际业务需要保存在具有高度可靠性的节点中，此时DataNode组成了异构集群。通过修改DataNode的存储策略，系统可以将数据强制保存在指定的节点组中。使用约束：第一份副本将从强制机架组（机架组2）中选出，如果在强制机架组中没有可用节点，则写入失败。第二份副本将从本地客户端机器或机架组中的随机节点中(当客户端机器机架组不为强制机架组时)选出。第三份副本将从其他机架组中选出。各副本应存放在不同的机架组中。如果所需副本的数量大于可用的机架组数量，则会将多出的副本存放在随机机架组中。三、配置HDFS数据存储策略-节点组存储Colocation同分布同分布的概念很类似于存储当中的一致性组的概念，由于针对某一些业务需要保证数据的一致性。同分布的概念就是指，针对某一些在业务上有关联性的数据，要尽可能的将这些数据分布到同一个节点和机架上，这样保证在进行数据的读取或者写入的时候，可以尽快的访问到目标数据，而且针对数据的可靠性也会随之提升。Colocation同分布

请简述HDFS为什么不适合存储小文件？请简述NameNode的主要作用？请简述HDFS的HA原理？请简述元数据持久化的必要性？请简述HDFS数据写时，NameNode的主要作用？请简述HDFS同分布的优势？

HDFS默认存放3份副本，相当于一份数据存储4份，如果我们配置了多副本，这种情况下，前面的3份副本按副本存储策略安排，第4份副本及以上随机存放？正确错误2.Client读取元数据使用哪个内部进程进行通信？A. FSDataOutputStreamB. FSDatainputStreamC. DistributedFileSystemD. ClientNode

本章总结讲解了HDFS数

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术基础及应用（微课版）课件第4章 HDFS分布式文件系统

文档简介

温馨提示

最新文档

评论

大数据技术基础及应用（微课版）课件 第4章 HDFS分布式文件系统

文档简介

温馨提示

最新文档

评论

相关文档

大数据技术基础及应用（微课版）课件第4章 HDFS分布式文件系统