




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 HDFSHDFS大数据文件系统1第二章 HDFS1.HDFS概述2.HDFS基本构架与数据分布3.HDFS可靠性的设计实现4.HDFS文件操作2(1)HDFS概述 HDFS = Hadoop Distributed File System HDFS是一个使用JAVA实现的、分布式的、可横向扩展的文件系统 是Hadoop的组件 基于*nix3什么是分布式文件系统?物理层是分布式基于客户机/服务器模式 通常一个分布式文件系统提供多个供用户一般都会提供备份和容错的功能一般都基于操作系统的本地文件系统的服务器- ext3,ext4- NTFS4为什么需要分布式文件系统?传统文件系统最大的问题是
2、容量和吞吐量的限制多用户多应用的并行读写是分布式文件系统产生的根源一块硬盘的读写性能,比不上多块硬盘同时读写的性能 1 HDD=75MB/sec 1000 HDDs = 75GB/sec扩充空间的成本低廉,可以为分布式计算提供基础5(2)HDFS的设计目标硬件错误是常态 错误检测并快速自动恢复是HDFS的最流式数据 HDFS适合用于处理批量,而不适合随机大规模的数据集设计目标HDFS适合大量量可以达到的PB、EB级,总HDFS适合大文件,单个文件一般在百MB级以上文件数目适中 简单的一致模型简单的一致模型 HDFS的应用程序需要对文件实行 不能修改已写入的数据写、多次读的模式程序采用“数据就近
3、”原则分配节点执行 移动计算比移动数据的代价要低6HDFS适合做什么?并管理PB级数据处理非结构化数据注重数据处理的吞吐量(对延迟不敏感)write-once-read-many存取模式7HDFS不适合做什么?小文件 (不建议使用)大量的随机读 (不建议使用)需要对文件的修改 (不支持)8思考题思考 10PB 级别数据如何?在2008年,谷歌每天处理的数据已经达到20 PB,一年就是7300 PB馆“在2011年4月前已经收集了235TB的数美国国会据,而一个PB相当于它的4倍!9第二章 HDFS1.HDFS概述2.HDFS基本构架与数据分布3.HDFS可靠性的设计实现4.HDFS文件操作10
4、(1) HDFS基本构架一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点HDFS NameNode应用程序文件名或数据块号HDFS客户端数据块号,数据块位置DataNode数据DataNode数据DataNode数据HDFS文件架构12(2)HDFS文件分布式13举例: HDFS文件分布式14Block的副本放置策略第1个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点第2个副本:放置在于第一个副本不同的机架的节点上第3个副本:与第二个副本相同集群的节点副本:随机节点15(3) HDFS设计目标假设:节点失效是常态wri
5、te-once-read-many存取模式不支持文件并发写入不支持文件修改理想: 1. 任何一个节点失效,不影响HDFS服务 2. HDFS可以自动完成副本的16(4)HDFS主要组件的功能17HDFS文件文件切分成块(默认大小64M),以块为,每个块有多个副本在不同的上,副本数可在文件生成时指定(默认3)NameNode是主节点,文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统的校验文件块数据,以及块数据18NameNode节点Namenode是一个中心服务器,单一节点,负责管理文件
6、系统的名字空间(namespace)以及客户端对文件的文件操作,NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,数据流不经过NameNode,只会询问它跟那个DataNode副本存放在那些DataNode上由NameNode来,根据全局情况做出文件时NameNode尽量让用户先时延块放置决定,降低块消耗和最近的副本,Namenode全权管理数据块的,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表19NameN
7、ode(NN) 节点MetaData物理结构块结构20DataNode节点一个数据块在DataNode以文件在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳DataNode启动后向NameNodeNameNode上报所有的块信息。,通过后,周期性(1小时)的向心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode令如块数据到另一台,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。集群运行中可以安全加入和一些21DataNode(DN)节点保存Block启动DN线程的时候会向NN汇报blo
8、ck信息通过向NN心跳保持与其(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN22Secondary Namenode通过检查点(Checkpoint)更新映像文件,SecondaryNamanode辅助完成处理23(5)HDFS数据过程24HDFS数据写入过程(3)25第二章 HDFS1.HDFS概述2.HDFS基本构架与数据分布3.HDFS可靠性的设计实现4.HDFS文件操作26HDFS可靠性的设计实现安全模式 刚启动的时候,等待每一个DataNode报告情况,安全模式的时候才进行副本操作SecondaryNameNode Na
9、meNode失效怎么办? 用来备份NameNode的元数据,以便在NameNode失效时能从SecondaryNameNode恢复出NameNode上的元数据心跳副本重新创建 一个DataNode了怎么办? Hearbeat和副本重建27HDFS可靠性的设计实现数据一致性 网络传输中,数据改变了怎么办? 数据校验和CheckSum机制租约多个用户同时写一个文件怎么办?NameNode租约给客户端版本升级出错了怎么办?到前一个版本28第二章 HDFS1.HDFS概述2.HDFS基本构架与数据分布3.HDFS可靠性的设计实现4.HDFS文件操作29HDFS文件操作命令行方式API方式30HDFS文
10、件操作使用hadoop dfs命令对HDFS进行操作$ hadoop dfs -ls注意,hadoop没有当前目录的概念,也没有cd命令在HDFS创建目录 $ hadoop dfs -mkdir ./test1上传文件到HDFS使用hadoop dfs -put命令对HDFS进行上传操作$ hadoop dfs -put os_filename hadoop_filename在Master上在Slave上32将HDFS的文件到本地使用hadoop dfs -get命令HDFS文件$ hadoop dfs -get hadoop_filename os_filename使用hadoop dfs
11、-cat命令对HDFS文件进行查看33删除HDFS下的文档使用hadoop dfs -rmr命令对HDFS文件进行删除$ hadoop dfs -rmr hadoop_filename34查看HDFS基本统计信息使用hadoop dfsadmin命令管理HDFS$ hadoop dfsadmin -report35进入和安全模式手工进入安全模式进行安全块的检查使用hadoop dfsadmin safemode进入和安全模式$ hadoop dfsadmin -safemode -enter$ hadoop dfsadmin -safemode leave36怎样添加节点?在新节点安装好had
12、oop把namenode的有关配置文件到该节点修改masters和slaves文件,增加该节点设置ssh免进出该节点单独启动该节点上的datanode和tasktracker(hadoop-daemon.sh start datanode/tasktracker)运行start-balancer.sh进行数据负载均衡37启动某些特定进程而非所有进程start-all.sh的内容38负载均衡作用:当节点出现故障或新增节点时,数据块分布可能不均匀,负载均衡可以重新平衡各个datanode上数据块 的分布39使用Hadoop归档文件Hadoop归档文件和HAR文件是可以将文件高效地放入HDFS块中的文件存档设备减少NameNode内存使用,同时仍然对文件进行透明通过archive命令工具根据文件集合创建, 例如: $ hadoop archive archiveName fil
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年辽宁省丹东市振安区数学三年级第一学期期末监测试题含解析
- 2024年江西省南昌市新建区三年级数学第一学期期末考试模拟试题含解析
- 棕色中国风从四大发明说起
- 执业护士考试科目之间关系试题及答案
- 行政管理应对变化试题及答案分析
- 2025年行政管理语文考试专题试题及答案
- 行政管理与文化政策试题及答案
- 自考行政管理知识回顾与试题及答案
- 2025年护士团队协作试题及答案
- 行政管理专业语文温习攻略试题及答案
- 山东省济南市重点中学2025届高考生物二模试卷含解析
- 湖南省天壹名校联盟2025届高三5月适应性考试(物理)
- 新版gmp实务教程试题及答案
- 2025年中考英语考纲词汇(包括词性词义词转短语)
- 2025年上海长宁区高三二模高考英语试卷试题(含答案详解)
- 2022年全国森林、草原、湿地调查监测技术规程-附录
- 2024年河南省机关单位工勤技能人员培训考核高级工技师《职业道德》题库
- 2024年湖南省中考道德与法治试题卷(含答案解析)
- 社会体育指导员职业技能培训大纲
- 车辆买卖协议(简单通用版)
- 钢筋调直机设计
评论
0/150
提交评论