




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop Basics-HDFSJohnson JiangMay. 2015什么是Hadoop? Hadoop是?Apache开源软件基金会开发的运行于大规模普通服务器上的用于大数据存储、计算、分析的分布式存储系统和分布式运算框架? Hadoop由两个部分组成? 分布式文件系统HDFS? 分布式运算框架MapReduce? Hadoop这个单词是什么意思?? 它是作者儿子的一个毛绒玩具小象的名字Hadoop版本图Hadoop生态环境HDFS结构内容HDFS主要组件的功能 NameNode 存储元数据元数据保存在内存中 保存文件,block ,datanode之间的映射关系DataNode
2、存储文件内容文件内容保存在磁盘维护了block id到 datanode本地文件的映射关系文件文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验8NameNodeNamenode是一个中心服务器,单一节点,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问文件操作,NameNode负责文件元数据
3、的DataNode负责处理文件内容的读写请求,数据流不经过NameNode,只会询问它跟那个DataNode联系NameNode副本存放在那些DataNode上由NameNode来控制,根据全局情况做出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。 块存储结构metadate物理存储结构NameNode(NN)Dat
4、aNode一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。集群运行中可以安全加入和退出一些机器DataNode(DN)保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系(3
5、秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN 数据损坏(corruption)处理当DN读取block的时候,它会计算checksum;如果计算后的checksum,与block创建时值不一样,说明该block已经损坏。client读取其它DN上的block;NN标记该块已经损坏,然后复制block达到预期设置的文件备份数;DN在其文件创建后三周验证其checksum。HDFS文件权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容如果Linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是zhangsanHDFS的权限目的:阻止好人做错事,而不是阻止坏人做坏事。HDFS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于ARVR的美妆产品交互式营销策略-洞察及研究
- 体位护理考试题及答案
- 问卷星护理考试题及答案
- 中小学安全管理工作总结与改进措施
- 采购流程规范及供应商管理手册
- 幼儿园自然观察主题教案与活动方案
- 核心素养教育经验总结
- 化工企业安全生产管理实操手册
- 小学科学实验教案及课后练习题
- 互联网产品用户增长方案详述
- 网络分析仪企业ESG实践与创新战略研究报告
- 《拍摄校园微视频》教学课件-2024-2025学年冀美版(2024)初中美术七年级下册
- 抗美援朝“铭记历史迎接挑战”-第11年迎回在韩中国人民志愿军烈士遗骸主题班会课件
- 公路工程造价编制自采材料预算单价计算课件
- 保险行业组织发展
- 学生宿舍的卫生管理研究
- 管制部运行管理手册(机场)第六章 运行程序
- 药品临床综合评价解读
- 2025年中国人寿:养老险北京分公司招聘笔试参考题库含答案解析
- 2025年度建筑地基基础清包工劳务合同规范范本
- 逻辑思维在写作中的运用与提升
评论
0/150
提交评论