2023学年完整公开课版HDFS的重要概念_第1页
2023学年完整公开课版HDFS的重要概念_第2页
2023学年完整公开课版HDFS的重要概念_第3页
2023学年完整公开课版HDFS的重要概念_第4页
2023学年完整公开课版HDFS的重要概念_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HDFS的重要概念目录一、什么是HDFS二、HDFS优势三、HDFS劣势一、什么是HDFS

HDFS是Hadoop非常核心的子项目之一,全程为HadoopFileSystem。HDFS是由DougCutting基于Google公司2003年10月开源的论文GFS做的开源实现,发展到目前为止,HDFS的运用非常广泛,基本上很多大数据平台大部分都会选用HDFS(或者类似HDFS)这样的分布式文件系统、来作为海量数据存储的一个解决方案。定义:DougCutting二、HDFS优势高容错性,HDFS提供了非常好的“副本冗余机制”,简单来说就是一份数据在HDFS当中存放,包含它自身在内至少会有(默认)三个副本类似随机的存放在集群不同的服务器上,并且当其中一台服务器宕机、当前这台服务器上数据丢失,但HDFS会自动再将缺失的副本再通过copy的方式、保证数据的副本不会低于三个。高容错性:二、HDFS优势成本低,可构建在廉价的商业服务器上,基于第一条高容错性的优势,HDFS可以搭建在低成本的廉价服务器上,而没有必要选择非常昂贵的服务器上,因为即使廉价服务器稳定性相对较差,但是集群规模成百上千台宕机一台、两台对于整个HDFS集群来说,基本上没有任何的影响。成本低二、HDFS优势海量数据存储,HDFS可支持几万台服务器的集群规模,乘以每台服务器磁盘容量、整个HDFS文件系统容量非常之大,并且他所支持存放的单个数据文件GB、TB、PB级别都没有任何问题。海量数据存储二、HDFS优势适合批处理,它是通过“移动计算而非移动数据”来进行设计,会把数据存放位置暴露给计算框架,从而在海量数据计算过程中,数据在何处便在何处计算,避免了数据跨网络、结点移动拷贝的工作,很大限度的提升计算速度。批处理三、HDFS劣势低延迟数据访问,HDFS设计的优势是在“高吞吐率”的场景,也就是在某一时间内大量写入、读取数据,但是毫秒级这种低延时它是支持不了的。低延迟数据访问三、HDFS劣势并发写入、随机修改,HDFS当中文件只能有一个写、不支持多个线程同时写入一个文件。写好的文件只支持追加功能,并不支持文件的随机写入。随机修改三、HDFS劣势小文件存储,首先同样的存储空间、数据文件全部都是小文件存储的话,在寻址的时间开销会非常之高、以至于会高于读取时间;其次,HDFS当中每一个数据文件都会对应有一份元数据信息需要存放,元数据包含了该文件的名称、大小、权限等信息,且这部分信息是存储在内存当中,大量的小文件会造成元数据信息过多、内存资源不足的情况。小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论