Hadoop大数据开发基础与案例实战(微课版)课件 4.1HDFS简介_第1页
Hadoop大数据开发基础与案例实战(微课版)课件 4.1HDFS简介_第2页
Hadoop大数据开发基础与案例实战(微课版)课件 4.1HDFS简介_第3页
Hadoop大数据开发基础与案例实战(微课版)课件 4.1HDFS简介_第4页
Hadoop大数据开发基础与案例实战(微课版)课件 4.1HDFS简介_第5页
已阅读5页,还剩12页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据项目开发——HDFS简介目录content0201HDFS简介HDFS实现目标和自身局限性HDFS简介HDFS是Hadoop两大核心组件之一。分布式存储:HDFS分布式处理:MapReduceHDFS就是为了解决海量数据的分布式存储问题。HadoopDistributedFileSystemHDFS简介--集群在大数据时代,数据量非常大,单个节点一台计算机是无论如何完成不了海量数据的存储,我们需要借助计算机集群存储海量数据。单机无法存储集群分布式存储HDFS简介--集群每个竖排代表一个机架,每个机架上摆放了好多机器,每个机器称为一个节点,在企业一个机架可以摆放30-40个节点,机架和机架之间是通过光纤交换机来完成彼此之间的网络互联。在这个集群中,HDFS把整个文件分布的存储在这些机器里。HDFS简介分布式文件系统解决了大数据存储问题,是横跨在多台计算机上的存储系统;分布式文件系统在大数据时代有着广泛的应用前景,为存储和处理超大规模数据提供扩展能力;分布式文件系统适用于一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据分析。HDFS的实现目标成本低流式数据访问适合处理大数据高容错性大文件存储成本低HDFS集群可构建在廉价计算机上,通过多副本机制,提高可靠性。个人计算机搭建大数据集群HDFS的实现目标适合流式数据访问HDFS的数据处理规模比较大,应用程序一次需要访问大量的数据,HDFS的设计目标就是全部数据全部读写,它不适合访问整个文件中的一个子集。HDFS是为满足海量数据的批量处理而设计的。HDFS的实现目标适合处理大数据HDFS可横向扩展,其存储的数据规模:能够处理数据规模达到PB级别的数据;文件规模:能够处理百万规模以上的文件数量;节点规模:能够处理10K节点的规模。HDFS的实现目标高容错性数据保存多个副本,副本丢失后自动恢复;构建在廉价的计算机上,容易实现线性扩展,当集群增加新节点之后,名称节点(NameNode)也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。HDFS的实现目标适合大文件存储HDFS采用数据块的方式存储数据,将数据物理切分成多个小的数据块;当用户读取时,重新将多个小数据块拼接起来。HDFS的实现目标0203不适合低延迟数据访问无法高效存储大量小文件不支持多用户写入及文件随机修改01HDFS自身的局限性不适合低延迟数据访问HDFS不适合低延迟数据访问,比如毫秒级以内读取数据或者存储数据,HDFS是很难做到的。HDFS自身的局限性无法高效的对大量小文件进行存储文件存储会占用名称节点的内存来存储文件目录和块信息,存储大量小文件就会耗费大量的内存,名称节点的内存总是有限的。HDFS自身的局限性HDFS自身的局限性HDFS不支持多用户写入和文件随机修改HDFS目前不支持并发多用户的写操作和文件的随机修改,写操作只能在文件末尾追加数据,一个文件只能有一个写,不允许多个线程同时写。本章小结本节我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论