hadoop学习-分布式mossefs luster panasas存储_第1页
hadoop学习-分布式mossefs luster panasas存储_第2页
hadoop学习-分布式mossefs luster panasas存储_第3页
hadoop学习-分布式mossefs luster panasas存储_第4页
hadoop学习-分布式mossefs luster panasas存储_第5页
已阅读5页,还剩24页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Linux文件系统演示主要内容:LinuxvfsLinux(ext2)文件访问机制Linux(ext3)日志功能Linux文件系统(ext2/ext3)数据不一致的处理认识几种分布式文件系统虚拟文件系统为了支持其他各种不同的文件系统,Linux提供了一种统一的框架,就是所谓的虚拟文件系统转换(VirtualFilesystemSwitch),简称虚拟文件系统(VFS)。Vfs与文件系统关系逻辑文件系统整个文件系统示意图Inode和数据区??读取/etc/crontab的流程目录/etc的inode文件crontab的inode目录/etc的块区域关联性内容文件/etc/crontab的实际内容Inode总结Inode:记录文件的相关属性,以及文件内容放置在哪一个块内。换句话说,inode除了记录文件的属性外,同时还必须要具有指针的功能,Inode

记录的一些信息;

该文件的拥有者与用户组该文件的访问模式该文件的类型该文件的建立,改变,最近一次读取时间,最近一次的修改时间。该文件的大小该文件的属性标志该文件的真正内容指针。数据与元数据Inode表与块区域成为数据存放区。其他的诸如超级块,块位图与inode位图等记录成为元数据。元数据记录数据(属性)的数据。数据的不一致问题文件写入硬盘时,未知原因导致系统中断,就会发生元数据与数据的不一致情况。如何处理??EXT2:系统重启时通过超级块记录的有效位与文件系统状态等,判断是否强制进行数据检查。EXT3 的日志功能1.系统要写入一个文件的时候,先在日志块中记录:某个文件要写入磁盘了。2.开始写入文件的权限与数据。3.开始更新元数据的数据。4.完成数据与元数据的更新后,在日志记录块中完成该文件的记录。使用日志文件系统好处文件的安全提高了,文件被破坏的机率降低了,对磁盘的扫描时间缩短了,扫描次数减少了。当系统意外宕机后,不会再有文件内容的丢失,至少文件应该保持上一个版本的内容;采用日志文件系统,通常系统每重新启动20-30次后,才会对磁盘进行一次整体扫描,扫描次数减少了。日志增加了文件操作的时间,但是,从文件安全性角度出发,磁盘文件的安全性得到了重大的提高。网友对日志文件系统进行了测试,日志文件系统的性能并不比ext2文件系统有太大的性能损失,有的日志文件系统由于采用B+树算法,在操作一些大尺寸的文件时,性能反面比非日志文件系统的性能还要好。什么是分布式文件系统数据、文件分散存储到不同的物理设备文件、数据被块文件读写并行低成本Hadoop是什么Hadoop:一个基于MapReduce的相当成功的分布式计算平台MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是任务的分解与结合的汇总。MapRecuce可以将被划分成多个小的Block的海量检索数据以分布式的方法局部计算,并应用Map将他们映射到一个提供Reduce的中心上。从而达到快速处理海量数据检索的目的。然而Map和Reduce不仅仅只是可以检索,事实上修改MapReduce的部分细节,就可以利用MapReduce实现更广泛的应用。hadoop三个子项目Hadoopcore提供分布式文件系统HDFS,支持MapReduce分布式计算,组建大型集群。Hadoop框架中最核心设计就是:MapReduce和HDFS。(MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是任务的分解与结果的汇总。HDFS是Hadoop分布式文件系统的缩写,为分布式计算存储提供了底层支持)Hbase类似Google的BigTable,是hadoop的数据库。(HBase使用和Bigtable非常相同的数据模型.用户存储数据行在一个表里.一个数据行拥有一个可选择的键和任意数量的列.表是疏松的存储的,因此用户可以给行定义各种不同的列。)ZookeeperZookeeper高可用和具有可靠的协调机制,分布式应用使用它来存储和协调。Zookeeper是Google的Chubby一个开源的实现.是高有效和可靠的协同工作系统.Zookeeper能够用来leader选举,配置信息维护等.在一个分布式的环境中,我们需要一个Master实例或存储一些配置信息,确保文件写入的一致性等.HDFS、MapReduce和HBase三者相辅相成、各有长处

HDFS-最大化利用磁盘MapReduce-最大化利用CPUHBase-最大化利用内存MapReduce和HBase都将数据存储在HDFS,而且HBase还利用了MapReduce的计算能力。而Pig和Hive则为更高层的建筑,降低了使用Hadoop的门槛,提高了Hadoop开发的效率。ZooKeeper和Com-mon成员可以说是地基,是为上层建筑(包括高层)服务的。Hadoop的线性扩展性,体现在以下几个方面:(1)存储扩展性,即HDFS的扩展能力(2)计算扩展性,即MapReduce的扩展能力,受束于计算均衡性(3)Master节点扩展性,主要是Master的处理能力和元数据存储能力Hadoop优点1.可扩展不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本,能可靠地(reliably)存储和处理千兆字节(PB)数据。(hadoop支持的节点数是1,000,甚至更多,在这个大范围内,可以任意的添加和删除,也就是在分布式文件系统中的可伸缩性,有masternode统一命名空间,URI的先进思想,使的任何的添加或删除对于应用来说都是透明的。即使是HDFS中的文件经常由于节点的失效、增加或者replication因子的改变或者重新均衡等进行着复制或者移动,而客户端和客户端程序并不需要改变什么,Namenode的edits日志文件记录着这些变更)2.经济框架可以运行在任何普通的PC上。可以通过普通机器组成的服务器群来分发以及处理数据。3.可靠分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。4.高效分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。Hadoop缺点1.主要针对大块的数据文件,最好是数据规模上G、T级别的,hadoop把大块数据进行切割并进行分布式存储,对小块数据由于系统开销等原因处理速度并不一定比单个串行程序明显。2.hadoop的mapreduce计算模型通过map任务会产生中间结果文件,reduce任务在处理这些中间结果文件形成最终结果文件并输出。由于中间结果文件是存储在各个分布式计算节点本地内存或磁盘上的,如果计算产生的中间结果文件非常巨大,reduce过程需要通过远程过程调用来取得这些中间结果文件,会加大网络传输的开销,则不适合采用hadoop处理。moosefs

管理服务器managingserver(master)负责各个数据存储服务器的管理,文件读写调度,文件空间回收以及恢复.多节点拷贝。目前只有一个master服务器(可靠性??)元数据日志服务器Metaloggerserver(Metalogger)负责备份master服务器的变化日志文件,文件类型为changelog_ml.*.mfs,以便于在masterserver出问题的时候接替其进行工作。数据存储服务器dataservers(chunkservers)

负责连接管理服务器,听从管理服务器调度,提供存储空间,并为客户提供数据传输。客户机挂载使用clientcomputers

通过fuse内核接口挂接远程管理服务器上所管理的数据存储服务器,.看起来共享的文件系统和本地unix文件系统使用一样的效果。元数据丢失或损坏,可以从他取得文件进行恢复文件分成块,在他们之间复制(副本)/usr/local/mfs/var/mfs自动复制到存储服务器Moosefs优势1.通用文件系统,不需要修改上层应用就可以使用。

2.部署简单,可以在线扩容。

3.googlefilesystem的一个c实现,Hadoop的基础是Java,moosefs效率更高。

4.提供webgui监控接口。

5.提高随机读或写的效率

6.提高海量小文件的读写效率(但效率依然不理想,技术瓶颈)Moosefs不足1.有单点故障,元数据日志服务器也需要和其他的HA软件协作才能做到无单点故障,元数据日志服务器只能保证元数据不丢失,但它不能在masterserver出问题是接替其工作。2.

mfsmaster把文件结构放内存里面,如果mfsmaster掉电,cache无法刷到磁盘上。3.

虽然mfs可以设定的goal,但还是存在数据备份归档的问题。

4.MFS对内存容量的要求非常大,一般的服务器也就几G的内存,PB级的存储,可能要消耗1TB的内存(跟文件数量有关)。Lustre文件系统Lustre是HP、Intel、ClusterFileSystem公司联合美国能源部开发的Linux集群并行文件系统。该系统基于对象存储设备的,开源的并行文件系统。

Lustre集群并行文件系统的结构图Lustre优缺点Lustre采用分布式的锁管理机制来实现并发控制,元数据和文件数据的通讯链路分开管理。与PVFS相比,Lustre虽然在性能,可用行和扩展性上略胜一踌,但它需要特殊设备的支持,而且分布式的元数据服务器管理还没有实现。注:PVFS:Clemson大学的并行虚拟文件系统(PVFS)项目用来为运行Linux操作系统的PC群集创建一个开放源码的并行文件系统。PVFS已被广泛地用作临时存储的高性能的大型文件系统和并行I/O研究的基础架构。作为一个并行文件系统,PVFS将数据存储到多个群集节点的已有的文件系统中,多个客户端可以同时访问这些数据。PanasasPanasas通过提供一个基于对象存储和集群的并行文件系统,从根本上改变了传统的网络存储中的规则。PanasasActiveScale文件系统与智能灵巧的Panasas指挥刀片和Panasas存储刀片相结合,Panasas的指挥刀片和存储刀片协调工作,提供了一个平衡的和可扩展的设计来配合PanFS文件系统。Panasas刀片的功能Panasas刀片的资源PanasasActiveScale文件系统

Panasas存储集群的心脏是PanasasActiveScale文件系统(PanFS),它把文件的活动分散到许多存储刀片中。PanFS将多个指挥刀片构成集群来协调指挥文件活动,平衡系统性能和管理可用性。这种分布的基于集群的方法消除了性能瓶颈并减轻了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论