




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于网络的分布式文件系统初探.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着在线数据的快速增长,传统的服务器成为网络服务的瓶颈。阏格技术在 瘫缝韪豹存辅技术镶壤发簿藿匡大的俸麓。然蔼,d a t a g r i d 静覆巍广域弱戆数 据管理解决方案还是无法满足海量用户的海量存储要求,因此,基于网络的分布 式文件系统的有效性进一步体现了出来。 n f s 是聚早的实理喇终文箨共享的文馋系统,不保存系统阉粒状态售患楚 n f s 的一个黧簧特性,主嚣应用于小型弱域网上。a f s 粥是一个能够扩展到几千 个用户的分布式文件系统,它是第一个在客户端采用永久缓冲策略的文件系统, 但a f s 没有解决分布式数攒或者其他大烈随帆访问文件的需要,也没有处理数据 瓣不一致阚麓。d f s 是w i n d o w s2 0 0 0 ( s e r v e r 叛) 2 3 系统叁豢瓣一矮文棒虢务。 在客户端,d f s 对a f s 进行了改造,主凄差别在于使用优秀的文件颗粒共事。而 c o d a 是最早支持断连接操作的分布式文件系统,它的前身是a f s 文件系统,适 台在网络连接没有保障蛇环境中使用。 由于c o d a 没有有效魏随耀户报告糖误信息,麓户常常不知道橱遂在哪里。 作者在此基础上给出了改进的框架名为c o d a 操作台的图形接口综述,使得 弱连接或断连接情况时缓存对用户半透明,这样c o d a 的可用性就掇高了,用户 逡麓够缀簿蟪理舞系绞戆行为。嗣对,捺蠢绘塞了冀舔戆实理方案帮欢遂聂懿效 果。 关键试:数据网格分襁式清流重整凝连接操作 a l o n gw i t ho nl i n ed a t af a s tg r o w t h ,t h et r a d i t i o n a ls e r v e rb e c o m e st h en e t w o r k s e r v i c eb o t t l e n e c k 弧eg r i dt e c h n o l o g yi s p l a y i n gt h eh u g er o l e i nt h eh i 。g h p e r f o r m a n c em e m o r y a r e ao ft e c h n o l o g y h o w e v e r , d a t ag r i d ,t h ed a t am a n a g e m e n t s o l u t i o nf o rw a n ,i su n a b l et os a t i s 母t h em a s sm e m o r yr e q u e s tf o rt h em a g n a n i m o u s u s e r t h e r e f o r e ,n e t w o r k b a s e dd i s t r i b u t e d f i l e s y s t e mv a l i d i t y h a sf i 1 r t h e r d e m o n s t r a t e do u t 。 n f si st h ee a r l i e s tf i l es y s t e mr e a l i z i n gn e t w o r kd o c u m e n ts h a r i n g 。n o n - k e e p i n g s y s t e ma m o n gs t a t ei n f o r m a t i o ni sa ni m p o r t a n tc h a r a c t e r i s t i c so fn f s i tm a i n l y a p p l i e so nt h es m a l ll a n a f st h e nc a r le x p a n d t os e v e r a lt h o u s a n du s e r sd i s t r i b u t e d f i l es y s t e m i ti st h ef i r s tf i l es y s t e mt h a tu s e st h ep e r m a n e n tb u f f e rs t r a t e g yi nt h e c l i e n ts i d e b u ta f sh a sn o ts o l v e dd i s t r i b u t i o n a ld a t ao ro t h e rd o c u m e n t sr e q u i r e d l a r g er a n d o m ,a l s oh a sn o tp r o c e s s e dt h ei n c o n s i s t e n to ft h ed a t a , d f si sa ni t e mo f f i l es e r v i c ew h i c hw i n d o w s2 0 0 0 ( s e r v e rv e r s i o n ) 1 2 0 0 3s y s t e m t nt h ec l i e n ts i d e , d f sh a sc a r r i e do nt h et r a n s f o r m a t i o nt oa f s t h em a i nd i f f e r e n c el i e si nt h eu s eo f o u t s t a n d i n gd o c n m e n tp e l l e tt os h a r e w h i l ec o d ai st h ef i r s td i s t r i b u t e df i l es y s t e m w h i c hs u p p o r t sd i s c o n n e c t e do p e r a t i o n 。t h ea n c e s t o ro fc o d ai st h ea f sd i s t r i b u t e d f i l es y s t e m ,i ti ss u i t a b l ef o rt h ee n v i r o n m e n ti nw h i c ht h en e t w o r kc o n n e c t i o n sn o t s t a b l e c o d ad o e sn o te f f e c t i v e l yt e l lu s e rw h a ti sw r o n gw i t hi t t h ea u t h o rp r e s e n tt h e i m p r o v e m e n tf r a m ei n t h i sf o u n d a t i o n - 一a no v e r v i e wo fg r a p h i c a li n t e r f a c ec a l l e d t h ec o d a c o n s o l e ,t h a tm a k e sc a c h i n gt r a n s l u c e n tt oc o d au s e r si nt h ep r e s e n c eo f d i s c o n n e c t e do rw e a k l yc o n n e c t e do p e r a t i o n ,h e n c et h ea v a i l a b i l i t yo fc o d ai s i m p r o v e dg r e a t l y 确eu s e ra l s oc a nu n d e r s t a n ds y s t e mb e h a v i o rw e l l 。a tt h es a m e t i m e ,t h ea u t h o rh a sp r o d u c e dt h ec o n c r e t er e a l i z a t i o np l a na n dt h ei m p r o v e m e n t e f f 毛c t k e yw o r d s :d a t a g r i d ,d i s t r i b u t e d ,r e i n t e g r a t i o n ,d i s c o n n e c t e do p e r a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得盘垄盘茔或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:纠毒l 姊签字日期: 猁年 月日 学位论文版权使用授权书 本学位论文作者完全了解盘注盘茎有关保留、使用学位论文的规定。 特授权:蠡洼盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:幻、却- h - 扔移 签字日期:) 扔年 月 日 导师签名:上闾 签字日期:6 年7 月f 日 天津大学硕士学位论文第一章绪论 1 1 选题背景和研究意义 第一章绪论 冯诺依曼在人类第一台电子计算机中提出的存储程序的思想,一直沿袭至 今。随着计算机性能的提高和磁盘存储技术的发展,计算机在数据存储和数据组 织方面都扮演了越来越重要的角色。 现今社会,越来越多的人需要依靠网络工作,在线数据存储的快速增长、电 子商务等众多需求,使传统的文件服务器成为网络服务的瓶颈。 以服务器为中心的存储从体系结构上看,它是基于总线连接的存储( b a s ) , 包括s c s i 总线、i d e 接口、数据直接存储d a s ,如s c s i 磁盘阵列。而基于总 线连接的存储体系结构存在许多不可克服的缺点,如:原始容量限制、没有扩展 性、所有的数据存储受服务器性能的限制、无法集中管理等;原来以服务器为中 心的存储技术已经不适合今天的存储需求了。 以存储网络为中心的存储是对数据存储新需求的回答,使数据处理和数据存 储分离。通过网络连接服务器和存储资源,消除了不同存储设备和服务器之间的 连接障碍。 但以存储网络为中心的存储解决不了全部的数据存储问题,如存储资源共 享、数据共享、数据融合等。不少先进存储系统的倡导者都提出,存储作为一种 资源,应该像我们日常生活中的自来水和电力一样,随时可以方便的存取和使用, 这就是存储公用设施模型。为此,一种伴随着互联网技术而迅速发展起来的一门 新兴技术网格计算【l 】,应运而生。 对大部分人来说,“网格( g r i d ) 计算”这个名词听起来有些陌生,其实它并非 深奥莫测。冬天当我们离家后,家里集中供暖的暖气对我们毫无意义。如果有一 种技术可以将一个城市【 j 无人消受的热能收集起来。其能量不于一座小型发电 站,而网格计算就基于这种朴素的思想方法。如果把互联网理解成一个通信网络, 那么网格计算就是一个计算网络。 换句话说,所谓网格计算是指利用一种网络开放标准,通过互联网或专用网 把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,实现计算能力、 数据存储、应用等的资源整合和无缝集成的一门技术。 网格的根本特征不是它的规模,而是资源共享,消除资源孤岛。正是网格计 天津大学硕士学位论文第章绪论 算把人们从一方面面对巨量数据处理难题束手无策,而另一方面哀叹计算能力大 量闲置的尴尬境地解救出来。网格技术在高性能的存储技术领域也发挥着巨大的 作用。 存储网格是一种新的技术模式,它将存储的可扩展性和效率提升到了一个全 新水平,它由一种协作式的标准基础设施、模块化的构建块组成,并通过集中平 台进行管理,来实时供应、部署和重新部署新的以及现有的信息存取服务。存储 网格可以实现大容量的信息存储,而没有大量信息的冗余。对于用户而言,一些 企业能将大量的信息存储在不同地点的存储器上,而不必去购买昂贵的大容量的 存储器,节省了不必要的开支。 由于越来越多的公司都要依靠计算机来开展业务并产生大量的重要的数据, 这些数据持续、快速的增长,导致了对更大存储容量的需求;而且对存储设备的 性能、可扩展性、安全性能、可管理性等诸多方面有进一步的要求。 显然,用软件整合实现的网络存储,相对比较灵活,可以随意进行配置,如 更改存储位置、添加存储设备等。d a t ag r i d 的面向广域网的数据管理解决方案 还是无法满足海量用户的海量存储要求,这样就对网络存储技术提出了更高的要 求。而基于网络的分布式文件系统【2 】,将分布于不同电脑上的文件组合为单一 的名称空间,并使得在网络上建立一个单一的、层次化多重文件服务器和服务器 共享的工作成为方便的途径。 一个分布的文件系统将文件存储在服务器上,并且可以让客户机像访问普通 文件一样访问。文件可以尽可能广泛的被能访问服务器的计算机使用,在同一个 地点存储并且共享某文件,比把这个文件分散到许多客户机上单独存储要好。对 于保证信息的安全而作的备份处理相对更加容易,因为只有存储文件的服务器需 要做备份。服务器可以提供很大的存储空问,如果每个客户端都单独准备一个这 样大空间的成本会很大,显然也是不现实的。当某一部分人需要共享文档的时候, 分布式文件系统的有效性就体现出来了。 因此研究一种具有高可扩展性和高可用性,高度灵活的分布式文件系统,将 i n t e m e t 上大量分散的、独立的、异构的文件服务器组织成一个逻辑意义上的整 体,成为一件有意义的事。 1 2 本文的主要研究工作 随着网络的发展,单机、服务器、数据网格已经不能满足网络文件存储规模 的日益扩大,基于网络的分布式文件系统的有效性进一步体现了出来。本文针对 天津大学硕士学位论文第一章绪论 现有分布式文件系统的一些特性,进行了系统的比较与分析。 首先分析了最早的网络文件系统n f s ,利用r p c i 3 协议实现文件远程存储, 其设计目的是将早期网络中单机文件系统实现共享。n f s 的主要优点是可以将占 用大量磁盘空间的或用户共享的数据只保存在一个n f s 服务器上。当其他客户 机要访问这些数据时,只需通过n f s 将其安装到本地目录进行透明的访问。它 采用无状态的服务流程和基于时间的一致性,大大简化了协议和实现。 n f s 在文件系统调用层实现分布性,但对文件的读写是按块来进行的。当一 个远程文件被打开时,文件名被发送到远程系统,它相应的返回该文件的文件句 柄( f i l eh a n d l e ) 。服务器不保留任何关于客户的状态信息,文件旬柄是客户持有 的唯一状态信息。 n f s 采用的是基于u n i x 系统的设计思想,将远程文件系统作为本地文件系 统子树挂接的形式,某一服务器提供的文件共享只能作为客户端单独的子目录, 无法实现多服务器交叉存取。 n f s 使用u n i x 的认证体制,底层使用r p c 过程实现,因此无法利用客户 端内核提供的缓冲机制,速度极慢,无法满足高性能系统的要求。它主要应用于 小型局域网上,并且客户机数目有限。当将n f s 用于跨越若干建筑或者成百上 千个客户时其效果很不理想。而a f s 是利用r p c 2 协议实现的,可看作是n f s 的一个改进,它的设计目标是支持大学校园网内数千台工作站间的文件共享。 可扩展的体系结构,以多个服务器的资料复制来支持大量的用户,以c a l l b a c k 机制维护多个副本间的一致性是a f s 的设计特点。a f s 是第一个在客户端采用 永久缓冲策略的文件系统,缓冲包括文件和目录资料。一旦资料被缓冲,客户端 的只读操作将无需服务器的参与。而且客户端的缓冲是永久性的,即保存在本地 文件系统中。 a f s 的目录对所有客户都是相同的,a f s 是a f s 的根目录。当一个客户机访 问a 蠡下的节点时,它就可以找到相应的服务器和文件集合。与n f s 不同,a f s 在客户端和服务器端都必须响应r p c ,通过这一点,客户端就可以保持当前文 件的信息。 a f s 的客户服务器结构限制了它的最终缩放性,因为服务器必须处理所有的 缓存不命中,回调和同录更改。服务器状态和文件定位索引的大小也限制了缩放 性。如果应用程序只访问大文件的一小部分,a f s 的表现比较差,它没有解决分 布式数据或者其他大型随机访问文件的需要,也没有处理数据的不一致问题。 接着本文介绍并分析了微软的d f s ,在客户端,d f s 对a f s 进行了改造, 主要差别在于使用优秀的文件颗粒共享。微软的d f s 技术,使我们可以非常便 利地访闯存储于多台远程计算机上的数据。通过d f s ,用户可以通过熟悉并且统 天津大学硕士学位论文第一章绪论 一的文件夹结构来查看和访问一组文件夹共享,即使这些资源存储在不同的域或 物理站点之中。 d f s 结构的基本组件是一个共享目录,它代表d f s 体系结构的根。通过d f s , 这些共享组成了一个单一的、连续的名字空间。客户机连接到d f s 根后,d f s 的结构看起来就像一个包含了一些用户可以浏览和搜索的子文件夹的普通共享。 显示在d f s 根下的每个子文件夹实际上是一个链接,它可以指向网络上位于任 意位置上的共享文件夹。d f s 自动将访问共享的客户机重定向到数据的实际位 置。 w i n d o w s2 0 0 3 1 4 为指引d f s 客户目标提供三种链接选择:默认的目标选择, 这是默认的方法,该方法是随机的从本地计算机用户请求可以利用的d f s 目标 中,选择一个d f s 目标作为链接;受限用户站点目标选择,这个选择方法,让 管理员设置d f s ,以便客户从未被指引到他们的本地站点外面的一个d f s 耳标; 花费最少的目标选择:这是w i n d o w s 2 0 0 3 的一个新的方法,这个方法比带宽高效 率方法以及缺省目标选择方法更高效。 然后,本文又给出了两种网络存储技术s a n 5 和n a s 的对比。s a n 是近 年来出现的一种开放式、网络直接连接的存储体系,与n f s 、a f s 相比,它利 用高速通道实现了服务器和存储系统之间任意到任意的连接。与传统的服务器连 接存储模型相比,它不存在文件服务器瓶颈问题,很容易在异构环境中实现,且 具有很好的扩展性和更高的性能。 与s a n 相比,网络附加存储n a s 把存储设备和网络接口集成在一起,直接 通过网络存取数据成为一种专业的网络文件存储及文件备份设备,并能根据实际 应用环境不同而支持其他可选网络连接方式【6 】。n a s 适用于需要通过网络将文件 数据传送到多台客户机的用户。它支持多台对等客户机之间的文件共享,n a s 客户机可以在企业中任何地点访问共享的文件,其性能和距离要求也相对较低。 因此n a s 适用于当文件长度比较短时的应用,如文件管理和中小企业网络存储, 是s a n 的补充。 最后本文分析并改进了一种高效、低价、容易实现的网络文件系统 c o d a 7 ,说明了c o d a 的客户端和服务器端的结构。c o d a 文件系统的客户端由 一个小的被称为m i n i c a c h e 的虚拟接口内核模块和一个被称为v e n u s 用户级的缓 存管理进程组成。m i n i c a c h e 与用户级进程v e n u s 通信,处理对c o d a 数据对象 的操作。v e n u s 是一个多线程进程,它使用一个轻量级的被称为l w p 的同步事 务线程包,被称为c o d a 的客户端进程,负责使用文件的副本。c o d a 服务器端由 v i c ef i l es e v e r 进程,a u t h e n t i c a t i o ns e l w e r 进程和u p d a t es e r v e r 进程( 或u p d a t ec l i e n t 进程) 这样一些用户级进程组成。 天津大学硕士学位论文第一章绪论 然后深入分析了c o d a 中的关键技术,如回叫信号机制、版本向量机制、 r e s o l u t i o n 例程都是用来提高c o d a 中缓存一致性的技术,复制策略和断连接操 作可提高c o d a 的性能等。接着详细阐述了c o d a 中特有的滴流重整功能,当v e n u s 收到一个更新文件系统请求时,被更新对象所在卷成为w r i t ed i s c o n n e t i o n 状态 后,v e n u s 将更新分多次传播到服务器中,称为滴流重整。它的全过程分为三个 阶段:p r e l u d e 、i n t e r l u d e 、p o s t l u d e 。在滴流重整的过程中也会用到 一些控制机制,如对象级的并发控制机制、文件竞争机制、确保原子性等。 c o d a 文件系统独特的设计思想,比如服务器复制和断连接操作其实是一种 补全机制,本文在此基础上给出了改进的框架,采用用户可调的操作模式,让用 户有一定的控制权,使用半透明的接口程序,让用户知道当前v e n u s 的操作模式: 强连接模式、弱连接模式、断开模式。这样用户就能够区分令牌到期还是被挂起, 因此就能很好的理解系统的行为。 当系统需要用户对某个问题做出决定时,能够向用户提出建议,并且能让用 户知道已经缓存了哪些文件,以及文件被缓存的情况,用户就不用与机器断开多 次来确认是否已经缓存了所需要的文件,从而节省了一定的时间,有经验的用户 也可以在客户端参与服务器端冲突的解决。按照需要解决的问题,该接口设计了 不同的控制器,并为每个控制器设定了相应的功能,给出了具体的程序实现方案 和改进后的效果。 最后,对全文的研究工作做出了总结,并对今后进一步的研究前景进行了展 望。 1 3 论文结构 第一章,首先概述了目前i n t e m e t 发展对网络存储的影响,然后阐明了本文 所选课题的研究背景及其所具有的研究价值,针对目前网络存储中存在的问题, 提出本文的主要研究 二作。 第二章,详细介绍了分布式文件系统的发展,对现存的几种基于网络的分布 式文件系统及网络存储技术各自的优缺点进行了比较与分析。 第三章,针对现存分布式文件系统中存在的问题,分析并改进了一种高效、 低价、容易实现的网络文件系统c o d a ,接着说明了c o d a 文件系统的客户端 和服务器端的组织结构。然后深入分析了c o d a 中的缓存一致性机制,并详细阐 明了c o d a 特有的滴流重整功能等关键技术。 第四章,为了使c o d a 被更广泛的应用,针对c o d a 的不足,提出了具体的 天津大学硕士学位论文第一章绪论 改进框架及解决方案,并给出了改进后的效果。 第五章,对全文的研究工作进行总结,并对未来研究工作做出展望。 天津大学硕士学位论文第二章分布式文件系统综述 第二章分布式文件系统综述 文件系统【8 】是共享数据的主要方式,是操作系统在计算机硬盘上存储和检索 数据的逻辑方法,这些硬盘可以是本地驱动器、可以是网络上使用的卷或存储区 域网络( s t o r a g e a r e a n e t w o r k ,s a n ) 上的导出共享。特别地,文件系统实现了u n i x 式的操作系统所需要的基本操作。它通过对操作系统所管理的存储空间的抽象, 向用户提供统一的、对象化的访问接口,屏蔽对物理设备的直接操作和资源管理。 根据计算环境和所提供功能的不同,文件系统可划分为四个层次,从低到高 依次是:单处理器单用户的本地文件系统,如d o s 的文件系统;多处理器单用 户的本地文件系统,如o s 2 的文件系统;多处理器多用户的文件系统,如u n i x 的本地文件系统;多处理器多用户的分布式文件系统。 分布式文件系统支持在企业内部网上以文件的形式共享信息。一个设计良好 的文件服务系统,使用户访问存储在服务器上的文件时,能获得与访问本地磁盘 文件类似的性能和可靠性。一个分布式文件系统,使程序可以像存储和访问本地 文件那样的对远程文件进行操作,允许用户访问在企业内部网中任一计算机上的 文件。【9 】 2 1 分布式文件系统的发展 在二十世纪7 0 年代就出现了最初的分布式文件系统的尝试。到了二十世纪 八十年代中期,网络文件系统( n f s - n e t w o r kf i l es y s t e m ) f t o 的出现使得分布 式文件系统逐渐发展并应用到各个领域。当前的分布式文件系统主要有基于共享 文档和缓冲的文件系统,如n f s 等;基于并行处理的集群文件系统,如g f s 等; 基于副本机制的文件系统,如c o d a 等。 早期的分布式文件系统以n f s 和a f s ( a n d r e wf i l es y s t e m ) 最具代表性,一 般以提供标准接口的远程文件访口j 为日的,更多地关注访问的性能和数据的可靠 性。 2 0 世纪9 0 年代初,面对广域网和大容量存储应用的需求,借鉴当时先进的 高性能对称多处理器的设计思想,加利福尼亚大学设计开发的x f s 11 1 ,克服了 以前的分布式文件系统一般都运行在局域网( l a n ) 上的弱点,很好地解决了在 天津大学硕士学位论文 第二章分布式文件系统综述 广域网上进行缓存,以减少网络流量的难题。它所采用的多层次结构很好地利用 了文件系统的局部访问的特性,无效写回( i n v a l i d a t i o n - b a s e dw r i t eb a c k ) 缓存 一致性协议,减少了网络负载。对本地主机和本地存储空间的有效利用,使它具 有较好的性能。 1 9 9 5 2 0 0 0 年,网络技术的发展和普及应用极大地推动了网络存储技术的 发展,基于光纤通道的s a n 、n a s 得到了广泛应用。在这个阶段,计算机技术 和网络技术有了突飞猛进的发展,单位存储的成本大幅降低。而数据总线带宽、 磁盘速度的增长无法满足应用对数据带宽的需求,存储子系统成为计算机系统发 展的瓶颈。基于光纤通道的s a n 、n a s 得到了广泛应用,这也推动了分布式文 件系统的研究。 2 0 0 0 年以后,随着s a n 和n a s 两种体系结构逐渐成熟,研究人员开始考 虑如何将两种体系结构结合起来,以充分利用两者的优势。另一方面,基于多种 分布式文件系统的研究成果,人们对体系结构的认识不断深入,网格的研究成果 等也推动了分布式文件系统体系结构的发展。 2 2n f s 文件系统 网络文件系统n t s ( n e t w o r kf i l es y s t e m ) 1 2 1 最早由s u n 公司作为t c p i p 网上的文件共享系统于1 9 8 5 年开发的。它是一种在网络上共享文件的机制,由 一系列n f s 命令和进程组成的一个分布式的客户机服务器文件系统。 n f s 2 0 协议于1 9 8 9 年制定,1 9 9 3 年又制定了新的n f s 3 0 协议的标准。n f s 第3 版( n f s v 3 ) 在出现六年之后才在l i n u x 中成为稳定版本,现已经成为大多 数l i n u x 系统的缺省版本。最新l i n u x 2 2 和2 a 内核提供这个版本。2 0 0 0 年1 2 月,n f s v 4 协议规范从草案i n t e m e t 标准变成提案i n t e m e t 标准,形成r f c 3 0 10 。 n f s 的最近版本并没有改变核心设计,但是改善了安全性能,并解决了一些管理 问题,例如自动安装远程文件系统等。 当客户机安装了服务器提供共享的文件系统后,通过远程过程调用( r p c ) 对服务器提出服务请求,服务器根据请求作相应的操作并返回结果,从而方便地 实现信息共享。 n f s 采用共享文档和缓冲机制,系统中的每个节点既可作为服务器端也可以 做为客户端,但客户与服务器是非对称的。服务器将自己的文件系统、目录和其 它资源开放给客户机进行存取,相当于把远程文件系统以本地文件系统的形式 呈现给每一个客户端,客户端上看到的只是多了一个共享的存储盘。其结构图如 天津大学硕士学位论文 第二章分布式文件系统综述 图2 - i 所示。 段务器 图2 - 1n f s 客户机,服务器结构图 从某种意义上讲,n f s 只是一种透明存取远程文件的协议,把它看作网络文 件系统可能更合适,因为它仅提供了共享的简单机制。较为典型的特色是采用无 状态( s t a t e l e s s ) 的服务流程和基于时间的一致性,大大简化了协议和实现。但 它的可扩展性和单一系统映像等功能都不是很好,特别是它并没有为系统管理者 提供透明性,并且不支持迁移和复制,文件的放置和管理的粒度比较粗,因此不 能算作一个并行文件系统。 2 2 1n i t s 设计目标 不保存系统间的状态信息是n f s 的一个重要特性 1 3 ,服务器不保留任何关 于客户的状态信息。n f s 的主要优点是可以将占用大量磁盘空间的或用户共享的 数据只保存在一个n f s 服务器上。当其他客户机要访问这些数据时,只需通过 n f s 将其安装到本地目录进行透明的访问。 所谓透明的访问,是指访问这些文件与访问本地的一般文件的用户界面是一 致的,并不需要额外的命令。所以n f s 文件的访问对客户来说是完全透明的,可 以跨越各种服务器和丰机平台进行。它与其他文件系统的不同主要在于底层的访 问上,其他文件系统通过本地磁盘直接访问文件,而n f s 在底层通过r p c ( 远程 过程调j 廿) 协议访问远程服务器上的文件和目录。 n f s 是个到处可用和广泛实现的开放式系统。下面是n f s 最初的设计目标: 允许用户象访问本地文件一样访问其他系统上的文件;提供对无盘工作站的支持 以降低网络开销;简化应用程序对远程文件的访问使得不需要因访问这些文件而 天津大学硕士学位论文第二章分布式文件系统综述 调用特殊的过程;使用一次一个服务请求以使系统能从已崩溃的服务器或工作站 上恢复;采用安全措施保护文件免遭偷窃与破坏;使n f s 协议可移植,以便它们 能在许多不同计算机上实现,包括低档的p c 机。 大型计算机、小型计算机和文件服务器运行n f s 时,都为多个用户提供了一 个文件存储区。工作站只需要运行t c p i p 协议来访问这些系统和位于n f s 存储 区内的文件。工作站上的n f s 通常由t c p i p 软件支持。对d o s 用户,一个远程 n f s 文件存储区看起来是另一个磁盘驱动器盘符。对m a c i n t o s h 用户,远程n f s 文件存储区就是一个图标。 n f s 的客户机和服务器部分的功能如下:1 服务器目录共享服务器广播或 通知正在共享的目录,一个共享目录通常叫做出版或出口目录。有关共享目录和 谁可访问它们的信息放在一个文件中,由操作系统启动时读取。2 客户机访问在 共享目录上建立一种链接和访问文件的过程叫做装联( m o u n t i n g ) ,用户将网络 用作一条通信链路来访问远程文件系统。 n f s 的一个重要组成是虚拟文件系统( v i r t u a lf i l es y s t e ms w i t c h 简称 v f s ) 。说它虚拟,是因为它所有的数据结构都是在运行以后才建立,并在卸载时 删除,而在磁盘上并没有存储这些数据结构。显然如果只有v f s ,系统是无法工 作的,只有与实际的文件系统,如l i n u x 的文件系统e x t 2 、m s d o s 的文件系统 f a t l 6 、w i n d o w sn t 的文件系统n t f s 或f a t 3 2 等相结合,才能开始工作。所以 v f s 并不是一个真正的文件系统。 与v f s 相对,我们称e x t 2 、f a t l 6 、n t f s 、f a t 3 2 等为逻辑文件系统。v f s 是内核的一个子系统,其它子系统只与v f s 打交道,而并不与逻辑文件系统发生 联系。对逻辑文件系统来说,v f s 是一个管理者,而对内核的其他子系统来说, v f s 是它们与逻辑文件系统的一个接口。 v f s 作为实际底层文件系统( m i n i x ,e x t 2 等) 和操作系统其他模块的接口, 将不同文件系统的细节隐藏起来,从而对操作系统的其他模块和应用程序而言, 所有的文件系统都是一样的。它只存在于内存中,不存在于任何外存空间,在系 统启动时建立,在系统关闭时消亡。 2 2 2n f s 设计原理 n f s 通过客户机上的系统a p i 来文件共享。这种a p i 是通过远程过程调用 ( r p c ) 实现的,但n f s 不负责服务器的状态,也不负责c a c h i n g 。管理员可以 建立远程系统上文件的访问,以至于用户感觉不到他们是在访问远程文件。 n f s 在文件系统调用层实现分布性( 如图2 2 ) ,但对文件的读写是按块来进 行的。客户端通过一些核心函数调用来使用远程文件系统;而服务器端,由n f s 天津大学硕士学位论文第二章分布式文件系统综述 服务器监听进程来提供文件数据的操作。一般来说,最主要是两个监听进程 m o u n t d 和n f s d ,其中m o u n t d 用来监听客户的安装请求,并发送相应的应答信息, 如客户端地址和服务器地址;而n f s d 进程用来监听客户端的读写文件请求,并 返回相应的文件数据。 具体地说,c 1 i e n t 方面主要负责处理用户对远程文件的操作请求,并把请 求的内容按一定的包格式从网络发送给文件所在的s e r v e r 方面;而s e r v e r 方面 则接收c 1 i e n t 方面的请求,调用本机的系统函数进行文件的实际操作,并把结 果按一定格式返回给c 1 i e n t 方面,c 1 i e n t 方面得到s e r v e r 的返回结果后,把 它返回给用户。 文件蓉蓑潮 本地文件蕞缓调用 宾 几l l 本地 文件豢臻 车峨 l m r - : i n f s l 萝 文件麓兢 麓存 il 存i 曩存 n f se l i e n tn f ss e r v e r 图2 - 2n f s 原理图 为了提高系统的性能,在n f s 系统的客户端和服务器端采用了高速缓存技 术。与单机文件系统相比,不同之处在于,n f s 只是把对服务器端的高速缓存写 操作修改为立即写,这样,当服务器崩溃恢复后,客户需要做的只是再发送一次 请求,但这样就要求服务器的高速缓存必须立即写到磁盘,以免服务器的崩溃导 致数据的永久丢失。 , 使用客户高速缓存可以避免频繁的网络传输而提高系统性能,但这样也会带 来缓存的一致性问题。n f s 采月j 缓存有效性验汪限制了不一致数据可见的时问。 写操作发生时,数据被写入缓存和服务器。这意味着后继到达服务器的读请求将 得到新数据。但是如果多于一个客户持有特定块的拷贝,其中一个客户的写操作 将使其他客户缓存旧数据。但数据不一致情况持续的时间受到时间戳的限制。当 时问戳改变时,为该文件缓存的所有数据块都将被抛弃。 n f s 的缓存使n f s 对读写操作几乎与本地文件系统一样。但是经常性的缓存 天津大学硕士学位论文第二章分布式文件系统综述 验证消息导致了高网络负载,限制了系统的缩放性。一个研究指出超过5 0 9 6 的n f s 网络负载来自于一致性操作。 1 4 2 2 3n f s 文件和目录操作 n f s 设计时的一个重要特性就是它避免了系统间的状态信息,服务器不保留 任何关于客户的状态信息。在n f s 中,每次通过对远程文件系统上一个称之为“文 件句柄”的数据结构来实现对远程机器上目标文件的操纵。当客户机第一次打开 某个文件的时候,服务器制造一个句柄,并把该文档发回给客户机。当客户机再 对这个文件有操作请求时,就把该句柄发回给服务器。文件句柄( f i l eh a n d l e ) 是客户持有的唯一状态信息。 从客户机的观点来看,文件旬柄是一个用来标识文件的6 4 字节的字符串。 从服务器的观点来看,文件句柄可以是一个唯一的标识某个文件的任意的字节集 合。例如在l i n u x 中,文件句柄中就含有这个文件的信息,使服务器能迅速的定 义定位文件1 1 5 。 因此在n f s 系统中,一个目的文件句柄的获得是分多个步骤实现的。首先必 须得到服务器为目录和文件提供的最初句柄,这是由m o u n t 安装协议取得该n f s 服务器上的分层文件结构信息,并取得相应文件系统的根句柄实现的。在得到一 个远程文件系统的根句柄后,结合本地对文件名字解析的结果,调用n f s 的远程 过程,在当前远程文件系统根句柄下取出各个子目录的文件句柄返回,检查返回 的文件句柄,得到最后所要访问的文件句柄。以后对该文件的各种操作,就通过 该文件句柄来实现。 2 2 4n f s 文件系统的改进 n f s 主要应用于小型局域网上,并且客户机数目有限。当将它用于跨越若干 建筑或者成百上千个客户时其效果很不理想。而a f s ( a n d r e wf i l es y s t e m ) 1 6 ,是一个能够扩展到几千个用户的分布式文件系统。它是1 9 8 4 年由美国卡 内基梅隆大学( c m u ) 和i b m 联合开发的,它的全名叫a n d r e w 文件系统。a f s 的 设计目标是支持大学校同网内数千台工作站间的文件共享,它的设计特点包括: 可扩展的体系结构,以多个服务器的资料复制来支持大量的j j 户,以c a l l b a c k 机制维护多个副本问的一致性。 a f s 是围绕一组叫做c e l l 的文件服务器组织的,每个服务器的标识通常是 隐藏在文件系统中的。它的表层基本结构很像现代的n f s 实现,但a f s 是第一个 在客户端采用永久缓冲策略的文件系统,缓冲包括文件和目录资料。一旦资料被 缓冲,客户端的只读操作将无需服务器的参与。而且客户端的缓冲是永久性的, 天津大学硕士学位论文 第二章分布式文件系统综述 即保存在本地文件系统中。所以就算当客户机或服务器重启以后,系统依然能够 通过与每一个文件相连的d a t e v e r s i o n 属性名重新使用缓冲。 a f s 的一个突出特点是具有位置透明性和迁移透明性。a f s 通过文件副本来 提高系统可靠性,但是副本是只读的。a f s 中复制副本的基本单位是卷,客户读 文件的时候a f s 自动选择一个可用的副本来访问。在读文件的过程中,若当前副 本所在的服务器发生故障,访问将自动转向另一个副本,其过程对用户是透明的。 a f s 具有较强的扩展能力如图2 - 3 所示,a f s 中客户机和服务器是分开的。服 务器的集合被称为v i c e ,而客户工作站被称为v e n u s 。 图2 - 3a f s v e n u s 通过使v i c e 物理安全和在v i c e 与v e n u s 间使用加密传输来确保安全性。通 过使用简单设计和缓存来确保缩放性和性能。通过在本地名字空间中建立到共享 名字空间合适的可执行文件的符号链接来提供异构性。通过在v i c e 间复制文件 来提供完整性和可靠性。 从a f s 3 0 开始,a f s 作为t r a n s a r c 公司的产品开始进入市场。1 9 9 8 年i b m 收购了t r a n s a r c ,并使a f s 成为一个开放源码产品,叫做o p e n a f s 1 7 。a f s 的 目录对所有客户都是相同的,具有名字空间唯一性。a f s 是a f s 的根目录,其 下的子目录称为c e l l ,每个c e 1 对应于一组服务器。c e l l 的名字通常就是服务 器所有单位的域名。a f s 服务器以卷的结构存放文件,卷可以在服务器之间复制 和移动。 与n f s 不同,a f s 在客户端和服务器端都必须响应r p c ,通过这一点,客户 端就可以保持前文件的信息。a f s 的客户服务器结构限制了它的最终缩放性, 因为服务嚣必须处理所有的缓存不命中,回调和目录更改。服务器状态和文件定 位索引的大小也限制了缩放性。 如果应川程序只访问大文件的一小部分,a f s 的表现比较差。它没有解决分 布式数据或者其他大型随机访问文件的需要,也没有处理数据的不一致问题。断 天津大学硕士学位论文第二章分布式文件系统综述 开的a f s 部分无法再次与原来的文件系统连接。失效的文件服务器进程必须与仍 在运行的a f s 文件服务器重新同步,但是不能添加可能在它断开后保存在本地的 新更改。 2 3d f s 文件系统 在客户端,d f s 对a f s 进行了改造,主要差别在于使用优秀的文件颗粒共享。 微软的d f s 分布式文件系统是w i n d o w s2 0 0 0 ( s e r v e r 版) 2 0 0 3 系统自带的项 文件服务,直接在系统中进行操作即可实现。它是w i n d o w s2 0 0 0 服务器上的一 种客户服务器模式的网络服务。 尽管在基于w i n d o w ss e r v e r2 0 0 3 的网络中可以通过“网上邻居”或“映射 网络驱动器”进行资源共享,但物理位置的分散往往使我们要访问的资源显得十 分凌乱。d f s 可以让您把局域网中不同计算机上的不同的文件共享按照其功能组 织成一个逻辑的分级目录结构。系统管理员可以利用d f s ,使用户访问和管理那 些物理上跨网络分布的文件更加容易。 通过d f s ,可以使分布在多个服务器上的文件在用户面前显示时,就如同 位于网络上的一个位置。用户在访问文件时不再需要知道和指定它们的实际物理 位置。例如,如果您的共享资料分散在某个域中的多个服务器上,您可以利用 d f s 使其显示时就好像所有的资料都位于一台服务器上,这样用户就不必到网络 上的多个位置去查找他们需要的信息。 2 3 1d f s 工作原理 d f s 结构的基本组件是一个共享目录,它代表d f s 体系结构的根。通过d f s , 这些共享组成了一个单一的、连续的名字空间。客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费体验体察活动方案策划(3篇)
- 北京商家线下活动策划方案(3篇)
- 心理主题团日活动策划方案(3篇)
- 隧道模专项施工方案(3篇)
- 专科电工考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期第一次月考数学试题含参考答案
- 北京市门头沟区2023-2024学年八年级上学期第一次月考数学试题含参考答案
- 心脏病科普题目及答案
- 心理讲师面试题目及答案
- 校长职务面试题目及答案
- 2025四川能投合江电力有限公司员工招聘11人笔试参考题库附答案解析
- 湖北省圆创高中名校联盟2026届高三第一次联合测评 英语试卷(含答案详解)
- 2025年《中华人民共和国工会法》工会法律知识竞赛题库(含答案解析)
- 深圳流动摊贩管理办法
- 居家适老化改造需求评估表
- 2023年ADA糖尿病标准化诊疗指南
- 认识电影走进电影课件
- 服务器虚拟化资源调研表
- 过敏性紫癜护理PPT
- 2022年杭州市中小学教师职称考试卷
- dbx266XL双通道压缩器中文说明书
评论
0/150
提交评论