(模式识别与智能系统专业论文)afs分布式文件系统中智能监督服务的设计与实现.pdf_第1页
(模式识别与智能系统专业论文)afs分布式文件系统中智能监督服务的设计与实现.pdf_第2页
(模式识别与智能系统专业论文)afs分布式文件系统中智能监督服务的设计与实现.pdf_第3页
(模式识别与智能系统专业论文)afs分布式文件系统中智能监督服务的设计与实现.pdf_第4页
(模式识别与智能系统专业论文)afs分布式文件系统中智能监督服务的设计与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(模式识别与智能系统专业论文)afs分布式文件系统中智能监督服务的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文a f $ 分布式文件系统中智能监督服务的设计与实现 摘要 a f s ( a n d r e wf i l es y s t e m ) 是一种分布式文件系统用来共享与获得在计算机网 络中存放的文件。它基于客户端服务器的文件共享构架,为数据提供了独立的可 分配的透明环境。 本文建立在研究a f s 文件系统的架构、特性以及主要服务的关系的基础上,分析 了当前a f s 文件系统在系统资源调用上的不足,提出所设计的自动优化a f s 系统性能 的解决方案智能监督服务。智能监督服务提高了包括三个方面的内容:一是资源 调度方式的改进,二是系统资源冗余度控制,三是系统错误信息反馈。智能监督服务 设计的关键部分在于资源调度策略的制定与更新,通过将网络服务器进行合理的划分 与优先级排序以获得良好的系统资源复制策略。资源调度方案借鉴并结合了最大最小 距离聚类算法与典型负载均衡算法,并在它们的基础上加以改进。 本文详细阐述了l i n u x 平台下a f s 文件系统中智能监督服务各模块的设计实现, 着重描述了与调度策略建立与调整有关的服务器分类模块与复制顺序调整模块。通过 设计不同的实验场景并进行测试,比较不同调度方案的差异,验证了智能监督服务设 计的合理性与应用中的高效性。 本文的研究成果对分布式文件系统中优化管理与负载均衡的实现具有重要的参 考意义。 关键字:a f s 分布式文件系统,智能监督,聚类算法,负载均衡 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 a b s t r a c t a f s ( a n d r e wf i l es y s t e m ) i sad i s t r i b u t e df i l es y s t e mt h a te n a b l e su s e r s t os h a r ea n da c c e s sa l lo ft h ef i l e ss t o r e di nan e t w o r ko fc o m p u t e r s a f s i sb a s e do nc l i e n t s e r v e ra r c h i t e c t u r ef o rs h a r i n gf i l e sa n dp r o v i d i n g i n d e p e n d e n ta l l o c a t e dt r a n s p a r e n te n v i r o n m e n tf o rd a t a b a s e do nt h er e s e a r c ho fa r c h i t e c t u r e ,f e a t u r e sa n dr e l a t i o n s h i p sa m o n g m a j o rs e r v i c e si na f sf i l es y s t e m ,t h et h e s i sa n a l y s e sd e f e c t sf o u n di nc u r r e n t s y s t e mr e s o u r c em a n a g e m e n tm e t h o d ,t h e np r o p o s e sa n dd e s i g n si n t e l li g e n t m o n i t o r s e r v i c et oo p t i m u ms y s t e mp e r f o r m a n c ea u t o m a t i c a l l y i n t e l l i g e n t m o n i t o rs e r v i c ei sc o n s i s t e dw i t ht h r e em a i np a r t s ,f i r s ti st h ei m p r o v e m e n t o fr e s o u r c em a n a g e m e n t ,s e c o n di st h ec o n t r o lo ft h er e s o u r c ea b a n u d a n c y ,a n d t h i r di st h ef e e d b a c ko fs y s t e me r r o rc o n d i t i o n s t h em o s tf u n d a m e n t a l c o m p o n e n ti ns e r v i c ed e s i g ni st oe s t a b l i s ha n du p d a t et h es t r a t e g yi ns y s t e m r e s o u r c em a n a g e m e n ta n dt oo b t a i ne f f e c t i v em a n a g e m e n ts t r a t e g yt h r o u g h r e a s o n a b l ec l u s t e r i n ga n dp r i o r i t ys o r t i n gi nn e t w o r ks e r v e r s t h em a x m i n d i s t a n c ec l u s t e r i n ga l g o r i t h ma n dt y p i c a ll o a db a l a n c ea l g o r i t h m sa r e r e f e r r e da n dc o m b i n e di nr e s o u r c em a n a g e m e n ts t r a t e g yw i t hs o m ei m p r o v e m e n t a l lc o m p o n e n t si nt h ed e s i g na n dr e a l i z a t i o no ft h ei n t e l l i g e n tm o n i t o r s e r v i c ew i l lb ei l l u m i n a t e di nt h et h e s i s t w oc o m p o n e n t s 。s e r v e rc l u s t e r i n g a n dc o p yo r d e ra d j u s t i n g ,w h i c ha r er e l a t e dw i t ht h ee s t a b l i s h m e n ta n d a d j u s t m e n to fr e s o u r c em a n a g e m e n ts t r a t e g yw i l lb ed i s c u s s e dw i t he m p h a s i s b yd e s i g n i n gd i f f e r e n ts c e n a r i of o re x p e r i m e n t i n ga n dc o m p a r i n gt h et e s t r e s u l t sw i t hd i f f e r e n tr e s o u r c em a n a g e m e n ts t r a t e g i e s ,i n t e l l i g e n tm o n i t o r s e r v i c eh a sb e e np r i e dt ob er e a s o n a b l ei nd e s i g na n dh i g h e f f i c i e n c yi n p r a c t i c a la p p l i c a t i o n s t h er e s e a r c ha c h i e v e m e n t si nt h et h e s i si n d i c a t es i g n i f i c a n tv a l u ei nt h e r e a l i z a t i o no fo p t i m a mm a n a g e m e n ta n d1 0 a db a l a n c ei nd i s t r b u t e df i l es y s t e m s k e yw o r d s :a f sd i s t r i b u t e df i l es y s t e m ,i n t e l li g e n tm o n i t o r , c l u s t e ra l g o r i t h m ,l o a db a l a n c e 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:爨2 。7 年6 月巧日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。 对于保密论文,按保密的有关规定和程序处理。 研究生签名:塑u 0 7 年6 月? 日 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 1 绪论 1 1 课题的研究意义 a f s ( a n d r e wf i l es y s t e m ) 是一种分布式的文件系统,它是对n e t w o r kf i l e s y s t e m ( n f s ) 的成熟替代方案。它提供一个客户端服务器的文件共享构架,为 数据提供了独立可分配的透明环境“1 。a f s 能够使不同文件系统更有效地合作。 1 9 8 3 年美国卡内基梅隆大学的编程人员开发了a f s 。此后该大学成立了一家叫 做s r a n s a r c 的公司并出售基于a f s 的服务。1 9 9 8 年i b m 收购了t r a n s a r c ,并负 责发布新一代的a f s 文件系统产品“。 目前在美国已有多家著名院校和企业部署了a f s 的文件系统。目前a f s 已经在四 百多个世界性组织中成功应用,这些组织通过a f s 向超过两百万终端用户和成千上万 使用w e b 的用户提供信息。a f s 支持的应用包括内部报告、政策和程序的发布,以及 科学合作、软件设计的共享工作环境。a f s 支持其他的大型工作组功能和发布软件嘲。 a f s 文件系统的应用非常符合我国国情,企业与学校可以利用现有的普通机器设 备搭建高效的文件系统,而无需购买新的高端服务器,这将节省相当可观的资金。而 目前国内学校与企业中a f s 文件系统的普及度较低,单服务器文件系统模式仍然占据 相当大的比例。由于国内关于a f s 文件系统的研究起步较迟,相关a f s 方面的资料缺 乏,目前国内对于a f s 中资源调度的研究还起步于功能性研究的阶段,关于a f s 文件 管理方面的研究较多“,但还没有专门研究其调度策略方案的文献。因此对于优势众 多的a f s 分布式文件系统资源调度方面的介绍和分析是必要且有意义的。 a f s 系统中各服务分工明细并具有优秀的可扩充性,透明的访问机制和独立的命 名空间是其有别于其他文件系统的最大特点。当前的a f s 系统并非完美,其中以三个 方面的问题最为明显: 1 虽然a f s 提供了众多提高文件服务效率的方法( 卷复制,缓存技术) ,但这些 方法完全由人工执行,有可能会导致资源调度策略效率的低下。 2 由于可能有大量的文件服务器存在于a f s 环境中,如果没有进行及时合理的 配置,过于分布的系统配置可能会导致大量冗余文件的产生。 3 a f s 文件系统的规模庞大,其中存在的服务器的性能参差不齐,使得在服务 器中出现的错误难于及时地被发现和修复,影响了系统的稳定性。 因此采取一定的措施进行对a f s 系统的资源调度机制进行优化改进是必要的,使 它可以对网络的不同情况做出正确回应,由原始的人工监督控制转变为自动化的智能 监控。 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 1 2a f s 分布式文件系统概述 文件系统是文件和工具( 代码和命令) 的组合,分布式文件系统具有将网络中一 台以上计算机的资源整合并使其可及的能力。分布式文件系统有三种主要的特性:首 先,它的高可用性结构确保其可以进行大规模的扩展;第二,系统中的文件名是位置 上独立的;第三,一些诸如缓存策略或是优先级算法被应用到文件定位中以提高文件 获取的效率1 。 a f s 是一种分布式的文件系统用来共享与获得在计算机网络中存放的文件。a f s 使得用户获得网络文件就像本地机器般方便。a f s 文件系统被称为“分布式”是因为 文件可以分散地存放在很多不同的机器上,但这些文件对于用户而言是可及的,用户 可以通过一定的方式得至这些文件。 1 a f s 的架构 1 ) 服务器和客户端 a f s 基于客户端服务器结构。如图1 2 1 所示,服务器是一台机器或者是运行 在一台机器上的进程。服务器用来为其他的机器提供专门的服务。客户端是一台机器 或在其工作过程中使用服务器提供的服务进程“”。客户端和服务器的功能的区别并不 总是局限性的嘲。a f s 将网络中的机器分成两种基本的类型( 文件服务器和客户端) 并向它们指派各种各样的任务。 图1 2 1a p 3 的基本架构 2 ) 单元c e l l 单元是a f s 中独立管理运行的站点。单元的系统管理员通过进行对本单元配置与 维护的决策为用户提供优质的服务。管理员对某个单元的决策并不依赖其他单元。比 如管理员可以配置单元内客户端和服务器的数量,文件放置的位置以及如何将客户端 分配给用户“”。单元是运行在a f s 系统中的独立管理的站点。从硬件层次上理解,单 元是由属于某个单元内的文件服务和客户端的集合。 单元是独立管理的意味着它的管理员可以自主决定许多本单元配置的细节而不 需要和其他单元的管理者进行协商。比如某个单元的管理者可以决定单元内有多少独 立的机器可以运行,将本地文件存放到哪个本地路径,怎样联系卷和目录,以及将多 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 少空间分配给用户。 本地单元是指用户已经通过登陆的方式进行过初始验证的单元。从用户角度看所 有其他的单元都属于外来单元。换句话说,用户在通过登陆的过程中可以利用缓存管 理器连接到文件空间中,而登陆的过程中所有其他单元都属于外来单元。维护某个地 理位置区域中的单元是有可能的嘲,比如某大学或公司的不同部门可以选择自己单元 的管理员,相隔一定地理距离的机器可能从属于一个单元。这样的配置受限于网络的 实际通信速度。尽管a f s 的单元具有独立性,但它们一般都允许自身的本地磁盘空间 被其他单元的服务器访问,这样在不同单元内的用户就可以共享它们所选择的文件。 3 ) 卷v o l u m e a f s 将文件组分为卷。卷的引入使a f s 有可能在许多机器间分布式的共享文件并 维护各个文件的独立命名空间。卷是磁盘空间的集合,它的功能类似于用于保存一个 分区上的相关文件的容器。卷是a f s 系统资源管理盼基本单元。卷对于系统管理员与 用户都十分重要。卷的小体积使得它们易于在分区间甚至是机器间移动。系统管理员 可以通过移动卷以维持负载均衡。因此当某个文件路径中的完整内容随卷移动时,a f s 就更易于跟踪某时刻特定文件的位置。卷的移动会被自动记录,因此用户无需亲自跟 踪文件的实时位置”。 卷可以有很大的体积,但是他们一般都小于一个分区。卷是a f s 中主要的管理单 元并且具有简化管理工作和提高整个系统性能的特性。 2 a f s 的特性和优化系统的策略 1 ) 透明的访问机制和独立的命名空间 a f s 易于使用的一个特性就在于它提供了在某个单元内文件的透明访问机制。尽 管a f s 的单元是独立管理的,但在实际应用中管理员可能会为了让其他用户更便捷的 访问与整理本地文件,a f s 允许各单元将各自的本地文件空间联合为一个全球文件空 间( g l o b a lf i l es y s t e m ) 。这种方法使文件获得变得透明用户获得文件时候不 需要知道该文件具体的存放位置,而只需要知道文件的路径就可以了。某文件的路径 在所有单元中都是相同的。因此每台机器上的用户都可以相同的方法去浏览文件,这 意味着a f s 为用户提供了文件的独立命名空间。用户不需要知道某文件是存放在哪个 服务器上面的,他只需要通过文件的路径名称去获取文件,a f s 会自动将文件的路径 转换为机器的物理位置。 除了透明的访问机制,a f s 也创建了统一的命名空阃,文件的路径是唯一的且和 在客户端上的用户无关。单元内文件的树形结构图从任何客户端上看都是一样的因为 单元中的文件服务器集中存储所有的文件且将他们以相同的方法提供给客户端。 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 图i 2 2 透明的访问机制和独立的命名空间的范例 如图1 2 2 所示,在某学校的a f s 网络中,当用户在访问目录a f s e d u t e s t 里 面的文本文件时,用户只需输入该目录的路径就可以索取文件,而无需经过先确定所 需文件服务器的i p ,再登陆到该服务器上获得文件的过程。a f s 中透明的访问机制和 独立的命名空间能够极大的提高用户访问的效率。 2 ) 卷复制( v o l u m ec o p y ) a f s 在服务器和客户端上引入如下的机制以增强其效率和稳定性。a f s 中的复制 就是通过拷贝将一个卷中的资源复铝4 到单元中一个或多个的文件服务器上去。复制的 一大优势就是它增加了卷中内容的可及性。在服务器上,a f s 允许管理员将经常使用 的卷( 比如存放常用程序的二进制文件的) 进行复制。复制意味着要进行将某个卷只 读地拷贝( 有时称为克隆) 到多个文件服务器的过程。装有某个卷的文件服务器的失 效并不影响到用户的使用,因为该卷的内容可以被其他机器继续维持。复制意味着一 个机器并不会因为常用卷内文件的频繁访问而负载过重。 如图1 - 2 3 ,服务器a 通过卷复制将资源调度到了服务器b 和c 上,如果有客户 端索取该卷资源的时候,网络中就已有三台机器提供文件服务了,这样资源的可及度 和传输效率都可以得至一定的提高。 图i 2 3 卷复制过程 硕士论文 a f $ 分布式文件系统中智能监督服务的设计与实现 复制过程对于缺少磁盘空间的单元而言不是必需的,复制也不应在一个分区内进 行,因为该环境下的复制只会占用磁盘空间,不会提高任何系统的效率。复制只适用 于那些频繁访问且内容较为稳定的卷,比如系统的二进制文件和其他在用户层上挂载 的卷。 卷资源的复制调度是a f s 分布式文件系统中最常用的资源调度策略,也是智能监 督服务设计的重点参考之处。 3 ) 缓存技术c a c h e 在客户端上,a f s 使用缓存技术以提高效率。当某工作站上用户索取文件的时候, 客户端上的缓存管理器将文件请求发送到运行适当服务器的文件服务进程。用户不用 知道该请求发到了哪台机器。缓存管理器会自动决定文件的位置并在获得所需文件后 会将其放到缓存中。缓存管理器是“寄居”于客户端而非文件服务上的一部分,它负 责与服务器进程进行通信。缓存是本地磁盘或内存的部分空间,它被用作暂时的文件 存储n 1 1 。缓存提高了系统效率,因为客户端在索取同一文件时是无须发送文件请求的。 由于文件被缓存在本地,索取相同文件的行为得以快速的进行。 就像复制提高了系统的可利用性那样,缓存增加了a f s 存取文件的速度和效率。 每个a f s 客户端贡献自己的一部分磁盘或内存空间到用于暂放文件的缓存中。当客 户端上某个应用程序要求从a f s 中获取文件时,该文件请求就传送到客户端的缓存管 理器中。缓存管理器是客户端上系统内核的一部分,它将本地应用程序的文件请求转 换为跨网络的文件请求并传送到存储所需文件的服务器上。当缓存管理器在该服务器 上获得所需文件时,它将该文件存放在缓存中再将其传递给应用程序矧。下次客户端 对该文件的请求就可以在本地缓存中直接获取而无需通过文件服务器,节省了系统的 带宽资源。 3 a f s 的主要服务 1 ) 文件服务 文件服务是a f s 服务器的最重要的部分,它运行在每个文件服务器上并在网络内 部提供相同的服务。文件服务的功能描述如下: ( 1 ) 传送需求的程序和数据资料到的客户端的工作站并当工作站使用完毕后重 新存储数据。 ( 2 ) 维护用户创建用来组织文件的树形路径结构。 ( 3 ) 处理复制、移动、仓4 建和删除文件和文件夹的请求 ( 4 ) 保持记录每个文件和路径的状态信息( 包括大小和最新的修改时间) ( 5 ) 确保特定文件和路径的文件请求是需要用户授权的 ( 6 ) 创建文件之间的标识和连接 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 2 ) 基本监督服务 基本监督服务在所有的服务机上运行,它可以自动重新启动失败的进程,确保服 务器上的其他服务进程尽可能长时间的工作。 基本监督服务是一种只在需要时才使用的服务,它分担了系统管理员监控系统运 行的职责。基本监督服务的主要任务是使系统消耗最小化。基本监督服务的功能描述 如下: ( 1 ) 不断监控本地服务器上的其他进程以确保它们正确运行。 ( 2 ) 在无需人工操作的情况下自动重新启动失败的进程。 ( 3 ) 接受系统管理员发出的请求,确认服务进程的状态、安装和启动新进程、暂 时或永久停止进程以及手动重启死锁进程。 ( 4 ) 帮助系统管理员管理系统配置信息。 不像其它的a f s 文件服务器进程,基本监督服务并不维护单元内所有机器的数据 库,它只负责维护在本地机器上运行的服务所需的数据库。 在所有的a f s 服务实体中,基本监督服务是多线程处理的程序。它被配置至少分 配两个线程以保证处理接受到基本监督服务的远程过程调用。最多有四个线程用来维 护该任务。 用户空间的进程b o s s e r v e r 负责管理a f s 服务进程、软件镜像、本地安全和单元数 据库文件。它允许管理员执行服务器上运行的任意a f s 程序并实现远程过程调用的接 口。除了分配线程远程调用的任务之外,还有一个名为b o z o d a e m o n 0 的线程。它负责 持续跟踪系统和新二进制程序的重启时间。该线程每隔6 0 秒被唤醒一次并在启动时检 查预计重启的时间是否到达。如果整个系统重启的时间已经到达,线程将唤醒本地机 器的a f s 服务并且重新启动基本监督服务的二进制程序文件从而实现a f s 服务的重启。 3 ) 卷服务和卷位置服务 卷服务:进行各种各样的卷的操作( 建立、删除、移动和复制) ,帮助系统管理 员在文件服务器之间移动卷以平衡各个机器之间的负载。 卷位置服务:维护卷位置数据库( v l d b ) ,该数据库记录了某个单元里面所有卷的 信息,特别是从一个服务器移动到另一个服务器上的卷的位置。卷位置服务是文件透 明获取机制的核心服务。当用户打开文件的时候,缓存管理器向卷位置服务器发出请 求,希望得到存有所需文件的机器歹u 表。缓存管理器在得到列表之后就从其中某个相 关的文件服务器中请求获取文件。文件地址的定位过程对用户而言是不可见的,因为 用户只需知道文件的路径名就可以获取文件。卷位置服务使得a f s 有可能通过增加文 件服务器的方式以提高系统内文件的可及性。 6 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 卷位置数据库( v l d b ) :卷位置数据库的作用是允许a f s 应用程序发现单元内任何 卷的位置。卷位置数据库自身的结构是非常简单的,数据库的拷贝可能有两个或多个 站点进行维护。一些和数据相关h a s h 表的被用作卷位置数据的索引。其中一个h a s h 表基于卷名称来查找卷的位置。其他的h a s h 表贝4 基于数据库中的其他信息来查找可 用的数据库。在大型站点中的卷位置数据库可能拥有上千百个实体。因此一些措施被 用作对于卷位置数据库进行基本的优化。比如卷位置数据库为服务器的地址以及i p 地址建立单独的索引以便加速查找。卷位置数据库也提供了用户删除数据实体的列 表。直到该列表的空间被耗尽的时候,卷位置数据库将停止增长。卷位置数据库和其 他重要的a f s 数据库一样都使得a f s 系统中资源的可及性得到提高“”。 图1 2 4 反映了a f s 系统中客户端与卷服务、卷位置服务以及文件服务在文件传 输以及卷操作时之间进行的相互操作。 图1 2 4a f s 中客户端与各服务间的相互操作 4 a f s 文件系统的优势与不足 1 ) a f s 文件系统的优势 相对于一般学校或企业采用的固定的一台或几台机器作为f t p 或n f s 服务器,a f s 文件系统最大特性是其易于扩充性。 ( 1 ) 系统管理员可以通过部署多个a f s 文件服务器从而降低系统资源的消耗率。 任何机器只需通过不复杂的配置就可以将它们加入a f s 的环境,而无需另起炉灶搭建 新的f t p 或n f s 服务器,因此a f s 系统非常适合在大型的网络中应用嘲。新的文件服 务器并不需要很好的配置,它只是用来为系统提供一部分的磁盘空间或是运算能力, 所以系统维护的成本将得以下降。 ( 2 ) 当原始服务器的磁盘容量不够的时候,普通的文件服务器系统往往难于应 对,因为单纯的更换大容量磁盘或者是挂载一个或多个磁盘的方法并不能从根本上解 决存储空间紧缺的问题。a f s 系统为解决这样的问题提供了一个自由扩充的接口,由 于服务器的易于扩充性,若干闲置的机器都可以加入a f s 的环境从而分享磁盘空间。 硕士论文 a f s 分布式文件系统中智能监督服务的设计与实现 这样从用户的角度来看,目录a f s 的容量是无限大的,不需要担心出现无法扩充磁 盘空间的情况。 ( 3 ) a f s 的易扩充性使得各个服务器的职责得以更加的明确,有的服务器可以偏 重提供文件服务;而有的可以偏重提供保护服务;有的则可以提供卷服务服务器 的任务不会相互干扰,也不会混为一谈,这样各个服务器的性能可以达到最大程度的 优化。 ( 4 ) a f s 文件系统相对于一般的文件系统( f t p ,n f s ) 而言还更加安全,a f s 认证 服务所提供的交互式认证机制增加了服务器的安全性“”。此外由于a f s 存储文件是以 卷为单位的,因此卷里面的病毒文件并不会直接作用于服务器,这样也保证了文件服 务器的安全嘲。 2 ) a f s 文件系统的不足 易于扩充性也给a f s 文件系统带来了一定的缺点。由于可能有大量的文件服务器 存在于存储环境中,如果没有进行及时合理的配置,这样的系统可能会由于过于分布 而导致效率的严重下降。虽然a f s 提供了卷位置服务,卷位置数据库以及卷复制机制 以尽可能的提升分布式文件系统的性能,但实际上当前的a f s 系统的卷复制过程完全 是由人工执行的。 若在有多个用户需要索取某常用文件的情况下,虽然该文件可以通过卷复制的方 式在多个文件服务器上存放。但是如何复制卷,在哪个文件服务器上复制卷,以及如 何判断该卷能否被复制都是需管理员自主决定。这样自主的复制可能会带来以下的两 个问题: ( 1 ) 复制卷仍然不能满足需求,系统的负载仍然偏高。 ( 2 ) 卷复制的过量,占用大量磁盘空间。当系统对某个文件的特定需求不再像以 前那样大时,先前复制的卷若不能被及时删除,势必将变成冗余的无用文件瞰1 。 此外由于a f s 文件系统规模庞大,管理员很难及时了解服务器中出现的故障情 况。而大量故障服务器的存在将对资源调度策略以及系统的安全带来隐患。 1 3 论文的主要内容及组织结构 1 论文的主要内容 本文在介绍分析a f s 文件系统的整体框架与各模块的关系后,将主要就a f s 的特 性和优化系统性能的各种措施进行阐述,总结分析出当前a f s 文件系统中的优势与不 足,设计出适合当前a f s 文件系统的改进方案智能监督服务,并就其中的算法的 设计进行分析。文中将详细阐述智能监督服务在r e db a te n t e r p r i s el i n u x4 下的 实现以及其性能测试结果,分析设计方案的优劣。 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 2 论文的组织结构 本中共分为六章,首先介绍阐述a f s 系统的特性,之后重点讨论a f s 智能监督服 务的设计、实现与测试过程。 第一章:介绍a f s 文件系统的历史和研究现状,阐述了a f s 系统的架构与特性, 分析出当前a f s 文件系统中的优势与不足,提出课题研究的意义。 第二章:结合负载均衡集群技术和聚类分析技术在实际生产生活中的应用进行讨 论,评估典型负载均衡算法和最大最小距离聚类算法在a f s 系统中应用的可行性。 第三章:提出合适a f s 系统智能监督服务的设计方案,并就智能监督服务中涉及 的网络延迟聚类算法与反馈队列调整算法进行分析。 第四章:对智能监督服务实现中的各个模块进行详细的阐述,着重描述了与调度 策略建立与调整有关的服务分类模块与复制顺序调整模块。 第五章:对智能监督服务在实际环境中的测试结果进行总结和分析,通过实验分 析智能监督服务的性能。 第六章:总结了本文的工作并提出了的一些扩展思路。 9 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 2 相关技术基础 在a f s 智能监督服务的设计与实现过程中,最关键的部分就是如何实现系统资源 的智能调度,以求尽可能的实现系统负载的自动均衡,提高系统文件传输效率。因此 相应的技术需要被借鉴并应用至a f s 环境中。 2 1 负载均衡集群技术 2 1 1 技术概述 集群就是一组计算机,它们作为一个整体向用户提供一系列的网络资源。这些单 个的计算机系统都作为集群的节点( n o d e ) 。将多台计算机组织起来进行协同工作以 模拟一台功能更加强大的计算机来解决问题的技术称为集群技术嘲1 。 在计算机集群中,计算任务或网络流量被分配到各处理节点上并行执行,称之为 负载。当整个系统的任务较多时,分配给各个节点的负载可能会不均衡,从而导致整 个系统的利用率下降。 负载均衡集群( l o a db a l a n c ec l u s t e r ) :该系统使负载可以在计算机群集中可 以尽可能的平均的分摊处理。该负载可能是需要均衡的应用程序处理负载或网络流量 负载”1 。这样的系统非常适合于运行同一组应用程序的大量用户。每个节点都可以处 理一部分负载,并且可以在节点之间动态的分配负载,以实现均衡,对于网络流量也 是如此分担处理。如何有效的将各个网络任务均匀的分布到不同的节点进行分担,使 得各个节点的利用率达至最大,这就是研究负载均衡机制的目的。 负载均衡主要研究三大策略问题: ( 1 ) 传输策略:决定何时进行负载的执行或迁移。 ( 2 ) 定位策略:定为什么样的目的计算节点作为负载分派的目的对象。 ( 3 ) 选择哪一个负载执行或迁移。 负载均衡技术提供了一种廉价而有效的方法来扩展服务器带宽、增加网络吞吐 量,提高数据处理能力,同时又可以避免单点故障而引起的系统瘫痪。 负载均衡算法通过一定的调度策略,把对应的任务分配出去。对于不同的应用场 合( 如电子商务网站、或是网络文件系统) ,使用的均衡算法是不同的,因此负载均 衡算法就有了多种的形式m 。 2 1 2 负载均衡算法的分类 负载均衡的研究分为两个方向:即静态负载均衡和动态负载均衡m 1 。 1 静态负载均衡是采用一定的算法在任务执行前即确定分配到各个节点的方案, 不考虑系统瞬时状态的变化,基于对负载的计算量、通信关系和依赖关系。任务投入 后就不可再转移。静态负载均衡的典型算法有轮转调度、加权轮转调度等算法。 l o 硕士论文a f $ 分布式文件系统中智能监督服务的设计与实现 传统静态负载均衡的算法的特点是:网络中的服务器z o 、z 1 z 。中的按照固定 的排序进行调度,该调度的方案在系统出现变化的时候并不会发生改变。 2 动态负载均衡可根据当前运行状态自适应的决定负载策略,动态方法是通过 集群系统的实际负载信息,动态的将负载在各个节点进行分配和调整。以消除系统中 存在分布的不均匀性。动态负载均衡的典型算法有最少连接调度、源地址散列调度等 典型算法叫嘲1 。 动态负载均衡算法的核心思路是在系统运行的时候通过不断评判系统内部服务 器负载或服务器所连接客户端的情况来动态的调整资源调度策略的方法咖1 。 2 1 3 典型负载均衡算法a f s 系统中的应用评估 1 ) 静态负载均衡算法 算法分析:该算法优点是可以简便快速的将服务器进行分类,从而快速的进行服 务器之间资源的分配;但同时该算法对于系统内部的服务器的情况的应变能力不强, 有可能将非优化的方案引入资源配置,有可能出现以下的情况: 图2 1 3 1 静态负载调度算法在a f s 环境中应用的缺陷 如图2 1 3 1 所示:由于采用了静态负载均衡的顺序的卷复制方式,所有的服务 器的卷复制顺序都已经固定,而在系统运行过程标记为灰色x 。和托,出现了“故 障”( 处理能力较差或负载偏高) 。这样当服务器五。发现自身负载过大的时候,它 将常用卷依次复制到、如和中,由于凰:和的负载过大或处理能力较弱, 因此只有当卷复制到的时候。的负载才被真正的“分担”。如果,可以发现 凰。是最适合卷复制的服务器,就可以节省卷复制到托:和如上以及在j 和如进 行负载判断的时间,系统的传输效率也可以得到高。 2 ) 动态负载均衡算法 算法分析:该算法的优点是可以一定的思路正确的发现系统中最合适资源调度的 服务器,但该算法的实现往往需要系统对于网络中所有的服务器的状态进行监控。但 1 1 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 动态负载均衡算法在对于多个服务器的负载或是客户端连接数进行评估中往往遇到 以下的情况: 图2 i 3 2 动态负载调度算法在a f s 环境中应用的缺陷 如图2 1 3 2 所示,当系统某个节点的负载过高,动态负载均衡算法将依照一定 的评定原则对于系统中的疗个服务器的负载或是客户端的连接数进行查询。该查询时 间的长度取决与两点:网络中服务器的数量和服务器的连接情况。整个查询时间7 ;凹 可以表示为: h z j d 盯= 五十五十五+ + l + l + i + + = 正 i 。o 其中z 为系统花费在标号为服务器f 上的查询时间。可见如果疗的数量越大,动 态负载均衡算法执行每次判断的花费时间毛。就会越长;而如果某些服务器的网络 状况不良或者处理性能低下,则其对应的查询时间z 就会延长,而由这些服务器引起 的无谓的延迟在系统每次负载监测的时候会反复的出现,这样。的就很可能会进 一步延长,从而导致系统性能的下降嘲1 。 由于a f s 文件系统具有易扩展的特性,管理员可以轻易的将任何机器加入到网络 中充当服务器,因此网络中的服务器往往数量较大而且性能参差不齐,这就使得上述 情况更易于发生。因此动态负载均衡算法需要采取对应的措施使减小其检测的范围以 适应a f s 分布式文件系统。 2 2 聚类分析技术 2 2 1 聚类方法综述 聚类( c l u s t e r i n g ) 就是将物理或抽象对象的集合分组成为由类似的对象组成的 多个类的过程。由聚类生成的类是一组数据对象的集合,这些对象与同一个类中的对 象彼此相似,与其他类中的对象相异哺1 。 聚类分析的算法可以分以下几大类。“:层次法、划分法、基于密度的方法、基于 两格的方法、基于模型的方法等 层次法( h i e r a r c h i c a lm e t h o d ) :该类方法对给定的数据集进行层次的分解,直 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 到某种条件满足为止。层次法可以细分为“自底向上”和“自顶向下”两种方案。典 型的算法有:c u r e 算法、b i r c h 啪1 算法、c a c t u s 。”算法等。 划分法( p a r t i t i o n i n gm e t h o d ) :给定一个有n 个元组或者记录的数据集,划分 方法将预先构造k 个分组,每一个分组就代表一个聚类,k 朋x i z 2 - z , i ,则取x ,为第三个聚类中心。其中m 为 最大最小距离法中的检验参数,通常取( o 5 珊 埘 a v e r g e 0 z :一z l l ,i z 3 一z :闭。 如满足条件,将对象工作为新的聚类中心,重复第( 6 ) 步,直到再找不到符合条 件的新的聚类中心,算法结束。 2 ) 算法的参数分析 运用最大最小距离算法找到的初始聚类中心的结果与起始点z 的选取以及检验 参数m 有很大关系1 。如果没有样本分布的先验知识,只有通过多次试探使结果优 化;如果有某些先验知识,用来指导检验参数的选取,算法可以较快收敛。通过分析 可以知道,参数m 的取值与算法获得的初始聚类中心的个数成反比关系。因为m 越 小越容易满足第( 7 ) 步中的检验条件,即需要寻找的聚类中心之间的距离要求不是特 别远,这样就越容易找勐新的聚类中心。 设整体数据集的样本规模为n ,每次寻找新的聚类中心时,首先第( 3 ) 步扫描一 遍数据库找到每个对象到已有聚类中心的最近距离,第( 4 ) 步再扫描一遍数据库得到 最大最小距离,所以共需要进行2 n 次距离计算。若算法结束找到k 个聚类中心, 最大最小距离算法的时间复杂度为:o ( n k ) m 。 1 4 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 样本的规模决定了最大最小距离算法的计算量的大小。最大最小距离算法并不适 用于拥有成千上万个对象的大型数据库的处理中,否则计算量大,执行效率低,并且 所需要的存储空间也会显著增大。但对于a f s 分布式文件系统,数据样本的规模是可 以控制的,有利于最大最小距离算法的应用。 2 2 3 最大最小距离算在a f s 系统中的应用评估 1 应用的可能性 最大最小距离算法有应用在a f s 环境智能监督上的可能性。原因如下: ( 1 ) 最大最小距离算法和智能监督服务在核心思想上类似性:最大最小距离算法 是找出和聚类中心距离最远的节点作为候选聚类中心,而实际a f s 智能监督服务的设 计思路则是将系统的资源最广泛的传播到所需的位置。最大最小距离算法的优势就在 于能够更快的发现系统中相对初始节点“较远”的服务器群集,就整个系统而言基于 该算法的调度策略有更利于文件在网络中的传播。 ( 2 ) 最大最小距离算法聚类个数的不确定性:最大最小距离算法得到聚类个数不 是确定的,它和网络中节点的位置关系和m 值有关1 。虽然i r 值的不确定性是最大最 小距离算法的缺点,但是系统管理员可以通过多次的实际操作经验的来预估m 值的大 小并在以后的网络维护工程中逐渐的调整。仿真实验表明:相对其它聚类数目初始固 定的聚类算法1 ,最大最小距离算法能够智能地确定初始聚类种子个数,对不规则状 数据集进行有效聚类,所得结果往往更可能贴近真实的网络情况,从而得到效率较 高的资源调度策略。 2 应用需注意的问题 因为最大最小距离算法毕竟是基于节点之间的距离的,因此在将其应用到a f s 分布式文件系统中时,应该注意以下的这些问题。 ( 1 ) 每个服务器都有可能是初始点z 0 ,由于访问频率高的卷一开始可能存放于 任何一个服务器,因此初始点的选择是随机化的。 ( 2 ) 算法的过程不应该影响正常的系统运行,调度策略设计的初衷是使服务器的 负载均衡,文件需求任务能尽快从服务器分散到各个客户端。因此在实际应用的时候, 应该使得服务器能的工作与算法的运行不发生冲突。 ( 3 ) 离初始聚类中心z n 最“远”的点不见得是下个聚类中心z l ,由于上文提到 的由于网络故障而导致的传输延迟,因此距离某个服务器的网络延迟最大的服务器需 要通过一定的判断后才能假设其成为聚类中心。 ( 4 ) 网络位置合适的服务器可能由于磁盘空间根本就不足以装下整个卷的容量, 或是该文件服务器被管理员设定作为特定用途,从而不适合进行卷复制,这样算法就 有可能因为外在条件导致死锁或是出现意想不到的服务器故障。 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 ( 5 ) 服务器高负载的时候是不适合进行聚类划分的,基于网络延迟的聚类划分只 要当服务器正常运行的时候才可以地得到正确结果。而当服务器的负载很大时,它对 于其他任何节点的网络延迟都有可能比平时大很多,这样误差就会相应的增大。 ( 6 ) 单节点聚类的生成对于网络资源的调配是不利的。最大最小距离算法的执行 有可能生成单节点聚类。单节点聚类在日后的资源调度中会出现以下问题:由于智能 监督服务的设计原则是在系统负载过高或客户端连接过多的情况下在聚类划分的服 务器群集中进行负载与客户端连接的分担,而若某群集只有存在聚类中心这单个节点 服务器,将导致该群集在负载过大的时候无法进行有效的负载调度,从而导致网络中 的某些区域的客户端无法快速的获取所需文件。 基于以上六点考虑,最大最小距离算法需要进行对应优化与改造才能应用在对 a f s 网络环境进行优化改造的智能监督服务中。 2 3 本章小结 本章结合负载均衡集群技术以及聚类分析技术在实际生产生活中的应用进行讨 论,评估典型负载均衡算法与最大最小距离聚类算法在a f s 系统中应用的可行性,并 就算法需要改进的地方进行分析和讨论。 1 6 硕士论文a f s 分布式文件系统中智能监督服务的设计与实现 3 a f s 智能监督服务的设计 3 1a f s 智能监督服务的设计目标 针对第一章关于a f s 分布式文件系统的介绍中可以发现当前a f s 文件系统存在的 不足主要表现在,人工的资源调度策略难以保证策略执行的高效性,卷复制操作占用 系统存储空间并造成存储空间冗余,系统故障难以发现与汇报这三个方面。 因此需要设计适合的方案来解决系统中出现的这些问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论