




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于广域网群集的共享文件搜索策略研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 计算机群集是一种把多台计算机组织越来,通过统一的资源整合与任务调 度,模拟成一台功能更为强大的机器,通过分布式计算来协同完成各种任务的技 术。随着计算机硬件性能的提高,群集技术的高可用性和扩展性为实现容错冗余 和执行高性能计算提供了可靠的硬件平台。 随着网络技术的发展,尤其是网格计算的提出,人们对高性能计算的要求不 断提高,传统群集在地理位置上集中的要求成为瓶颈,影响了群集的扩展。另一 方面,传统群集节点间缺乏有效的中间结果数据交互手段,限制了群集整体计算 效率的提高 本论文介绍了计算机群集和共享文件搜索策略的发展和国内外研究现状,详 细地阐述了目录服务与虚拟机技术的技术特征和作为实验支撑技术的优势,以及 具有代表性的c a c h e 搜索策略的优点与原理,通过分析计算机群集的基本构架和 相关技术提出计算机群集的局限性,建立了一种能跨越局域网的群集模型,并结 合虚拟机技术实现广域网群集,然后分析和论述广域网群集与c a c h e 搜索策略的 结合点,提出了一种基于搜索代理的广域网群集共享文件搜索策略,以实现群集 节点同的中问结果数据交互。本文最后将进行实验测试,通过测试结果的对比来 验证相关模型和策略的可行性。 关键词:广域网群集;共享文件搜索;目录服务;虚拟机 a b s t r a c t c o m p u t e rc l u s t e r i st h et e c h n o l o g yt h a t m a n yc o m p u t e r sa r eu n i t e da n d o r g a n i z e dt oe x e c u t et a s k sa sau n i f i e da n dm o r ep o w e r f u lm a c h i n eb yn 渤u r i 瑚 i n t e g r a t i o na n dt a s ks c h e d u l i n g w i t ht h ei m p r o v e m e n to f t h ec o m p u t e rh a r d w a r e , t h e l l i g ha v a i l a b i l i t ya n ds e a l a b i l i t yo ft h ec l u s t e rh a v ep r o v i d e dar e l i a b l ep l a t f o r mf o r d a t ar e d u n d a n c ya n dh i g hp e r f o r m a n c ec o m p u t i n g 戳t l it h ed e v e l o p m e n to fc o m p u t e rn e t w o r k , e s p e c i a l l yt h a to fg r i dc o m p u t i n g , p e o p l eh a v eh a dg r e a t e ra n dg r e a t e rd e m a n d so nh i g hp e r f o r m a n c ec o m p u t i n g h o w e v e r , d e c i d e db yt h ea r c h i t e c t u r eo fac l u s t e r , a l ln o d e sm u s tb el o c a t e di nt h e 8 a n l el a n , w h i c hp r e v e n t sac l u s t e rf r o me x t e n d i n go u t s i d e b e s i d e s , l a c ko f c o m m u n i c a t i o n so ft e m p o r a r yc o m p u t i n gd a t aa m o n gd i f f e r e n tn o d e sr e d u c e st h e c o m p u t i n ge f f i c i e n c yo f t h ew h o l ec l u s t e r t i l i st h e s i si n t r o d u c e st h ed e v e l o p m e n ta n dt h ec u r r e n tr e s e a r c h e so fc o m p u t e r c l u s t e ra n df i l es h a r i n gs e a r c h , d e s c r i b e st h ec h a r a c t e r i s t i c sa n da d v a n t a g e sa st h e t e c h n i c a lb a s i so fa c t i v ed i r e c t o r ya n dv i r t u a lm a c h i n e ,b e s i d et h ea d v a n t a g e sa n d t h ep r i n c i p l eo ft h er e p r e s e n t a t i v ec a c h es e a r c hs t r a t e g yi nd e t a i l ,p o i n t so u tt h e s h o r t c o m i n g so fac l u s t e rb ya n a l y z i n gt h ea r c h i t e c t u r ea n dc o r r e l a t i v et e c h n o l o g i e s , e s t a b l i s h e sam o d e lo fac l u s t e ro v e r 硝n 、i t ht h ea s s i s t a n c eo fv i r t u a lm a c h i n e t e c h n o l o g i e s , a n a l y z e st h ei n t e r s e c t i o n so ft h ec l u s t e ro v e rw a n a n dc a c h es c a r e h s t r a t e g y , p u t sf o r w a r das t r a t e g yo ff i l es h a r i n gs e a r c hb a s e do ns e a r c ha g e n ti na c l u s t e ro v e rw a nt or e a l i z ec o m m u n i c a t i o n sw i t l lt e m p o r a r yc o m p u t i n gd a t aa m o n g d i f f e r e n tn o d e s , a n dd e m o n s t r a t e st h ef e a s i b i l i t yo f t h em o d e la n dp o l i c i e sb yc a r r y i n g o u td i f f e r e n tt e s t i n g s k e y w o r d s :t h ec l u s t e ro v e rw a n ;f i l es h a r i n gs e a r c h ;a c t i v ed i r e c t o r y ; v i r t u a lm a c h i n et e c h n o l o g y 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均己在文中以明确的方式标明。 本人完全意识到本声明的法律结果由本人承担。 论文作者签名:身寸墨斌、 日期:冽奔r 月g 日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:翻奎碧g e t 期:砷年j 一月趱日 导师躲及沏娣 日期7 柳年r 月巧日 第一章引言 1 1 研究背景 2 0 世纪9 0 年代以来,计算机进入了以网络为中心的新时期,网络也因此成 为资源共享、协同工作的有效工具,网络上汇集的成千上万的计算能力、信息资 源、软件平台、存储设备和控制系统共同构成了生产、传播和使用知识的重要载 体i n t e m e t 实现了计算机硬件的连通,w e b 实现了网页的连通,分布式计算技 术的目标是实现i n t e m e t 上所有资源的全面连通。 分布式计算技术是把网络上分散于各处的资源汇聚起来,利用空闲的计算容 量完成各种大规模、复杂的计算和数据处理任务【”它要把整个i n t e m e t 整合成 一台巨大的超级计算机,实现计算资源、通信资源,软件资源、信息资源、知识 资源的全面共享,为现代信息技术开创一个新的纪元。 随着信息全球化、计算多元化需求的增长,不但要求计算领域能进行并行处 理,而且还要求中间件和其它组件之问的耦合应当尽量地宽松,使分布式计算应 用可以按照多种途经来组合和分拆,其中典型的方案有:w e b 服务( w e bs e r v i c e ) 、 计算机群集、网格计算等 w e b 服务是对w e b 进行扩展,为相互问连接的软件提供服务。w e b 服务是 一种分布式应用程序,它可以通过编程并使用标准的i n t e m e t 协议,像h r r p 和 x m l ,将功能展示在互联网和企业网内部。w e b 服务技术体系是由w 3 c 提出的, m i c r o s o f t 的n e t 、s u n s o f t 的s u no n e 、i b m 的w e bs e r v i c et o o l k i t 均把w e b 服务作为其中的重点技术。 计算机群集是一种把多台计算机组织起来,通过统一的资源整合与任务调 度,模拟成一台功能更为强大的机器,通过分布式计算柬协同完成各种任务的技 术。随着计算机硬件性能的提高,群集技术的高可用性和扩展性为实现容错冗余 和执行高性能计算提供了可靠的硬件平台。 网格计算将分布在不同地理位置的计算机资源包括c p u 、存储器、数据库、 远程设备等,通过i n t e r n e t 组成充分共享的资源集成,从而提供一种高性能计算、 管理及服务的能力。支撑平台包括g l o b u st o o l k i t ,c o gk i t s ,m p i c h g 2 等【2 l 。 在实际运用中,网格计算与计算机群集技术密切相关1 3 1 1 4 1 。 在上述方案中,计算机群集起着非常重要的作用。例如,为了保证w e b s e r v i c e 的顺利运作,服务提供方通常会采用冗余机制或者负载均衡机制来解决 单点敌障和带宽瓶颈等问题,高可用群集和高扩展性群集就是其中一种很常用的 手段;网格计算系统划分任务时,通常以群集为单位进行划分,而不是某台单独 的计算机,然后再由群集系统通过内部任务调度和资源分配机制对计算任务进行 细划,分配到各个计算节点中。 目前,计算机群集按不同功能和应用场合可以分为三类5 j : ( 1 ) 高性能计算机群集( h i g hp e r f o r m a n c ec o m p u t i n gc l u s t e r ,h p cc l u s t e r ) h p cc l u s t e r 是指以提高科学计算能力为目的的计算机群集,是一种并行计 算( p a r a l l e lp r o c e s s i n g ) 集群的实现方法,也是目前网格计算中最常用的架构。 h p cc l u s t e r 把计算任务分成不同的子任务,把这些子任务分配到不同的节点并 发执行,等各节点完成任务后再把结果重新整合 由于在某些廉价而通用的计算平台( 如i n t e l + l i n u x ) 上运行并行计算群集可 以提供极佳的性能价格比,所以近年来这种解决方案越来越受到用户的青睬。比 如壳牌石油( s h e l l ) 所使用的由i b m x s e r i e s 服务器组成的1 0 2 4 节点的l i n u x h p c c l u s t e r 是目前世界上计算能力最强的计算机之一。 h p cc l u s t e r 向用户提供一个单一计算机的界面。前置计算机负责与用户交 互,并在接受用户提交的计算任务后通过调度器( s c h e d u l e r ) 程序将任务分配给 各个计算节点执行;运行结束后通过前置计算机将结果返回给用户 ( 2 ) 高可用性群集( h i g ha v a i l a b i l i t yc l u s t e r ,h ac l u s t e r ) 可用性是指一个系统保持在线并且可供访问,有很多因素会造成系统宕机, 包括为了维护而有计划的宕机以及意外故障等,高可用性方案的目标就是使宕机 时间以及故障恢复时臼j 最小化,可以容忍的宕机时问明确的说明方案的全面性、 复杂性和成本。h a c l u s t e r 就是以减少服务中断时问为目的的服务器群集技术, 其主要目的是实现容错冗余。一个系统的可用性的高低主要取决于该系统连续正 常工作及正常提供服务时间的长短。通过冗余,一旦群集内某个活动节点出现故 障,备份节点在一定时间内没有收到活动节点的响应信息,群集系统就会在最短 的时间内会把相关资源分配到备份节点,让其切换到工作状态。通常情况下,这 种故障发现和服务切换的时间以秒为计算单位,因此服务受影响的时问非常短, 可用性非常高。 2 ( 3 ) 高扩展性群集( h i 【g hs e a l a b i l i t yc l u s t e r ,h sc l u s t e r ) h sc l u s t 盯就是带均衡策略的服务器群集,常用于实现网络负载均衡 ( n e t w o r kl o a db a l a n c e ,n l b ) 。通常h sc l u s t e r 中每个节点存放相同的数据, 当客户端的访问到达其中一个节点,就由它根据均衡策略把客户端需要的数据从 不同的节点中取出,再返回到客户端,降低服务器的负载,减少响应时间,提高 服务器的工作效率。以w e b 访问为例,h sc l u s t e r 一般的框架结构如图l 所示旧。 后台的多个w e b 服务器上面有相同的w e b 内容,i n t e m e t 客户端的访问请求首先 进入一台服务器,由它根据负载均衡策略合理地分配给某个w e b 服务器 图1 1h s c l u s t e r 基本架构 目前主要的均衡策略有三种:轮询( r o u n d - r o b i n ) 、最小连接数( l e a s t c o n n e c t i o n sf i r s t ) 和快速响应优先( f a s t e r r e s p o n s ep r e c e d e n c e ) 轮询策略,就 是将来自网络的请求依次分配给集群中的服务器进行处理;最小连接数策略,就 是为集群中的每台服务器设置一个记数器,记录每个服务器当前的连接数,负载 均衡系统总是选择当前连接数最少的服务器分配任务;快速响应优先策略,是根 据群集中的服务器状态( c p u 、内存等主要处理部分) 来分配任务。负载均衡群 集的应用提高了w e b 服务器、f t p 服务器,邮件服务器和其它关键应用服务器 的可用性和可伸缩性。 由此可见,计算机群集在分布式计算中起着举足轻重的作用,它的性能和安 全性会直接影响到整个分布式计算系统的整体效能。 3 1 2 国内外研究概况 为了实现更高性能的计算、更高冗余的容错性,网格计算这一新技术逐渐得 到发展,并被称为“下一代网络”的基本架构【6 l ,经过世界各国政府和包括i b m 、 i n t e ,h p 和s u n 等各大i t 企业的大力支持下得到推广,现在国内外展开了广 泛的研究网格计算以虚拟组织( v i r t u a lo r g a n i z a t i o n , v o ) 为单位对资源进行 划分,通过资源的高度共享和整合,实现高性能计算【6 j 。一般在实际应用中,一 个v o 是一个计算机群集,网格平台把所有与计算任务相关的资源全部划分给 v o ,然后在v o 内部对这些资源进行详细划分翻现有的标准并没有规定v o 的规模,因此网格系统拥有非常高的可扩展性。但是对于一个v o 而言,仍然无 法摆脱上面提到的计算机群集的两个局限性,因此假如要对某个v o 进行扩展, 实际上仍要求新加入的节点与该v o 在地理位置上集中分布,一般而言,是在同 一局域网内本论文讨论的其中一个关键问题,就是如何利用虚拟机技术 ( v h t u a l i z a t i o nm a c h i n et e c h n o l o g y , v m t ) ,对传统的计算机群集结构进行改进, 使群集节点不再受到地域的局限,实现跨越广域网的计算机群集m ,这将在本论 文第3 章详细论述 高性能群集在进行高性能计算过程中,应用程序一般使用并行算法,把一个 大的计算问题根据一定的规则分为许多小的子问题,在群集内的不同节点上进行 计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。群集节 点在执行子任务时,计算的中问结果数据通常是和最终结果一起提交到外部存储 设备的。若其他节点需要使用中间结果数据,就必须等待该节点计算任务完成后 写入外部存储设备,再进行读取数据。改进的措施之一是,节点间在执行子任务 时根据需要进行数据交换,即其他节点可以搜索保存该节点中问结果数据的共享 文件,然后进行读入需要的数据,以提高整体的计算效率。 目前,针对共享文件搜索的研究热点主要在p 2 p 等领域,并相继出现了一 系列典型的系统,包括有c m u t e l l a i s 、n e u r o g r i d 9 1 、k a z a a l l 0 1 、f r e e n e t ! h i 、 a n t h i l l 1 2 1 、j x t a s e a r c h i 玎i 。搜索是文件共享系统的核心问题,对于系统的性能 往往具有决定性的作用。根据节点是否利用相关信息来定位资源,可以将搜索策 略分成两大类【1 4 】:盲目搜索和信息搜索。 盲目搜索认为节点问是相互独立,通过在网络中传播查询信息并且把这些信 4 息不断扩散给每个节点,通过这种泛洪方式来搜索想要的资源盲目搜索包括 f l o o d i n g ,i t e r a t i v ed e e p e n i n g 和g n u 舡:l l a 2 等f l o o d i n g 搜索策略是,当它要寻找 某个文件,把这个查询信息传递给它的相邻节点,如果相邻节点含有所要查找的 资源,则查找成功,否则把这条消息转发给次相邻节点i t e r a t i v ed e e p e n i n g ! 1 5 l 搜索策略是给t 1 l 设定一个比较少的值,如果在t r l 减为0 ,还没有搜索到资 源,则给r r l 重新赋更高的值g n u t e l l a 2 6 l 搜索策略是建立超级节点,存储着 离它最近的叶子节点的文件信息,这些超级节点再连通起来形成一个小网络。当 叶子节点需要查询文件,它首先从它连结的超级节点的索引中寻找,如果找到了 文件,则直接根据文件所存储的机器的碑地址建立连接,如果没有找到,则超 级节点把这个查询请求发给它连结的其他超级节点,直到得到想要的资源。 信息搜索是建立在盲目搜索的基础之上,一般通过盲目搜索的结果来获得并 保存有用的查询信息随着次数的增加当知识逐渐收敛稳定后,利用这些知识 来快速找到资源。信息搜索包括c a c h e 搜索,i n t e l l i g e n t b f s 和i n t e r e s t b a s e d 等。 c a c h e 搜索策略是节点以一定的概率向相邻节点转发信息,如果查询到该文档则 沿该查询路径上的每个节点都将存储拥有该文档的节点位置。每次查询先查找 c a c h e 中的历史查询记录,如果有相应的历史查询则直接将对应节点返回,否则 以一定的概率向其相邻节点转发信息i n t e l l i g e n t - b f s ! l6 】搜索策略初始阶段,查 询先以随机抽取一定比例的相邻节点来f l o o d i n g 转发消息,每个节点维护一个 本地索引,最近的节点的查询和应答查询的相邻节点存储在该索引中,每次查询 先根据相似机制找出与当前查询相似的历史查询,再根据相应的多少来选择这些 历史查询对应的部分相邻节点来转发。i n t e r e s t b a s e d t 1 搜索策略认为用户的兴趣 是有限的,用户的查询是基于兴趣分组的,用户只会查询他感兴趣的资源,如果 某个节点能响应该用户的一个查询,很有可能那个节点与该用户的兴趣是一致 的,那么那个节点就能相应用户的更多的查询。该方法维护一个捷径表,每次查 询成功会将查询成功的节点加入到该捷径表中,捷径表中的节点会根据查询的成 功率由商到低进行排序。每次查询,节点将首先到捷径表中的节点中去查询,如 果查询不成功,将以f l o o d i n g 的方式向相邻节点转发该消息以进行查询。 5 1 3 问题提出 1 3 1 传统计算机群集的基本架构 图1 2 以两节点为例,展示了计算机群集的基本架构。其中,仲裁磁盘 ( q u o r u md i s k ) 用于存放群集配置信息,协调节点之间的配置信息同步;心跳 线( h e a r t b e a t ) 用于两节点之问互相传递连接状态信息;外部存储设备用于存放 程序数据文件,通过光纤或s c s i 总线分别连接到两个节点。 仲拔嫩懿 图1 2 计算机群集基本架构 下面以高性能群集为例,简单描述该群集的工作模式。 ( 1 ) 在节点l 和节点2 上分别安装相同的应用程序,把程序文件分别安装到 本机,而数据文件的路径则指向外部存储设备; ( 2 ) 设置节点2 为活动节点,节点l 为备份节点,把所有群集资源都调拨到 节点1 : ( 3 1 节点l 每隔一段很短的时间就通过心跳线向节点2 发送连接状态请求, 节点2 收到后返回应答向节点1 进行确认; 如果节点1 连续发送若干次请求都没有得到确认,群集系统会认为节点2 已发生故障,此时系统会修改仲裁磁盘的配置信息,并把相关的群集资源转移到 节点l 。 6 1 3 2 传统计算机群集的工作模式 传统计算机群集,特别是高性能群集在处理复杂的计算问题时,群集上的应 用程序一般使用并行算法,把一个大的复杂问题根据一定的规则分为许多小的子 问题,在群集内的不同节点上进行计算,而这些小问题的处理结果,经过处理可 合并为原问题的最终结果。 由于外部存储设备的访问权在同一时刻只能由一个节点控制,节点对外部存 储设备的i j o 时问主要包括i o 资源切换等待时间和i o 读写时间,而i 0 资源 切换等待时问至少需要若干分钟以上因此,节点在执行子任务过程中,一般不 会频繁对中间结果数据进行外部存储设备的i o 写入,而是子任务完成时与节点 最终结果数据一起i ,o 写入。 1 3 3 传统计算机群集技术的局限性 随着计算机网络的发展以及网格计算的提出,图1 2 中描述的群集基本架构 已经不能满足扩展群集规模的需求。其主要局限性有两点: ( 1 )仲裁磁盘必须与所有节点物理连接: ( 2 ) 心跳线原则上不能经过路由。 可见,群集中所有节点原则上必须配置在一个局域网内,因此必须集中在同 一地理区域,这严重影响了其扩展性。如何突破群集的上述两个瓶颈,成为了扩 展群集规模的关键,这将在本论文详细论述重点之一。 在传统计算机群集的工作模式下,如果其他节点需要使用某节点的中间结果 数据,就必须等待该节点完成子任务并写入外部存储设备后才能访问中间结果数 据。一般来说,由于群集节点完成复杂问题的子任务需要的时间至少需要数十分 钟,乃至数小时、数天,因此在计算过程中各节点根据需要进行中间结果数据交 换非常必要。解决办法之一是把节点中存储中间结果数据文件对本群集内其他节 点设为共享,其他节点可以通过搜索方式进行文件访问并读入所需数据,以达到 提高群集整体计算效率的目的。如何制定有效的共享文件搜索策略,使之适用于 摆脱地理位置集中束缚的计算机群集,以提高群集整体的计算效率,这将是本论 文研究的另外一个重点。 7 1 4 本论文研究的目的和意义 针对1 3 节提出的研究问题,本论文对计算机群集架构进行改进,使节点不 再受地理位置的约束,实现广域网群集;根据目前流行文件共享系统的c a c h e 搜索策略,改进并提出一种基于搜索代理的文件搜索策略,以实现节点徊j 的中间 结果数据交换;最后通过策略实现和实验测试来证明其可行性。 本论文对传统计算机群集进行扩展,通过虚拟机技术使处于两个不同网络的 不同节点构成一个群集,不再受心跳线和存储设备的约束,对分布式计算的扩展 研究有较大的意义,其具体表现在: ( 1 ) 提高计算机群集的可用性和可扩展性; ( 2 )通过提高计算机群集的可用性和可扩展性来提高网格计算中虚拟组 织的可用性和可扩展性,从而使网格系统更灵活地调度资源和任务; ( 3 )虚拟机以文件的形式存放,可以提高群集节点的备份与故障恢复速 度: ( 4 )只要主机的硬件性能足够,通过虚拟机技术可以实现在一台主机上 同时运行若干个不同的操作系统,对今后异构环境的理论和应用研究有非常重要 的意义: ( 5 )通过基于搜索代理的文件搜索策略,以实现群集在复杂计算过程中 节点之间的中间结果数据交换,提高群集整体计算效能。 1 5 论文结构 本论文共分为五章,各章的组织结构如下: 第一章( 即本章) 为引言部分,主要介绍了课题研究的背景,然后综述了计 算机群集以及共享文件搜索策略的国内外研究概况。并分析了传统计算机群集的 局限性,进而引出本论文研究的问题。 第二章综述了本研究的技术理论基础,首先描述a c t i v ed i r e c t o r y 的技术特 点、作为部署群集的基础平台的优势及其在本论文研究中的作用;然后介绍了虚 拟机技术的技术特点、作为部署群集的实验环境的优势及其在本论文研究中的作 用,最后详细地论述了目前主流的共享文件搜索策略之一的c a c h e 搜索策略。 第三章是本论文的重点,本章主要分成两个部分:第一部分主要描述了如何 8 对传统计算机群集架构进行改进,实现基于广域网的群集的模型设计;第二部分 主要在对c a c h e 搜索策略和群集环境等分析的基础上,提出广域网群集下基于搜 索代理的共享文件搜索策略。 第四章主要是在第三章的理论设计基础上,对基于广域网群集的具体实现以 及对基于搜索代理的共享文件搜索策略的具体实施进行了详细描述。 第五章是实验测试部分,以证明研究的可行性。 第六章对本研究进行了总结并提出了进一步的研究方向。 9 第二章本课题的技术理论基础 本章主要综述本研究的技术理论基础,首先分析和介绍a c t i v ed i r e c t o r y 和 虚拟机两种技术的技术特点、作为部署群集的基础平台的优势及其在本论文研究 中的作用:然后详细地介绍目前主流的共享文件搜索策略之一的c a c h e 搜索策 略。 2 1a c t i v ed i r e c t o r y 目录服务( a c t i v ed i r e c t o r y ) 是一种分布式数据库,用于存储与网络资源有 关的信息,以便于查找和管理。m i c r o s o f t a c t i v ed i r e c t o r y 是用于w i n d o w s2 0 0 0 、 w i n d o w sx p 和w i n d o w s2 0 0 3 的最新目录服务实现。涉及目录服务的基本问题 主要围绕着可以将哪些信息存储在数据库中,存储的方式是什么,如何查询特定 的信息,以及如何对结果进行处理【嘲。a c t i v ed i r e c t o r y 包含目录服务本身,以及 允许访问支持x 5 0 0 命名规则的数据库的从属服务。目录服务可以使用某个用户 名来查询目录,以获取相关信息,如用户的电话号码或者电子邮件地址。目录服 务也是非常灵活的,可以进行归纳查询,还具有给用户提供到整个企业网络的单 个入口点的优点。用户可以查找和使用整个网络资源,而无需了解资源的确切名 称或位置。也可以使用统一的网络组织及其资源逻辑视图来管理整个网络。 使用a c t i v ed i r e c t o r y 作为部署群集的基础平台,其优势如下【1 8 】 1 9 1 : ( 1 ) 网络的逻辑结构是由无形的项目组成的,如对象、域、目录树和目录 林。a c t i v ed i r e c t o r y 的基本结构块是对象,这是一个代表网络资源的已命名特定 属性集。对象属性是目录中对象的特征。对象也可以按类进行分组,类是对象的 逻辑分组。用户、组和计算机是不同对象类的例子。 ( 2 ) 在最低一层,某些对象代表网络上的单个实体,如用户或计算机。这 些实体称为叶对象,它们不能包含其它对象。但是,为了简化目录的管理和组织, 可以把叶对象放在其它对象( 称为容器对象) 内部。容器对象也可以采用嵌套形 式包含其它容器。容器对象最常用的类型是组织单元( o r g a n i z a t i o n u n i t ,o u ) 。 可以使用o u 将对象进行分类,把域变成某种类型的逻辑管理分组。所有网络对 象只能在一个域中存在。 ( 3 ) 每个域表示一个安全边界,对每个域中对象的访问是由访问控制项 i o ( a c c e s sc o n t r o le n t r y ,a c e ) 控制的,后者包含在访问控制列表( a c c e s sc o n t r o l l i s t ,a c l ) 中,这些安全设置并不跨越域边界当将相关域分成一组以便共享 全局资源时,就创建了“目录树”,可以使用基于k e r b e r o s 的安全功能,通过双 向信任关系将目录树中的域透明地连接在一起。这些信任关系可以是永久的,也 可以是暂时的 ( 4 ) 目录树中的所有域共享所有对象类型的架构。任何给定目录树中的所 有域还共享全局编录( g l o b a l c a t a l o g ,g c ) ,g c 是目录树中对象的中央数据库。 每个目录树也可以由邻接的名称空问表示,每个域自动生成信任关系。 ( 5 ) 在最高一级,可以将单独的目录树分成一组形成“目录林”可使用 目录林,将组织中的不同部门,甚至不同组织组合到一起。这些部门不必共享相 同的命名架构并且独立运作,但彼此之间可以进行通信目录林中的所有目录树 共享相同的架构、全局编录和配置容器。此外,基于k e r b e r o s 的安全功能在目 录树之阃提供了信任关系 a c t i v ed i r e c t o r y 在本论文研究中的主要作用包括以下: ( 1 ) 通过a c t i v ed i r e c t o r y 建立域,方便了群集节点的组织和管理,并为群 集跨越广域网提供了安全边界 ( 2 ) 通过a c t i v ed i r e c t o r y 设立域控制理器( d o m a i nc o n t r o l l e r ,d c ) ,方 便对网络的访问( 包括登录、身份验证) 以及对目录和共享资源的访问。 ( 3 ) m i c r o s o f ta c t i v ed i r e c t o r y 作为w m d o w ss e r v e r2 0 0 3e n t e r p r i s e 的主要 组件之一,可以更加无缝地集成群集功能部件m i c r o s o f tc l u s t e rs e r v e r ( m s c s ) 。 综上所述,基于a c t i v ed i r e c t o r y 的群集具有集中控制、集中管理、统一授 权、统一架构和容易扩展等优点,在部署群集时会非常方便。 2 2 虚拟机技术 近年来,随着i t 虚拟化的热潮兴起,作为比较成熟的虚拟技术,虚拟计算 机技术日益受到各大i t 公司和众多用户的关注。目前,在虚拟机市场上除了传 统的v m w a r e 和m i c r o s o f t 外,诸如x e n 、p a r a l l e l s 等许多新兴的虚拟机产品和 技术也是不断的涌现出来。i n t e l 和a m d 的相继加入,虚拟机技术的层面扩展到 了处理器的层面上。随着更多软硬件厂商的加入,使得虚拟机技术从单一的软件 产品逐步转向软硬件结合的系统化、网络化的整体解决方案发展。 所谓虚拟机就是虚拟计算机,通过软件模拟的、具有完整硬件系统功能的、 运行在一个完全隔离环境中的完整计算机系统。虚拟机在结构上分为以下几个部 分:底层的硬件平台的“主机”,解决软件系统的兼容性和可移植性问题的虚拟 机监视器( v l r t u a lm a c h i n em o n i t o r ,v n i ) ,运行在虚拟机环境中的软件的。客 户”另外,标准系统部件中操作系统和应用程序分别称为“客户操作系统”和 “客户程序”。、 虚拟机可以分为进程虚拟机和系统虚拟机【2 0 】。进程虚拟机可以为进程提供 一个“机器”,其“上下文”包括寄存器、用户栈、系统栈、p c b 等;系统虚拟 机则可以为操作系统的运行提供一个“机器”,其“上下文”则包括b i o s 、存储 器、处理器、总线以及设备等。虚拟机监视器的作用就是通过分析、拦截并映射 等方式为客户操作系统提供这个“上下文”的 使用虚拟机技术作为部署群集的实验环境,其优势如下【2 1 1 主要包括: ( 1 )虚拟可以增加操作系统的安全可靠性,相当于又增加了一个系统运 行级别。如果把程序运行其上,则可通过它来获得对程序指令执行过程的完全控 制,这一技术目前主要应用于系统仿真、系统测试以及反病毒等领域。 ( 2 )虚拟机让计算机程序可以在不同的操作系统之间复用,即实现程序 的跨平台特性同时由于虚拟机的隔离作用,也使得基于虚拟机之上的应用程序 变得更加安全。 ( 3 )可在同一台p c 上同时运行多个操作系统,每个操作系统都有自己独 立的一个虚拟机器,就如同网络上一个独立的p c 。 ( 4 )可在单机上组建网络,虚拟机提供了虚拟网络设备如交换机、网卡和 虚拟建网的方式。 随着虚拟化技术的流行,目前有很多商业的或开源的虚拟机项目,它们在不 同的方面表现出特定的优势。以下列举了3 种主流产品: ( 1 ) v m w a r e e s xs e r v e r v m w a r e 使用了完全虚拟化1 2 1 1 在需要虚拟机监视器干预的时候动态重写客 户操作系统的代码来增加陷阱。这个翻译被应用到整个客户操作系统的内核,从 而引起翻译、执行和缓存的开销。页表等系统结构是用隐蔽的方式实现,通过对 每一次更新操作设陷阱来保持与虚表的一致性。另外一个弱点是不能给客户操作 系统看到真实的硬件。 1 2 ( 2 ) v i r t u a lp c 和v m u a ls e r v e r v i r t u a lp c 和v i r t u a ls e r v e r 是微软的虚拟机产品v i r t u a lp c 主要针对桌面 操作系统,为需要在一台物理计算机上同时运行一个或多个桌面操作系统的桌面 用户而设计v t r t u a lp c 主要使用在以下场景:支持使用旧版本桌面操作系统的应 用程序;桌面技术支持;桌面应用程序测试;培训。v m u a ls e r v e r 主要设计用于 运行企业服务器操作系统和企业级应用,它主要使用在以下场景:测试服务器应 用程序;提高服务器利用率;应用程序移植。 ( 3 ) x e n x e n 是一个起源于剑桥大学的开源项目2 0 版本是一款泛虚拟化的虚拟机 监视器,这表示为了调用系统管理程序,要有选择地修改操作系统,但不需要修 改操作系统上运行的应用程序x e n 虚拟机监视器运行在硬件平台上。为各个客 户操作系统( 称为域) 建立虚拟的c p u 和m m u 在虚拟机监视器之上运行着 不同的域,其中v m 0 有管理硬件和控制其它域的特权。其他域通过b a c ke n d 请求控制域提供设备驱动服务,不同域间通信通过e v e n tc h a n n e l 来完成。 使用v i r t u a ls e r v e r 在本论文研究中的主要作用包括以下: ( 1 )通过虚拟机技术,可在同一台p c 上同时运行多个操作系统,使在同 一台p c 上虚拟群集节点,外部存储设备和仲裁磁盘等成为可能。 ( 2 )通过虚拟机技术,可在同一台p c 上组建多个虚拟网络,并且每个虚 拟网络都可以连接到宿主计算机所连接的网络,使在p c 间同时建立物理局域网 和虚拟局域网并进行通信成为可能。 ( 3 ) v i r t u a ls e r v e r 是微软公司在虚拟服务器方面的产品,支持实验环境 中群集应用,更好地集成m i c r o s o f t a c t i v ed i r e c t o r y 和m i c r o s o f tc l u s t e rs e r v e r 综上所述,利用虚拟机技术创建实验所需的群集虚拟环境具有安全可靠性和 同一台p c 上虚拟多台机器与网络等优点,在部署群集实验环境时会非常方便。 2 3c a c h e 搜索策略 目前,针对共享文件搜索的研究热点主要在p 2 p 等领域,如何高效地索引、 查找、定位以及访问这些数据信息资源成为研究的巨大挑战。根据节点是否利用 相关信息来定位资源,可以将搜索策略分成两大类【1 4 1 :盲目搜索和信息搜索。 盲目搜索认为节点间是相互独立,通过在网络中传播查询信息并且把这些信 1 3 息不断扩散给每个节点,通过这种泛洪方式来搜索想要的资源信息搜索是建立 在盲目搜索的基础之上,一般通过盲目搜索的结果来获得并保存有用的查询信 息随着次数的增加,当知识逐渐收敛稳定后,利用这些知识来快速找到资源。 c a c h e 搜索与盲目搜索对比,有如下优点: ( 1 ) 盲目搜索一般盲目的方式以请求节点为中心向外围节点扩散查找信息, 直到搜索到文件为止;c a c h e 搜索通过知识表的索引查询的方式以请求节点为中 心向外围节点扩散查找信息,直到搜索到文件为止。 ( 2 ) 盲目搜索策略的命中实质上是按照制定的搜索策略向外延伸过程中命 中的几率叠加:c a c h e 搜索策略实质上是在盲目搜索策略命中率的基础上,搜索 路径上的知识表索引命中几率的叠加。 ( 3 ) 盲目搜索策略命中的随机性比较大;当网络上节点的知识表收敛稳定 后。c a c h e 搜索的命中率比盲目搜索命中率高的多 ( 4 ) 盲目搜索策略在多个节点同时搜索时很容易造成网络上数据包的数目 过多,导致网络性能的降低,甚至产生广播风暴;由于知识表的索引叠加,c a c h e 搜索比较容易限制在一定范围,降低网络堵塞或者广播风暴产生的几率。 c a c h e 搜索作为信息搜索策略之一,在广域网搜索中使用比较广泛。其搜索 策略主要流程如下图2 1 所示: 图2 1c a c h e 搜索策略流程图 1 4 如上图2 1 所示,其搜索的步骤主要包括: ( 1 ) 源节点接到共享文件搜索请求后,先查找源节点c a c h e 中的历史查询 记录,如果有相应的历史查询记录则转( 4 ) ,否则转( 2 ) : ( 2 ) 以概率n ( 0 n e x t = c u r r e n t ; t a i l = c u r r e n t ; e l s et a i l n e x t = c u r r e n t : t a i l = c u r r e n t ; 1 尾插入函数 d a t a t y p eq u e r y _ l i s t :d e l e t e _ h e a d ( v o i d ) 3 l c u r r e n t = h e a d - n e x t ; h e a d - n e x t = c u r r e n t n e x t ; d e l e t ec u r r e n t ; l 头删除函数 i n tq u e r y _ l i s t :i s e m p t y ( v o i d ) i f ( h e a d = = t a i l 、 r c t l l r nl ; e l s er e t u r no : 判空函数 至此,搜索请求表的基本功能已经实现,下面实现文件索引表的功能 4 2 2 文件索引表的实现 由3 2 节设计可知,文件索引表是应搜索代理在执行搜索操作过程中提供文 件的历史查询记录而建立的,其需要实现的功能主要包括: ( 1 ) 根据搜索代理提供的文件名,查看表中历史查询记录,并返回结果; ( 2 ) 当表中没有所要搜索文件的历史查询记录而搜索代理发出广播请求并 得到响应信息时,记录该文件所在节点的位置; ( 3 ) 根据搜索代理提供的节点i p ,删除关于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专科营养课考试题及答案
- 2025年语文入编考试试题及答案
- 高标准农田灌溉水源综合利用技术
- 幼师安全考试试题及答案
- Pyrimidifen-d4-生命科学试剂-MCE
- 2025广东广州市天河区卫生健康系统事业单位招聘专业技术人员105人(第一批)模拟试卷及答案详解(名校卷)
- 热力站环保技术应用方案
- 2025内蒙古工业大学事业编制工作人员招聘10人模拟试卷带答案详解
- 2025年九江市江汇物流供应链有限公司第二次公开招聘派遣制工作人员的考前自测高频考点模拟试题完整答案详解
- 高标准农田土壤污染防治方案
- 军队文职课件
- 中国软件行业协会:2025中国软件行业基准数据报告 SSM-BK-202509
- 林黛玉身世经历课件
- 体育老师读书分享:运动与人生
- 2025年安全员考试题库及参考答案完整版
- 财务风险防控与内控管理方案
- 动漫艺术概论考试卷子及答案
- 售电入门基础知识培训课件
- 2024年时事政治考试题库有答案
- 知道智慧树林业工程前沿进展满分测试答案
- 小儿镇静课件
评论
0/150
提交评论