




已阅读5页,还剩76页未读, 继续免费阅读
(计算机系统结构专业论文)数字有机体资源访问的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着互联网的发展,人们对于网络服务质量的要求越来越高,传统网络应用客户服务器构架很难支撑起巨大的用户数量。对等网络极大的扩充了服务的外延,挖掘边缘网络上的资源,让客户参与服务,弥补了传统客户朋匣务器模式的一些缺陷。但当前的p 2 p 系统都针对专门的应用,没有形成对资源系统的管理,降低了资源的利用率。因此,8 0 1 0 教研室在多年分布式并行系统的研发基础上,结合对等网络本身的分布式特征,开发出了数字有机体系统,以资源管理为根本出发点,满足不同的网络应用需要。数字有机体系统的主要任务是信息管理和任务调度。在信息管理中,如何实现资源信息的访问是研究的一个重点:为了适应大规模的不同网络应用,资源信息的访问模式必须具有通用性和扩展性;怎样提高资源信息的访问效率是设计实现当中必须考虑的重点问题。通过对p 2 p 系统,传统分布式系统和文件系统的研究,本文设计和实现了数字有机体资源访问系统。数字有机体系统资源访问实现了文件系统调用、函数库两种访问接口。文件系统将数字有机体中的资源按照目录树的形式进行组织和管理,方便程序员用普通文件系统调用的形式来访问资源,极大地扩充了数字有机体的应用范围。函数库接口则扩充了资源访问的模式,为不同形态的资源访问提供更大的扩展性。通过模块化和层次化的设计使资源访问系统满足各种不同网络应用的需要而且具有极强的扩展性。对于资源访问效率的提升贯穿资源访问设计实现的始终。测试表明数字有机体资源访问系统所实现的文件系统调用接口和函数库接口达到了设计的功能要求,在读写性能方面能很好的满足一般用户的使用需求。关键词:数字有机体,分布式系统,p 2 pa b s t r a c ra b s t r a c tw i t ht h ed e v e l o p m e n to f i n t e m e t ,p e o p l ep a ym o r ea t t e n t i o nt ot h en e t w o r ks e r v i c eq u a l i t y 1 1 1 ea p p l i c a t i o n so ft h et r a d i t i o n a lc l i e n t s e r v e ra r c h i t e c t u r em o d e la r ev e r yd i f f i c u l tt os u p p o r tah u g en u m b e ro fu s e r s t h e s ey e a r s ,t h ep o p u l a r i t yo fp 2 pt e c h n o l o g ye x t r e m e l yl a r g et h ee x t e n s i o no fs e r v i c e ,l e tac u s t o m e rp l a yt h er o l eo fas e r v e r ,m a k eu pf o r t h et r a d i t i o n a lc l i e n t s e r v e rm o d e l b u ta l lt h e s ep 2 pt o o l sf o c u so nap a r t i c u l a ra p p l i c a t i o n , l a c k i n gas y s t e m a t i cw a yf o rm a n a g i n gr e s o u r c e s ,s ot h eu t i l i t yo f r e s o u r c e s w a sa ta l o w l e v e l h e n c e , a n e w g e n e r a t i o no f d i s t r i b u t e ds y s t e m d o s( d i n no r g a n i s ms y s t e m ) h a sb e e nd e s i g n e dt oa r r a n g et h er e s o u r c e sa n ds t o r a g es p a c e so fc o m p u t e r si naw i d ea r e an e t w o r ki nt h e8 0 1 0r e s e a r c ho f f i c e d o sw h i c hc o m b i n e sw i md i s t r i b u t e dc h a r a c t e ro f p 2 pf o c u s e so nr e s o u r c em a n a g e m e n tt om e e tt h en e e do f v a r i o u sn e t w o r ka p p l i c a t i o n s t h ep r i m a r yt a s to fd o si sr e s o u r c em a n a g e m e n ta n dt a s kd i s p a t c h f o rt h er e s o u r c em a n a g e m e n t ,t h em o s ti m p o r t a n tp a r ti sr e s o u r c ea c c e s s i n g ,t h er e s o u r c ea c c e s s i n gs y s t e mm u s tb ef l e x i b l ea n de x p a n s i b i l et om e e tt h en e e do f v a r i o u sn e t w o r ka p p l i c a t i o n s , f u r t h e r m o r e ,t h ee f f i c i e n c yo fr e s o u r c ea c c e s s i n gm u s tb et a k e ni n t oc o n s i d e r a t i o na 1 1t h et i m e t h ed o c u m e n td e s i g n e sa n dr e a l i z e sr e s o u r c ea c c e s s i n gs y s t e mo fd o so nt h ea n a l y z i n go fp 2 ps y s t e ma n dt r a d i t i o n a ld i s t r i b u t i n gs y s t e m t h er e s o u r c ea c c e s s i n gs y s t e mo fd o sh a sr e a l i z e dt h em es y s t e ma n dt h ef u n c t i o nl i b r a r yi n t e r f a c e s t h ef i l es y s t e mo r g a n i z e sa n dm a n a g e st h er e s o u r c ei nt h ef o r mo fd i r e c t o r yt r e e i ti sc o n v e n i e n tf o rt h ep r o g r a m m e r st oa c c e s st h er e s o u r c eb yt h ef i l es y s t e mc a l l ,s od o sc o u l db eu s e di nd i f f e r e n tk i n d so fa p p l i c a t i o n s t h ef u n c t i o nl i b r a r yi n t e r f a c ep r o v i d e sa n o t h e rd i f f e r e n tt y p eo fr e s o u r c e sv i s i t i n g w em a k en s co ft h em o d u l a r i z a t i o na n dl a y e r i n gd e s i g nt om a k et h er e s o u r c ea c c e s s i n gs y s t e mm o r ef l e x i b l ea n de x p a n s i b i l ea n dt h er e s o u r c ea c c e s s i n gm o r ee f f i c i e n t t e s t ss h o wt h a tf i l es y s t e mc a l li n t e r f a c ea n dt h ef u n c t i o nl i b r a r yi n t e r f a c ea c h i e v et h ed e s i g no f t h ef u n c t i o n a lr e q u i r e m e n t s ,t h er e a d i n ga n dw r i t i n gp e r f o r m a n c eo f d o sc a l lb eg o o dt os a r i s f yt h en e e d so f u s e r s i i摘要k e y w o r d :d o s ,d i s t r i b u t e ds y s t e m ,p 2 pi i i独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:! 垫! 鱼日期:c 2 7 年l 月j 日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后应遵守此规定)签名:! 叠坠导师签名:i付灯f 钣日期:知1 年6 月厂日第一章绪论1 1 课题的背景及意义第一章绪论计算机硬件仍在以摩尔定律的速度飞速发展,公司、学校及家庭的个人电脑数量随之急剧增长,计算中心以及数据中心也已比比皆是,但这些计算资源、存储资源很多时间都处于低负荷甚至闲置状态;与此同时,许多软性资源( 数据以及蕴涵其中的信息及知识等) 却得不到良好的流通和共享。这些问题在教育界、科学界、产业界、娱乐界等行业都广泛存在,例如:1 ) 在基于i n t e m e t 的现代远程教育中,师生之间已经不可能像传统教育模式那样进行面对面的交流,教育资源则成为跨越师生鸿沟的主要桥梁。这些教育资源包括课件、素材、题库等类型,已经有了丰富的积累,而且来源于不同的老师、分散于不同的教育机构。如何让老师们方便地发布自己的教育资源、将这些资源作成一个资源库来统一管理和使用、如何让学生快捷地搜索并访问所需的教育资源是现代远程教育面临的主要问题。2 1 各大图书馆、出版社和一些相关公司大都已实现图书的数字化,这些数字资源一般以文件形式存在,其检索信息( 元信息) 则用数据库来管理。这些数字图书馆( 包括出版社和相关公司的电子书库) 目前尚处于孤立的状态,各自服务于特定的人群,这使得它们的利用率受到很大限制;又鉴于网络带宽的不足,远距离用户的访问效率也难以令人满意。如何实现电子资源合理的调配与访问,实现数字图书馆之间的统一资源管理与共享是目前数字图书馆领域面临的一个重要课题。3 1 随着数字压缩技术的趋于完美,网络视频服务也在飞速发展。在线视频点播,网络电视用户数量越来越多。然而传统的视频点播,网络电视服务都面临着服务器瓶颈,视频质量随着用户数量和网络距离的增大急剧下降。婀实现广域网中高质量的视频点播和网络电视服务是目前网络视频领域急需解决的主要问题。4 ) 不只是每个行业内部需要有效的资源管理,随着网络的飞速发展,不同行业之问的融合也越来越密切。不同行业不同的应用可能需要相同的资源文件。但是在目前环境下对网络资源的应用都采用各自为战的状态,每种应用都需要构建自己的资源环境,而且这些资源很难被其他应用访问到,这就造成了资源的极大电子科技大学硕士学位论文浪费,网络应用自身也变得臃肿和庞大。这些例子都反映了共同的需求,那就是在多个不同的个人或组织之间实现统一的、灵活的资源管理和访问。如果把对资源的管理和访问从具体的应用中分离出来:提供一种通用的平台系统来实现高效的资源的管理和访问,再以此平台为基础来开发网络应用,则前面所述的问题就迎韧而解了。这正是数字有机体系统所解决的问题。1 2 数字有机体系统数字有机体系统通过将分布在较大范围内的大量计算机聚合成一个有机的整体,来提供强大的处理、存储和通信等能力,从而满足大规模网络应用的需要。数字有机体系统的主要任务是信息管理和任务调度:信息管理的目的是将分布在各个节点上的信息资源组织起来,以方便用户使用的方式提供给用户使用,为了提高系统的可靠性,数字有机体中的资源都以多个副本的形式存在。任务调度的主要目标是找到最靠近用户的可以提供资源的服务器。要实现上述目标,数字有机体本身需要解决以下几个主要的问题:1 数字有机体的组织形式:分布在较大范围内的计算机如何组织为一个整体。2 资源如何描述,资源包括哪些类型。怎样快速的定位一个资源:给定一个资源名在有效的时间范围内找到这个资源。4 副本策略。为了提高系统的可靠性和可用性,资源会以多个副本的形式存在,运用怎样副本策略,使系统具有较高的访问效率。5 数字有机体系统将面向各种不同的网络应用,怎样提供一种通用的资源访问模式,而且足够灵活方便,是数字有机体必须解决的问题。6 调度。如何找到最靠近用户的可以提供资源的服务器。1 3 数字有机体资源访问研究的内容数字有机体资源访问子系统主要实现资源的有机组织,为外部应用程序提供通用的,可扩展的灵活的资源访问模式。数字有机体资源访问屏蔽了资源信息组织和存放的细节,使用户可以从数字有机体任何一个节点出发就象访问本地资源信息一样访问分布在数字有机体中的资源。它属于数字有机体系统中最靠近用户的部分,充分利用数字有机体其它子系统所提供的服务,为各种不同的网络应用第一章绪论提供高效的资源访问。1 4 论文导读本文主要论述了数字有机体资源访问的设计与实现。为了向读者说明问题首先需要对数字有机体本身加以说明,包括主要的设计思想、构架、模块化分和实现的功能。此外数字有机体系统是在传统分布式系统的基础上发展而来,当中还融合了当前比较流行的p 2 p ( p e e r t o p e e r ) 构架思想,数字有机体资源访问的设计还借鉴了分布式文件系统的设计思想,因此在论述数字有机体之前还有必要对分布式文件系统和p 2 p 系统作简单的介绍,使读者能够加深对数字有机体系统资源访问的理解。本文的结构安排如下:第二章介绍了分布式系统和p 2 p 系统的基本概念和他们的一些特点,列举了到现在为止一些流行的分布式系统和p 2 p 系统。第三章介绍数字有机体的概念、设计思想、构架和一些主要的功能模块,使读者对数字有机体整体有一个比较深入地了解。第四章介绍资源访问系统的设计思想和整体结构。第五章介绍资源访问系统服务管理的设计实现。第六章介绍资源读写模块的设计与实现。第七章介绍文件、目录操作模块的设计与实现。第八章介绍内核文件系统d p f s 的设计与实现。第九章系统测试与评估。第十章结论与后续研究建议。3电子科技大学硕士学位论文第二章相关工作数字有机体系统是在传统分布式系统的基础上发展而来,在当前的i n t e m e t 应用中,p 2 p 在大规模用户的网络应用方面显示出了很强的优势,因而数字有机体也借鉴了p 2 p 系统在资源定位方面的研究成果。下面将对传统的分布式系统和p 2 p系统进行一定的介绍。2 1 传统的分布式系统分布式系统式若干独立计算机的集合,这些计算机对于用户来说就像是单个相关系统。这个定义包含了两个方面的内容:第一个方面是关于硬件的:机器本身是独立的。第二个方面是关于软件的;对用户来说它们就像在于单个系统打交道。从硬件结构上来划分,分布式系统又可分为多处理机系统、同构式多计算机系统、异构式多计算机系统。分布式系统的软件有:分布式操作系统、网络操作系统、中间件。分布式操作系统是紧耦合的操作系统,用于多处理器系统和同构式多计算机系统。它的主要目标是隐藏及管理硬件资源。网络操作系统是松耦合的操作系统,用于异构式多计算机系统。它的主要目标是向远程客户提供本地服务。中间件位于网络操作系统通用服务实现层之上的附加层,提供分布透明性。分布式系统中,对用户屏蔽掉底层的分布式特性,给用户统一的视图,是实现的主要目标之一,分布式系统的核心是分布式文件系统,对分布式文件系统要求实现五种透明性:位置透明性( l o c a t i o nt r a n s p a r e n c y ) :当一进程访问某特定的网络资源而不需要知道该资源的位置时,我们称该资源对进程是位置透明的;访问透明性( a c c e s st r a n s p a r e n c y ) :当一进程能以同样的方式访问本地和远地资源时,我们称这样的系统具有访问透明性;副本透明性( r e p l i c a t i o nt r a n s p a r e n c y ) :为了保证系统的可靠性,需要为某些资源建立副本,当用户并不知道他是在访问主本还是副本时,我们称其具有副本透4第二章相关工作明性;一致性透明性( c o n c u r r e n c yt r a n s p a r e n c y ) :这包括保持缓存一致性和各副本的一致性,即透明的实现对各缓存和文件副本的同步更新以及发生故障后的透明恢复。失效透明性( f a i l u r e t r a n s p a r e n c y ) :当出现网络、磁盘等故障时,系统能自动从故障中恢复以保证系统可用,我们称其为失效透明性【1 】口下面介绍几种流行的分布式文件系统。2 1 1 高可用性的复制文件系统- - i n t e r m e z z oh n e r m e z z o 口】是由美特尔科技有限公司推出的,它受c o d a 文件系统的启发,经过重新设计后而实现的高可用的分布式文件系统,但它目前还处于实验阶段。i n t e r m e z z o 也是基于客户,服务器的分布式文件系统,它在多台服务器上存有文件系统的副本,将文件数据都存放在当前机器的磁盘文件系统中,在客户端,这个文件系统在缓存中包含当前或最近使用的文件的副本,在服务器端,这个磁盘系统在文件夹集合中包含所有文件的有效副本。所有的副本文件将通过i n t c r s y n c 对其进行同步。i n t e r s y n e 会周期性的从服务器上取得最新的改变,并将这些改变的数据同步到客户端的文件系统中。i n t e r m e z z o 文件系统会记录服务器上对文件所有改变,将它们记录在内核修改日志一k m l m e l l l dm o d i f i c a t i o nl o g ) 中。然后由i n t e r s y n c 从服务器上通过h t t p 协议取得这些日志来同步本地文件系统。由于i n t e r m e z z o 使用了副本机制,当i n t e r m e z z o 客户无法与服务器相连,或当服务器无法接收合法客户的更新时,i n t e r m e z z o 自动转换成无连接操作,各自修改本地的副本文件,并记录日志。这些情况是常有发生的,例如:当服务器或网络的部件失效时。在无连接状态下,i n t e r m e z z o 允许访问已存储的文件并通过日志记录更新。这样提供了高可甩性的数据访问。当连接恢复时,i n t e r m e z z o 会同步化存储在客户和服务器端日志文件中的变化。首先,i n t e r m e z z o 将启动更新传递来转发已存储在服务器上的变化,但对再次连接的客户无效。然后,i n t e r m e z z o 将在服务器上重整客户端的更新。当更新传递和重整完成,文件夹集合也被同步化了。电子科技大学硕士学位论文2 1 2a f s 分布式文件系统a f s 3 1 ( a n d r e wf i l es y t e m ) 是由美国卡内基一梅隆大学( c a r n e g i e - m e l l o nu n i v e r s i t y ) 和m m 公司联合成立的信息技术中心( i n f o r m a t i o n t e c h n o l o g y c e n t e r )研制开发的分布式文件系统。从a f s3 0 开始,a f s 作为t r a n s a r c 公司的产品开始进入市场。目前,i b m 公司将a f s 作为o p e ns o u r c e 产品向公众开放源代码,遵循的是i b mp u b l i el i c e n s e 。名字空间:a f s 的目录对所有客户都是相同的,具有名字空间唯一性。a f s是a f s 的根目录,其下的子目录称为c e l l ,每个c e l l 对应于一组服务器。c e l l 的名字通常就是服务器所在单位的域名。例如,如果电子科技大学提供a f s 服务,则其c e l l 是w w w u e s t e e d u c n ,任何一个客户可通过路径a f s w w w u e s t e d u o n 访问电子科技大学a f s 服务器上的文件。a f s 服务器以卷的结构存放文件,卷可以在服务器之间复制和移动。缓存策略和一致性:a f s 采用本地磁盘缓存来提高系统性能。a f s 的客户机上运行了一个缓存管理器进程,它将访问过的远地文件数据保存到本地磁盘中。当客户机再次访问相同远地文件时,直接从本地缓存中读数据,不必访问服务器。a f s 实现了严格的u n i x 语义,它用s e r v e r - i n i t i a l e d 算法来保证不同客户机上c a c h e的一致性。扩展能力:a f s 具有较强的扩展能力。在a f s 结构设计的时候,设计者的目标是客户机服务器之间能够达到2 0 0 :1 的比率。实际上,现在很多站点都成功超越了这个比率。在实际使用中,客户机朋臣务器比率依赖于文件总数、文件大小、修改率、文件访问频度、服务器处理器速度、i o 能力、网络带宽等因素。a f s 的c e l l 可以动态变化,当用户需要增加计算资源的时候,可以随时添加客户机或服务器。2 1 3n f s 文件系统s u n m i e r o s y s t e m 公司于1 9 8 5 年开发了n f s 【4 i 5 1 ( n e t w o r k f i l es y s t e m ) ,以此作为对远程文件进行透明存取的一种方法。它目前己被移植到几乎所有u n i x 系统( 包括l i n u x 、f r c e b s d ) 及v m s 和d o s 上,并成为事实上的工业标准。n f s支持异构系统,可以在不同硬件平台和不同操作系统的计算机之间实现文件共享。n f s 使用的是c l i e n t s e r v e r 模型,其基本思想是让客户机和服务器的任意集合共享一个公用的文件系统。n f s 既可在局域网上运行,也可在广域网上运行。第二章相关工作n f s n 方案经过良好设计,属于无状态( s t a r l e s s ) ,使得每个请求可被独立地处理,而与它之前的请求无关。这样服务就无需浪费大量的资源和时间为每个n f s用户保持状态信息,当服务器出现故障d o w n 机后,无需任何恢复工作就可投入运行。而对于客户机也无需记住自己前面进行过什么操作,每次操作,只要经过足够时间的等待总可得到响应,即使是服务器曾经崩溃过。但这样使对文件进行正确的存储比较困难,而且对维护客户端的缓存一致性存在困难。n f s 实现采取了几个措施来减轻其危险:a ) 设置一与每个高速缓存块相联系的计时器,当计时器到期,该项就被抛弃;b ) 当打开高速缓存文件时,记时器发送一条消息给服务器以便查出文件的最后修改时间,如果最后修改时间在本地拷贝被高速缓存之后,贝抛弃该高速缓存并从服务器中提取一份新的拷贝。最后,一旦3 0 秒的记时器到时,高速缓存中所有修改过的块都被发送到服务器。2 2p e e r t op c e r近些年来,在市场竞争和莫尔定律的驱动下,家用、办公用的个人电脑不管在数量上、还是在性能上都得到迅速提高。这些“日用品电脑”大部分时间都处于低负荷甚至空载状态。如何有效利用这些丰富的资源既导致了网格技术的诞生和迅速发展,也使p e e rt op e e r ( 对等网络,简称p 2 p ) 理念重新得到了业界的关注。2 2 1 发展与内涵p 2 p 系统由若干互联协作的计算机组成,且具有以下特征:系统依存于边缘( 非中央式服务器1 设备的主动协作,每个成员直接从其他成员而不是服务器的参与中获益。系统中成员同时扮演服务器和客户端的角色,既可以从别的参与者获得服务也能为其他成员提供服务。虽然p e e rt op e e r 这个术语是最近才出现的,但它并非新生事物。互联网最基本的协议t c p i p 并没有客户机和服务器的概念,互联网上所有的设备两两之间都是对等的,都能相互创建连接并双向传递信息,但这显得有点散乱无序,让人有点无所适从,因此在t c p i p 之上的应用层,人们多采用客户机服务器( c l i e n f f s e r v e r ) 模式,以适应人们在日常生活中形成的层次化、集中式的行为习惯。但也有一些应用是按照p 2 p 模式来设计的,像u s e n e t 、f i d o n c t 、e m a i l ,都是很成功的分布式对等网络:u s e n e t 产生于1 9 7 9 年,是一种分布式系统,能够为各个地方提供新闻组。u s e n e t 最早的雏形由是两名研究生t o m t m s c o t t 和j i m e l l i s 实现的。当时文件电子科技大学硕士学位论文只能通过电话线批量传送,且常常选在长途费用比较低的夜间进行。因此,当时的u s e n e t 若采用集中式的控制管理方法将效率低下,自然而然地就提出了一种分散、分布式的管理方法。这种分布的结构一直沿用到今天。f i d o n a 是p 2 p 早期应用的另一个杰出代表。它和u s e n e t 类似,也是一个分散、分布的信息交换系统。t o mj e n n 酶于1 9 8 4 年创建f i d o n a 系统,来让不同b b s 系统中的用户们互相交换信息。这种符合人们需要的技术,迅速成长起来,并一直沿用到今天。e - m a i l 则是众所周知的p 2 p 模式的典型代表,已经成为人们日常生活中不可或缺的信息交互途径。虽然在e m a i l 系统中也存在邮件客户端和邮件服务器的差别,但邮件服务器之间则是完全对等的。互联网上并没有一个巨大的、唯一的邮件服务器来处理所有的邮件,邮件是通过对等联网的邮件服务器协作路由传送到目的服务器上的。开放和自由是人们一贯的追求。一开始,h t e m e t 的设计者们有着共同的目标,那就是创建一个可靠的、高效的、强大的网络,能够让人们方便快捷地相互交流、协作。w e b 和c l i e n f f s e r v e r 交互模式的出现使得1 1 1 t e r n e t 获得了巨大的成功,但同时也限制了h t e m e t 的开放性和平等性,防火墙、动态i p 和n a t 则更被称作开放网络的终结者。1 9 9 9 年,1 8 岁的s h a w nf a n n i n g 开发出了一种专门用于自由共享m p 3 音乐文件的软件n a p s t e r ,它很快就成为热门的下载软件。n a p s t e r 在为s h a w n 带来巨大麻烦的同时也使人们开始重新审视p 2 p 的理念。2 2 2p 2 p 的相关应用与研究1 ) n a p s t e r 【b 【8 】是p 2 p 发展史上的一座里程碑,正是它直接导致了p 2 p 技术的复兴。n a p s t e r 提供服务允许音乐迷们交流m p 3 文件。它与先前也被推上被告席的提供免费m p 3 文件下载的网站r a p 3 c o m 的不同在于n a p s t e r 的服务器上没有一首歌曲,它只是提供了一个新的软件供音乐迷们在自己的硬盘上共享歌曲文件,搜索其他用户共享的歌曲文件,并到其他也使用n a p s t e r 服务的用户的硬盘上去下载歌曲。n a p s t e r 一经发布在短时间内就吸引了5 0 0 0 万左右的用户,最终,它被五大唱片公司以侵犯版权罪推上了被告席,n 印s t e r 从而成为世界的焦点,这也引起了人们对p 2 p 理念的再认识和对p 2 p 技术的持续研究。n a p s t e r 也有中央服务器,但它的目的不在于成为m p 3 文件的集中仓库而在于建立当前所有在线的n 印s t e r 节点所存文件的目录索引以方便用户查询。实际的第二章相关工作m p 3 文件存储在n a p s t e r 节点本地硬盘上。节点每次加入n a p s t e r 网络时,将自己当前的m 地址、服务端口号、所拥有的m p 3 、m p 3 存放路径等信息发送给服务器,这些信息被服务器组织成目录索引,以供别的节点查询并指导后续的下载。虽然服务器的地位已经得到了弱化,但由于它的依然存在,n a p s t e r 并不算是真正意义的p 2 p 软件,也带来了它的最大问题可扩展性差、可靠性不强。而且软件的使用者必须取得由法院授予的合法授权,这对多数人来说是个大麻烦。2 ) g n u t e l l a 8 】【9 】则克服了n a p s t e r 必须要有中央服务器的缺点,成为第一个真正意义的p 2 p 软件。对于无政府主义的组织方式,最大的难题在于如何让己存在成员了知某个成员的加入或退出、如何进行资源检索和定位。它的资源检索机制是通过对检索请求的消息广播来工作的,收到检索请求的节点在把检索结果提交给请求者的同时会把它转交给每个跟它相连的节点;新成员加入时会发送p i n g 消息来通知已有成员,收到p i n g 消息的已有成员会返回一个p o n g 消息给新成员,从而建立相互连接,p i n g 消息也同样是通过广播的方式进行的。广播这种传播方式的弱点众所周知,当网络成员变得越来越多的时候,不但消息出现频率不断增加,由单个消息所产生的网络流量也急剧上升。这将会带来网络灾难阻塞,也就使它的可扩展性成为大问题。3 ) f r e e n e t t 8 1 【1 0 】解决了g n u t e l l a 面临的许多问题。用户在从别的节点下载来的音乐文件会自动成为文件源的备份,从而可以为后续的用户提供相同的文件共享服务,分担源节点的负担。f r e e n e t 的另一个重要贡献是在资源检索时完全抛弃了对检索消息的广播模式,而是采用一种深度优先的上山式路由算法。f r e e n e t 站点存有三类信息:、每一个不同内容的文件所对应的不同的哈希键值:、一些与所存键值相对应的文件;、可能知道相似键值的邻居节点的地址,用于路由。某个节点在接收到对某个哈希键值的定位请求后,首先检查自己是否知道此键值的确切所在,如果没有,就找到一个具有相近键值的邻居并将此请求转发给它。搜索的结果不管是成功的还是失败的都会沿原路返回。如果一个节点查找失败,它就会将失败结果返回给它的前继节点,这个前继节点就会选择下一个最有可能的节点去尝试,这个过程一直持续到有确切的结果返回或者所有的查询失败。由于搜索的深度是靠一个参数一跳转次数来控制的,每跳转一次,跳转次数就会被减一,如果跳转次数等于零则相应的检索请求将不会被转发而不能在更多的站点上进行搜索,这样就会导致原本存在的键值有可能不会被检索到。另外,这种深度优先的上山式算法每次回退都会浪费一定的时间和网络流量,有没有更好的搜索策略呢? 后来9电子科技大学硕士学位论文出现的分布式哈希表( d i s t r i b u t e dh a s h t a b l e ) 搜索算法是对它的一次大的改进和提高。4 ) 分布式哈希表( d h d 1 h 1 1 2 1 3 1 系统是2 0 0 2 年以来p e e rt op e e r 领域研究的热点,它们将所有文件名都通过哈希函数映射到一个键值,按一定策略将“键一值”对( “值”一般是指对应文件的基本信息,包括它所在节点的地址等等) 分布在确定的节点上。检索请求可以在任意节点上发起,然后经过路由达到目的地。每个d h t系统都提供以下几个基本操作:一g e t 0 用于给定一个要检索的键值( k e y ) 获取与其相对应的文件的相关信息。一p u t 0 用于将指定的键值( k e y ) 及与其对应的文件的相关信息通过路由存储在适当的节点上。一l e a v e 0 是某个节点主动离开p 2 p 系统时所要执行的操作。一j o r n o n 是某个节点加入p 2 p 系统时所要执行的操作。d h t 系统主要解决的问题是p e e rt op e e r 系统的可扩展性和动态性,其目的包括:使每一个节点需要维护的路由表尽量小,也就是尽量使每一个节点拥有较少的邻居数;一个节点的加入或退出引起的调整应影响尽量少的其他节点;使每次检索请求经过尽量少的路由次数到达目的地;尽量减少路由热点的存在以降低路由瓶颈出现的可能。目前的分布式哈希表系统主要有c a n 1 4 】、c h o r d ”】、v i c e r o y t l 6 1 。5 ) 其他比较有影响的p 2 p 系统还有p a s 叫1 7 l 、f r e e h a v e n 18 1 、延伸自o c e a n s t o r e 【1 9 1 的t a p e s t r y t 2 0 】以及m i c r o s o f t 的f a r s i t e 2 1 1 等等。国内的则有北大的g l o b a lf i l es t o r e z 2 1 、清华i 构1 2 3 等。2 2 3p 2 p 的分类通过对某类事物进行分类可以加强我们对它们的特性的理解。按覆盖网络的拓扑结构来划分,p 2 p 系统可以分为两种:1 1 “定位集中”式在这种p 2 p 网络中仍然有服务器存在,其他节点的接入或退出需要通知服务器。普通节点需要向服务器注册它所提供的服务内容及相关节点信息,服务器对这些内容或信息进行索引和管理,以供别的节点进行查询、检索。普通节点在服务器上搜索到所需服务或信息的具体定位后,即可直接和目标节点建立联系并进1 0第二章相关工作务器上搜索到所需服务或信息的具体定位后,即可直接和目标节点建立联系并进行后续的对等交互,此时服务器将不再起作用。n a p s t e r 和o i c q 都属于此类。2 ) “完全对等”式此类p 2 p 网络中彻底消除了具有特别用途的服务器的存在,节点与节点之间有的只是是否是邻居的差别,并没有其他差别。它与因特网的组织形式完全是一样的看起来是一盘散沙,可以说它是具有某种特定功能的应用层的因特网。这看似一盘散沙、群龙无首的众多节点之间是靠一定的协议和策略来组织和协作的,特别是资源的发布和搜索定位,各个节点在此过程中的作用、地位也是一样的存储所共享的资源并承担继续转发邻居发来的搜索消息的责任,这一点跟前述结构的定位集中是不相雷同的。而跟前述结构一样,在对所需资源进行定位后,后续的交互则也是完全对等的,所以这种类型被称作“完全对等式”,也有“完全分散式”等其他异名。采用广播策略的g n u t e l l a 以及f r e e n e t ,还有后来的d h t系统皆属此类。这里还要指出的是,同属于“完全对等”式的p 2 p 系统之间仍有不同,在g n u t e l l a及f r e e n e t 中,各个节点之问的邻居关系完全是在新节点进入时随机确定的,没有一定的策略安排,不是结构化的,而在d h t 系统中,新节点加入时会按照一定的策略给放置在网络中特定的位置上,也就是说,它们是结构化的。所以如果细分,“完全对等”式包括两种:“结构化的完全对等”式和“非结构化的完全对等”式。电子科技大学硕士学位论文3 1 概述第三章数字有机体系统数字有机体系纠2 4 1 由传统的分布式并行系统发展而来,融合了分布式并行系统和p 2 p 2 5 1 系统各自的特点和优点。本章介绍数字有机体系统的发展,基本概念和整体结构,进而得到资源访问系统在整个数字有机体系统中的位置,为其设计和实现提供必要的支持和依据。3 2 分布式并行操作系统电子科技大学8 0 1 0 教研室从2 0 0 0 年开始进行分布并行操作系统的研发工作,分布式并行操作系统将若干台计算机组合成一个整体,使其具有多输入、多个输出的并行处理能力,它实现的核心是分布式并行文件系统d p f s 1 。3 2 1 基本特点d p f s 1 是基于l i n u x 内核开发的分布式并行文件系统,它具有如下特剧2 6 】:3 2 1 1 提供全局一致的名字空间它有两层含义 2 7 1 1 2 8 】:( 1 ) 在系统的所有机器中,任何一台机器上所见的名字空间应该一致并且唯一。( 2 ) d p f s 1 下的所有文件( 包括常规文件、目录、设备等) 资源都被唯一标识。用户或应用程序无论连接到哪一个节点上的资源,同一全路径名在内核层都对应着同一文件或目录或者它们的副本,也不论是用户最终访问的是其对象本身还是其副本,最终返回给用户的数据都是一致的。3 2 1 2 透明性具有透明性的系统呈现给用户的只是单一的系统镜像,而隐藏其底层的分布式特性。这个特点也包含两层含义:( 1 ) 文件的名字不提供任何物理存储位置的线索,即位置透明性;( 2 ) 当文件的物理存储位置改变时,名字不需要改变,即位置无关性。对于连接到每台机器上的用户,可以像访问单机文件系统那样访问整个分布式并行文件系统的所有共享资源,而在应用层用户进程无需知道这些文1 2第三章数字有机体系统件实际在哪台机器上,使程序员在开发应用程序的时候不必考虑底层的分布式环境。3 2 1 3 高可用性d p f s 1 系统高可用性的最高目标是:支持计算机系统永不停顿的为应用提供系统服务。换言之,系统中一个或几个节点失效,不会影响系统的正常服务。所有系统中的共享资源,将根据用户的需求存在多个副本,并且由系统自动保证这些副本的一致性。当系统中某机器出现故障后,对该文件的访问将自动转移到其它服务器上这些文件的副本。当这台机器重新被修复后,将恢复其故障期间未完成的操作,以保证系统的一致性,尤其是数据一致性。高可用性的需求隐含的包含了数据一致性的需求。而且数据一致性可以在一致性方面保证高可用性。二者互为需求,相辅相成。3 2 1 4 容错目前分布式并行系统都提供一定程度的容错,保障系统在出现某些错误时不影响系统的其他部件正常服务。d p f s 1 系统采用冗余管理和日志恢复相结合的机制。在文件系统中冗余指的是以文件为单位的副本。通常所说的冗余度就是指副本的数目。冗余管理指的是系统将按缺省的以及用户定义的规则记录用户对某些文件的访问信息,根据这些访问信息、以及当时系统的负载、磁盘容量、服务状况等信息决定是否创建或是删除某些文件的副本;而在用户访问文件时将根据副本信息按本地优先、的原则打开文件。日志恢复是在系统节点故障时将不能完成的操作记录下来,在一定的时机和条件下,通过一定的操作将故障节点上的操作回滚,实现信息的恢复。3 3 数字有机体系统数字有机体系统在分布式并行操作系统的基础上进行研发的。分布式并行系统操作系统将小范围内的计算机组成一个整体,而数字有机体面对的是大规模网络上的巨大数量计算机;数字有机体也具有分布式并行系统的基本特征。在实现过程中,我们将原有的分布式并行系统作为数字有机的基本组成单元,大量的分布式并行系统组合起来进一步成为数字有机体系统。在数字有机体中这个基本组成单元被称为“站”。站内部,站与站之间的计算机完全对等,不存在层次结构之电子科技大学硕士学位论文分。它的网络拓扑结构如图3 - 1 所示1 2 9 13 3 1 基本概念图3 一i 数字有机体网络逻辑拓扑3 3 1 1 资源和资源i d资源是数字有机体中描述和管理的基本对象,资源包括的范围很广,可以是任何能被组织和管理的实体。比如:文件、目录、服务等。每个资源在数字有机体当中都有一个唯一的全局标识:一个以d p f s 开头的分布式路径名。比如资源:d p f s f i l e l 。资源i d 是资源标识经过m d 5 算法加密后的得来的一个数值,每个资源对应一个唯一的资源d 。3 3 1 2 副本副本是资源的具体存在形式,与传统分布式系统一样,数字有机体使用资源的多个副本来保证资源的可访问性和访问效率。在数字有机体中副本也是一个虚拟的概念,它表示在某个站中存在副本。而在副本所在的站中,则由分布式并行操作系统接管了副本的具体存放和访问的实现,分布式并行操作系统会为副本在站内的节点上创建实体副本,并维护站内实体副本的同步。3 3 1 3 元信息系统中的每个资源都对应一个资源描述信息称之为元信息,它是描述一个资源的基本单位。元信息由两部分构成:资源的基本信息和资源的位置信息。资源的基本信息包括:资源的类型、大小、访问权限、最近访问时间、版本号等;资源的位置信息里面存放了资源所在站点的位置,站内的副本的名字和版本号等信息。1 4第三章数字有机体系统在引言当中列出了数字有机体系统必须解决的一些关键问题,下面对这些问题的解决一一做以说明。3 3 2 资源定位资源定位指的是按照固定的规则和方法确定一个资源的存放位置。需要指出的是它与资源查找不相同。虽然资源的放置与资源的查找密切相关,资源的查找依赖于资源的定位;但这两者又有所区别:资源的定位主要按照一定的规则找到存放资源的节点,而且所得出的结果具有唯一性,不可能同一资源定位的结果不同;资源的查找则可以利用一切方法手段找到资源的存放节点,它偏重于找到资源的效率。资源本身来讲在数字有机体中是个虚拟的概念,资源的副本才是真正存在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山石盆景工综合考核试卷及答案
- 安阳电影新媒体营销方案
- 营销活动加油卡权益方案
- 贵州苗绣营销策划方案
- 2025版司法局《撤销劳动仲裁裁决申请书》民事类法律文书(空白模板)
- 专业建筑机电安装方案设计
- 语音交换系统施工方案
- 女性情感咨询方案
- 痔围手术期护理
- 咨询公司薪资造价方案
- 第08讲+建议信(复习课件)(全国适用)2026年高考英语一轮复习讲练测
- 政务大模型安全治理框架
- 2024广东省产业园区发展白皮书-部分1
- 2025年国家网络安全宣传周网络安全知识考核试题
- 2025四川蜀道建筑科技有限公司招聘16人备考练习题库及答案解析
- 生态视角下陕南乡村人居环境适老化设计初步研究
- “研一教”双驱:名师工作室促进区域青年教师专业发展的实践探索
- 2025-2030中国教育领域的虚拟现实技术行业发展战略与应用趋势预测报告
- 2025广西现代物流集团第三次招聘109人笔试备考试题及答案解析
- 手卫生及消毒隔离基本知识
- 2025四川能投合江电力有限公司员工招聘11人笔试备考题库及答案解析
评论
0/150
提交评论