(计算机应用技术专业论文)基于jxta的p2p搜索技术的研究.pdf_第1页
(计算机应用技术专业论文)基于jxta的p2p搜索技术的研究.pdf_第2页
(计算机应用技术专业论文)基于jxta的p2p搜索技术的研究.pdf_第3页
(计算机应用技术专业论文)基于jxta的p2p搜索技术的研究.pdf_第4页
(计算机应用技术专业论文)基于jxta的p2p搜索技术的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于jxta的p2p搜索技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈阳工业大学硕士学位论文 摘要 p e e r - t o - p e e r ( p 2 p ) 作为以文件共享为初始目的的应用,允许任意终端用户对等点 ( p e e r ) 间通过i n t e m e t 完成文件交换。在p 2 p 应用仅有的短短几年发展时间里,它己成为 了占用i n t e m e t 流量的主要应用类型。p 2 p 系统支持大量用户的能力,已经开始显示出 技术优势:它能够以较低的成本快速地部署强大的、大规模分布式应用。 p 2 p 技术的一个优势便是开发出强大的搜索工具。p 2 p 技术使用户能够深度搜索文 档,而且这种搜索无需通过w e b 服务器,也可以不受信息文档格式和宿主设备的限制, 可达到传统目录式搜索资源无可比拟的深度。p 2 p 网络使节点以更自由、更主动的方式 加入和离开网络,共享信息资源。如何方便快捷地定位、搜索这些资源,从而合理有效 的利用它们,成为人们所关注的焦点问题。 j x t a 技术是由s u n 公司在2 0 0 1 年提出的一项技术,主要用于提供p 2 p 程序所需 的基础服务。该技术致力于创建一个通用的平台,以简单而有效的方式构建特定的对等 式和分布式服务与应用。使得开发者不需要过多考虑如何解决对等计算的技术问题,而 可以专注于如何实现与完善可扩展、互操作性强且具有高可用性的高层应用。 本论文首先对p 2 p 技术进行了概述,包括p 2 p 的定义、p 2 p 模式与c s 模式的比较、 p 2 p 的特点以及p 2 p 技术在搜索方面的应用及优势:其次对s u n 公司提出的j x t a 架构 进行了深入分析和学习,重点分析了j x t a 的三层体系结构和六个协议,为后面系统的 设计打下基础;对p 2 p 搜索算法进行了分类探讨,重点研究和分析了几种p 2 p 搜索算法, 并指出它们的优缺点。最后在j x t a 架构基础上,设计并实现了共享资源搜索网络系统, 实现了在对等网络中资源的共享、搜索和下载,并指出了系统在设计中的不足,并对以 后的工作提出了展望。 关键词:对等网络,j x t a ,搜索,共享 基于j x t a 的p 2 p 搜索技术的研究 r e s e a r c ho np 2 ps e a r c ht e c h n o l o g yb a s eo nj x t a a b s t r a c t a l l o w i n gf i l ee x c h a n g ea m o n g t h ee n dc l i e n tp e e r st h r o u g hi n t e r n c ti st h ei n i t i a lp u r p o s e o fp e e r - t o - p e e r i nt h es h o r th i s t o r yo fp 2 pa p p l i c a t i o n s 。i th a sb e , c o m eo n eo ft h em a i n a p p l i c a t i o nt y p e st h a tc o n s u r l l eal a r g ef r a c t i o no fi n t e m e tl l a f f i c p 2 pa r c h i t e c t u r eh a sb e g u n t os h o wi t sc a p a b i l i t yt os u p p o r tm a s s i v eu s e l s ,a n dt h i sc a p a b i l i t ym a k e si ts u i t a b l ef o r r a p i d l yd e p l o y i n gp o w e r f u la n dl a r g e - s c a l ed i s t r i b u t e da p p f i e a t i o n sw i t hl o w c o s t t h ea d v a n t a g eo ft h ep 2 pt e c h n o l o g yi st od e v e l o pt h es t r o n gs e a r c ht 0 0 1 t h ep 2 p t e c h n o l o g ym a k e st h eu s e 糟s e a r c hd o c u m e n td e e p l y , a n dt h i sk i n do fs e a r e hn e e d n tt h r o u 曲 t h ew e bs e r v e r , i ta l s oi s n tl i m i t e db yi n f o r m a t i o nd o c u m e n tf o r m a ta n d1 1 0 s td e v i c e , s ot h e m u c hm o l ed e e pt h a nt h et r a d i t i o n a ld i r e c t o r ys e a r c hl s o l l l r c ec a l lb er e a c h e d i np e e r - t o - p e e r n e t w o r kn o d e sc a nj o i na n dl e a v ef r e e l ya n da c t i v e l y i ti saf o c u si s s u eh o wt ol o c a t eo r l o o k u pt h el e $ o u r c e $ s ot h a tw ec 龇m a k e u s eo f t h e m j x t at e c h n o l o g yi san e wk i n do fn e t w o r kt e c h n o l o g yt h a ti sp r o p o s e db ys u n m i e r o s y s t e m sc o m p a n yi n2 0 0 1 i ti su s e dt op r o v i d ea ni n f r a s t r u c t u r es e r v i c ef o rp 2 p a p p l i c a t i o n j x t ai sd e v e l o p e da sac o m m o nf l a to nw h i c hp e e r - t o - p e e ra n dd i s t r i b u t e d s e l v i c 宅sa n da p p l i c a t i o n sc 觚b ee a s i l ye o n s m a e t e d w i t ht h eh e l po fj x t a , t h ed e v e l o p e r n e e dn o tc o n s i d e rt o om u c ha b o u th o wt or e s o l v ep 2 pc o m p u t i n gt e c h n o l o g y , s ot h e yc 8 1 1 c o n c e n t r a t eo nd e s i g n i n gh i g h - l e v e la p p l i c a t i o n f i r s t l y ,i nt h i sp a p e r , t h ep 2 pt e c h n o l o g yw a ss u l l a l n a l _ i z e d ,i n c l u d e st h ed e f i n i t i o no f p 2 p , t h ed i f f e r e n c eb e t w e e i ip 2 pm o d ea n dc sm o d e ,t h ec h a r a c t e r i s t i co fp 2 p ,t h ea p p l i e a t i o m a n d a d v a n t a g e su s i n g p 2 pt e e l m o l o g yi ns e a r c h s e c o n d l y ,t h ej x t a a r c h i t e c t u r eo fs u nc o m p a n yw a sa n a l y z e da n dr e s e a r c h e di n - d e e p , t h ej x t a t h r e e l a y e ra r c h i t e c t u r ea n dt h es i xp r o t o c o l s w h i c ha 聆t h eb a s e so ft h es y s t e m d e s i g n , w 鹪a n a l y z e d t h ep 2 p s e a r c ha r i t h m e t i c sw e r ep r o b e di n t oc l a s s , t h e r ea s o l l a t ,k i n d o fp 2 ps e a r e l aa r i t h m e t i c sw 雠r e s e a r c h e da n da n a l y z c d t h e np o i n t so u tt h e i ra d v a n t a g ea n d d i s a d v a n t a g e 沈阳工业大学硕士学位论文 a tl a s t ,b a s eo nt h ej x t aa r c h i t e c t u r e ,d e s i g n sa n dr e a l i z e ss h a r er e s o u r c es e a r c h n e t w o r k , r e a l i z e st h es h a r e ,s e a r c ha n dd o w n l o a di np 2 pn e t w o r k , a n dp o i n t so u tt h es h o r t a g e i nt h es y s t e md e s i g n i n g ,a n dp o i n t so u tt h ep r o s p e c to f t h es u b j e c tf o rt h ef u t u r e k e yw o r d s :p 2 p ,s x t a ,s e a r c h ,s h a r e i i i 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 沈阳工业大学或其他教育机构的学位或证书所使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表 示了谢意。 签名:丝盈日期:2 1 2 :! :墅 关于论文使用授权的说明 本人完全了解沈阳工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 ( 保密的论文在解密后应遵循此规定) 签名:地挞 导师签名: 骂查乞日期:型塑:星 沈阳工业大学硕士学位论文 1 绪论 1 1 课题的背景 随着网格技术的到来,p 2 p ( p e e rt op e 盯) 作为网格计算 1 l ( c _ r r i dc o m p u t i i l g ) 的重要 技术之一而受到越来越多的关注。p 2 p 可简单地定义为通过直接交换共享计算机资源和 服务,每一个对等点可以同时充当客户端和服务器两种角色。以该技术构建的网络称为 对等网,其实质在于引导网络计算模式从中心向边缘化发展,可充分利用终端设备的处 理能力实现更广泛意义上的资源共享与信息交互。作为一种基于互联网环境的新的应用 型技术,p 2 p 本身具备成本低、通信效率高的特点,可广泛适用于分布式搜索、分布式 存储与计算及企业协同等领域嘲。 由于p 2 p 蕴含着巨大的技术潜力和商业价值,许多学术机构、大公司先后投入到对 p 2 p 技术的研究之中。要想充分的利用p 2 p 网络上的资源,首先要有效的发现需要的资 源,即在p 2 p 网络中进行搜索。目前,p 2 p 研究中的一个主要问题就是搜索问题。 基于p 2 p 的搜索引擎的出现,为互联网的信息搜索提供了全新的解决之道。与目前 使用的其他各类搜索引擎相比,其最大优势在于应用先进的对等搜索理念,可不通过给 定的中央服务器,也可不受信息文档格式和宿主设备的限制,对互联网络进行全方位的 搜索。搜索深度和广度是传统搜索引擎所难以比拟的,其搜索范围可在短时间内以几何 级数迅速增长,理论上最终将包括网络上的所有开放的信息资源,采集到的信息将有更 强的实时性和有效性。 j x r a 技术是一种网络编程和计算的平台【3 】,用以解决现代分布式计算特别是点对 点( p 2 d 计算中出现的问题。j 队技术提供了基础性的机制解决当前分布式计算应用中 面i f 盎的问题,实现新一代统一、安全、互操作以及异构的应用。j x l r a 网络是由许多单 一的、相互连接的不同的对等点所组成的。在对等网络中的连接从来都不是固定不变的, 网络之间各对等点问的消息路由也经常在变化着。对等点可以在任意时刻加入或者离开 网络,从而导致网络路由的频繁改变。j ) ( t a l 4 1 的主要目的,是帮助开发面向各种互联网 平台和网络的应用程序。特别应用于对等计算,j x t a 协议将可以使用户更容易通过对 等网络技术获取资源。 基于j x t a 的p 2 p 搜索技术的研究 通过将p 2 p 的信息搜索模型引入搜索引擎技术中,基于j x t a 的搜索引擎与现在是 主流应用的传统的基于网络蜘蛛的搜索引擎相比较,在以下几个方面的性能大有改善: ( 1 ) 搜索信息的即时性。传统的搜索引擎,搜索的并非实际的内容,而是预先通过 “网络蜘蛛”或者其他工具形成的索引。由于网络规模的庞大,导致基于网络蜘蛛的传 统搜索引擎的索引刷新周期过长,必然会影响到索引到的内容的时效问题。而通过p 2 p 的搜索模型构建的搜索引擎系统将搜索的功能放置在每个独立的对等点上,基本上实现 了搜索引擎系统的本地化,当请求消息到来时,将在本地机器上即时地搜索共享的内容, 返回查询的结果,返回的信息都是即时的。 ( 2 ) 搜索范围的深度。传统的搜索引擎,主要搜索的是网络中的静态信息,h t m l 页面以及静态的主页等,而通过p 2 p 的搜索模型构建的搜索引擎系统,采用基于元数据 的内容管理系统,可以共享、管理、检索p p t 、p d f , w o r d 等多格式的内容,通过更加 需要管理的内容开发相应的接口,甚至可以实现网络中所有的内容的共享、管理和搜索。 ( 3 ) 搜索范围的广度及有效性。传统的搜索引擎,搜索的信息提供者只能有限的定 制可以提供的信息,例如基于网络蜘蛛的搜索引擎,只能通过信息提供者限制网络蜘蛛 可以漫游的访问来有限的定制可以提供的信息,当发送一个查询请求,返回的都是所有 可以检索的到的没有经过筛选的内容,用户很难找到真正需要的内容。而利用p 2 p 信息 检索模型构建的搜索引擎系统,通过定义相似内容的查询空间,以及信息提供者通过注 册消息主动提供的可以做出应答的检索范围,主动的定制可以提供的信息的类型、种类, 甚至是可以提供的具体的文件,同时也大大缩小了搜索请求传播的范围,同时也提高了 返回信息的相关性。 1 2 国内外研究现状 1 9 9 9 年n a p s t e 一5 】推出后迅速普及,成为对等计算的重要实例,从此之后,越来越 多的p 2 p 软件的发布和流行,一步步验证了对等计算思想的成功,如g - n u t e l l a 6 1 , f r e e n e t 7 1 ,b i t t o r r e n t ,k a z a a 引,s k y p e t g j ,e d o n k e y s | 1 0 1 等等。今天,对等计算应用已经 超过w e b 应用,成为占用互联网带宽最多的网络应用,其代表系统k a z z a 的同时在线 用户已超过3 0 0 万,其发展之势愈演愈烈,成为业界持续关注与探讨的话题。 一2 一 沈阳工业大学硕士学位论文 与对等计算在产业界迅速普及的同时,研究界也及时跟进,对于对等计算系统的设 计方法和发展方向进行了广泛而深入的研究。今天,对等计算仍是分布式计算领域关注 的焦点,受到该领域所有重要国际会议的重视。2 0 0 1 年提出的结构化覆盖网( s t r u c t u r e d o v e r l a yn e t w o r k ) 及分布式哈希表( d i s t r i b u t e dh a s ht a b l e ,d i n 3 ,更是引发了对等计算 研究的热潮,在此基础上提出了各种大规模分布式系统,包括存储系统、d n s 系统、在 线游戏、网页缓存、新闻组等等。同时,对于如何增强对等计算系统的各种性能,如: 安全性、隐私性、公平性、可扩展性、系统开销、访问性能等等,也开展了深入研究。 事实上,对等计算已逐渐成为一种将来社会不可避免的计算模式,即:人人贡献出 自己的资源、人人享受他人提供的资源。 在国外,根据可利用资源的不同,较为成熟的p 2 p 应用可以分为两个大类:一是运 算群组,二是数据传输。国内绝大部分公司或是研究机构,本身不具备c p u 核心技术 的研发能力。由于技术储备的不足,所以很难开发相关的运算群组的技术。数据传输涉 及的范围比较广,从技术难度角度也比利用闲散计算能力要低的多,大家较为熟悉的就 是文件传输和资源共享。大致可分为三类: 第一类的代表是g n u t e l l a 。c m u t e l l a 采用自身的协议,采用完全分布式的模式,不 需要中央服务器的支持。采用这种模式的好处是,用户完全可以不依靠服务器的支持。 有人对这种模式大加赞赏,但是这种模式没有任何商业价值,因为无法获取用户信息和 对用户进行有效的控制。实际上,c m u t e l l a 本身就是一个开放式的系统,是一个非功利 性质的机构开发的。在国内,深圳点石科技有限公司开发运营的o p e n e x t 就是基于 g n u t e l l a 的协议开发的,在其上搜索得到的资源实际上就是国际上g n u t e l l a 系统上的资 源。 第二类的代表是k a z a a 。k a z a a 类似于p 2 p 的鼻祖n a p s t e r ,采用中央服务器进 行管理,但是数据不通过服务器传输,服务器的作用是存储用户资料和登录服务。k a z a a 采用了多点下载的技术,同一个文件可以从多个拥有相同文件的其它用户处分布下载, 提高下载速度。国内北京正佳乐的p p 点点通,武汉维字的r e a l i n k 都是这种模式,但是 技术上还没有达到k a t _ z a 的水平。 基于j x t a 的p 2 p 搜索技术的研究 第三类是g r o o v e 1 l 】。得益于微软的6 5 0 万美元的投资,加上自身强大的技术实力 ( g r o o v e 的技术总监是l o t u s 之父) ,g l o o v e 在商业应用方面是走的最远的,g r o o v e 的方 向很明确,就是企业或是商务的应用,g r o o v e 自身的功能并不多,只是搭建了一个p 2 p 的平台,然后设计出通用程序接口,实际上g r o o v e 的大多数功能都是第三方开发的。 与以上各种类型不同,s u n 公司在2 0 0 1 年提出的j x t a 体系结构的侧重点在于描 述和完善p 2 p 的基础设施,将各类p 2 p 应用中所涉及的问题抽象成协议栈,为种类繁杂 的各种应用提供泛型编程接口。它以x m l 来描述整个协议族,并没有规定实现所用到 的平台和语言,可以说,j x t a 是目前整个p 2 p 研究领域中第一个广义架构。目前全世 界已经有几十万开发人员参与到该开源项目中,并在一些领域取得了商业上的进展。有 观察家预测,j x t a 的出现就像当年j a v a 的出现一样会使特定技术领域出现一个新高 潮。综合目前国内外的p 2 p 领域的主要技术,j x t a 的可扩展性最佳,其以服务思想为 核心的理念也是p 2 p 应用的本质,并且其开放源代码的特点也使其发展速度极为迅猛, 已经步入当前p 2 p 研究应用的主流。 1 3 课题研究的意义 由于目前互联网搜索引擎主要依赖全文检索技术和w e b 爬虫来搜索互联网上的内 容并将这些信息存储到海量可搜索的数据库中,用户在互联网上检索时,利用搜索引擎 公司提供的服务器,在需要搜索信息的时候要向服务器发出指令,有服务器把检索出来 的相关目录通过一定的排序法则呈现在用户面前,这就会不可避免的带来一些问题,比 如:如果服务器信息更新周期长,将有大量过时的信息产生;如果服务器不加鉴别、只 是一味的搜集信息,将带来许多无价值的垃圾信息;受设备条件影响,服务器收集的信 息有限等等。如果利用p 2 p 技术,则可以完全不受服务器的限制。当输入搜索关键字时, 搜索指令便同时向若干台计算机发出,然后这若干台计算机再分别向另外若干台发出搜 索指令,依此类推,搜索范围便以几何级数迅速增长。显然,其搜索深度和广度是现有 的搜索引擎所望尘莫及的。 p 2 f 理念与搜索引擎技术相结合,是第三代搜索引擎技术发展的一个颇受瞩目的方 向。建立在p 2 p 搜索模型基础上的基于j x t a 的搜索引擎与目前使用中的其他各类搜索 沈阳工业大学硕士学位论文 引擎相比较,最大的优势在于它采用了其他搜索引擎以往从未采用过的对等( p 2 p ) 信 息搜索模型来对对等网络进行全方位的搜索。 在p 2 p 系统中,资源分散在各个节点上。节点频繁的加入或退出,p 2 p 系统处于不 断的变化之中。p 2 p 系统的规模一般都很大,而且会不断扩展。由于p 2 p 系统的可扩展 性,节点的不确定性,设计一个好的搜索机制比较困难。 先进的对等搜索理念与传统的搜索引擎的技术的结合,把搜索引擎技术提升到一个 新的层次f 1 2 1 。把p 2 p 技术应用到网络信息的检索过程中,通过共享硬盘上的所有文件、 目录,用户搜索时无需中心服务器的支持,不受信息文档结构的限制,可以达到传统的 搜索引擎无可比拟的深度和广度。更由于其本质上有异于传统的基于网络蜘蛛的搜索引 擎的工作机制,在搜索到的信息的更新速度、以及文档搜索的深度、搜索到的信息的有 效性等方面与传统搜索引擎相比有着巨大的优越性,能更有效地查找定位网络信息资 源,有效的缓解了庞大的信息量与人们获取有效信息的能力之间的矛盾。 目前,关于p 2 p 技术研究的一个主要问题是搜索问题,研究p 2 p 网络的搜索技术具 有重要的学术意义和实用意义【i ”。 从学术意义上讲,p 2 p 网络上资源的存在形式对搜索技术提出了新的要求。p 2 p 网 络上的资源丰富多彩,包括文件、程序等软件资源和打印机、传感器等硬件资源,也包 括空闲的c p u 周期等。p 2 p 网络的资源还具有极大的分散性,资源分布在许多节点上, 同时每个节点上的资源并不多。由于节点自由的加入或退出,p 2 p 网络的资源还处于不 断的动态变化之中。p 2 p 网络的资源存在形式决定了p 2 p 的搜索技术和现有的搜索技术 有很大的不同,所以,研究p 2 p 网络的搜索技术具有重要的学术意义。 从实用意义上讲,现阶段互连网上大量资源被闲置,没有充分的利用。p 2 p 搜索技 术可以帮助人们方便的找到各种资源,从而提高资源的利用率,实现资源的充分共享。 同时,p 2 p 搜索技术可以方便人们即时找到协作对象,能够进行跨越地理位置障碍的协 同工作。所以,研究p 2 p 的搜索技术也有重要的实用意义。 目前国内对于j x t a 技术的研究应用很少,本课题提出的基于j x t a 的p 2 p 搜索技 术的研究将努力跟踪国际最新的研究方向,为今后设计和开发具有较高实用价值的p 2 p 搜索引擎系统进行了实际意义上的探讨。 基于j x t a 的p 2 p 搜索技术的研究 1 4 本文的主要工作 ( 1 ) 通过查阅大量的国内外文献资料,概述了p 2 p 技术,包括p 2 p 的定义、p 2 p 模 式与c s 模式的比较、p 2 p 的特点以及p 2 p 技术在搜索方面的应用及优势。 ( 2 ) 对s u n 公司提出的j x t a 架构进行了深入分析和学习,包括j x t a 的三层体系 结构和六个协议等。 ( 3 ) 对目前基于p 2 p 的搜索算法进行了分类探讨,并且重点研究和分析了几种p 2 p 搜索算法,指出它们的优缺点。 “) 在j x t a 架构基础上,设计并实现了p 2 p 共享资源搜索网络系统,并对各个功 能模块的设计和实现都给予了详细的介绍。 ( 5 ) 指出了系统设计中的不足,并提出了对未来工作的展望。 6 一 沈阳工业大学硕士学位论文 2 p 2 p 技术概述 2 1 什么是p 2 p p 2 p 是英文“p e e r - t o p e e r ”的缩写,称为对等网络或点对点技术。p 2 p 是一种网络 模型,在这种网络中所有的节点是对等的( 称为对等点) ,各节点具有相同的责任与能力 并协同完成任务。对等点之间通过直接互连共享信息资源、处理器资源、存储资源甚至 高速缓存资源等,无需依赖集中式服务器或资源就可完成。这种模式与当今广泛使用的 客户端j j l 务器( c 偈) 的网络模式形成鲜明对比,c s 模式中服务器是网络的控制核心,而 p 2 p 模式的节点则具有很高的自治性和随机性。随着像n a p s t e r ,g n u t e l l a 这种信息共享 应用程序变得越来越流行,p 2 p 技术受到人们的广泛关注。 目前,在学术界、工业界对于p 2 p 有两个层面的基本含义【1 4 】: ( 1 ) p 2 p 通信模式。这种模式区别于传统的客户机服务器或者主,从e 嬲【e r ,s l a v e ) 模 式,每个通信方都具有相同的能力,并且每个通信方都可以发起一个通信过程。 ( 2 ) p 2 p 网络。p 2 p 网络是运行在互联网上的动态变化的逻辑网络。这个网络是由一 些运行同一个网络程序的客户端彼此互连而构成的,客户端彼此间可以直接访问存储在 对方驱动器上的文件。 虽然上述定义稍有不同,但共同点都是p 2 p 打破了传统的c l i e n t s e r v e r ( c s ) 模式, 在网络中的每个结点的地位都是对等的。每个结点既充当服务器,为其他结点提供服务, 同时也享用其他结点提供的服务。 2 2 p 2 p 模式与c s 模式 目前最流行的计算模式是c s 模式,图2 1 是一个典型的c s 模式的体系结构。c s 结构具有如下特点1 1 5 】: ( 1 ) 集中计算方式,信息和数据都保存在服务器端。只有服务器具有控制能力,客 户端基本上只是一个高性能的i 0 设备。 ( 2 ) 服务器及网络的带宽决定了网络的性能。每台服务器所能提供的信息数量受到 自身存储空间的限制,而任意时刻它所能支持的客户端访问数量则受到自身处理能力以 及网络吞吐能力的限制。 基于j x t a 的p 2 p 搜索技术的研究 ( 3 ) u r l 用来表示信息资源的地址,但是u r l 很少能直接体现所定位信息的内容, 甚至不能直接连接到具体的内容上。 ( 4 ) 被发布信息的分布与生存期十分稳定。服务器只发布机器所有者想公之于众的 信息,这些信息将会在该服务器上稳定的保存一段时间,并且该服务器也不间断地运行 在网络上。 ( 5 ) 被发布信息的存储与管理比较集中,互联网上所有可以公开访问的信息基本上 都保存在服务器上,服务器根据适当的算法和规则管理本地信息,应答客户端的访问请 求或进行计算。 图2 i c s 模式 f i g 2 1c sm o d e l p 2 p 模式是非中心结构,它与c s 模式有明显的差别。如图2 2 所示: ( 1 ) 网络中的每一个对等点都具有相同的地位,既可以请求服务,也可以提供服务, 同时扮演着c s 模式中的服务器和客户端两个角色,还可以具有路由器和高速缓冲存储 器的功能,从而弱化了服务器的功能,甚至取消了服务器。 ( 2 ) p 2 p 技术可以使得非互连网络用户很容易地加入到系统中。在p 2 p 的计算环境 中任何设备从大型机到移动电话,甚至是传呼机等可以在任何地点方便地加入进 来。 ( 3 ) p 2 p 是基于内容的寻址方式,这里的内容不仅包括信息的内容,还包括空闲机 时、存储空间等。p 2 p 网络中,用户直接输入要索取的信息的内容,而不是信息的地址, 一8 一 沈阳工业大学硕士学位论文 p 2 p 软件将会把用户的请求翻译成包含此信息的节点的实际地址,而这个地址对用户来 说是透明的。 “) 每个对等点可以随意的进入对等网络中,也可以随时的退出,它没有固定的口 地址,每次进入时都被随机分配口地址。 ( 5 ) 信息的存储及发布具有随意性,每个对等点都可以发布信息,所以数据的实时 性好,但缺乏集中管理,从而会造成网络带宽和信息存在的不稳定。 图2 2 p 2 p 模式 f i g 2 2p 2 pm o d e l 通过以上对c s 模式和p 2 p 模式特点的比较,可以看出p 2 p 模式相对于c s 模式的 一些主要优点1 16 1 7 1 : ( 1 ) p 2 p 模式最主要的优点就是资源的高度利用率。在p 2 p 网络上,闲散资源有机 会得到利用,所有节点的资源总和构成了整个瞬络的资源,整个网络可以被用作具有海 量存储能力和巨大计算处理能力的超级计算机。c s 模式下,即使客户端有大量的闲散 资源,也无法被利用。 ( 2 ) 随着节点的增加,c s 模式下服务器的负载就越来越重,形成了系统的瓶颈,一 旦服务器崩溃,整个网络也随之瘫痪。而在p 2 p 网络中,每个对等点都是一个活动的参 与者,每个对等点都向网络贡献一些资源,如存储空间、c p u 周期等。所以对等点越多, 网络性能越好,网络随着规模的增大而越稳固。 基于j x t a 的p 2 p 搜索技术的研究 ( 3 ) 基于内容的寻址方式处于一个更高的语义层次,因为用户在信息搜索时只需指 定具有实际意义的信息标识而不是物理地址。这将创造一个更加精炼的信息仓库和一个 更加统一的信息标识方法。 ( 4 ) 信息在网络设备节点间直接流动,高速即时,降低中转服务成本。 ( 5 ) c s 模式下的互联网完全依赖于中心点服务器。没有服务器网络就没有意义。 而在p 2 p 网络中,节点所有者可以随意的将信息发布到网络上。 2 3 p 2 p 的特点 与其它网络模型相比,p 2 p 具有以下特点【埘。 ( 1 ) 分散化。网络中的资源和服务分散在所有节点上,信息的传输和服务的实现都 直接在节点之间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。分散化 是p 2 p 的基本特点,由此带来了其在可扩展性、健壮性等方面的优势。 ( 2 ) 可扩展性。在p 2 p 网络中,随着用户的加入,不仅服务的需求增加了,系统整 体的资源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。即使在诸如 n a p s t e r 等混合型架构中,由于大部分处理直接在节点之间进行,大大减少了对服务器 的依赖,因而能够方便地扩展到数百万个以上的用户。而对于纯p 2 p 来说,整个体系是 全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。 ( 3 ) 健壮性。p 2 p 架构则天生具有耐攻击、高容错的优点。由于服务是分散在各个 节点之间进行的,部分节点或网络遭到破坏对其它部分的影响很小。而且p 2 p 模型一般 在部分节点失效时能够自动调整整体拓扑,保持其它节点的连通性。 ( 4 ) 隐私性。在p 2 p 网络中,由于信息的传输分散在各节点之间进行而无需经过某 个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决i n t e r n c t 隐私问题主要采用中继转发的技术方法,从而将通信的参与者隐藏在众多的网络实体之 中。在传统的一些匿名通信系统中,实现这一机制依赖于某些中继服务器节点。而在 p 2 p 中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性和 可靠性,能够为用户提供更好的隐私保护。 ( 5 ) 高性能。采用p 2 p 架构可以有效地利用互联网中散布的大量普通节点,将计算 任务或存储资料分布到所有节点上。利用其中闲置的计算能力或存储空间,达到高性能 沈阳工业大学硕士学位论文 计算和海量存储的目的。这与当前高性能计算机中普遍采用的分布式计算的思想是一致 的。但通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。 2 4p 2 p 技术在搜索方面的应用及优势 p 2 p 技术的一个优势便是开发出强大的搜索工具。p 2 p 技术使用户能够深度搜索文 档,而且这种搜索无需通过w e b 服务器,也可以不受信息文档格式和宿主设备的限制, 可达到传统目录式搜索资源无可比拟的深度。g o o g l e 无疑是目前最出色的全文搜索,但 即使是它也只能搜索到2 0 3 0 的网络资源,因为它是基于传统的搜索技术。而一个设 计良好的p 2 p 搜索将远超过这一数字。 以p 2 p 技术发展的先锋之一g n u t e l l a 进行的搜索为例来说明这一问题 1 9 l :一台p c 上的g n u t e l l a 软件可将用户的搜索请求同时发给网络上另外1 0 台p c ,如果搜索请求未 得到满足,这1 0 台p c 中的每一台都会把该搜索请求转发给另外1 0 台p c ,这样,搜索 范围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台p c 上的信息资源。可 以说,p 2 p 为互联网的信息搜索提供了全新的解决之道。当然,准备把p 2 p 技术应用到 搜索引擎上来的不止g n u t e l h 一家,d i g i t a l 公司的p a n d a n g o 搜索引擎目前也已经几近 完成。 至今为止,主要的商用搜索引擎都把目光对准了各主要w e b 站点,人们对于信息 的获取方式虽然已经大大的扩展了,却依然摆脱不了以服务器中心的信息获取方式,人 们可以获取的信息取决与一些大的站点所提供的信息。互联网创造之初所提倡的那种自 由、平等、无中心化的思想正在被逐渐淡化。其实,随着p c 存储技术和处理器的迅速 发展,作为互联网上的叶子节点的个人电脑并不缺少信息资源,也不缺乏足够的处理能 力,只是由于在其上的资料无法被搜索、无法被他人知晓,而不能够被共享。同时个人 计算机也拥有大量的空闲的计算资源被浪费 2 0 l 。 在目前的情况下,一种基于p 2 p 技术针对本地资源的搜索网络将使的这一问题得到 很大的改善。同时基于p 2 p 技术,针对本地资源的搜索网络相对与传统的基于中心服务 器的搜索还有以下优点。 基于j x t a 的p 2 p 搜索技术的研究 ( 1 ) 不需要昂贵的服务器端。计算机集群通过对于客户端计算机运算资源的共享, 将原来需要使用昂贵的服务器端计算机集群来完成的任务分解为许多的较小并行运算 任务。 ( 2 ) 具有优秀的搜索性能。由于客户端计算机数目可能十分庞大,如果该搜索引擎 的并行算法设计合理,则其系统的搜索能力是其它基于昂贵的服务器端计算机集群的系 统所无法比拟的。 ( 3 ) 准确的搜索结果。目前的搜索网络都是到各大的站点上去搜索,而忽略了个人 计算机上有意义的资料,造成的后果是人们需要在返回的数以万计的信息中,再进行查 阅,以寻找有效的信息。对于p 2 p 的搜索,由于其搜索的内容主要来自客户的个人计算 机,故这些资料很有可能是经过用户人工筛选过的,因此资料的有效性也得到了一定的 保证。同时由于p 2 p 搜索还可以和人工智能的一部分研究成果相结合,以获得更准确的 搜索结果。 沈阳工业大学硕士学位论文 3j x t a 架构分析 3 1j x t a 概述 j x t a o u x t a p o s e 的缩写,指并行) 是s l l n 公司于2 0 0 1 年四月份提出的一项技术。j x t a 的主要目的,是为p 2 p 的网络应用开发提供一个统一的平台。j ) 【t a 协议将可以使用户 更容易通过对等网络技术获取资源。s m 的首席科学家和创始人之一比尔乔伊说: “j ) ( 1 a 项目完成了我2 5 年的心愿。”他表示,j x r a 是一种独立于平台和编程语言, 开放源代码的技术,可以带来更多新的分布式应用程序【2 1 1 。 j x t a 协议由6 个协议组成,他们是为特定的、普遍深入的多级p 2 p 网络计算设计 的。使用j x t a 协议,点可以在自组织和自配置的点组中协同工作而与它们在网络中的 位置( 边缘、防火墙) 无关,也不需要集中的管理基础设旖。 这意味着j x t a 是一个具有一组支持p 2 p 应用程序的标准的框架。 j x t a 技术的一系列目标都源于现有的,或正在开发的对等系统中被认为是缺点的 方面,它主要包括以下几点: ( 1 ) 互操作性圈。j x t a 技术能使互连的对等点方便的相互查找,通信,参与基于 通信的活动,并能无缝的通过不同的系统相互提供服务。当前,许多对等系统仅仅只提 供某一方面的服务,如:n a p s t 盯提供音乐文件的查找,g 1 1 u t e r a 提供普通文件共享,a i m 提供短消息发送。由于缺乏共同的基础机制,这些对等系统互不兼容,难以相互操作。 特别的,假如有一个对等点同时参与了由不同的对等系统形成的多个对等点共同体,则 这个对等点就必须支持多个应用,每一个应用对应于一个不同的p 2 p 系统。这种环境中 一方面存在大量的功能重复建设,一方面也给用户带来了诸多不便,比如一个眦a 用户想通过距离自己比较近的眈网络查找另一个g n u t e i l a 用户是不可能的,网络 就在无形中被划分为以应用所隔离的孤岛。j ) c l r a 的目标是就使p 2 p 的世界在基础服务 层面上达到共享,不同的应用之间可以方便的利用共同的基础设旌。 ( 2 ) 平台独立性。j x r a 被设计为独立于编程语言( 如c ,j a v a ) ,系统平台( 如 m i c r d s o f tw i n d o w s 和u n i x 等等) ,和网络平台( 如t c p ,口,b l u e t o o t h ) 。当 前的许多p 2 p 系统通过一组源于特定操作系统和网络协议的a p i 提供它们的特色和服 基于j x t a 的p 2 p 搜索技术的研究 务。如一个p 2 p 系统运行于w i n d o w s ,t c p i p 环境下,提供一组c + + a p i ,而另一 个系统运行于u n i x ,t c p i p 环境,同时提供c 和j a v a 的a p i 。这时候,一个f 2 p 系统的开发者就不得不选择某一个a p i 集合来进行开发。由于,两个系统可相互操作的 希望很小,如果开发者想为两个共同体提供相同的服务,他们不得不为两套系统分别开 发一次,或开发一个它们之间的转化系统。考虑到现存的大量p 2 p 系统,这两种解决方 案无疑都是不实用和低效率的。j x t a 技术的目标就是为所有开发者提供一个独立于语 言,开发环境和运行环境的抽象平台。 ( 3 ) 普遍性。j x t a 技术被设计为可用于所有拥有一颗数字心脏的设备,包括传感器, 消费电器,p d a ,网络路由器,桌面电脑,数据中心服务器和存储系统。从本质上说, j x t a 的目标就是支持任何设备上的点对点编程,从桌面计算机到p d a 再到汽车和洗衣 机等等。 3 2j 隗的体系结构 j x t a 的体系结构分为三层嘲:核心层( c o r e ) ,服务层( s e r v i c e ) ,应用层( a p p l i c a t i o n ) 。 核心层:核心层包括了p 2 p 网络最基本的操作。它包括了端发现,端到端传输( 包 括穿透防火墙) ,创建对等点和对等组以及相关安全措施的实现。 服务层:服务层包括了一些常用的p 2 p 网络服务,而这些服务并非一个基本p 2 p 系统所必需具备的。例如查找和索引,目录,存储系统,文件共享,分布式文件系统, 资源收集和租用,协议转换,身份认证和公钥系统( p l o ,p u b l i ck e y 蝴c t a n c ) 等服 务。 应用层:应用层建立在服务层之上,提供p 2 p 的应用程序,通过应用层,用户可以 建立自己的p 2 p 应用 2 4 1 。例如p 2 p 即时消息系统,娱乐信息的管理和传递,p 2 p 电子邮 件系统,分布式拍卖系统和其它一些p 2 p 应用系统。 此外,j x t a 体系结构和实现方式还具有以下特点; ( 1 ) 所有的网络资源都通过统一的x v i l 文件加以描述,并通过广告( a d v e r t i s e m e n t s ) 的方式告知网络中的用户。 一1 4 沈阳工业大学硕士学位论文 ( 2 ) j ) 汀a 在实现对等点通信时将对等点( p e e r ) 之间的虚拟信道抽象成管道( p i p e s ) , 将通信双方的线程抽象为端点( e n d p o i m s ) ,这种通信的描述方式不需要依赖专门的命名 或寻址机构( 例如d n s ) ,具有很好的扩展性。 ( 3 ) 通过p e e rd s 统一为所有对象命名。 3 3j x t a 的基本概念 为了更好的对p 2 p 网络进行抽象和建模,j x t a 技术中定义了许多独特的概念,包 括:对等点,对等组,广告,消息,管道等等。下面,对这些概念一一介绍。 ( 1 ) 对等点( 晰) 。一个对等点& e e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论