




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)基于jxta平台的元数据语义网的p2p搜索.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 ! ! ! ! ! ! ! 型! 壁! ! ! 坠! ! ! ! ! ! 竺g ! 堕望! ! 塑! ! ! 堡 摘要 随着p 2 p 技术和商业应用的发展,p 2 p 技术受到前所未有的重视。它可以说 是一种网络结构的思想,从一定意义上讲p 2 p 技术并非一种简单的计算机技术, 而是一种传播技术。它使得网络信息共享与利用得到进一步的改进。同时它还使 得网络中的内容去中心化。 在过去几年里,p 2 p 搜索得到了广泛的研究,研究者提出了许多算法,如最 早的n a p s t e r 基于目录模型的搜索算法,到g n u t e l l a 的广播搜索算法,再发展 到路由、索引、超结点等搜索算法,它们各自应用于不同的网络中。 j x t a 是由s u n 公司监管,但来自世界各地的参与者共同发展的开发源码的 p 2 p 项目。它是由一组独立的语言和网络协议组成,用户可以根据需要开发应用 实例。 本文在国内外已有的研究成果及应用情况的基础上,系统地研究了基于元数 据的p 2 p 搜索算法,并在模拟环境中实现了算法并改进性能。主要工作有: 1 ) 针对j x t a 只能对文件名进行搜索的缺陷,研究了d c 元数据结构,建立 了文件共享和文件搜索模型,实现了j x t a 平台的元数据搜索。 2 ) 针对x m l 查询语言人们难以理解的不足,专门设计了个类似自然语言 的查询语言。 3 ) 在上述基础上实现了基于语义网的p 2 p 搜索算法,并且对搜索结果进行 优化。 关键字:j x t ap 2 p 搜索元数据 上海大学硕士学位论文 :望! ! ! ! 熊型! 坐! ! 塑堡堕! ! 磐塑型望! ! 兰! 生型 a b s t r a c t w i t ht h ed e v e l o p m e n to fp 2 pt e c h n o l o g ya n db u s i n e s s a p p l i c a t i o n s ,p 2 p t e c h n o l o g yh a sb e e nr e c e i v e dt h eu n p r e c e d e n t e da t t e n t i o n s i ti sak i n do fn e t w o r k a r c h i t e c t u r ei d e a s p 2 pt e c h n o l o g yi sn o tak i n do fs i m p l ec o m p u t e rt e c h n o l o g yi n s o m es e n s e s ,b u tl o o k sl i k eak i n do fd i s s e m i n a t i o nt e c h n o l o g y 。i tm a k e st h es h a r i n g a n dt h eu t i l i z a t i o no f t h en e t w o r ki n f o r m a t i o ng e tt h ef u r t h e rc h a n g e a tt h es a n l et i m e i ta l s om a k e st h ec o n t e n ti nt h en e t w o r kg ot ot h ed e c e n t r a l i z a t i o n i nt h ep a s ts e v e r a ly e a r s ,t h er e s e a r c ho np 2 ps e a r c hh a sb e e nc a r r i e do u t e x t e n s i v e l y m a n ya l g o r i t h m s h a v eb e e np r o p o s e d ,s u c ha st h en a p s t e rs e a r c h a l g o r i t h mb a s e do nt h ed i r e c t o r ym o d e la tf i r s t ,t h e nt h eb r o a d c a s t ss e a r c ha l g o r i t h m o fg n u t e l l a , a n dr e c e n t l ys o m eo t h e rs e a r c ha l g o r i t h m sl i k et h er o u t e ,i n d e x ,s u p e r n o d ea l g o r i t h m ,w h i c ha r ea p p l i e di nt h ed i f f e r e n tn e t w o r kr e s p e c t i v e l y j x t ai ss u p e r v i s e da n dm a n a g e db ys u nc o r p o r a t i o n ,a n da no p e ns o u r c ep 2 p p r o j e c td e v e l o p e db yt h ep a r t i c i p a n t sc o m i n gf r o mt h ew h o l ew o r l d a l s o ,j x t ai s c o m p o s e do fag r o u po fp r o t o c o l st h a t a r ei n d e p e n d e n to ft h el a n g u a g ea n dt h e n e t w o r k s a n di tc a i ld e v e l o pt h ea p p l i c a t i o ni n s t a n c e sa c c o r d i n gt ot h en e e d a c c o r d i n gt ot h er e s e a r c hr e s u l t sa n da p p l i e ds i t u a t i o n sh o m ea n da b r o a d ,t h i s a r t i c l eh a ss y s t e m a t i c a l l ys t u d i e dt h ep 2 ps e a r c ha l g o r i t h mb a s e do nm e t a d a t a ,a n dh a s i m p l e m e n t e dt h ea l g o r i t h mi nt h es i m u l a t e de n v i r o n m e n ta n di m p r o v e dt h es y s t e m p e r f o r m a n c e i tl i e si n : 1)to o v e r c o m et h es h o r t c o m i n gt h a tj x t ac a no n l ys e a r c hf i l e sa c c o r d i n g t of i l e n a m e ,t l l i sa r t i c l eh a ss t u d i e dt h ed cm e t a d a t as t r u c t u r e e s t a b l i s h e dt h ed o c u m e n ts h a r i n ga n dd o c u m e n ts e a r c hm o d e l ,a n d i m p l e m e n t e dt h em e t a d a t as e a r c ho nt h ej x t ap l a t f o r m 2)too v e r c o m et h ew e a k n e s st h a th u m a nc a r lh a r d l yu n d e r s t a n dt h ex m l i n q u i r yl a n g u a g e ,t h i sa r t i c l eh a sd e s i g n e das p e c i a li n q u i r yl a n g u a g e s i m i l a rw i t ht h en a t u r a ll a n g u a g e 3 )f u r t h e r m o r e ,t h i sa r t i c l eh a sa l s oi m p l e m e n t e dt h ep 2 ps e a r c ha l g o r i t h m b a s e do nt h es e m a n t i cn e t w o r k ,a n do p t i m i z e dt h es e a r c hr e s u l t so ft h e a l g o r i t h m k e yw o r d s :j x t ap 2 ps e a r c h i n gm e t a d a t a u , 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:缝些鳢日期丝:l :! 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:l 龛之畦导师签名:i 墅兰! :主日期:皇型 上海犬学硕士学位论文 ! ! ! ! ! 整g 翌塑坐坠塑! ! ! ! ! ! 竺韭! ! 旦! 监垡堕 1 1 立题背景 第一章绪论 1 1 1p 2 p 的发展历史 p 2 p t l l 是p e e r - t o 。p e e r 的缩写,或称为对等网。p 2 p 应用最初出现时和现在并 不相同。事实上可以认为它是若干种技术和流行趋势的产物。下面是导致p 2 p 技术发展的两种最重要的趋势: 首先是某些新技术与软件工程结合,形成了一种将工作分散的趋势。p 2 p 计 算正是这种分散工作趋势的自然结果。 其次,从工程的角度看来,在企业应用集成等因素的驱动下,过去十年渐渐 形成了一种从集中的单机系统转向分布式系统的趋势。在集中式的应用中进行控 制是相对容易的,因此在一定程度上抻制了分布式系统的发展。然而随着互联网 的发展,以及b 2 b 商务交易方式的日益流行,全面且广泛的分布式计算也就成 为一种商业需求。对功能强大的网络计算机的需求以及昂贵的带宽开销,是对分 布式计算影响最大的两个因素。为了提高效率,出现了一种新的技术,它是由许 多互相连接的同位体( p e e r ) 组成的p 2 p 计算。 这两种趋势导致了p 2 p 应用技术研究的迅速发展。 除了技术因素之外,社会因素也是一个重要原因。人们对p 2 p 计算技术的热 切关注起源于n a p s t e r 2 】,s c o u r ,g n u t e l l a 3 ,以及这些家族的其他产品。这些 产品提供了所谓的杀手应用( k i l l e ra p p s ) 功能,能够将部分p 2 p 技术下发到客 户端用户手中。正是这种第一手的体验,使得人们越来越关注p 2 p 技术的强大功 能。 然而必须指出的是,最初的p 2 p 应用大约产生于2 0 年前,并且其中的谗多 应用至今仍然被使用。尽管这些早期应用的核心就是p 2 p ,但由于大多数的使用 者并未接触到,因此通常并不认为它们是p 2 p 技术。从某种意义上说p 2 p 是互 联网整体架构的基础。互联网的最基本的协议t c p i p 并没有客户机和服务器的 概念,所有的设备都是通讯的平等的一端。在十年之前,所有的互联网上的系统 都同时具有服务器和客户机的功能。当然,后来发展的那些架构在t c p i p 之上 的软件的确采用了客户枫,服务器的架构:赦l j 览器和w e b 服务器,邮寄客户端和 邮件服务器。但是,对于服务器来说,它们之间仍然是对等联网的。以e m a i l 为例,互联网上并没有一个巨大的、唯一的邮件服务器来处理所有的e m a i l , 而是对等联网的邮件服务器相互协作把e - - m a i l 传送到相应的服务器上去。另 上海大学硕士学位论文 ! 堡! ! ! ! 壁塑! 塑! 塑! ! ! ! ! 塑竺塑型旦! 生! ! ! 生 外,用户之间的e m a i l 则一直是对等的联络渠道。事实上,网络上现在的许多 服务可以归入p 2 p 的行列。即时信息系统就是最流行的p 2 p 应用。 简单地说,p 2 p 直接将人们联系起来,让人们通过互联网直接交互。p 2 p 使 得网络上的沟通变得容易、更直接真正地消除了中间商。p 2 p 另一个重要特点 是改变互联网现在的以大网站为中心的状态、重返“非中心化”,并把权力交还 给用户。p 2 p 看起来似乎很新,但是正如b 2 c 、b 2 b 是将现实世界中很平常的东 西移植到互联网上一样,p 2 p 并不是什么新东西。 可以这样看待p 2 p 带来的转变,“内容位于中心”模式较好地适应了互联网 初期的情况,当时由于个人电脑性能差需要有专门的服务器,带宽窄使得个人电 脑不得不退化到被动浏览;现在出现了宽带互联网、更稳定的更商性能的个人电 脑,使得“内容位于边缘”模式成为可能。 p 2 p 正在引导网络计算模式从集中式向分布式偏移,也就是说网络应用的核 心从中央服务器向网络边缘的终端设备扩散:服务器到服务器、服务器到p c 机、 p c 机到p c 机、p c 机到w a p 手机等所有网络节点上的设备都可以建立p 2 p 对 话。这使人们在i n t e r a c t 上的共享行为被提高到了一个更高的层次,使人们以更 主动深刻的方式参与到网络中去,使每一个人都能为网络的资源和功能扩展做出 自己的贡献。 最后,可以用三句话来揭示p 2 p 的影响: 对等联网:是只读的网络的终结; 对等联网:使你重新参与互联网; 对等联网:使网络远离电视。 1 1 2p 2 p 的应用 p 2 p 计算并非一种全新的技术。虽然p 2 p 这个术语是最近才提出的,但p 2 p 本身的基本技术的存在时间却至少和u s e n e t 【4 】、f i d o n e t 5 i 这两种非常成功的分 布式对等网络技术一样长,甚至更长些。关键在于,在最初的p 2 p 应用出现时, 许多使用该技术的人们甚至不会使用计算机。 u s e n e t 产生于1 9 7 9 年,是种分布式系统,能够为各个地方提供新闻组。 u s e n e t 最早的雏形是由两名研究生t o m t r u s c o t t 和j i me l l i s 实现的。当时并没 有任何类似于互联网上“随选”信息的概念,文件只能通过电话线批量传送,且 常常选在长途费用比较低的夜间进行。因此,当时的u s e n e t 若采用集中式的 控制管理方法将效率低下,自然而然地就提出了- - 4 十分散、分布式的管理方法。 这种分布的结构一直沿用至今。 早期p 2 p 应用另一个杰出的代表则是f i d o n e t 。它和u s e n e t 类似,也是一 上海大学硕士学位论文 旦! 堕g 翌! ! 坐! ! ! ! ! ! 堕! ! 竺g ! ! ! 望! ! 翌! ! 立 个分散、分布的信息交换系统。t o mj e n n i n g s 于1 9 8 4 年创建了f i d o n e t 系统,来 让不同b b s 系统中的用户们互相交换信息。 u s e n e t 和f i d o n e t 都是值得探究的系统,因为它们在多年前就遇到并解决 了许多当今p 2 p 技术所面临的同样问题,同时也存在着安全性以及其他一些问 题。 1 1 3 p 2 p 搜索简介 1 9 9 7 年底i n f o s e e k 开始提出并考虑p 2 p 搜索,当时各个网站上都有各自的 小型搜索引擎,以便大家进行沟通,如果某个搜索引擎搜索不到,可以通过其他 的引擎进行搜索。但是,它离实际的应用相差甚远,主要是违反了关键性指标中 有关速度的问题。由于存在很多这种小的相互独立、相互连接的引擎,因此其速 度没有集中式管理的搜索引擎快。 一个颇受瞩目的搜索技术就是将p 2 p 技术应用到网页的检索中。通过共享所 有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过w e b 服务器不受 信息文档格式的限制,即可达到传统目录式搜索弓l 擎无可比拟的深度( 传统引擎 只能达到2 0 3 0 的网络资源) 。美国一家新兴搜索引擎设计公司i 5d i g i t a l 在 两年前已正式推出了依据对等搜索理念的商业性搜索引擎p a n d a n g o ( w w w p a n d a n g o c o r n ) ,但至今仍末进入主流搜索引擎阵容的事实说明p 2 p 搜索目 前也只能称为是未来的技术。 以p 2 p 技术发展的先锋g n u t e l l a 进行的搜索为例:一台p c 上的g n u t e l l a 软 件可将用户的搜索请求同时发给网络上另外1 0 台p c ,如果搜索请求未得到满足, 这1 0 台p c 中的每一台都会把该搜索请求转发给另外1 0 台p c ,这样,搜索范 围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台p c 上的信息资源。 可以说,p 2 p 为互联网的信息搜索提供了全新的解决之道。著名的搜索引擎公司 g o o g l e 也宣称要采用p 2 p 技术来改进其搜索引擎,一家名为i n f r a s e a r c h 的新建 公司也因为开发p 2 p 技术的搜索引擎而获得了一笔巨额风险投资。 1 1 4p 2 p 的组网模式 p 2 p 模式的变化经历了集中式、分布式和混合式3 个阶段。p 2 p 技术起源于 文件交换技术,在p 2 p 的发展过程中,文件交换技术的演变最具代表性。下面将 以典型的p 2 p 文件交换软件为例来研究p 2 p 模式的几种主要形式。 ( 1 ) 集中式对等网络 n a p s t e r 提供的m p 3 下载服务就是最早的p 2 p 实现。它并不提供m p 3 音乐 上海大学硕士学位论文 :! 塑! ! ! 塑! ! ! 坐婴! ! 堡堕! ! 竺韭墅坐! ! 竖竺堂 个分散、分布的信息交换系统。t o mj e n n i n g s 于1 9 8 4 年创建了f i d o n e * 系统,来 让不同b b s 系统中的用户们互相交换信息。 u s e n e t 和f i d o n e t 都是值得探究的系统,因为它们在多年前就遇到并解决 了许多当今p 2 p 技术所面临的同样问题,同时也存在着安全性以及其他一些问 题。 1 1 3 p 2 p 搜索简介 1 9 9 7 年底i n f o s e e k 丌始提出并考虑p 2 p 搜索,当时各个网站上都有各自的 小型搜索引擎,以便大家进行沟通,如果某个搜索引擎搜索不到,可以通过其他 的引擎进行搜索。但是。它离实际的应用相差甚远,主要是违反了关键性指标中 有关速度的问题。由于存在很多这种小的相互独立、相互连接的引擎,因此其速 度没有集中式管理的搜索引擎快。 一个颇受瞩目的搜索技术就是将p 2 p 技术应用到网页的检索中。通过共享所 有硬盘上的文件、目录乃至整个硬盘用户搜索时无需通过w e b 服务器,不受 信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度( 传统引擎 只能达到2 0 3 0 的网络资源) 。美国一家新兴搜索引擎设计公司i 5d i g i t a l 在 两年前已正式推出了依据对等搜索理念的商业性搜索引擎p a n d a n g o ( w w w p a n d a n g o c o m ) ,但至今仍未进入主流搜索引擎阵容的事实说明p 2 p 搜索目 前也只能称为是未来的技术。 以p 2 p 技术发展的先锋g n u t e l l a 进行的搜索为例:一台p c 上的o n u t e l l a 软 件可将用户的搜索请求同时发给网络上另外1 0 台p c ,如果搜索请求未得到满足, 这1 0 台p c 中的每一台都会把该搜索请求转发给另外1 0 台p c ,这样,搜索范 围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台p c 上的信息资源。 可以说,p 2 p 为互联网的信息搜索提供了全新的解决之道。著名的搜索引擎公司 g o o g l e 也宣称要采用p 2 p 技术来改进其搜索引擎,一家名为i n f m s e a r c h 的新建 公司也因为开发p 2 p 技术的搜索引擎丽获得了一笔巨额风险投资。 1 1 4 p 2 p 的组网模式 p 2 p 模式的变化经历了集中式、分布式和混合式3 个阶段。p 2 p 技术起源卜 文件交换技术,在p 2 p 的发展过程中,文件交换技术的演变最具代表性。下面将 以典型的p 2 p 文件交换软件为例来研究p 2 p 模式的几种主要形式。 ( 1 ) 集中式对等网络 n a p s t e r 提供的m p 3 下载服务就是最早的p 2 p 实现。它并不提供m p 3 音乐 n a p s t e r 提供的m p 3 下载服务就是最早的p 2 p 实现。它并不提供m p 3 音乐 上海大学硕士学位论文 旦! 堕g 翌! ! 坐! ! ! ! ! ! 堕! ! 竺g ! ! ! 望! ! 翌! ! 立 个分散、分布的信息交换系统。t o mj e n n i n g s 于1 9 8 4 年创建了f i d o n e t 系统,来 让不同b b s 系统中的用户们互相交换信息。 u s e n e t 和f i d o n e t 都是值得探究的系统,因为它们在多年前就遇到并解决 了许多当今p 2 p 技术所面临的同样问题,同时也存在着安全性以及其他一些问 题。 1 1 3 p 2 p 搜索简介 1 9 9 7 年底i n f o s e e k 开始提出并考虑p 2 p 搜索,当时各个网站上都有各自的 小型搜索引擎,以便大家进行沟通,如果某个搜索引擎搜索不到,可以通过其他 的引擎进行搜索。但是,它离实际的应用相差甚远,主要是违反了关键性指标中 有关速度的问题。由于存在很多这种小的相互独立、相互连接的引擎,因此其速 度没有集中式管理的搜索引擎快。 一个颇受瞩目的搜索技术就是将p 2 p 技术应用到网页的检索中。通过共享所 有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过w e b 服务器不受 信息文档格式的限制,即可达到传统目录式搜索弓l 擎无可比拟的深度( 传统引擎 只能达到2 0 3 0 的网络资源) 。美国一家新兴搜索引擎设计公司i 5d i g i t a l 在 两年前已正式推出了依据对等搜索理念的商业性搜索引擎p a n d a n g o ( w w w p a n d a n g o c o r n ) ,但至今仍末进入主流搜索引擎阵容的事实说明p 2 p 搜索目 前也只能称为是未来的技术。 以p 2 p 技术发展的先锋g n u t e l l a 进行的搜索为例:一台p c 上的g n u t e l l a 软 件可将用户的搜索请求同时发给网络上另外1 0 台p c ,如果搜索请求未得到满足, 这1 0 台p c 中的每一台都会把该搜索请求转发给另外1 0 台p c ,这样,搜索范 围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台p c 上的信息资源。 可以说,p 2 p 为互联网的信息搜索提供了全新的解决之道。著名的搜索引擎公司 g o o g l e 也宣称要采用p 2 p 技术来改进其搜索引擎,一家名为i n f r a s e a r c h 的新建 公司也因为开发p 2 p 技术的搜索引擎而获得了一笔巨额风险投资。 1 1 4p 2 p 的组网模式 p 2 p 模式的变化经历了集中式、分布式和混合式3 个阶段。p 2 p 技术起源于 文件交换技术,在p 2 p 的发展过程中,文件交换技术的演变最具代表性。下面将 以典型的p 2 p 文件交换软件为例来研究p 2 p 模式的几种主要形式。 ( 1 ) 集中式对等网络 n a p s t e r 提供的m p 3 下载服务就是最早的p 2 p 实现。它并不提供m p 3 音乐 上海大学硕士学位论文 ! 堡! ! ! ! 型! 塑! ! 塑! ! ! i ! 竺韭型望型:! 翌旦 资源,只是提供动态刷新的m p 3 目录服务。音乐资源散布在全球互联网上的用 户手中,借助n a p s t e r 几乎可以找到任何一首歌曲,这是一种集中式对等网络模 式。 集中式p 2 p 模式由一个中心服务器来负责记录共享信息以及反馈对这些信 息的查询:每一个对等实体对它所要共享的信息以及进行的通信负责,根据需要 下载它所需要的其他对等实体上的信息。这种形式具有中心化的特点,但是它不 同于传统意义上的c l i e n t s e r v e r 模式。因为传统意义上的c l i e n t s e r v e r 模式采用 的是一种垄断的手段,所有资料都存放在服务器上,客户枫只能被动地从服务器 上读取信息,并且客户机之间不具有交互能力:而集中式p 2 p 模式则是把所有网 上提供的资料都存放在提供该资料的客户机上,服务器上只保留索引信息,此外 服务器与对等实体以及对等实体之间都具有交互能力。 集中目录式p 2 p 模型还存在很多问题,主要表现为:中央服务器的瘫痪容易 导致整个网络的崩溃,可靠性和安全性较低;随着网络规模的扩大,中央目录服 务器维护和更新的费用将急剧增加,所需成本过高;中央服务器的存在引起共享 资源在版权问题上的纠纷;缺乏有效的强制共享机制,资源可用性差。 集中式p 2 p 可提供中心服务器目录检索、管理服务和标准的点到点通信,具 有高效的检索和低效的交换服务的特点。集中式p 2 p 对小型网络而言在管理和控 制方面占有一定的优势,但对大型网络并不适合。 ( 2 ) 分布式对等网络 因为n a p s t e r 中央服务器的存在引起了版权纠纷,所以g n u t e l l a 、e d o n k e y 和e m u l e 为代表的后来者们吸取了n a p s t e r 失败的教训,将n a p s t e r 的理念推进 一步。当用户p c 安装这些软件后,就会立即变成一台能够提供完整目录和文件 服务的服务器,并会自动搜寻其他同类服务器,从而联成一台由无数p c 组成的 网络超级服务器。与n a p s t e r 网络不同,它不存在中枢目录服务器,或者说把所 有机器都变成了服务器,这就是第二代p 2 p 分布式p 2 p 。 在分布式p 2 p 中,对等机通过与相邻对等机之间的连接遍历整个网络体系。 每个对等机在功能上都是相似的,并没有专门的服务器,而对等机必须依靠它们 所在的分布网络来查找文件和定位其他对等机。 以g n u t e l l a 网络为例,一台新对等机首先通过访问某特殊站点的“主机缓存 服务”( h o s tc a c h es e r v i c e s ) 机制来得到一台活动对等机地址,通过与它建立一 个连接将自己接入g n u t e l l a 网络;接着,该新对等机主动探查网络中的其它对等 机,找到与之相邻的对等机节点。在进行文件查找时,该对等机首先向与之相邻 的所有活动对等点发送一个查询描述符q u e r y 。在其他对等机接收到该查询描述 符后,检查本地是否有符合查询请求的文件内容,如果有,则按查询描述符的发 送路径返回一个查询响应描述符q u e r y h i t ,无论本地是否存在符合查询请求的文 上海大学硕士学位论文 ! 生坠塾g 堡! ! ! 塑! ! 墅! ! ! ! ! ! 竺业! ! 竺! 堡竺堕 件内容,其他对等机都会将该查询包通过扩散方式继续在网络中传递,直至查询 包中t t l ( t i m eo fl i f e ) 属性值递减为0 时才停止继续转发;一旦定位了响应 查询文件的对等机之后,就与响应对等机建立t c p 连接,通过h t t p 协议从响 应对等机中下载自己查询的文件。文件的传输不再经过g n u t e u a 网络进行。 分布式对等网络模型也存在很多弊端,主要表现在以下方面: 搜索请求要经过整个网络或者至少是一个很大的范围才能得到结果,因此, 这种模式占用很多带宽,而且需要花费很长时间才能有返回结果;随着网络规模 的扩大,通过扩散方式定位对等点及查询信息的方法将会造成网络流量急剧增 加,从而导致网络拥塞,最终使g n u t e u a 网络被分片使得查询访问只能在网络 很小的范围内进行,因此,网络的可扩展性不好,不适合大型网络:纯分布式的 p 2 p 模式很难被企业所利用,因为它缺少对网络上的用户节点数以及对他们提供 的资源的一个总体把握;安全性不高,易遭受恶意攻击,如攻击者发送垃圾查询 信息,造成网络拥塞等。 这种无中心、纯分布式系统的特点是:它不再是简单的点到点通信,而是更 高效、更复杂的网络通信;e d o n k e y 和e m u l e 等软件引入了强制共享机制在一 定程度上避免了第一代p 2 p 纯个人服务器管理带来的随意性和低效率。 ( 3 ) 混合p 2 p 网络 集中式p 2 p 有利于网络资源的快速检索,并且只要服务器能力足够强大就可 以无限扩展,但是其中心化的模式容易遭到直接的攻击:分布式p 2 p 解决了抗攻 击性问题,缺点是缺乏快速搜索能力和扩展性。混合式p 2 p 结合了集中式和分布 式p 2 p 的优点,在设计思想和处理能力上都得到了优化。它在分布式p 2 p 模式 的基础上,将用户节点按能力进行分类,使某些节点担任特殊的任务。这些节点 共分为3 种: 用户节点:普通节点,它不具有任何特殊的功能。 搜索节点:这些节点处理搜索请求,从它们的“孩子”节点中搜索文件列表, 因此必须拥有1 2 8k b i t sr a m 的网络连接速度。 索引节点:连接速度快、内存充足的节点可以作为索引节点。索引节点用于 保存可以利用的搜索节点信息,并搜集状态信息,维护网络结构信息。 一个节点可以既是搜索节点又是索引节点。用户节点可以选择3 个搜索节点 作为它的“父”节点,如果“父”节点接受该用户节点作为它的“孩子”节点的话,那 么该用户节点就可以提交其所要共享的列表给它的“父”节点。在缺省的情况下, 搜索节点可以最多维护5 0 0 个“孩子”节点。在第三代p 2 p 的软件体系结构中,采 用了混合式p 2 p 。这种模式的关键之一是引入了索引节点,索引节点不会直接连 接到有版权的资料上,它就像搜索引擎一样,只是搜索和所需资料相关的地址, 至于用户到底连接下载了什么内容则和它无关。这种模式的关键之二是引入了搜 上海大学硕士学位论文 三坐垫! 堡! 塑! 坐! 璧! ! ! ! ! 塑竺堂堂型! 堡! ! 墅堡 索节点,搜索节点管理着所属用户的文件列表。用户节点通过索引节点获得搜索 节点信息,之后用户节点就与获得的搜索节点相连,每一次查询都通过该搜索节 点进行。当用户发出搜索请求后,如果和用户节点直接相连的搜索节点查询结果 达到1 0 0 个( 这里的1 0 0 个搜索结果,可以由用户自己来设定) 就停止;如果不 足1 0 0 个,就向相邻的搜索节点发出请求,如果查询结果还不够,就继续向外快 速发散,直到所有的搜索节点都被搜索到为止。若所有的搜索节点都被访问过, 就意味着整个网络上的节点都被搜索到了。 第三代混合式p 2 p 网络的典型代表b t 开创了新一代p 2 p 的潮流,它批判地 继承了前辈产品的优点,将中心目录服务器的稳定性同优化的分布式文件管理结 合起来,从而在效率上远远超出了e d o n k e y 这类产品。它要求提供一个或多个统 一的w e b 发布服务器,以供发布和搜寻资料。在客户端,它通过一个i e 插件提 供下载、上传管理。b t 把一份大文件切割成碎片,为每一个碎片标上特殊标识, 用户无需n - 一个固定地点( 例如传统网络的中心服务器) 上下载完整的文件,系 统会自动寻找、随机下载具有相同标识的文件碎片,将其加以整合成为完整的文 件。 1 2 本文的研究内容 本文的主要内容是如何提高j x t a 平台的搜索效果和精度。一方面设计和扩 展了j x t a 的c m s 设计了一套查询语言。另方面研究了现有的j x t a 的搜索 机制,针对j x t a 只能对关键词查询的缺点,设计了基于语义网的节点关联的 p 2 p 搜索,然后对这两种方法的搜索效果进行了比较最后进行了总结和展望。 本文的组织结构如下: 第一章:绪论。主要介绍了立题背景和本文的结构安排。重点介绍了p 2 p 的 历史背景,行业应用,组网模式等。 第二章:介绍了当前p 2 p 搜索的状况。对当前p 2 p 流行的主要模型进行了研 究,根据这些模型的应用,分析了当前p 2 p 应用实例的优缺点。 第三章:详细说明了p 2 p 搜索的理论。介绍了j x t a 平台的基本概念、协议 规范以及体系结构,分析了j x t a 的优点,研究了j x t a 的搜索算法,在此基础 上,结合元数据的理论模型,提出了基于元数据的相似结点聚合的p 2 p 搜索。 第四章:实现了基于语义网的p 2 p 的总体设计。针对j x t a 只能对关键词进 行搜索的缺陷,探讨了j x t a 平台的元数据搜索,研究了d c 元数据结构,建立 了文件共享和文件搜索模型,实现了j x t a 平台的元数据搜索。同时还设计了一 套查询语言,在此基础上初步实现了相似结点聚合的算法,根据此算法对搜索结 果进行了优化。 上海大学硕士学位论文 堡墅驻! ! 坐堡坐! ! ! ! ! 堂型塑! ! 型皇 第五章:给出了实验结果及比较,主要分两种情况:( 1 ) 对j x t a 平台的基 于关键词搜索和本文提出的元数据语义网搜索结果进行了比较:( 2 ) 对实现了相 似结点聚合的元数据搜索结果和没有实现此算法的结果进行了比较。 第六章:对本文工作进行总结,并提出进一步的研究方向。 上海大学硕士学位论文 ! 堕! 箜g ! 查! 苎! ! ! 塑堡! ! i ! 竺韭! ! 型! 翌! 坚旦 第二章p 2 p 搜索现状 p 2 p 技术的目的就是希望能够充分利用互联网中所蕴含的潜在计算资源。 p 2 p 用中文称为对等网络,是指分布式系统中的各个节点是逻辑对等的,与c s 计算模型不同的是,p 2 p 模型中不再区分服务器s e r v e r 以及客户端c l i e n t ,而是 称为s e r v e n t ,系统中的各个节点之间可以直接进行数据通信而不需要通过中间 的服务器。其实质在于引导网络模式从中心走向分散,从中央走向边缘,充分利 用终端设备的处理能力,每个节点都主动地加入网络中共享资源。 2 1p 2 p 显式点到点配置 显式点到点配置是一种用来避免实现发现的机制。每个存在的对等点都知道 在其p 2 p 世界中的其它对等点。 术语点到点( p o i n t t o p o i n t ) 意味着,在p 2 p 应用程序中,每个对等点都知 道需要不断与之交互的每个对等点,并与之相连。它不需要将每个对等点都连接 起来( 将每个对等点和其他各个对等点彼此相连,是不太可能的) ,但是,不这 样做( 无论是有意与否) 将会使某些对等点产生网络盲点。 显式点到点配置意味着每个对等点必须预先配置其它所有对等点的地址,缺 点是配置既单调乏味又容易出错。 一般而言,分布式应用程序中节点的显式点到点配置不能很好地扩展到具有 较多节点的大型网络。因此分布式计算应用程序和技术总是( 也有些显著的例 外) 包含命名和定位功能。现在的域名系统( d n s ) 一一种分布式命名系统,最 终取代了用于机器命名的主机文件( h o s t sf i l e ) 机制。维护主机文件是单调乏味、 容易出错的,并且一般来说,很难在大型网络环境下运转。 但是,显式点到点配置并非一无是处,比如点到点寻址缺乏灵活性的特性也 带来了一定程度的安全性。通过对网络中的每个对等点预先设置它所知道并且将 要与之交互的对等点列表,使得网络在外部攻击面前表现得很稳固。 2 2 动态发现模型 与显式点到点配置方法的静态特性截然相反,目录服务和网络模型具有动态 特性。这些模型通常能更好地符合p 2 p 应用程序。它们倾向于该领域中的动态方 面。 在下面几节中,我们将研究三种不同的机制,对等点通过这些机制动态地定 上海大学硕士学位论文 ! ! ! ! ! 壁g ! ! ! ! 些! ! ! ! 堡! ! ! ! 竺g ! 型竺! ! :! ! ! ! 型 位其它对等点和了解它自身所属的环境。 2 2 1目录服务模型 在目录服务模型中,一台或多台有特殊用途的服务器为对等点提供目录服 务。为了使可扩展性最大化,对应用程序进行了结构化设计,以便少量的目录就 可以为数量众多的对等点服务。对等点向目录服务注册关于自身的信息( 其名称、 地址、资源和元数据) ,并通过根据目录服务器中信息的查询,使用目录服务来 定位其它对等点。 图2 1 说明了一个使用目录来向对等点提供位置和命名服务的p 2 p 体系结 构。目录本身可以是对等点( 尽管是很庞大的对等点) ,或者可以只担当目录而 不作它用。 图2 1目录服务模型 目录有集中式和分散式两种类型,这两种类型由其目录集中式管理的程度不 同而有略微的差别。 p 2 p 领域中集中式目录模型的最佳示例是n a p s t e r 和与n a p s t e r 几乎模一 样的o p e n n a p 。在n a p s t e r 模型中采用集中管理目录的方法。集中式管理的目 录遭到了“本质上不是p 2 p ”的指责,但它确实提供了一个重要的优势:集中式 管理能够确保服务器硬件和配置很容易地达到服务质量目标。 d n s 是分散式目录的一个优秀示例:与因特网本身相似,d n s 甚至在部分网 络受到严重破坏的情况下仍能正常工作。d n s 目录采用层次化结构,根目录代表 顶级域( 例如“c o m ”) ,它将子域查询服务( 例如“e t c e e c o i l l ”这样的域) 的 任务委派到下一层次的d n s 服务器。 在任意一种情况下,只有目录位黄必须配置到每个对等点中,这对于点到点 模型有重要优势。为加入到p 2 p ,对等点必须将自己注册到集中的目录服务器。 如图2 1 ,当对等点a 希望与个它不知道位置的对等点交互时,对等点a 向目 录服务器发送请求。然后,目录服务器向a 返回那个对等点的位置。 上海大学硕士学位论文 ! :堕! 坚臣塑型! ! 堕盘! ! 塾竺墅查堕生! ! 塑垡 2 2 2 网络模型 图2 2 说明了另种p 2 p 动态发现模型即网络模型。它由许多对等点组成, 这些对等点在功能上极其类似。没有专门的目录服务器。对等点必须使用它们所 处的网络来定位其它对等点。 表示节点闻关系 。表示p 2 p 节点 图2 2 网络模型 正如名称所暗示的,网络模型p 2 p 应用程序由一些( 通常是动态的) 对等点 组成。没有一个对等点知道整个网络的结构或者组成网络的每个对等点的身份。 相反,对等点只需要知道直接与之通信的对等点( 它们通过代理参与到大型网络 中去) 。 对等点必须合作完成任务。在许多环境中这种合作包括支持分布式查询、分 布式消息传递,甚至包括认证和授权行为。因为涉及到通信量的多少,某些大流 量的网络操作如文件传输等通常在对等点之间直接发生,而不是通过对等点 的网络传输。 在图2 2 中,当对等点a 希望知道网络中另一个对等点的位置时,它就发出 一个查询请求并传递给邻居。这些邻居尝试响应这个请求,如果这些邻居不能满 足请求,再将请求传递给它们的邻居,以此类推。 要加入网络,一个对等点要找到愿意接受它为邻居的另一个对等点。当对等 点本身还不是网络的一部分时,可以向这个对等点提供一个对等点列表,让其检 查。对等点设法联系列表上的对等点,直到一个或多个对等点成为它的邻居。这 个解决方案与点到点模型相似。正如最初g n u t e l l a 用户所证明的那样,这个解决 方案只在一定程度上有效。因为p 2 p 网络( 尤其是g n u t e l l a ) 具有很强的动态性, 任何静态列表都不太可能长期有效。 改进的g n u t e l l a 搜索机制是:当其它对等点通过网络传播发送请求时, g n u t e l l a 捕获并持久地存储这些对等点的位置 当这些客户机关闭后又重新启动 上海大学硕士学位论文 :! 堕! ! ! 堡罂! ! 竺! 旦! 墅! ! ! ! ! 婴g ! 型型! 生! 垡! ! 时,它试图连接每个先前标识的仍在运行的一个或多个对等点。这种方法虽然自 动化程度很高,但是脆弱而且低效。后来,改进了这种模式下的客户机,它可以 下载中央缓存中的活动对等点的列表。这种模型在支持对等点发现的过程中,组 成网络的对等点担任了非常活跃的角色,不过在这种情况下,活动对等点的参与 并不是必要条件。 2 2 3 多播( m u l t i c a s t ) 模型 除了网络中的节点不必协助发现以外,多播模型和网络模型很相似。这种模 型利用网络自身提供的特性来定位和确认对等点和资源,并且使用i p 多播技术 来实现查询。 单播( u n i c a s t ) i p 数据报方式,一台主机最多只能向另外一台主机发送数 据报,而在多播i p 数据报方式下则可以同时发送到多台主机。更重要的是发 送方不必知道有多少接收方存在或者究竟有没有接收方存在。发送主机只是封装 消息并将它发布到网络上。所有调整到适当频道( 特殊i p 地址和端口号的组合) 的客户机将接收到该消息的一个副本。 i p 多播技术的发现机制为:让对等点用多播消息定期地宣布自己的存在。 该消息包含对等点的t c p 1 p 主机名和端口号。对此消
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司投资运作管理制度
- 矿山自营方案模板(3篇)
- 农资物流仓储管理制度
- 宣城-物业提升方案(3篇)
- 临时车位租赁方案(3篇)
- 地基坟场处理方案(3篇)
- 基础护理感染课件
- 民营医院收钱方案(3篇)
- 租房合同协议书格式表格
- 商业综合体场地租赁与商业活动组织服务合同
- (高清版)DG∕TJ 08-2251-2018 消防设施物联网系统技术标准
- 河南省青桐鸣大联考普通高中2024-2025学年高三考前适应性考试英语试题及答案
- 导电高分子课件:探索导电材料的秘密
- 2025年成人高考《语文》文学常识经典题型与历年真题试卷
- 浙江开放大学2025年《社会保障学》形考任务4答案
- 机电应聘笔试试题及答案
- 试管婴儿协议合同书
- 2024年生物制造产业蓝皮书-华谷研究院
- 9 天上有颗南仁东星 课件-课堂无忧新课标同步核心素养课堂
- 车辆日常安全检查课件
- 新型传感技术及应用 课件 第五部分:典型传感器-谐振式传感器
评论
0/150
提交评论