(计算机应用技术专业论文)gnutella网络共享模型的研究与改进.pdf_第1页
(计算机应用技术专业论文)gnutella网络共享模型的研究与改进.pdf_第2页
(计算机应用技术专业论文)gnutella网络共享模型的研究与改进.pdf_第3页
(计算机应用技术专业论文)gnutella网络共享模型的研究与改进.pdf_第4页
(计算机应用技术专业论文)gnutella网络共享模型的研究与改进.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的普及和对等计算( p 2 p ) 技术和理论的发展,网络用户对于文件 共享服务的需求日益增大。为了实现用户之间文件共享的高效性和可靠性,本文 对典型的p 2 p 文件共享系统g n u t e l l a 进行了深入研究,提出了一种改进的新型p 2 p 网络模型g 2 。g 2 作为一个混合层次化的p 2 p 网络结构,吸收了非结构化网络和 结构化网络的优点,将传统的g n m e l l a 层次化成为一个多层结构。该结构分为两 层,其中上层是一个非结构化的洪泛网络,下层为结构化的集中式目录服务器网 络。在此基础上,本文研究了g n u t e l l a 网络的消息机制和数据转发机制,讨论了 这些机制存在的不足,并在g 2 中对这些机制进行了改进。最后通过对g 2 系统的 复杂度性能分析和仿真,得出了该网络在稳定性、可扩展性和查询效率等方面性 能优于传统g n u t e l l a 网络的结论。 关键词:对等计算p 2 p 混合层次化g n u t e l i a a b s t r a c t a b s t r a c t a l o n gw i t ht h ep o p u l a r i t yo ft h ei n t e r n e ta n dt e c h n i c a ld e v e l o p m e n to fp e e r - t o - - p e e r ( p 2 p ) ,t h en e t w o r ku s e r s d e m a n d so ff i l e ss h a r i n gs e r v i c ea r ei n c r e a s e i n gd a yb yd a y i no r d e rt os h a r ef i l e sb e t w e e nn e t w o r ku s e r se f f e c t i v e l ya n dr e l i a b l y ,t h ea u t h o r r e s e a r c h e dt h ef i l e ss h a r i n gs y s t e mg n u t e l l at h o r o u g h l yi nt h ep a p e r ,a n dp r o p o s e da n e wp 2 pn e t w o r ka r c h i t e c t u r en a m e dg 2 a sah y b r i dh i e r a r c h i c a lp 2 pn e t w o r k a r c h i t e c t u r e ,g 2a b s o r b st h em e r i t so fn o n s t r u c t u r e dn e t w o r ka n ds t r u c t u r e dn e t w o r k , a n dc o n v e r t st h et y p i c a lg n u t e l l at oh i e r a r c h i c a ln e t w o r ka r c h i t e c t u r e t h i sa r c h i t e c t u r e i n c l u d e st w ol a y e r si nw h i c ht h eu p p e rl a y e ri sa nu n s t r u c t u r e df l o o d i n gn e t w o r k ,a n d t h el o w e rl a y e ri sac e n t r i l i z e ds e r v e rn e t w o r k t h ea u t h o ra l s or e s e a r c h e dt h eg n u t e l l a n e t w o r k sm e c h a n i s mo fm e s s a g i n ga n dd a t at r a n s m i t i n g ,i n d i c a t e dt h e s em e c h a n i s m s i n s u f f i c i e n c y ,a n di m p r o v e dt h e mi ng 2 f i n a l l y ,t h ea u t h o rs i m u l a t e dt h eg 2a n d a n a l y s i s e st h eg 2 sp e r f o r m a n c e i nf a c t ,t h er e s u l to fa n a l y s i sa n ds i m u l a t i o ns h o w st h a t t h es c a l a b i l i t ya n dq u e r ye f f i c i e n c yo fg n u t e l l ao v e r l a yi ng 2n e t w o r km o d e lh a v eb e e n e n b a n c e di n d e e d k e y w o r d :p e e r - - t o - p e e r ( p 2 p ) h y b r i dh i e r a r c h i c a lg n u t e l l a 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学分和优良的科学道德,本人声明所呈交的论文是我个人在导 师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注 和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果; 也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明 并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名: 链 日期 q 墨! 主! ! i 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留 送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合 学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 套芙篓属錾硅一 本人签名:塑杓 导师签名:三至陋_ ,iov 年解密后适用本授权书。 日期o g3 f _ 第一章绪论 第一章绪论 1 1 研究背景 在过去的几年里,对等网络计算( p e e r t o p e e r ,简称p 2 p ) 技术,迅速成为互联 网世界中最受人们关注的技术之一。p 2 p 技术是一个具有强大生命力的新兴事物, 它从诞生之日起就受到了众多用户的热烈欢迎并被广泛应用。在p 2 p 技术的推动 下,n a p s t e r 和g n u t e l l a 等文件共享软件在互联网上迅速传播,用户数量急剧增长。 在这样的系统中,数据被保存在用户的计算机中( 我们称之为对等结点,p e e r ) , 而不象以往的客户服务器模式那样把数据存放在集中的服务器上。在对等网络 中,数据在对等结点之间直接传递。以n a p s t e r 为例,该网站1 9 9 9 年投入运行, 到2 0 0 0 年1 2 月,该软件已经累计被下载了5 千万次。以n a p s t e r 为代表的对等网 络软件已经成为i n t e m e t 上增长最迅速的应用。 p 2 p 文件共享系统的出现满足了相当一部分互联网用户的需要,提供了一种不 同于传统方式的文件资源共享途径。互联网上传统的文件资源共享方式,例如w e b s e r v i c e 和f t p 伍i l et r a n s f e rp r o t o c o l ,文件传输协议) 等都是基于c s 模式的。c s 模式固然有其数据集中,便于管理的优点,但是受到服务器能力的限制,能够提 供的资源数量是有限的,不可能提供所有用户感兴趣的文件。部分访问量小或者 潜在用户数量小的文件往往是不存在于服务器上的,而这些文件资源又确实有对 其感兴趣的用户,虽然这些用户的绝对数量不多。p 2 p 文件共享系统正好可以在一 定程度上解决这个问题,由用户之间的协作来相互提供用户感兴趣的文件。如图 】1 c l i e n tc l i e n t p e e r 图1 1c s 和p 2 p 网络结构图 通过这种方式,单个用户能够提供的文件数量虽然不多,所使用的p c 处理能 g n u t e l l a 网络共享模型的研究与改进 力也极其有限,这两方面都远远不及服务器,但是整个系统能够提供的文件总量 却可以远远超过服务器,系统中每个结点承担的处理任务也远远少于服务器。而 且p 2 p 文件共享系统使用起来灵活自由,用户可以随时加入或者退出。正是因为 有了海量的文件资源和灵活自由的使用方式,p 2 p 文件共享系统才受到大量的互联 网用户的亲睐,风靡整个网络世界。时至今日,i n t e m e t 上很大一部分的流量都是 由各种p 2 p 文件共享系统所产生,足可见p 2 p 文件共享系统的应用在当今的网络 应用中所处的重要地位。 1 2 研究现状 经过这几年的发展,p 2 p 文件共享系统己发展得较为成熟并获得了极大成功。 无论是从用户数量和p 2 p 文件系统的种类来看,p 2 p 文件共享系统都有蓬勃的生 命力,以下我们对当今最为流行的几种p 2 p 文件共享网络n a p s t e r ,g n u t e l l a 以及 f r e e n e t 进行对比和分析,分析其优缺点,并以此为据提出我们新的网络模型。 n a p s t e r 1 j 主要用于m p 3 文件共享,n a p s t e r 采用了集中式的目录服务器机制, 目录服务器集中存放对等结点结点的地址信息和所保存数据的信息。这种集中式 的目录服务器可以对请求的数据进行快速查找并能够返回最合适的目的结点。实 际的文件传输将在请求结点和目的结点之间通过t c p 连接直接进行。 集中目录式对等网络存在很多问题,主要表现为: ( 1 ) 中央服务器的瘫痪容易导致整个网络的崩溃,可靠性和安全性较低。 ( 2 ) 随着网络规模的扩大,对中央服务器进行维护和更新的费用将急剧增加, 所需成本过高。 ( 3 ) 中央服务器的存在引起共享资源在版权问题上的纠纷。 对小型网络而言,集中目录式模型在管理和控制方面占一定优势,但鉴于其 存在的这些缺陷,该模型并不太适合大型网络应用。 和n a p s t e r 不一样,g n u t e l l a 2 】采用了完全分布式的策略,我们可以把g n u t e l l a 看 成是一组对等结点之间的自组网络( a dh o cn e t w o r k ) 。图1 2 【3 】给出了传统的客户 服务器系统,n a p s t e r 系统和g n u t e l l a 系统的简单操作过程的比较。 对等结点a 在初始化时知道已经在g n u t e l l a 系统中的对等结点b 的i p 地址,当a 和b 连接后,a 可以获得b 所知道的所有系统结点信息,这样a 就可以和它所感兴趣 的结点建立直接的t c p i p 连接。每个g n u t e l l a 结点都定义了本地的共享文件夹,它 们可以根据文件名的部分或者完全匹配进行查找。查找按照简单洪泛( f l o o d i n g ) 的方式进行,首先传播到所有相邻结点,然后再传播到相邻结点的相邻结点,直 到达到预先确定的层次为止。每条查找消息都带有全局唯一的标识符,防止对同 第一章绪论 dir e c t o r ys e r v e r o ( 1 ) r 叫叩惑门) s 的e 即焱 c li e n t :c li e n tc l i e n t 帚絮- t - - 彩- 。鲁瞽鲫一 ( 1 ) s e a r c h ( 2 ) l o c a t i o r l ( 3 ) r e q u e s t ( 4 ) r e s p o n s e ( a ) 传统的客j 驻务器系统( b ) n a p s t e r 炎颦的系统( c ) g n u t ll a f r e e n e t 炎够的系统 图1 2 三种网络操作过程的对比 样的查找消息进行多次响应。用户可以基于查找结果,选择合适的文件进行下载 并可以和每个文件所有者结点建立类似h t t p 的连接。 g n u t e l l a 网络也存在很多弊端,主要表现为: ( 1 ) 网络中对等结点的查找和定位比较复杂。 ( 2 ) 随着网络规模的扩大,通过广播方式定位对等结点的方法将造成网络流量 急剧增加,从而导致网络拥塞。根据c l i p 2 公司最近的一项研究显示,5 6 k b p s 调制 解调器用户在1 秒之内最多处理2 0 个查询消息。当网络结点个数超过1 0 0 0 以后,这 个极限很轻易地就被突破了【4 1 。 ( 3 ) 安全性不高,易遭到恶意攻击,如果攻击者发送垃圾查询信息,则造成网 络拥塞等。鉴于以上的缺点与不足,广播式对等网络模型也不适合于大型网络应 用。 和o n u t e l l a 类似,f r e e n e t 5 1 ( f r e e n e t s o u r c e f o r g e n e t ) 也采用了完全分布式的模 型而且增加了一些改进措施,下面我们对它进行简单讨论。f r e e n e t 结点可以通过 指定本地的共享目录来共享自己的存储( 而不仅仅是共享文件或者对象) ,任何 其他结点都可以向这个共享目录中写入文件。每个文件都通过一个反映文件内容 的关键字( 并不要求全局唯一) 进行标识,关键字也可以包括访问权限等其他信 息。每个结点都使用一个最近最少使用的缓冲区保存本地存储文件的信息,使用 另一个最近最少使用缓冲区保存本地文件和某些远程文件的元数据信息。当结点 收到查找请求时,将使用元数据信息有效地把查找定位到最可能保存该文件的结 点。如果收到查找请求的结点在本地元数据中找不到任何匹配,它将把请求发送 到关键字比较接近于查找关键字的结点【6 】,这一过程将重复进行直到达到预先确定 传播层次数,如果仍然没有找到匹配则返回一个错误指示。 如果找到了一个匹配,请求的对象将按照查找路径返回( 这一点和g n u t e l l a 不同) 。在f r e e n e t 中,查找路径中的每个结点都将缓存返回的文件数据以备将来 使用。对象的插入过程和查找过程类似,在本地插入一个对象之后,本地结点将 西 4 一 g n u t e l l a 网络共享模型的研究与改进 向邻居结点传播该对象的信息,直到达到事先确定的传播层次。 从本节的介绍中,我们可以总结出对等网络具有的几个特点: ( 1 ) 没有服务器。这是和以前的客户机n 务器网络的最大的区别。在对等网 络中,没有服务器的概念,所以的对等结点都是客户机,也都是服务器。 ( 2 ) 可扩展性好。对等网络的规模随着加入结点的数量的增长而增长,新结 点的加入会给系统增加新的资源,这种可扩展性几乎是无限的,理论上限是现有 的i n t e m e t 的规模。 ( 3 ) 完全对称。在对等网络中,所以的结点都是对称的,运行完全相同的软 件,完成完全相同的功能,这也是对等网络名称的由来。 本节介绍的这些文件共享对等网络系统都存在一个基本问题,它们都缺乏有 效的,可扩展的查找机制。n a p s t e r 采用的是集中式的目录服务器,随着规模的增 长,这个集中的服务器必然称为系统的瓶颈,而且会成为系统的单一故障点。 g n u t e l l a 和f r e e n e t 虽然支持分布式的查找策略,但是它们都采用的是类似于o s p f 路由协议【7 】( 实际上,o s p f 协议本身也是一个对等网络系统) 的洪泛机制,这种 机制一方面造成网络通信负担较大,另一方面可扩展性也较差。正是由于类似的 原因,o s p f 协议才主要被限制在i n t e m e t 的a s 内部使用。 1 3 本文研究内容及意义 论文从现有的g n u t e l l a 文件共享模型出发,考察其内部机制,以及模型的优 缺点,提出了基于g n u t e l l a 结构和中心化结构的混合层次化结构g 2 。在解决 g n u t e l l a 网络传输的难题减少网络延迟和冗余信息给出了新的解决方法。并分 析了g 2 的性能,并对比g n u t e l l a 网络和g 2 网络进行了仿真。g 2 网络的提出具有 如下意义: ( 1 ) 结合了结构化和非结构化p 2 p 网络的优点,弱化了部分缺点; ( 2 ) 提高了g n u t e l l a 结构的p 2 p 网络在现实网络中的可扩展性性及应用性; ( 3 ) 引入簇的概念,控制簇间洪泛网络的大小,减少网络资源的浪费,可避免 广播风暴; ( 4 ) 两层网络协同工作,充分继承了结构化与非结构化网络优点,具有快速高 效的查找定位能力; ( 5 ) 增强了整个网络的扩展能力和负载均衡能力。 第一章绪论 1 4 论文结构 本文共分五章: 第一章,前言。介绍论文的研究背景,共享系统的研究现状,分析了现有的文 件共享系统的优缺点。 第二章,p 2 p 技术简介。介绍p 2 p 的概念、特点及应用,介绍了p 2 p 的几种网络 结构模型,并分析其优缺点,最后给出了p 2 p 领域目前待解决的问题及面临的挑战。 第三章,研究了g n u t e l l a 的网络结构,并给出了g 2 共享模型的网络结构。对原 有的g n u t e l l a 网络的消息机制和数据转发机制进行了研究。针对g n u t e l l a 网络中网络 延迟而造成的信息短路现象和冗余信息造成的网络拥塞现象进行改进,给出了相 应的解决方法。 第四章,g 2 网络共享模型的性能分析。分别对g 2 的复杂度和文件覆盖率等性 能进行了分析,对g 2 和g n u t e l l a 在相同网络情况下进行了仿真。 第五章,本文总结及对未来展望。 第二章p 2 p 技术 2 1 1p 2 p 的概念 第二章p 2 p 技术 2 1p 2 p 的概念及特点 p 2 p 目前还没有统一的定义,根据引用比较多的c l a ys t d r k y 的定义:p 2 p 技术 是在i n t e m e t 现有资源组织和查找形式之外研究新的资源组织与发现方法,p 2 p 技 术最大的意义在于不依赖中心结点而依靠网络边缘结点自组织对等协作的资源发 现( d i s c o v e r y ,l o o k u p ) 形式。 简单的说,p 2 p 直接将人们联系起来,让人们通过互联网直接交互。p 2 p 使得 网络上的沟通变得容易、更直接共享和交互,真正地消除中间商。p 2 p 就是人们可 以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去 浏览与下载。p 2 p 另一个重要特点是改变互联网现在的以大网站为中心的状态、重 返“非中心化”,并把权力交还给用户。p 2 p 看起来似乎很新,但是正如b 2 c 、 b 2 b 是将现实世界中很平常的东西移植到互联网上一样,p 2 p 并不是什么新东西。 在现实生活中我们每天都按照p 2 p 模式面对面地或者通过电话交流和沟通。而建 立和维护这种对等联系的方法是p 2 p 技术的核心。 2 1 2p 2 p 的特点 与其它网络模型相比,p 2 p 具有以下特点: ( 1 ) 大规模性( l a r g e s c a l e ) :p 2 p 网络内结点越多越能体现出其优势:资源 更多、计算能力更强等,同时随着p 2 p 网络规模的扩大,也会吸引更多的结点加入, 整个网络趋向大规模发展。截至到目前,s k y p e 8 j 的全球注册用户超过1 3 亿,同时 在线数量峰值已超过8 0 0 万,每天还在以2 5 万新注册用户的速度增长,p 2 p 技术在 其中的应用使对如此大规模的用户提供高效的服务的同时极大的减少运营成本。 ( 2 ) 非中心化( d e c e n t r a l i z a t i o n ) :网络中的资源和服务分散在所有结点上, 信息的传输和服务的实现都直接在结点之间进行,可以无需中间环节和服务器的 介入,避免了可能的瓶颈。即使是在混合p 2 p 中,虽然在查找资源、定位服务或安 全检验等环节需要集中式服务器的参与,但主要的信息交换最终仍然在结点中间 直接完成。这样就大大降低了对集中式服务器的资源和性能要求。分散化是p 2 p 的 基本特点,由此带来了其在可扩展性、健壮性等方面的优势。 ( 3 ) 可扩展性( s c a l a b i l i t y ) :在传统的c s 架构中,系统能够容纳的用户数量 8 一 g n u t e l l a 网络共享模型的研究与改进 和提供服务的能力主要受服务器的资源限制。为支持互联网上的大量用户,需要 在服务器端使用大量高性能的计算机,铺设大带宽的网络。为此簇、c l u s t e r 等技术 纷纷上阵。在此结构下,集中式服务器之间的同步、协同等处理产生了大量的开 销,限制了系统规模的扩展。 而在p 2 p 网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源 和服务能力也在同步地扩充,始终能较容易地满足用户的需要。即使在诸女h n a p s t e r 等混合型架构中,由于大部分处理直接在结点之间进行,大大减少了对服务器的 依赖,因而能够方便地扩展到数百万个以上的用户。而对于纯p 2 p 来说,整个体系 是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。 ( 4 ) 健壮性( r o b u s t n e s s ) :在互联网上随时可能出现异常情况,网络中断、 网络拥塞、结点失效等各种异常事件都会给系统的稳定性和服务持续性带来影响。 在传统的集中式服务模式中,集中式服务器成为整个系统的要害所在,一旦发生 异常就会影响到所有用户的使用。 而p 2 p 架构则天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之 间进行的,部分结点或网络遭到破坏对其它部分的影响很小。而且p 2 p 模型一般在 部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。事实上,p 2 p 网 络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。一些p 2 p 模型还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。 ( 5 ) 隐私性( p r i v a c y ) :随着互联网的普及,计算和存储能力飞速增长,收集 隐私信息正在变得越来越容易。隐私的保护作为网络安全性的一个方面越来越被 大家所关注。目前的i n t e r a c t 通用协议不支持隐藏通信端地址的功能。攻击者可以 监控用户的流量特征,获得i p 地址。甚至可以使用一些跟踪软件直接从i p 地址追踪 到个人用户。 在p 2 p 网络中,由于信息的传输分散在各结点之间进行而无需经过某个集中环 节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决i n t e r n e t 隐 私问题主要采用中继转发的技术方法,从而将通信的参与者隐藏在众多的网络实 体之中。在传统的一些匿名通信系统中,实现这一机制依赖于某些中继服务器结 点。而在p 2 p 中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通 讯的灵活性和可靠性,能够为用户提供更好的隐私保护。 ( 6 ) 高性能( h i g hp e r f o r m a n c e ) :性能优势是p 2 p 被广泛关注的一个重要原 因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依 照摩尔定理高速增长。而在目前的互联网上,这些普通用户拥有的结点只是以客 户机的方式连接到网络中,仅仅作为信息和服务的消费者,游离于互联网的边缘。 对于这些边际结点的能力来说,存在极大的浪费。 采用p 2 p 架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存 第二章p 2 p 技术 9 一 储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计 算和海量存储的目的。这与当前高性能计算机中普遍采用的分布式计算的思想是 一致的。但通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算 和存储能力。 2 2p 2 p 技术的应用 p 2 p 技术是一个典型的由应用推动的研究领域。n a p s t e r 和g n u t e l l a 的迅猛发展 使得众多的研究人员开始关注并投身于这个领域。目前基于p 2 p 技术的网络应用 软件也层出不穷,用户数量急剧增加,并已经渗透到诸多领域,正逐渐改变着互 联网原有的服务模式,给广大用户带来了前所未有的体验。p 2 p 技术拥有着广阔的 应用前景。 惠普实验室的一篇技术报告【9 】中提到了一种针对p 2 p 应用体系的分类方法,具 体如图2 1 : c o m m u n i c a t i o na n d c 0 l l a 臼翻r 象娃o n 图2 1p 2 p 应用分类体系图 本文总结了当前p 2 p 技术主要应用领域,具体如下: ( 1 ) 提供文件和其它内容共享,应用软件有:n a p s t e r 1 1 、g n u t e l l a 2 1 、f r e e n e t 5 1 、 e d o n k e y 10 1 、b i t t o r r e n t 11 1 、p p l i v e 【1 2 1 、迅雷【1 3 】等。 内容共享和文件交换是到目前为止最引人注目的p 2 p 应用。从第一代的中心索 引模式的n a p s t e r 软件开始,到目前流行的混合p 2 p 模式的b i t t o r r e n t 、p p l i v e 等 软件普遍的应用,高效的大规模内容共享直接推动了p 2 p 技术研究的热潮,为多 媒体文件如音乐、电影的传输共享的普及提供了优秀的平台,促使了网络从以文 本为中心模式逐渐转向立体化全方位的服务模式。基于p 2 p 的内容共享包括p 2 p 文件共享与检索、高速下载、p 2 p 存储等。 g n u t e l l a 网络共享模型的研究与改进 ( 2 ) 对等计算能力,其应用有s e t i h o m e 1 4 j 、a v a k i 、p o p u l a rp o w e r 等。 对等计算是分布式计算的思想在广域网上的延伸,目的是将网络上的c p u 资 源共享,把网络中众多的普通计算机中暂时不用的计算能力累计起来,用以执行 以往需要超级计算机来完成的任务。 在对等计算中,大型的计算任务被分解成很多个小的分片,分别分配给网络中 的结点独立执行。实际上可以将p 2 p 看作一个松耦合的分布式计算系统,可以有 集中控制结点,也可以是纯p 2 p 架构。受互联网的限制,其子任务之间的同步和 数据交换比较少,基本是相互独立的。因而对于那些可以分解的计算密集性任务 来说,对等计算是再适合不过的了。在2 0 0 2 年9 月破解了r s a 公司悬赏的r c 5 6 4 密码的组织,正是利用对等计算技术集合了互联网上的3 3 1 2 5 2 台计算机才完成了 这一巨大的计算量。对等计算的威力由此可见一斑。 许多需要大量数据处理的行业都可以从对等计算中获利,如天气预报、动画 制作、基因组的研究等。有了对等计算之后,很多时候就不再需要配备专门的超 级计算机了,可以大大降低计算成本。i n t e l 也采用对等计算技术、利用其办公室 内的数百台p c 机来完成c p u 设计的工作,节省了大量的费用。同时对等计算的 发展是以p c 机资源的有效利用为出发点,自然也受到i n t e l 的极力推崇。 s e t i h o m e 利用对等计算技术完成天文方面的运算,也是一个成功的范例。 ( 3 ) 协同处理与服务共享平台,应用有j x t a 、g r o o v e 、m a g i 、n e tm ys e r v i c e 等。 协同工作依托在网络之上。但以传统的w e b 方式实现,往往给服务器带来极 大的负担,并造成了昂贵的成本支出。而采用p 2 p 技术,可以在互联网上任意两 个用户之间建立实时的联系和信息传输,避免了中央服务器产生的网络和处理延 迟及性能瓶颈,因而能够更方便、高效地实现用户之间的协同。 j x t a 1 5 】是s u n 微系统公司建立的p 2 p 通用技术基础开源技术,它是网络编程 和计算的平台,用以解决现代分布计算尤其是点对点( p 2 p ) 计算中出现的问题。 j x t a 建立起核心的网络计算技术,提供支持在任何平台、任何地方以及任何时间 实现p 2 p 计算的一整套简单、小巧和灵活的机制。 g r o o v e 1 6 j 是一款优秀的协作办公软件,它的工作原理就是基于p 2 p 来实现协 作,其方法就是在项目内各个团队成员的计算机上创建一个完全同步的区域,在 这个区域内所有的讨论、文件、事件、表格、日历将完全自动与项目其他成员同 步,而且还提供了类似即时通讯的功能,g r o o v e 还可扩展提供到后台s p s 的链接, 适应性极强。g r o o v e 己被微软以1 2 亿美元收购,并入o f f i c es y s t e m2 0 0 7 。 ( 4 ) 即时、语音通信交流,应用软件包括i c q 、q q 、m s n 、y a h o om e s s e n g e r 、 s k y p e 等。 即时通信( i n s t a n tm e s s a g e ,简称i m ) ,是指能够即时发送和接受互联网消息 第二章p 2 p 技术 等相关的业务。利用i m 工具,网民可以进行沟通交流、结识新朋友、实现异地文 字、语音、视频的实时互通交流,其中利用p 2 p 技术,用户可以直接和对方建立 通信;同时,i m 工具也能够为企业带来极高的生产力,如今,很多企事业单位就 已借助i m 工具来提高业务协同性及反馈的敏感度和快捷度。作为使用频率最高的 网络软件,即时通信已经突破了技术上的种种局限,加强了系统的稳定性,被认 为是现代交流方式的新象征。除此之外它还逐步整合其他的通信方式,如e m a i l 和手机短信功能,使其逐渐成为一个强大的个人网上通信交流平台。目前几乎每 位能上网的用户都在使用不同的即时通信软件在网络上和其他用户进行交流。 ( 5 ) p 2 p 网络游戏,目前许多互联网游戏都是通过对等网络方式实现的。通过 p 2 p 技术,游戏服务器的负载压力和运营成本极大的减小,而游戏整体的性能得到 很大的提升。 ( 6 ) 搜索引擎技术,应用有p a n d a n g o 、s k y r i d e r 等。 p 2 p 搜索技术使用户能够深度搜索文档。而且这种搜索无需通过w e b 服务器, 也可以不受信息文档格式和宿主设备的限制,可达到传统目录式搜索引擎( 只能 搜索到2 0 - - 3 0 的网络资源) 无可比拟的深度( 理论上将包括网络上的所有开 放的信息资源) 。 1 5d i g i t a l 公司开发的搜索引擎p a n d a n g o 1 7 】作为第三代搜索引擎的代表,运用 了p 2 p 网络的架构特性,把搜索引擎技术带入了更高层次:p a n d a n g o 动态地将当 前p 2 p 网络中各个r e f e r r e r 的内容进行收集,用户下载完p a n d a n g o 后再输入欲搜 索的关键字,就能和1 0 0 名r e f e r r e r 组成的网络相连,然后进入他们的电脑搜索其 上网历史及标示的书签,再通过这1 0 0 人的电脑与另外一万名r e f e r r e r 的电脑相连, 再去搜索。也就是说,每次搜索就可涵盖1 0 0 万笔相关资料。当然实际环境中还 需要考虑网络带宽以及路由优化方面的问题,p 2 p 为互联网的信息搜索提供了一个 全新的解决之道。著名的搜索引擎公司g o o g l e 也宣称要采用p 2 p 技术来改进其搜 索引擎。 ( 7 ) 电子商务应用,p 2 p 技术在金融服务、购物行为分析、电子商务集市、广 告行销等电子商务服务上有很大的应用前景。 金融服务:由于p 2 p 的沟通只单纯涉及沟通的双方,不会有第三者知道双方沟 通的信息,所以p 2 p 非常适合发展在线金融服务。美国的b i l l p o i n t 公司已将p 2 p 技术应用于电子商务的付费机制,在e b a y 上,就向全球3 5 个国家的使用者提供 了这种技术,他们可直接用彼此的信用卡进行交易。 购物行为分析:p 2 p 的“合作过滤”功能可以帮助商务网站分析消费者行为。 a m a z o n 就常用合作过滤功能来分析网民的购物行为,然后据此推测他们的好恶并 向他们推荐合适的商品。 电子商务集市:利用p 2 p 把庞大的文件交换社群转化为另类的电子商务集市。 g n u t e l l a 网络共享模型的研究与改进 一家名为l i g h t s h a r e 的公司已推出一种服务,让电脑使用者直接通过其电脑销售数 字产品,而不用经由e b a y 或亚马逊的中央服务器。这种服务从e b a y 脱胎,转化 成点对点模式。任何交换的内容其实都不在我们的电脑内,我们做的只是加速资 料的交换过程而己。 ( 8 ) 流媒体直播和点播系统,目前流行的应用软件有p p l i v e ,p p s t r e a m 、 g r i d c a s t 等。 基于i n t e r n e t 的直播和点播系统很早就有了,但由于采用的是c s 的结构,对 服务器网络的负载压力很大,需要服务商花费巨大的财力在计算机设备和网络带 宽上,而且图象质量也得不到有效的保证,并未流行起来。随着p 2 p 技术的引入 和网络带宽的逐步提高,最近两年网络电视开始迅速升温,成为互联网的新宠。 p 2 p 流媒体传输系统将p 2 p 对等网络技术和流媒体技术完美的结合在一起,改变 了传统多媒体服务系统中客户端被动的局面,使得用户可以在观看影音文件的同 时,利用自身的空闲资源为系统中的其它用户服务。 此外,还有诸如边缘服务、智能代理、实时通信技术和广域网络存储系统等其 它几种应用方式。另外,美国c y b i k o 及瑞典p o c i tl a b sa b 等公司正试图将p 2 p 技 术应用到无线通信中,使得不必经过基站就可连接具有无线通信功能的移动终端, 实验性p 2 p 产品己经问世。 2 3p 2 p 网络结构模型分析 根据拓扑结构的不同,可以将p 2 p 分为四种形式:中心化拓扑,非结构化拓扑, 结构化拓扑和混合化拓扑结构。 表2 1p 2 p 网络系统结构 中心化拓扑非结构化拓扑结构化拓扑混合化拓扑 纯分布 g n u t e l l a 、f r e e n e tc h o r d 、c a n 、 式 p a s t r y 1 引 、 t a p e s t r y 1 9 】 部分分 n a p s t e rs k y p e 、m o r p h e u s 、 布式p p l i v e 、b i t t o r r e n t 表2 1 是p 2 p 网络应用系统的分类,从中可以看出目前流行的软件基本都是非 结构化p 2 p 和部分分布式混合化p 2 p ,而目前基于纯分布式的混合化拓扑结构并 未有成熟的应用。表2 2 分别就几种常见p 2 p 网络模型进行了分析。 第二章p 2 p 技术 1 3 表2 2 几种常见p 2 p 网络模型的对比分析 网络名称 模型分析 n a p s t e r q 属于部分分布式的中心化p 2 p 网络,是最为典型的集中目录式 对等网络模型。n a p s t e r 的工作原理如图2 2 所示【2 0 1 。 在n a p s t e r 模型中,一群高性能的中央服务器保存着网络中所有活动对等 计算机共享资源的目录信息。当需要奄询某个文件时,对等机会向一台中央 服务器发出文件查询请求。中央服务器进行相应的检索和查询后,会返回符 n a p s t e r 合查询要求的对等机地址信息列表。查询发起对等机接收到应答后,会根据 网络流量和延迟等信息进行选择,和合适的对等机建立连接,并开始文件传 输。这种方式最大的隐患在中央服务器上,如果该服务器失效,整个系统都 会瘫痪。另一个问题在安全性上,n a p s t e r 并没有提供有效的安全机制。同时 随着网络规模的扩大,对中央索引服务器进行维护和更新的费用将急剧增加, 所需成本过高。 g n u t e l l a 2 是基于f l o o d i n g 的分布式索引算法的p 2 p 文件共享系统,图2 3 为g n u t e l l a 的结构图。它和n a p s t e r 最大的区别在于g n u t e l l a 是纯粹的p 2 p , 在g n u t e l l a 中没有类似n a p s t e r 的中央服务器。 对等结点a 在初始化时知道已经在g n u t e l l a 系统中的对等结点b 的i p 地址,当a 和b 连接后,a 可以获得b 所知道的所有系统结点信息,这样a 就可以和它所感兴趣的结点建立直接的t c p i p 连接。每个g n u t e l l a 结点都定 g n u t e l l a 义了本地的共享文件夹,它们可以根据文件名的部分或者完全匹配进行查找。 查找按照简单洪泛( f l o o d i n g ) 的方式进行,首先传播到所有相邻结点,然后再 传播到相邻结点的相邻结点,直到达到预先确定的层次为止。每条查找消息 都带有全局唯一的标识符,防止对同样的查找消息进行多次响应。用户可以 基于查找结果,选择合适的文件进行下载并可以和每个文件所有者结点建立 类似h t t p 的连接。 c h o r d l 2 q 是由i o ns t o i c a 等人设计的一种较简单的结构化p 2 p 搜索策略。它 的设计目标是提供一个分布式、负载均衡的、可扩展的p 2 p 搜索策略,解决 目前由中心控制的搜索策略带来的扩展性差、负载均衡差等限制问题。c h o r d c h o r d采用了相容哈希【2 2 】的一种变体为结点分配关键字。图2 4 给出了c h o r d 的相 容哈希示例。 c h o r d 系统内,每一个结点通过某种哈希函数( 通常是s h a 1 ) 计算出唯一的 m 位的标示符( 结点i d ) ,标识该结点在c h o r d 系统中的位置。当c h o r d 需要 路由某一消息时,该消息也用哈希函数计算出消息k e y 值。 内容访问网络j j ( c o n t e n t - a d d r e s s a b l en e t w o r k ,c a n ) 可以在i n t e r n e t 规模的大型对等网络上提供类似哈希表的功能。c a n 具有可扩展、容错和完 全自组织等特点。c a n 类似于一张大哈希表,c a n 的基本操作包括插入、查 找和删除( 关键字,值) 对。c a n 由大量自治的结点组成。每个结点保存哈 希表的一部分,称为一个区( z o n e ) 。c a n 具有很好的可扩展性,结点只需 要维护少量的控制状态而且状态数量独立于系统中的结点数量。c a n 支持容 c a n 错特性,结点可以绕过错误结点进行路由。 c a n 基于虚拟的d 维笛卡儿坐标空间实现其数据组织和查找功能。整个 坐标空间动态地分配给系统中的所有结点,每个结点都拥有独立的互不相交 的一块区域。图2 5 给出了一个2 维的f 0 ,1 0 ,1 】的笛卡儿坐标空间划分成五 个结点区域的情况。1 2 4 中给出了一种b i n n i n g 机制,可以把根据延迟计算比较 接近的结点放到同一个b i n 中,这样可以显著地提高c a n 的性能。 1 4 g n u t e l l a 网络共享模型的研究与改进 1 9 n a p s 馋r 。c o i t i n a p s t e r 图2 2n a p s t e r 网络结构图图2 3g n u t e l l a 网络结构图 厂70 : 、( o 触7 5 。0 5 - 1 。o ) ( o 静t 0 。0 5 - - 1 ,o ) 8 节点的纛缀 坐标送 图2 4 相容哈希示例 图2 5c a n 坐标的空间区域划分 2 4p 2 p 网络模型改进中存在的问题及挑战 n a p s t e r 网络和g n u t e l l a 网络各有优势,但是都无法应用到大型网络中。随着 i n t e m e t 的迅速发展,网络规模无限壮大,n a p s t e r 网络和g n u t e l l a 网络已经无法适 应i n t e m e t 众多用户对文件共享的要求了。目前虽然有一些新的共享系统在n a p s t e r 网络和g n u t e l l a 网络的基础上进行了改进,但在对基于现有的p 2 p 网络模型改进 研究中存在如下问题 在对等网络领域值得进一步研究的问题有: ( 1 ) 共享群的划分策略不清,均没有给出具体的数字模型? ( 2 ) 没有统一的网络综合性能的评价标准,网络开销大部分是估算或引用传统 网络的研究结果来评价; ( 3 ) 路由时只考虑经过的结点数量是不够的,还应该考虑底层物理网络的拓扑 结构,因为在两个大洲的邻居结点和在一个局域网内的邻居结点对路由带 第二章p 2 p 技术 来的延迟有着巨大的差别。因此比较理想的情况是用端到端的延迟来进行 路径选择。目前已经出现了p r o x i m i t yr o u t i n g 算法,它在选路时不仅考虑 结点特性,还考虑选择延迟最小的下一跳结点。以上几种算法在实现 p r o x i m i t yr o u t i n g 时采用了不同的方法。但是形式化的证明这些方法的效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论