




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)基于gnutella协议的p2p网络资源定位方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 随着存储空间的增大和存储价格的下降,即使是一个较小的p 2 p 用户群 也会存在大量的共享数据。根据p e e r t o p e e rw o r k i n gg r o u pc o m m i t r e e 的定义,p 2 p 在商业上的应用主要有文件共享、边界服务、分布式计算,其 中文件共享是目前最重要的一个应用。如何实现资源的定位是文件共享的关 键问题。g n u t e l l a 被认为是纯粹的p 2 p 系统的代表,目前世界上用户最多的 文件共享软件都基于g n u t e l l a 网络模型。g n u t e l l a 网络模型的主要问题是 使用“泛洪”方式搜索和发现网络节点及共享信息。随着网络规模的增长, 不仅搜索消息的比率在增长,而且由每一条消息产生的潜在流量也在大幅增 长,其中包括了许多不必要的重复包流量。因此,研究和改进g n u t e l l a 网络 的资源定位机制势在必行。 在g n u t e l l a 网络中现有的资源搜索机制,要么只是从动态变化的网络中 寻找某一段时间内具有某些特定性质的节点,只对这些节点进行资源查找忽 略了大量有用的节点,要么节点建立的索引大小与共享文件的大小成正比, 导致索引空间过大。本文针对这些问题,结合g n u t e l a 协议的特点引入基于 i p 分层的资源定位法。 基于i p 分层的资源定位法把所有的p 2 p 节点分为五层,每个查询的发起 者都被看为整个p 2 p 网络的树形结构的根节点,从根节点开始对整个p 2 p 网 络进行层次遍历。基于i p 分层的资源定位法直接按照i p v 4 的i p 地址方式来 划分直观明了,减少节点列表的大小,缩短了查询的响应速度,使g n u t e l l a 的应用更加优化。本文还提出的泛洪登陆的概念,对如何维护节点列表作了 详细的阐述,并通过实验验证了基于i p 分层的资源定位法的改进效果。 关键词:对等网络:对等计算;端搜索与发现算法;基于i p 分层的资源定位 法 芝玺鎏三堡盔兰堡圭兰笙鲨銮 a b s t r a c t w o r k i n gg r o u pc o m m i t t e e ,p 2 pc a l lb eu s e di nt h ef i l es h 撕n g ,d i s t r i b u t e d c o m p u t i n ga n ds oo n b u tf i l es h a r i n gi st h ed o m i n a n tp 2 pa p p l i c a t i o n h o wt o l o c a t ed e s i r e df i l e si so n eo ft h ek e yi s s u e s g n u t e l l an e t w o r k sm o d e li st h e r e p r e s e n t a t i v eo fp u r ep 2 ps y s t e m s a tp r e s e n tt h em o s ts o f t w a r eo ft h ef i l e s h a r i n gu s e da r eb u i l to nt h eo n u t e l l a t h ep e e r sa n di t ss h a r e df i l e sa r es e a r c h e d a n df o u n db yf l o o d i n gi ng n u t e l l a a san e wp e e r j o i n i n gt h ep 2 pn e t ,t h en u m b e r o fs e a r c h i n gm e s s a g e sa sw e l la st h el a t e n c yf l u xg e n e r a t e db ye v e r ym e s s a g ei s i n c r e a s i n g t h o s ei n c l u d em a n yn e e d l e s sr e p e a tm e s s a g e sa n df l u x t h e r e f o r e ,i t i sn e e d e dt or e s e a r c ht h ef i l es e a r c h i n gi ng n u t e l l a a ss e a r c h i n ga n dd i s c o v e r ym e t h o d si ng n u t e l l an e t w o r k ,w ec a no n l yf i n d s p e c i a lk i n dn o d e sa to n et i m ei nd y n a m i cn e t w o r ko ro n l ys e a r c hs o m eo fa l l n o d e s s ot h e ym i s sm a n yu s e f u ln o d e s s o m eo ft h e mb u i l dt h ei n d e xa c c o r d i n g t ot h ef i l e t h es i z eo fi n d e xi st h ed i r e c tr a t i ow i t hf i l es i z e s ot h e ya l w a y sm a k e av e r yb i gi n d e x b a s e do na l la b o v ea n dt h ec h a r a c t e ro ft h eg n u t e l l ap r o t o c o l , t h i st o p i ci n d u c t san e wm e t h o d s s e a r c h i n gm e t h o db a s e do ni pl e v e l s e a r c h i n gm e t h o db a s e do ni pl e v e l ( s m b i p ) d i s p a r t st h ew h o l en e t w o r k t of i v el e v e l s ,e v e r yn o d ew h i c hs t a r t st os e a r c hf i l e sw i l lb et r e a t e da sar o o tn o d e o fa l ln e t w o r kn o d e s s t a r t i n gw i mt h er o o tn o d e w es e a r c hw h o l en e t w o r kb a s e d o nl e v e ld i s p a r t e db yi p s m b i ph a sm a n ya d v a n t a g e so v e rt h e o l dm e t h o d s ;i ti s s os i m p l eb e c a u s ei td i s p a r t st h ew h o l en o d e sa c c o r d i n gt oi pa d d r e s s i td e c r e a s e s t h es i z eo f n o d ei i s t s ,t h ef u l i i i s ti si e s st h a nl ,0 0 0n o d e s ,i ta l s od e d u c et h et i m e f o rt h er e s u l tr e t u r n s m b i pm a k e st h eg n u t e l l ab e t t e rt h a ne v e r t h i st o p i ca l s o i n d u c t san e ww a yt ol o g i n t h ef l o o d i n gl o g i n i tm a k e st h en o d el i s th a v ea b e t t e re f f i c i e n c y k e y w o r d s :p e e r - t o p e e rn e t w o r k s ;p e e r - t o - p e e rc o m p u t i n g ;p e e rs e a r c h i n ga n d d i s c o v e r y ;s e a r c h i n gm e t h o db a s e do ni pl e v e l 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体己 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 毕 日期:加6 年2 月2 3 3 日 哈尔滨工程大学硕士学位论文 1 1 研究动机 第1 章绪论 近年来,p 2 p 技术( p e e rt op e e r ) 也称为对等网络技术正逐渐成为技术 界的一个热门话题,而互联网技术过去的发展轨迹向我们昭示着,p 2 p 这一 网络技术思想,最终也会对于网络中的传播形式、信息流向、信息内容结构 及信息传播控制等产生重要的影响。p 2 p 技术不同于c l i e n t s e r v e r , b r o w s e r s e r v e r 和s l a v e m a s t e r 等传统模式,它抛开了应用服务器的束缚,使 得网络中的节点以一种对等的方式共享这些节点的存储空间、处理器计算能 力、网络带宽等资源。一方面节点间可以直接进行交互,不再需要服务器来 作为媒介来进行中转,从而使交流更直接、高效;另一方面节点不再依赖中 央服务器,从而解决了因服务器能力不足而引起的性能瓶颈问题,增强了系 统的可伸缩性,同时也避免了因中央服务器的失败而导致的整个系统无法工 作的可能性,使得系统的可靠性更强。 p 2 p 技术最初用于音乐文件共享,随着技术的发展逐步扩展到普通的数 据文件共享、分布式计算、通信和协作等多个应用领域。许多数字信息( 如 图片、音乐、录像、演示文稿等) 都不在大型服务器上,用户想要交流的人 也不是坐在大型服务器后面。信息和通信的大部分都在个人计算机上,也就 是i n t e m e t 对等设备上。p 2 p 的目标就是使用户获得信息并联系到最关心的 人。随着存储空间的增大和存储价格的下降,即使是一个较小的用户群也会 共享大量的数据。例如n a p s t e r m p 3 音乐文件共享系统1 9 9 9 年9 月出现,到 2 0 0 0 年中时用户数就已经超过2 0 0 0 万。即便每个用户共享一少部分文件, 整个用户群所共享的文件数也是千万数量级的。结点间共享计算资源( 如 s e t i 国h o m e 和f o l d i n g h o m e 利用参与者的计算机进行宇宙射线的大数 据量分析计算) 、共享存储资源( 如n a p s t e r 、f r e en e t 进行文件交换,共享 参与者的电影、音乐、文件等资源) 、共享传输能力( 典型的为b i t t o r r e n t , 进行蜂拥式下载,在很多下载者之间进行传输协作) 。资源共享的前提是资源 哈尔滨工程大学硕士学位论文 的搜索和发现,大量的共享资源使得p 2 p 系统吸引了大量的用户,但困难的 是如何在大量的共享资源中寻找用户想要的资源【2 】。 1 2p 2 p 研究现状 目前p 2 p 技术的主要应用包括:文件交换、分布式计算、协同工作、分 布式搜索和电子商务等。 ( 1 ) 文件交换 传统的互联网模式中,不论w e b 还是f t p , 要实现文件交换都需要中央服 务器的大力参与,通过将文件上传到某个特定的网站或服务器,用户再到该 网站或登录到服务器上检索需要的文件,然后下载这就要求中央服务器能够 对大量用户的访问提供有效的服务,因而经常成为这类应用的瓶颈之一p 2 p 技术使任意两台相连接的计算机直接共享文档、直接交互,而不需要使用任 何一台中央服务器,典型的应用有n a p s t e r , g n u t e l l a 和b t 等f 3 】。 ( 2 ) 分布式计算 有些学者称之为对等计算,是把原来需要超级计算机处理的庞大任务进 行分块,并通过位于系统控制中心的调度软件对分块任务进行调度和管理, 分发给许多普通计算机来执行其具体运算操作,操作完成后再将结果返回给 控制中心就本质而言,分布式计算是对网络上c p u 等资源的共享,典型的应 用有s e t i h o m e 和d i s t r i b u t e n e t 等 4 1 。 ( 3 ) 协同工作 协同工作是指多个用户之间利用网络中的协同计算平台来共同完成某项 任务,共享信息资源等。p 2 p 计算系统中的协作分为两个层次:底层为应用 程序之间的协作,高层为用户行为的协作。对于特定应用,共享c p u 时钟就 可实现应用程序之间的协作;但高层用户行为之间的协作一般需借助即时通 信来实现,比如时下风行的q q ,m s n 和用i b ml o t u s 软件开发的g r o o v e n e t w o r k s 等。以协作为目标的p 2 p 计算系统对传统的组件是一个挑战,就应 用范围来说,前者足以覆盖后者的功能。除即时通信外,协作型对等计算系 统也适用于工业系统中,用于控制生产流水线之间的协调与决策过程,如 哈尔滨工程大学硕士学位论文 o c u l u st e c h ,2 4 l i n k ,e n g e n i a ,i k i m b o 等f 6 1 f 7 】1 9 j 。 ( 4 ) 分布式搜索 p 2 p 技术使用户能够深度搜索文档,而且无需通过w e b 服务器,也可以 不受信息文档格式和宿主设备的限制,相比于传统目录式搜索引擎只能搜索 到2 0 - - 3 0 的网络资源,理论上它可以达到无限的深度并包括网络上所有 的资源。应用实例有i n f r a s e a r c h ,p o i n t e r a 等。 1 3 问题的提出 在最近几年中,基于p 2 p 的网络结构的变革浪潮席卷了整个世界。这种 网络结构和系统不再通过一个中心服务器来获得资料,而是计算机之间直接 建立连接来获得资源。目前文件共享是p 2 p 网络最重要的应用领域,p 2 p 技 术使得用户易于实现资源的共享,搜索和交换。 g n u t e l l a 被认为是完全分布式p 2 p 系统的代表,现在世界上用户最多的 文件共享软件都基于完全分布式p 2 p 网络模型。目前研究和改进基于g n u t e l l a 网络的资源查找机制的方式有以下4 种”一: 1 以智能化的选择进行查询,只向被选择的节点发送查询消息的方式, 如定向广度优先搜索方法; 2 提高网络冗余的方式,如预先复制文件法; 3 网络节点建立索引的方式,如本地索引法; 4 利用特有的网络结构的方式,如最大聚集度优先法。 这些方式可以单独使用,也可以相互结合使用来提高查询效率。 g n u t e l l a 网络中对等机节点利用“广播扩散”方式( 也就是泛洪方式) 来搜索网络和发现共享信息。随着联网节点的不断增多,网络规模不断扩大, 通过这种“扩散”方式定位对等点的方法将造成网络流量急剧增加,从而导 致网络中部分低带宽节点因网络资源过载而失效,这样会使得g n u t e l l a 网络 被分片、查询访问只能在网络的很小一部分进行。据最近一个统计,g n u t e l l a 网络流量有大约5 0 用于p i n g 和p o n g 包消息产生的。显然,其中包括了许 多不必要的重复包流量。查询包( q u e r y ) 的情况也与之类似。因此提高资源 哈尔滨工程大学硕士学位论文 查找机制有效性和查找速度的关键是降低网络节点之间的信息交流开销,也 就是减少节点之间发送的消息量和对每个查询进行处理的节点数量。 基于这种情况本文旨在提出一种减少网络带宽占用的寻址方法。 1 4 本文的主要工作 本文先分析了p 2 p 网络的发展历史与现状,提出了p 2 p 网络发展中遇到 的关键问题和p 2 p 网络的分类,阐述p 2 p 网络的关键技术。然后着重介绍了 g n u t e l l a 的产生发展,分析g n u t e l l a 协议的基本内容,给出g n u t e l l a 网络的 网络拓扑特性。随后阐述了在g n u t e l l a 网络中5 种流行的资源搜索定位方法, 泛洪查询、迭代泛洪、广度优先、随机行走,最大聚集度优先对比五种算法 的改进与不足分析其中的成因与结果。在分析上面资料的基础上本文提出了 一种新的p 2 p 网络资源定位方法基于i p 分层的资源定位法,详细阐述了基 于i p 分层的资源定位法的原理,并对其中的不足进行一定的补充与完善,提 出一种泛洪登陆的思想。最后本文对基于i p 分层的资源定位法进行了实验模 拟用以证明基于i p 分层的资源定位法是否有改进效果。 哈尔滨工程大学硕士学位论文 2 1 p 2 p 简史 第2 章p 2 p 概述 2 1 1 n a p s t e r 近期的p 2 p 应用起始于1 9 9 9 年文件共享系统n a p s t e r 的诞生【l 5 1 。在 n a p s t e r 中使用一个中心服务器,称为目录服务器,存放所有文件的元数据信 息( 文件的标题和一些简单的描述信息) 以及其存放结点的i p 地址。结点 加入系统时首先要连接目录服务器并报告自身地址及共享的文件列表。用户 需要某个文件时向目录服务器提交搜索请求,目录服务器返回符合搜索要求 的所有文件的存储地址,之后用户根据对应地址直接从共享此文件的结点处 进行文件下载。由于目录服务器只提供索引服务,而不承担文件存储和下载 服务,因此它支持上万结点同时在线。n a p s t e r 在发布后迅速流行起来,很快 成为增长最快的网络应用系统。 n a p s t e r 在初期取得了巨大成功之后,很快遇到版权问题的困扰。由于 n a p s t e r 上共享的文件有很多是音乐媒体文件,这些音乐媒体在未被授权时是 不允许被广泛传播的。而n a p s t e r 的i f l 录服务器恰恰为这些文件的传播提供 了支持,因此n a p s t e r 很快受到音乐著作方为保护版权而发起的挑战,并于 2 0 0 1 年被迫关闭。n a p s t e r 第一次验证了p 2 p 思想在广域网范围内的可行 性,在n a p s t e r 关闭之后,更多的p 2 p 文件共享系统迅速崛起,成为i n t e r n e t 发展的一股巨大浪潮,其中最著名的是g n u t e l l a 和k a z a a i ”。 2 1 2g n u t e | | a g n u t e l l a 对n a p s t e r 的体系结构进行了彻底的改变,不再使用中心目录 服务器,转而使用全对等结构:每个结点记录多个其它结点的i p 地址( 称 为“指针”) ,这样整个系统的拓扑就成为一个由指针搭建起来的有向图,通 常称这张图为“覆盖网”( o v e r l a y ) ,由于g n u t e u a 的覆盖网中没有规定哪些 哈尔滨工程大学硕士学位论文 结点之间必须有指针相连,因此整个覆盖网没有一个有序的结构( 比如环形、 立方体形、层次结构、树形结构、有向无环图等) ,被称作“非结构化覆盖网” ( u n s t r u c t u r e do v e r l a y ) 。 g n u t e l l a 所有的查询都通过络中以有限的f l o o d i n g 的方式进行,这种方 式虽然可以有效地找到需要的信息,但却会在网络中产生大量的流量。另外 g n u t e l l a 也没有提供足够的安全机制 1 l 。 2 1 3k a z a a 和m o r p h e u s k a z a a 对g n u t e l l a 做了进一步的改进。由于系统中的大多数结点的动态 性都很高,因此覆盖网中结点的指针就必须频繁更新,去除掉那些已经离开 系统的结点,补入新的在线结点。引入s u p e r n o d e s ( 超级节点) 的概念。网 络中的其它节点在超级节点上登记并建立目录路由表。单个的超级节点不能 组成一个p 2 p 网络,它们是被动态任命为超级节点的。如果节点具有足够的 带宽和很强的处理能力,就会成为超级节点。 在m o i p h e u s 中,一个中心式的服务器上有一个或者多个超级节点的列 表。超级节点为连接到它们上的节点的共享文件建立目录路由表,并代理其 它节点进行查询,因此查询被发送到超级节点上,而不是其它节点。部分中 心式系统的优点是它和纯分布式系统的查询相比,查询时间缩短了,而且由 于网络中没有一个唯一的中心服务器,因此不会出现由于中心服务器出现故 障而使得整个网络瘫痪的故障。如果一个或者多个超级节点出现故障,连接 到它们上的节点可以与其它超级节点建立新的连接。网络仍然能够继续运行。 即使大量的超级节点甚至全部超级节点都出现故障。那么现存的节点可以自 己充当超级节点,从而保持网络仍能运行( n 。 2 2p 2 p 的结构 p 2 p 系统有很多种划分方法,最流行的是按照拓扑结构划分或按照网络 的结构来区分。 哈尔滨工程大学硕士学位论文 2 2 1 网络的结构划分 ( 1 ) 非结构化的网络 非结构化的p 2 p 系统中不需要建立搜盖网,这种结构的优点是网络具有 很强的动态性,节点可以随时离开和加入网络,缺点是查找到理想的文件需 要进行大范围的搜索。因为这个原因,非结构的p 2 p 系统被认为是可扩展性 不强,可是现在正在进行许多研究以增加非结构化系统的可扩展性。 非结构化的系统对于精确查询提供了一个可扩展的方案,因为要查找的 资料的标识符是明确的。在这种系统中文件的位置和覆盖网完全没有关系。 因为节点没有相关文件的信息进行文件定位,所以需要查询每个节点是否有 与查询条件匹配的文件。 非结构化的网络代表有:g n u t e l l a 等 1 5 1 。 ( 2 ) 结构化的网络 结构化网络的出现主要是解决非结构网络可扩展性差的问题。这些系统 建立覆盖网后,将文件放置在规定好的位置上,在文件标识符和文件位置之 间建立了一个映射,形成了一个分布式的哈希表,使得查询能够有效的定位 到要查找的文件。 结构化系统的缺点是很难在具有高动态性的网络中( 如g n u t e l l a 网络中 节点加入、离开网络很频繁) 维持网络的结构u - q 。 结构化的网络代表有:c h o r d ,c a n ,p a s t 等。 2 2 2 拓扑结构划分 ( 1 ) 集中式对等网络 集中式p 2 p 模式如图2 1 由个中心服务器来负责记录共享信息以及反 馈对这些信息的查询;每一个对等实体要对它所需共享的信息以及进行的通 信负责,根据需要下载它所需要的其他对等实体上的信息。但他与c s 模式 不同的是:集中式p 2 p 模式是所有网上提供的资料都存放在提供该资料的客 户机上,服务器上只保留索引信息,此外服务器与对等实体以及对等实体之 间都具有交互能力。 哈尔滨工程大学硕士学位论文 图2 1 集中式对等网络 集中目录式p 2 p 模型存在的问题: 中央服务器的瘫痪容易导致整个网络的崩溃,可靠性和安全性较低; 随着网络规模的扩大,中央目录服务器维护和更新的费用将急剧增 加,所需成本过高; 中央服务器的存在引起共享资源在版权问题上的纠纷; 缺乏有效的强制共享机制,资源可用性差。在分布式对等网络在分 布式p 2 p 中,对等机通过与相邻对等机之间的连接遍历整个网络体系。每个 对等机在功能上都是相似的,并没有专门的服务器,而对等机必须依靠它们 所在的分布网络来查找文件和定位其他对等机。 ( 2 ) 纯p 2 p 网络模型 纯p 2 p 模型如图2 2 也被称作广播式的p 2 p 模型它取消集中的中央服务 器,每个用户随机接入网络,并与自己相邻的一组邻居点通过端到端连接构 成一个逻辑覆盖的网络对等节点之问的内容查询和内容共享都是直接通过相 邻节点广播接力传递同时每个节点还会记录搜索轨迹以防止搜索环路的产 生。 ( 3 ) 混合式网络模型 混合式p 2 p 结合了集中式和分布式p 2 p 的优点,如图2 3 所示。它在分 布式模式的基础上,将用户节点按能力进行分类,使某些节点担任特殊的任 务】。这些节点共分为3 种: 只 哈尔滨工程大学硕士学位论文 图2 2 纯p 2 p 网络模型 用户节点:普通节点,它不具有任何特殊的功能。 搜索节点:处理搜索请求,从它们的“孩子”节点中搜索文件列表, 这些节点必须有1 2 8 k b i t s r a m 的网络连接速度,建议使用高性能的处理器。 索引节点:连接速度快、内存充足的节点可以作为索引节点。索引节 点用于保存可以利用的搜索节点信息,并搜集状态信息,维护网络结构信息。 2 3p 2 p 关键技术 图2 3 混合式网络模型 p 2 p 是一种基于互联网环境的新的应用型技术,它的关键技术包括: 啥尔滨工程大学硕士学位论文 ( 1 ) 拓扑一致性和资源定位 对于互联网上众多计算机,p 2 p 应用比其他应用更多考虑那些低端p c 的互连,它们不具备服务器那样强的联网能力,同时对于以往的p 2 p 应用技 术,现在的硬件环境已经更为复杂,这样在通信基础方面,p 2 p 必须提供在 现有硬件逻辑和底层通信协议上的端到端定位( 寻址) 和握手技术,建立稳 定的连接。涉及的技术有i p 地址解析、n a t 路由及防火墙。p 2 p 系统需要解 决的一个重要问题是;在一个缺少集中化服务器的动态环境下,各个节点能 够维持一致的网络拓扑信息。由于p 2 p 网络中节点的加入和离开非常频繁, 传统路由扩散的方法难以解决这一问题,所以需要一个高效的一致性信息维 护机制实现一些功能。例如,当网络拓扑变化时快速恢复网络的稳定性问题 更具挑战性。另外,用户从大t 分散的节点中找到需要的资源和服务也是一 个挑战 18 1 。 ( 2 ) 互操作性 数据描述和交换的协议。在应用层面上,如果两个p e e r 分别代表两家不 同的公司,而且它们已经通过互联网建立连接,那么一方的信息就必须为另 外一方所识别,所以当前互联网上关于数据描述和交换的协议,如x m l , s o a p ,u d d i 等都是一个完善的p 2 p 软件所要考虑的 2 2 1 。 ( 3 ) 安全加密 p 2 p 中的安全问题直接决定了p 2 p 能否被大规模进行商用,除了f r e e n e t 强调p 2 p 系统的秘名问题之外,大多数系统并没有对p 2 p 中的安全问题做太 多工作。p 2 p 中的安全问题包括信息的加密、用户身份的认证、恶意节点的 识别和应对等等。值得注意的是,在p 2 p 的分布式环境下,针对单个服务器 的拒绝服务攻击将不再有效。有通信就要有保障加密技术是必须要考虑的【2 4 】。 ( 4 ) q o s 问题 p 2 p 网络的q o s 问题包括两个方面: 信息获得的q o s 问题,用户需要的信息肯在多个节点同时存放,如何 选择一个处理能力强、负载轻、带宽高的节点需要用户考虑。 用户肯共享出无用或者违法信息,造成信息垃圾充斥网络,因此,网 络应该控制用户共享的信息,提高用户获得有用信息的效率。 1 0 哈尔滨工程大学硕士学位论文 ( 5 ) 其它问题 其它需要考虑的有如何设置中心服务器,如何控制网络规模、改善查询 性能等 2 5 1 。 2 4p 2 p 的问题 ( 1 ) 版权问题 n a p s t e r 让人们开始关注p 2 p ,但也使得许多人认为p 2 p 就是歌曲交换、 文件交换,甚至认为p 2 p 和盗版有着必然的联系,尤其是n a p s t e r 的败诉更 加剧了人们认为p 2 p 就是盗版。实际上这是对p 2 p 最大的误解。 p 2 p 肯定会对原有的数字版权等体系造成很大的冲击,甚至某些结构, 但这是技术创新的力量。而事实上,也正是每一个技术进步带动着社会的前 进,带动着人们的生活方式、社会体制、法律法规的更新与进步。用户不能 因为现有的某些习惯、体制而扼杀技术创新带来的进步。现在重又面临一场 新的技术革命p 2 p ,人们对其应该有更为清醒的认识。 应该看到,保护版权也并非对p 2 p 共享软件就是坏消息。n a p s t e r 的败诉 对其也有积极的一面,塞翁失马,焉知非福。表面上看,n a p s t e r 输了官司, 但这也意味着其商业模式开始转机。之前,n a p s t e r 向用户收费似乎很困难, 但目前的处境只能让其与唱片公司合作,对有版权的音乐要向用户收费。这 种情况下,用户的观念也在慢慢改变,因为大家都知道不可能永远可以免费 下载m p 3 ,只要价格合理,服务到位,用户是能够接受付费下载的m 】。 ( 2 ) 管理困难 p 2 p 网络的精髓在于其“乌托邦”式的管理方式,这种方式给了用户更 多的自由,但是这也陷入了“无政府主义”的困境。可以想象,缺乏管理的 p 2 p 网络将会成为病毒、色情内容以及非法交易的温床。许多p 2 p 公司打算 通过p 2 p 网络开展电子商务,但是付费问题、流量计算、商品价值的验证等 等都是一时很难克服的困难。 ( 3 ) 垃圾信息 由于p 2 p 网络的用户众多,当某个用户进行搜索时,自然会得到大量的 哈尔滨工程大学硕士学位论文 搜索结果。而除了少数有用的信息以外,其它大多数的信息可能都属于垃圾 信息。在缺乏统一的管理的情况下,p 2 p 网络很难对搜索结果进行排序,用 户将不可避免地陷入垃圾信息的汪洋大海。现在已经有公司尝试着将人工智 能技术、专家数据库技术引入p 2 p 网络中,希望能够克服垃圾信息的困扰。 ( 4 ) 吞噬网络带宽 p 2 p 使网络变得空前活跃,大多数用户愿意利用p 2 p 网络在计算机之间 传送文件,这将大量吞噬网络带宽,特别是在大多数用户更喜欢传送大体积 的m p 3 文件、视频文件的时候,这个问题更加不容忽视。在我国,网络带宽 较窄成了p 2 p 应用难以逾越的障碍。不过,宽带上网在我国正逐步的普及, 业界人士都把2 0 0 1 称为“宽带上网年”,希望宽带上网能够彻底解决p 2 p 网 络面i 临的带宽危机。 ( 5 ) 安全问题 安全问题永远能跟上互联网的发展节奏。像美国在线的“即时信使”和 眼下的几种p 2 p 软件对源代码的加密并不可靠,很容易就会被反向汇编得出 源代码,这些源代码最终像开放源代码软件一样在网上随处可得。这一方面 会有利于人们针对不同的操作系统平台和功能需求重新编译这些程序。另一 方面,一些居心不良的黑客也能借机篡改软件源代码,为将来的不义之举留 下方便之门。尽管这需要一个黑客具备相当的编程经验和技巧,但总能有少 数“专家级”的黑客能随心为之。如果事情发展到这步田地,纵使p 2 p 软件 魅力无穷,也只能接受“慈善病毒”的称呼了。 ( 6 ) 标准之争 目前,正式的p 2 p 组织尚未成立,2 0 0 0 年8 月间成立的p 2 p 工作组,成 员包括i n t e l 、i b m 、h p 等大企业,目标集中在p 2 p 技术的标准、安全性及 可靠性等等。但由于f 2 p 技术本身发展迅速,p 2 p 技术涵盖的范围尚未确定, 目前尚未有统一的规范【2 1 。 i n t e l 是p 2 p 的热心鼓吹者,并且试图以p 2 p 开发组织盟主的身份去领导 p 2 p 的未来。或者说,i n t e l 试图演绎s u n 公司在j a v a 领域扮演的角色。但i n t e l 之于p 2 p 和s u n 之于j a v a 在很大程度上是不同的。最显著的恐怕就是s u n 开发了j a v a 代码,而i n t e l 能炫耀的只不过是用一种叫n e t b a t c h 的p 2 p 软件 哈尔滨工程大学硕士学位论文 为它在过去1 0 年间节省了5 亿美元的芯片开发成本。 2 5 本章小结 本章叙述了p 2 p 的发展简史,回顾了从简单的集中目录式结构n a p s t e r 到完全p 2 p 结构的g n u t e l l a 到强节点结构的k a z a a 的发展历程。简单介绍 了p 2 p 的结构划分,依照网络结构划分为非结构化p 2 p 网络与结构化p 2 p 网络,依照拓扑结构划分为集中式结构,纯p 2 p 网络模型,混合式网络模型。 简述了拓扑一致性、资源定位、互操作性、安全加密与q o s 问题等关键技术, 最后介绍了p 2 p 系统现存的一系列问题。 哈尔滨工程大学硕士学位论文 第3 章g n u t e i la 资源定位方法 3 1g n u t e f | a 的产生 “g n u t e l l a ”是第一个无结构的对等计算协议,它被用于各种文件的共享。 g n u t e l l a 的名字是由g n u ( 实际上g n u t e l l a 并没有根据g n ug p l 发布最新 的软件) 和一种花生酱巧克力的名字n u t e l l a 构成。“g n u t e l l a ”的作者是j u s t i n f r a n k e l ( n u l l s o f t 公司的创始人) ,2 0 0 0 年3 月1 4 日,n u l l s o f t 在美国在线网 上发布了最初的g n u t e l l a ,但一天以后即被勒令停止下载,但是此时大约已 有2 3 k 用户使用g n u t e l l a ,并开始交换和共享数据。今天,作为p 2 p 文件共 享的始祖,g n u t e l l a 仍然被广泛的使用。 3 2g n u t e iia 协议 g n u t e l l a 是一份关于发布检索的协议。虽然g n u t e l l a 协议也支持传统的 客户端中心服务器的检索规范,但g n u t e l l a 协议更主要是支持点对点的,没 有中心的检索。在这个模型中,所有的客户端也是一个服务器,反之亦然。 这些所谓的g n u t e l l a 客户机正常情况下执行联系服务器和客户端的任务。它 们提供客户端的接口使用户可以发出查询请求和查看检索结果。同时它们也 接收来自其它客户机的请求,检查它们自己的数据中匹配的部分,返回可用 的结果。因为具有天然的分布性,一个执行o n u t e l l a 协议的网络是具有高度 容错的,比如当部分客户机离线,网络服务不会被中断。 协议的定义内容如表3 1 1 2 3 : 可以看出,g n u t e l l a 协议其实是比较简单的,它总共才有五个消息类型。 g n u t e l l a 协议的消息的重要数据都在消息头中保存着,每一个消息都会有一 个消息头,下面对消息头的格式定义做一介绍,首先消息头的格式定义如下: fd e s c r i p t o ri d p a y l o a dd e s c r i p t o r t t l h o p sp a y l o a dl e n g t h 1 4 哈尔滨工程大学硕士学位论文 表3 1g n u t e l a 协议内容 消息作用 用于激活发现网络上的客户机。一个客户机收到一个p i n g 的 p i n g 命令表示希望回应一个或多个p o n g 命令 用于回应p i n g 。包括一个被连接的g n u t e l l a 客户机的地址和 p o n g 它能提供的数据共享的信息。 首要的分布式网络检索机制。一个客户机收到一个q u e r y 命令 q u e r y后,如果在自己的数据集中发现一个匹配的数据将回应一个 q u e r y h i t 。 用于回应o u e r y 。这个命令提供足够的信息来获取匹配q u e r y q u e r y h i t 请求的数据。 一个用于允许防火墙中的客户端向网络提供基于文件的数据 p u s h 文件的机制。 d e s c r i p t o ri d :一个1 6 字节的字串,用来在网络中唯一标识某次通信的 协议。 p a y l o a dd e s e r i p t o r :0 x 0 0 = p i n g ,0 x 0 1 = p o n g ,0 x 4 0 2 p u s h ,0 x 8 0 = q u e r y , 0 x 8 1 = q u e r y h i t t t l :生命周期,即在消息被从网络中移出之前,某次通信协议描述符 能被对等机转发的时间数。 h o p s :通信协议描述符被对等机转发的时间数,应满足等式: t t l ( o ) = = t t l ( i ) + h o p s ( i ) 其中,= 0 ,代表描述符被转发的第i 跳。 p a y l o a dl e n g t h :跟在前导头后的长度描述符,下一个描述符的前导头实 际上是靠上一个长度描述符来定位的。 g n u t e l l a 网络的点对点本质要求网络上的结点合适地为网络上的信息 ( 包括查询、查询响应、推送文件请求等) 选择路由。一个好的结点应该根 据以下的规则路由协议的消息: ( 1 ) p o n g 消息应该只沿进入的p i n g 消息的路径发送。这样可以保证只 有路由p i n g 消息的客户机将看到的p o n g 消息作为响应返回。一个客户机如 】5 哈尔滨工程大学硕士学位论文 果收到一个带有消息i d = n 的p o n g 消息,但没有看到一个带有消息i d = n 的 p i n g 消息的,应该把p o n g 消息从网络中删除。 ( 2 ) q u e r y h i t 消息应该只沿进入的q u e r y 消息的路径发送。这样可以 保证只有路由q u e r y 消息的客户机将看到的p o n g 消息作为响应返回。一个 客户机如果收到一个带有消息i d = n 的q u e r y h i t 消息,但没有看到一个带有 消息i d = n 的q u e r y 消息的,应该把p o n g 消息从网络中删除。 ( 3 ) p u s h 消息应该只沿进入的q u e r y 消息的路径发送。这样可以保证 只有路由q u e r y h i t 消息的客户机将看到的p o n g 消息作为响应返回。一个客 户机如果收到一个带有消息i d = n 的p u s h 消息,但没有看到一个带有消息 i d = n 的q u e r y h i t 消息的,应该把p u s h 消息从网络中删除。p u s h 消息通过客 户机i d 进行路由,而不是通过消息i d 。 ( 4 ) 一个客户机将通过进来的p i n g 和q u e r y 消息向前到达所有与它直 接相连的客户机,但负责传递进入的p i n g 和q u e r y 的那些客户机除外。 ( 5 ) 一个客户机将在它向前传递消息到与它直接相连的客户机前,减少 一个描述头的t t l 区,并增加h o p s 区。如果,减少头部的t t l 区后,1 v r l 中的值等于0 消息将不再向前传递到任何连接。 ( 6 ) 一个客户机收到一个与它之前接收过的消息具有相同有效消息和消 息i d 的消息,应该避免再向前传递这个消息到其它的连接。它已经接收过 这样一个消息,再把它传递出去只会浪费带宽。 3 3g n u t e ii a 网络拓扑特征 g n u t e l l a 网络拓扑节点的分布不仅呈现典型的“幕规律”特性,而且还 具有明显的“小世界”特征。可以利用这种特性,改进其节点搜索、查询消 息的路由机制。 3 3 1 幂规律 一个随机无向图由若干个节点和两两节点间的边组成。某个节点的“度” 即是到达该节点的边的个数。最近的研究表明,许多现实网络,如i n t e m e t 骨干w w w 页面链接、人们的社会关系网络等,其节点“度”的分布都具有 1 6 哈尔滨工程大学硕士学位论文 同样的规律。p o w e r - l a w ,分布的含义可以简单解释为在网络中有少数节点 有较高的“度”,多数节点的“度”较低。度较高的节点同其他节点的联系比 较多,通过它找到待查信息的概率较高。最近的研究表明g n u t e l l a 网络节点 的拓扑分布具有“幕规律( p o w e rl a w ) ”特性,因此,可以采用“最大聚集 度优先”算法进行对等机共享信息查询路由1 3 q 。 3 3 2 小世界 据最近的有关研究表明:g n u t e l l a 网络满足“小世界( s m a l lw o d d ) ”特 征。为了说明什么是“小世界”特征,给出以下定义m ,。 定义l :聚集度c ( i ) 已知以顶点v 为根的深度为1 的b f s 树,则该顶 点的横向边的数目为c v ,满足以下关系;m a x ( c v ) = c :k - 1 为b f s 树的 所有顶点;则一个图的聚集度为其所有顶点v 的c v 值的平均值,即 c ( i ) = a v e r a g e ( c v ) 。 定义2 :特征路径长l 己知一个无向图g ,任意两节点u ,v 间最短路径 的边数为n u m ( u ,v ) ,则其特征路径长l 为:l = a v e r a g e n u m ( u ,v ) 】;则 某网络的特征路径长l 被定义为所有任意两节点间最短路径的边数的平均 值。 “小世界”特性的定义:即网络拓扑具有高聚集度而低特征路径长的特 性。在符合s m a l l w o r l d 特性的网络模型中,可以根据节点的聚集度将节点 划分为一个个的c l u s t e r s 。 因此,g n u t e l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业管道的自动化焊接技术优化
- 工业自动化技术发展与应用研究
- 工业设计与可持续发展战略
- 工作场所运动和身体健康关系的探究及实践建议
- 工业节能的技术改造
- 工作效率提升的智能穿戴设备研究
- 工作效率提高的饮食和运动建议
- 工厂企业消防安全实务
- 工程机械设备维修与管理研究
- 工程勘查质量与安全管理手册
- 2025年浙江宁波宁海县第一医院招考聘用紧缺专业编外医师笔试历年典型考题解题思路附带答案详解
- 贵州国企招聘2025贵州省粮食储备集团有限公司招聘76人笔试参考题库附带答案详解析集合
- 3D打印食品安全标准-洞察及研究
- 2024-2025学年湘教版七年级数学下册期末素养测试卷(二)含答案
- DB31/T 1204-2020标准先进性评价通用要求
- 2025年中国半球谐振陀螺仪行业市场前景预测及投资价值评估分析报告
- 《奇异空间》课件 -2024-2025学年湘美版(2024)初中美术七年级下册
- 合伙或养鸡协议书
- 2024年西安高新区公办学校教师招聘真题
- 行政管理学科试题及答案分享
- 2023-2024学年上海市浦东区八年级(下)期末数学试卷 (含答案)
评论
0/150
提交评论