




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)p2p流量识别与控制系统的设计研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文p 2 p 流量识别与控制系统设计研究 摘要 随着互连网的发展,p 2 p ( p e e r - t o p e e r ) i j , 经成为发展最快的网络应用之一。有关 调查表明,p 2 p 业务己悄然占据了互联网业务总量的6 0 8 0 ,成为杀手级宽带互 联网应用。p 2 p 业务流量在对i n t e r n e t 起巨大推动作用的同时,也带来了因资源过 度占用而引起的网络拥塞以及安全隐患等问题,妨碍了正常的网络业务的开展。p 2 p 技术占据着网络带宽的绝大部分,如何控制p 2 p 流量,是我们在享受p 2 p 带来的便 利的同时必须要考虑的一个问题。因此,实现p 2 p 流量的有效识别已经成为急需解 决的问题。 论文正是在这样的背景下,针对当前城域网的p 2 p 流量的特点,开展了研究工 作,论文主要包括了以下内容: 1 、对p 2 p 技术进行了研究。分别对p 2 p 技术定义、p 2 p 技术的四种网络拓扑 模型、p 2 p 技术特点、p 2 p 关键技术、p 2 p 相关协议及应用以及p 2 p 网络存在的问 题和发展趋势进行了分析研究。 2 、详细分析了p 2 p 流识别中存在的问题,着重研究和比较了当前存在的几种 p 2 p 流识别方案的工作原理,以及其在p 2 p 流识别过程中的特点和存在的问题,同 时介绍了几种流量控制技术和管理策略。 3 、针对现有p 2 p 流量检测方案存在的不足,提出了种改进后的综合检测方 案,在新的方案中采用流量特性检测和深度包检测等综合识别的检测方式。该方案 克服了当前的几种p 2 p 流识别方案的缺点,有效地提高了p 2 p 流的识别率。 4 、在论文提出的方案基础上设计了一个p 2 p 流量识别与管理系统,该系统可 以实施有效的识别及控制。在此系统中实现了本文提出的p 2 p 流识别方案,对该识 别方案的有效性进行了实验验证,并对该方案的性能进行了实验分析。 关键词:对等网络,p 2 p 流识别,传输层识别,深度数据包检测 a b s t r a c t 硕士论文 a b s t r a c t a l o n gw i t ht h ed e v e l o p m e n to fi n t e r n e t ,t h et e c h n o l o g yo fp 2 p ( p e e r - t o - p e e r ) h a s b e c o m eo n eo ft h ef a s t e s td e v e l o p i n gn e t w o r ka p p l i c a t i o n i n t e r r e l a t e di n v e s t i g a t i o n i n d i c a t e st h a tp 2 pt r a f f i ch a st a k e nu p6 0 t o8 0 o ft h et o t a li n t e m e tt r a f f i cs t e a l t h i l y , i tb e c a m et h ek i l l e ra p p l i c a t i o no fb r o a db a n di n t e r n e t p 2 pt r a f f i cp l a y e da h u g er o l ei n t h ei n t e r n e tp r o m o t i n g t h es a m et i m e ,i th a sa l s ob r o u g h to c c u p a t i o na n dr e s o u r c e so v e r t h en e t w o r kc o n g e s t i o na n ds a f e t y p r o b l e m s p 2 pt r a f f i co c c u p yt h em o s tn e t w o r k b a n d w i d t h w h i l ee n j o y i n gt h ec o n v e n i e n c eo fp 2 p ,w ea l s oc o n s i d e rt h ep r o b l e mo fp 2 p t r a f f i cc o n t r 0 1 s o ,t h ei m p l e m e n t a t i o no f i d e n t i f yp 2 pt r a f f i ch a sb e c o m eap r o b l e mn e e d t ob er e s o l v e di m m e d i a t e l y t h em a i nr e s e a r c hw o r kp r e s e n t e di nt h i sp a p e ri su n d e rt h eb a c k g r o u n do ft h i s , f u l l yc o n s i d e r i n gt h ec h a r a e t e r i s t i e so fi s pt r a f f i c t h em a i nc o n t e n t sa r el i s t e da s f o l l o w i n g : 1 、w es t u d i e di np 2 pt e c h n o l o g y , i n t r o d u c e dt h ec o n c e p to fp 2 pt e c h n o l o g y , p 2 p n e t w o r k t o p o l o g ym o d e l ,f e a t u r e s o fp 2 p t e c h n o l o g y , p r o t r o c o l o fp 2 p t e c h n o l o g y ,a p p l i e a t i o no fp 2 pt e c h n o l o g y ,p r o b l e m sa n dd e v e l o p m e n t 2 、w ea n a l y z e dt h ep r o b l e mi nt h ei d e n t i f i e a t i o no fp 2 pt r a f f i c ,r e s e a r c h e ds e v e r a l k i n do fp r e s e n ts o l u t i o n si np 2 pt r a f f i c i d e n t i f i c a t i o n ,a n a l y z e d t h e i rf e a t u r e sa n d p r o b l e m si nt h ei d e n t i f i c a t i o np r o c e s s a tt h es a m et i m e ,i n t r o d u c e ds e v e r a lp o l i c i e so f t r a f f i cc o n t r o la n dm a n a g e m e n t 。 3 、w ep r e s e n t e dan e w l yi m p r o v e dp 2 pt r a f f i cm o n i t o r i n gp r o je c td u et ot h e s h o r t e o m i n g s o ft h e p r e s e n tp 2 pt r a f f i cm o n i t o r i n gp r o je c t ,t a k e nt r a f f i c f e a t u r e i d e n t i f i e a t i o na n dd e e pp a c k e ti d e n t i f i c a t i o ni nt h en e wp r o je c t t h en e wp r o je c t o v e r c o m et h ed i s a d v a n t a g e so fp r e s e n ts o l u t i o n si np 2 pt r a f f i ci d e n t i f i c a t i o n s oi th a s e f f i c i e n t l yi m p r o v e dt h er e c o g n i t i o nr a t eo fp 2 pt r a f f i ci d e n t i f i c a t i o n 4 、t h i sp a p e rd e s i g n e da n di m p l e m e n t e dap 2 pt r a f f i cr e c o g n i t i o na n dc o n t r o l s y s t e m ,w h i c hc a nb ea ne f f e c t i v ed e t e c t i o na n dc o n t r 0 1 w et e s tt h en e wp 2 pt r a f f i c i d e n t i f i c a t i o ns o l u t i o na n da n a l y z e di t ss c a l a b i l i t yo no u rt e s te n v i r o n m e n tb a s e do np 2 p t r c s k e yw o r d s :p e e rt op e e r ,p 2 pt r a f f i ci d e n t i f i c a t i o n ,t r a n s p o r tl a y e ri d e n t i f i c a t i o n , d e e pp a c k e ti n s p e c t i o n ( d p i ) 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:矽a 年6 月谚日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:加8 年多月2 z 日 硕士论文p 2 p 流量识别与控制系统设计研究 i 绪论 i i 研究背景 p 2 p ( p e e r t o p e e r ,p 2 p 网络) 近年来广受i t 业界的关注。p 2 p 定义为通过在系统之 间直接交换来共享计算机资源和服务,这些资源和服务包括信息交换、高速缓存、 处理能力、存储空间。p 2 p 两个节点之间可以直接的交互数据信息而不需要经过特 定的服务器。p 2 p 网络区别于客户端服务器( c l i e n t s e r v e r ) 结构或浏览器服务器 ( b r o w s e r s e r v e r ) 结构,其最显著的特点是整个网络不存在中心节点( 或中心服务器) , 其中的每一个节点( p e e r ) 大都同时具有信息消费者、信息提供者和信息通讯等三方面 的功能。 作为改变现有i n t e r n e t 应用模式的主要技术之一,p 2 p 网络是目前新一代互联网 技术研究的热点之一,被美国财富杂志称为改变因特网发展的四大新技术之一, 甚至被认为是无线宽带互联网的未来技术。p 2 p 技术不仅为用户提供了前所未有的 便利,同时也试图有效地整合互联网的潜在资源,将基于网页的互联网变成动态存 取、自由交互的海量信息网络。此) b p 2 p 技术的发展以及p 2 p 与网格技术的结合,将 影响整个计算机网络的概念和人们的信息获取模式,真正实现“网络就是计算机,计 算机就是网络”的梦想。 随着网络的发展,新一代网络技术p 2 p 得到了广泛应用。它最直接的功能就是 让用户可以直接连接到网络上的其他计算机,进行文件共享与交换。由于它是对等 的网络结构,每个节点既是服务器又是客户端,所以应用广泛,不易控制,同时占 用了大量的网络带宽,加重了网络的负担。近几年来,不断涌现出新型的p 2 p 协议 及应用软件。如国外的b i t t o r r e n t 、e d o n k e y 、f a s t t r a c k 、g n u t e l l a 、s k y p e ,国内的 k u g o o 、e z p e e r 、百宝、p p 点点通、q q 等。p 2 p 技术允许终端用户利用i n t e r n e t 架构 个动态、匿名、分布式网络相互传递信息,颠覆了传统的c s 信息服务模式,允 许终端用户相互直接搜索和共享信息资源。据统计,p 2 p 应用已占i s p 业务总量的 6 0 - - - 8 0 t 1 7 2 3 ,2 4 1 ,有些甚至高达9 0 ,已成为网络带宽最大的消费者。 p 2 p 的用户数目极其庞大,而且流量已经成为网络上最大的流量,这样巨大的 流量也给运营商带来了巨大的压力,为了保证网络能正常有序的运行,他们迫切的 需要找到一种有效的方式来管理各种类型的p 2 p 应用,而发现p 2 p 各种流量的特征, 在网络中识别这些p 2 p 的流量是管理p 2 p 应用最首要最关键的部分。但随着加密数据 和动态端口的出现,p 2 p 流量识别技术也面临挑战。本论文的任务和核心内容就是 针对目前各种p 2 p 应用进行识别和管理,寻找有效的识别实现方案。 1 绪论硕士论文 1 2 论文的主要工作 本文的主要工作如下: 1 、对p 2 p 技术做了较为全面的介绍,研究分析了当前存在的几种p 2 p 流识别方案 的工作原理,以及其在p 2 p 流识别过程中的特点和存在的问题。 2 、设计并实现了一个p 2 p 流量识别与控制系统。提出了管理中心与p 2 p 流量分析 仪松耦合协作的方案,实现了时钟同步、双重验证和基于w e b 的对分析仪配置的功能, 提高了整体系统的可靠性和可用性。 3 、深入研究了p 2 p 流量分析仪具有数据包捕获、p 2 p 流量分析和发布分析结果功 能的三层体系结构,探讨了实现p 2 p 流量分析仪的关键技术;提出并实现了基于h t t p 协议的管理协议,使管理中心能跨越防火墙与分析仪交互。 4 、提出了一种新的p 2 p 流量检测算法,在p 2 p 流量分析仪中实现了该算法,并搭 建试验环境进行验证,实测结果表明了该算法有效,并具有较高的准确性。 1 3 论文的组织结构 本论文共分为五章,主要内容分别阐述如下: 第一章绪论部分,从p 2 p 协议的发展及其带来的问题出发,引出本文的研究背景, 并分析了p 2 p 流量识别方案的现状,阐述了本文的研究目的和主要工作,并在本章的最 后,列出了本文的组织结构。 在第二章中对p 2 p 的发展历史、p 2 p 的概念以及与网格计算的区别作了简单介绍, 重点阐述了p 2 p 的技术特点、p 2 p 的四种网络拓扑模型和p 2 p 相关的协议和应用,最后 对目前p 2 p 网络存在的问题和发展趋势做了总结。这是本文后面研究工作的理论基础和 依据。 第三章详细介绍了目前存在的几种p 2 p 流量识别技术,并对这些技术从性能、准确 性、可扩展性等几个方面进行了对比分析,并在此基础上提出了一个多种方法综合运用 的识别方案。最后简要介绍了各种流量控制技术和流量管理策略。 第四章设计并实现了一个p 2 p 流量识别与控制系统,对系统的各个功能模块进行了 阐述,重点完成了p 2 p 流量分析仪的设计与实现,对其中的关键技术做了详细介绍。搭 建试验环境验证了本文提出的识别方案的有效性。 最后,在第五章中对全文进行了总结,并且针对现有系统存在的问题对下一步的研 究工作提出构想。 2 硕士论文 p 2 p 流量识别与控制系统设计研究 2p 2 p 技术综述 2 1 引言 从网络模型来看,p 2 p 并不是新概念,它可以说是互联网整体架构的基础。互 联网最基本的协议t c p i p 并没有客户机和服务器的概念,所有的设备都是通讯的平 等的一端。在十几年前,互联网上所有的系统都同时具有服务器和客户机的功能。 然而,由于受早期计算机性能、资源等因素的限制,当互联网规模迅速扩大时,大 多数连接到互联网上的普通用户并没有能力提供网络服务,从而逐步形成了以少数 服务器为中心的客户机朋艮务器架构。在客户机n 务器架构下i 网络对客户机的资 源要求非常少,因而可以使用户以非常低廉的成本方便地连接上互联网,推动了互 联网的快速普及。w w w 的风靡,正是这一应用潮流的体现。 但是,随着互联网对人们生活的联系日益紧密和深入,人们需要更直接、更广 泛的信息交流。普通用户希望能够更全面地参与到互联网的信息交互中,而计算机 和网络性能的提升也使其具有了现实的可能性。在此背景下,p 2 p 再一次受到了广 泛的关注。 2 1 1p 2 p 技术介绍 p 2 p 能够迅速流行的原因是:可以将用户单个的资源组织起来,形成一个巨大的共 享资源池。p 2 p 在2 0 世纪7 0 年代就已出现,其典型代表是u s e n e t 和f i d o n e t 这两个分散、 分布的信息交换系统,而真正的p 2 p 技术的大规模应用起源于文件交换软件n a p s t e r 【1 4 1 。 根据已有的统计报告显示p 2 p 系统用户还在继续增长【1 7 刃捌,这些统计报告中显示,被 p 2 p 文件共享程序使用的带宽已经超过了w w w 应用。 p 2 p 的应用领域很多,比如分布式计算、文件共享、分布式存储、通信( v o l p ) 和 实时多媒体流等等。p 2 p 是一种分布式网络,它不同于传统的客户机服务器模式,没有 中央设备来完全控制、组织、管理和保持整个系统,取而代之将功能都分散到了每个网 络的参与者,网络的参与者共享它们所拥有的一部分硬件资源( 处理能力、存储能力、 网络连接能力、打印机等) ,这些共享资源需要由网络提供服务和内容,能被其他对等 节点( p e e r ) 直接访问而无需经过中间实体。在此网络中的参与者既是资源( 服务和内容) 提供者( s e r v e r ) ,又是资源( 服务和内容) 获取者( c l i e n t ) ,因此每个节点的地位都 是相同的。由于p 2 p 技术的飞速发展,互联网的存储模式将由现在的“内容位于中心” 模式转变为“内容位于边缘 模式,改变i n t e r n e t 现在的以太网站为中心的状态,重返“非 中心化”,将权力交还给用户。 采用p 2 p 技术实现分布式应用有很多的好处:1 、通过节点的资源聚合,减少对中心 服务器的依赖性,提高系统的扩展能力;2 、使用已经部署的底层通信资源,降低系统 3 2p 2 p 技术综述 硕士论文 的部署费用;3 、在端系统中部署p 2 p 应用程序,提高系统的部署能力。 2 1 2p 2 pv s 网格计算 p 2 p 系统8 ,2 4 1 和网格计算慨2 1 1 有一些共同特性,就是要将独立的资源聚合成一个巨 大的资源共享池,供所有参与的入使用。这两种技术在进行资源聚集和共享的时候有一 些差别。下面从四个方面对它们进行了比较:应用团体,共享资源类型,系统扩展性和 服务提供方式。 网格系统的用户通常需要连接一个具有强大计算能力的资源,一个很好的例子是一 个科研单位需要解决一个高计算强度的问题;网格的成员通常具有高性能的节点设备和 高速的链路带宽:网格系统的范围通常不大,它具有成百上千个节点;网格可以为其成 员提供复杂的服务,这些服务包括身份验证、授权、资源发现、时序、访问控制和成员 关系控制等等,基于这些服务,网格可以为其成员提供可相互信赖的服务。 p 2 p 系统节点通常具有有限的计算资源,并且他们经常不与网络连接;p 2 p 系统的规 模非常的巨大;它的服务通常比较少,支持匿名访问,这使得很难对其进行计费,节点 之间都不可信。 我们应该注意到对p 2 p 系统和网格计算在传统观点上的比较。已有的研究表明两者 都是巨大资源池并对资源进行有效的访问控制。在网格计算中,成员数量正在增加,而 且对组成成员的限制正在降低。另一方面,在p 2 p 中,更多高级服务,例如信任度管理 也正在被提供。两种系统各有特点,它们的发展方向是相互借鉴相互补充。事实上,人 们已经做了一些相关方面的研究1 2 6 】。 2 2p 2 p 网络的特点 与其他网络模型相比,p 2 p 具有以下一些特点【2 1 】: 2 2 1 分散化 网络中的资源和服务分散在所有节点上,信息的传输和服务的实现都直接在节 点之间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。即使是在混 合p 2 p 中,虽然在查找资源、定位服务或安全检验等环节需要集中式服务器的参与, 但主要的信息交换最终仍然在节点中间直接完成。这样就大大降低了对集中式服务 器的资源和性能要求。 分散化是p 2 p 的基本特点,由此带来了其在可扩展性、健壮性等方面的优势。 2 2 2 可扩展性 在传统的c s 架构中,系统能够容纳的用户数量和提供服务的能力主要受服务 器的资源限制。为支持互联网上的大量用户,需要在服务器端使用大量高性能的计 4 硕士论文p 2 p 流量识别与控制系统设计研究 算机,铺设高带宽的网络。为此,机群、e l u s t e r 等技术纷纷上阵。在此结构下,集 中式服务器之间的同步、协同等处理产生了大量的开销,限制了系统规模的扩展。 而在p 2 p 网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和服 务能力也在同步地扩充,始终能较容易地满足用户的需要。即使在诸女 i n a p s t e r 等集 中型架构中,由于大部分处理直接在节点之间进行,大大减少了对服务器的依赖, 因而能够方便地扩展到数百万个以上的用户。而对于纯p 2 p 来说,整个体系是全分 布的,不存在瓶颈。理论上,其可扩展性几乎可以认为是无限的。 2 2 3 健壮性 在互联网上随时可能出现异常情况,网络中断、网络拥塞、节点失效等各种异 常事件都会给系统的稳定性和服务持续性带来影响。在传统的集中式服务模式中, 集中式服务器成为整个系统的要害所在,一旦发生异常,就会影响到所有用户的使 用。而p 2 p 架构则天生具有耐攻击、高容错的优点。由于服务是分散在各个节点之 间进行的,部分节点或网络遭到破坏对其它部分的影响很小。而且p 2 p 模型一般在 部分节点失效时能够自动调整整体拓扑,保持其它节点的连通性。事实上,p 2 p 网 络通常都是以白组织的方式建立起来的,并允许节点自由地加入和离开。一些p 2 p 模型还能够根据网络带宽、节点数、负载等变化不断地做自适应式的调整。 2 2 4 隐私性 随着互联网的普及和计算存储能力飞速增长,收集隐私信息正在变得越来越容 易。隐私的保护作为网络安全性的一个方面越来越被大家所关注。目前的i n t e r n e t 通用协议不支持隐藏通信端地址的功能。攻击者可以监控用户的流量特征,获得i p 地址,甚至可以使用一些跟踪软件直接从i p 地址追踪到个人用户。在p 2 p 网络中, 由于信息的传输分散在各节点之间进行而无需经过某个集中环节,用户的隐私信息 被窃听和泄漏的可能性大大缩小。此外,目前解决i n t e r n e t 隐私问题主要采用中继转 发的技术方法,从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿 名通信系统中,实现这一机制依赖于某些中继服务器节点。而在p 2 p 中,所有参与 者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够 为用户提供更好的隐私保护。 2 2 5 高性能价格比 性能优势是p 2 p 被广泛关注的一个重要原因。随着硬件技术的发展,个人计算 机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。而在目前的互联 网上,这些普通用户拥有的节点只是以客户机的方式连接到网络中,仅仅作为信息 和服务的消费者,游离于互联网的边缘。对于这些边际节点的能力来说,存在极大 5 2p 2 p 技术综述 硕士论文 的浪费。采用p 2 p 架构可以有效地利用互联网中散布的大量普通节点,将计算任务 或存储资料分布到所有节点上,利用其中闲置的计算能力或存储空间,达到高性能 计算和海量存储的目的。这与当前高性能计算机中普遍采用的分布式计算的思想是 一致的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存 储能力。 2 2 6 负载均衡 p 2 p 网络环境下由于每个节点既是服务器又是客户机,减少了对传统c s 结构服 务器计算能力、存储能力的要求,同时因为资源分布在多个节点,更好地实现了整 个网络的负载均衡。 2 3p 2 p 网络结构 p 2 p 网络属于叠加在底层通信网络基础设施之上的重叠网络,是一个分布式、 具有互操作性的自组织系统。p 2 p 面临的最大挑战之一是如何在没有中心服务器的 模式下维护网络拓扑结构,以及实现内容搜索。因此,根据网络拓扑组织形式可以 将p 2 p 网络分为四种类型:集中式p 2 p 网络,全分布非结构化p 2 p 网络,全分布结构 化p 2 p 网络( 也称作d h t 网络) 和混合式p 2 p 网络。 2 3 1 集中式p 2 p 网络 n a p s t e r 1 4 】为代表的第一代p 2 p 系统采用集中式网络架构,要求各对等端 ( p e e r ) 都登录到中心服务器上,通过中心服务器保存并维护所有对等端的共享文 件目录信息,n a p s t e r 的系统结构如图2 3 1 1 所示。 森溯流 - 下裁流 一一 图2 3 1 1 集中式p 2 p 网络架构( n a p s t e r ) 当某个用户需要某个文件时,首先连接到n a p s t e r 服务器,在服务器进行检索, 并由服务器返回存有该文件的用户信息;再由请求者直接连到文件的所有者传输文 件。n a p s t e r 首先实现了文件查询与文件传输的分离,有效的节省了中央服务器的带 宽消耗,减少了系统的文件传输延时。这种方式最大的隐患在中央服务器上,如果 该服务器失效,整个系统都会瘫痪。当用户数量增加到1 0 5 或者更高时,n a p s t e r 的系 6 硕士论文p 2 p 流量识别与控制系统设计研究 统性能会大大下降。在n a p s t e r 之后的p 2 p 系统都在这一点上进行了重点改进,系统 基本上都采用无中心结构,容错性和可扩展性得到了大幅度提高 2 3 2 全分布式非结构化p 2 p 网络 完全分布式非结构化拓扑的p 2 p 网络采用了随机图的组织方式来形成一个松散 的网络。这种结构对网络的动态变化有较好的容错能力,因此具有较好的可用性。 同时,这种结构支持复杂查询,比如带有规则表达式的多关键字查询、模糊查询等。 完全分布式非结构化拓扑的p 2 p 网络的典型代表是g n u t e l l a t 2 5 1 。 g n u t e l l a 是一个p 2 p 文件共享系统,它和n a p s t e r 的最大区别是g n u t e l l a 没有中心 服务器,它采用了基于完全随机图的洪泛( f l o o d i n g ) 发现和随机转发( r a n d o m w a l k e r ) 机制。为了控制搜索消息的传输,g n u t e l l a 采用类似i p 数据包中t t l ( t i m e t ol i v e ) 的机制来决定是否继续转发消息。g n u t e l l a 的查询流程如图2 3 2 1 所示。 经询溅, 卜 “f 蔽澎 卜一一一| 图2 3 2 1g n u t e l l a 的查询流程 该系统既没有集中式服务器也不对网络拓扑结构或者文件存储位置作硬性规 定和强制管理,节点松散的加入网络并组织网络。在搜索时,节点以洪泛的方式向 自己的所有邻居节点发起查询,收到该查询消息的节点无论是否拥有查询的文件都 将查询消息继续转发给自己的所有邻居节点,直至查询消息中的t t l ( t i m et ol i v e ) 属性值递减为0 为止。这种机制对节点的加入和离开不敏感,当一部分节点离开网 络时,网络并不会因此中断。随着联网节点的不断增多,网络规模不断扩大,通过 这种洪泛方式定位对等点的方法将造成网络流量急剧增加,从而导致网络中部分的 带宽节点因网络资源过载而失效。所以在初期的g n u t e l l a 网络中,存在比较严重的分 区和断链现象。也就是说,一个查询访问只能在网络的很小一部分进行,因此网络 的可扩展性不好。 非结构化分布式p 2 p 网络存在以下缺点:查询小时占用大量带宽,花费时间长; 网络的规模扩展性差,随着网络规模的扩大,查询小时的数量急剧增加。因此准确 性和可扩展性是非结构化网络面临的两个重要问题。 7 2p 2 p 技术综述硕士论文 2 3 3 全分布式结构化p 2 p 网络 结构化指的是p 2 p 网络叠加层的拓扑结构是严格控制的,资源并不是随机分散 存储在节点上,而是以一种查询更加高效的方式来存储的。网络中的共享内容用关 键字( k e y ) 来表示。通常使用分布式哈希表( d i s t r i b u t e dh a s ht a b l ed h t ) ,! i s h a 1 等,为节点和关键字各分配m 位的标识符,从而将存储数据的位置信息相应的部署 在确定的节点上。节点标识符( n o d ei d ) 可以通过哈希节点的i p 地址产生,而关键 字标识符可以通过哈希文件名或者文件内容来产生。标识符的位数m 必须足够大, 才能保证两个节点或者关键字被哈希到同一个标识符上的概率可以忽略不计。通常 由n o d ei d 与关键标志符数值最为接近的节点保存数据的存储位置信息。每个节点维 护一个很小的路由表,只存储邻居节点的n o d ei d 和i p 地址。查询消息被节点步进式 的转发给n o d ei d 与关键字标志符接近的节点。为了在有限逻辑跳内查找定位资源, 节点之间连接都是参考特定网络拓扑结构,典型结构化p 2 p 网络代表有c h o r d 2 1 , p a s t r 矿3 1 ,t a p e s t r y 4 , 5 1 和c a n 【6 】等。 l 、c h o r d c h o r d 是一个使用环状标识空间的系统。针对一个标识的路由目标就是在数值 上最接近该标识的n o d ei d 的节点,并称为针对该标识的承接点。在c h o r d 中,每一 个节点都维护着两套邻居。其中一套为在标识空间中紧接着该节点的k 个节点,另 一套为指向在整个标识环中以该节点为基准依次折半的节点的指针,而第一套邻居 是确保路由正确的关键。c h o r d 可以确保路由在标识空间中单向靠近目标节点而且 不会越过,并且可以保证路由在o ( 1 0 9 n ) 步内完成。 2 、p a s t r y p a s t r y 是微软研究院提出的可扩展的分布式对象定位和路由的p 2 p 系统。在 p a s t r y 中,每一个节点都被分配一个1 2 8 位的节点标识( n o d ei d ) ;用于确定该节点在 环状标识空间的位置。每一个节点的节点标识是在节点加入系统时随即分配的。新 节点加入网络时,通过计算节点公钥或者对i p 地址进行哈希运算获得节点i d 。节点 i d 和关键字是以b 为基的数字( b = 2 6 ,b 一般取l ,2 ,3 ,4 ) 。p a s t r y 的路由过程如下:收 到一条查询信息,节点首先检查要查询的关键字i d 是否在叶子集合中。如果是,则 直接把消息转发给节点i d 和关键字i d 最接近的节点;如果没有,就将根据路由表进 行转发。在某些情况下,会出现路由表对应表项为空或者路由表表项对应的节点不 可到达的状况。这时候消息将会被转发给有着同等长度的匹配前缀的节点,但是该 节点的i d 和当前节点相比数值上更接近关键字i d 。这样的节点一定位子叶子集合 中。因此,只要叶子集合中不出现一半以上的节点同时失效的情况,路由过程就可 以继续。在查找关键字时,节点将查询消息转发给节点i d 与关键字至少比当前节点 i d 多匹配1 个数位( b 个二进制位) 的前缀节点。在有n 个节点的网络中,查询一个 8 硕士论文p 2 p 流量识别与控制系统设计研究 关键字通常可以在l o g b n 跳内完成。 3 、t a p e s t r y t a p e s t r y 的架构是基于p l a x t o n t 3 5 】的搜索定位和路由技术。p l a x t o n 等人提出了一 种分布式数据结构一p l a x t o nm e s h 。这种结构中,关键字i d ,节点i d 与它们的位置以 及具体内容无关,通过s h a 1 哈希运算来生成。s h a 1 函数决定了i d 在整个名字空 间中均匀分布。每个节点采用本地路由映射,将路由消息采用后缀匹配进位增加的 方式转发给目标i d ,例如:枣宰拳7 = 宰9 7 = * 2 9 7 = ) 3 2 9 7 ( 幸是通配符) 。节点本 地路由映射有多个等级,每个等级代表i d 后缀匹配度( s u f f i x m a t c h i n g ) 。当消息到达 第i 个节点时,该节点至少匹配目标i d 的i 位的后缀。要定位下一条路由时,第i + l 级 映射将计算出下一位应匹配的后缀数字。这种路由机制保证任何查询都可以在l o g s n 跳内就能定位( n 为节点数,b 为节点i d 长度) 。由于节点本地路由映射假定前面的 数字完全匹配当前的节点后缀,因此节点每一级映射只保存一个常量b 的映射表, 整个路由映射表的大小是b * l o g b n 。另一方面,在t a p e s t r y 网络中每一个数据对象都 连接多个根节点,以避免单点失败问题。在p l a x t o n 网络中如果数据对象存在多份拷 贝,那么对象的根节点只保存离它最近的那个拷贝的位置,而t a p e s t r y , 贝0 保存了所 有拷贝的位置信息以增加灵活性,这是p a s t r y 和t a p e s t r y 的主要不同之处。t a p e s t r y , p a s t r y 思想都继承自p l a x t o n ,两者在路由定位机制上都是基于标识符的匹配进行路 由,但对节点的加入和离去、路由表结构和维护上稍有区别。 4 、c a n ( c o n t e n t - a d d r e s s a b l en e t w o r k ) a c i r i 中心的c a n ( c o n t e n ta d d r e s s a b k en e t w o r k s ) 项目采用多维的标识符空间 来实现分布式散列算法。c a n 将所有节点映射到一个n 维笛卡尔空间中,并为每个 节点尽可能均匀的分配一块区域。c a n 采用的散列函数通过( k e y ,v a l u e ) 对中的k e y 进行散列运算,得到笛卡尔空间中的一个点,并将( k e y ,v a l u e ) 对存储在拥有该点所 在区域的节点内。每个c a n 节点都保存一张坐标路由表,其中包括邻居节点的i p 地 址和虚拟坐标区域。邻居节点是指两个节点的区域在d 维坐标空间中的d 1 维上具有 相同的覆盖跨度而在另一维上相互邻接。c a n 采用的路由算法相当直接和简单,知 道目标点的坐标后,就将请求传给当前节点四邻中坐标最接近目标点的节点。当新 节点加入c a n 网络时,必须拥有自己的坐标空间。c a n 拥有一个d n s 域名,该域名 可以解析为一个或多个c a n 引导节点( 引导节点始终维护一部分c a n 节点列表) 的i p 地址。当新节点加入c a n 时,首先通过域名解析获得引导节点的地址,从引导节点 处获得系统中一些节点的i p 地址,然后新节点随即向一个节点发送j o i n 请求,之后 获得该节点拥有的一半区域空间。当节点任意离开c a n 网络时,接管算法保证了当 节点发现邻居节点失效时,立即接管那部分区域。系统中每个节点定期发送s o f t s t a t e 消息,以通知邻居节点自己的存在。c a n 是一个具有良好可扩展性的系统,给定n 9 2p 2 p 技术综述硕士论文 个节点,系统维数为d ,则路由路径长度为o ( n d ) ,每个节点维护的路由表信息和网 络规模无关为o ( d ) 。 2 3 4 混合式p 2 p 网络 混合式p 2 p 网络吸取了中心化结构和全分布式拓扑的优点,选择性能较高( 处 理,存储,带宽等方面性能) 的节点作为超级节点( s u p e r n o d e ) ,在各个超级节点上 存储了系统中其他部分节点的信息,发现算法仅在超级节点之间转发,超级节点再 将查询请求转发给适当的叶子节点。混合式p 2 p 网络构成了一个层次式结构,超级 节点之间构成一个高速转发层,可采用d h t 方式组织,超级节点和所负责的普通节 点构成若干层次。混合式p 2 p 网络结合了集中式拓扑的易管理性与分布式拓扑的可 扩展性,在异构的p 2 p 网络环境下是一种较好的模式选择。通常的混合式p 2 p 系统数 据流图如图2 3 4 1 所示,其中最典型的案例就是f a s t t r a c k 7 k a z a a 引。 雀泡流 卜 下貔流 + 一一 图2 3 4 1 混合式p 2 p 网络查询流程 f a s t t r a c k 是非集中式的文件共享系统,支持元数据( m e t a d a t a ) 搜索。但与非 结构化的完全分布式p 2 p 网络不同,会选取一些拥有较大带宽,磁盘空间和较高处 理能力的节点作为超级节点。超级节点会缓存元数据信息,提供搜索功能。普通节 点将其共享的数据文件的元数据发送给超级节点。查询时,所有节点都发送查询信 息到超级节点。而后,仅在超级节点之间使用洪泛方式来转发查询消息。系统也可 以在没有超级节点的情况下运行,但查询花费的时间将增大,这样的架构提高了搜 索效率。k a z a a 是采用f a s t t r a c k 协议的一个成功应用。2 0 0 3 年8 月3 0 日,k a z a a 网络 拥有4 5 百万用户,7 千兆兆字节的共享数据【4 3 1 。节点每次启动时先到服务器上注册, 并获得2 0 0 个超级节点的列表。然后,自动检查本机是否为超级节点,如果是,就 连到其它超级节点;如果不是,就选择一个超级节点作为父节点连接。建立节点连 接时,先使用u d p 包来探测超级节点列表中的可用连接,然后根据策略选择其中的 一个作为父节点,上传自己的共享文件信息。选择父节点的参数通常是超级节点的 负载和实际网络位置。网络位置的判断可以依据i p 地址的前缀、网络往返时间等。 1 0 硕士论文p 2 p 流量识别与控制系统设计研究 2 4p 2 p 关键技术 p 2 p 的关键技术总体可以分为资源管理查找和对等端p e e r 至u 对等端p e e r 的直接 传送。资源管理查找涉及到资源标识( 文件名、u i d 、u s e r h o s t r e s o u r c e ) 、节点 定位( 服务器模式、路由模式、洪泛模式) 和a d h o c 等。这些技术都和其网络结构、 协议有密切的关系。p 2 p 的典型特征是无中心,在最初的p 2 p 刚刚出现时是集中目录 式结构,理论上不是纯粹的p 2 p 的网络结构。随着其技术的不断发展在第二代p 2 p 出 现了完全没有中央控制节点的网络结构。但是由于前两种网络结构分别存在着自己 的一些缺陷,所以目前的p 2 p 是两层甚至三层的结构,它结合了前两种网络结构的 优点,分为普通节点( o n ) 和超级节点( s n ) ,每个超级节点s n 连接数个普通节点o n , 而s n 之间有可以相互连接,这样搜索响应排队时间较短,同时某一节点出了问题 不至于网络受到很大的影响。p 2 p 的协议众多,每一种协议对应的客户端以及其路 由算法也不相同。p 2 p 一般包括如下三种节点方式: 1 、集中方式索引 每一个节点将自身能够提供共享的内容注册到一个或几个集中式的目录服务 器中。查找资源时首先通过服务器定位,然后两个节点之间再直接通讯。例如早期 的n a p s t e r ,这类网络实现简单,但往往需要大的目录服务器的支持,并且系统的健 壮性不好。 2 、广播方式 没有任何索引信息,内容提交与内容查找都通过相邻接节点直接广播传递,例 查1 g n u t e l l a 。一般情况下,采取这种方式的p 2 p 网络对参与节点的带宽要求比较高。 3 、动态哈希表的方式 动态哈希表( d i s t r i b u t e dh a s ht a b l e ,d h t ) 是大多数p 2 p 网络所采取的资源定位 方式。首先将网络中的每一个节点分配虚拟地址( v i d ) ,同时用一个关键字( k e y ) 来 表示其可提供的共享内容。取一个哈希函数,这个函数可以将k e y 转换成一个哈希 值h ( k e y ) 。网络中节点相邻的定义是哈希值相邻。发布信息的时候就把( k e y 、v i d ) 二元组发布到具有和h ( k e y ) 相近地址的节点上去,其中v i d 指出了文档的存储位置。 资源定位的时候,就可以快速根据h ( k e y ) 至l j 相近的节点上获取二元组( k e y ,v i d ) , 从而获得文档的存储位置。不同的d h t 算法决定了p 2 p 网络的逻辑拓扑,比! h c a n 就是一个n 维向量空间,而c h o r d 是一个环形拓扑,t a p e s t r y 贝0 是一个网状的拓
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 日照市莒县中小学美术教师招聘考试试题及答案
- 2025年机务检修考试试题及答案
- 2025年铁路机务试题及答案
- 高企调账合同模板(3篇)
- qc知识考试试题及答案
- 现代农业企业代理记账服务合同
- 文化产业项目投资担保合同模板
- 消费电子行业商标许可及技术创新协议
- 剑桥数学专业测试题及答案
- 园长专业考试试题及答案
- 公路养护技术管理与实施细则
- 2025-2026学年北师大版数学小学三年级上册(全册)教案设计及教学计划
- 【桂美版】六年级美术上册-六年级(桂教版)上册美术教案(详案)全
- GB/T 17238-2022鲜、冻分割牛肉
- 第四章集装箱箱务管理
- 高尔夫人群消费及行为习惯调研报告-课件
- 天气预报的发展历程课件
- 2022年国家公务员考试申论真题及答案(地市级)
- 西方法律思想史教案课件
- 电镀基础知识介绍-课件
- 公路工程项目管理(第三版)全套课件
评论
0/150
提交评论