




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)基于统计特征的p2p流量识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
张赞基于统计特征的p 2 p 流量识别技术研究 摘要 p 2 p 是近年来互联网最热门的技术之一,在v o i p 、文件下载、流媒体、协调计 算等领域得到飞速发展。p 2 p 应用对网络带宽资源消耗巨大,据统计p 2 p 业务的带 宽占用比率大致是4 0 6 0 ,在极端情况下会占用8 0 9 0 ,对w e b 、e m a il 等 其他网络服务构成了严重威胁,并且由于p 2 p 应用的吞噬特性,仅仅增大带宽并 不能缓解网络拥挤状况。为保障正常业务的运行,i s p 、企业网、校园网纷纷希望 在网络繁忙时段能够对占用大量带宽的p 2 p 应用加以限制,p 2 p 流量的准确识别是 这一愿望得以实现的前提。 本文从研究背景出发,介绍了p 2 p 的定义与特点、p 2 p 的工作原理以及p 2 p 的 典型应用,并对其中主要部分进行相关分析,研究了由于自身特点给网络环境带 来的一些问题,明确了监控p 2 p 流量对网络正常运行的必要性,由此引出p 2 p 流 量识别的重要性。接着对p 2 p 流量识别的各个主要技术进行简要的介绍,概要的 分析了三大主要识别技术的优缺点和经典文献,从算法的时空复杂度和p 2 p 流量 本身的特性两点上,本文得出基于统计特征的识别方法的优越性。 为了全面的分析各个p 2 p 流量识别方法的特点,本文依据统计特征的差异性综 述了p 2 p 流量识别方法,我们指出p 2 p 流量识别方法分为基于人工经验的和基于 机器学习方法两个大类。其中,基于人工经验的识别方法依据所采用的统计特征 的不同又可加以细分,本文所归纳的统计特征有:i p 端口对特征、网络直径特征、 节点角色特征、传输层类型和上传下载比率特征。基于人工经验的识别方法能够 依据单一或者多个统计特征,对离线p 2 p 数据集进行批处理式的扫描,识别准确 率较高,然而,由于没有权威数据集的支撑,大多数方法仅依靠人工进行统计分 析,其分析结果受方法的约束较大。基于机器学习的识别方法正是针对这一问题 所提出的,也是目前研究的特点。把统计特征与机器学习算法相结合,能够利用 统计特征的准确性和机器学习算法的稳定高效性。本文所归纳的机器学习算法有: 支持向量机、神经网络、决策树以及相关流挖掘算法。 为了验证统计特征与机器学习算法结合识别的有效性,本文指出传统学习方法 由于内存限定的局限性,无法在超过限定内存的情况下继续进行流量识别。本文 通过结合统计特征和快速决策树识别方法,来解决快速到达的在线流数据,实验 表明,该方法与传统决策树方法c 4 5 相比,在不损失准确率的前提下,保证了大 量数据的持续识别。 为了解决在概念漂移环境下,结合统计特征与机器学习算法进行识别的正确 i i扬州火学硕士学位论文 性,本文指出传统机器学习方法由于假定实验数据平稳分布,无法在具有概念漂 移的环境中对大量数据进行有效识别。本文通过结合统计特征和概念自适应快速 决策树识别方法,来解决具有概念漂移的在线数据识别,实验表明,该方法与增 量决策树学习算法v f d t 相比,提高了识别的正确率,并且维持了较好的算法复 杂度。 最后本文对p 2 p 流量识别系统进行了研究。p 2 p 流量识别系统由流量采集、数 据预处理和流量识别三个模块组成,本文分别对每个模块进行了简要的分析。 关键词:统计特征;p 2 p 流量;流数据挖掘;机器学习;决策树;概念漂移 张赞基于统计特征的p 2 p 流量识别技术研究i i i a b s t r a c t p 2 pi so n eo ft h em o s tp o p u l a ri n t e m e tt e c h n o l o g i e si nr e c e n ty e a r s i ti sw i d l yu s e d i nm a n yf i e l ds u c ha sv o i p , f i l ed o w n l o a d i n g ,s r e a mm e d i a , c o o r d i n a t i o nc a l c u l a t i o n a n ds oo n b u tp 2 pa p p l i c a t i o n so c c u p yt o om u c hn e t w o r kb a n d w i d t hr e s o u r c e s s t a t i s t i c si n d i c a t e dt h a tt h ep e r c e n to fb a n d w i d t ho c c u p a t i o ni sb e t w e e n4 0p e r c e n ta n d 6 0p e r c e n t ;e v e nr e a c h8 0p e r c e n ti ns o m ee x t r e m ec a s e s n en e e d i n go fb a n d w i d t ho f p 2 pa p p l i c a t i o ni sa l m o s t l yi n f i n i t e ,s oi tw i l lp o s eat h r e a tt oo t h e rn o r m a ln e t w o r k a p p l i c a t i o na n do n l ye n l a r g i n gt h eb a n d w i d t hc a n tr e l e a s en e t w o r kc o n g e s t i o n a i m i n g a te n s u r i n gt h en e t w o r ks e r v i c eo fn o r m a la p p l i c a t i o n s ,i s pp r o v i d e r , e n t e r p r i s en e t w o r k a n dc a m p u sn e t w o r kw i s ht ol i m i tt h ep 2 pa p p l i c a t i o nw h i c ho c c u p i e dt o om u c h b a n d w i d t hw h e nt h en e t w o r ki si nb u s yt i m e i d e n t i f y i n gt h ep 2 pt r a f f i cc o r r e c t l yi st h e p r e m i s eo ft h a tw i s h o nt h eb a c k g r o u n do fr e s e a r c h ,t h i s p a p e r i n t r o d u c e dt h ed e f i n i t i o na n d c h a r a c t e r i s t i c so fp 2 p ,t h ep r i n c i p l eo fo p e r a t i o no fp 2 pa n dm a n yk i n d so fc l a s s i cp 2 p a p p l i c a t i o n s t h ep a p e ra n a l y s e dm a i np a n so fp 2 pa p p l i c a t i o n s t u d i e ds o m ep r o b l e m i nt h en e t w o r kw h i c hc a m ef r o mp 2 p ss e l fm e c h a n i s ma n dm a k ei tc l e a rt h a ti ti s n e c e s s a r yt om o n i t o rp 2 pt r a f f i cf o rt h eh e a l t h yo fn o r m a ln e t w o r ka p p l i c a t i o n s t h e n p a p e ri n t r o d u c e dt h em o s tp o p u l a rp 2 pt r a f f i ci d e n t i f i c a t i o nt e c h n o l o g yr e s p e c t l y , a n a l y s e dt h ea d v a n t a g ea n dd i s a d v a n t a g eo ft h r e em a i ni d e n t i f i c a t i o nt e c h n o l o g ya n d t h e i rr e l e v a n tl i t e r a t u r e sp a p e rc o n c l u d e dt h ea d v a n t a g eo fi d e n t i f i c a t i o nm e t h o d b a s e do ns t a t i s t i c a lb e h a v i o rf r o mt w o a s p e c t s ,t h ea l g o r i t h m sc o m p l e x i t yo ft i m i n ga n d s p a c ea n dt h eo w n c h a r a c t e r so fp 2 pt r a f f i c f o rt h ep u r p o s eo fa n a l y s i n gt h ef e a t u r e so fe v e r yp 2 pt r a f f i ci d e n t i f i c a t i o nm e t h o d c o m p l e t e l y , t h i sp a p e rs u m m a r i z e dp 2 pt r a f f i ci d e n t i f i c a t i o nm e t h o d sb a s e do nt h e v a r i a b i l i t yo fs t a t i s t i c a lb e h a v i o r i nt h i sp 印e r ,p 2 pt r a f f i ci d e n t i f i c a t i o nm e t h o d sa r e d i v i d e di n t ot w op a r t s o n ei st h ei d e n t i f i c a t i o nm e t h o d sb a s e do nm a n u a le x p e r i e n c e s t h eo t h e ri sb a s e do nm e c h i n el e a r n i n gm e t h o d s t h em e t h o d sb a s e do nm a n u a l e x p e r i e n c e sa l s oc a nb ed e v i d e di n t om a n yp a r t sb a s e do nd i f f e r e n ts t a t i s t i c a lb e h a v i o r s u c ha si p _ p o r tp a i r , n e t w o r kd i a m e t e r , n o d e sd u a lr o l e ,t h et y p eo ft r a n s p o r tl a y e ra n d t h et r a f n cr a t i oo f u p l o a da n dd o w n l o a d t 1 1 em e t h o d sb a s e do nm a n u a le x p e r i e n c e sc a n s c a nt h eo f f i i n ep 2 pd a t as e ti nt h eb a t c hm o d eb a s eo ns i n g l eo rm a n ys t a t i s t i c a l b e h a v i o r s i t sa c c u r a c yr a t i n gi sg o o d b u tb e c a u s e o fl a c k i n go fs u p p o r t i n go f c o m p e t e n td a t as e t ,m o s to fm e t h o da n a l y s et h et r a f f i co n l yr e l y i n go nm a n u a l ,a n dt h e a n a l y s i n gr e s u l tw i l lb er e s t r i c t e db yt h em e t h o d s a i m i n gt h i sp r o b l e m ,t h em e t h o d i v 扬州大学硕十学位论文 b a s e do nm e c h i n el e a r n i n gi sp r o p o s e d n o wi ti st h er e s e a r c hh o t s p o t c o m b i n i n gt h e s t a t i s t i c a lb e h a v i o ra n dm e c h i n el e a r n i n gc a ng e tt h ea c c u r a c yf e a t u r eo fs t a t i s t i c a l b e h a v i o ra n dt h ee f f e c t i v e l yo fm e c h i n el e a r n i n g t h i sp a p e rc o n c l u d e dm a n ym e c h i n e l e a r n i n gm e t h o d ss u c ha ss v m ( s u p p o r tv e c t o rm a c h i n e ) ,n e u r a ln e t w o r k ,d e c i s i o n t r e ea n ds t r e a md a t am i n i n gm e t h o d s a i m i n ga tp r o v i n gt h ea v a i l a b i l i t yo fm e t h o db a s e do nb o t hs t a t i s t i c a lb e h a v i o ra n d m e c h i n el e a r n i n g ,t h i sp a p e ri n d i c a t e dt h a tb e c a u s eo ft h el i m i t a t i o no fm e m o r y , t h e t r a d i t i o n a ld e c i s o nt r e em e t h o dc a n ti d e n t i f yp 2 pt r a f f i cc o n t i n u o u s l yw h e nt h es i z eo f t r e eb e y o n dt h em e m o r yt h r e s h o l d t l l i sp a p e rs o l v e dt h i sp r o b l e mb yc o m b i n i n gt h e s t a t i s t i c a lb e h a v i o ra n dv f d t ( v e r yf a s td e c i s i o nt r e e ) m a c h i n el e a r n i n gm e t h o d t h e e x p e r i m e n ts h o w st h a tt h i sm e t h o dc a l le n s u r ei d e n t i f yl a r g e 。s c a l et r a 伍cc o n t i n o u s l yo n t h ec o n d i c t i o no fr e a c h i n gt h ea c c u r a c yw h i c hi sc l o s et ot r a d i t i o n a lc 4 5m e t h o d a i m i n ga ts o l v i n gt h ec o r r e c t n e s so fm e t h o db a s e do nb o t hs t a t i s t i c a lb e h a v i o ra n d m e c h i n el e a r n i n gi nt h ee n v i r o n m e n to fc o n c e p t 损越n g ,t h i sp a p e ri n d i c a t e dt h a t t r a d i t i o n a lm a c h i n el e a r n i n gs u p p o s e dt h et r a f f i ci ss t a t i o n a r yd i s t r i b u t i o nw h i l et h e r e a l mi n t e m e tt r a f f i ci sn o t 删i t i o n a lm e t h o d sc a n ti d e n t i f yl a r g e s c a l ed a t ac o r r e c t l y a n di n c r e m e n t a l l yi nt h ee n v i r o n m e n to fc o n c e p td r i f t i n g f o rt h ep u r p o s eo fi d e n t i f y i n g o n l i n es t r e a md a t a 谢t hf e a t u r eo fc o n c e p td r i f t i n g ,t h i sp a p e rc o m b i n e ds t a t i s t i c a l b e h a v i o ra n dc v f d t ( c o n c e p ta d a p t i v ev e 巧f a s td e c i s i o nt r e e ) m e c h i n el e a r n i n g m e t h o d t h ee x p e r i m e n ti n d i c a t e dt h a tc o m p a r i s i n gw i t hv f d tm e t h o d ;t h i sm e t h o d e n h a n c e dt h ei d e n t i f i c a t i o na c c u r a c ya n de n s u r e dab e r e rt i m i n ga n ds p a c ec o m p l e x i t y a tl a s t t h i sp a p e rs t u d i e da n di m p l e m e n t e dap 2 pt r a f f i ci d e n t i f i c a i o ns y s t e m n i s s y s t e mi sc o n s i s t e do ft h r e em o d u l e ss u c ha st r a 伍cs a m p l e d a t ap r e p r o c e s sa n dt r a f f i c i d e n t i f i c a t i o n t i l i sp a p e ra n a l y s e de v e r ym o d u l er e s p e c t l y k e y w o r d s :s t a t i s t i c a lc h a r a c t e r i s t i c s ;p 2 pt r a f f i c ;f l o wd a t am i n i n g ;m a c h i n el e a r n i n g ; d e c i s i o nt r e e :c o n c e p td r i r 张赞基于统计特征的p 2 p 流量识别技术研究 5 5 扬州大学学位论文原创性声明和版权使用授权书 学位论文原创性声明, 本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取得的研 究成果。除文中已经标明引用的内容外,本论文不包含其他个人或集体已经发表 的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律结果由本人承担。 学位论文版权使用授权书 学位论文作者签名: 旅砖 签字日期: 2 p i o 年s 月f f 日 本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交学位论文的复印件和电子文档,允许论文被查阅和借阅。 本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学 技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 学位论文作者签名:散落 导师签名:剜、夏。乱 签字日期: 2 爿9 年s 月l 引j签字日期:2 4 0 年s 月1 6 日 张赘基于统计特征的p 2 p 流量识别技术研究 1 1 研究背景 第1 章绪论 p 2 p ( p e e r - t o p e e r ) 近年来广受计算机业界的关注,其本质思想在于打破传统 的客户j j 臣务器模式,让一切网络成员享有自由、平等、互联的功能,不再有客户、 服务器之分,任何两个网络结点之间都能共享文件、传递消息。由于p 2 p 网络独 立性、分布式以及具有互操作性强的特点,所以不断得到发展,不断涌现出新的 p 2 p 应用和协议,增长速度十分快速。如今,p 2 p 应用已逐渐成为互联网应用的重 要组成部分。随着p 2 p 网络结构的发展,p 2 p 应用经历了从第一代的n a p s t e r ,第 二代的k a z a a 、g n u t e l l a 到第三代的b i t t o r r e n t 的发展过程。同时,国内基于p 2 p 技术的网络应用也迅速发展起来。从b t 、e m u l e 等为代表的p 2 p 网络下载软件, 创造了飞速下载的辉煌,较之传统的网络下载技术有了巨大的飞跃。到近几年, 以p p l i v e 等为代表的,火热发展的网络视频技术依然离不开p 2 p 网络应用。 虽然p 2 p 文件共享和下载应用给用户带来了很大便利。然而,随着它的大面积 流行,p 2 p 下载流量占用带宽接入的大量资源,互联网通信的瓶颈已经从服务器回 到了网络传输设备上,这对于以太网接入共享宽带的用户来说,提出了很大的挑 战。据统计,在一些地方,i n t e m e t 超过7 0 以上的流量被p 2 p 相关应用占据,成 为网络带宽最大的消费者。p 2 p 业务不断增加,造成了网络资源的巨大消耗,甚至 引起网络拥塞,对其它正常网络业务,如w e b 、f t p 、e m a i l 等的性能造成极大的 影响,也可能引起很多潜在的安全性问题,很多公司和学校不得不封杀p 2 p 端口 来阻止p 2 p 视频、音频文件传输。因此无论从i s p 的角度还是从企业网络管理人 员的角度,都希望能够将p 2 p 流量有效的识别出来,从而便于网络的规划与管理。 对于一个企业而言,可以限定p 2 p 流量不超过某个阈值,从而能够为其他重要的 应用提供一定程度上的q o s 保证;或者为了网络管理的需要,直接在内部将p 2 p 流 量过滤掉。而对于i s p 而言,可以在此基础上对服务进行控制以及对用户进行管 理等。但是当前识别p 2 p 的一个主要挑战就是以一种可扩展的方式识别出p 2 p 流 量,同时不要求对所有的分组进行深层分组检查( d p i ,d e e pp a c k e ti n s p e c t i o n ) 。 为了控制网络p 2 p 应用对带宽的大量占用,必须首先对p 2 p 流量进行有效地 监控,它涉及到下面几个方面的问题:流量采集、流量识别以及流量控制。在其 中,流量的采集与其他网络监测方式采用的技术完全一致,流量控制则取决不同 2 扬州大学硕士学位论文 的网络管理策略,由网络管理人员进行相应的设置,例如进行p 2 p 流量限制或者 完全过滤p 2 p 流量等。因此,这里的关键部分是流量的识别操作。根据实现思想 不同,可以将它分为多种类型,如基于分组分析、基于流分析等。其实现方式直 接关系到整个监控系统的实现效率以及系统的可用性。 针对p 2 p 应用带来的上述问题,如何从网络中有效识别出p 2 p 流量,如何实 现分类、标识和控制p 2 p 流量,进而达到网络q o s 需求、进行网络监控、实现负 载均衡的目标等等,越来越成为企业、网络运营商急需解决的问题。 1 2p 2 p 概述 1 2 1p 2 p 的定义与特点 p 2 p ( p e e rt op e e r ) 即对等计算或对等网络,通常简称为p 2 p ,可以简单地定 义为通过直接交换,共享计算机资源和服务【l j 。在p 2 p 网络环境中,成千上万台彼 此连接的计算机都处于对等的地位,整个网络一般来讲不依赖于专用集中服务器。 网络中的每一台计算机既能充当服务的请求者,又能对其他计算机的请求做出响 应,提供资源与服务。通常这些资源和服务包括信息的共享与交换、计算资源的 共享使用、存储资源的使用等。因此,它能够极大程度地提高网络效率,充分利 用网络带宽,开发每个网络结点的潜力。图1 1 反映出从c s 到p 2 p 的转变,p e e r s 之间的逻辑连接构建在物理连接的基础上。p 2 p 的特点为【2 】: e n t 图1 1c s 到p 2 p 结构的转变 ( 1 ) 分散化 网络中的资源和服务分散在所有节点上,信息的传输和服务的实现都直接在节 点之间进行,可以无需之间环节和服务器的介入,避免了可能的瓶颈。即使是在 混合p 2 p 中,虽然在查找资源、定位服务或安全检验等环节需要集中式服务器的 张赞基于统计特征的p 2 p 流量识别技术研究3 参与,但主要的信息交换最终仍然在节点中间直接完成。这样就大大降低了对集 中式服务器的资源和性能要求。在c s 模式中,客户只能与服务器交换信息,如 果两个客户之间要传送一个文件,通常是首先将文件传到服务器,然后由服务器 传给另一个客户,这在无形中增加了一个不必要的环节。如果服务器忙,文件传 送将变得十分缓慢,更严重的情况下如果服务器故障,文件将没有办法传送,p 2 p 模式与传统的c s 模式最大的区别在于没有集中式的控制,任意两个结点之间交 换信息不需要经过一个固定的服务器。分散化是p 2 p 的基本特点,由此带来了其 在可扩展性、健壮性等方面的优势。 ( 2 ) 可扩展性 在传统的c s 架构中,系统能够容纳的用户数量和提供服务的能力主要受服务 器的资源限制。为支持互联网上的大量用户,需要在服务器端使用大量高性能的 计算机,铺设大带宽的网络。为此机群、c l u s t e r 等技术纷纷上阵。在此结构下,集 中式服务器之间的同步、协同等处理产生了大量的开销,限制了系统规模的扩展。 而在p 2 p 网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和 服务能力也在同步地扩充,始终能较容易地满足用户的需要。即使在诸如n a p s t e r 等混合型架构中,由于大部分处理直接在节点之间进行,大大减少了对服务器的 依赖,因而能够方便地扩展到数百万个以上的用户。而对于纯p 2 p 来说,整个体 系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。p 2 p 可扩 展性好这一优点已经在一些得到应用的实例中得以证明,如n a p s t e r 3 1 ,g n u t e l l a l 4 1 , f r e e n e t 5 】等。 ( 3 ) 健壮性 在互联网上随时可能出现异常情况,网络中断、网络拥塞、节点失效等各种异 常事件都会给系统的稳定性和服务持续性带来影响。在传统的集中式服务模式中, 集中式服务器成为整个系统的要害所在,一旦发生异常就会影响到所有用户的使 用。而p 2 p 架构则天生具有耐攻击、高容错的优点。由于服务是分散在各个节点 之间进行的,部分节点或网络遭到破坏对其它部分的影响很小。而且p 2 p 模型一 般在部分节点失效时能够自动调整整体拓扑,保持其它节点的连通性。事实上, p 2 p 网络通常都是以自组织的方式建立起来的,并允许节点自由地加入和离开。一 些p 2 p 模型还能够根据网络带宽、节点数、负载等变化不断地做自适应式的调整。 ( 4 ) 隐私性 随着互联网的普及和计算存储能力飞速增长,收集隐私信息正在变得越来越 容易。隐私的保护作为网络安全性的一个方面越来越被大家所关注。目前的i n t e m e t 4 扬州大学硕十学位论文 通用协议不支持隐藏通信端地址的功能。攻击者可以监控用户的流量特征,获得 i p 地址。甚至可以使用一些跟踪软件直接从i p 地址追踪到个人用户。在p 2 p 网络 中,由于信息的传输分散在各节点之间进行而无需经过某个集中环节,用户的隐 私信息被窃听和泄漏的可能性大大缩小。此外,目前解决i n t e m e t 隐私问题主要采 用中继转发的技术方法,从而将通信的参与者隐藏在众多的网络实体之中。在传 统的一些匿名通信系统中,实现这一机制依赖于某些中继服务器节点。而在p 2 p 中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性 和可靠性,能够为用户提供更好的隐私保护。 ( 5 ) 高性能 性能优势是p 2 p 被广泛关注的一个重要原因。随着硬件技术的发展,个人计算 机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。而在目前的互 联网上,这些普通用户拥有的节点只是以客户机的方式连接到网络中,仅仅作为 信息和服务的消费者,游离于互联网的边缘。对于这些边际节点的能力来说,存 在极大的浪费。采用p 2 p 架构可以有效地利用互联网中散布的大量普通节点,将 计算任务或存储资料分布到所有节点上。利用其中闲置的计算能力或存储空间, 达到高性能计算和海量存储的目的。这与当前高性能计算机中普遍采用的分布式 计算的思想是一致的。但通过利用网络中的大量空闲资源,可以用更低的成本提 供更高的计算和存储能力。 1 2 2p 2 p 的工作原理 从p 2 p 设计思想出发,兼顾体系结构和出现时间两个方面,将p 2 p 应用的结 构分成四代1 6 j : ( 1 ) 集中式结构 集中式p 2 p 网络形式上有一个中心服务器来负责记录共享信息以及回答对这 些信息的查询。每一个对等实体对它将要共享的信息以及进行的通信负责,根据 需要下载它所需要的其他对等实体上的信息。这种形式具有中心化的特点,但是 它不同于传统意义上的c l i e n t s e r v e r ( 客户端服务器) 模式。传统意义上的 c l i e n t s e r v e r 模式采用的是一种垄断的手段,所有资料都存放在服务器上,客户端 只能被动的从服务器上读取信息,并且客户端之间不具有交互能力。而集中式p 2 p 网络则是将所有网上提供的资料都分别存放在提供该资料的客户端上,服务器只 保留索引信息,此外服务器与对等实体以及对等实体之间都具有交互能力。采用 集中式p 2 p 形式的软件被称为第一代p 2 p ,其代表性软件为n a p s t e r 。 张赞基于统计特征的p 2 p 流量识别技术研究 图1 2 是n a p s t e r 的工作原理图,n a p s t e r 网络由两个部分组成:n a p s t e r 网站和 n a p s t e r 用户。n a p s t e r 网站( n a p s t e rw 曲s i t e ) 是一个服务器群。每个服务器保存 一部分用户的共享文件信息,所有的服务器互联、整合起来对网站外面的n a p s t e r 用户提供统一的访问接口,在每个用户看起来他们访问的都是同一个服务器。每 个n a p s t e r 用户( p e e r ) 连接到机群中的一台服务器,他将愿意与其他用户共享的文 件信息发送给服务器( s e r v e r ) ,服务器记录这些信息以及该用户的位置,并将它们 做成一条索引添加到原有索引表中。当用户想要查询一个文件时,首先将“查询” 消息发送给与其相连的服务- 器:( q u e r y ) ,该服务器受到q u e r y 以后,与其他服务器 协作处理查询消息q u e r y ,处理完后将“回复”消,自l , ( r e s p o n s e ) 返回给用户,这条消 息包含一个表单,列有所查到的所有匹配的文件索引。受到r e s p o n s e 以后,用户 在表单中选择他想要的文件,根据文件索引中对应的位置与其他用户直接建立连 接下载文件( d o w n l o a d ) 。n a p s t e r 网站一方面维护所有n a p s t e r 用户的共享文件索引, 另一方面监控系统中每个用户的状态,比如跟踪记录用户所报告的连接带宽和用 户已连入n a p s t e r 网络的时间,以及发现哪些用户已经掉线等。 图1 2n a p s t e r 工作原理图 n a p s t e r 的缺陷有c s 的残余:n a p s t e r 网络是c s 与p 2 p 模式混合的结构, 虽然本质的文件交换是p 2 p 的,但是文件查询和系统维护都依靠n a p s t e r 服务器, 也就不可避免地带来了系统瓶颈、服务器单点失效、可扩展性低等问题。过于 松散的组织管理:n a p s t e r 赋予它所有的用户平等的功能,却没有考虑到它们能力 上的差异,同时系统缺乏鼓励用户报告正确的信息和提供文件与别人共享的机制, 使得n a p s t e r 不能真正高效地工作。 ( 2 ) 完全分布式非结构化 完全分布式非结构化拓扑的p 2 p 网络采用了随机图的组织方式来形成一个松 散的网络,其典型网络结构如图1 3 所示。这种结构对网络的动态变化有较好的容 6 扬州大学硕十学位论文 错能力,因此具有较好的可用性。同时,这种结构复杂查询。在完全分布式非结 构化拓扑的p 2 p 网络模型中,每个节点都具有相同的功能,既是客户端又是服务 器,因而节点也被称为对等点。这种拓扑的优点是网络配置简单,不需要服务器 的支持,在网络规模较小的时候具有很高的查询效率。但由于在这种拓扑的网络 中多采用洪泛的方式查询和定位资源,随着联网节点的增加,网络规模不断增大, 从而给网络带来了沉重的网络负载。而且由于没有确定的拓扑,这种形式的网络 无法保证查找资源的确定性,即可能会漏过网络中的一些资源。另一个问题是由 于采用了t t l ( t i m et ol i v e ,生存时间) 、洪泛、随机漫步或有选择转发算法, 这个拓扑的网络直径不可控,可扩展性较差。 图1 3 典型的完全分布式非结构化p 2 p 网络 完全分布式非结构化拓扑的p 2 p 网络的典型代表是g n u t e l l a 。c m u t e l l a 是一个 p 2 p 文件共享系统,它和n a p s t e r 最大区别在于g n u t e l l a 没有中心服务器,它采用 了完全随机图的洪泛式搜索和随机转发机制。为了控制搜索消息的传输,g n u t e l l a 网络采用类似口数据包中t t l 的机制来决定是否继续转发消息。图1 4 是g n u t e l l a 体系的工作原理图,g n u t e l l a 网络中只有一种节点对等实体( p e e r ) ,不再有服务 器存在。每个p e e r 既是客户又是服务器,既能向其他p e e r 发送查询请求并获得查 询结果,又能接收其他p e e r 发来的查询请求、返回所要的文件信息或者将此请求 路由给其他的p e e r , 所以g n u t e l l a 开发者称p e e r 为s e r v e n t 。除此之外,g n u t e l l a 中 每个p e e r 还负责监控网络局部的通信状态,互相协作以保持整个网络的完整性与 一致性。 张赞基丁统计特征的p 2 p 流量识别技术研究7 图1 4g n u t e l l a 工作原理图 g n u t e l l a 与n a p s t e r 的不同点有前者没有服务器而后者有,所以两者网络结 构的组织与查询、回复的机制完全不同。就网络结构而言,n a p s t e r 是混合式星 形结构、集中式与分布式相结合的网络,它混合了c s 模式与p 2 p 模式;而g n u t e l l a 是无结构的、纯分布的网络,它不带有c s 模式的残余,是纯粹意义上的p 2 p 网 络,并且g n u t e l l a 在因特网上构建了覆盖网,这是后来的p 2 p 网络都会做的一项 基础性工作。就工作机制而言,n a p s t e r 中查询、回复和网络维护完全依靠服务 器;而g n u t e l l a 则完全依靠p e e r 间的协作。就容错性而言,n a p s t e r 只在服务 器故障时出错,g n u t e l l a 则可能因为结点信息过于陈旧导致的功能失效而出错,但 最严重的问题是多个结点同时失效而导致网络分割成几个不相交的子网。 ( 3 ) 完全分布式结构化 由于非结构化拓扑的p 2 p 网络中随机搜索造成的不可扩展性,人们将目光转向 结构化p 2 p 网络,基于d h t ( d i s t r i b u t e dh a s ht a b l e ,分布式散列表) 7 1 的分布式 发现和路由算法。这种算法避免了类似n a p s t e r 的中心服务器,也不像g n u t e l l a 那 样基于广播进行查找,而是通过分布式散列函数将输入的关键字唯一映射到某个 节点上,然后通过一些特定路由算法和该节点建立连接。 分布式散列表是又广域范围的大量结点共同维护的巨大散列集。散列集被分割 成不连续的块,每个节点都被分配一个属于自己的散列块,并维护这个散列块。 d h t 的节点既是动态的,也是数量巨大的,因此非中心化和自组织成为两个重要 的设计目标。在d h t 技术中,网络节点按照一定的方式分配一个唯一节点标识符 ( n o d ei d ) ,资源对象通过散列运算产生一个唯一的资源标识符( o b j e c ti d ) ,且 该资源将存储在节点i d 与之相等或相近的节点上。需要查找该资源时,采用同样 的方法可定位到存储该资源的节点。 c h o r d f 8 】是最简单、最精确的环形p 2 p 模型,在p 2 p 领域指带弦环拓扑结构的 8 扬州人学硕士学位论文 分布式散列表,它是结构化p 2 p 领域最著名的理论模型。c h o r d 通过安全散列函数 ( 如s h a 1 ) 给每个网络节点和每个数据对象分配唯一的i d ,即n o d e i d = h ( n o d e 属性) ,h 为散列函数,n o d e 属性可以是结点i p 地址、端口号、公钥、随机数或者 它们的组合:o b j e c t 属性) , 属性可以是数据对象的名称、内容、i d = h ( o b j e c to b j e c t 大小、发布者等或者它们的组合。s h a 系列散列函刻9 j 的h a s h 值长度m 通常大于 等于1 6 0 ,如此长的位数保证了i d 几乎不可能出现重复,所以认为是唯一的。 ( 4 ) 混合式结构 集中式p 2 p 形式有利于网络资源的快速检索,以及只要服务器能力足够强大就 可以无限扩展,但是其中心化的模式容易遭到直接的攻击,分布式p 2 p 形式解决 了抗攻击问题,但是又缺乏快速搜索和可扩展性。混合式p 2 p 形式结合了集中式 和分布式p 2 p 形式的优点,在设计思想和处理能力上得到进一步优化。它在分布 式模式的基础上,将用户节点按能力进行分类,使某些节点担任特殊的任务。 s k y p e 1 0 】通信软件就使用了混合式p 2 p 网络模式。通常的混合式p 2 p 系统结构图如 图1 5 所示。混合式p 2 p 网络总共包含3 种节点,分别是用户节点、搜索节点和索 引节点。普通的节点就是用户节点,它不具有任何特殊的功能。搜索节点处理搜 索请求,从它们的孩子节点中所搜文件列表。连接速度快、内存充足的节点可以 作为索引节点。索引节点保存可以利用的搜索节点信息、搜集状态信息以及尽力 维护网络的结构。一个节点可以既是搜索节点又是索引节点。 图1 5 混合式p 2 p 网络结构 第三代p 2 p 的软件体系结构,采用了混合p 2 p 形式。这种形式的关键之一是 引入了索引节点,索引节点不会直接连接到有版权的资料,只是搜索和所需资料 相关的地址,至于用户到底连接下载了什么内容和它无关。这种形式的关键之二 是引入搜索节点,搜索节点管理着所属用户的文件列表。用户节点通过索引节点 获得搜索节点信息,之后用户节点就与获得的搜索节点相连,每一次查询都通过 张赞基于统计特征的p 2 p 流量识别技术研究9 该搜索节点进行。 第四代p 2 p 体系结构在原有技术的基础上作了改进,提出和改进了一些新技术 措施: ( 1 ) 动态端口选择 传统p 2 p 应用般采用固定端口,但是许多公司引入可动态选择端口的协议, p 2 p 应用的端口号一般在1 0 2 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 希望之星笔试题及答案
- 吸氧健康宣教试题及答案
- 英语4级试卷及答案
- 食品安全培训知识
- 2025年CREV考试趋势分析与备考策略
- 2025年产品运营经理高级面试模拟题集及答案
- 食品厂员工卫生知识培训课件
- 2025年初印象设计师专业技能考核大纲及备考指南
- 部门建设管理方案范本
- 林场工人转岗方案范本
- 开学第一课-小学高年级-主题班会课件-收心
- 酒店冷库进出管理制度
- 中职对口升学考试语文字音专项练习模拟试题库
- 江南大学实验动物中心大楼项目报告表
- 《孙子兵法》全文及译文
- 《经济法基础》 (第2章) 第二章 会计法律制度
- 防呆培训课件
- BSL实验室生物安全管理体系文件
- 电力系统安全运行与故障预警机制
- 企业员工工会建设计划
- 无人驾驶技术标准-洞察分析
评论
0/150
提交评论