已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)基于聚类分析的p2p流量识别算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
l l i i ii ii ii iii ii iii i ii il 、t18 8 4 0 9 3 r e s e a r c ho np e e r - t o p e e rt r a f f i ci d e n t i f i c a t i o na l g o r i t h mb a s e d o nc l u s t e ra n a l y s i s z h a ok a i b e ( h e b e iu n i v e r s i t yo f e c o n o m i c sa n db u s i n e s s ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro f e n g i n e e r i n g c o m p u t e ra p p l i c a t i o nt e c h n o l o g y c h a n g s h au n i v e r s i t yo fs c i e n c e t e c h n o l o g y s u p e r v i s o r a s s o c i a t ep r o f e s s o rs h ic h a n g q i o n g m a r c h ,2 0 11 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文足本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本 声明的法律后果由本人承担。 作者签名: 往留l 日期:y ,年岁月岁日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向困家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存和汇编本学位论文。 本学位论文属丁二 l 、保密口,在年解密后适用本授权书。 2 、不保密圈。 ( 请在以上相应方框内打“”) 作者签名: 恕彬 日期:矽,年j 月蜘 导师签名:j 匕长撂 i e ij 朝:2 0l1 年r 月2 石日 摘要 随着当代互联网应用的发展,p 2 p ( p e e r - t o p e e r ) 已经成为发展最快的网络应用之 一。由于p 2 p 技术具有文件共享、分布计算等优点,使得p 2 p 流量占据了网络流量大部 分的同时其技术也得到了广泛的应用。但p 2 p 技术所带来的网络拥塞和资源的过度占用 等一系列问题对于正常网络业务的发展是一种阻碍。为了保证网络正常有序的运行,有 必要对p 2 p 流量进行管理,这是在享受p 2 p 带来的便利的同时必须要考虑的一个问题。 然而,随着p 2 p 技术的飞速发展,p 2 p 应用为了避免自身被轻易察觉出来,纷纷采用了 各种技术如动态端口、协议字段加密等,p 2 p 流量识别技术也随之面临着严峻的挑战。 由于端口跳变,负载加密等流量隐藏技术的发展,利用应用端口和内容等的显式特征 p 2 p 流量识别方法已经逐步被淘汰。因此,实现p 2 p 流量的有效识别已经成为急需解决 的问题。 本文就基于聚类分析的p 2 p 流量识别问题展开了研究,其主要的研究工作和创新点 为: ( 1 ) 针对p 2 p 流量识别问题的研究背景和意义,国内外研究的现状,以及p 2 p 技 术的发展所带来的一系列问题,研究了当前存在的几种典型的p 2 p 流量识别方法,并分 析了这些识别方法在识别p 2 p 流量过程中的特点和存在的问题。 ( 2 ) 对p 2 p 流量的特征进行了比较深入的分析和研究,通过实验选取了五种能够 显著区分p 2 p 流量的属性特征,并提出将下载与上传速度比属性用于p 2 p 流量的识别中, 五种特征属性的结合在保留了p 2 p 流量特征中尽可能多的信息同时,最大程度的降低了 属性之间存在的较多冗余度,从而能够更有效更精确的识别p 2 p 流量。 ( 3 ) 给出了一种基于聚类分析的p 2 p 流星识别算法,该方法将数据集分解为子聚 类的集合以降低聚类问题的规模,并减少i o 处理的复杂度。同时,算法中加入的贝叶 斯信息判别准则能够选择出最佳的聚类模型,从而达到自动划分聚类数的目的,尽可能 的减少了识别过程中人为因素的影响。通过实验表明,该算法的准确性较高,并且误判 率较低。 关键词:聚类分析;p 2 p 流量识别;p 2 p 流量特征;b i r c h贝叶斯信息准则 a b s t r a c t w i t ht h ed e v e l o p m e n to fm o d e mi n t e m e ta p p l i c a t i o n s ,p 2 p ( p e e r - t o p e e r ) h a db e c o m e o n eo ft h ef a s t e s tg r o w i n gn e t w o r ka p p l i c a t i o n s b e c a u s eo ft h ea d v a n t a g e so ff i l es h a r i n ga n d d i s t r i b u t e dc o m p u t i n g ,p 2 pt e c h n o l o g yw a sw i d e l ya p p l i e di nr e c e n ty e a r s p 2 pt r a f f i ch a d b e c o m et h em a j o rp a r to fn e t w o r kt r a f f i c p 2 pt r a f f i cb r o u g h tp o t e n t i a ls a f e t yh a z a r da n d n e t w o r kc o n g e s t i o nw h i c hw e r ec a u s e db yr e s o u r c e se x c e s s i v eo c c u p a n c y i th i n d e r e dt h e d e v e l o p m e n to fn o r m a ln e t w o r kb u s i n e s s a l t h o u g hp 2 pg a v eu sc o n v e n i e n c e ,w em u s t c o n s i d e rh o wt om a n a g ep 2 pt r a f f i ci no r d e rt og u a r a n t e et h en o r m a lo p e r a t i o no ft h en e t w o r k w i t ht h er a p i dd e v e l o p m e n to fp 2 pt e c h n o l o g y , i ta d o p t e dv a r i o u sm e t h o d ss u c ha sd y n a m i c p o r ta n dp r o t o c o lf i e l de n c r y p t i o n p 2 pt r a f f i ci d e n t i f i c a t i o nw o u l df a c es e r i o u sc h a l l e n g e s b e c a u s eo ft h ed e v e l o p m e n to ft r a f f i ch i d i n gt e c h n o l o g ys u c ha sp o r tj u m p i n ga n dp a y l o a d e n c r y p t i o n ,e x p l i c i tf e a t u r ep 2 pt r a f f i ci d e n t i f i c a t i o n m e t h o d sl i k e p o r ta n dc o n t e n th a d g r a d u a l l yb e e ne l i m i n a t e d t h e r e f o r e ,p 2 pt r a f f i ce f f e c t i v ei d e n t i f i c a t i o nh a db e c o m et h e u r g e n tp r o b l e m t h i sp a p e rr e s e a r c h e dp 2 pt r a f f i ci d e n t i f i c a t i o nb a s e do nc l u s t e r i n ga n a l y s i s t h em a i n a c h i e v e m e n t sa n di n n o v a t i o nw e r ea sf o l l o w s f i r s t l y , a c c o r d i n gt ot h eb a c k g r o u n do ft h ep 2 p t r a f f i ci d e n t i f i c a t i o na n ds i g n i f i c a n c e ,t h e d o m e s t i ca n df o r e i g ns i t u a t i o no ft h er e s e a r c h ,a n das e r i e so fp r o b l e m sw e r ec a u s e db yt h e d e v e l o p m e n to fp 2 pt e c h n o l o g y , t h i sp a p e rr e s e a r c h e ds e v e r a lt y p i c a lp 2 p t r a f f i ci d e n t i f i c a t i o n m e t h o d sa n da n a l y z e dt h ec h a r a c t e r i s t i c sa n dp r o b l e m so ft h e s ei d e n t i f i c a t i o nm e t h o d si nt h e p r o c e s so fi d e n t i f y i n gp 2 p t r a f f i c t h i sp a p e rd e e p l ya n a l y z e da n dr e s e a r c h e dt h ec h a r a c t e r i s t i c so fp 2 pt r a f f i c t h r o u g ht h e e x p e r i m e n t ,t h ep a p e rc h o s ef i v ef e a t u r ea t t r i b u t e sw h i c hc o u l ds i g n i f i c a n t l yd i s t i n g u i s hp 2 p t r a f f i c ,a n dp r o p o s e dt oa p p l yt h ea t t r i b u t eo fd o w n l o a d u p l o a ds p e e dr a t i ot oi d e n t i f yp 2 p t r a f f i c t h ec o m b i n a t i o no ft h ef i v ek i n d so fa t t r i b u t e sr e t a i n e dp 2 pt r a f f i cc h a r a c t e r i s t i c s i n f o r m a t i o na sm u c ha sp o s s i b l e ,a tt h es a m et i m e ,t oal a r g ee x t e n ti tr e d u c e dm o r e r e d u n d a n c ya m o n gt h ea t t r i b u t e s s o i tc o u l di d e n t i f yp 2 pt r a f f 珏cm o r ee f f i c i e n t l ya n d a c c u r a t e l y f i n a l l y , t h ep a p e rg a v eap 2 pt r a f f i ci d e n t i f i c a t i o na l g o r i t h mb a s e do nc l u s t e r i n ga n a l y s i s i i t h ea l g o r i t h mr e d u c e dt h es c o p eo ft h ec l u s t e r i n gp r o b l e mb ym a k i n gt h ed a t as e td e c o m p o s e i n t os u b - c l u s t e r s t h ec o m p l e x i t yo ft h ei op r o c e s s i n gw a sr e d u c e d m e a n w h i l e ,a d d i n g b a y e s i a ni n f o r m a t i o nc r i t e r i o nt ot h ea l g o r i t h m , t h em e t h o dc o u l dc h o s et h eo p t i m u m c l u s t e r i n gm o d e la n dt h u sa c h i e v e da u t o m a t i cd i v i d i n gc l u s t e r s f u r t h e r m o r e ,i tr e d u c e dt h e i n f l u e n c eo ft h eh u m a nf a c t o r si nt h ei d e n t i f i c a t i o np r o c e s s e x p e r i m e n t ss h o w e dt h a tt h i s a l g o r i t h mh a dh i g h e ra c c u r a c ya sw e l la sl o w e rr a t eo fe r r o n e o u sj u d g e m e n t k e yw o r d s :c l u s t e r i n ga n a l y s i s ;p 2 pt r a f f i ci d e n t i f i c a t i o n ;p 2 pt r a f f i cf e a t u r e ;b i r c h ; b a y e s i a ni n f o r m a t i o nc r i t e r i o n 1 i i 目录 摘要i a b s t r a c t i i 第一章绪论 1 1 课题的研究背景及其意义1 1 2 国内外研究现状2 1 3 本文所做的主要工作及创新点4 1 4 本文的组织结构5 第二章p 2 p 流量识别技术 2 1p 2 p 简介6 2 2p 2 p 业务及其发展过程6 2 2 1 集中式结构p 2 p 网络6 2 2 2 纯分布式结构p 2 p 网络7 2 2 3 混合式结构p 2 p 网络8 2 3p 2 p 技术存在的安全问题9 2 4 典型的p 2 p 流量识别技术分析一1 0 2 4 1 端口识别技术1 0 2 4 2 深层数据包检测技术( d p i ) 。l l 2 4 3 基于流特征的流量识别技术1 3 2 4 4 其他识别技术1 4 2 5 本章小结1 5 第三章p 2 p 流量特征的分析及属性的选取 3 1p 2 p 的流量特征分析1 6 3 1 1p 2 p 的高速增长特性一1 6 3 1 2p 2 p 流量分布的非均衡特性一1 7 3 1 3 上下行流量对称特性1 7 3 2p 2 p 流量识别中属性的选取1 8 3 2 1 流的包大小均方差一2 0 3 2 2 流的包大小变换率2 0 3 2 3 流的持续时间2 l 3 2 4 流中数据包平均字节数2 l 3 2 5 下载与上传速度比2 2 3 3 本章小结2 4 第四章基于聚类分析的p 2 p 流量识别算法 4 1 聚类分析2 5 4 2 层次聚类算法一2 6 4 2 1 簇2 6 4 2 2 距离的度量2 6 4 3 分层的平衡迭代归约及聚类2 7 4 3 1 聚类特征2 7 4 3 2 聚类特征树2 7 4 4 基于聚类分析的p 2 p 流量识别算法2 8 4 4 1 构造聚类特征树2 9 4 4 2 重建聚类特征树3l 4 4 - 3 划分聚类数目3 2 4 5 本章小结3 5 第五章实验测试及结果分析 5 1 算法可行性的实验及分析3 6 5 2 算法运算时间及识别准确率的比较3 8 5 2 1 算法运算时间3 8 5 2 2 识别的准确率和误判率一3 8 5 3 本章小结3 9 第六章结论与展望 6 1 结论4 0 6 2 展望4 0 参考文献4 1 致谢4 7 附录( 攻读硕士学位期间发表录用论文) 4 8 。名沙理歹戈孝 摹f 聚类分析的p 2 p 流量识别算法的研究 第一章绪论 1 1 课题的研究背景及其意义 p e e r - t o p e e r ( 简称p 2 p ) 技术是一种基于对等网络的新兴技术【l 】。和传统客户端服 务器模式不同,p 2 p 技术的最大意义在于其不依赖中心节点而是依靠网络边缘中的节点 自组织与对等协作的资源发现和共享形式,从而拥有自组织、自管理、可扩展性好、鲁 棒性强以及负载均衡等优点。 以b i t t o r r e n t 、e d o n k e y 、k a z a a 、迅雷为代表的文件共享应用凭借自由开放的资源 共享方式、高速的用户下载体验迅速成为主流的下载工具,以s k y p e 为代表的v o m 应 用凭借流畅清晰的同花指令、低廉的通话费用使网络电话迅速普及,以p p l i v e 、q q l i v e 、 p p s t r e a m 为代表的流媒体应用凭借清晰流畅的播放体验、丰富的节目内容是网络电视迅 速成为视频、电视节目、电影等其他多媒体资源发布平台。p 2 p 应用发展势不可挡,其 价值固然不可否认,但造成的危害也有目共睹。p 2 p 业务的不断增加,给网络带宽造成 巨大消耗,甚至引起网络拥塞,降低了其它业务的性能。病毒和木马凭借p 2 p 文件共享 平台加快扩散,破坏了网络的正常运行;色情、暴力等很多不健康内容被许多使用p 2 p 的用户共享,对于青少年的发展非常不利;法律很难约束盗版的音乐以及影视作品的传 播,对版权公司和众多艺人造成了很大的损失;许多非p 2 p 用户无法更好的体验网络带 给他们的享受,带宽被p 2 p 应用消耗巨大,更加无法保证企业的关键应用;传统互联网 非对称流量模型被打破,互联网服务提供商的利益受到威胁【2 j 。据研究,相比2 0 0 4 年以 前,视频文件的传输已经代替音频文件的传输,成为p 2 p 流量的主要组成部分。近几年 来p 2 p 应用不断增长,新的p 2 p 协议不断涌现。据统计,p 2 p 应用已占运营商业务总量 的6 0 8 0 ,造成了网络带宽的巨大消耗,甚至造成网络拥塞,从而影响了其他网络 中的业务【3 】。因此需要准确快速的检测出p 2 p 流量,从而对p 2 p 应用进行有效地控制。 传统的网络中,流量的增长是与网络中服务提供者的数量成比例。p 2 p 技术的诞生 则彻底的颠覆了这种平衡,服务提供者数量的快速增加导致了网络中流量的飞速增长, 潜在用户的不断提升,致使这种增长的趋势更加无法预测;p 2 p 网络中,服务使用者与 服务提供者的界限日趋模糊,用户作为服务使用者的同时也是服务的提供者;p 2 p 网络 从某种意义上可以看成是基于i p 层选路机制上的二次选路,并且其结果通常来说能够对 原有的既定路由进行一定程度的优化,由于不同p 2 p 应用的流肇通常以一种“非合作” 的模式进行对网络资源的竞争,因此将使p 2 p 应用受到一定程度的负面影响;p 2 p 网络中 第l 页共4 8 贞 。卫沙理歹戈孝 基f 聚类分析的p 2 p 流量识别算法的研究 用户具有明显的自私特性,总是倾向于隐藏自己的真实带宽,因此被选中作为下载节点 的机会更小;p 2 p 应用其主要组成部分仍然是视频和声音文件,使得流量数据类型呈明 显的集中性。据研究p 2 p 节点之间传输的文件大都是在重复传播少量的被用户认为是热 点的文件。为了解决由p 2 p 流量带来的一系列问题,需要针对p 2 p 流量采用特别的管理方 法,而准确的识另s i j p 2 p 流量则是有效管理的前提。 1 2 国内外研究现状 当前p 2 p 网络技术发展非常迅猛,随着p 2 p 流媒体和文件共享的大量应用,p 2 p 网 络结构从最初的集中式、分布式结构发展到现在的混合式结构,许多p 2 p 应用也从开始 的采用常见端口发展到了使用随机动态的、伪装后的端口,导致p 2 p 流量的正确识别越 来越困难。就目前的国内外研究现状来讲,可以将p 2 p 流量识别从技术角度上分为:基 于端口识别方法,深层数据包检测识别方法和基于流量特征的识别方法。 基于端口识别的方法首先由美国a t & t 实验宅的s u b h a b r a t as e n l 4 j 所提出,早期的 p 2 p 应用大多采用的都是固定端口的方法。然而随着p 2 p 技术的发展,基于端口的识别 技术的准确率逐渐降低,操作系统对一些常见端口以外的端口号进行了访问的限制;同 时一些伪装端口技术的出现使用其他常见的端口号( 如8 0 端口) 进行通信;而且一些 p 2 p 应用提供给用户根据个人的喜好来手动配置端口号,使得p 2 p 应用的端口号变得更 加难以确定。文献【5 】中,作者证实了基于端口识别技术已经无法识别网络中5 0 7 0 的流量。文献 6 】中通过作者的研究发现,p 2 p 流星的比例正在逐渐增加,但是通过端1 :3 识别技术能识别出的p 2 p 流量正在逐渐减少。文献 7 】中对k a z a a 的下载流量进行了分 析,发现超过3 8 的流量没有使用标准的默认端口。文献 8 】中提出了一种针对可扩展的 p 2 p 流量的特征字符串识别系统,并且分析了5 种流行的p 2 p 系统,并对其特征字符串 进行抽取,实验表明该系统对p 2 p 流量的识别达到了小于5 的误判率,同时还提出了 p 2 p 流量识别的三个标准:精确率、可扩展性和鲁棒性。目前虽然很多流行的p 2 p 应用 升级了版本,开始使用动态随机端口,但是很多用户还在使用旧版本的程序,因此还在 使用默认的固定端口号,所以仍然有不少方法采用基于端口识别的方法或是进行了相应 的改进。 深层数据包检测识别方法,是由s u b h a b r a t as e n 等人在2 0 0 4 年初所提出,通过提取 p 2 p 协议的p a y l o a d ( 也町称为特征字符串【9 1 1 】) ,分析其中所包含的协议特征值来判断 是否为p 2 p 应用。文献 1 2 1 采用了基于深层数据包检测识别方法进行p 2 p 流量的识别。 第2 贞共4 8 页 坐沙露歹戈孝 基于聚类分析的附流量识另悼法的研究 文献 1 3 1 0 0 对于p 2 p 网络的q o s ( 服务质量) 的需求提出了统计签名的策略,虽然没有 对应用层协议进行分析,但是分析了p 2 p 应用是属于信息交换还是仪仪传输数据,并且 对p 2 p 流量进行了分类的管理。文献 1 4 1 中将端口识别技术、基于流量属性特征的技术 与深层数据包检测技术结合起来,取长补短。文献 1 5 1 中作者将特征串的定义扩展到了 其他的网络应用。文献 1 6 1 的作者利用了文献 s l o e 提出的应用层签名设计了一个简单有 效的p 2 p 流量测试系统,进而在文献 1 7 1 中对通过应用层签名识别出的p 2 p 流量在端口 使用、连接寿命等方面进行了研究与分析。文献 1 8 1 中的作者提出一种基于优先权的签 名匹配策略:签名越长或应用多个位置的签名则优先级较高,减少了签名匹配时发生的 冲突。文献 1 9 2 0 】同样采用了应用层特征字符串的方法对p 2 p 流量的识别进行了分析。 文献 2 1 l 提出了基于应用层签名的p 2 p 流媒体识别的方法,提取了五种主流的p 2 p 流媒 体平台的应用层签名。国内外的生产厂商也推出了部分针对p 2 p 流量识别和控制的设 备,具有代表性的主要有:思科的n e t l o w l 2 2 1 、a l l o t 公司的流量管理技术1 2 3 1 、c a c h e l o g i c 公司的p 2 p 流量管理方梨2 4 1 等。 由于深层数据包检测技术对于加密的数据无法进行特征签名的提取,因此t h o m a s k a r a g i a n n i s 2 5 】等人于2 0 0 4 年提出了基于传输层特征的p 2 p 流量识别方法,该方法根据 p 2 p 流量在传输层表现出两种基本的特征,细分为t c p u d p 和( i p ,p o r t ) 两种检测法。 基于流量属性特征的识别方法是建立在每条流的平均字节数等属性特征上的。文献 2 6 】 提出基于网络层的连接模式进行p 2 p 的流量识别,采用了分光技术对链路数据进行旁路 处理,在链路层中加入过滤策略以减少冗余数据的影响。文献 2 7 1 分析了当前主流的基 于流量模式的识别方法。 机器学习及数据挖掘领域的统计决策、聚类等思想是基于流量特征的p 2 p 识别技术 的l 毛要理论依据,由于这类方法采用的是基于p 2 p 流量特征,不需要解析和还原协议, 因此能够对加密和未知的p 2 p 流进行分析,并且能在不进行特征字符串匹配的情况下实 现流量的分类。近些年来一些学者采用了基于p 2 p 的流量特征的机器学习和小波分析等 方法进行了p 2 p 流量的识5 | l , 1 1 2 8 3 1 1 。文献【3 2 】中,作者研究t d , 波分析对p 2 p 基本特征进 行处理之后再用于分类。文献 3 3 1 中采用了有指导的朴素贝叶斯分类算法,通过对分类 器一些改进的方法,最终达到了9 5 的分类精确度。文献 3 4 1 中通过贝叶斯分类算法达 到了8 3 的精确率。文献 3 5 1 的作者将优化的s v m 用于p 2 p 的流量识别中,该方法也 是基于流量特征的识别方法,实验表明该方法能够对大部分采用t c p 协议的p 2 p 流量 识别出,而且还町以对未知的和加密的p 2 p 流量进行识别,但是对于采用u d p 协议的 第3 页共4 8 页 坐沙理歹戈学 摹f 聚类分析的p 2 p 流量识别算法的研究 p 2 p 不能很好的识别。朴素贝叶斯、决策树以及s v m 都属于有监督的机器学习方法, 这类方法需要预先分类好样本数据来训练分类器,但是由于分类样本的不完全性,这些 方法采用的分类器无法发现未知流量,并且它将流量强制划分到各个已知的类别中。由 此基于无监督的聚类算法成为了另一个p 2 p 流量识别算法的研究热点。聚类算法除了具 有分类方法的优点外,很大程度上降低了人为因素的影响,并且在聚类过程中不需要使 用训练样本,因此能够识别一部分尚未定义的新型p 2 p 流量。2 0 0 6 年,文献 3 6 1 的作者 加拿大卡尔加咀大学的m a r t i na r l i t t 等人使用聚类方法处理p 2 p 流量识别问题,比较了 3 种常见的聚类方法k m e a n s ( k 均值) 、d b s c a n ( 基于密度的聚类方法) 、a u t o c l a s s ( 自动聚类方法) 在p 2 p 流量识别中在识别的准确率和算法运算时间两方面的效果。还 有部分作者采用了其他的无监督的机器学习算法对p 2 p 流量进行了识别。文献 3 7 】中使 用了无监督的e x p e c t a t i o nm a x i m i z a t i o n ( e m ) 分类算法对流量进行了分类,虽然分类 结果对应的是流量的网络行为,但是发现了分类算法对于不同应用产生的流量也具有一 定的区分能力。文献 3 8 ,3 9 1 中的作者利用无监督的e m 算法对流量按照应用类型进行了 分类,通过在各地不同时间采集的流量,实验发现分类的平均正确率在8 6 5 左右。 1 3 本文所做的主要工作及创新点 本文主要从以下三个方面来完成基于聚类分析的p 2 p 流量识别算法的研究工作: ( 1 ) p 2 p 流量识别的发展现状 针对p 2 p 流量识别问题的研究背景和意义,国内外研究的现状,以及p 2 p 技术的发 展所带来的一系列问题,研究了当前存在的几种典型的p 2 p 流量识别方法,并分析了这 些识别方法在识别p 2 p 流龟过程中的特点和存在的问题。 ( 2 ) p 2 p 的流鼍特征研究 对p 2 p 流量的特征进行了比较深入的分析和研究,通过实验分析并选取了能够显著 区分p 2 p 流量的属性特征,并且在特征集中加入了上传与下载速度比属性,结合其他四 种属性特征共同作为对基于聚类分析的p 2 p 流量识别算法的应用基础。 ( 3 ) 基于聚类分析的p 2 p 流量识别算法 分析了b i r c h 算法中的聚类特征和聚类特征树,给出了一种基于聚类分析的p 2 p 流 量识别算法,并在该算法中加入了贝叶斯信息判别准则,减少了人为因素的影响。根据 选择出的p 2 p 流鼍特征属性结合该算法进行实验,首先对数据进行扫描输入,构造初始 聚类树,树中的叶子节点作为预聚类的结果,再对预聚类结果计算它们之间距离的贝叶 第4 页麸4 8 页 盛吵理歹文学 基f 聚类分析的p 2 p 流量识别算法的研究 斯信息准则值,得到最终的聚类数t = l 。 1 4 本文的组织结构 本论文主要对p 2 p 的流量特征及基f 聚类分析的p 2 p 流量识别算法分别进行了研究, 其结构安排如下。 第一章主要介绍了本课题的研究背景及意义,以及p 2 p 的流量识别中国内外研究现 状。 第二章主要介绍了p 2 p 相关的一些知识,包括p 2 p 的概念、p 2 p 的业务发展过程、p 2 p 技术带来的问题,对一些典型的p 2 p 流量识别技术进行了分析探讨,最后阐述了对p 2 p 流量识别的重要性和意义。 第三章主要分析了p 2 p 基本特征:p 2 p 的高速增长性、分布的非均衡性、上下行流量 的对称性,通过实验分析并选取了能够显著区分p 2 p 流量的属性特征,并且在属性特征 集中加入了上传与下载速度比,最后将五个显著的p 2 p 流量特征属性作为识别算法应用 的基础。 第四章介绍了聚类分析中的基本概念和定义,研究了b i r c h 算法中核心的聚类特征 和聚类特征树,最后给出了一种基于聚类分析的p 2 p 流量识别算法,并且在算法中加入 了贝叶斯信息准则,通过它自动进行模型聚类数日的选取。 第五章通过实验得出结论,并且进行了相关的结果分析。 第六章总结和展望。回顾了本文的研究工作,并指出本课题需要进一步研究和解决 的问题最后探讨和展望了本课题未来的研究方向和应用前景。 第5 页共4 8 页 立沙理歹戈孝 基于聚类分析的p 2 p 流量识别算法的研究 2 1p 2 p 简介 第二章p 2 p 流量识别技术 p 2 p 是p e e r - t o p e e r 的缩写,可以解释为“端对端,点对点”的意思,称为对等网络。 p 2 p 技术是一种比较古老的技术,它起源于最初的联网通信方式,比如说于1 9 7 9 年的 u s e n e t 和1 9 8 4 年的f i d o n e t 都是基于p 2 p 技术的产生的。但是当今的p 2 p 技术已经 被赋予了新的定义,是对旧技术新的应用模式。和传统客户端服务器模式不同,p 2 p 技 术的最大意义在于其不依赖中心节点而依靠网络边缘节点自组织与对等协作的资源发 现和共享形式。对等节点之间不需要依赖集中式服务器就可以完成节点间的直接互联、 信息资源、存储资源的交互。 从技术角度来分析的话,p 2 p 技术可以理解为一种新的应用技术模式。在一个p 2 p 系统中,往往有数万台甚至百万台的计算机构成,并为客户提供文件下载等服务,p 2 p 本身就构成一个覆盖网络,节点需要自己去进行服务器的查找。 2 2p 2 p 业务及其发展过程 p 2 p 在短短的几年间里得到了快速的发展,出现了许多应用模型,从最早的n a p s t e r 到当今流行的e d o n k e y 、t h u n d e r 、b i t t o r r e n t 等。从其发展历程出发,p 2 p 分为三个阶 段:集中式结构p 2 p 网络、纯分布式结构p 2 p 网络、混合结构的p 2 p 网络。 2 2 1 集中式结构p 2 p 网络 集中式结构的p 2 p 网络有一个中央服务器,为用户提供共享和搜索文件服务【l 】。这种 结构具有代表性的为n a p s t e r ,它使用中央索引搜索模型作为搜索机制。集中式p 2 p 最大的 优点是维护简单,其他对等点可以动态地将信息传至服务器,服务器根据请求做出相应 的处理,所以索引更新的速度也比较快,同时搜索其他对等节点过程中所需要的消息量 小,节省了部分的网络带宽。由于资源的查找是借助于中心化的索引目录,因此可以实 现比较复杂的查询,并且查找算法灵活高效。以n a p s t e r 为代表的第一代p 2 p 系统采用集 中式网络架构要求各对等端都迸录并在中心服务器上注册,通过中心服务器维护并保存 所有对等端的共享文件目录信息。如图2 1 所示。 第6 页共4 8 页 立沙理歹文学 摹f 聚类分析的p 2 p 流量识别算法的研究 图2 1 集中式p 2 p 网络结构 这类网络模型存在很多不足,主要表现为:结构与c s 结构相似,容易造成单点故 障;如果中心服务器出现问题,会导致整个网络瘫痪,冈此安全性和可靠性比较低;随 着逐渐增大的网络规模,中央索引服务器进行维护和更新的费用将急剧上升,所需成本 更加无法估计,系统的可伸缩性不强;中央服务器的存在同时会引起共享资源在版权问 题上的纠纷,并因此被攻击为非纯粹意义上的p 2 p 网络模型。但是对小型网络而言,这 种结构模型在管理和控制方面占一定优势。鉴于这些缺陷的存在,该模型并不适合大型 网络应用。 2 2 2 纯分布式结构p 2 p 网络 第二代p 2 p 系统( 如早期的g n u t e l l a ) 实现了文件目录的分布式管理,所有的对等端 共同负责相互间的通信与搜索,如图2 2 所示。这种结构的p 2 p 网络采用了随机组织方 式,节点度数服从“p o w e r - l a w 的规律,节点之间的链路并没有遵循某些预定义的拓 扑来构建,能够更好更快的发现节点,网中所有节点都成为真正意义上的对等端,不再 是简单的点到点通信,从而无须中心服务器的参与,同时面对网络的动态变化实现了更 好的容错能力,节点的频繁加入与退出对系统的影响比较小,具有很强的可用性,并且 支持复杂查询,比如带有规则表达式的多关键字查询、模糊查询等。 该结构采用的洪泛请求有效解决了中心服务器索引的一些弊端,增强了整个系统的 伸缩性。这种模式具有自组织行为,降低了拥有者的成本,提供可扩展性。但是因为每 次查找都需要在这个网络中进行,或者至少是在很大的范围内才能得到结果,随着网络 规模的扩大,导致消息量过大,占用了大量的网络带宽,造成其搜索速度减慢,排队时 第7 页共4 8 页 坐沙理歹文挈基于聚类分析的p 2 p 流量识别算法的研究 间变长,容易出现网络拥塞,最终只能在网络中很小的部分内进行,因此不适合比较大 型的网络;同时安全性也低,容易受到恶意攻击。 节点 图2 2 纯分布式p 2 p 网络结构 2 2 3 混合式结构p 2 p 网络 第三代p 2 p 系统( 如b i t t o r r e n t 、e d o n k e y 、k a z a a 、f a s t t r a c k 等) 结合了集中式及分 布式p 2 p 的体系结构的高效性和容错性优点,采用了混合式的结构模式,并且在设计思 想和系统稳定性方面都得到了很大的提升。如图2 3 所示。 图2 3 混合式p 2 p 网络结构 它在纯分布式结构的p 2 p 网络基础上选择了一些按能力大小进行分类的节点作为 第8 贞共4 8 页 盛沙理歹文学 摹f 聚类分析的p 2 p 流量识别算法的研究 超级节点,例如处理能力、带宽、计算能力、在线时间等性能好的节点,使得这些超级 节点担负某些特殊的功能,比如搜索和索引的功能。首先该结构克服了集中式结构p 2 p 网络易遭受攻击等缺点,同时也弥补了纯分布式结构p 2 p 网络在搜索速度以及网络容易 拥塞、扩展性差等不足,采用了分层的快速搜索来改进性能,缩短了排队的响应时间, 每次响应产生的流量要低于第二代分布网络,并且大量减少了消息传播的数量,其查询 的消息仅仅在超级节点之间进行传播,而普通节点涉及的比较少。利用多个超级节点作 为分布式中心服务器,实现了快速检索网络的可检测性,降低了单个节点失效是对整个 网络的影响。这些超级节点临近的一些普通节点形成一个自治的区域,为该区域内的节 点提供服务,不会因为某一中央控制节点的故障导致全部瘫痪。 2 3p 2 p 技术存在的安全问题 ( 1 ) 知识产权的保护 在p 2 p 共享网络中始终存在着知识产权保护问题。正如n a p s t e r 的出现侵害了唱片 公司的利益一样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中生物课堂教学重点与难点解析
- 基于稳态视觉诱发电位的脑机接口系统设计与算法优化研究
- 基于稀疏表示与有向图模型的核磁共振脑图像集精准配准技术研究
- 大班幼儿植物种植故事与学习方案
- 部门年度工作计划及绩效考核方案
- 中医药健康管理服务项目策划方案
- 家具制造行业生产流程标准化
- 外贸订单流程管理与跟踪
- 高校英语听力训练专项试卷
- 工程造价预算控制技术措施
- 甲状腺腺癌护理查房
- 口腔正畸护士四手操作配合规范
- 人教版 2024 版历史八年级上册第六单元第 18 课《全民族抗战中的正面战场和敌后战场》说课稿
- 消防队伍心理健康教育课件
- 2025年山西省中考语文试题答案解析卷
- 给小学生讲建筑的课件
- 火锅教学课件图片高清
- 高血压教学病例讨论课件
- 2025风力发电场技术监督规程08金属技术监督
- 2025年湖北高考历史真题(原卷版)
- 总经理私章管理制度
评论
0/150
提交评论