(控制科学与工程专业论文)p2ptv流量精细识别技术研究.pdf_第1页
(控制科学与工程专业论文)p2ptv流量精细识别技术研究.pdf_第2页
(控制科学与工程专业论文)p2ptv流量精细识别技术研究.pdf_第3页
(控制科学与工程专业论文)p2ptv流量精细识别技术研究.pdf_第4页
(控制科学与工程专业论文)p2ptv流量精细识别技术研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(控制科学与工程专业论文)p2ptv流量精细识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕十学位论文 摘要 近年来,p 2 p 技术的发展与逐步成熟,彻底地改变了传统的网络业务模式,基 于p 2 p 的应用流量已经占据运营商的绝大部分带宽。众多的网站纷纷推出p 2 p 流 媒体业务,特别是p 2 p t v 平台的推出,人们可以随时随地地使用互联网收看电视 直播,极大改变并方便了人们的娱乐方式。然而新技术给人们带来高质量的视频 享受之外,也引发了很多负面的问题,特别是安全问题。如何对园区网内p 2 p t v 平台进行有效地监管是当前p 2 p 安全领域急需解决的一个问题。 p 2 p 的技术在挑战中不断地发展。一方面,p 2 p t v 的识别技术不断地发展, 为了合理使用网络资源,对p 2 p 的流量要实施部分管控与封堵;另一方面,p 2 p 应用设计者为了规避封堵,要对产品进行升级设计,使现有的封堵方法不再有效。 目前,p 2 p t v 平台协议均为私有协议,采用了跳变的随机端口,使得传统的p 2 p t v 的流量识别方法不再有效。因此,对p 2 p t v 监管技术的研究面临诸多挑战,如何 识别p 2 p t v 的应用平台的流量,如何将流量识别迸一步精细到具体平台频道流量 分类,这些挑战也是解决p 2 p t v 流量监管问题的关键。本文从这两个方面开展研 究工作,并提出了有效地解决办法。 首先,本文针对p 2 p t v 平台流量精确识别的方法开展研究。从现有的研究成 果出发,指出其不足。在传统的流量测量与基于p 2 p 流量测量的基础上,运用支 持向量机分类技术,提出基于帧大小分布的p 2 p t v 平台流量识别方法,实验验证 了该方法的识别精度,证实了该方法的有效性。 其次,本文从监管要求出发,对p 2 p t v 流量识别进一步精细到频道的识别。 本文以快速、精确识别园区网内p 2 p t v 用户使用的p 2 p t v 平台以及具体的频道, 从而确定其收看的内容为目标。提出了基于应用层签名技术的具体p 2 p t v 平台的 频道流量识别技术。通过研究,通过变长滑窗匹配方法提取应用层签名,并对提 取的应用签名来验证已知p 2 p t v 平台流量,实验证明有较好的识别精度与较快的 识别效率。 最后,本文设计p 2 p t v 平台流量监管原型系统,并对系统各模块进行具体的 分析与设计。从而,为建立面向园区网的p 2 p t v 流量监管系统提供技术支持。 本文的研究将开创p 2 p t v 流量监管实际应用的新纪元。 主题词:p 2 p t v ,帧大小分布,流量精细识别,支持向量机,流量监管 第i 页 国防科学技术大学研究生院硕十学位论文 a b s t r a c t i nr e c e n ty e a r s ,t h ed e v e l o p m e n ta n dg r a d u a l l ym a t u r eo fp 2 pt e c h n o l o g yh a v e c h a n g e dt r a d i t i o n a ln e t w o r ks e r v i c e sm o d e lt h o r o u g h l y ,a n da p p l i c a t i o nt r a f f i cb a s e do n p 2 ph a v ea l r e a d yo c c u p i e dm o s tb a n dw i d t ho ft h eo p e r a t o r p e o p l ec a l lw a t c hl i v e t e l e v i s i o no nt h ei n t e m e ta n y t i m ea n da n y w h e r eb e c a u s ep 2 p - t vf l o wm e d i as e r v i c e s e s p e c i a l l yp 2 p - t vo f f e r e db ym a n yw e b s i t e s c h a n g i n ga n df a c i l i t a t i n gp e o p l e s e n t e r t a i n m e n tg r e a t l y h o w e v e r ,t h en e wt e c h n o l o g yn o to n l yb r i n g sh i g hv a l u e v i d e ot o p e o p l ef o re n j o y m e n t ,b u ta l s oi n i t i a t e sm a n yn e g a t i v ei s s u e s ,e s p e c i a l l ys e c u r i t yi s s u e s h o wt oe f f e c t i v e l ym o n i t o rt h ep 2 p t vt r a f f i ci sa l lp r o b l e mt h a tn e e d st ob es o l v e d u r g e n t l yi np 2 ps e c u r i t yf i e l d p 2 pt e c h n o l o g yd e v e l o p e sc o n s t a n t l yi nc h a l l e n g e s o nt h eo n eh a n d ,w i t h p 2 p - t vt r a f f i ci d e n t i f i c a t i o nt e c h n o l o g yd e v e l o p i n gc o n t i n u a l l y i no r d e rt ou s e n e t w o r kr e s o u r c e sr e a s o n a b l y ,p a r t i a lc o n t r o la n dr e s t r i c t i o no np 2 pt r a f f i cw i l lb e i m p l e m e n t e d ;o nt h eo t h e rh a n d ,p 2 pa p p l i c a t i o nd e s i g n e r sn e e dt ou p g r a d et h ep r o d u c t i no r d e rt oc i r c u m v e n tt h eb l o c k ,s ot h a tt h ee x i s t e ds t r i c t i o nm e t h o d sa r en ol o n g e r v a l i d a tp r e s e n t ,p 2 p - t va p p l i c a t i o np r o t o c o la r ep r i v a t ep r o t o c o l ,t h et r a d i t i o n a l p 2 p - t vt r a f f i ci d e n t i f i c a t i o nm e t h o di sn ol o n g e rv a l i du s i n gr a n d o mo rh o p p i n gp o r t t h e r e f o r e ,p 2 p t vt r a f f i cm o n i t o rt e c h n o l o g yr e s e a r c hf a c e sm a n yc h a l l e n g e s ,h o wt o i d e n t i f yp 2 p t va p p l i c a t i o np l a t f o r mt r a f f i c ,h o wt oi d e n t i f yt r a f f i ca n df u r t h e rr e f i n e d t ot h es p e c i f i cp l a t f o r ma n dc h a n n e lt r a f f i cc l a s s i f i c a t i o n ,t h e s ec h a l l e n g e sa l s oa r ek e y t or e s o l v et h ep 2 p - t vt r a f f i cm o n i t o r i n gp r o b l e m t h i sr e s e a r c hw o r kp u t sf o r w a r d e f f e c t i v es o l u t i o n sf r o mt h e s et w oa s p e c t s f i r s t ,t h i sp a p e rc o n s d u c t sr e s e a r c ho np 2 p - t va p p l i c a t i o np l a t f o r mt r a f f i c a c c u r a t e l yi d e n t i f yw a y s ,砥sp a p e rp o i n t so u ti t ss h o r t c o m i n g sa c c o r d i n gt ot h e e x i s t i n gr e s e a r c hr e s u l t s b a s e do nt h er e s e a r c ha b o u tt h ew a y so ft h et r a d i t i o n a l p 2 p - b a s e dt r a f f i cm e a s u r e m e n ta n do t h e rt r a f f i cm e a s u r e m e n t ,t h i sp a p e rp r o p o s e sa p 2 p t v a p p l i c a t i o np l a t f o r m t r a f f i ci d e n t i f i c a t i o nm e t h o do ff r a m e b a s e ds i z e d i s t r i b u t i o n 而ls u p p o r tv e c t o rm a c h i n ec l a s s i f i c a t i o nt e c h n i q u e ,d o i n ge x p e r i m e n t st o v e r i f yt h ei d e n t i f i c a t i o na c c u r a c yo ft h em e t h o da n dc o n f i r mt h a tt h em e t h o di s e f f e :c t i v e n e s s s e c o n d l y ,t h i sp a p e rc a r r i e so u tt h ep 2 p 一1 vt r a f f i ci d e n t i f i c a t i o na n df u r t h e r r e f i n e dt ot h ep 2 p t vc h a n n e lt r a f f i ci d e n t i f i c a t i o nr e s e a r c he m b a r k i n gf r o mt h e m o n i t o r i n gr e q u i r e m e n t s i nt h i sp a p e r , t h eg o a li sf a s ta n da c c u r a t e l yi d e n t i f yp 2 p t v a p p l i c a t i o np l a t f o r ma sw e l la ss p e c i f i cc h a n n e l su s e dw i t h i nt h ec a m p u sn e t w o r kt o d e t e r m i n et h ew a t c h e dc o n t e n t t h i sp a p e rp r o p o s e sas p e c i f i cp 2 p t va p p l i c a t i o n p l a t f o r mc h a n n e lt r a f f i ci d e n t i f i c a t i o nt e c h n o l o g yb a s e do i la p p l i c a t i o nl a y e rs i g n a t u r e s t h r o u g hr e s e a r c h ,w i t ht h ev a r i a b l e l e n g t hs l i d i n gw i n d o wm a t c h e sm e t h o dt oe x t r a c t 第i i 页 国防科学技术大学研究生院硕士学位论文 t h et h ea p p l i c a t i o nl a y e rs i g n a t u r ef e a t u r e s ,a n du s et h ea p p l i c a t i o nl a y e rs i g n a t u r e s f e a t u r e st ov e r i f yt h ea p p l i c a t i o np l a t f o r ma sk n o w np 2 p - t vc h a n n e lt r a f f i co rn o t e x p e r i m e n t sh a v ep r o v e dt h a tt h i sw a y h a sab e t t e ri d e n t i f i c a t i o na c c u r a c ya n df a s t e r i d e n t i f i c a t i o ne f f i c i e n c y f i n a l l y t h ep a p e rd e s i g n sap 2 p t va p p l i c a t i o nt r a f f i cm o n i t o r i n gp r o t o t y p e s y s t e m ,a n dg i v e ss p e c i a la n a l y s i sa n dd e s i g nt oe v e r ys y s t e mm o d u l e ,p r o v i d i n g t e c h n i c a ls u p p o r tf o r t h ep 2 p - t vt r a f f i cm o n i t o r i n gs y s t e me s t a b l i s h m e n tf a c i n g c a m p u sn e t w o r k t h i ss t u d yw i l ll e dp 2 p t vt r a f f i cm o n i t o r i n gf r o ms t u d yp h r a s et ot h et h e p r a c t i c a la p p l i c a t i o ne r a k e yw o r d s :p 2 p t v ,f r a m es i z ed i s t r i b u t i o n ,t r a f f i cf i n e g r a i n e di d e n t i f i c a t i o n , s u p p o r tv e c t o rm a c h i n e ( s v m ) ,t r a f f i cm o n i t o r i n g 第i i i 页 国防科学技术大学研究生院硕十学位论文 表目录 表2 1p 2 p t v 各平台不同频道帧大小相似区间1 4 表2 2 分类区间1 5 表2 2实验p 2 p t v 各平台名称及版本号2 3 表2 3 实验统计结果2 5 表2 4 帧大小分布与a b a c u s 方法分类精度比较2 6 表3 1p p l i v e 频道及其应用层签名。3l 表3 2p p s t r e a m 频道及其应用层签名。3l 表3 3 q q l i v e 频道及其应用层签名3 2 表3 4u u s e e 频道及其应用层签名3 2 表3 5实验p 2 p t v 各平台名称及版本号3 4 第1 i i 页 国防科学技术大学研究生院硕十学位论文 图目录 图2 1p 2 p t v 平台级流量分类流程设计1 0 图2 2 不同网络应用帧大小的差异1 2 图2 3p p l i v e 帧大小分布1 3 图2 4 1p p l i v e 、p p s t r e a m 分别在不同频道下帧大小比较13 图2 4 2q q l i v e 、u u s e e 分别在不同频道下帧大小比较1 4 图2 5典型p 2 p t v 平台帧大小分布15 图2 6 典型p 2 p t v 平台帧大小分布在校园网与a d s l 下的比较1 6 图2 7p p l i v e 在分类特征下的累积分布1 7 图2 8p p s t r e a m 在分类特征下的累积分布18 图2 9q q l i v e 在分类特征下的累积分布18 图2 1 0u u s e e 在分类特征下的累积分布1 9 图2 1 1 两类线性可分的数据及构造最大间隔超平面2 0 图2 12 对非线性数据的处理21 图2 1 3 级联的二分类实现多分类2 2 图2 1 4 一对多多分类器实现多分类2 2 图2 1 5 样本完备性验证2 4 图3 1p 2 p t v 工作机制2 7 图3 2 频道识别流程3 3 图3 3p p l i v e 采样时间与频道识别精度关系3 4 图3 4p p s t r e a m 采样时间与频道识别精度关系3 5 图3 5q q l i v e 采样时间与频道识别精度关系3 5 图3 6u u s e e 采样时间与频道识别精度关系。3 6 图4 1p 2 p t v 监管系统工作流程。3 8 图4 2t v m o n 系统层次结构图3 9 图4 3t v m o n 子系统及模块关系图4 0 图4 4p 2 p t v 平台识别模块流程图4 0 图4 5p 2 p t v 平台识别模块流程图4 l 图4 6t v m o n 原型系统运行部署图4 2 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 啉凯1 每螂| 马 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名: 旒彘 作者指导教师签名:至! ! 蔓 月 月 、j 年 年 01,f、:rf 9 , 瑚 知 期 期 国防科学技术大学研究生院硕十学位论文 第一章绪论 在视频业务的推动下,网络技术迅猛发展,网络规模继续扩大。网络不再提 供单一的通信服务,业务和应用种类日益发展。与此同时,3 g 时代的到来使得无 线互联网将呈现出爆发式的增长趋势。各种网络应用如网络音乐、网络视频等娱 乐型应用也在积极发展,特别是基于p 2 p 技术的视频服务,正在被各大知名网站 普遍使用,如: s i n a ,c c t v ,t e c e n t 等诸多网站。除此之外,基于p 2 p 技术的 网络视频直播( p 2 p t v ) 领域也迅猛发展,由于其方便快捷、代价低,正在迅速 改变着人们传统的生活方式。然而,p 2 p t v 技术能给用户提供高质量的视频服务 的同时,也带来了诸多负面问题,如网络安全、大量占用带宽、服务质量等问题, 特别是其引发的安全问题,目前缺乏有效地监管模式,如何对p 2 p t v 用户进行有 效监管是一个需要深入研究的课题。 1 1 1 课题研究背景 1 1 课题研究背景和意义 随着i n t e r n e t 的迅速发展,对等网络技术( p e e r - t o p e e r ,简称p 2 p ) 已经逐渐 成为各方关注的热门话题,财富杂志更是将p 2 p 列为影响i n t e m e t 未来的4 项科技 之一。p 2 p 技术引导网络计算模式从集中式向分布式发展,将网络应用的核心从中 央服务器向网络边缘的终端设备扩散。p 2 p 不仅仅是一种技术,更是一种思想,它 使得互联网发生了翻天覆地的变化。目前,p 2 p 技术已经涵盖了文件共享、即时通 信、协同计算、分布存储、流媒体视频直播等多个方面。 其中,p 2 p t v 逐渐成为继p 2 p 文件共享应用之后又一个受到广大互联网用户 喜爱的热点应用。2 0 0 4 年6 月,z h a n gx i n y a n 1 】等人设计实现了中国第一款p 2 p t v 软件- - - - c o o l s t r e a m i n g ,并应用到当年欧洲杯赛事转播中,取得了巨大的成功,开 创了中国p 2 p 流媒体技术的新纪元。其后,随着p 2 p 流媒体技术的发展,许多p 2 p 网络电视软件不断涌现,其中以p p l i v e t 2 1 ,p p s t r e a m 3 1 ,u u s e e l 4 1 ,q q l i v e t 5 1 为代 表的p 2 p t v 平台,以其优质的视频质量,丰富的视频内容,免费的服务方式,稳 定的服务性能吸引了众多用户。 p 2 p t v 服务的迅猛发展也导致许多问题随之产生,主要表现在以下几个方面: ( 1 ) 版权问题1 6 1 版权问题直是制约p 2 p 发展的一个主要因素,尤其在追求高收视率、视频 服务免费的p 2 p t v 领域,更是存在着严重的知识产权问题。目前,p 2 p t v 在国 外的使用率不高,与其严格的版权制度密不可分。我国也正逐步建立一系列相关 第l 页 国防科学技术大学研究生院硕+ 学位论文 法规和监管制度,来规范我国的p 2 p t v 市场。但由于各p 2 p t v 平台数目众多, 很难对其进行有效、精细的分类,这为p 2 p t v 版权的管控带来了很大的困难。 目前,相关研究【7 】嘲对p 2 p 下载引起的版权问题展开探索。 ( 2 ) 网络资源占用问题【9 j 我国宽带接入用户数量迅猛发展。2 0 0 7 年底,我国互联网用户达到2 1 亿户, 其中宽带互联网用户达1 6 3 亿,宽带接入用户达到6 6 4 6 万,而a d s l 为主要的宽 带接入手段。p 2 p 被认为是带宽消耗的主要因素。据统计,p 2 p 流量约占服务提供 商网络总流量的6 0 8 0 ,同时p 2 p 改变了接入网上下行非对称的常规,网络的 流量预测复杂,网络提供商被动的扩容,同时增加了监管的难度。 ( 3 ) 网络安全问题【1 0 l 【1 3 1 由于p 2 p 的工作模式使得节点既是服务器,又是客户端,使得节点维持开放 状态,下载其它节点共享文件的同时也暴露了自己的i p 地址信息,容易引来入侵 而遭受攻击。同时,节点之间由于没有建立信任机制,病毒、蠕虫容易伪装成共 享文件提供下载,而点对点的传输信息,安全的问题容易疏忽,直接导致网络病 毒、蠕虫的大面积传播。 同时,只要掌握p 2 p 流媒体的播放机制,非法分子能够利用p 2 p t v 视频内容 直播功能,私自架设非法p 2 p t v 或劫持合法频道传播非法内容,但目前还无有效 反制措施。因此,如何有效地监管p 2 p t v 内容的合法性,是急需解决的重要问题 之一。 1 1 2 课题研究意义 对于p 2 p t v 服务引发的安全问题,特别是非法分子私自架设非法p 2 p t v 或 劫持合法频道传播非法内容的问题,本文从现有的流量识别方法出发,分析其存 在的问题,并提出了针对园区网的p 2 p t v 流量精细识别方法和p 2 p t v 有效监管 方法。 目前,在p 2 p t v 安全监管技术方面,大多数的技术解决方案采用基于端口的 封堵策略,即在内部园区网入口处将p 2 p t v 流识别为p 2 p 流进行过滤。也就是说, 目前的技术主要是对p 2 p 流的识别与过滤,对p 2 p t v 流量的识别与过滤技术还缺 乏深入的研究。 而p 2 p t v 运营商为了应对封堵策略,采用私有协议、动态端口或伪装端口技 术,使得基于端口的p 2 p 流量识别不再有效。因此,本文将深入研究p 2 p t v 的实 时识别与过滤技术,提出简单快捷、行之有效流量精细识别方法,通过流量测量 分析,我们不仅要识别到具体p 2 p t v 平台,还要更精细地识别到频道,对于内部 园区网的p 2 p t v 有效监管具有十分重要的意义。 第2 页 国防科学技术大学研究生院硕十学位论文 现有比较流行的p 2 p t v 平台都是基于流吉机制( g o s s i p b a s e d ) 的非结构化 覆盖网络组播技术传输数据流,简称为非结构化p 2 p 视频组播流。这种数据传输 方式确保了p 2 p t v 用户所需数据及时到达,并处理节点退出与中断,保证系统平 稳播放和提高系统扩展性。通过本文的研究,对于典型的p 2 p t v 的应用平台 ( p p l i v e ,p p s t r e a m ,q q l i v e ,u u s e e ) 的流量识别不但可以识别到p 2 p t v 平台 还可以精细识别到频道的流量。即可以定位到园区网内播放p 2 p t v 的节点在播放 节目所使用的具体平台和所收看具体频道,为有效监管提供技术依据。 本文工作受国家8 6 3 计划信息安全技术专题下属项目“非结构化视频组播流 实时识别与过滤技术的资助,该项目的部分研究成果也体现在本文中。 1 2p 2 p 网络流量监管发展和现状 网络流量监管被网络管理者、网络服务提供商( i s p ) 和相关安全部门所普遍 关注。i s p 应用网络测量法分析进行网络规划,预测业务网络发展趋势,提高服务 质量;而安全部门注重的是网络上是否有违法信息,如何有效监管非法内容在网 络上传播。这些都离不开流量识别。 p 2 p t v 由于通过网络直播视频内容代价小、收看方便,近来得到广泛应用, 特别是重大赛事和重要历史时刻大型活动的直播,p 2 p t v 用户数量激增。大规模 的p 2 p t v 的应用,给网络管理者、i s p 、安全部门带来诸多问题。如:大量占用 带宽、网络安全、服务质量等问题,尤其是安全部门面临着如何监管色情暴力或 反动节目的难题。这些问题有效解决的前提是将p 2 p t v 流量进行精细、准确的分 类识别。 1 2 1p 2 p 网络测量的方法 p 2 p 的测量方式主要有两种,分为主动方式与被动方式。 ( 1 ) 主动测量方法1 1 4 j 主动测量方法使用网络爬虫( c r a w l e r ) 模仿节点主动加入p 2 p 网络,获取相 关的网络特性和节点的属性。主动测量方法一般通过修改普通的p 2 p 客户端来进 行p 2 p 测量,c r a w l e r 像普通节点一样加入p 2 p 系统,然后尽可能地收集相关信息。 这些信息通常包括节点的i p 地址、端口号以及所有可以通过p 2 p 协议获取的元数 据( m e t a d a t a ) 信息。主动测量方法主要用于测量p 2 p 网络的拓扑、延迟、内容可 用性、上传下载比较微观行为特性。 主动测量方法能够直接探测获取p 2 p 网络的特征信息,可信度高、准确性好。 但是,它需要一定的先验知识,而且是针对特定的应用,通用性不强。此外,基 第3 页 国防科学技术大学研究生院硕十学位论文 于c r a w l e r 的主动测量方法引入了额外的探测流量,增加了网络负担。文献【l5 j 采 用网络爬虫的主动测量方法,对校园网和住宅接入网的p p l i v e 流量进行分析,得 出用户行为相似性、节点上传视频数据策略、p p l i v e 的启动延迟、播放延迟等行 为特征。 ( 2 ) 被动测量方法【1 4 1 被动测量方法通常是根据测量目的的不同在网络的不同位置部署一定数量的 测量点,使用特定的软、硬件设备捕获网络流量,通过分析流量被动监测相关的 p 2 p 流量信息。根据测量目的不同,测量点可以位于骨干网络的核心路由器或某个 i s p 网络的边缘出口,也可以在终端上单机流量测量。被动测量方法主要用于测量 p 2 p 网络的流量上行下载速度、节点数量、连接持续时间等宏观流量特性。 被动测量方法被动收集流量信息既不会增加网络负载,也不会对节点本身造 成影响。这种方法可以用于测量多种p 2 p 应用,通用性较好,而且可以通过控制 测量点的位置,还可以给出p 2 p 流量对特定网络区域的影响。被动测量方法的主 要缺点是无法深入了解p 2 p 网络协议行为,而且对测量设备的软、硬件性能有一 定要求。 1 2 2p 2 p 流量识别研究现状 p 2 p 流量在网络总流量中的比例越来越大,解决办法:一方面要依靠提高网络 容量来应对;另一方面要通过p 2 p 流量的识别来过滤非法p 2 p 应用、引导合法的 p 2 p 应用。 在一定程度上,运营商的封堵促进了p 2 p 规避封堵技术的发展,而p 2 p 规避 封堵技术的进步又引起了p 2 p 流量识别技术的提高。基于p 2 p 流量识别的方法目 前比较成熟,根据其发展历程,主要分为以下四个阶段。 ( 1 ) 基于端口识别【1 6 j p 2 p 发展初始阶段,采用固定端口技术,运用基于端口的识别是简单并且行之 有效地方法,只要对采集的流量进行传输层首部分析,得出端口号,与p 2 p 应用 的端口号匹配。随着营运商采用基于端口的封堵p 2 p 流量,p 2 p 应用设计者采用 常用端口伪装或跳变的随机端口,从而有效地规避了初期的基于端口识别与封堵。 ( 2 ) 基于应用层签名识别【1 7 1 【2 2 1 应用层签名又称深层数据包检测技术( d e e pp a c k e ti n s p e c t i o n ,d p i ) ,通过分 析p 2 p 协议和还原技术,提取有效p 2 p 载荷,分析其包含的协议特征即应用层签 名,判断它是否属于已知类库的p 2 p 的具体应用。 通过分析协议或实际的报文归纳建立p 2 p 应用的签名特征模式库。h a f f n e r , s e n 在文酬2 2 l 提出了一个自动构建应用层签名的新方法一a c a s 。它采用机器学习 第4 页 国防科学技术大学研究生院硕十学何论文 的方法使用事先分类好的样本数据对分类器进行训练,从而自动从应用的i p 流量 有效载荷中提取协议特征构成应用层签名。 基于应用层签名的识别p 2 p 应用的方法准确率高、速度快,适合在线处理。 但是存在以下的缺点: 无法识别经过加密过的应用流量 协议私有,应用协议的特征字提取存在一定困难 协议升级协议特征会发生变化 ( 3 ) 基于行为特征的识别 文献【2 3 j 提出网络直径技术,利用p 2 p 系统直径大判断是否属于p 2 p 应用网络。 文献【2 4 】提出b l i n c 方法,三个层面识别流量:社会层、功能层、应用层。社会层 分析主机与其它主机的通信行为;功能层分析其功能作用,是提供服务还是使用 服务;应用层分析传输层的交互,识别具体应用。并表明多级分类方法有较高的 分类成功率和准确率。但文献1 2 5 】指出了b l i n c 不适用于骨干网上的流量测量, 由于骨干网流量只有少部分的主机行为可以被探测,由于非对称路由,我们会错 过一个方向的流量。还有利用流的行为特征对流进行分析,从而应用于p 2 p 流量 的分类与识别,如文献【2 6 h 3 0 1 。但利用这种识别方式只能识别是否属于p 2 p 流量, 但无法判断是属于何种具体的p 2 p 应用。 ( 4 ) 基于机器学习方法的分类与识别【3 1 】 【3 7 l 基于机器学习的方法又可以分为有监督的、无监督和半监督的三种方法,这 三种方法首先都要选取合理的分类特征和分类算法。 有监督的机器学习方法首先采用已知类型的p 2 p 应用流量根据分类特征生成 训练样本经学习训练生成分类模型,待分类流量根据分类特征生成分类样本,输 入分类算法分类器,结合预先生成的分类模型产生分类结果。文献【3 l 】利用有监督 的机器学习方法,运用支持向量机计数分类p 2 p 流量和非p 2 p 流量。文献【3 2 】【3 3 】 利用朴素b a y e s 、文献【3 4 】 【3 5 】利用神经网络的有监督的机器学习分类方法进行流量 分类。 聚类算法是一个将数据集划分成若干个聚类的过程,同一聚类内的数据具有 较高的相似性,而不同聚类中的数据不具有相似性。相似或者不相似是根据描述 数据的属性值来度量,通常使用基于距离的方法。 无监督机器学习的识别方法采用聚类的分类思想。首先对分类识别对象进行 聚类,然后按照聚类的结果产生分类器。聚类的算法有e m ,a u t o c l a s s ,d b s c a n , k - m e a n s 。文献【3 6 】用a u t o c l a s s 、d b s c a n 、k - m e a n s 三种聚类的方法进行p 2 p 流 量识别,其中 1 ) a u t o c l a s s 是基于贝叶斯理论的一种鲁棒算法,自动在模型复杂度和模型适 第5 页 国防科学技术大学研究生院硕十学位论文 应度两者问做出折中,从而町以自动给出分类的类别,同时避免了过学习。 2 ) d b s c a n 算法是基于密度、利用类的密度连通性可以快速发现任意形状的 类。基本思想是:对于一个类中的每个对象,在其给定半径的领域中包含的对象 不能少于某一给定的最小数目。d b s c a n 算法不进行任何的预处理而直接对整个 数据集进行聚类操作。 3 ) k m e a n s 算法是一种典型的逐点修改迭代的动态聚类算法,通过迭代不断 修改迭代聚类中心,进行下一次迭代,这种迭代方法简单易行,对异常划分效果 很好。 文献1 3 6 1 将这几种算法在流量分类应用中作一比较,结果表明d b s c a n 在聚类 时能够比其它两种方法包括更多的连接数,总体成功率更高,相对于其它两种聚 类算法,d b s c a n 有较高的精确度,聚类效果较好。 但是,由于聚类的方法事先不知道类别,存在一定盲目性,而且无法识别具 体的应用。j e r m a n ( 文献f 3 7 1 ) 提出一种半监督的机器学习识别方法,结合有监督 的学习和无监督的聚类方法,标注一份的训练样本后进行聚类,标注样本所在的 聚类被认为是样本所标注的类别,实验证明这种方法有相对较高的分类精度。 1 - 2 3p 2 p t v 识别研究现状 现有的关于p 2 p t v 流量分类的研究很少,大部分关于p 2 p t v 的文章主要是 对p 2 p t v 平台的测量分析。如x i a o j u nh e i 的文献【1 5 】分析了p p l i v e 用户行为相 似性、节点上传视频数据策略、启动延迟、播放延迟等行为特征。c w u 的文献p 剐 深入研究u u s e e 直播时拓扑性质和时间演化行为,以及集群系数和互惠率等特性。 关于p 2 p 流量识别的研究虽然方法众多,相对成熟,但由于这些方法的主要目的 是将p 2 p 应用与非p 2 p 应用作二分类,没有做到应用级的分类,对于p 2 p ,具 体到应用平台的流量分类并不适用。n a p a w i n e 3 9 】项目组s v a l e n t i 等的文献m j 是为数不多、较新的一篇关于p 2 p - t v 流量分类的文章,该文提出一种p 2 p 州流 量分类方法a b a c u s ,其理论出发点是:由于各种p 2 p t v 协议不公开,p 2 p t v 播 放客户端为了满足平稳播放,各个平台协议确定的邻居节点选择机制和视频内容 下载机制存在差异。即有的平台在一个时段内选择少部分节点以较大速度、间隙 下载视频内容数据,而有的平台选中较多的节点以相对较小的速度、持续稳定传 输视频内容数据,两种方式都可以达到平稳播放的目的。而目前各种p 2 p t v 平台 视频数据传输大多依赖一个稳定的( i p ,p o r t ) 通过u d p 协议传输,这就使得这种 技术实现成为可能。在指定的时间内,与视频下载u d p 端口交互的远程节点数目、 各节点发送字节数和数据包个数均可能因为平台不同而存在差异。通过监听指定 的( i p ,p o r t ) 的u d p 的在5 秒内传输的下行数据,分析其发送不同字节数和不同 第6 页 国防科学技术大学研究生院硕十学位论文 数据包的远程节点数目的特性,从而达到分类p 2 p t v 流量的目的。 a b a c u s 方法一定程度上解决了p 2 p t v 流量分类的问题,但并非适用于文中 测试的p 2 p t v 所有平台的所有频道。也就是说,对于给出的特征,作者没有考虑 同一个p 2 p t v 平台频道的差异性。例如,针对作者的实验所用p 2 p t v 平台 s o p c a s t 平台部分频道传输视频数据只有一个远程p e e r ,经过重现a b a c u s 方法, 验证了这种情况下其分类方法效果很差。显然,a b a c u s 方法能正确分类的前提是 p 2 p t v 中客户端远程节点数目存在一个下限从而需要满足文中提及的分类特征向 量统计条件,即前提条件是远程节点数要足够多,而对于远程节点数目很少的情 况并不适用。因此,要全面而又精确的对p 2 p t v 进行流量分类,需要一种更全面 的p 2 p t v 流量分类方法。 1 3 论文研究内容及创新点 根据上述研究现状,可以看出现有的p 2 p t v 流量识别技术还无法满足p 2 p t v 流量识别与监管的需求。因此,本文从p 2 p t v 流量识别现存的问题出发,主要研 究内容及创新点包括以下几个方面: ( 1 ) 研究p 2 p t v 平台的实时检测与识别方法 由于目前主流的p 2 p t v 采用跳变的随机端1 :3 和伪装隐藏技术,文献【1 7 1 1 4 1 1 1 4 2 】 验证了传统的基于端口识别方法已经不再适用。对于加密流量,基于应用层签名 的p 2 p t v 流量识别的方法也无法识别。但a b a c u s 技术选取的分类特征不带有普 遍性,不适用与所有平台的所有频道,其对于远程节点少的直播频道流量识别效 果差,不能满足p 2 p t v 平台的实时检测与识别的要求。因此,寻求一种方便、快 捷,简单易于操作的p 2 p t v 平台流量识别方法是急需解决的问题。要求这种方法 能分析p 2 p t v 区别于其它流量以及p 2 p t v 各平台之间可区别的流量特征,实现 在园区网入口处复杂真实背景流量的网络数据流中准确而有效的检测出p 2 p t v 平台的流量。本文研究了基于视频下载u d p 端口数据帧大小分布的p 2 p t v 平台 流量的识别与分类方法,可以对典型的p 2 p t v 平台进行快速识别。 ( 2 ) 研究典型平台的p 2 p t v 具体到频道的识别 对目标园区网内各类p 2 p ,r v 平台进行有效的监管,最直接的方法就是能够识 别园区网内哪些终端用户在收看p 2 p t v ,以及具体到这些终端用户所收看的具体 频道。也就是说,对于在园区网内收看p 2 p t v 的用户,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论