(控制科学与工程专业论文)基于应用层签名特征的p2p流媒体流量识别技术研究.pdf_第1页
(控制科学与工程专业论文)基于应用层签名特征的p2p流媒体流量识别技术研究.pdf_第2页
(控制科学与工程专业论文)基于应用层签名特征的p2p流媒体流量识别技术研究.pdf_第3页
(控制科学与工程专业论文)基于应用层签名特征的p2p流媒体流量识别技术研究.pdf_第4页
(控制科学与工程专业论文)基于应用层签名特征的p2p流媒体流量识别技术研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(控制科学与工程专业论文)基于应用层签名特征的p2p流媒体流量识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕十学位论文 摘要 随着p 2 p 技术和多媒体信息处理技术的飞速发展,在互联网上采用p 2 p 技术 实现的p 2 p 流媒体应用逐渐成为继p 2 p 文件共享应用之后又一个受到广大互联网 用户喜爱的热点应用。但随着p 2 p 流媒体服务的迅猛发展,严重的安全隐患随之 产生,有必要对p 2 p 流媒体进行有效而合法的监管。p 2 p 流媒体流量识别是p 2 p 流媒体流量监管的基础。因此,p 2 p 流媒体流量识别的研究成为一个重要的问题。 由于目前对p 2 p 流媒体流量识别的研究尚处于起步阶段,相关研究主要集中 在对p 2 p 流量的识别,因此对p 2 p 流媒体流量识别的研究面临诸多挑战。本文在 研究p 2 p 流量识别技术的基础上,对p 2 p 流媒体流量识别进行了深入研究,提出 了有效的方法。归纳起来,本文的研究工作和创新如下: ( 1 ) 基于应用层签名的p 2 p 流媒体流量识别 基于应用层签名的p 2 p 流量识别方法简单、准确,且可对流量进行应用级分 类。因此本文提出了使用基于应用层签名的识别方法来识别p 2 p 流媒体流量。在 总结p 2 p 文件共享应用的应用层签名特征的基础上,分析并提取了p p l i v e 等当前 五种主流的p 2 p 流媒体平台的应用层签名特征。实验表明了本文提取的签名特征 的有效性和基于应用层签名的识别方法识别p 2 p 流媒体流量的有效性。 ( 2 ) 基于b p 神经网络的p 2 p 流媒体流量识别 p 2 p 流媒体是私有协议,手动提取其签名特征比较困难,其签名特征也可能随 时间变化;而且字符串匹配花费代价高昂;这些都给基于应用层签名识别方法识 别p 2 p 流媒体流量带来了问题。针对这些问题,本文提出了基于b p 神经网络自动 构建应用层签名识别p 2 p 流媒体流量的方法,该方法不仅能够满足实时性的要求, 而且能够对p 2 p 流媒体流量进行应用级的分类。研究和分析了基于b p 神经网络的 两类分类和多类分类的p 2 p 流媒体流量识别,实验表明了基于b p 神经网络自动构 建应用层签名方法能够有效的识别p 2 p 流媒体流量。 ( 3 ) p 2 p 流媒体流量识别系统设计 最后,综合运用文中提出的方法,按照模块化设计思想对p 2 p 流媒体流量识 别系统进行了设计。 p 2 p 流媒体流量识别是p 2 p 流媒体流量监管的基础,本文的研究为p 2 p 流媒 体流量监管奠定了良好的理论和技术基础。 类 主题词:p 2 p 流媒体流量识别应用层签名b p 神经网络实时性应用级分 第i 页 国防科学技术火学研究生院硕十学位论文 a b s t r a c t w i t ht h ef a s td e v e l o p m e n to fp 2 pn e t w o r k i n ga n dm u l t i m e d i ai n f o r m a t i o n p r o c e s s i n gt e c h n o l o g y ,p 2 ps t r e a m i n gm e d i aa p p l i c a t i o na c h i e v e db yt h ea d o p t i o no f p 2 pt e c h n o l o g yi sg r a d u a l l yb e c o m i n ga n o t h e rp o p u l a ra p p l i c a t i o nf a v o r e db yi n t e m e t u s e r sf o l l o w i n gp 2 pf i l e - s h a r i n ga p p l i c a t i o n a l s ot h eh i d d e ns a f e t yt r o u b l e sa l e s e v e r e l ye m e r g i n ga l o n gw i t ht h er a p i dd e v e l o p m e n to fp 2 ps t r e a m i n gm e d i as e r v i c e ,s o i ti sn e c e s s a r yt om o n i t o rp 2 ps t r e a m i n gm e d i ae f f e c t i v e l ya n dl e g a l l y p 2 ps t r e a m i n g m e d i at m 衢ci d e n t i f i c a t i o ni st h ef o u n d a t i o no fp 2 ps t r e a m i n gm e d i at r a m cm o n i t o r t h e r e f o r e ,t h es t u d yo fp 2 ps t r e a m i n gm e d i at r a f f i ci d e n t i f i c a t i o nh a sb e e nb e c o m i n ga k e yi s s u e a st h es t u d yo fp 2 ps t r e a m i n gm e d i at r a f f i ci d e n t i f i c a t i o ni ss t i ni ni t si n f a n c ya n d a l lt h er e l a t e ds t u d i e sf o c u so nt h ep 2 pt r a f f i ci d e n t i f i c a t i o n ,s ot h es t u d yo fp 2 p s t r e a m i n gm e d i at r a f f i ci d e n t i f i c a t i o nf a c e sm a n yc h a l l e n g e s i nt h i st h e s i s ,t h ea u t h o r g o e sd e e ps t u d yo np 2 ps t r e a m i n gm e d i at r a f f i ci d e n t i f i c a t i o na n db r i n g su p e f f e c t i v e i d e n t i f i c a t i o nm e t h o d sb a s e do nt h es t u d yo fp 2 p 舰伍ci d e n t i f i c a t i o nt e c h n o l o g y m o r e d e t a i l e d l y ,i tm a k e st h ef o l l o w i n gc o n t r i b u t i o n s : v i e w i n gt h es i m p l i c i t ya n da c c u r a c yo fa p p l i c a t i o ns i g n a t u r e sf o rp 2 pt r a f f i c i d e n t i f i c a t i o n , a n da l s oi t sc a p a b i l i t yo fa p p l i c a t i o n - l e v e lc l a s s i f i c a t i o n , t h i st h e s i s p r o p o s e sa ne f f e c t i v ep 2 ps t r e a m i n gm e d i a 仃a 伍ci d e n t i f i c a t i o nm e t h o db a s e do n a p p l i c a t o ns i g n a t u r ef e a t u r e s t h e s ef e a t u r e s a r ee x t r a c t e db yu sf r o mf i v em o s t l y p o p u l a rp 2 ps t r e a m i n gm e d i ap l a t f o r m s ,s u c ha sp p l i v e ,s o p c a s te t c e x p e r i m e n t a l r e s u l t sp r o v et h e s ef e a t u r e st ob ee f f e c t i v ef o rp 2 ps t r e a m i n gm e d i at r a f 五ci d e n t i f i c a t i o n t h r o u g ha na p p l i c a t i o ns i g n a t u r e sb a s e da p p r o a c hp r o p o s e di nt h i st h e s i s s i n c ep 2 ps t r e a m i n gm e d i aa l w a y su s e sp r i v a t ep r o t o c o l ,i ti sd i f f i c u l tt oe x t r a c t s i g n a t u r e sm a n u a l l y a n df e a t u r ec o m p a r i s o nt h r o u g hs t r i n g - m a t c h i n gi sv e r ye x p e n s i v e m o r e o v e r t h es i g n a t u r e sm a yc h a n g ea l o n g 州t i lt h et i m e a l lt h e s es h o wt h a ta u t o m a t i c s i g n a t u r ee x t r a c t i o nm e t h o d sa r em o r ep r e f e r a b l e t h u st h et h e s i sp r e s e n t sa b pn e u r a l n e t w o r kb a s e da p p r o a c h ,w h i c hc a l la u t o m a t i c a l l ys e l e c ts i g n a t u r ef e a t u r e sf o rd i f f e r e n t p 2 ps t r e a m i n gm e d i ap l a t f o r m sv i at r a i n i n gp r o c e s sa n dm e e tt h en e e d so fr e a l - t i m e a p p l i c a t i o n s i ti sa l s oc a p a b l eo fa p p l i c a t i o n l e v e lc l a s s i f i c a t i o no fp 2 ps t r e a m i n gm e d i a t r a f f i c b o t hb i n a r ya n dm u l t i p l ec l a s s i f i c a t i o na r es t u d i e d e x p e r i m e n t a lr e s u l t sv e r i f y i t se f f e c t i v e n e s sa n de f f i c i e n c y l a s t l y ,t h et h e s i sa p p l i e st h em e t h o d si nt h e s i st od e s i g nap 2 ps t r e a m i n gm e d i a t r a f f i ci d e n t i f i c a t i o ns y s t e mb a s e do nt h em o d u l a rd e s i g np r i n c i p l e s p 2 ps t r e a m i n gm e d i at r a f f i ci d e n t i f i c a t i o ni st h ec o r ep a r to fp 2 ps t r e a m i n gm e d i a t r a f f i cm o n i t o r s ot h es t u d yi nt h e s i sh a sl a i dg o o dt h e o r ya n dt e c h n o l o g yf o u n d a t i o n f o rp 2 p s t r e a m i n gm e d i a t r a f f i cm o n i t o r 第i i 页 国防科学技术人学研究生院硕十学位论文 k e yw o r d s :p 2 ps t r e a m i n gm e d i a t r a f f i ci d e n t i f i c a t i o n 。a p p l i c a t i o n s i g n a t u r e s ,b pn e u r a ln e t w o r k 。r e a lt i m e ,a p p l i c a t i o n l e v e lc l a s s i f i c a t i o n 第i i i 页 国防科学技术人学研究生院硕+ 学位论文 表 目录 表2 1 统计行为特征集l o 表3 1p 2 p 流媒体平台的签名特征2 l 表4 1 样本数据描述。3 2 表4 2p p l i v et c p 流量的最佳识别结果3 6 表4 3p p s t r e a mt c p 流量的最佳识别结果3 9 表4 4 多分类u d p 流量识别实验结果4 l 表4 5 多分类t c p 流量识别实验结果4 1 第l v 页 国防科学技术大学研究生院硕十学位论文 图目录 图3 1m e s h p u l l 流媒体应用的数据分发机制1 7 图3 2 基于应用层签名方法识别流程。2 2 图3 3 五种平台正确识别率对比2 3 图4 1 典型的b p 神经网络结构图2 6 图4 2b p 神经网络学习训练过程流程图2 8 图4 3 基于b p 神经网络方法识别流程3 0 图4 4b 取不同值时,q q l i v eu d p 流量的识别结果3 3 图4 5b = 5 ,p 取不同值时,q q l i v eu d p 流量的识别结果3 4 图4 6p = 1 ,b 取不同值时,p p l i v et c p 流量的识别结果3 4 图4 7p = 2 ,b 取不同值时,p p l i v et c p 流量的识别结果3 5 图4 8p = 3 ,b 取不同值时,p p l i v e t c p 流量的识别结果3 5 图4 9p = 4 ,b 取不同值时,p p l i v et c p 流量的识别结果3 5 图4 1 0p = 5 ,b 取不同值时,p p l i v et c p 流量的识别结果3 6 图4 1 1p p l i v ct c p 流量的最佳识别结果对比3 6 图4 1 2b 取不同值时,p p l i v eu d p 流量的识别结果3 7 图4 1 3b = 5 ,p 取不同值时,p p l i v eu d p 流量的识别结果3 7 图4 1 4p = 1 ,b 取不同值时,p p s t r e a mt c p 流量的识别结果3 8 图4 1 5p = 2 ,b 取不同值时,p p s t r e a mt c p 流量的识别结果3 8 图4 1 6p = 3 ,b 取不同值时,p p s t r e a mt c p 流量的识别结果3 8 图4 1 7p = 4 ,b 取不同值时,p p s t r e a mt c p 流量的识别结果3 9 图4 1 8p = 5 ,b 取不同值时,p p s t r e a mt c p 流量的识别结果3 9 图4 1 9p p s t r e a mt c p 流量的最佳识别结果对比4 0 图5 1p 2 p 流媒体流量识别系统体系结构图4 3 图5 2 系统模块运行流程图4 5 图5 3 旁路监听部署方式4 6 第v 页 独创性:声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文题目:基王廑屡星签名鳖延鳗里2 里逸搓垡速量迟剔擅盔妞究二 学位论文作者签名:茎盘! 塑圭 日期:川年们月歹日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:基王廑扇屋丝挂壁鲍呈2 至速基佳煎量逐型筮盔五窒 学在论文作者签名:兰垒! 墅塾日南:矿男年| 1 月,日 作者指导教师懿:三薹鸩日期:彬。,月j 1 国防科学技术大学研究生院硕十学位论文 第一章绪论 1 1 研究背景 随着p 2 p 网络技术和多媒体信息处理技术的飞速发展,在互联网上采用p 2 p 技术实现的网络电视直播业务( 简称p 2 p 流媒体) 逐渐成为继p 2 p 文件共享应用 之后又一个受到广大互联网用户喜爱的热点应用。尤其在我国,p 2 p 流媒体用户近 年来呈高速增长趋势,根据市场调查报剖1 1 ,到2 0 0 6 年底我国有超过二千五百万 的互联网用户通过p 2 p 流媒体观看过视频节目或下载过p 2 p 流媒体播放软件。p 2 p 流媒体服务约8 0 的市场份额被至少1 5 家专业公司所占据,代表性的有p p l i v e 、 q q l i v e 、p p s t r e a m ;约有2 0 的市场份额被一些不知名的视频服务网站占据。但 随着p 2 p 流媒体服务的迅猛发展,严重的安全隐患随之产生,主要表现在以下几 个方面: ( 1 ) 不同于有线电视专网,p 2 p 流媒体服务架设在互联网的开放环境中,只 要掌握了p 2 p 流媒体传输平台技术,境内外敌对势力就可以利用它传播反动的节 目内容,境内外私设的网络电视台也可以利用它传播暴力色情的节目内容。 ( 2 ) p 2 p 流媒体的节点加入与退出的随意性使得攻击者不需要通过攻击卫星 信道、有线电视线路上插播等较为专业的攻击手段,仅仅利用加入节点即可插播 有害内容,攻击手段隐蔽性更强,成本更低。 ( 3 ) 境内外敌对势力将采用非标准化p 2 p 网络协议、匿名通信和内容加密等 技术加强其p 2 p 流媒体传输机制的抗毁性和自适应性,使得对敌对势力p 2 p 流媒 体节目实行有效的监管、防御和攻击变得十分困难。 针对p 2 p 流媒体服务存在的严重安全问题,我国政府和相关执法部门已开始 在政策法律、技术规范和安全监管等方面实施综合管理工程,正在逐步建立从内 容到编播行为过程再到网络环境的整体监管体系。目前,在p 2 p 流媒体安全监管 技术方面,绝大多数采用的技术解决方案是在内部园区网出入口采用“堵杀 策 略,即将p 2 p 流媒体流视为p 2 p 流进行识别和整体过滤,还无法有效而精确地实 时识别和过滤p 2 p 流媒体流。因此,一旦出现上述安全问题,互联网i s p 或国家 安全部门目前无法做到实时发现和预警,这将不利于p 2 p 流媒体服务产业健康有 序地发展,更为严重的是将直接危害国家安全,严重影响社会稳定。因此,开展 高效、准确的p 2 p 流媒体流量实时识别技术研究,对于在互联网上实施p 2 p 流媒 体有效而合法的监管具有十分重要的意义。 p 2 p 流媒体流量监管通常包含三大步骤:流量采集,流量识别和流量控制。其 中,流量识别是最关键、最核心的环节。因此,p 2 p 流媒体流量识别技术的研究对 第l 页 国防科学技术大学研究生院硕十学位论文 进行p 2 p 流媒体流量监管具有十分重要的意义。 本文的研究来自于国家8 6 3 信息安全计划项目非结构化视频组播流实时 识别与过滤技术,本人主要负责p 2 p 流媒体流量识别关键技术的研究,以及对p 2 p 流量识别系统进行设计和实现。本文在研究p 2 p 流量识别技术的基础上,对p 2 p 流媒体流量识别技术进行了深入研究,并根据本文提出的识别方法对p 2 p 流媒体 流量识别系统进行了设计。本文的研究为p 2 p 流媒体流量监管奠定了良好的理论 和技术基础。 1 2 1 相关研究 1 2 相关研究现状 1 2 1 1i 2 p 流量识别技术研究现状 现有的相关研究主要集中在对p 2 p 流量的识别,即将p 2 p 流量与非p 2 p 流量 区分开来。根据使用特征的不同,可以把已有的p 2 p 流量识别方法分为基于应用 层签名的识别方法【2 - 5 l ,基于流量特征的识别方法【6 。1 6 l ,基于双重特征的识别方法【5 17 ,1 8 1 和基于统计行为特征的识别方法f 1 9 。2 引。这些方法的基本原理、优缺点、研究现 状和发展趋势将在下一章中详细介绍。 1 212p 2 p 流媒体流量识别技术研究现状 目前对于p 2 p 流媒体流量识别的研究尚处于起步阶段。关于p 2 p 流媒体,国 内外的研究主要集中于p 2 p 流媒体技术和p 2 p 流媒体测量。文献 2 9 3 2 1 ,【3 3 ,3 4 1 , 【3 2 ,3 4 ,【3 4 ,【3 5 分别对p p l i v e ,t v a n t ,s o p c a s t ,p p s t r e a m ,u u s e e 的协议、流 量特征和拓扑结构进行了详细的分析和研究。但是目前尚没有查到国外有研究p 2 p 流媒体流量识别的文献,国内只查到两篇,即文献【3 6 】和文献【3 7 1 。文献【3 6 】和3 7 1 对p 2 p 流媒体流量识别的研究取得了一定的成果,但是也存在一些问题。文献 3 6 1 首先提出使用基于应用层签名的识别方法来识别p 2 p 流媒体流量,并提出了一个 自动发掘应用层签名的算法。但是他们使用该算法对p p l i v e 、q q l i v e 、s o p c a s t 和 p p m a t e 进行实验,仅仅发掘出了p p l i v e 的应用层签名“0 x e 9 、“0 x 0 3 ”和q q l i v e 的签名“0 x f e ,而且并没有对利用该签名来识别p 2 p 流媒体流量的有效性进行验 证。文献【3 7 】通过实验发现p 2 p 流媒体节点作为接收端时所对应的源i p 数和源端 口数基本相等这一连接特征,提出了基于连接特征的p 2 p 流媒体流量的识别方法, 并用实验验证了该方法识别率达到9 5 以上。但是该方法不能对p 2 p 流媒体流量 进行应用级分类。 1 2 2 相关产品 第2 页 国防科学技术人学研究生院硕十学何论文 目自订国内外有很多p 2 p 流量识别的产品,它们都宣称能够识别p 2 p 流媒体流 量,然而其识别准确性尚无第三方的完整测试。 这些产品可以分为: ( 1 ) 纯软件型 开源软件l 7 f i l t e r l 3 s 1 和i p p 2 p 3 9 】是这种产品的典型代表。l 7 f i l t e r ( 1 a y e r 7p a c k e t c l a s s i f i e r ) 是基于l i n u x 的i p t a b l e s 系统上的一个模块,实现了o s i 第七层应用层 协议的识别。它是通过对报文的依次解封装,提取应用层的数据,利用正则表达 式对提取出的数据进行匹配,从而识别出应用层的协议。而i p p 2 p 也是基于l i n u x i p t a b l e s 系统上的一个模块,i p p 2 p 只能实现一些p 2 p 应用的识别,针对每个应用, i p p 2 p 构建专用的处理函数进行匹配,采用的模式为精确串、固定域及报文的长度。 这两个软件都适合于小流量的网络环境,其检测的准确性有待评估。 ( 2 ) 软硬件协同型 这种方式可以利用精心设计的硬件为软件运行赢得更好的性能,主要用于大 流量的网络环境以及一些对网络延迟要求非常严格的场合。 国外的产品主要包括c i s e o 公司的n e t f l o w 技术 4 0 i 、a l l o t 公司的故障恢复流 量管理方案【4 l 】、c a c h e l o g i c 公司的c a c h e l o g i cp 2 p 管理方案1 4 2 1 、v e r s ot e c h n o l o g i e s 公司的n e t s p e c t i v e 系列产品【4 3 】等,这些产品都使用了自行研发的深层数据包检测 技术,除了在性能和识别精度上存在差别外,其技术的本质是相同的。 国内的产品主要包括华为的s e c p a t h 系列防火墙【删和e u d e m o n 系列防火墙【4 5 1 , c a p t e c h 的网络管理软件一网络慧眼c a p t ! ,畅讯通信产品q q s g t 4 7 1 ,以及 启明星辰的天阗i d s 4 8 】等,这些产品同样采用深层数据包检测技术,协议识别性 能较低。 1 2 3 研究现状总结 首先p 2 p 流量识别的研究已经相当成熟,研究人员已提出了很多不同的方法。 鉴于p 2 p 流媒体流量是特殊的p 2 p 流量,所以本文在研究p 2 p 流媒体流量识别的 过程中,可以借鉴已有的p 2 p 流量识别方法。 其次对p 2 p 流媒体流量识别技术的研究尚处于起步阶段,已经提出的方法还 不成体系,也没有很好地验证方法的有效性。 再次现有的p 2 p 流量识别产品大多数采用了应用层签名作为识别特征,由此 也很好地佐证了这一特征对于p 2 p 流量识别的有效性。因此,本文接下来研究p 2 p 流媒体流量识别方法的过程中将主要使用应用层签名特征。 总之,当前对p 2 p 流媒体流量识别的研究还基本处于空白状态,所以有必要 深入研究这一技术,这也是本课题的重要动因之一。而从已有的对p 2 p 流量识别 第3 页 国防科学技术大学研究生院硕十学位论文 的研究成果来看,应用层签名特征具有简单、准确和可对流量进行应用级分类的 优点。因此,本文将重点利用这种特征来实现p 2 p 流媒体流量的识别。 1 3 论文研究内容 如上所述,本文将重点研究基于应用层签名特征的p 2 p 流媒体流量识别技术。 其主要研究内容包括以下几点: ( 1 ) 基于应用层签名的p 2 p 流媒体流量识别 基于应用层签名的识别方法简单、准确,且可对流量进行应用级分类,本文 提出了使用基于应用层签名方法来识别p 2 p 流媒体流量,研究了p p l i v e 等五种主 流p 2 p 流媒体平台应用层签名特征的提取。 ( 2 ) 基于b p 神经网络的p 2 p 流媒体流量识别 p 2 p 流媒体是私有协议,手动提取其签名特征比较困难,其签名特征也可能随 时间变化;而且字符串匹配花费代价高昂;这些都给基于应用层签名识别方法识 别p 2 p 流媒体流量带来了问题。针对这些问题,本文提出了基于b p 神经网络自动 构建应用层签名识别p 2 p 流媒体流量的方法,研究了基于b p 神经网络的两类分类 和多类分类的p 2 p 流媒体流量识别。 ( 3 ) p 2 p 流媒体流量识别系统设计 在关键技术研究的基础上,对p 2 p 流媒体流量识别系统进行了设计。 1 4 论文组织结构 论文全文共六章。围绕p 2 p 流媒体流量识别的研究展开,各章节的组织如下: 第一章为绪论,介绍了本文的研究背景,分析了p 2 p 流媒体流量识别的研究 现状,阐述了本文的研究内容,给出了本文的组织结构安排。 第二章为p 2 p 流媒体流量识别基础研究。首先研究分析了目前p 2 p 流量识别 方法的基本原理,各方法在p 2 p 流量识别过程中的特点和存在的问题,以及其发 展现状,发展趋势。然后对p 2 p 文件共享应用的应用层签名特征进行了分析总结。 第三章为基于应用层签名的p 2 p 流媒体流量识别研究。首先分析了现有研究 的不足,提出了使用基于应用层签名的识别方法来识别p 2 p 流媒体流量。然后分 析和提取了五种主流p 2 p 流媒体平台的应用层签名特征。最后是实验情况以及对 实验结果的分析。 第四章为基于b p 神经网络的p 2 p 流媒体流量识别研究。首先分析了基于应用 层签名方法识别p 2 p 流媒体存在的问题,提出了使用b p 神经网络自动构建应用层 签名来识别p 2 p 流媒体流量的方法。然后介绍了b p 神经网络,分析和研究了基于 第4 页 国防科学技术大学研究生院硕十学何论文 b p 神经网络的两类分类和多类分类的p 2 p 流媒体流量识别。最后是实验情况以及 对实验结果的分析。 第五章为p 2 p 流媒体流量识别系统的设计。在关键技术研究的基础上,给出 了p 2 p 流媒体流量识别系统的总体结构设计和模块设计以及部署位置。 第六章对全文的工作和创新点进行总结,并展望了后续的研究方向。 第5 页 国防科学技术大学研究生院硕十学位论文 第二章p 2 p 流媒体流量识别的研究基础 2 1 引言 目前对p 2 p 流媒体流量识别的研究尚处于起步阶段,现有的研究主要集中于 对p 2 p 流量的识别。因此为了解决p 2 p 流媒体流量识别问题,有必要对p 2 p 流量 识别技术展开详细研究。本章根据使用特征的不同,把已有的p 2 p 流量识别技术 分为基于应用层签名的识别方法,基于流量特征的识别方法,基于双重特征的识 别方法和基于统计行为特征的识别方法,并对这四种方法作了详细了研究。然后 对p 2 p 文件共享应用的应用层签名特征进行了总结分析,为下一章提取p 2 p 流媒 体的应用层签名特征打下了基础。 2 2p 2 p 流量识别技术综述 目前对于p 2 p 流量识别的研究已经相当成熟。根据使用特征的不同,可以把 已有的p 2 p 流量识别技术分为基于应用层签名的识别方法,基于流量特征的识别 方法,基于双重特征的识别方法和基于统计行为特征的识别方法。下面分别对这 四种方法进行详细研究。 2 2 1 基于应用层签名的识别方法 应用层签名识别方法也叫做深层数据包检测技术( d e e pp a c k e ti n s p e c t i o n , d p i ) ,其原理是首先通过协议分析与还原技术,提取p 2 p 应用层数据( 即p 2 p 载 荷) ,然后通过分析p 2 p 载荷所包含的协议特征值( 即签名特征) ,来判断是否属于 p 2 p 应用。它通过对具体的p 2 p 协议及其对应的p 2 p 系统的载荷进行签名特征提 取,建立签名特征库,对于流经的实时网络流,采用模式匹配算法,判断其中是 否包含签名特征库中的特征串。如果特征匹配成功,该网络流就是p 2 p 流。 文献f 2 1 通过分析可用的文档和实际报文t r a c e 来获得应用层签名特征,然 后利用签名特征匹配识别流量;他们对p 2 p 文件共享应用g n u t e l l a 、e d o n k e y 、 d i r e c t c o n n e c t 、b i t t o r r e n t 以及k a z a a 的签名特征进行了分析,并利用这些签名特 征匹配识别了这五种流量,证明了该方法可以达到9 5 的精确率。文献【3 】利用文 献【2 】提出的应用层签名特征设计实现了一个简单、有效并且灵活的p 2 p 流量测量 系统。鉴于文献【2 】获得的应用层签名特征仅限于p 2 p 协议的范围,并且往往要检 查全报文与匹配多个特征串,效率较低,文献【4 】进一步研究为每种协议定义唯一 的签名特征串,并将特征串的定义扩展至传统的应用层协议范围;他们对常见的 第6 页 国防科学技术人学研究生院硕十学位论文 b t 、e d o n k e y 、m s n 、s m p t 、p o p 3 、f t p 和h t t p 七种,l :放协议定义了唯一的 签名特征串,并验证了他们的方法的有效性。文献【5 】对应用层签名方法进行了改 进,证明了仅需对网络流的前5 个报文进行签名匹配就能识别该网络流,极大的 改进了应用层签名方法的效率。 应用层签名识别方法易于理解、升级方便、维护简单,是目前运用最普遍的 p 2 p 流量识别方法。其主要优点包括:简单,准确性高,可对流量进行应用级分类。 因此现在大部分商业化的p 2 p 流量识别软件采用的都是应用层签名识别方法。然 而应用层签名识别方法也存在很多缺点,如签名不能识别未知的p 2 p 流量:p 2 p 应用不断更新,签名不断改变,使用签名识别需要不断更新签名库;签名的选择 对检测性能有很大影响;签名识别过程需要进行字符串的匹配与回归检验,是个 高强度计算的过程,花费代价高昂;p 2 p 应用加密数据,例如用s s l 传输数据, 使得签名识别无效;签名识别还涉及到p 2 p 版权问题。 2 2 2 基于流量特征的识别方法 在p 2 p 系统中,每个节点既是客户端也是服务器,这种节点充当双重角色的 特点,使得p 2 p 应用与h t i p 、f t p 、e m a i l 等传统的i n t e m e t 网络应用在传输层 表现出不同的流量特征。基于流量特征的识别方法的基本思想就是通过对传输层 数据报文( 包括t c p 和u d p 数据报文) 进行分析,并结合p 2 p 系统所表现出来 的流量特征,来识别某个网络流是否属于p 2 p 流。这类方法【6 】主要包括:端口识别 技术、节点角色分析技术、网络直径分析技术、t c p u d p 法和( i p ,p o r t ) 法等。 端口识别技术就是根据t c p i 肪p 数据报文首部的源端口号或目的端口号来识 别常见的业务流量。传统的i n t e r n e t 网络流量和早期出现的p 2 p 流量都采用固定端 口传输,所以可以通过匹配端口来识别p 2 p 流量。文献 7 】首次提出了p 2 p 流量识 别问题,通过捕获特定端口的流量,对当时最为流行的3 种p 2 p 文件共享应用 g n u t e l l a ,f a s t t r a c k ,d i r e c t c o n n e c t 进行了全面的测量与分析。文献【8 】先通过离线 统计的方式找出各种p 2 p 应用的常用端口,然后把这些常用端口信息用于流量检 测中作为应用分类的依据,并使用该方法针对韩国当时流行的p 2 p 软件进行了测 试,但是没有给出性能参数。端口识别技术比较简单,所以传统的p 2 p 识别软件 都采用端口识别技术。然而随着p 2 p 技术的不断发展,许多p 2 p 应用为了躲避流 量检测和过滤,采用伪装端口技术和动态选取端口技术,使得端口识别技术已经 失效。文献【9 】通过分别用端口识别技术和基于应用层签名识别方法测量p 2 p 流量, 证实了端口识别技术的无效性。文献【1 0 】证实了端口识别技术已经无法识别网络中 5 0 7 0 的流量。 节点角色分析技术利用了p 2 p 系统中每个节点具有双重角色的特点。p 2 p 系 第7 页 国防科学技术大学研究生院硕+ 学位论文 统中的每个节点,既是客户端,也是服务器。因此,如果可以判断某个逻辑网络 中具有这种双重角色的节点,且这种节点的数目超过某个阈值,就可以确定该网 络为p 2 p 网络。文献【1 1 】采用该技术识别了w i n n y 流量,通过记录并计算网络中 同时充当客户端和服务器两个角色的节点数,发现如果该数超过某个阈值,则这 些节点所形成的网络就是p 2 p 网络,而该网络中的节点就是p 2 p 节点,相应的流 量也即是p 2 p 流量。节点角色分析技术需要记录整个网络的连接状态,因此不仅 存储和计算开销大,而且也不支持p 2 p 流量的实时识别与过滤。 网络直径分析技术利用了p 2 p 系统所组成的逻辑网络具有网络直径大这一特 点,通过判断一个逻辑网络的直径是否大于某一阈值来确定它是否属于p 2 p 网络。 文献【1 2 】综合利用节点角色分析技术和网络直径分析技术去识别p 2 p 流,通过记录 网络中每个节点与其他节点建立连接的情况而得到p 2 p 系统的逻辑连接拓扑图, 并计算其网络直径;其研究表明,与其他网络应用所形成的逻辑网络相比,p 2 p 系统所形成的逻辑网络具有更大的直径。因此,如果网络直径超过某个阈值,则 该网络中的节点就是p 2 p 节点,相应的流量就是p 2 p 流量。和节点角色分析技术 一样,由于网络直径的计算也需要记录整个网络的连接状态,因此同样面临着不 仅存储和计算开销大,而且也不支持p 2 p 流量的实时识别与过滤等问题。 t c p u d p 法利用了p 2 p 系统可能同时使用t c p 和u d p 协议的特点。实际分 析结果表明,p 2 p 系统一般采用u d p 来发送控制信息,而采用t c p 协议来传输数 据。在一般的应用中,通常一个应用极少出现同时使用u d p 协议和t c p 协议的情 况。因此,可以利用p 2 p 系统的这个特征来识别p 2 p 流量。文献f 1 3 1 提出的t c p a j d p 启发式即是这一方法,如果一个i p 对之间同时使用t c p 协议和u d p 协议,那么 这对i p 之间除了基于知名端口的非p 2 p 流量,其他流量都视为p 2 p 流量。 ( i p ,p o i 汀) 法也是利用了p 2 p 系统中节点具有双重角色的特点。实际分析 结果表明,在p 2 p 系统中,每个节点既是客户端又充当服务器,为了与网络中的 其它节点进行通信,它需要广播自己的i p 地址和端口号。由于采用随机端口技术, 这些进行对等通信的主机的端口号往往不相同,因此,主机i p 地址和端口号两者 的数目应大致相同。然而其他传统i n t e m e t 网络应用( 如h t t p ) 往往需要建立多个 连接来传送数据,因此来自于同一个源i p 的节点可能采用不同的源端口,与w e b 服务器建立多条连接,其源i p 数与源端口数往往不同。因此,可以利用这一特点 来识别p 2 p 流量。文献 1 3 1 提出的( i p ,p o r t ) 启发式即是这一方法,如果某节 点所连接的不同i p 数和不同端口数之差小于特定阈值,则认为该节点是属于p 2 p 应用的,那么包含该节点的所有流量都视为p 2 p 流量。 还有些其他的基于流量特征的识别方法,如文献【1 4 1 通过在传输层上考察p 2 p 主机在网络中的流行度、功能角色和行为小图( g r a p h l e t ) 并据此总结出启发集, 第8 页 国防科学技术大学研究生院硕十学何论文 主要从社会、功能和应用三个层次分别研究p 2 p 主机的行为特征,通过识别p 2 p 主机来识别p 2 p 流量。文献 1 5 】研究总结得出分布式架构的p 2 p 应用大都具有通用 的u d p 连接模式,即在固定时间间隔内,从单个i p 地址,固定的u d p 端口与很 多目的i p 地址、固定或随机的u d p 端口通信,通过这一连接特征可以识别分布式 架构的p 2 p 应用流量。文献【1 6 】对基于流量特征的识别方法在国内网络环境中的不 足,提出了3 条改进策略:基于非p 2 p 知名端口的过滤机制;基于有效数据流的 计数机制:基于反向流的f t p 过滤机制。并在国内网络流量记录上验证了上述改 进策略的有效性,实验结果表明其p 2 p 流量识别精确率达到9 9 。 基于流量特征的识别方法的优点包括可扩展性好、性能高和可识别加密数据 流。可扩展性好是指该方法利用了p 2 p 应用所具有普适性流量特征,不仅可以发 现已有的p 2 p 流量,也可以识别新的、符合普适性流量特征的p 2 p 流量。性能高 是由于不需要对协议进行解析和还原,且也不需要对p 2 p 应用载荷进行分析,因 此计算开销和存储开销小,识别算法性能高。可识别加密p 2 p 流量是由于基于流 量特征的识别方法不依赖具体的p 2 p 应用载荷,因此,数据是否加密对检测算法 没有影响。基于流量特征的识别方法也有很多不足,如无法对p 2 p 流量进行应用 级分类;网络环境的复杂性使得无法精确获取p 2 p 应用的流量特征,导致识别精 度的下降;将来的p 2 p 应用的传输层特征可能改变。 2 2 3 基于双重特征的识别方法 基于双重特征的识别方法,是综合发挥基于应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论