已阅读5页,还剩63页未读, 继续免费阅读
(控制科学与工程专业论文)基于主动测量的p2p流媒体异常检测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕十学何论文 摘要 近年来,p 2 p 流媒体应用逐渐成为继p 2 p 文件共享应用之后又一个受到广大 互联网用户喜爱的热点应用。然而,严重的安全隐患也随之产生,因此有必要对 p 2 p 流媒体进行有效而合理的监管。 显然,有效而合理的监管应当基于对p 2 p 流媒体播放内容的甄别,即要能够 检测p 2 p 流媒体播放内容可能出现的异常。但直接检测内容异常需要进行视频复 原和视频内容分析,技术难度较大,难以很快进入实用,而且这些方法通常计算 复杂,无法达到异常的实时检测。一种替代的方式是通过分析p 2 p 流媒体的用户 参与情况来间接推断其内容是否异常。鉴于用户数量是播放内容最直接的反映, 所以本文重点研究如何借助主动测量技术来获取p 2 p 流媒体的在线用户数量,并 通过检测用户数量异常来预警其播放内容可能出现的异常。本文所做的创新性工 作主要包括如下三个方面: 首先,本文研究了p 2 p 流媒体的主动测量方法。在对p 2 p 流媒体的基本原理 和协议模型分析的基础上,针对目前p 2 p 流媒体爬行器存在的爬行规模小、“快照 不完整等问题,设计并实现了一个p 2 p 流媒体多协议爬行器( t v c r a w l e r ) 。然后, 以爬行器的爬行性能最优为目标,对其具体参数进行了测量与优化。进而,利用 该爬行器获取了大量不同时段的用户数量数据,并分析了p 2 p 流媒体用户数量随 时间的变化规律,为本文的后续工作奠定了基础。 其次,本文建立了正常情况下p 2 p 流媒体用户数量的预测模型。借鉴网络流 量预测的相关技术,本文采用时间序列分析方法对爬行实验获取的用户数量数据 进行分析并建立相应的自回归( a u t o r e g r e s s i o n ,a r ) 模型,该模型能对正常情 况下的真实用户数量进行有效预测,从而为p 2 p 流媒体用户数量异常检测提供了 良好的比对基础。 最后,本文提出了p 2 p 流媒体用户数量异常的动静态结合( d y n a m i c & s t a t i c , d & s ) 检测法。研究了阈值检测方法和基于统计理论的异常检测方法,利用其中 的自适应阈值法和残差比检测法分别对p 2 p 流媒体用户数量异常进行检测,针对 两种检测方法各自的优缺点以及异常的漏检情况,本文提出了将动态检测与静态 检测相结合的d & s 检测法。实验表明该方法能够有效地检测p 2 p 流媒体用户数量 异常,并可获得比自适应阈值法和残差比检测法更高的检测精度。 本文的研究为p 2 p 流媒体有效而合理的监管提供了良好的理论和技术基础。 关键词:p 2 p 流媒体主动测量异常检测自回归模型动静态结合检测法 第i 页 国防科学技术大学研究生院硕+ 学位论文 a b s t r a c t p 2 ps t r e a m i n gm e d i ai sg r a d u a l l yb e c o m i n gm o t h e rp o p u l a ra p p l i c a t i o no nt h e i n t e m e tf o l l o w i n gp 2 p f i l e - s h a r i n ga p p l i c a t i o n h o w e v e r , s e v e r es e c u r i t yr i s k sa r ea l s o b r o u g h ta b o u t t h e r e f o r e ,i ti sn e c e s s a r yt om o n i t o rp 2 ps t r e a m i n gm e d i ae f f e c t i v e l y a n dl e g a l l y i ti so b v i o u st h a te f f e c t i v ea n dl e g a lm o n i t o r i n go fp 2 ps t r e a m i n gm e d i as h o u l db e b a s e do nt h em e d i ac o n t e n t p a r t i c u l a r l y , a b n o r m a lc o n t e n t ss h o u l db ed e t e c t e da n dt h e c o r r e s p o n d i n g p 2 ps t r e a m i n gt r a f f i cs h o u l db ef i l t e r e do u t h o w e v e r , v i d e o r e c o n s t r u c t i o na n dv i d e oc o n t e n ta n a l y s i sa r en e e d e dw h e nd e t e c t i n ga b n o r m a lp 2 p s t r e a m i n gm e d i ac o n t e n t s t h e s et e c h n i q u e sa r ei m m a t u r en o w , w h i c hc a u s e ss t r e a m i n g m e d i ac o n t e n ta n o m a l yd e t e c t i o nt ob et o oc h a l l e n g i n ga n dc o m p l e xt op r a c t i s e am o r e p r a c t i c a la l t e r n a t i v ei st op e r f o r mi n d i r e c tj u d g e m e n tb yi n s p e c t i n gt h eb e h a v i o r so f u s e r si n v o l v e d o b s e r v e dt h a tu s e ra m o u n ti st h em o s tr e l e v a n ta n ds i m p l ef e a t u r e r e l a t e dw i t hb r o a d c a s tm e d i ac o n t e n t ,t h i st h e s i sf o c u sm a i n l yo nt h ep r o b l e m so fh o wt o c o u n tu s e r so n - l i n et h r o u g ha c t i v em e a s u r e m e n ta n dh o wt of i n do u tp o t e n t i a la b n o r m a l c o n t e n t sv i au s e ra m o u n ta n o m a l i e sd e t e c t i o n i t sc o n t r i b u t i o n s a r el i s t e da sf o l l o w i n g f i r s t l y , t h et h e s i ss t u d i e st h em e a s u r e m e n to fp 2 ps t r e a m i n gm e d i au s e ra m o u n t s i n c et h ee x i s t i n gp 2 ps t r e a m i n gm e d i ac r a w l e r sh a st h ep r o b l e m so fs m a l ls c o p ea n d i n c o m p l e t ei n f o r m a t i o n ,ap 2 ps t r e a m i n gm e d i at v c r a w l e ri sd e s i g n e db a s e do nt h e b a s i cp r i n c i p l ea n dp r o t o c o lm o d e la n a l y s i s t h e ni t sp a r a m e t e r sa r em e a s u r e da n d o p t i m i z e dt oa c h i e v eo p t i m a lp e r f o r m a n c e a f t e rt h a t ,t h ep a t t e r no fp 2 ps t r e a m i n g m e d i au s e ra m o u n ti sw o r k e do u tt h r o u g ht h ea n a l y s i so fm e a s u r e m e n tr e s u l t s s e c o n d l y , a na r ( a u t or e g r e s s i o n ) m o d e lf o rp 2 ps t r e a m i n gm e d i au s e ra m o u n t p r e d i c t i o nu n d e rn o r m a lc o n d i t i o n si sp r e s e n t e db a s e do nt h et i m es e r i e sa n a l y s i s t h e o r i e s ,w h i c hp r o v i d e sg o o dr e f e r e n c e sf o ra n o m a l yd e t e c t i o n f i n a l l y , t h et h e s i sp r o p o s e sad & s ( d y n a m i ca n ds t a t i c ) m e t h o df o ra n o m a l y d e t e c t i o no fp 2 ps t r e a m i n gm e d i au s e ra m o u n t t h et h r e s h o l db a s e da n ds t a t i s t i c sb a s e d a n o m a l yd e t e c t i o nm e t h o d sa r ef i r s t l ys t u d i e d t h e n ,s e l f - a d a p t i v et h r e s h o l dm e t h o da n d r e s i d u a lr a t i od e t e c t i o nm e t h o da r er e s p e c t i v e l ya p p l i e dt od e t e c tt h ea n o m a l i e si np 2 p s t r e a m i n gm e d i au s e ra m o u n td a t ac a p t u r e dt h r o u g hc r a w l i n ge x p e r i m e n t s b o t h m e t h o d sy i e l da c c e p t a b l ed e t e c t i o nr e s u l t s ,w h i l et h e yb o t hh a v en o t a b l ed i s a d v a n t a g e s i nv i e wo ft h a t ,ad & sd e t e c t i o nm e t h o di sp r o p o s e dt oc o m b i n et h ed y n a m i cd e t e c t i o n a n ds t a t i cd e t e c t i o n e x p e r i m e n t a lr e s u l t sd e m o n s t r a t ei t se f f e c t i v e n e s sa n ds h o wt h a ti t i sr e m a r k a b l ys u p e r i o rt ot h es e l f - a d a p t i v et h r e s h o l dm e t h o da n dr e s i d u a lr a t i od e t e c t i o n m e t h o d t h ew o r ko ft h i sd i s s e r t a t i o nc a np r o v i d ea g o o dt h e o r e t i c a la n dp r a t i c a lf o u n d a t i o n f o rp 2 ps t r e a m i n gm e d i a m o n i t o r i n gi nn e a rf u t u r e 第i i 页 国防科学技术大学研究生院硕十学位论文 第i i i 页 国防科学技术大学研究生院硕十学位论文 表目录 表2 1 爬行终端部署1 7 表2 2 不同停止阈值下的平均节点完整性和平均边完整性1 9 表2 3t v c r a w l e r 平均爬行速度2 0 表4 1 自适应阈值检测法在不同阈值下的检测结果4 4 表4 2d & s 检测法在不同阈值下的最佳检测结果5 0 表4 3 三种异常检测算法的最佳检测结果5 1 第1 i i 页 国防科学技术大学研究生院硕+ 学位论文 图目录 图1 1 基于多类的异常检测5 图1 2 基于一类的异常检测5 图1 3 基于密度的异常检测算法的缺点。6 图1 4 本文的研究结构1 1 图2 1p 2 p 流媒体通信协议框架1 4 图2 2p 2 p 流媒体多协议爬行器( t v c r a w l e r ) 系统结构1 5 图2 3t v c r a w l e r 多协议爬行引擎。1 5 图2 4 反馈方式对爬行速度的影响1 7 图2 5t v c r a w l e r 爬行时长与“快照”的关系1 9 图2 6 用户数量观测值序列( p p l i v e 第一财经频道,2 0 0 9 0 7 2 0 - - 0 7 2 4 ) 2 0 图2 7 周一至周五与周末用户数量的不同模式2 1 图3 1 原始的用户数量观测子序列2 8 图3 2 取对数后用户数量观测值序列2 8 图3 3 预处理结果2 8 图3 4 ,的自相关函数2 9 图3 5 ,的偏自相关函数2 9 图3 6 方差和各准则函数3 1 图3 7 真实曲线与预测曲线3 3 图4 1 访问异常( p p l i v e 第一财经频道,2 0 0 9 1 0 0 1 ) 3 5 图4 2 故障异常3 5 图4 3 恒定阈值检测法示意图3 6 图4 4 检测序列中的局部3 8 图4 5 观测值序列与滑动时间窗示意图3 8 图4 6 阈值检测法可能检测不到的异常4 0 图4 7 动态检测方法可能检测不到的异常4 0 图4 8 用户数量的正常行为区域示意图4 4 图4 9 正常行为模式d f 值的直方图统计4 5 图4 1 0u 和取3 5 时,残差比检测法实验结果4 6 图4 1 1 容许范围为2 倍标准差,u 和取3 5 时,d & s 检测法实验结果4 7 图4 1 2 容许范围为2 5 倍标准差,u 和取3 5 时,d & s 检测法实验结果4 8 图4 1 3 容许范围为3 倍标准差,【厂和工取3 5 时,d & s 检测法实验结果4 9 第页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:基王圭边型量鲍里至里速搓签是鲎拴型撞盔珏窒 学位论文作者签名:一盔重量日期:炒罗年,瑚 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论交的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阗;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名: 作者指导教师签名: 日期:加歹年瑚日 日期m 1 7 年1 2 月日 二 国防科学技术大学研究生院硕+ 学何论文 第一章绪论 1 1 课题的研究背景和意义 2 0 0 9 年1 月1 3 日,c n n i c 在京发布了第2 3 次中国互联网发展状况统计报 告,报告显示,截至2 0 0 8 年底,中国网民规模达到2 9 8 亿人,较2 0 0 7 年增长 4 1 9 ,互联网普及率达到2 2 6 ,其中宽带网民2 7 亿人,占网民总体的9 0 6 , 网络视频的使用率达6 7 7 ,涵盖网民规模2 0 2 亿人,已日趋成为基础型网络应 用。网络视频主要分三类:( 1 ) 大型门户类网站视频:( 2 ) 分享类视频:( 3 ) 流 媒体,其中p 2 p 流媒体是近年来兴起的p 2 p 网络视频应用,它将传统的p 2 p 技术 与流媒体技术相结合,能够支持数万人同时在线的大规模访问,是近两年来最为 流行的p 2 p 网络视频应用。2 0 0 8 年1 2 月2 日,互联网协会负责人在“中国r r 两会” 上表示,我国已成为p 2 p 流媒体发展最快的国家。以p p l i v e 、p p s t r e a m 2 1 、 u u s e e 3 1 、s o p c a s t 4 】和q q l i v e 5 】为代表的p 2 p 流媒体应用,以其优质的视频质量, 丰富的视频内容,免费的服务方式和稳定的服务性能吸引了众多用户。 p 2 p 流媒体的迅速发展与应用在网络带宽、媒体版权等方面引发了诸多问题, 更重要的是严重的安全隐患也随之产生: ( 1 ) p 2 p 流媒体的服务架设在互联网的开放环境中,只要掌握了p 2 p 流媒体 传输平台技术,境内外敌对势力可以利用它传播反动的节目内容,境内外私设的 网络电视台也可以利用它传播暴力色情等此类节目内容。 ( 2 ) p 2 p 流媒体的节点加入与退出的随意性使得攻击者不需要通过攻击卫星 信道、有线电视线路上插播等较为专业的攻击手段,利用加入节点即可插播有害 内容,攻击手段隐蔽性更强,成本更低。 针对p 2 p 流媒体服务存在的严重安全问题,我国政府和相关执法部门已开始 在政策法律、技术规范和安全监管等方面实施综合管理工程,正在逐步建立从内 容到编播行为过程再到网络环境的整体监管体系。 由于p 2 p 流媒体服务从2 0 0 5 年才刚刚兴起,而且各p 2 p 流媒体运营商为了躲 避监管,均采用随机端口、私有协议等方式,这给p 2 p 流媒体流量的识别带来了 很大困难。因此,在p 2 p 流媒体安全监管技术方面,最初采用的技术解决方案是 在内部园区网出入口采用“堵杀 策略,即将p 2 p 流媒体流量视为p 2 p 流量进行 识别和整体过滤。随着对p 2 p 流媒体服务的深入研究,p 2 p 流媒体流量识别技术 正逐步发展与成熟【6 】,但在p 2 p 流媒体安全监管技术方面,仍然是采用“堵杀 策 略,只不过“堵杀 的范围缩d , n 所有的p 2 p 流媒体流量。这种“堵杀”策略不 第1 页 国防科学技术大学研究生院硕十学何论文 利于p 2 p 流媒体服务产业健康有序的发展,也不利于和喈网络的构建。因此,有 必要对p 2 p 流媒体实施有效而合理的监管。 显然,有效而合理的监管应当基于对p 2 p 流媒体播放内容的甄别,即要能够 检测p 2 p 流媒体播放内容可能出现的异常。但直接检测播放内容异常需要进行视 频复原和视频内容分析,技术难度较大,难以很快进入实用,而且这些方法通常 计算复杂,无法达到异常的实时检测。一种替代的方式是通过分析p 2 p 流媒体的 用户参与情况来间接推断其内容是否异常,即利用用户行为的异常来预警其播放 内容可能出现的异常。用户行为特征主要包括频道的用户数量及其变化、用户参 与会话的长度和用户的地理位置分布【7 】。其中,频道的用户数量相对来说是最容易 获取,同时也是最能反映播放内容的一个特征。在这一点上p 2 p 流媒体与有线电 视很类似并且合乎常理,例如在直播快乐女声选秀时,收看湖南卫视这一频 道的观众人数远远多于平时该频道的观众数量。也就是说,频道播放内容的变化 会直接影响其观众数量( 也即在线用户数量) 的多少。基于这一观察,所以本文 重点研究p 2 p 流媒体用户数量异常检测,通过检测频道用户数量的异常来预警其 播放内容可能出现的异常。 由于在没有与运营商合作的情况下,要获取某个p 2 p 流媒体频道的用户数量 以及其它的用户行为特征就只能通过主动测量的方式,所以本文研究了如何借助 主动测量技术来获取p 2 p 流媒体的在线用户数量,并通过检测用户数量异常来预 警其播放内容可能出现的异常。这对于有效而合理的p 2 p 流媒体监管具有十分重 要的意义。 本文工作受国家8 6 3 计划信息安全技术专题下属项目“非结构化视频组播流 实时识别与过滤技术”的资助,该项目的部分研究成果也体现在本文中。 1 2 相关研究现状 目前p 2 p 流媒体异常检测是一个崭新的研究内容,还没有关于它的研究成果 被发表。在上一节我们已经分析指出,可以借助p 2 p 流媒体的主动测量技术获取 频道的用户数量,并采用合适的异常检测方法来检测p 2 p 流媒体用户数量异常, 从而预警可能出现的流媒体内容异常。因此,我们主要考察了相关的p 2 p 流媒体 ( 主动) 测量技术和异常检测技术的研究现状。 1 2 1p 2 p 流媒体测量的研究现状 目前p 2 p 流媒体测量方面的相关研究主要沿用p 2 p 网络测量的三种方法【8 】: 第2 页 国防科学技术大学研究生院硕十学位论文 一是基于嗅探的被动测量方法,即利用w i r e s h a r k 等网络嗅探软件来捕捉特定环境 下的p 2 p 流媒体客户端的通信流量,并对通信流量进行分析和统计。基于嗅探的 被动测量方法通常以流量相关的系统局部特征为侧重点,包括本地流量统计、上 传下载带宽使用情况和数据包大小分布等,相关研究一般是在特定实验环境下搭 建测试平台,虽然得到的统计数据是基于真实流量,但是其实验规模限制了结论 的普适性。二是p 2 p 流媒体平台提供商参与的测量方法,即研究机构与p 2 p 流媒 体平台提供商展开合作,平台提供商在其客户端软件中增加数据采集接口,或在 整个系统中部署数据采集方案,供研究者进行数据的收集和分析使用。这一类研 究方法由于要求比较好的合作条件,因此相对比较困难。三是基于通信协议的主 动测量方法,即通过对被测系统的通信协议进行分析和理解,设计一个协议爬行 器来主动探测系统和收集信息。 z h a n g 等人【9 】详细地分析了最早的基于数据驱动的p 2 p 流媒体体系结构,并对 它基于因特网的应用c o o l s t r e a m i n g f l 0 】进行了性能分析,奠定了p 2 p 流媒体测量的 基础。h e i 等人【ll 】通过嗅探测量的方式研究了p p l i v e 的流量特征和视频服务质量, 他们还设计了一个p p l i v e 爬行器【7 j ,爬行5 秒左右可获得9 5 的在线节点,单次 爬行获取快照的时间固定为1 5 秒,但是从其公开发表的实验数据来看,即使是人 数较多的流行频道,测量时的在线人数仍然不超过3 k 。h e i 等人通过爬行器获取 的测量数据研究了p p l i v e 的用户行为,包括频道在线人数和平台在线人数变化, 用户动态性和地理位置分布等,认为p p l i v e 用户与传统电视用户的收看时间一致。 v u 等人【1 2 】设计的爬行器主要面向p p l i v e 的电影轮播频道,采用多个终端并行爬 行,单次爬行时间根据频道规模的不同而不同,约为3 8 分钟,其实验数据中的 最大在线人数仍然没有超过3 k 。v u 等人的研究结论包括:p p l i v e 频道在线人数 具有时间敏感( t i m e s e n s i t i v e ) ,自重复( s e l f - r e p e a t e d ) 和事件相关( e v e n t d e p e n d e n t ) 的特点;p p l i v e 网络动态性更强于p 2 p 文件共享系统,而其节点平均度与频道尺 寸无关,同时还发现网络对随机性攻击和选择性攻击的鲁棒性几乎一致,尤其是 小规模的p p l i v e 网络接近于随机网络。 多伦多大学与u u s e e 公司进行合作,名为m a g e l l a n 项目【1 3 】。通过采集u u s e e 每个节点的信息( i p ,p o r t ,b u f f e r m a p ,u p l o a dc a p a c i t i e s ,d o w n l o a dc a p a c i t i e s 等) , 并汇总于独立的t r a c es e r v e r 。在两个月的采集过程中共收集了1 2 0 g b 的数据,并 且超过了1 0 0 万个不同口地址,为拓扑的分析奠定了良好的基础。在拓扑属性分 析中,c h u a nw u 利用统计的方法,得出p 2 p 流媒体应用的度分布与一般的文件共 享系统不同,并不遵循p o w e r - l a w 分布,而是保持在比较稳定的状态。 c h u a nw u 还利用所测量的数据进行聚集度分析,发现u u s e e 覆盖网特性与 第3 页 国防科学技术大学研究生院硕十学位论文 g n u t e l l a 相似,均呈现为小世界属性:既具有与规则网络类似的聚类特性,又具有 与随机网络类似的较小的平均路径长度。而且在测量中可以得到网络直径为5 ,这 说明小直径的网络更便于快速实现流媒体的数据分发,满足实时性的需求。 此外,还有一些研究者通过被动测量的方式研究了s o p c a s t 、t v a n t s 等p 2 p 流媒体平台【1 4 16 1 。 1 2 2 异常检测的研究现状 h a w k i n s 1 7 】给出了异常的本质性的定义:异常是指数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。v a r u n 等人【l8 】依据 数据集描述方式的不同将异常分为三类:( 1 ) 点异常( p o i n ta n o m a l i e s ) ,是指 给定的数据集中那些边远无关的数据,即所谓的孤立点;( 2 ) 条件异常( c o n t e x t u a l a n o m a l i e s ) ,是指一个数据在特定的条件下是属于异常,但在其它条件下不属于 异常,这类异常也称之为语境异常,譬如以长沙为例,零摄氏度的气温在冬季属 于正常而在夏季则属于异常;( 3 ) 集体异常( c o l l e c t i v ea n o m a l i e s ) ,是指一些 数据个别发生时不属于异常,而集体发生时却属于异常,最明显的集体异常例子 就是心脏停止跳动时的心电图。异常检测就是利用各种方法检测数据集中这些异 常的过程。在现有文献中,异常检测有两种概念,一是泛指所有异常类型的检测, 二是特指基于行为的入侵检测,本文的异常检测指的是前者。 关于异常检测的最早研究可以追溯到1 9 世纠1 9 】。目前,异常检测的研究已经 相对比较成熟,广泛应用于入侵检测、信用卡欺诈检测、文本数据异常处理等很 多领域,研究者们从不同的应用或技术角度发表了大量综述【1 8 2 0 2 6 1 。由于目前越 来越多的异常产生于人为攻击,同时各个领域的具体异常不同等原因使得异常检 测面临很多挑战,因此统计学、机器学习、数据挖掘、信息论、谱分析等形形色 色的学科都被运用到异常检测中,产生了基于分类、密度、聚类以及统计等各类 不同的异常检测技术。 ( 一) 基于分类的异常检测技术 分类指的是从一个标记数据集中学习( t r a i n i n g ) 得到一个模型( c l a s s i f i e r ) , 然后使用该模型将测试数据集的数据分到不同类别( t e s t i n g ) 。基于分类的异常 检测技术就是通过对一个标记数据集的学习得到一个正常与异常的分类器,然后 使用该分类器将测试数据集的数据分为正常和异常两类。主要有基于神经网络的 异常检测【2 7 1 、基于贝叶斯【2 8 】的异常检测和基于s v m t 2 9 】的异常检测。 基于分类的异常检测技术必须假定能够从标记数据集中学习得到一个可以区 分正常和异常的分类器。依据可用标记的不同,基于分类的异常检测方法可以分 第4 页 国防科学技术大学研究生院硕十学位论文 为基于多类( m u t i l c l a s s ) 的异常检测捌基于类( o n e c l a s s ) 的异常检测。 基于多类的异常检测是指将训练数据集的j 下常行为标记为很多个不同的类, 学习得到的分类器能够将每个正常类与其它类区分开来,如图1 1 所示。 图1 1 基于多类的异常检测 基于一类的异常检测是指将训练数据集中的所有数据标记为同一类,这种方 法采用一类分类理论如o n e c l a s ss v m 3 0 1 ,o n e c l a s sk f d l 3 1 】【3 2 1 等来得到包围正常 行为的一个边界,如图1 2 所示,任何落在这个边界以外的数据都属于异常。 y x 图1 2 基于一类的异常检测 在训练集较好的情况下,基于分类的异常检测技术能够很好地将正常与异常 分入不同的类别,且异常检测阶段的计算复杂度很低,但是这种方法希望训练样 本能够涵盖所有的正常数据类型,这在实际应用中是不可能的。 ( 二) 基于近邻的异常检测技术 近邻( n e a r e s tn e i g h b o r , n n ) 分析的概念用于异常检测是基于如下的假定: 第5 页 国防科学技术大学研究生院硕十学彳市论文 正常数据的近邻很多很密集而异常数据离它最近的邻居也有一段较大的距离。最 常用的技术有k - 近邻法( k t “n e a r e s tn e i g h b o r , k n n ) 和相对密度法。 k n n 由t m c o v e r 和p e h a r t l l 3 3 】提出,已经有四十多年的历史,它在很早就 被用于文本分类研究。将k n n 用于异常检测的基本算法是在训练集中找到待检测 数据最近的k 个邻居,它与这k 个邻居之间的距离就是其异常比分。早在1 9 8 7 年,b y e r s 3 4 】就将该基本算法用于检测地面卫星图片中的地雷。研究者们主要在三 个方面对该基本算法进行扩展研究,一是修正异常比分的定义【3 孓”1 ;二是针对不 同的数据类型采用不同的距离度量方法【3 8 】【3 9 】;三是改进它的计算效掣4 0 1 。k 的值 是该算法中最重要的参数,如果选择过小,不能充分体现待检测数据的特点,如 果选择过大,一些和待检测数据实际上并不相似的样本也被包含进来,尤其当异 常样本远远小于正常样本时,k 值过大容易导致将异常误检为正常。 基于密度的异常检测算法思想是:如果一个数据的近邻密度大,则该数据为 正常;反之,该数据为异常。但是这种算法有一个很大的缺点:如图1 3 所示,c l 和c 2 都是正常数据集,根据算法思想a 的近邻密度小为异常,b 的近邻密度大为 正常,但实际上b 为异常数据,从而产生误检。 图1 3 基于密度的异常检测算法的缺点 针对这个问题,研究者提出了基于相对密度的异常检测技术,b r e u i l i g 等人【4 u 提出了一个局部异常因子( l o c a lo u t l i e rf a c t o r , l o f ) ,p a p a d i i i l i t r i o u 等人【4 2 j 进一步 将其改进为多尺度偏离因子( m u l t i g r a n u l a r i t yd e v i a t i o nf a c t o r , m d e f ) ,t a n g 等人 提出了一个基于连接的异常因子( c o n n e c t i v i t y - b a s e do u t l i e rf a c t o r ,c o f ) ,此外 还有很多关于相对密度的异常检测研裂4 4 4 7 1 。 基于近邻的异常检测算法都很简单,但存在一个很重要的问题,所有样本都 要存在计算机中且每次决策都要计算待识别样本与全部训练样本之间的距离进行 比较,存储量和计算量都很大;同时如何根据不同的数据类型寻找晟合适的距离 计算方法也非常重要,选择不当就会导致很差的检测结果。 第6 页 国防科学技术大学研究牛院硕十学何论文 ( 三) 基于聚类的异常检测技术 聚类【4 8 】【4 9 】是指将相似的数据实例划分到同一类。一般来说聚类是一种无监督 ( u n s u p e r v i s e d ) 的方法,所谓无监督就是不需要任何标记数据来给出先验知识, 但是标记部分样本数据的半监督( s e m i s u p e r v i s e d ) 聚类【5 0 【5 0 】在近年使用得越来 越广泛。聚类和异常检测看似无关,但是研究者已经提出了多种基于聚类的异常 检测方法,主要根据以下三种情况。 情况l :正常数据被划分为好多簇,不属于其中任何一簇的数据为异常。尽管 聚类最初的概念是把数据分成很多簇,每个数据必然为某个簇所包含。但是有很 多聚类算法,比如d b s c a n ( d e n s i t y - b a s e ds p a t i a lc l u s t e r i n go fa p p l i c a t i o n sw i t h n o i s e ) 【5 ,r o c k ( r o b u s tc l u s t e r i n gu s i n gl i n k s ) 吲和s n n ( s h a r e dn e a r e s t n e i g h b o r ) 5 3 】,它们都不会强制地把每一个数据归入某个簇中,因此,那些无法归 入到任意一个簇中的数据就可以认为是异常数据。 情况2 :正常数据与离它最近的簇的中心的距离很近,异常数据与离它最近的 簇的中心的距离很远。这种情况下的异常检测分两个步骤,首先采用一种聚类算 法将数据集聚类成簇,然后对于每一个要检测的数据,计算它与离它最近的簇的 中心的距离,将该距离作为其异常评定值。在阶段一采用不同的聚类算法,譬如 k 均值聚类或是e m ( e x p e c t a t i o n m a x i m i z a t i o n ,期望值最大化) 聚类等,就产生了 很多不同的异常检测方法。 情况3 :第三种情况是正常数据的聚类密度很大,而异常的聚类很稀疏。这种 情况下的异常检测是计算每一个簇的大小或密度,如果小于一个预先设定的阈值, 则该簇中的所有数据都视为异常。 基于聚类的异常检测技术最大的优点是其无监督操作模式,而且可以针对不 同的数据类型采用不同的聚类算法,检测阶段的复杂性较低。缺点是异常检测的 结果完全取决于聚类算法对训练集聚类的好坏,而且异常检测只能作为聚类的一 个附属品,因此达不到最优化。 ( 四) 基于统计的异常检测技术 基于统计的异常检测的基本方法就是应用统计学理论为正常数据建立一个统 计模型,待检测数据如果符合该模型则为正常,不符合就是异常,主要有参数模 型和非参数模型。 参数模型是假定正常数据符合一个已知的分布,参数可以根据给定的已知数 据估计得到,同时还需要个测试集对估计得到的模型进行拟合优度检验。最常 见的参数模型有高斯模型,回归模型( 将在第三章中具体介绍) 和混合参数模型。 非参数模型是指正常数据所符合的数学模型中非显式地包含可估参数,模型与参 第7 页 国防科学技术大学研究生院硕+ 学位论文 数都需要从给定的已知数据中得到。其中最常用的非参数模型是统计直方图和核 函数。 这种方法的优点是基本上不需要太多关于入侵技术细节的先验知识,有较为成 熟的统计技术可以应用,跟踪一组统计量对系统资源的占用率较低。但此方法的局 限性在于:设计描述正常行为和状态的统计量、选择构成统计量的属性、设置统 计量的基线不是容易的问题,统计度量对事件发生的顺序也不敏感。这种方法的另 一个局限性是基本上要依赖于对用户行为统计特性的主观假设,而这些假设却并 不是总能被各种不同类型的用户行为所很好和普适地满足。 ( 五) 基于信息论的异常检测技术 信息测度技术是用信息论中的k o l m o g o r o v 复杂性、熵以及相对熵等不同信息 测度理论分析数据集中的所蕴含的信息,将它用于异常检测的思想是:与正常数 据集所包含的信息无关的数据被视为异常。这种检测方法一般用于数据之间存在 时间相关或空间相关的情况下。 采用这种方法的优点是对于时间序列或空间序列数据不用估算模型,也不需 要标记样本,缺点是信息测度方法的选取非常重要,信息量的改变一般只有在大 量异常存在时才容易发生,同时异常的阈值很难确定。 分析本文主动测量得到的数据可以发现p 2 p 流媒体用户数量的观测值序列是 一个与网络流量观测值序列相似的时间序列,因此,本文还侧重研究了网络流量 异常检测的研究现状。 网络流量异常检测是目前入侵检测的一个重要分支,这种检测方法通过建立 系统或用户的正常行为模式库,比较系统或用户的实际行为模式和正常行为模式 之间的区别来检测入侵,其特点是不需要过多地了解被保护系统的缺陷,具有较 强的适应性,能够检测出未知入侵,但存在虚警概率高的缺点。其核心问题是如 何实现流量正常行为的描述、检测的实时性、获得信息的全面性和反应的灵敏性。 网络流量异常检测主要针对产生流量异常的攻击行为,如端口扫描、f l o o d 型d d o s 攻击和蠕虫等。 目前网络流量异常检测方法主要有5 类:1 ) 阈值检测;2 ) 基于小波技术的网 络流量异常检测:3 ) 基于统计理论的网络流量异常检测;4 ) 基于机器学习的网 络流量异常检测;5 ) 面向网络安全管理的网络流量异常检测。阈值检测通常根据 预先设定的阈值来报警,比较简单,但是适应性较差。小波技术能够多尺度分析 特征,因此将小波技术应用于网络流量异常检测【5 4 】【5 5 】拓宽了检测的特征范围,但 是也大大增加了检测的复杂度。 基于统计理论的网络流量异常检测是目前应用最多的检测方法,基于平稳时 第8 页 国防科学技术大学研究生院硕十学位论文 l 日j 序列模型,h a w k i n s 等人1 5 6 j 提出了般似然比( g e n e r a l i z e dl i k e l i h o o dr a t i o g l r ) 检测法,通过检测序列中两个相邻的滑动时间窗之间发生的异常变化;中 国科学院计算技术研究所的邹柏蝌57 】提出了种残差比检测法,通过维护一个 大小的窗口,求得一个统计量的估计值,当获得了第+ 1 个数据的时候,窗口向 前滑动,重新计算统计量r 的值。通过比较尺值来发现异常。第文军【5 8 】和王欣【5 9 】 运用网络流量自相似分析来检测网络流量异常。涂旭平等人 6 0 】针对前面的流量异 常检测系统没有均衡考虑检测实时性与检测可信度之间的矛盾,提出了一种可调 c h i s q u a r e r 的网络流量异常检测模型,从而提高了检测效率。梁异等人【6 1 】根据网 络流量的可测度集,描绘了一个正常网络流量的基线,并使用假设检验理论进行 异常检测。但是由于入侵手法的多样性和复杂性,往往找不到流量异常与网络特 征数据之间特定的函数关系。 基于机器学习的网络流量异常检测是在统计理论上发展起来的一种检测方 法,温志贤等人【6 2 】提出了一种基于支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 的 网络流量异常检测方法,廖竣锴等人【6 3 】则使用b p 神经网络来检测网络流量异常。 机器学习的方法有很好的自适应性,同时能识别未知的异常,但是它的识别结果 很大程度地依赖于训练样本、训练的算法和精度。 面向网络安全管理的网络流量异常检测主要是网络安全管理人员在主干网、 核心路由器上部署的流量异
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届甘肃省临洮县九年级物理第一学期期末质量检测试题含解析
- 2025《商业空间设计合同》
- 2025深圳个人租房合同模板
- 2025年贸易协议:购买邮政物流运输车辆合同
- 电线施工合同(标准版)
- 2025茶叶加盟合同示范文本
- 2025年注册电气工程师考试重点章节模拟试题及答案
- 2025至2030伸缩式预充式注射器行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030全球及中国车辆主动安全系统行业产业运行态势及投资规划深度研究报告
- 2025产品代理销售合同书范本
- 疼痛护理中医课件
- 临床医学病例分析标准流程
- 《财政支出效益分析》课件
- 骨质疏松症的治疗进展与新型药物研究
- 重庆市交通建设工程危险性较大分部分项工程安全管理实施细则
- 体检报告管理制度
- 采血后预防淤青的按压方式
- 2025年药物外渗考试题及答案
- 水利工程施工阶段减碳措施与碳排放管理研究
- 房产中介劳动合同参考模板
- 《儿童权利公约》课件
评论
0/150
提交评论