(通信与信息系统专业论文)基于网络流量的分布式异常定位方法.pdf_第1页
(通信与信息系统专业论文)基于网络流量的分布式异常定位方法.pdf_第2页
(通信与信息系统专业论文)基于网络流量的分布式异常定位方法.pdf_第3页
(通信与信息系统专业论文)基于网络流量的分布式异常定位方法.pdf_第4页
(通信与信息系统专业论文)基于网络流量的分布式异常定位方法.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(通信与信息系统专业论文)基于网络流量的分布式异常定位方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来,随着互联网在全球的迅速发展,网络业务的种类和数量都与日俱增。 但各式各样的网络安全问题也随之层出不穷。网络安全形势日益严峻。其中大部 分的网络安全问题都伴随着网络流量异常。异常流量会占用带宽资源使网络拥塞, 造成网络丢包、时延增大,严重时可导致网络不可用;还会大量消耗网络设备的 资源,使正常业务无法得到及时的处理。因此网络流量异常检测和异常定位已经 成为备受关注的研究课题。 本文首先概述了网络流量异常及异常分类,介绍了几种常见的异常检测方法, 并分析了它们各自的优缺点,还说明了现有研究的不足和发展趋势。本文随后介 绍了网络异常定位,分析了异常定位的目的,介绍了研究现状,并结合网络异常 检测和异常定位面临的问题,提出了本文的研究思路。 文本介绍了一种基于累积的分布式异常检测系统。通过研究和改进其中数据 采集器的队列门限的设置方式,该系统能够很好地平衡检测精度和系统通信量两 方面的要求。 当网络流量异常发生后,为了快速准确地做出合理的响应,需要进行网络流 量异常定位。本文提出了一种基于网络流量的分布式异常定位方法。使用分布式 异常检测系统,进行多点联合检测。利用各检测点的检测结果的差异性,对攻击 流进行定位。本方法结构简单,可以应用于复杂业务环境中定位网络异常。使用 实际网络流量数据的实验表明,本方法能够准确地判断攻击流所在链路。 最后本文以基于累积的分布式异常检测系统为基础,提出了一种多点错位联 合异常检测定位系统。整个系统为三层的分布式结构,使用之前提出的分布式异 常定位方法进行异常定位。最后通过仿真,证明了该系统的有效性。 关键词:网络流量异常,异常检测,异常定位,网络安全 a b s t r a ( 了r a b s t r a c t i nt h e s ey e a r s ,w i t ht h er a p i dg l o b a ld e v e l o p m e n to fn e t w o r k s ,t h ek i n da n dt h e q u a n t i t yo f t h et r a f f i ca r eg r o w i n gd a y b yd a y t h es i t u a t i o no f n e t w o r ks e c u r i t yi sg r i m t h e r ea r en e t w o r kt r a f f i ca n o m a l i e si nm o s to fn e t w o r ks e c u r i t ye v e n t s t h e yw i l l e x p e n dt h eb a n d w i d t h , t h e nt h en e t w o r kw i l lb ec o n g e s t e d , a n dt h ep a c k e t sw i l lg e tl o s t , t h ed e l a yw i l lb e c o m el a r g e r t h en e t w o r kc a l lo v e nb e c o m eu n a v a i l a b l e t h en e t w o r k t r a f f i ca n o m a l i e sw i l le x p e n dt h er e s o u r c e so fn e t w o r kd e v i c e s ,a n dt h el e g a l i t yq u e s t s c a n n o tb er e s p o n d e d s od e t e c t i o na n dl o c a t i o no fa n o m a l o u st r a f f i ca r eb e c o m i n ga t o p i co fc o n c e r n a tf i r s t ,t h i sp a p e rs u m m a r i z e st h en e t w o r kt r a f f i ca n o m a l ya n da n o m a l yl o c a t i o n , i n t r o d u c e ss e v e r a lk i n d so ft e c h n o l o g i e so fa n o m a l yd e t e c t i o n , a n a l y s e st h e i ra d v a n t a g e s a n dd i s a d v a n t a g e s ,a n di n t r o d u c e st h ed e v e l o p m e n tt r e n d s t h e nt h i sp a p e ri n t r o d u c e s t h ea n o m a l yl o c a t i o n , p o i n t so u tt h ea i mo fa n o m a l yl o c a t i o n , i n t r o d u c e st h er e s e a r c h a c t u a l i t ya n dt h ep r o b l e mo fn e t w o r kt r a f f i ca n o m a l yd e t e c t i o na n da n o m a l yl o c a t i o n , t h e np r o p o s es o m er e s e a r c hc l e w si nt h i sp a p e r t h i sp a p e ri n t r o d u c e sac u m u l a t i v ed i s t r i b u t e da n o m a l yd e t e c t i o ns y s t e m a f t e r r e s e a r c ha n da m e l i o r a t i n gt h ew a yo fs e r i n gt h eq u e u el e n g t hl i m i to ft h em o n i t o r , t h e s y s t e mc a ng e tab a l a n c eb e t w e e nd e t e c t i o na c c u r a c ya n dc o m m u n i c a t i o no v e r h e a d w h e nt h en e t w o r kt r a f f i ca n o m a l ya p p e a r e d ,n e t w o r kt r a f f i ca n o m a l yl o c a t i o ni s n e e d e dt om a k ear e s p o n s eq u i c k l ya n da c c u r a t e l y w ep u tf o r w a r dad i s t r i b u t e d a n o m a l yl o c a t i o n s c h e m eb a s e do nn e t w o r kt r a f f i c u s i n gd i s t r i b u t e da b n o r m a l d e t e c t i o ns y s t e mf o rm u l t i p o i n td e t e c t i o n w i t ht h ed i f f e r e n c eo fd e t e c t i o nr e s u l t so f d i f f e r e n td e t e c t i o np o i n t s ,t h ea t t a c kf l o w sc a nb el o c a t e d d u et oi t ss i m p l i c i t y , o u r s c h e m ec o u l db ed e p l o y e di nc o m p l e xn e t w o r k s e x p e r i m e n t a lr e s u l t sw i t hr e a l - l i f e n e t w o r kt r a f f i cd a t as e t sd e m o n s t r a t et h a to u rs c h e m ec a nl o c a t et h e1 i n kw h e r et h e a r a c kf l o w sa r ee x a c t l y a tl a s t ,b a s e do nt h ec u m u l a t i v ed i s t r i b u t e da n o m a l yd e t e c t i o ns y s t e m ,w ed e v e l o p a na b n o r m a ll o c a t i o ns y s t e mw i t hm u l t i p o i n tj o i n e da b n o r m a ld e t e c t i o ns y s t e m t h e r e i i a b s t r a c t a r et h r e el a y e r si ni t sc o n f i g u r a t i o n u s et h ed i s t r i b u t e dn e t w o r ka n o m a l yl o c a t i o n s c h e m et ol o c a t et h en e t w o r kt r a f f i ca n o m a l y t h es i m u l a t i o n sp r o v et h es y s t e m e f f e c t i v e l y k e y w o r d s :n e t w o r kt r a f f i ca n o m a l y , a n o m a l yd e t e c t i o n , a n o m a l yl o c a t i o n , n e t w o r k s e c u r i t y i i i 图目录 图目录 图1 1 动态安全关联跟踪1 3 图2 1 基于累积的分布式异常检测系统结构示意图1 7 图2 2 累积流量1 9 图2 - 3 数据处理器内的队列2 l 图2 4 攻击流2 2 图2 5 各链路干净背景流之和2 3 图2 6 各链路加入攻击后的流量之和2 3 图2 7 异常检测系统报警的时刻2 4 图3 1 一般异常检测系统结构示意图3 0 图3 2 多点联合异常检测定位系统结构示意图3 1 图3 3 加入模拟链路的多点错位联合异常检测系统3 3 图3 4 异常定位过程3 5 图3 5 时间段6 0 0 , - , 8 0 0 ,排序后相邻报警次数的差值3 7 图3 - 6 时间段2 9 0 0 3 1 0 0 ,排序后相邻报警次数的差值。3 8 图4 - 1 多点错位联合异常检测定位系统结构示意图4 0 图4 - 2 数据采集器的工作流程图4 3 图4 3 数据共享平台的工作流程图4 6 图4 4 数据处理器的工作流程图4 8 图4 _ 5 数据采集器的运行界面5 0 图4 _ 6 数据处理器的运行界面5 0 图4 7 数据共享平台的运行界面5l 图4 8 数据共享平台显示的定位结果5 1 v i 表目录 表目录 表2 1 本章仿真实验中k 值的分布2 7 表2 2 数据采集器门限的不同设置方式下的系统性能2 8 表3 1 时间段6 0 0 - - 8 0 0 内,各数据处理器报警次数3 6 表3 2 时间段2 9 0 0 - , , 31 0 0 内,各数据处理器报警次数3 7 表3 3 时间段3 5 0 0 - , - 3 7 0 0 内,各数据处理器报警次数3 8 v i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:穆哆睁 e l 期:2 砌7 年5 月2 汨 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 整名1 学鹇涵 第一章绪论 1 1 选题研究背景及意义 第一章绪论 2 0 世纪三十年代至2 0 世纪八十年代,以电话交换网为代表的电信网在五十 年的发展中取得了长足进步。截止2 0 0 4 年1 2 月,全球固定电话用户数达到1 3 亿,移动电话用户数达到1 5 亿,我国的固定和移动电话用户也突破了7 亿。但 随着2 0 世纪八十年代以来互联网技术的迅猛发展,电信网的发展遇到了前所未 有的挑战。当初设计传输语音业务的电信网由于带宽窄,很难适应各种新型增值 数据业务如高速数据、流媒体等业务的传输。我国通过拨号上网的用户数目也从 2 0 0 3 年6 月的3 2 0 0 万人次下降至u 2 0 0 5 年6 月的2 0 0 0 万人次。2 0 世纪六、七十年 代以来,以互联网为代表的信息网络在规模和应用范围上都得到了广泛的拓 展。根据中国互联网信息中心的最新统计数据显示,从1 9 9 4 年中国获准加入互联 网至今,中国网民的数量已经高达1 3 7 亿人,上网的电脑总量接近6 0 0 0 万台。这些 数字表明当今互联网处在一个高速扩张的时期。正是这种扩张,一方面,使得现 有信息网络暴露出越来越多的缺陷。恶意攻击、垃圾邮件、计算机病毒等都是惯 用的网络攻击手段。另一方面,中国网民之中绝大多数是没有电脑网络安全专业 知识的普通网民。所以,在2 0 0 4 年,8 7 9 的中国计算机用户有过感染病毒的历 史,5 0 以上的单位发生过网络安全问题,当年全球范围内利用网络漏洞诈骗和非 法获取的资金数目高达数十亿美元。而c n c e r t c c 组织2 0 0 8 年中国计算机网络安 全应急年会报告指出,2 0 0 7 年和2 0 0 6 年相比,安全事件增长率在1 0 0 - - 2 0 0 以 上。 常见的网络安全问题包括蠕虫病毒、木马、网络滥用以及d o s d d o s ( 拒绝服 务分布式拒绝服务) 【l 】。蠕虫病毒的泛滥,直接影响电脑终端和网络的工作状态, 轻则降低运行速度,影响工作效率,重则使得电脑终端和网络瘫痪,甚至可能破 坏软件或硬件,使大量的工作毁于一旦。木马被用来监视他人和盗窃他人的保密 信息,如账号、密码、保密文档等,以达到偷窥他人隐私或获取经济利益的目的。 因此许多别有用心的程序开发者大量地编写这种入侵性程序,使得木马已经在网 络上泛滥成灾。滥用网络的主要方式是垃圾邮件。某些组织或个人,利用现有网 电子科技大学硕士学位论文 络邮件服务存在的漏洞,大量发送垃圾邮件,妨碍了正常的邮件业务,浪费了有 限的网络资源,甚至使得某些国家对来自中国的邮件进行专门地过滤。拒绝服务 攻击( d o s ) 是指攻击者通过发送大量假数据或请求占用攻击目标的资源,使正常 请求得不到服务。而分布式拒绝服务攻击( d d o s ) 就是攻击者采用分布式的攻击 方式,使用僵尸网络进行d o s 攻击,是近年来很流行的一种极具破坏力的攻击方 式。随着网络的发展,安全问题已经变得越来越复杂,各种危害网络安全运行的 方式往往交织在一起。例如僵尸网络就已经成为网络攻击非常基本的手段之一。 2 0 0 7 年经过抽样检测发现,僵尸网络被用来发动分布式拒绝服务攻击( d d o s ) 1 0 0 0 0 多次,同时还发送垃圾邮件,安装木马以实施信息窃取等。各类网络安全攻 击事件的数量成倍增长,说明互联网的形势已经是非常严峻。 面对日益加剧的网络安全威胁,传统的静态安全技术如认证机制、加密和防 火墙等已经难以胜任。入侵检测作为一种重要的动态安全技术,能够提供对计算 机系统和网络的外部攻击、内部攻击及误操作的全面检测,其主要功能是监视并 分析用户和系统的行为、审计系统构造和弱点、评估重要系统和数据文件的完整 性、识别已知攻击的行为模式、异常行为模式的统计分析、操作系统的审计跟踪 管理和识别用户违反安全策略的行为。作为防火墙之后的第2 道安全防线,入侵 检测已成为网络安全领域重要而迫切的课题【z j 。 异常检测( a n o m a l yd e t e c t i o n ) 和误用检测( m i s u s ed e t e c t i o n ) 属于入侵检测 的两大部分。a d e r s o n 以“t h r e a t 的概念将入侵定义为未经授权蓄意尝试访问信息、 篡改信息、使系统不可靠或不可用【3 1 。入侵检测是对入侵的发觉,用于入侵检测的 软硬件组合称为入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,i d s ) ,它通过收集并 分析计算机系统和网络的有关数据来检测入侵行为。 由于现在网络存在的大部分安全问题都伴随着网络流量的异常,例如蠕虫病 毒、网络滥用以及d o s d d o s 。因此,从网络安全角度出发,即时、准确地检测出 网络的异常流量,并做出迅速、有针对性的响应是保证网络安全有效运行的前提 之一。所以网络流量异常检测已经成为一个非常重要的研究课题。 检测网络中的流量异常是网络监测中的关键部分,能够准确、及时地检测出 异常对提高网络的可用性和可靠性具有非常重要的意义。但网络流量异常往往发 作突然,没有任何先找特征,在短时问内就可能对网络和电脑终端造成极大的危 害。因此,要防范网络攻击,将损失降低到最低点,就必然要求对网络流量异常 进行实时检测。另一方面,当网络异常发生时,不光要检测出异常,还要对异常 进行定位,确定异常发生的链路,将正常流与异常流区分开,才能迅速、有针对 2 第一章绪论 性地做出响应,缩短故障持续时间,保证商业信誉和利益。然而随着网络的发展, 网络拓扑日趋复杂,网络流量的数量和波动性也越来越大,使得要进行实时检测 的数据巨大而复杂。而且由于监测、分析和存储等计算机资源的限制,无法实现 全网流量分析。所以网络异常的检测和定位,尤其是实时的检测和定位,难度很 大,已经成为网络发展所急需解决的问题和难点之一。 本论文针对这方面的要求做了一些工作。主要内容包括利用基于累积的分布 式异常检测系统进行网络流量异常检测;提出了一种多点错位联合检测实现网络 异常定位的方法;设计实现了多点错位联合异常检测定位系统。 1 2 网络流量异常 1 2 1 网络异常概念 网络流量异常指的是网络流量行为偏离其正常行为的情形。1 9 9 0 年,卡内基 梅隆大学的m a x i o ni l 八对网络的“正常 和“异常 给出描斟4 】:“正常 意味 着符合某种常规或典型的模型,以一种自然的方式,常规的或预料中的状态、形 式、数量或程度发生,“正常 强调符合某种已经建立的水准或模式,并保持良好 状态,建立在一定趋势基础上。而“异常意味着违反了这种期望,与期望的情 形有一定程度的偏差。不过,在网络系统中,“正常 行为会由于网络的动态变化、 噪音而发生改变,所以网络“正常 行为的确定还必须随着网络环境的改变而改 变。 1 2 2 网络流量异常分类 网络流量异常产生的原因很多,大致可以将网络异常产生的原因分为以下两 类【2 】。 第一类是网络设备的故障。路由器或交换机的故障都会导致网络拓扑发生变 化,引起网络流量的异常变动。网络服务器的故障也会引起流量异常。例如某些 热点新闻或事件的发生,会引起流量的猛增,导致服务器超负荷而失效【5 】。 第二类是出现了安全问题。例如发生了d o s 、网络入侵或蠕虫病毒。d o s 攻 击通过发送大量假数据或请求大量消耗攻击目标的资源,使正常请求得不到及时 的服务 6 】。而网络入侵则通过发送大量无用数据,占用链路带宽,从而影响其他合 法用户【7 1 。因为蠕虫的目的是传染网络中的所有主机,所以当网络中的某台电脑终 电子科技大学硕士学位论文 端感染了蠕虫病毒感染之后,该终端就会疯狂地进行主机探测,并且向目标发送 具有蠕虫病毒特征的数据包。网络就会大量充斥着这种包,导致其它正常业务的 数据丢失,发生网络流量过载或是网络拥塞。 根据网络流量异常产生的原因,可以将网络流量异常分为三大类【8 】:网络设备 故障引起的异常、短时间内大量访问引起的异常和网络攻击引起的异常。 网络设备故障引起的异常是指由于网络设备的故障或是网络中承载某些关键 业务的服务器的故障,从而引起的网络流量异常。例如某个路由器发生故障时, 经过该路由器的数据流就需要重新路由,就可能造成某些链路的流量异常增加, 导致网络过载和拥塞,而某些链路的流量异常减少,使网络资源没有得到有效利 用。再例如某个门户网站的w e b 服务器出现故障,使得用户无法访问,导致流量 异常减少。 短时间内大量访问引起的异常是指由于在短时间内网络中某个服务器收到大 量的业务请求,导致服务器过载,无法正常处理业务,或响应延迟等情况造成的 流量异常。例如某个门户网站发布重大新闻时,会有较平时几十倍甚至几百倍、 几千倍的用户在短时间内访问该网站,使得该网站服务器所在的局部网络的流量 异常增加。这种用户正常行为导致的网络异常和设备硬件故障引起的异常需要区 分开来,分别对待。 网络攻击引起的异常是指网络中出现而已的对网络中某个目标进行攻击而造 成的异常。例如d o s 攻击和蠕虫病毒都会导致网络中充斥着大量无用甚至有害的 数据包,浪费大量资源,使正常业务得不到及时有效的处理,严重地损坏了企业 网络和业务的运行,造成巨大的经济损失。 1 2 3 网络流量异常检测方法 网络流量异常检测的目的是通过对网络流量的连续监测,以网络流量的正常 模式为参考标准,及时地发现网络中的流量异常情况,当网络中出现异常时能够 及时发出报警通知,以提醒网管人员采取必要措施,或主动作出相应的反应,来 保持网络的正常运行。 异常检测首先需要明确系统或用户的“j 下常 行为特征轮廓。要求建立的模 型既要能准确地体现系统或用户的行为特征,又能足够优化,使模型具有可实际 应用的能力和价值。 在实际的网络中,带有恶意的行为和异常行为往往不是一对一的等价关系。 4 第一章绪论 例如之前提到的短时间内大量访问引起的异常,就不是攻击行为。所以检测系统 很容易发生误报和漏报。因此,参考门限,也就是作为参考基准的正常行为的特 征轮廓,的选择是非常关键的。门限选取得过小,则造成很高的误报率;门限选 取得过大,则造成很高的漏报率。 常见的网络流量异常检测方法有以下几种。这些方法中有的直接适用于网络 流量的异常检测,有的在已有的研究中并非主要针对网络流量异常,但是对网络 流量异常检测的研究也同样有着指导和借鉴意义。 1 、统计法 统计法在异常检测领域应用最早的一类方法,目前仍有着广泛的应用。这类 方法通常是按一定的时间间隔对系统或用户的行为进行采样,对每次采集到的样 本进行计算,得出一系列的参数变量来对这些行为进行描述。 通过分析大量的网络流量参数,生成网络流量的正常行为轮廓库,并自适应 地学习网络流量的正常行为模式。异常检测系统通过将当前采集到的行为轮廓与 正常行为轮廓相比较,如果偏离程度超过一个设定的异常阀值,就认定网络出现 异常。有5 个经典的统计模型:操作模型、平均值和标准差模型、多元模型、马 尔可夫过程模型和时序模型。 这类检测方法的优点是可以利用已经比较成熟的统计理论成果。但它的缺陷 在于限定偏离程度的异常阀值难以确定。过高的阀值会产生大量的漏报,过低的 阀值则会产生大量的误报;而且对时间发生的次序及内在联系不敏感,检测系统 可能被攻击者逐渐训练而将异常是为正常行为。 2 、神经网络 神经网络由许多单元组成,这些单元通过加权的连接相互作用。 系统的工作分为两个阶段。第一阶段,也就是学习阶段。神经网络由代表正 常用户行为的样本模式进行训练。第二阶段,也就是检测阶段。神经网络接收用 户的活动数据以确定该活动和训练得到的样本相似程度。如果神经元的状态出现 了连续改变或权重发生相当大的变化,就判断检测数据为异常数据。 神经网络能适应性地学习正常用户和系统活动的模型,而这种学习仅仅依赖 于活动数据本身。特别是,它们不对所期望的数据统计分布做预言假设,也不使 用描述用户行为的固定特征集。因此,与统计法相比,基于神经网络的异常检测 系统能更好地表达变量间的非线性关系,克服了修正统计特征的困难,能自动学 习并更新,与特征子集的选择好坏无关。 应用于异常检测的神经网络技术的主要缺点是不对异常检测提供解释信息。 5 电子科技大学硕士学位论文 如果检测数据被认为是异常的,神经网络将以一种逐步求精的修正方式来修改它 的正常定义,而不是为异常原因提供解释。因此神经网络被认为是统计法的一种 有价值的补充,而不是替代品。它能通过模拟的技术为统计模型的有效性提供支 持证据。目前神经网络技术在异常检测领域的应用仍不成熟。 3 、模式预测 模式预测有一个前提条件,就是假设审计事件的序列不是随机的,而是符合 某种可辨别的模式。它增加了对事件序列相互关系的分析。使用模式预测的检测 系统先通过对检测对象的行为进行观测和记录,归纳产生出一套规则集来构成正 常行为的轮廓框架。检测系统再将当前需要检测的事件序列与规则进行匹配,如 果观察到的事件序列能够与某规则的前项相匹配,而后续事件却明显地偏离根据 规则所预测的事件,系统就认为发生了异常。 t e n g 和c h e r t 9 】提出一种基于时间推理的方法,利用时间规则描述用户的正常 行为模式。该方法利用已发生事件对未来事件进行预言。规则通过归纳学习产生, 包括已经发生的事件( 左侧) 和随后发生的事件及其可能性( 右侧) 两部分。如 果发生的事件与某个规则左侧相匹配,但随后的行为不符合( 有较大的统计偏离) 规则右侧的预言,则将该事件看作是入侵行为。该方法对用户行为的变化具有较 好的适应性;能够检测到在i d s 预测规则学习时期试图训练系统的入侵者,具有 较好的自身防御能力,检测速度快 模式预测的主要优点是能够较好地处理变化多样的用户行为,并具有很强的 时序模式。这种系统尤其适用于不同用户行为之间存在很大差异、而同一用户行 为则表现出很强一致性的环境。另外,能够集中考察少数几个相关的安全事件, 而不是关注可疑的整个会话过程。但现有的基于模式预测的异常检测系统都是基 于主机的,其数据源是系统的历史审计数据。所以这种方法的主要弱点就是不可 识别的行为模式将会被判断为异常。如果能预测出不正常的后续事件片段,则可 在一定程度上断定用户行为的异常性。 4 、遗传算法 遗传算法是基于自然选择的最优化搜索算法,在入侵检测中用于从审计跟踪 中选取最有价值的记录。c r o s b i e 和s p a f f o r d 1 0 】提出利用遗传编程的学习能力构建 基于自治代理的i d s ,并给出了如何使用自动定义功能( a u t o m a t i c a l l yd e f i n e d f u n c t i o n s ) 改进遗传编程对单一类型函数的依赖性,使其能在确保类型安全的同时 处理多种数据类型。他们的实验表明,遗传编程可以作为一个训练自治代理来检 测入侵行为的学习范例。但是,与神经网络方法类似,如何解释入侵检测器的有 6 第一章绪论 效性是该方法的主要问题。 5 、数据挖掘 数据挖掘技术是一种决策支持过程,它主要基于人工智能、机器学习统计等 技术,能高度自动化地分析原有数据,做出归纳性推理,从中挖掘出潜在地模式、 预测出客户的行为。因为网络流量审计记录的数据量是很大的,特别是在网络中 主机的数量较多以及网速较快的情况下,而数据挖掘技术正好具有处理大量数据 记录的能力,所以被应用于异常检测。其过程如下: ( 1 ) 数据准备:异常检测系统是典型的异种数据库环境。在此阶段,将从操 作系统环境和网络环境中提取并集成数据,解决语义二义性问题。 ( 2 ) 数据的清理和集成:消除噪声和不一致数据,将用户的历史行为数据和 当前操作数据进行集成并删除一些无用的数据进行预处理。 ( 3 ) 数据挖掘:综合利用前面提到的数据挖掘技术分析已经过预处理的数据, 从中提取有关的特征和规则。 ( 4 ) 知识表达:数据挖掘将获得的特征和规则以便于理解和观察的方式反映 给系统。在异常检测中,通过发现的特征和规则定义用户的异常和正常模式,存 储在知识库中,与当前的用户行为进行匹配检测。 ( 5 ) 模式评估:对挖掘和所提取的异常模式进行评估和改造。 该检测方法的优点在于处理数据能力很强,缺点是系统整体运行效率较低。 6 、机器学习 这种异常检测方法通过机器学习实现异常检测,将异常检测归结为对离散数 据临时序列进行学习来获得个体、系统和网络的行为特征。主要学习方法包括原 样记录、监督学习、归纳学习、类比学习等。此外还有基于相似度的实例学习法 ( i b l ) ,该方法通过对新的序列相似度计算,将原始数据( 例如离散事件流、无 序的记录等) 转化成可度量的空间。异常检测系统使用i b l 学习技术和一种新的 基于序列的分类方法发现异常类型事件,以此检测出异常行为,其中对阀值的选 取由成员分类的概率决定。新的序列相似度定义如下: 设l 表示长度,序列x = ( x o ,x i ,x i 1 ) 和y = ( y o ,y l ,y i 1 ) w ( x :j k ,2 ),y,o 0i f x t y(1-1y= ) 1 1 + w ( x ,】,f 1 ) fx t = y , 旦 s i m = ( x ,】,) = :w ( x ,y ,i 一1 ) ( 1 - 2 ) 7 电子科技大学硕士学位论文 则 d i s t ( x ,y ) = 跏一- s i m ( x ,y ) ( 1 3 ) d 表示用户的模式库,由一系列的序列构成,x 表示最新观测到的用户序列, s i m d ( 司= m a x s i m ( r ,x ) ) k , ( 1 - 4 ) 上面的式子用来分类识别,检测异常序列。 机器学习异常检测方法的检测速度快,且误报率低。然而,此方法对于用户 动态行为变化以及单独异常检测还有待改善。复杂的相似度量和先验知识加入到 检测中可能会提高系统的准确性,但需要做进一步工作。总的来说,机器学习中 许多模式识别技术对安全领域都有参考价值。 7 、贝叶斯推理。 根据被保护系统当前各种行为特征的测量进行推理,来判断是否有异常发生。 检测对象的特征值分别用异常变量4 ,4 ,4 表示。假定4 具有两个值, 1 表示异常,0 表示正常。j 表示当前系统出现异常。每个异常变量4 的异常可靠 性和敏感性分别表示为只4 = 1l ,) 和p ( 4 = 1io ) 。如果给出每个4 的值,则可以 由贝叶斯定理得出,的可信值 p ( ii4 ,4 ,4 ) = 尸( ,j4 ,4 ,4 ) 尸( ,) 尸( 4 ,4 ,4 1 )( 1 - 5 ) 其中要求给出,和一的联合概率分布。又假定每个测量值4 仅与,相关,同 其他测量值彳,无关,i j ,则有 只4 ,4 ,a ni ,) = 兀二。p ( 4ix)(1-6) 以4 ,4 ,4lo ) = 兀:。p c 4i 一) ( 1 - 7 ) 从而得到 p ( i a l ,4 ,a ) p ( - 414 ,4 ,4 ) = p ( ,) 兀? 以1 ,) 兀? p ( 4i 。) ( 1 - 8 ) 这样就可以根据各种异常测量的值、入侵的先验概率以及异常发生时测量到的各 种异常概率计算出入侵的概率。必须对各个之间的独立性进行处理,才能保证检 测的准确性,最常用的一种方法是通过相关性分析,确定各异常变量之间的入侵 关系。 第一章绪论 8 、贝叶斯网络异常检测方法 基于贝叶斯网络的异常检测技术是通过建立起异常入侵检测贝叶斯网,然后 将其用作分析异常测量结果。贝叶斯网络允许以图形方式表示随机变量间相关的 关系,并通过指定的一个小的与邻接节点相关的概率集计算随机变量的联接概率 分布。按给定全部节点组合,所有根节点的先验概率和非根节点概率构成这个集。 贝叶斯网络是一个有向图。有向图中弧表示父节点和孩子节点的依赖关系。这样, 当随机变量的值变成可知时,就允许把它吸收成为证据,按给定的这个证据为其 它的剩余随机变量条件值判断提供计算框架。 近年来,网络异常检测又有了一些新发展。 l 、将主成分分析法应用于异常检测 a n u k o o ll a k h i n a ,m a r kc r o v e l l a ,c h r i s t o p h ed i o t z l i 】提出使用主成分分析的方 法来检测全网范围的流量传输异常。分布于全网范围的检测节点将检测数据发送 给中央控制节点。中央控制节点使用主成分分析法对收集的数据进行降维处理, 大大减少计算量的同时保证了检测精度。 2 、在相邻网络中进行异常检测 由于网络规模的扩大,发起子一个网络,而攻击目标位于另一个网络的网络 攻击已时常发生。a u g u s t i ns o u l c f 1 2 】等实验了在相邻网络中,进行异常检测。他们 以实际数据得出结论:由于不同网络的具体情况不同,相邻网络进行联合异常检 测的准确率和有效率大大高于单一网络独立进行异常检测。 3 、分层的异常检测结构 v c r np a x s o n 1 3 】提出了一种分层的异常检测的结构,算法与策略相分离。使用不 同的事件来定义不同的网络状况,由一个策略解释器给出不同事件的处理方法。 该系统具有以下特点:高速;不丢包:具有实时性;算法与策略相分离( 便于及 时调整,而且不同传输流采用不用的过滤检n 响应方法) ;可扩展性;避免了简 单错误:检测节点具有抗攻击性。 虽然国内外研究人员已经就网络异常检测进行了大量的工作,取得了许多巨 大的成就,提出了许多有重要价值的网络异常检测方法,但网络异常检测还存在 以下不足,有待进一步的研究和发展。 1 异常检测系统的评估方法 异常检测系统自身的抗攻击性,以及可靠性、可用性、适应性和准确性都需 要有可靠的方法来评价,在此方面有影响的工作有:m r r 的l i n c o l n 实验室采用离 线方式对异常检测系统进行了较全面的评估;i b mz u r i c h 实验室研究了一套入侵 9 电子科技大学硕士学位论文 检测系统测评工具。 2 安全技术集成 目前,异常检测系统的功能集中于异常行为的发现和简单的报警处理,这对 于完善的安全系统是不够的。因此,有必要研究如何将异常检测系统与防火墙、 弱点分析和反病毒等入侵防御和响应技术无缝融合、协同工作,构建一个多层次 的立体安全保障体系。 3 异常检测系统的标准化 不同异常检测系统之间的数据融合,以及异常检测系统与其它安全产品之间 的互操作依赖于异常检测系统的标准化。除了c d f 外,异常检测系统标准化的另 一个主要组织是i e t f 的i d w g 。i d w g 制定了入侵检测消息交换格式( i d m e f ) 和 入侵检测交换协议( i d x p ) ,旨在解决入侵检测系统之间、入侵检测系统与其它安 全系统的数据交换问题。 1 3 网络流量异常定位 1 3 1 网络流量异常定位目的 现今网络中存在的大部分安全问题,都伴随着网络流量异常。例如蠕虫病毒 会向网络中大量发送探针,并向有漏洞的主机发送带有蠕虫病毒特征的数据包。 由于蠕虫病毒发送探针时并不知道那些主机有漏洞,那些主机已被感染,甚至不 知道目的主机是否存在,而它的目的是感染网络中所有主机,所以它会向全网所 有m 都发送探针。当网络中被感染主机的数目达到一定数量,网络就会被大量的 探针和蠕虫病毒数据包所淹没,发生大面积的拥塞。而d o s 和d d o s 直接就是用 大量的数据包或请求来耗费目标的资源。当发生d o s 或d d o s 攻击时,网络越接 近受害者的部分,网络流量就越大。 另一方面,随着网络的发展,网络上各种资源日益丰富,各种网上直播、在 线视频、b t 下载等数据流量巨大的网络业务也越来越多。所以很难根据流量的大 小来判断某个数据流是否异常。而现有的防御手段主要是黑名单、防火墙、随机 丢包等手段。如果网络中发生异常,而且不能准确定位异常,判断是哪条链路或 源目的流出现异常,就不能及时有效地采取防御手段,同时避免误伤其它j 下常业 务。 为了应对这些网络安全问题,常用的一种网络安全技术是i p 追踪( i p 1 0 第一章绪论 t r a c e b a c k ) 。它的目的是识别产生攻击分组主机的真实p 地址。但口追踪技术偏 重于定位攻击源,最后追踪到的地址可能是某个a s 或子网的入口点,需要多个i s p 协同处理。而网络发生流量异常时,整个攻击路径上的链路和服务器都可能受到 影响。因此,有必要针对攻击传播的路径,进行异常定位。 网络流量异常定位的目的就是当网络异常检测系统检测出网络流量异常时, 能够及时、准确地对检测出的异常进行定位,确定异常所在位置,将异常流与正 常流区分开来,为后续的防御、反击程序指定目标,提高整个安全防御系统的效 率和精度,保护合法用户的应得利益。 1 3 2 国内外发展现状 就目前的研究状况来说,网络流量异常定位的研究还处于发展阶段。下面介 绍几种具有参考价值的方法。虽然其中有些方法偏重于攻击源定位,但对于异常 定位,还是很有借鉴价值。 l 、事后定位。 通过对异常的相关信息进行提取、记录和存储,然后根据这些信息来进行异 常定位。因为只有异常结束之后,才能得到完整的相关信息,所以这种定位方法 通常都是事后定位。显然,这种方法对网络中的设备有依赖性,需要对网络设备 做一定的设置或修改。r s t o n e 等人提出了根据路由器日志进行异常定位的方法 【1 4 1 。在每一个路由器处进行日志记录,检测到异常后对各路由器的日志进行数据 融合、整理,以此判断异常所在位置。 此方法由于对每个转发的报文都记录了完整的路径信息,因而要定位异常非 常容易,甚至可以非常方便地提取攻击路径,具有优秀的事后处理能力。它的缺 陷在于需要修改路由器的设置,使其在转发报文时能记录路径信息,将极大地降 低路由器的性能。此外,还需要安全工作者或系统管理员介入人工干预,无法自 动进行。所以这种方法实现很困难。 2 、随机采样法 为了能够确定攻击源的地址,最直接的方法是路由器对所有转发的报文填写 源路径记录选项 1 5 】,被攻击主机或网络就可以根据记录的路径信息确定攻击的源 头。但是这种方法会增加网络包的长度,导致包分片,从而对路由器和报文到达 的目标主机的性能造成影响。 3 、i c m p 定位报文法。 电子科技大学硕士学位论文 其基本原理是引入新的i c m p 定位报文0 c m ft r a e e b a c km e s s a g e ) u 6 1 。当路由器 转发报文时,以极小的概率发送对数据包的一个特殊形势的拷贝,该拷贝是一种 特殊定义的i c m p 数据包,包括上一跳和下一跳路由的p 地址、时间戳、身份认证 信息等内容。当目的地收到足够多的i c m p 定位报文时,报文传递的路径和源头就 可以确定了。这种方法与路由器日志法相同,都增加了路由器的负担,降低了网 络的性能。 4 、结点采样标记法 结点采样标记法在口报文头里预留一个4 字节的“结点”域。当路由器转发 报文时都以概率p 将自己的m 地址写入该域。设报文从路由器到目的地要经过d 跳,则目的地收到该路由器以概率p 标记过的报文的概率为p ( 1 - p ) 纠,它是一个 严格递减函数,因而在目的地收到的带有路由器标记的报文数量随路由器离目的 地距离的增加而减少。这样我们就可以对收到的带有标记的报文按照不同的标记 进行计数,然后按照大小进行排列,就可以得到报文的传播路径。通过分析不同 数据流的传播路径与数据流的流量统计特性,就可以定位异常。 该方法在样本空间特别大的情况下才能正常工作,否则将不能确定路由器的 先后次序或颠倒先后次序。 5 、边采样标记法 边采样标记法将“边 的信息写入报文,它在报文里头预留3 个区域:起点、 终点和距离。当路由器转发报文时,以概率p 进行采样标记,将自己的i p 地址写 入起点域,距离置0 当路由器检测到距离值为0 时,将自己的i p 地址写入终点域, 同时将距离加1 。这样就代表了自己和前一个路由器之间的“边 。如果路由器不 对报文进行标记,就将其距离加1 。这样距离值就代表对报文进行标记的路由器到 目的地所经过的路由器的个数旧。 边采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论