




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)支持向量机在入侵检测中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
福建师范大学刘永芬硕士学位论文 i i , o,-一 、。j jl叫,111ll a b s t r a c t n e t w o r ki n t r u s i o nd e t e c t i o n ( n i d ) i sas i g n i f i c a n tt e c h n o l o g yo fn e t w t h ec u r r e n ti n t r u s i o nd e t e c t i o nl a r g e l yd e p e n d so ne x p e r t s e x p e r i e n c ea n d w h i c hi sn o tap r e f e r a b l em e t h o dw h e ne n c o u n t e r i n gd i f f e r e n ta t t a c k s b a s e do n d a t a m i n i n gt e c h n o l o g y , t h i sp a p e re x p e c t s t os o l v et h e p r o b l e m s o fa c c u r a c y , e f f e c t i v e n e s sa n dt h ea b i l i t yt od e t e c tu n k n o w na t t a c k so nt h ei s s u eo fn i d ,a n a l y z i n g r e c e n tn i ds t u d i e sa n du s i n gt h em e t h o do fs u p p o r tv e c t o rm a c h i n e - - b a s e do ns t a t i s t i c s l e a r n i n gt h e o r y 一一a n di t sa p p l i c a t i o nt oi n t r u s i o nd e t e c t i o n n e t w o r kt r a f f i cc o n n e c t i o n si st h ek e yd a t as o u r c eo fi n t r u s i o nd e t e c t i o n t h e p r e s e n ts t u d yu s es t a n d a r dr e f e r e n c ed a t a ( k d dc u p 19 9 9 ) a st h ee x p e r i m e n t a ld a t a , w h i c hi n c l u d e sm a n yu n l a b e l e dd a t am a n yn o r m a ld a t a , a sw e l la saf e wa t t a c kd a t a t h e d a t a s e ts h o w sa nu n b a l a n c e dd i s t r i b u t i o na n dah i 幽d i m e n s i o n s u p p o r tv e c t o rm a c h i n e u s ek e r n e lf u n c t i o ni n s t e a do fp o i n tm u l t i p l yi i lh i g hd i m e n s i o n a lf e a t u r es p a c e ,p e r f e c t l y s o l v i n gt h ed i m e n s i o np r o b l e m t h e r e f o r e ,i ti s as u i t a b l em e t h o dt or e d e e ma n o m a l y d e t e c t i o no fu n b a l a n c e da n dh i g hd i m e n s i o n a ld a t a t os o l v et h ep r o b l e mo fh i g hc o s ti nl a b e l i n gt h ed a t aa r t i f i c i a l l ya n dt h a to ft h e d i m e n s i o ne f f e c tb yt r a d i t i o n a lc l u s t e r i n gm e t h o d ,t h i st h e s i sp r o p o s e san e wf u z z y s u p p o r tv e c t o rc l u s t e r i n ga l g o r i t h mt oc o p ew i t hu n l a b e l e dd a t a t h r o u g hc o m b i n i n g k - m e a n sa n dd b s c a na l g o r i t h mt og e n e r a t ea s s o c i a t i o nm a t r i x ,s e t t i n gt h et h r e s h o l d v a l u eo fc o n s t r a i n tt e r mt og e tt h ei n i t i a lc l u s t e r i n g ,a n du s i n gt h ef u z z ys u p p o r tv e c t o r d o m a i nd e s c r i p t i o n ,t h ef i n a lr e s u l tw a sa c h i e v e d t h ec o n t r a s te x p e r i m e n ts h o w st h e f e a s i b i l i t ya n de f f e c t i v e n e s so f t h i sm e t h o d , c l u s t e r i n gm e t h o d sa i m st oc l u s t e rt h em o s ts i m i l a rs a m p l ei nt h es a m ec l u s t e r i n g f o rt h ee x p e r t st oi d e n t i f yt h er e a lc l a s so ft h es a m p l e t h ec l a s s i f i c a t i o nm e t h o dc a n p r e d i c tt h ec l a s so ft h eu n k n o w nd a t ab yu s i n gc l a s s i f i c a t i o nm o d e l t h e r e f o r e ,t h i st h e s i s p r o p o s e sa ni m p r o v e da l g o r i t h mo fh y p e r s p h e r es u p p o r tv e c t o rm a c h i n e ( h s v m ) b a s e d o nf e a t u r es e l e c t i o n t h eo p t i m a lf e a t u r es u b s e tc a l lb eg e n e r a t e dt h r o u g ht h ef e a t u r e s e l e c t i o na l g o r i t h m s t r a i n e db yt h es u b s e t ,h s v mc a ng e n e r a t et h ec l a s s i f i c a t i o nm o d e l i i i 福建师范大学刘永芬硕士学位论文 i nt h ee n d 。硒ec o m p a r i s o na m o n gd i f f e r e n tr e s u l t so ft h eh s v mb a s e do nd i f f e r e n t f e a t u r es e l e c t i o n a l g o r i t h m ss h o w st h a ts v m h s v mp e r f o r m sb e t t e ra c c u r a c yt h a n h s v ma n dt h ed e t e c t i n gs p e e di n c r e a s e db y5 0 t 1 1 en e t w o r ka t t a c k sd i v e r s e ,s oa n o t h e rf o c u so ft h ep r e s e n ts t u d yi so nh o wt o d e t e c tt h et y p eo fa t t a c k s am u l t i c l a s sh y p e r s p h e r es u p p o r tv e c t o rm a c h i n eb a s e do nt r e e s t m c t u r ei sp r o p o s e da n da p p l i e dt od e t e c td i f f e r e n tt y p eo fn e t w o r ka t t a c k si nn e t w o r k t r a f f i cc o n n e c t i o n s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o de n s u r e sh i g h e r d e t e c d o nr a t ea n dl o w e rf a l s ea l a r m k e y w o r d s :n e t w o r ki n t r u s i o nd e t e c t i o n ,f u z z ys u p p o r tv e c t o rc l u s t e r i n g ,h y p e r s p h e r e s u p p o r tv e c t o rm a c h i n e ,m u l t i c l a s ss u p p o r tv e c t o rm a c h i n e i v 中文文摘 中文文摘 随着计算机网络的普及,网络安全受到越来越多的关注。网络入侵检测作为保 证网络安全的重要技术,成为计算机网络安全以及相关研究领域的一项重要课题。 网络连接数据由于蕴含着提炼攻击特征的重要信息,并且可以通过网络嗅探器等工 具较容易的获取,而成为我们分析的主要数据来源。实际的网络连接数据呈现出分 布不均衡、高维度等特点。机器学习方法一支持向量机能够有效地解决高维、不均 衡数据的分类问题。 支持向量机的基本思想是通过构造一个线性或非线性的超平面,实现对输入空 间的分类。支持向量机的求解主要是解决二次规划优化问题,通过求解得到的支持 向量所描述的最大边缘间隔来区分两类。在此基础上,发展出了许多不同的支持向 量机方法,可将其分为两类,即无监督学习支持向量机方法以及有监督学习支持向 量机方法,其中无监督学习支持向量机方法通常用于异常检测。 当前,网络入侵检测面对的问题有:如何从大量无标签的网络连接数据中挖掘 潜在知识,并将其应用于检测未知的攻击;另外,在实际的应用中,数据源当中可 能夹杂的冗余信息对程序的执行速度会产生很大的影响,如何保证快速有效地完成 检测任务;传统支持向量机最初用于解决两类问题,无法直接应用到多类问题中去, 而实际的网络连接数据的攻击类型多种多样,如何将支持向量机在两类问题上表现 出的良好性能推广到多类问题。针对网络入侵检测研究中面临的这些问题,本文着 重从以下三个方面进行了改进工作: ( 1 ) 基于模糊核聚类的入侵检测方法 无监督学习避免了人工标记数据类别代价太高的问题,本文在无监督支持向量 机方法的基础上,提出了一种新的模糊核聚类的入侵检测方法,通过k - m e a n s 与 d b s c a n 的聚类结果,构造样本之间的关联矩阵,并将矩阵中大于一定阈值的样本 对放入m u s t 1 i n k 约束对应的集合中,生成初始聚类簇以及簇中心。对于簇外样本点, 采用模糊c 均值的隶属函数计算样本对每个初始聚类簇的隶属度,并将其作为支持 向量区域描述方法的模糊因子,计算高维特征空间中超球面的球心与半径,将簇外 样本点分配到与超球面半径的相对距离最近的簇内,聚类过程结束。通过设置不同 阈值分析实验结果,并与其他聚类方法进行对比分析,验证了该方法在网络入侵检 v 皤 l、 福建师范大学刘永芬硕士学位论文 测中的可行性与有效性。 ( 2 ) 基于特征选择的入侵检测方法 在实际的应用中,特别是针对数据量较大的情况下,数据源当中可能夹杂的冗 余信息对程序执行的速度会产生很大的影响,合适的特征选择方法可以有效地去除 冗余属性,在保证分类器分类性能的同时,较大地缩短检测时间。本文提出了一种 基于特征选择的超球面支持向量机改进方法,介绍了特征选择的一般过程以及有效 的最优特征子集评估标准,并对单一属性评估器与属性子集评估器进行不同的实验, 其中,单一属性评估器的原理是通过评价函数对每个属性进行评价,并按照属性对 分类的贡献度大小排序,根据不同的阈值或限定特征子集的数目得到最优特征子集; 属性子集评估器是对不同的搜索算法生成的特征子集进行评估,直至找到最优特征 子集。通过引入分类间隔的二类超球面支持向量机方法构造分类模型,使得超球面 支持向量机入侵检测系统的分类精度有所提高,同时提高了分类器的训练速度和检 测速度。 ( 3 ) 基于多类超球面支持向量机的入侵检测方法 针对网络攻击的多样性,本文将新超球面二类支持向量机方法在两类问题上表 现出的优良性能推广到多类问题,通过研究多类超球面支持向量机的构造方法,在 基于特征选择的二类超球面支持向量机方法的基础上,提出了一种基于树结构的多 类超球面支持向量机,并将其应用于实际网络连接数据中,对不同的攻击类型进行 检测。通过对比实验,证明该方法在入侵检测领域中较其他两种方法有更好的应用 优势。 v i 一虮 f - 目录 一。_ _ - 。_ 一 目录 中文摘要i a b s t r a c t i i i 中文文摘v 目j i 匙 绪论1 第一节研究背景及意义1 第二节入侵检测的研究现状3 第三节入侵检测系统的设计6 第四节论文组织结构。7 第一章支持向量机简介o 一9 - 第一节支持向量机理论基础- 9 - 第二节优化理论- 1 2 一 第三节支持向量机基本算法一1 3 一 第四节支持向量机的分类- 1 7 - 第五节本章小结一2 0 - 第二章基于模糊核聚类的入侵检测方法一2 1 一 第一节聚类算法。一2 1 一 第二节成对约束的定义一2 2 - 第三节支持向量区域描述 第四节模糊核聚类算法- 2 5 - 第五节实验与分析。一2 8 一 第六节本章小结- 3 0 - 第三章基于特征选择的入侵检测方法。- 3 1 - 第一节特征选择方法一3 1 - 第二节评估标准- 3 2 - 第三节超球面s v m 改进算法- 3 4 一 第四节算法流程图一3 5 一 v i i 福建师范大学刘永芬硕士学位论文 第五节实验与分析一3 6 一 第六节本章小结- 3 8 一 第四章基于多类超球面s v m 的入侵检测方法3 9 一 第一节多类支持向量机算法3 9 一 第二节多类超球面支持向量机算法4 0 一 第三节实验与评价一4 2 - 第四节本章小结4 3 一 第五章总结与展望4 5 第一节全文总结4 5 一 第二节研究展望4 6 参考文献- 4 7 一 攻读学位期间承担的科研任务与主要成果- 5 3 一 致谢- 5 5 - 个人简历5 7 v i i i 绪论 。- 。1 _ _ l “, k 一、网络安全概述 绪论 第一节研究背景及意义 随着计算机和网络技术的发展,计算机网络已经成为社会生活的一部分,电子 商务、电子政务、虚拟社区等建立在i n t e m e t 网络上的电子在线服务呈现快速增长 的趋势,人类社会对数字信息的依赖达到了前所未有的程度。然而,由于互联网的 国际化、开放化等特点,使得它在给人们提供网络资源共享的同时也带来了安全隐 患。网络信息安全问题已经威胁到国家政治、经济和国防等领域。网络信息的泄露、 篡改、假冒和重传,黑客采用非正常手段入侵,蠕虫、病毒等混合威胁给网络信息 造成了严重的破坏。我国安全专家对近5 年攻击手段进行分析,发现攻击工具越来 越智能化,且易操作,虽然攻击手法基本上是计算机病毒蠕虫、拒绝服务攻击等方 式,但已对网络信息安全造成了极大的威胁。可以说网络信息安全已经成为国家信 息化发展道路的瓶颈,因此对非法入侵的检测与防范、保障计算机网络系统乃至整 个信息基础设施的安全是刻不容缓的重要课题。 如今,网络安全的内涵在不断地延伸和变化,可将其定义为利用网络管理控制 和技术措施,保证网络数据的保密性、完整性、可控性、网络服务的可用性和可审 查性。其中,网络安全定义中的保密性、完整性、可用性和可审查性反映了信息安 全的基本属性和目标:( 1 ) 保密- l 生( c o n f i d e n t i a l i t y ) 是指杜绝系统或网络信息的非法泄 露,强调信息只被授权对象使用的特征;( 2 ) 完整性( i n t e g r i t y ) 是指保持信息原样性, 防止数据被非法修改、破坏或丢失的特征;( 3 ) 可控性( c o n t r o l l a b i l i t y ) 是指网络系统 中的任何信息在一定的传输范围和存放空间内可控;( 4 ) 可用性( a v a i l a b i l i t y ) 是指网 络信息可被授权实体正确访问,在系统遭受攻击或破坏时,能迅速恢复并且网络信 息和系统资源能持续有效;( 5 ) 可审查性( a c c o u n t a b i l i t y ) 是指网络通信参与者在信息 交互时确信参与者真实身份,在计算机遭受攻击后,安全系统有充足的信息追踪和 识别入侵者。 简而言之,网络安全的最终目标是保障网络信息的安全,而解决网络安全问题 福建师范大学刘永芬硕士学位论文 需要安全技术、管理、法制、教育并举,从技术上有效地解决网络安全问题。 入侵检测的必要性 近年来,为了提高计算机网络的安全性,人们做了大量的研究工作,提出了各 种技术方案,如数据加密、数字签字、身份认证、防火墙、内容过滤等。在国内, 防火墙技术是保护计算机网络安全最成熟的技术之一,是网络安全的基石。防火墙 位于两个或多个网络之间,它将内部网络与外部网络相隔离,通过制定的访问规则 对经过它的信息进行监控,从而保护内部网络安全。但是,任何事物都有两面性, 防火墙的功能也存在着一定的局限:( 1 ) 防火墙无法防范不经由防火墙的攻击,这就 意味着一旦数据绕过防火墙,就无法被检测;( 2 ) 防火墙是一种被动安全策略执行设 备,这表示防火墙对未知攻击或者配置有误就无能为力了;( 3 ) 防火墙不能防止诸如 拒绝服务攻击( d o s ) 或者分布式拒绝服务攻击( d d o s ) 等利用标准网络协议中的缺陷 进行的攻击。 针对防火墙的局限性,需要引入入侵检测系统弥补防火墙的不足,对防火墙进 行合理地补充,从而提高网络信息安全结构的完整性。入侵检测系统采用的是一种 较为主动的技术,能够及时的发现入侵行为和合法用户滥用特权的行为。与其他安 全产品不同的是,入侵检测系统拥有更多的职能,它需对捕获的数据进行智能地分 析,并挖掘出数据中潜在的知识。越来越智能化的入侵检测系统能够在很大程度上 简化管理员的工作,并保证网络安全地运行。 入侵检测的发展史 入侵( i n t r u s i o n ) 是指任何企图危及计算机系统资源的完整性、机密性和可用性或 试图绕过计算机系统或网络安全机制的行为。入侵检澳z ( i n t r u s i o nd e t e c t i o n ) 就是对入 侵行为的发现,通过计算机网络或系统中的若干关键点收集信息,并分析网络或系 统中是否存在入侵行为及迹象。1 9 8 0 年,a n d e r s o n 【l j 首先提出入侵检测的概念,将 入侵行为划分为外部攻击、内部非法访问和滥用行为三种,并提出用审计系统日志 方法监视入侵活动。1 9 8 6 年,d e n n i n g 和n e u m a n n 2 1 开发了采用异常检测和专家系 统相结合的实时入侵检测系统。1 9 9 0 年,h e b e r l e i n s l 等提出了第一个基于网络的入 侵检测系统n s m ( n e t w o r ks e c u r i t ym o n i t o r ) ,通过在局域网上主动监视和检测网络 , 0 九 : 绪论 入侵,并在此基础上发展出了分布式入侵检测系统。1 9 9 2 年,p o r r a s 4 提出了基于 状态转换分析的入侵检测方法s t a t 。1 9 9 6 年,c h e u n g t 5 提出了基于图的入侵检测 系统g r i d s ( g r a p h - b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) ,部分解决了入侵检测系统伸缩 性不足的问题。1 9 9 8 年,f o r r e s t 6 1 将生物免疫原理运用到分布式入侵检测领域,提 出了基于计算机免疫学的入侵检测系统。2 0 0 0 年,模糊技术和遗传算法被引入入侵 检测7 1 。2 0 0 1 年,p o r t n o y 8 1 提出了无监督的入侵检测方法。2 0 0 2 年,j u l i s e h 和d a j n 9 等提出了识别入侵警报根源的技术,解决入侵检测系统触发警报量大的问题。 入侵检测技术经过3 0 年的发展取得了许多可喜的成果,然而面对层出不穷的攻 击,仍然需要不断完善现有的技术和进行新技术、新思路的研究。 第二节入侵检测的研究现状 一、入侵检测的分析技术 入侵分析的主要任务就是根据提取到的大量数据检测非法入侵事件。入侵分析 过程需要将提取到的事件与入侵检测规则等进行比较,从而判断是否属于入侵行为。 由于入侵行为的多样性导致判定入侵的规则越来越复杂,如何合理地设计分析策略 满足入侵检测系统的实时性、高效性,从而保证系统安全以及稳定地运行成为入侵 检测系统的主要研究内容。入侵检测的分析技术可以分为两种:异常检狈, j ( a n o m a l y d e t e c t i o n ) 方法和误用检测( m i s u s ed e t e c t i o n ) 方法。根据目前研究者对两种方法的使 用频度,简易评估异常检测与误用检测技术的使用情况,如图0 1 所示, 国异常检涓 误用检铡 图0 一l 异常检测与误用检测使用情况示意图 f i g u r eo 一1t h eu s ep r e s e n t a t i o no fa n o m a l yd e t e c t i o na n dm i s u s ed e t e c t i o n 显然,异常检测技术是目前入侵检测系统分析方法的重点。以下将具体介绍这两种 r 1 1 。_ _ - _ _ - - 。一 梦 福建师范大学刘永芬硕士学位论文 入侵检测分析方法。 ( 1 ) 异常检测方法 异常检测方法试图通过建立一个对应系统或用户的“正常活动 的特征模式 ( a c t i v i t yp r o f i l e ) 来检测可能的入侵,这个特征模式可以对系统静态配置进行描述, 也可以对系统或用户的正常行为进行描述。异常检测方法的主要问题是如何表示用 户正常行为的特征模式,以及如何通过将正常行为的特征模式与当前的系统行为进 行比较。异常检测方法的策略是:如果比较结果有一定的偏离,入侵检测系统就会 报告异常。异常检测的优点在于它不依赖于己知的入侵攻击行为,可用于检测未知 的和复杂的攻击类型,且检测速度比较快。其缺点是存在较高的误报率,尤其采用 的训练数据包含入侵行为时,可能得到错误的训练模型或阈值。 常见的异常检测方法包括:基于统计分析的异常检测、基于数据挖掘技术的异 常检测、基于神经网络的异常检测和基于机器学习的异常检测等。 ( 2 ) 误用检测方法 误用检测方法又称基于知识的入侵检测,是利用已知事件建立各种攻击模式, 再判定行为是否具有侵略性。显然,误用入侵检测依赖于模式库,如果没有建立好 较完善的模式库,入侵检测系统将难以检测到入侵行为。误用检测将所有攻击形式 化存储在入侵模式库中,对已知的攻击检测率较高并且误报率低。同时,由于可对 检测的匹配条件进行清除的描述,从而有利于网络安全人员采取明确的预防保护措 施。其缺陷是要收集现有的攻击行为特征以及系统安全漏洞是一项艰苦的工作,需 要耗费大量的时间和精力。其次,误用检测方法无法检测已知攻击的变种或未知的 攻击,需要对入侵模式库不断进行维护升级。 常见的误用检测方法包括:基于规则的误用检测、基于专家系统的误用检测、 基于p e t r i 网的误用检测和状态转换方法等。 二、数据挖掘技术的应用现状 , 数据挖掘本身是一项通用的知识发现技术,其目的是要从海量数据中提取出我 们感兴趣的知识。数据挖掘技术的优点是适用于处理海量数据,面对网络中大量的 数据流,应用数据挖掘技术对审计数据和数据流的分析和学习,建立用户行为模式 的形成和入侵检测规则库,可以减少入侵检测建模的手工和经验成分。同时,基于 , 0 节 “ h 绪论 一 数据挖掘的入侵检测系统还具有智能性好、自动程度高、检测效率高、自适应能力 强等优点。经典的数据挖掘方法有:聚类分析方法、分类方法、关联分析方法、序 列模式分析方法等。 网络入侵检测系统利用数据挖掘中的相关算法提取与安全相关的系统特征属 性,并根据这些属性生成安全事件的分类模型,用于对安全事件的自动鉴别。一套 完整的基于数据挖掘的入侵检测模型包括了针对安全事件审计数据的数据采集、数 据准备和预处理、特征变量选取、算法比较、挖掘结果处理以及结果可视化等一系 列的过程。 网络入侵检测系统中应用的数据挖掘算法包括:分类( c l a s s i f i c a t i o n ) 、关联分析 ( a s s o c i a t i o n a n a l y s i s ) 、聚类分析( c l u s t e r a n a l y s i s ) 等相关算法。分类的具体实现方法 也有很多,统计学、机器学习、神经网络、专家系统等都是目前数据挖掘研究的重 要方向。 1 9 9 8 年,c o l u m b i au n i v e r s i t y 的w e n k el e e 研究组首次将数据挖掘引入入侵检 测,运用数据挖掘技术对审计数据进行处理,提高了检测系统的准确性和可扩展性。 针对网络数据,w e n k el e e 的主要做法是使用网络服务端口作为网络连接记录的类 型标识,根据大量的正常连接记录生成各个服务类型的分类模型,在测试过程中, 根据分类模型对当前的连接记录进行分类,并与实际服务类型进行比较,从而判断 出该分类模型的准确性。w e n k el e e 及其研究小组做出了一系列卓有成效的成果 1 0 - 1 1 ,提出了构造入侵检测模型的数据挖掘框架m a d a mi d ( m i n i n ga u d i td a t af o r a u t o m a t e dm o d e l sf o ri n t r u s i o nd e t e c t i o n ) 。此后,数据挖掘( d a t am i n i n g ) 在入侵检 测中的应用成为了一个研究热点。 j o s h i e l 2 】等人针对数据分布严重偏斜的情况,提出了一种针对稀有类的检测方法 m i n d s ( m i n n e s o t ai n t r u s i o nd e t e c t i o ns y s t e m ) 。 d a n i e lb a r b a r a 等人提出了网络实时的异常检测系统a d a m ( a u d i td a t a a n a l y s i s a n dm i n i n g ) t 1 3 】。a d a m 利用关联规则对未知攻击类型进行检测,但是误报率较高。 x i a n g y a n gl i 提出了一种基于聚类的有指导的入侵检测方法c c a ( c l u s t e r i n g a n dc l a s s i f i c a t i o na l g o r i t h m ) t 1 4 】,通过对带标签的训练数据进行有约束的聚类,以此 获得分类模型,采用最近邻算法检测未知攻击。 l e o n i dp o r t n o y 8 】提出了基于聚类的无监督入侵检测方法,该方法将包含样本点 较少的聚类簇标识为攻击类型,其他为正常类型。 r 福建师范大学刘永芬硕士学位论文 h y u n o hs a n g 1 5 】提出了基于静态聚类算法的异常检测方法,利用审计日志建立 主机中用户正常行为模型,将正常行为模式与当前的审计记录进行比较,从而判断 是否为入侵行为。 连一锋【1 6 】等人从序列模式等角度提出了入侵检测新方法。 以上的实验及其测试结果表明,将数据挖掘技术应用于入侵检测在理论上是可 行的,在技术上建立这样一套系统是可能的。其技术难点主要在于如何根据具体应 用的要求,从我们关于安全的先验知识出发,提取出可以有效地反映系统特征的特 征属性( f e a t u r e s ) ,将合适的算法应用到实际的入侵检测系统中。 三、支持向量机在入侵检测中的应用现状 网络入侵检测实质上可以看成是一种分类问题,通过对训练集进行学习构造分 类器,将正常与异常数据分开。在实际的网络入侵检测获得的数据源中,大量的网 络正常流量和极少量网络异常流量混杂在一起,体现了数据分布的不均衡,并且网 络数据常常体现为高维异构的,因此在对实际的网络流量进行检测的过程中,选择 一种或多种能够有效地处理高维异构数据的方法显得尤为重要。 支持向量机( s u p p o r tv e c t o rm a c h i n e ss v m ) 是在有限样本学习理论基础上发展 起来的,适合处理高维以及不均衡数据的异常检测问趔1 7 】,因此,将s v m 方法应 用于入侵检测领域已成为网络安全研究的热点【1 8 2 0 。s v m 最早由v a p n i k 等人【2 1 】提 出,是一种基于结构风险最小化原理的机器学习方法:饶鲜 2 2 1 等人分别介绍了以网 络数据包和系统调用序列作为检测对象建立基于s v m 的入侵检测系统的方法; c h e w 等人【2 3 1 提出了一种基于双v 支持向量机的异常检测方法;e s k i n t 2 4 】针对未标签 的不均衡数据集,提出了基于1 类支持向量机( o n e c l a s ss v m ) 的用于孤立点发现的 无监督异常检测技术;k h a n t 2 5 】提出了一种将层次聚类与支持向量机相结合的入侵检 测方法,舭锄a l a 【2 6 将s v m 与神经网络( n e u r a ln e t w o r k ) 相结合,提出了用于特 征选择的入侵检测方法:此外,还有许多文献【2 7 - 2 9 通过各种不同方法相结合,从而 应用于入侵检测。 第三节入侵检测系统的设计 入侵检测系统的设计一般从以下几个方面来考虑: 譬 k “p 绪论 ( 1 ) 数据来源 目前入侵检测系统所采用的数据源有以下几种类型:操作系统的审计记录,系 统日志,应用程序日志,网络数据包。选择数据源主要基于检测目标的需要,从数 据源的选择来看,入侵检测通常可以分为基于主机和基于网络的入侵检测。 ( 2 ) 分析手段 获得数据源后,入侵检测系统必须应用某种分析模式对输入数据进行分析以获 取隐藏在审计事件傩l 括主机事件和网络流量) 中的知识。基于误用的入侵检测系统 利用己知的事件建立各种攻击模式,然后将这些模式与观察到的模式进行匹配,判 断是否入侵。基于异常的入侵检测系统是通过对比当前活动与系统历史正常活动从 而判断是否发生入侵。目前的检测技术研究倾向于结合这两种检测技术,设计一种 混合型的入侵检测系统。 ( 3 ) i 作模式 从检测速度来看,入侵检测系统有两种工作模式:实时和非实时处理系统。非 实时的检测系统通常在事后收集的审计日志文件基础上,进行离线分析处理,并找 出可能的攻击行为踪迹,目的是进行系统配置的修补工作,防范以后的攻击;这种 工作模式常见于早期的检测系统。实时的检测系统则是以在线的方式检测入侵,一 旦发现入侵立即给出警告,及时保护系统安全。 ( 4 ) 时间和空间跨度 一个入侵可能跨越时间和空间的限制,因此检测系统的设计者必须考虑如何处 理分布在几个主机上的攻击和持续长期的攻击。 ( 5 ) 知识库的及时更新 计算机系统用户的活动随需求的不同而不断变化、各种攻击技术的不断翻新要 求检测系统必须能不断更新其知识。 第四节论文组织结构 本文的研究工作是支持向量机在网络入侵检测的应用,其主要内容为: 绪论部分阐述了本文的研究背景及意义,其中包括了网络安全的概述,以及入 侵检测的必要性和发展过程,然后介绍了当前入侵检测的分析技术,详细介绍了数 广雩一一 福建师范大学刘永芬硕士学位论文 据挖掘技术在入侵检测中的应用现状,以及目前支持向量机算法的研究现状,最后 说明了本文的主要工作以及论文的结构安排。 第一章将对支持向量机的理论体系进行较为全面的介绍,简要介绍了支持向量 机的理论基础,并回顾了支持向量机的基本算法,对支持向量机算法的分类做简要 介绍。 第二章针对目前聚类方法在处理高维数据时性能下降的问题,引入支持向量聚 类方法,巧妙地解决了维度效应。本章将具体介绍支持向量数据描述方法的思想, 给出了核聚类方法的相关定义,提出了一种新的模糊核聚类方法,将其应用于网络 连接数据的异常检测,通过实验验证了其可行性与有效性。 第三章将介绍一种二类超球面支持向量机的改进算法,并提出一种基于特征选 择的超球面支持向量机算法,针对网路连接数据,运用不同的评估标准寻找最优的 特征子集。实验说明该方法在保证分类精度的同时,提高了分类器的检测速度。 第四章将在第三章的基础上,结合树结构多类支持向量机的构造法则,将基于 特征选择的二类超球面支持向量机向多类推广,提出了一种新的多类超球面支持向 量机方法,将其用于检测不同的攻击类型,并对实验结果进行分析。 第五章将对本文主要工作进行总结,指出研究中存在的不足,并展望今后持续 深入的研究工作。 鲁 _ 0 第一章支持向量机简介 第一章支持向量机简介 支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 2 1 1 是在有限样本学习理论基础上发 展起来的两类学习方法。在解决小样本、非线性及高维模式识别问题中,支持向量 机方法表现出了许多特有的优势,并能够应用推广到函数拟合等其他机器学习问题 中,成功地解决了高维问题和局部极值问题。本章将对支持向量机的基础理论及基 本算法进行具体的介绍。 第一节支持向量机理论基础 一、经验风险最小化原则 设假设空间为胙妒r 小屹) ,( x l , y o ,仇盟) ,) r m x y 其中而是训练样本, y i 是类标签,r ( x 。蝴独立同分布于概率密度函数舷力,机器学习的目的是,在假 设空间中选取函数舷w ) 求一个最优函数5 x , w o ) ,使得期望风险: ( 们= j l ( y ,f ( x ,w ) ) d f ( x ,力 ( 1 - 1 ) 最小化。其中w eq 为函数的广义参数,三 舷w ) ) 为舷w ) 对y 进行预测造成的损 失。我们希望期望风险最小,但期望风险的值无法直接计算只能估计,因此人们根 据概率论中大数定理的思想,采用算术平均代替数学期望,这个估计的风险称为经 验风险,记作r 删p ( w ) ,公式如下: r 叩( w ) = 去三( 以,厂( 薯,w ) ) ( 1 2 ) ,i = 1 显然,期望风险是关于分布的,而经验风险是关于数据的,当样本空间为样本集合 且每个样本出现的概率相同时,期望风险也就变成了经验风险。用经验风险j j c 唧( w ) 最小值代替期望风险尺伽( w ) 最小值,就是所谓的经验风险最小化( e m p i r i c a lr i s k m i n i m i z a t i o n ,e r m ) 原则。 根据经验风险最小化原则,如果能通过对大样本进行训练找到逼近训练样本的 函数模型,就可能得到比较准确的预测效果。但使用经验风险代替期望风险并没有 可靠的理论依据。事实上,如果学习机器能力过强,对任何训练样本都保持高精度 福建师范大学文l j 永芬硕士学位论文 的辨识能力并不代表能得到好的预测结果。神经网络的过学习问题就是经验风险最 小化原则失败的例子。 由此可见,在有限样本情况下,经验风险最小并不总是意味着期望风险最小, 学习机器的复杂性应该与所研究的系统有关,而且要和有限数目的样本相适应,这 就需要一种能够指导我们在小样本情况下建立有效的学习和推广方法的理论 3 0 1 。 二、v c 维 支持向量机方法是建立在v c 维理论和结构风险最小原理基础上的,以样本间 的某种距离作为划分依据,在高维空间中构造较低v c 维的函数集,从而获得好的 推f 能j 3 ( g e n e r a l i z a f i o na b i l i t y ) 。v a p n i k 和c h e o n e n k 0 【3 1 1 提出的v c 维是统计学习 理论的核心概念,是反映函数集或学习机器的分类能力的一个重要指标。v c 维的 定义:对一个指示函数集,能对空间中任意给定的h 个样本进行所有可能的少种分 类方式分为两类,则称函数集能够把h 个样本细分( s h a t t e r i n g ) 。如果函数集能够细 分h 个样本,而无法将h + 1 个样本细分,那么函数集的v c 维就是h 。如果函数集 可以细分任意数目的样本,则该函数集的v c 维就是无穷大。 ! f 。、 、0 ; 10 、 一 0 ;蕞0 一xn ;二, 。| 、 、? | 、 ( 1 )( 2 ) 图1 1v c 维 f i g u r el - 1v a p n i k - c h e r v o n e n k i sd i m e n s i o n 接下来,给出函数集v c 维的直观解释,如图1 - 1 中( 1 ) 所示,二维平面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件污水和污水处理
- 课件水果屋教学课件
- 课件民政工作
- 综合实践影子课件
- 课件模板科普类
- 补牙相关知识培训
- 理解词语的课件
- 公司拓展培训
- 课件材料收集经验
- 课件显示讲稿的方法
- 公共关系学教程 课件全套 胡百精 第1-16讲 现代公共关系的诞生与职业化- 公关伦理与企业社会责任
- 联通标志设计专业
- 技工培训机构管理办法
- 氨站培训课件
- 护理神经内科个案:一例阿尔茨海默病患者的个案护理
- DB42T 1049-2015 房产测绘技术规程
- 【课件】跨学科实践:制作简易热机模型(教学课件)2025-2026学年初中物理人教版(2024)九年级全一册
- 婚宴酒店开业活动方案
- 2024年成都新都投资集团有限公司招聘笔试真题
- 盆底重建术并发症
- 新解读《HJ 694 - 2014水质 汞、砷、硒、铋和锑的测定 原子荧光法》新解读
评论
0/150
提交评论