




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕十学位论文 张钢0 2 1 9 4 0 2 1 5 6 摘要 支持向量机( s v m ) 是一种基于结构风险最小化原理( s r m ) 的分类和预测 算法,它根据有限的样本信息在分类器模型的复杂性和学习能力之间寻求最佳折 衷,以期获得最好的推广能力【1 】【2 】。基于支持向量机的这种特性,本文把支持 向量机分类算法应用于网络入侵检测的数据分析中,针对网络入侵检测数据的特 点,引入了用于指导训练和分类过程的先验决策信息,提出了专门针对网络和主 机数据的入侵检测支持向量机训练算法p s m o 和相应的检测算法,通过对带有 先验知识属性的训练数据集学习,得到个用于判别系统正常和异常状态的分类 器。在此基础上,我们提出了应用支持向量机分类算法的实时检测和更新模型, 应用j a v a 语言和l i b s v m 3 编写实验程序,并使用m i tl i n c o l n 实验室收集整 理的d a r p a 网络数据包集【4 】对算法进行训练和测试,与原有基于传统统计学概 率模型的算法进行比较,实验结果表明带先验知识的支持向量机算法在检测的准 确率、效率和泛化能力方面都有不同程度的提升。 【关键词1 支持向量机、入侵检测、统计学习、网络安全、s m o 2 中山大学倾七学位论文 张钢0 2 1 9 4 0 2 1 5 6 a b s t r a c t s u p p o r tv e c t o rm a c h i n e ( s w t ) i sd e v e l o p e dw i t ht h er e s e a r c ho fs t a t i s t i c a l l e a r n i n gt h e o r y ( s l t ) a n di t i sac l a s s i f i c a t i o na n dp r e d i c t i o na l g o r i t h mb a s e do n s t r u c t m a lr i s km i n i m u mf s r m ) t h e o r 5s v mt h e o r yl i e so ns l t sv ct h e o r ya n d s r mt h e o r 5a n dc o m p r o m i s e sl i m i t e ds a m p l ei n f o r m a t i o na n dt h ec o m p l e x i t yo f m o d e ls oa st og e tt h em a x i m u mg e n e r a l i t y 【1 1 1 2 1 w i t ht h i sf e a t u r eo fs v m ,w ea p p l y s v ma l g o r i t h mi nt h es t a g eo fi n t r u s i o nd e t e c t i o na n di n t r o d u c ep - s m oa l g o r i t h ma s t h et r a i n i n gm e t h o do fs v mm o d e lw i t ht h ed e f i n i t i o no f e x p e r tk n o w l e d g e w i t ht h e d e f i n i t i o no f w e i g h t e dc l a s s i f i c a t i o nm a r g i n ,e x p e r tk n o w l e d g ei sa d d e di n t ot h es v m t r a i n i n gm o d e l w eu s ej a v aa n dl i b s v m 【3 】t oc o d eo u rt e s tp r o g r a ma n dd a r p a i n t r u s i o nd e t e c t i o nt e s td a t as e t 【4 】a st h et r a i n i n ga n dt e s t i n gd a t a e x p e r i m e n tr e s u l t s s h o wt h a to u rp r i o rk n o w l e d g eb a s e ds v mm o d e li sm o r ee f f e c t i v ea n dm o r e a c c u r a c yt h a nt h ep u r es t a t i s t i c a lm e t h o d a n dt h eg e n e r a l i t yi sa l s og r e a t e rt h a nt h e o l do n e s k e yw o r d ls v m ,i n t r u s i o nd e t e c t i o n ,s l t ,n e t w o r ks e c u r i t y 、s m o 3 巾山大学硕士学位论文 张钢0 2 1 9 4 0 2 1 5 6 1 1 引言 第1 章背景 随着互联网技术和计算机软件应用技术的发展,与计算机网络安全相关的问 题也日益突出,越来越受到人们的重视,网络安全问题在应用中所占的比重也日 益增大。在这种情况下,各种与安全相关的技术和软件相继出现,在商业应用中 发挥着越来越重要的作用。目前比较成熟且使用广泛的安全产品是防火墙和入侵 检测系统,它们共同为网络构筑了一道安全的防护墙。 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,简称i d s ) 是计算机网络安全研 究领域的一个重要研究课题,在研究初期就引起了国内外学者的广泛关注,入侵 检测是动态安全技术中最为核心的内容之一。国外早已在2 0 世纪8 0 年代就开展 了入侵检测技术的研究,在一些重要的政治、军事和经济网络上对非法入侵实施 监控,并对重要数据和主机系统进行保护。i d s 系统在保障信息网络安全、检测 入侵攻击行为、分析入侵攻击技术手段等方面发挥着重要的作用。i d s 系统正在 成为访问控制、加密认证、防火墙和虚拟子网后的又一个安全防护手段。未来的 互联网安全策略将会是把内部安全管理和应用上述各种安全技术的安全系统综 合起来,并以i d s 系统为中心,构成一个多手段、深层次的网络安全体系。 从检测数据来源看,i d s 系统主要可以分为两大类。一类是基于网络的i d s 系统,这类1 d s 系统分析网络上的数据包序列,包括分析数据包的类型、大小、 包中各个属性的值以及一段时间里收到的数据包的组合,以确定是否有入侵系统 的不正常行为发生。另一类是基于主机审计数据的入侵检测系统,主要分析主机 的系统日志以及各种实时运行参数记录,包括主机应用程序运行状态及历史记 录、系统核心调用序列、系统事件历史记录、系统各种参数的运行时值以及系统 硬件资源使用率,以确定是否有导致系统状态不正常的入侵行为发生。 从入侵检测的方式来分,入侵检测系统则可分为基于误用( m i s u s e ) 的检测 系统和基于异常( a n o m a l y ) 的入侵检测系统两大类。基于误用的入侵检测系统 使用一组预先定义的规则,对所检测的数据匹配这些规则以确定是否有入侵行为 发生。基于异常的入侵检测系统是通过统计学习算法,利用系统在正常状态下的 审计数据,通过一定的训练算法得出系统正常状态行为的数学模型,再把当前的 系统状态与该模型进行分析,通过比较当前系统状态与模型所代表正常状态的偏 离度来确定是否有入侵行为发生。基于异常的入侵检测算法基于这样一个事实, 即系统发生入侵时,或多或少会表现出一些系统运行参数对于正常状态的偏离, 并且这些偏离是可以检测的。 中山大学硕十学位论文 张钢0 2 1 9 4 0 2 1 5 6 目前成熟、商用的i d s 系统大部分是基于误用检测的,也就是使用预先定义 的规则进行入侵检测,这是由于基于误用的匹配算法比较成熟,并且对已知的入 侵手段有较高的检测精度。而基于异常的入侵检测算法由于还不成熟,所以只是 作为基于误用算法的一个补充。但是基于异常的入侵检测算法有一个优点,它可 以发现未知的入侵模式,因为它是从整体上对系统行为进行分析,并且任何入侵 手段都会或多或少地改变系统的运行状况。 对于任何一一种类型的入侵检测方法,其实质都是要解决一个二类的分类问 题。基于网络数据源的检测方法,其任务是把正常数据包和异常数据包进行区分, 对于主机审计数据检测方法,其任务就是把正常的系统状态与异常的系统状态进 行区分。目前国内外对运用统计学、数据挖掘的方法来进行基于入侵的正常和异 常状态检测算法有很多研究。哥伦比亚大学的s t o l f o 和l e e 在数据挖掘技术在入 侵检测中的应用方面做了许多开创性的工作,不过他们的工作在检测策略上属误 用检测范畴。齐建东等人在“基于数据挖掘的网络异常行为检测技术设计与实现” 【5 】中,提出了一种对于网络数据包进行异常检测的数据挖掘算法,并通过统计 学方法建立正常的活动的统计模型。n o n gy e 在“p r o b a b i l i s t i ct e c h n i q u e sf o r i n t r u s i o nd e t e c t i o nb a s e do nc o m p u t e ra u d i td a t a ”【6 】中,比较了若干个重要的统计 概率方法在主机审计数据分析中的效率和准确率,也讨论了这些方法的各自的优 点和缺点。在k e n i c h i y o s h i d a 的“e n t r o p y b a s e d i n t r u s i o n d e t e c t i o n ”f 7 1 中,提出 了使用熵作为系统正常与异常的度量值的思想,并以此为基础提出了基于系统熵 的检测方法。在a n i t aj o n e s 等的“t e m p o r a ls i g n a t u r e sf o ri n t r u s i o nd e t e c t i o n ”f 8 1 中,在不考虑会话重组的情况下,引入了系统的时态属性作为入侵检测的依据。 他们的工作都是基于传统统计理论模型算法所展开,其中一些对特定的入侵 手段已经达到了比较高的检测精度和检测效率。传统统计理论的核心是参数估计 方法的应用,其基本思想是假设研究人员非常了解要分析的问题,对于产生数据 随机性质的物理规律有充分的把握,并且目标函数仅与有限个参数有关,认为用 观测数据估计参数是统计推理问题的本质,为了用与统计规律和目标函数有关的 信息求出这些参数,采用最大似然方法进行计算,这也就是一般意义上的经典参 数体系。 经典的参数体系基于如下信念:为了从数据中找到一种函数依赖关系,必然 能够定义一个与参数成线性关系的函数集,它包含了对所求函数的最佳逼近,并 且描述函数集的自由参数个数较少,这个可以由w e i e r s t r a s s 定理进行说明:大多 数实际问题的随机分量所隐含的统计规律是正态分布,这个可以由中心极限定理 进行说明;在参数估计体系下的归纳手段是最大似然方法,是估计参数的有效工 具,这个可以由条件最优性定理进行说明 1 】。以上的这三点,又都是基于这样 6 叶1 山大学硕士学位论文 张钢0 2 1 9 4 0 2 1 5 6 的一个前提的,也就是假如存在一个数学证明,说某一方法给出一个渐近最优解, 则在实际问题中该方法将对少量的数据样本提供一个合理的解。也就是说,就某 一实际问题而苦,可能只能提供给学习机器一个极其有限的样本集,经典的参数 体系认为必然能够从中抽取出所给定那一类问题的一般规律,并对测试数据给出 较优的解。 这种思想对于样本数趋于无穷并且样本服从一定规律分布的问题是很有效 的。但是随着计算机技术的发展,人们在应用计算机分析复杂多维和异构数据的 过程中,发现了传统参数估计体系存在如下缺点: 1 当考虑的因素和精度增加时,所需要的计算量会成指数增加。这就是 由r b e l l m a n 所提出的维数灾难 1 】。 2 经验表明,很多实际问题的统计成分并不能仅用经典的统计分布函数 来描述,它们不能或很难用有限个正态分布通过叠加得到,也就是说 这些情况下中心极限定理未必适用,比如说对于某些转导推理的问 题,我们无法找到合适的分布函数,在这种情况下经典的统计方法就 不适用。 3 最大似然方法不是理论上最优的,不一定是每个样本都会对分类函数 有同样的贡献【1 】。并且单纯的统计理论无法重用与问题背景相关联的 先验知识。 传统参数估计体系有很大的局限性,首先,它需要已知样本分布形式,这需 要花费很大代价,其次,传统统计学研究的是样本数目趋于无穷大时的渐近理论, 现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此 一些理论上很优秀的学习方法,应用到小样本学习问题中表现可能不如人意。 所以对小样本学习理论的研究有重要意义。在这种情况下人们展开了对统计 学习理论的研究。与针对大数据样本集发展起来的统计学和基于各种先验信息的 统计学相比,统计学习理论是专门针对小数据样本集发展起来的,并不依赖于对 所解问题的先验知识,而是只考虑学习机器所实现一种函数集的结构,并且在结 构上定义了一种子集容量的特定度量,也就是所谓的v c 维理论【1 】。 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y 或s l t ) 是一种专门研究小样本情 况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体 系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现 有有限信息条件下得到最优结果2 】。 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习 问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多 原来难以解决的问题( 比如神经网络结构选择问题、局部极小点问题等) ;同时, 7 巾山大学硕士学位论文 张钢0 2 1 9 4 0 2 1 5 6 在这一理论基础上发展了一种新的通用学习方法支持向量机( s u p p o f l v e c t o r m a c h i n e 或s v m ) ,它在很多的应用方面已经表现出很好的性能,并且有很好的 理论基础,是一种很有发展前景的机器学习算法。 支持向量机方法是建立在统计学习理论框架的v c 维理论和结构风险最小 ( s r m ) 原理基础上的,根据有限的样本信息在模型复杂性( 即对特定训练样本 的学习精度,a c c u r a c y ) 和学习能力( 即无错误地识别任意样本的能力) 间寻求 最佳折衷,以期获得最好的推广能力( g e n e r a l i z a t i o na b i l i t y ) 。支持向量机方法 的几个主要优点有: 1 它是专门针对有限样本情况的。其目标是得到现有信息下的最优解而 不仅仅是样本数趋于无穷大时的最优解。 2 算法最终将实际问题转化成为一个二次型优化问题,从理论上说,算 法得到的将是全局最优解,解决了在神经网络方法中无法避免的局部 最优问题。 3 算法将实际问题,也就是线性不可分的问题,通过非线性变换转换到 高维的特征空间( f e a t u r es p a c e ) ,在高维空间中构造线性判别函数来 实现原空间中的非线性判别函数,这种特殊性质能保证机器有较好的 推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数 无关。 在支持向量机方法中,只要定义不同的内积函数,就可以实现多项式逼近、 贝叶斯分类器、径向基函数( r a d i a lb a s i cf u n c t i o n 或r b f ) 方法、多层感知器 网络等许多现有的学习算法。 目前支持向量机方法已经在各个领域中得到广泛的应用。其中在图像识别、 语音识别、文本分类等方面已经发挥了重要作用。支持向量机方法和核学习方法 主要用于解决小样本的学习问题,而且对数据维数和多变性不敏感,具有较好的 分类精度和泛化能力。1 类s v m 方法已被成功用于孤立的手写体识别、文本分 类、人脸识别等,并显示出巨大的优越性。s v m 方法应用于i d s 中的研究还比 较少,只有e l e a z a re s k i n 等人用s v m 来实现主机异常状态的发现,但是他们的 工作仅限于用s v m 作无监督的异常检测。李辉等人通过定义归一化距离计算两 个样本的内积,并在此基础上提出了1 类s v m 的训练算法【9 】。但是1 类s v m 算法无法把问题背景的先验知识应用到其中,只能发现一些异常点,对于这种分 类的正确性和通用性还要由人工去鉴别。 目前有学者提出把先验知识引入s v m 分类模型中。目前主要有以下两个研 究的方向。方面如【1 0 】中提出了如何选择特定背景知识下的核函数。不同的核 函数对分类器的推广能力有很大的影响,某些特定应用选用特定的核函数会有非 8 中山大学硕士学位论文 张钢0 2 1 9 4 0 2 1 5 6 常好的表现。另一方面的研究是直接把先验知识引入s v m 分类器中,包括直接 在训练样本中引入先验知识属性,然后统一通过s v m 表示:也有对优化的目标, 即最大分类间隔重新定义,使之成为在某种意下的最大间隔。对核函数的研究以 及对于先验知识的表示形式都还处于研究阶段,成功的应用还不是很多。 本文利用s v m 分类器良好的分类性能和推广能力,把它应用到入侵检测中, 针对入侵检测的目标数据集,提出了带入侵检测专家知识的p s m o 训练算法, 通过定义置信度标准化函数f 和松弛变量标准化函数g ,把表示先验知识的置信 度集成到由松弛变量控制的软间隔分类器中。通过把先验知识表示的规则应用到 训练样本集合,得出样本分类标记的置信度,由此确定支持向量离分类超平面的 距离。实质上是把传统s v m 的最大化分类间隔推广为最大化带权的分类间隔, 而这种权值是由应用背景的先验知识所决定。最后在实验中通过和c h i s q u a r e 以 及【1 6 1 中的多事件向量方法进行比较,对结果做出进一步讨论。 1 2 论文结构 本文的余下部分组织如下:第2 章阐述了s v m 算法及其训练算法和检测算 法;第3 章阐述s v m 应用于入侵检测的可能性以及带先验知识s v m 的入侵检 测模型;第4 章阐述针对主机系统的数据特点应用s v m 算法进行入侵检测的训 练算法及先验知识的表达;有关本文的实验环境和实验结果在第5 章进行说明; 第6 章是本文的结论。 9 中山大学硕十学位论文 张钢0 2 1 9 4 0 2 1 5 6 第2 章支持向量机的基本理论 支持向量机方法是在统计学习理论基础七发展起来的一种分类方法,有很好 的理论基础。本章简单介绍s v m 的理论,它是p s m o 训练算法的基础。 2 , 1 基本概念和定理 2 1 1 最优分类超平面 我们称来自训练样本集( y 1 ,x 3 ( y h ,x 0 ,xer n ,y 一1 ,1 ) 的向量x 的两个有限子集( 其中,子集i 对应y = 1 ,子集1 i 对应y = 一1 ) ,对于超平面 ( x 8 f ) = c 是可分的,若存在一个单位向量f ( i f i = 1 ) 和一个常数c ,使得不等式 ( x + f ) c ,若x i i( 2 1 ) ( x 4 f ) 0 的展 开式 r 4 u , v ) = 、。气( u ) z k ( v ) k 一1 ( 也就是说i 0 ,我们定义样本( x i ,y i )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版八年级英语跨学科融合计划
- 汽车冷却风扇项目安全评估报告
- PEP小学英语五年级暑假学习计划
- 2024-2025新员工入职前安全培训考试试题附参考答案【模拟题】
- 2025企业负责人安全培训考试试题含答案(突破训练)
- 2025项目管理人员安全培训考试试题(综合题)
- 2025年岗位安全培训考试试题附答案(考试直接用)
- 中国紫外线固化行业市场规模及未来投资方向研究报告
- 2025年企业员工岗前安全培训考试试题附答案(典型题)
- 2025年幕墙建筑市场分析报告
- 《生态环境的密码:竺可桢的科学研究课件》
- 硕士外语水平考试指南与答案
- 2025年入团考试历年总结试题及答案
- 2025年福建省三明市中考二模生物试题(原卷版+解析版)
- 完形填空15篇(答案解析)-2025年中考英语分类专练(深圳专用)
- 2025年事业单位e类考试真题及答案
- 2024年江苏省宝应县事业单位公开招聘紧缺人才37名笔试题带答案
- 《急性冠状动脉综合征》课件
- 武汉市2025届高中毕业生四月调研考试 试卷与解析
- 2025北京各区高三一模数学分类汇编解析 答案
- 第18课《井冈翠竹》 课件
评论
0/150
提交评论