




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)基于支持向量机的入侵检测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于支持向量机的入侵检测方法研究中文摘要 基于支持向量机的入侵检测方法研究 中文摘要 入侵检测( i n t r u s i o nd e t e c t i o n ,i d ) 是信息安全不可缺少的技术之一,已成为近 年来网络安全技术的新热点。现有i d 大多基于规则检测,存在检测速度慢,检测准 确率不高,误报、漏报率高等缺点。支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是 基于统计学理论的机器学习方法,它较好地解决了小样本、非线性过学习、高维数等 实际问题。因此,将s v m 应用于入侵检测中,可以克服一般入侵检测方法的缺陷, 获得较好的检测性能。 基于以上认识,论文对基于s v m 的入侵检测方法进行了研究,具体完成以下工 作: ( 1 ) 对i d 基本理论进行了探讨,对s v m 理论进行较为深入的分析,总结了基 于s v m 的i d 方法的研究现状; ( 2 ) 对通用的基于s v m 的入侵检测模型进行分析,指出提高该模型效率的有 效途径; ( 3 ) 提出了一种基于主成分分析( p r i n c i p a lc o m p o n e n t a n a l y s i s ,p c a ) 和聚类 距离比较( c l u s t e r i n gd i s t a n c ec o m p a r i s o n ,c d c ) 的入侵检测数据预选取算法 p c a c d c ,从而提高了学习速度; ( 4 ) 提出一种有效利用p c a c d c 预选取算法中聚类分析的训练结果并结合 k k t ( k a r u s h k u h n t u c h e r ,k t t ) 条件判断和无用样本淘汰方法的改进s v m 增量 学习算法。该算法节省t i ) j l 练时间,提高了增量学习效果; ( 5 ) 将提出的p c a c d c 算法和改进增量学习算法应用于入侵检测数据集k d d c u p1 9 9 9 ,与传统的基于支持向量机的入侵检测方法相比,验证了算法的有效性。 最后,作者对所做的工作进行了总结,并对以后的研究工作进行了展望。 关键词:入侵检测;支持向量机;主成分分析;聚类距离比较;增量学习 作者:陈莉 指导老师:邓伟 r e s e a r c ho fi n t r u s i o n d e t e c t i o nm e t h o d sb a s e do i l s u p p o r t v e c t o rm a c h i n e a b s t r a c t i n t r u s i o nd e t e c t i o n ( i d ) i so n eo ft h ei n d i s p e n s a b l et e c h n o l o g yo fi n f o r m a t i o n s e c u r i t y , i nr e c e n ty e a r si th a sb e c o m ean e wh o t s p o to fn e t w o r ks e c u r i t yt e c h n o l o g y m o s t o ft h ei n t r u s i o nd e t e c t i o nb a s e do nt h ee x i s t i n gr u l e s ,i th a ss o m es h o r t c o m i n g s ,s u c ha s d e t e c t i o ns p e e ds l o w l y , t h et e s ta c c u r a c yi sn o th i g h ,t h em i s s t a t e m e n ta n dt h er a t eo ff a i l t o oh i g h e r s u p p o r tv e c t o rm a c h i n e ( s v m ) i sam a c h i n el e a r n i n gm e t h o db a s e do nt h e s t a t i s t i c a lt h e o r y i ti sag o o ds o l u t i o nt ot h ea c t u a lp r o b l e m ,s u c ha st h es m a l ls a m p l e , n o n l i n e a ra f t e rl e a r n i n g ,h i g hd i m e n s i o n t h e r e f o r e ,s v mi sa p p l i e di ni n t r u s i o nd e t e c t i o n , i tc a no v e r c o m et h ed e f e c t so fi n t r u s i o nd e t e c t i o nm e t h o dc o m m o n l ya n da c h i e v eg o o d d e t e c t i o np e r f o r m a n c e b a s e do nt h ea b o v e ,t h ei n t r u s i o nd e t e c t i o nm e t h o d sb a s e do ns v mi sr e s e a r c h e di n t h i sp a p e r t h ef o l l o w i n gw o r k sa r ed o n e : ( 1 ) t h eb a s i ct h e o r yo fi n t r u s i o nd e t e c t i o ni sd i s c u s s e d t h es v mt h e o r yi sm o r e i n d e p t ha n a l y s i s t h es t a t u sq u oo f i n t r u s i o nd e t e c t i o nm e t h o db a s e do ns v mi s s u m m a r i z e d ( 2 ) c o m m o n i n t r u s i o nd e t e c t i o nm o d e lb a s e do ns v mi sa n a l y z e d ,a ne f f e c t i v ew a y i s p r o p o s e dt oi n c r e a s et h ee f f i c i e n c yo ft h em o d e l ( 3 ) ai n t r u s i o nd e t e c t i o nd a t ap r e f e t c ha l g o r i t h mo fp r i n c i p a lc o m p o n e n ta n a l y s i sa n d c l u s t e rd i s t a n c ec o m p a r i s o n ( p c a c d c ) i sp r o p o s e d ,i ti n c r e a s e st h el e a r n i n gs p e e d ( 4 ) a ni m p r o v e ds v m i n c r e m e n t a ll e a r n i n ga l g o r i t h mi sp r o p o s e d i te f f e c t i v e l yu s e s t h et r a i n i n gr e s u l t so fc l u s t e ra n a l y s i si np c a - c d ca l g o r i t h mp r e s e l e c t i o na l g o r i t h m i t c o m b i n e sw i t hk k t ( k a r u s h - k u h n - t u c h e r ) c o n d i t i o n sa n dt h em e t h o do fu n u s e ds a m p l e s o u t t h ea l g o r i t ha c h i e v e st h er e s u l t so fs a v i n gt r a i n i n gt i m ea n di m p r o v i n gi n c r e m e n t a l l e a r n i n g ( 5 ) t h ep c a - c d ca l g o r i t h ma n dt h ei n c r e m e n t a ll e a r n i n ga l g o r i t h mi m p r o v e di s r e s e a r c ho fi n t r u s i o nd e t e c t i o nm e t h o d sb a s e do ns u p p o r tv e c t o rm a c h i n e a b s t r a c t a p p l i e dt ot h e i n t r u s i o nd e t e c t i o nd a t a s e t so fk d dc u p19 9 9 c o m p a r e dw i t ht h e t r a d i t i o n a li n t r u s i o nd e t e c t i o nm e t h o db a s e do ns u p p o r tv e c t o rm a c h i n e ,t h ee f f e c t i v e n e s s o ft h ea l g o r i t h mi sv e r i f i e d f i n a l l y ,t h ew o r ko f t h ep a p e ri ss u m m a r i z e d ,a n dt h ef u t u r er e s e a r c hi sp r o p o s e d k e yw o r d s :i n t r u s i o nd e t e c t i o n ;s u p p o r tv e c t o rm a c h i n e ;p r i n c i p a lc o m p o n e n ta n a l y s i s ; c l u s t e r i n g d i s t a n c ec o m p a r i s o n ;i n c r e m e n t a ll e a r n i n g i w r i t t e n b y :c h e nl i s u p e r v i s e db y :d e n gw e i 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:醴:至! 1日期:趔2 :! :堑 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档j 可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 型2 :! ! ! 堑 基于支持向量机的入侵检测方法研究第一章绪论 1 1 课题研究背景及意义 第一章绪论 随着i n t e r n e t 在企业应用的不断深化,利用建立在i n t e r n e t 架构的应用系统平台 来实现电子商务、在线交易、网上银行、业务集团化管理等应用已经成为企业发展的 重要方向。与此同时,安全问题的因素导致经济的损失也不断涌现。 2 0 0 1 年7 月爆发的“红色代码”( c o d er e d ) 网络蠕虫病毒,给全球造成的损失 超过2 6 亿美元;2 0 0 3 年1 月份的蠕虫王病毒,利用s q ls e r v e r2 0 0 0 安全漏洞, 对系统进行攻击,造成全球1 2 亿美元的经济损失;2 0 0 3 年8 月份的“冲击波 病毒, 在短短的1 8 分钟内就传遍全球;黑客入侵网络系统事件也频频出现,其损失无法估 计;2 0 0 4 年8 月被认为是有史以来病毒攻击危害最为严重的一个月,仅s o b i g 病毒就 为全球经济带来了2 9 7 亿美元的损失。2 0 0 5 年,拒绝式服务( d o s ) 攻击导致的平均 损失为1 4 0 余万美元,同2 0 0 4 年相比增长了五倍。 因此,在网络安全问题日益突出的今天,如何迅速、有效地发现各类新的入侵行 为,对于保证系统和网络资源的安全显得十分重要。入侵检澳l j ( i n t r u s i o nd e t e c t i o n ,i d ) 技术是继“防火墙 、“数据加密”等传统安全保护措施后的新一代安全保障技术,是 网络安全的核心技术之一,它扩展了系统管理员的安全管理能力,提高了系统安全基 础结构的完整性,被认为是防火墙之后的第二道安全闸门。因此,研究入侵检测系统 具有极其重要的意义。 1 2 入侵检测研究现状及存在问题 a n d e r s o n 在1 9 8 0 年第一次详细阐述了入侵检测( i n t r u s i o nd e t e c t i o n ,i d ) 的概 念【。1 9 8 6 年d e n n i n g 在i e e e 上提出的入侵检测模型( i n t r u s i o n d e t e c t i o n m o d e l ,i d m ) 被认为是i d 领域的开山之作【2 】。在这篇论文中,他首先对入侵检测系统模式做了定 义:一般而言,入侵检测通过网络数据包或信息的收集,检测可能的入侵行为,并且 在入侵行为造成危害前及时发出报警,通知系统管理员并进行相关的处理措施。入侵 检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,i d s ) 应包括3 个必要的功能组件:信息来源、 分析引擎和响应组件。从1 9 8 4 年到1 9 8 6 年,d e n n i n g 和p e t e r 设计了一个实时入侵 第一章绪论基于支持向量机的入侵检测方法研究 检测模型,即入侵检测专家系统( i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ,i d e s ) 【3 】。受 a n d e r s o n 和i d e s 的影响,在2 0 世纪8 0 年代出现了大量的i d e s 原型系统,被称为 里程碑式的i d 原型系统。商业化的i d s 直到2 0 世纪8 0 年代后期才出现。 虽然入侵检测方法研究取得了长足的进展【4 】,但一般入侵检测方法还是存在一些 问题【5 】,如:( 1 ) 入侵检测技术明显滞后于入侵攻击;( 2 ) 恶意信息采用加密方法传 输,从而逃避入侵检测系统的检测,造成漏报、误报率增加,甚至无法检测;( 3 ) 网 络负载流量的加大对入侵检测技术提出了更大的挑战;( 4 ) 海量信息与分析代价的矛 盾;( 5 ) 大量的误报和漏报使得找出问题的真正原因变得非常困难;( 6 ) 缺乏对入侵 检测的客观评估,测试信息也远远不够丰富。 为了解决这些问题,有些学者已将支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 引入到入侵检测中【6 】,取得了良好的结果。s v m 本质上属于机器学习的范畴,由于 它既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等问 题。针对s v m 国内外已进行了广泛的研究,包括分类、回归、无监督学习和概率估 计等,并取得了很好的研究成果。目前,基于s v m 的入侵检测已成为入侵检测研究 领域的一个热点。 2 0 0 2 年,m u k k a m a l a 7 等人利用s v m 技术实现了入侵检测,并将该方法和神经 网络方法进行了比较,得到了较好的实验结果。同年,n g u y e n 和e s k i n 【8 】等人又分别 提出了基于单类支持向量机的异常检测。国内最早应用s v m 进行入侵检测研究的是 清华大学的陈光英、张千里等【9 】,饶鲜等1 0 1 人,他们介绍了以网络数据包和系统调用 序列作为检测对象,建立了基于s v m 的入侵检测系统的方法等。橄书划1 、罗斟1 2 】 等将s v m 技术在网络入侵检测中进行了应用。谭小彬【1 3 】、李辉1 4 1 等人也开展了这方 面的研究工作,通过实验验证了基于s v m 的方法具有更好的检测性能和效率。 以上这些研究的切入点主要是对s v m 算法本身的一些改进,然后用入侵数据加 以验证。但这些方面的研究总体来说还不成熟,这是因为: ( 1 ) 关于s v m 本身还有许多问题有待解决,包括s v m 的自适应学习、工作样 本的有效选择方法、最优化问题的快速求解等; ( 2 ) 关于s v m 应用的研究存在的问题,包括大数据量时s v m 训练时间、s v m 增量学习,核函数的选择和s v m 无监督学习等; 2 基于支持向量机的入侵检测方法研究 第一章绪论 ( 3 ) 将s v m 应用于入侵检测后,急需解决的问题包括入侵检测本身的进一步 发展、与在线学习和检测有关的一些问题( 训练时间、增量学习、检测率、误报率) 等等。 1 3 论文所做的工作 针对将s v m 技术应用到入侵检测时所存在的问题,为了更好地地适应入侵检测 系统的需求,论文做了如下工作: ( 1 ) 分析入侵检测的相关理论知识,对入侵检测技术进行了探讨。研究了基于 s v m 的入侵检测方法现状,对通用的基于s v m 的入侵检测模型进行分析,阐述其具 有的功能,找出其存在的问题。 ( 2 ) 综述统计学习理论与支持向量机。主要对统计学习理论和支持向量机分类 问题的基本理论进行粗略的描述。 ( 3 ) 提出一种新的基于主成分分析和聚类距离比较算法相结合的入侵检测数据 预选取算法_ 呻c a c d c 。该算法综合考虑了样本数量的冗余和样本参量相关的问 题,在有效地压缩数据量的同时,又很好地保持了原有的检测数据的共性结构特征, 通过去除相似的样本而只取其代表点,从而减少参加训练的样本数量,提高了学习速 度,有效改善了入侵检测样本数据集过于庞大,学习速度过慢的问题。 ( 4 ) 提出一种改进支持向量机增量学习算法。在入侵检测环境中,入侵行为层 出不穷,一旦一种攻击被识破,又会有新的攻击出现,故入侵检测系统必须具有很强 的适应性、自学习性和鲁棒性,这就需要增量式的学习新的知识。因此,提出了一种 改进的s v m 增量学习算法,该算法有效结合前面预选取算法中的聚类分析分结果并 采用结合k k t 条件判断和无用样本淘汰方法,以达到提高增量学习效果的目的。 ( 5 ) 实验和结果分析。将提出的p c a c d c 算法和改进s v m 增量学习算法运用 到入侵检测中,并在入侵检测数据集k d dc u p l 9 9 9 上分别验证了p c a c d c 算法和 改进的s v m 增量学习算法的有效性。与传统的基于s v m 的入侵检测方法相比,该 算法缩短了训练时间,减低了误报率,提高了检测精度和检测率,取得了较好的入侵 检测效果。 ( 6 ) 对所做的工作进行了总结,并对以后的研究工作进行了展望。 第一章绪论基于支持向量机的入侵检测方法研究 1 4 章节安排 论文的章节安排如下: 第一章绪论。介绍了论文的研究背景及意义、入侵检测研究现状及存在问题, 基于s v m 的入侵检测研究现状和存在问题,阐述了论文所做的工作及章节安排情况。 第二章入侵检测技术分析。研究了入侵检测相关理论知识,对通用的基于s v m 的入侵检测模型进行分析,阐述其具有的功能及存在的问题。 第三章统计学习理论与支持向量机。该章主要对统计学习理论和s v m 分类问 题的基本理论进行粗略的描述。 第四章入侵检测数据预选取方法。本章提出一种新的基于主成分分析和聚类距 离比较算法相结合的入侵检测数据预选取算法,提高了学习速度。 第五章s v m 增量学习算法。提出了一种改进的s v m 增量学习算法,该算法有 效结合前面预选取算法中的聚类分析分结果并采用结合k k t 条件判断和无用样本淘 汰方法,以达到提高增量学习效果的目的。 第六章实验与结果分析。用k d dc u p l 9 9 9 入侵检测数据集验证了提出的 p c a c d c 算法和改进增量学习算法的有效性。 最后,总结了论文所做的主要工作,并对以后的工作进行了展望。 4 基于支持向量机的入侵检测方法研究 第二章入侵检测技术分析 第二章入侵检测技术分析 入侵检测系统( i n t r u s i nd e t e c t i o ns y s t e m ,i d s ) 与传统的防火墙相比,是一种积 极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护。它能很 好的弥补防火墙的不足,可以对系统中未授权访问或异常现象、活动与时间进行审计、 追踪、识别和检验的安全过程。它可以识别出系统是否被入侵,从而做出及时的反应, 切断网络连接、记录时间和报警,提醒系统管理员采取相应的措施,避免系统受到进 一步的侵害。 2 1 入侵检测概述 入侵检测系统作为一种积极主动的安全防护工具,提供了对内部攻击、外部攻击 和误操作的实时防护,在计算机网络和系统受到危害之前进行报警、拦截和响应。它 具有以下主要作用:( 1 ) 通过检测和记录网络中的安全违规行为,惩罚网络犯罪,防 止网络入侵事件的发生;( 2 ) 检测其它安全措施未能阻止的攻击或安全违规行为;( 3 ) 检测黑客在攻击前的探测行为,预先给管理员发出警报;( 4 ) 报告计算机系统或网络 中存在的安全威胁;( 5 ) 提供有关攻击的信息,帮助管理员诊断网络中存在的安全弱 点,利于其进行修补;( 6 ) 在大型、复杂的计算机网络中布置入侵检测系统,可以显 著提高网络安全管理的质量。 最早的入侵检测模型由d e n n i n g 在1 9 8 6 年提1 2 ,这个模型与具体的系统和具 体输入无关,对此后大部分实用系统有借鉴价值。图2 1 表示了这个通用模型的体系 结构【1 5 】。 图2 1d e n n i n g 提出的入侵检测模型 事件产生器根据具体的应用环境的不同,可来自于审计记录、网络数据包及其它 第二章入侵检测技术分析基于支持向量机的入侵检测方法研究 可视行为,这些事件构成了检测的基础。行为特征表是整个检测系统的核心,它包含 了计算机用户行为特征的所有变量,这些变量可根据具体所采纳的统计方法及事件记 录中的具体行为模式而定义,并根据匹配上的记录数据更新变量值。 如果有统计变量值达到了异常的程度,则行为特征表产生异常记录,并采取一定 的措施。规则模块可以由系统安全策略、入侵模式等组成。它一方面为判断是否入侵 提供参考机制;另一方面,根据事件记录、异常记录以及有效日期等控制并更新其它 模块的状态。 目前关于入侵模式的提取和编制还没有统一的标准,一般由有经验的技术人员完 成;对于异常检测,则首先利用搜集的数据采取一定的统计方法建立相应的系统剖析 模型,作为正常运行的参考标准。异常检测器不断地计算相应统计变量的变化情况, 一旦系统偏移参考基准超过许可范围,就认为系统发生异常。 2 2 入侵检测的分类 2 2 1 根据数据源分类 从数据来源看,入侵检测通常可以分为两类:基于主机的入侵检测系统和基于网 络的入侵检测系统【1 6 1 。这两种入侵检测系统的对比如表2 - 1 所示。 表2 1 两种检测系统的对比 基于主机的入侵检测系统 基于网络的入侵检测系统 可以检测到基于网络所忽略的攻击:来自关键服务可以检测到基于主机所忽略的攻 器键盘的攻击( 内部,不经过网络) 等攻击者 击:d o s ,b a c k o f f i c e 核实攻击的成功和失败实时检测、响应与攻击预警 检测指定的系统行为检测不成功的攻击和恶意企图 适合于加密和交换环境 与操作系统无关 准实时检测和响应实施成本低 无须另外硬件攻击者不易转移证据 低花销全面而准确的识别攻击特征 不能监测活动的会话情况可以监测活动的会话情况 6 基于支持向量机的入侵检测方法研究第二章入侵检测技术分析 2 2 2 根据分类引擎分类 根据分类引擎,入侵检测可分为异常检测和误用检测两类。 1 异常检测 异常检测是基于行为的检测,即根据使用者的行为或者资源的使用状况来判断入 侵行为是否发生,对应的异常检测模型如图2 2 所示。而基于异常的检测技术则是先 定义一组系统“正常 情况的数值,如c p u 利用率、内存利用率等,然后将系统运 行时的数值与所定义的“正常”情况比较,得出是否有被攻击的迹象。这种检测方式 的核心在于如何定义所谓的“正常 情况。异常检测技术的优点是可以检测到新的未 知攻击;缺点是误报率高。 图2 2 异常检测模型 2 误用检测 误用检测是基于知识的检测,误用检测模型如下图2 3 所示。它采用的方法是对 已知的攻击方法定义好入侵检测模式,对捕获的用户或者系统特征采用匹配等分析方 法来检测该行为是否出现在特征模型库中,以此来发现入侵行为的方法。此方法非常 类似目前杀毒软件所采用的病毒特征匹配方法。 图2 3 误用检测模型 7 第二章入侵检测技术分析基于支持向量机的入侵检测方法研究 该检测方法的优点是可以可靠地检测已知的攻击,误报率低;缺点是只能发现已 知的攻击,对未知的攻击无能为力。当前流行的系统大多采用误用检测技术。 2 3 已有入侵检测方法分析 2 0 世纪9 0 年代以来,研究人员又提出了不少新的检测算法,从不同的技术角度 来看待入侵检测的基本问题,并利用了许多人工智能或机器学习的算法,试图解决传 统检测技术中存在的若干问题,如虚假警报、缺乏检测未知或变形攻击的能力、扩展 性和自适应等。就具体的建模方法而言,目前已经有包括统计分析、神经网络、专家 系统、计算机免疫学、a g e n t 、s v m 等。 1 基于统计分析的i d s t l 7 1 9 】 统计分析是最早出现的异常检测技术,d i e s 、n i d e s 以及h a y s t a c k 系统中所包 含的异常检测模块都属于这个类别。基于统计的检测分析规则认为入侵行为应该符合 统计规律,可以通过对统计量的偏差检查来检测出不正常行为。基于统计的入侵检测 对未知攻击手段的检测能力有限,还有它的自学习特性,也使得攻击者可以使用一系 列特定的训练样本来训练检测系统,使其误认为进行的是正常的网络活动。由于基于 统计的入侵检测分析需要保存更多的检测状态和上下关系而需要消耗更多的系统资 源,实现难度相对较大;大多数统计分析系统是以批处理的方式对审计记录进行分析 的,不能提供对入侵行为的实时检测和自动响应功能。 2 基于神经网络的i d s 2 0 ,2 1 】 神经网络方法的特点之一是它具有学习的能力。因此一些入侵检测系统使用它来 学习用户的行为,这个算法允许神经网络模拟一些用户行为并且根据最新的变化进行 调整,神经网络的另一个特点就是允许模糊数据或噪声数据。最早提出使用神经网络 来构造系统用户行为的是f o x ,他使用k o h o n e n 的自主学习( s e l f o r g a n i z i n gm 印, s o m ) 算法来发现数据中隐藏的信息。a n u pk g h o s h 使用预先分类的输入资料对神 经网络进行训练,学习出正常和非正常的程序行为。g h o s h 还对简单的系统调用序列 匹配、反向传播网络( b a c kp r o p a g a t i o nn e t w o r k ,b p n ) 和e l m a n 网络进行了比较。 3 基于专家系统的i d s t z 2 l 专家系统是使用最为广泛的一种方法。该方法在得到用户或系统特征数据之后, 8 基于支持向量机的入侵检测方法研究第二章入侵检测技术分析 处理数据提取用户特征值,和专家系统特征数据库进行比较,根据匹配程度判断是否 是入侵行为。这种方式也有其固有的缺陷,即很难全面地从各种入侵行为中抽象出全 面的规则化知识;同时由于数据量庞大,所以实时性能较差。 4 基于免疫学的i d s 2 3 2 4 1 美国新墨西哥大学的f o r r e s t 教授提出将生物免疫机制引入计算机系统的安全保 护框架中。免疫系统最基本也是最重要的能力是识别“自己非自己 ,也就是说,它 能够识别哪些是系统正常行为,那么不是正常行为就认定为异常。这与入侵检测中异 常检测的概念非常类似,将其运用到入侵检测系统中,能提高整个系统的自适应性、 可调节性和扩展性。 5 基于a g e n t 的i d s 2 5 】 所谓a g e n t ,实际上可以看作是在执行某项特定监视任务的软件实体。a g e n t 通 常以自治方式在目标主机上运行,本身只受操作系统的控制,因此不会受到其他进程 的影响。a g e n t 的独立性和自治性为系统提供了良好的扩展性和发展潜力。基于a g e n t 的入侵检测系统可以为保障系统安全提供混合式的架构,把误用检测和异常检测结合 起来,从而弥补各自缺陷。移动代理( m o b i l ea g e n t ) 是最近兴起的一个研究热点,它是 一段自动程序,能够在异种网络环境中从一台机器迁移到另一台机器。将移动代理技 术应用于i d s 后,利用移动代理技术中各个移动代理之间相互协作而又相互独立的特 性,使系统结构具有良好的伸缩性、灵活性、扩展性、容错能力及攻击预防能力,提 高入侵检测系统的整体性能,适用于大规模分布式跨平台环境中。 6 基于s v m 的i d s l 7 - 1 4 】 s v m 的核心思想是,当输入空间中样本非线性可分时,选择一个适当的非线性 映射或通过核函数,将输入空间中的样本点映射到一个高维的特征空间,使得对应的 样本点在该特征空间中是线性可分的。s v m 在模式识别、函数拟合、概率密度估计 方面表现出的性能胜过其它大多数的学习系统。在i d s 中,现有的s v m 方法大多用 来区分各种攻击和正常数据,以便检测攻击并给出攻击报警,并取得了较好的结果。 除以上方法外,还有将进化计算引入入侵检测的侦听数据识别;将马尔可夫链模 型用于入侵检测系统的正常模式检测;将隐马尔可夫链模型用于基于时序数据学习, 检查异常;将b a y e s i a n 网络应用于异常检测或几种方法联合检测等 2 6 1 。 9 第二章入侵检测技术分析基于支持向量机的入侵检测方法研究 2 4 基于s v m 的入侵检测方法 2 4 1s v m 应用到入侵检测的可行性 s v m 已经应用到许多现实世界的问题中,包括文本( 超文本) 分类、图像分类、 生物序列分析和生物数据挖掘、手写字符识别等。 i d s 需要分类的数据是非常复杂的,常常体现为高维、小样本和不可分性。所谓 高维,指的是入侵检测中的数据集在正常情况下有很多属性,一般的入侵检测数据集 都是几十维。这样,每一条记录就可以看作是高维空间中的样本点。所谓小样本,指 的是数据集所能体现的信息是有限的。小样本的统计学习问题是在样本数目有限的条 件下尽可能多地利用样本集合所提供的信息的机器学习问题。在入侵检测中,对于一 个特定的攻击类型来说,样本又是很缺乏的,有些攻击类型在5 0 0 0 0 0 0 左右的样本中 只有几个样本。在这样的样本结构下,要想准确的区分每一种攻击,对于任何一种方 法都几乎是不可能的,更不要说去发现产生这些样本的概率等统计规律了。所谓不可 分性,指的是要进行分类的样本可能是高度重叠,不可以用线性分类器进行简单的分 类。 s v m 是在小样本学习的基础上发展起来的分类器设计方法,专门用于小样本数 据,它在算法中涉及到样本的维数,但是对数据的维数不敏感。因此s v m 方法适合 于入侵检测领域高维异构数据集中的分类器设计,对于正常状态数据和异常状态数据 的有指导学习和划分。s v m 方法作为模式识别中的一种新的学习和分类方法,在很 多的分类问题上已显出很好的性能口7 3 0 。 2 4 2 基于s v m 的入侵检测模型 根据参考文献 3 1 】和【3 2 】,可以得出基于s v m 的入侵检测模型如图2 - 4 所示。由 图2 - 4 可知,该模型共分为如下几大模块:数据采集及预处理模块、数据预选取模块、 训练模块、检测模块、增量学习模块、响应模块。 当训练样本进来时,首先通过数据预处理模块进行样本预处理,然后送往训练模 块进行训练,经过训练后系统产生决策模型。然后当检测数据进来时,检测模块会通 过分类器给出判决结果。判决结果输出到响应模块,响应模块会做出相应的反应。而 再有新的训练数据进来时,则可通过增量学习模块进行增量学习,重新产生一个新的 1 0 基于支持向量机的入侵检测方法研究第二章入侵检测技术分析 决策模型。 入 侵 检 测 数 据 源 入侵检 测数据 源原始 数据数 值化和 归一化 数据 预处 理方 法 数据预选取模块 数 据 格 式 规 格 化 增量学习模块 箜 模块1 支持土向量 模块 l i = ! = ! 兰! = : 数据采集及预处 理模块 图2 4 基于s v m 的入侵检测模型 1 数据采集及预处理模块 数据采集是入侵检测系统中第一步要做的工作,如果采用软件来获取网络中极大 的数据流,并将其转换为s v m 方便处理的数据格式,将消耗大量系统资源,从而影 响检测系统性能。因此,在一般的i d s 中都用硬件来实现这部分工作。 2 数据预处理模块 在分类前,对样本进行预选取是必要的,通过对样本集进行有效的压缩将为可以 减少参加训练的样本数量,提高学习速度。 3 训练及检测模块 训练数据经过样本数据预选取模块后交由训练模块进行训练,从而得到支持向 量,支持向量由检测模块形成决策模型,当有新的检测数据进来时,检测模块中的分 类器可作出类别判断,然后由相应模块做出相应的响应。 4 增量学习模块 在入侵检测系统中,往往不是只通过一次训练就可以完成决策模型的,因为会有 新的样本数据不断地进来,每次进来时都要重新学习以形成新的决策模型。如果每次 训练都使用原有数据和新数据的全部集合,训练的代价将会很大,为了提高训练速度 和得到较准确的分类结果,采用s v m 增量学习算法很有必要。 第二章入侵检测技术分析基于支持向量机的入侵检测方法研究 5 响应模块 响应模块针对检测模块的分析结果做出相应的响应。其按照响应速度可分为3 类:报警型响应系统、手工响应系统、自动响应系统。文中对入侵的响应并没有太多 的研究,因此只在这里做一下简单的介绍。 2 5 基于s v m 的入侵检测存在的问题 尽管s v m 技术运用到入侵检测中,可以有效地提高入侵检测效率,但还是会遇 到一些问题【3 3 】: ( 1 ) 大规模数据训练的问题 大规模数据问题的处理,是近年来的一个迫切需要解决的问题。利用s v m 技术 进行大规模数据的分析,是本领域学者所追求的目标之一。如何解决训练速度与训练 样本规模间的矛盾,如何有效地压缩样本集等问题仍然没有得到很好的解决。 ( 2 ) 具有增量学习能力的数据分类问题 具有s v m 增量学习能力的入侵检测系统式许多在线训练、实时应用的关键。需 要找到有效的增量学习算法,同时满足期望风险最小。 ( 3 ) 如何降低计算成本、减少计算时间 几乎所有的s v m 系统都存在这一问题,因为s v m 是一个二次优化问题,所有 在求解s v m 时,这一问题几乎是不可避免的。 ( 4 ) 大量的误报和漏报使得找出问题的真正原因变得非常困难。 1 2 基于支持向量机的入侵检测方法研究第三章统计学习理论与支持向量机 第三章统计学习理论与支持向量机 3 1 统计学习理论 3 1 1 学习问题的表示 机器学习的目的是根据给定的训练样本求对某系统输入输出之i 司依赖关系的估 计,使它能够对未知输出作出尽可能准确的预测。可以一般地表示为:变量y 与x 存 在一定的未知依赖关系,即遵循某一未知的联合概率f g ,y ) ( x 和y 之间的确定性关 系可以看作是其特例) ,机器学习问题就是根据,个独立同分布观测样本 ( 五,乃) ,( j c 2 ,儿) ,( 而,m ) ( 3 1 ) 在一组函数 厂( x ,口) ) 中求一个最优的函数( x ,) 对依赖关系进行估计,使期望 风险 r ( 口) = i l ( y ,厂( x ,口) x 坍( x ,y ) ( 3 2 ) 最小。其中, 厂( x ,口) 称作预测函数集,口维函数的广义参数, 厂( x ,口) ) 可以表示 任何函数集;l ( y ,f ( x ,口) ) 为由于用f ( x ,口) 对y 进行预测而造成的损失,成为损失 函数,不同类型的学习问题有不同形式的损失函数。预测函数也称作学习函数、学习 模型或学习机器。这里暂时没有讨论非监督模式识别问题【3 4 1 。 有三类基本的机器学习问题,即模式识别、函数逼近和概率密度估计。对模式识 别问题,输出j ,是类别标号,两类情况下y = o ,1 ) 或 1 ,一1 ) ,预测函数称作指示函数, 损失函数可以定义为: m m 训= 譬 在函数逼近问题中,y 是连续变量( 这里假设维单值函数) ,损失函数可定义为: 三( y ,厂( x ,口) ) = ( y f ( x ,口) ) 2 , ( 3 4 ) 即采用最小平方误差准则。而对概率密度估计问题,学习的目的是根据训练样本确定 1 3 )3 - 2 jk , 、l,、i, 口 口 , , x x ,-i、,il、 , = y y 圹圹 第三章统计学习理论与支持向量机 基于支持向量机的入侵检测方法研究 x 的概率密度。记估计的密度函数为p ( x ,口) ,则损失函数可定义为: l ( p ( x ,o ! ) ) = - l o g p ( x ,口) ( 3 - 5 ) 3 1 2 经验风险最小化原则 学习的目的在于使期望风险最小化。由( 3 2 ) 式可见,期望风险不仅依赖于损 失函数,还跟联合概率分布f ( x ,y ) = f ( x ) f ( ylx ) 有关,在模式识别问题中就是必须 已知类先验概率和类条件概率。但是在实际的机器学习问题中,只能利用有限的样本 信息如( 3 1 ) 式,对期望风险无法直接计算和最小化,因此传统的学习方法中采用 了所谓的经验风险最小化准则,即用样本定义经验风险: 1, e 唧( 口) 导三( 乃,( 鼍,口) ) ( 3 6 ) i = 1 作为对期望风险( 3 2 ) 式的估计,设计学习算法使它最小化。如采用( 3 3 ) 式的损 失函数,经验风险就是训练样本的错误率【3 5 】。 事实上,用经验风险最小化准则代替期望风险最小化并没有经过充分的理论论 证,只是直观上合理的想当然做法,但这种思想却在多年的机器学习方法研究中占据 了主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上,而实 际上,即使可以假定当,趋向无穷大时( 3 6 ) 于( 3 2 ) 式,但在很多问题中样本数 离无穷大相去甚远,所以在有限样本下经验风险最小化准则得到的结果未必能够使真 实风险也较小。 3 1 3v c 维 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有关函 数集学 - j 性能的指标,其中最重要的是v c ( v a p n i k c h e r v o n e n k i s ,v c ) 维3 6 1 。模式 识别方法中v c 维的直观定义是:对一个指示函数集,如果存在h 个样本能够被函数 集中的函数按所有可能的2 6 种形式分开,则称函数集能够把h 个样本打散。函数集的 v c 维就是它能打散的最大样本数目h 。若对任意数目的样本都有函数能将它们打散, 则函数集的v c 维是无穷大。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂。遗憾的是,目 1 4 基于支持向量机的入侵检测方法研究第三章统计学习理论与支持向量机 前尚没有通用的关于任意函数集v c 维计算的理论,只对一些特殊的函数知道其v c 维。比如在,z 维实数空间中线性分类器和线性实函数的v c 维是n + l ,而 f ( x ,口) = s i n ( a x ) 得v c 维为无穷大。对于一些比较复杂的学习机器,其v c 维除了 与函数集有关外,还受学习算法等的影响,其确定更加困难。对于一些比较复杂的学 习机器,其v c 维除了与函数集有关外,还受学习算法等的影响,其确定更加困难。 对于给定的学习函数集,如何计算其v c 维是当前统计学习理论中有待研究的一个问 题。 3 1 4 推广性的界 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的 关系,即推广性的界【3 7 1 。关于两类问题,结论是:对知识函数集中的所有函数( 包括 使经验风险最小的函数) ,经验风险( 口) 和实际风险尺( 口) 之间以少1 一刁的概率满 足如下关系: r ( 口) r ( 唧( 口) + h ( 1 n ( 2 l h ) 1 ) - i n ( u 4 ) , ( 3 - 7 ) 其中0 r 1 ,h 是函数集的v c 维,是样本数。 这一结论从理论上说
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年低代码AI平台监控试题(含答案与解析)
- 2025年低资源图像分割增强习题(含答案与解析)
- 2025年人力资源管理师面试技巧与预测题解析
- 2025年工程造价专业招聘考试题库及答案解析
- 2025年宠物护理员实操技能考核大纲及样题
- 2025年啤酒代理合同范本4篇
- 2025年品牌营销策划师高级实战案例分析题库
- 行政登记流程管理办法
- 2025年土木工程结构设计与施工实战模拟题集
- 合同中关于人身伤害免责协议6篇
- 2025医院防控试题及答案
- 2025江苏苏州昆山国创投资集团有限公司第二期招聘10人笔试参考题库附带答案详解
- 2025年秋季学期幼儿园园务工作计划
- 2025-2026学年浙教版(2024)初中科学七年级上册教学计划及进度表
- 计算机操作员中级考试题库及答案解析
- 2025-2026学年第一学期校园“1530”安全教育记录表
- 2025-2026学年译林版(三起)(2024)小学英语三年级上册教学计划及进度表
- 2024年合肥演艺集团有限公司社会招聘4人笔试备考试题带答案详解
- 二+宁夏闽宁镇:昔日干沙滩今日金沙滩(教学设计)-【中职专用】高二语文上(高教版2023职业模块)
- 【艾青诗选】批注
- 江西美术出版社(赣美版)美术四年级上册全册课件
评论
0/150
提交评论