(计算机科学与技术专业论文)网络入侵检测技术研究与应用.pdf_第1页
(计算机科学与技术专业论文)网络入侵检测技术研究与应用.pdf_第2页
(计算机科学与技术专业论文)网络入侵检测技术研究与应用.pdf_第3页
(计算机科学与技术专业论文)网络入侵检测技术研究与应用.pdf_第4页
(计算机科学与技术专业论文)网络入侵检测技术研究与应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机科学与技术专业论文)网络入侵检测技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 秽 r e s e a r c ha n da p p l i c a t i o no fn e t w o r ki n t r u s i o nd e t e c t i o n t e c h n o l o g y s p e c i a l t y :c o m p u t e rs c i e n c ea n dt e c h n o l o g y m a s t e rd e g r e ec a n d i d a t e : s u p e r v i s o r : l i l l l i nx i a o p r o f j i el i s c h o o lo fi n f o r m a t i o ns c i e n c ea n d e n g i n e e r i n g c e n t r a ls o u t hu n i v e r s i t y c h a n g s h ah u n a n p r c h i n a j 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:牲日期:丝年立月三日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容, 可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技 术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 日期:盟年笪月三日 摘要 经过专家学者们数十年的努力,入侵检测技术在理论上已经比较 成熟。不少著名的入侵检测系统也得到广泛的实际应用。但由于网络 的拓扑复杂多变、攻击手段的不断进化以及网络带宽的急速提升,入 侵检测技术面临日益复杂的局面。理想的入侵检测系统不仅需要同时 具备高的检测率和低的误报率,检测的速度也成为必须考虑的因素。 本文总结了近年来入侵检测领域的国内外研究现状,分析了各种 热点技术的优劣。然后在此基础上,提出综合运用某些已有成果以取 得更好的检测效果的方案。 首先,针对现代网络条件下的入侵检测系统不仅仅需要具备高检 测率和低误报率,还需要具备极快的处理速度这一问题。提出了一个 基于集成学习方法的入侵检测算法。该算法具有计算复杂度低,同时 具备高检测率和低误报率的优点。 其次,针对一般无标记异常检测技术存在较高误报率的问题。提 出了模块集成的方法。将异常检测的样本模式集合按照内在的相似性 分解为了几个较小的子集合,从而将一个一般问题分解为几个独立的 较具体的子问题,利用不同的分类器处理相应子集,有效得提高了检 测率,尤其是降低了误报率。 最后,针对入侵检测系统提供的警报一般是低层次的,孤立的, 管理员难以从这些警报中辨认出攻击者的实际意图,以及攻击者已经 侵入网络的程度这一问题。提出一个利用攻击图来关联警报的方法, 为网络管理员辨认入侵的整体场景提供高层次的信息。 关键词入侵检测,集成学习,模块化集成,警报关联 a bs t r a c t t h e t h e o r yo fi n t r u s i o nd e t e c t i o ni sm a t u r ea f t e rs c h o l a r sh a v eb e i n g s t u d i e di tf o rs om a n yy e a r s t h e r ea r em a n yi n t r u s i o nd e t e c t i o ns y s t e m s d e p l o y e di np a r t so ft h ew o r l d h o w e v e r , w i t ht h et o p o l o g yo fn e t w o r k s b e i n gc o m p l e x ,e v o l u t i o no ft h e a t t a c km e t h o d sa n dt h ec a p a c i t yo f n e t w o r k sb e i n gh i g h e r , i n t r u s i o nd e t e c t i o ns y s t e m sa r ef a c i n gu pm o r ea n d m o r et h r e a t e n i n ge n v i r o n m e n t a ni d e a li n t r u s i o nd e t e c t i o ns y s t e mm u s t h a v eh i 【曲d e t e c t i o nr a t ea n d l o wf a l s ea l a r mr a t ei nt h es a m et i m e ,b e s i d e s h i 曲p e r f o r m a n c e t h es i t u a t i o no fr e s e a r c hi nt h ei n t r u s i o nd e t e c t i o nd o m a i ni s s u m m a r i z e di nt h i sp a p e r t h ea d v a n t a g ea n dd i s a d v a n t a g ei sa n a l y z e dt o o t h e n ,m e t h o d so fh o wt ou s es o m ec l a s s i c a lt e c h n o l o g yt og e tm o r ei d e a l r e s u l ti sp r e s e n t e db yt h ea u t h o r f i r s t l y , i nm o d e mn e t w o r k sa ni n t r u s i o nd e t e c t i o ns y s t e mn o to n l y m u s th a v eh i g hd e t e c t i o nr a t ea n dl o wf a l s ea l a r mr a t eb u ta l s oh a v eg o o d p e r f o r m a n c e a ne n s e m b l el e a m b a s e da l g o r i t h mi sp r e s e n t e dt om e e tt h e g o a l ,w h i c h i sl o wi nc o m p u t ec o m p l e x i t ya n dh a v eh i 曲d e t e c t i o nr a t ea n d l o wf a l s ea l a r mr a t e s e c o n d l y , u n l a b e l e di n t r u s i o n d e t e c t i o nt e c h n o l o g ym a yp r o d u c t r e l a t i v e l yh i g hf a l s ea l a r mr a t e am e t h o du s i n gm o d u l a re n s e m b l ei s p r e s e n t e d ,i nw h i c hs a m p l es p a c ei s d i v i d e di n t os e v e r a ls u b s p a c e ,s oa g e n e r a lp r o b l e mi sr e d u c e di n t os e v e r a lm o r ec o n c r e t es u b p r o b l e m ,t h e n d i f f e r e n tc l a s s i f i e r si su s e dt od e t e c ts a m p l e so fd i f f e r e n ts u b s p a c e t h e e x p e r i m e n t a lr e s u l t ss h o w t h a tab e t t e rr e s u l tc o u l db eg o t f i n a l l y , b e c a u s ea l a r m sp r o v i d e db yi n t r u s i o nd e t e c t i o ns y s t e mi s r e l a t i v e l yl o w l e v e la n di s o l a t e d ,s i t es e c u r i t yo f f i c e ri sh a r dt ou n d e r s t a n d t h ei n t e n t i o no fa t t a c k e r sa n dt h e s e v e r i t yo fa t t a c k am e t h o di sp r e s e n t e d t og e n e r a t eh i 曲l e v e li n f o r m a t i o nt oh e l ps i ts e c u r i t yu n d e r s t a n da t t a c k s c e n a r i o s k e yw o r d si n t r u s i o n d e t e c t i o n ,e n s e m b l el e a r n i n g ,m o d u l a r e n s e m b l e ,a l e r tc o r r e l a t i o n 目录 第一章绪论1 1 1 研究的背景以意义1 1 2 国内外研究现状2 1 3 研究内容。3 1 4 本文的结构4 第二章入侵检测原理以及评价指标的研究5 2 1 入侵检测的概念以及技术原理5 2 2 入侵检测系统的架构6 2 4 入侵检测系统的评价指标8 2 5 本章小结l o 第三章集成学习方法在入侵检测中应用的研究1l 3 1 集成学习简介1l 3 1 1 分类问题1 l 3 1 2 为什么集成学习有效果1 1 3 1 3 集成学习有效果的条件1 2 3 2a d a b o o s t 算法的介绍1 2 3 2 1b o o s t i n g 方法1 2 3 2 2a d a b o o s t 算法1 3 3 3 一种基于a d a b o o s t 的异常检测分类算法1 5 3 3 1 算法设计的动机1 5 3 3 2 弱分类器的构造1 6 3 3 3 初始权重的赋值1 7 3 3 4 算法的具体描述以及相关说明1 8 3 3 4 实验结果分析1 9 3 4 本章小结2 0 第四章入侵检测系统模块化集成的研究2 1 4 1 引言2 1 4 2 相关工作2 1 4 3 模块化多分类器集成2 2 4 3 1 模块架构2 2 4 3 2 全局误报率以及模块误报率2 3 4 3 3 针对服务的多分类器系统2 4 m 4 4 无标记入侵检测方法的集成2 5 4 4 1o n e c l a s s 分类技术2 5 4 4 2 分类器组合规则2 7 4 5 实验步骤以及结果分析2 7 4 5 1 训练集取样2 8 4 5 2 实验过程描述2 9 4 5 3 实验结果分析31 4 6 本章小结3 2 第五章基于攻击图的复合攻击警报关联以及预测方法3 3 5 1 前言3 3 5 2 基于攻击图的e q g 模型3 4 5 3 基于e q g 模型的警报关联方法3 5 5 4 假设遗漏的警报以及警报预测3 6 5 5 本章小结3 8 第六章总结与展望。3 9 6 1 工作总结3 9 6 2 下一步工作4 0 参考文献4 1 致谢4 7 攻读学位期间主要的研究成果4 8 w 硕士学位论文第一章绪论 1 1 研究的背景以意义 第一章绪论帚一旱珀下匕 1 9 8 0 年,j a m e s p a n d e r s o n 首次明确提出并全面阐述了入侵检测的概念,他 将入侵行为划分为外部渗透、内部渗透与不法行为三种,同时提出利用审计数据 以监视入侵活动的思想。1 9 8 6 年,d o r o t h ye d e n n i n g 提出实时异常检测的概念并 建立了第一个实时入侵检测模型,入侵检测专家系统( i d e s ) 。1 9 9 0 年, l t h e b e r l e i n 等设计出通过监视网络数据流来进行入侵检测的系统n s m ( n e t w o r k s e c u r i t y m o n i t o r ) 。自此之后,入侵检测系统真正发展起来。 进入二十一世纪以来,信息和网络技术持续高速发展,互联网规模的不断扩 大,网络的影响渗透到社会生活的各个的角落。黑客们受政治、经济或者军事利 益的驱动,对计算机和网络基础设施,特别是各种官方机构的网站,展开了越演 越烈,无孔不入的入侵攻击。与此同时,后果重大且影响恶劣的网络事件比如 前两年的熊猫烧香每年都有发生,这一切给人们的工作和生活带来诸多不便甚 至是重大且无可挽回的损失。近年来电子商务与其它网络经济行为的繁荣,更加 激化了入侵事件的增长。如何应对这一趋势是人们无法回避的严峻考验。 通过高效的入侵检测,可以及时得识别出网络流量中的入侵行为,在此基础 上,或触发自动响应步骤,或提醒系统管理员采取措施及时应对,从而有效得阻 断恶意行为,避免遭受进一步损失。所以,入侵检测技术在当今社会具备非常重 要的意义。 按照入侵检测系统所监控数据的来源可将入侵检测系统分为网络入侵检测系 统( n i d s ) 和主机入侵检测系统( h i d s ) 。一般来说h i d s 是作为网络防御体系的最 后一道防线。本文主要关注的是n i d s 。随着网络带宽的飞速提升,如何在保证高 检测率的前提下大幅度提高n i d s 的检测速度,是目前必须攻克的难题。 依据所使用的技术原理来分,入侵检测可归为基于误用的和基于异常的两种。 基于误用的入侵检测系统,例如s n o r t 1 1 ,通过安全专家分析已知攻击的特征编写出 相应的攻击签名,然后使用模式识别的方法可以精准得检测出已知的攻击,但无 法检测出知识库中不存在签名的新颖攻击方式。而在新颖攻击方式的签名被专家 编入知识库之前的这段时间,网络处于随时可能被渗透的危险状态。另外一方面, 基于异常的入侵检测系统通过对正常的网络行为进行建模,可以检测出所有与正 常模型偏离的异常网络行为,但存在误报率高的问题,在规模较大的网络中可能 会产生大量的错误警报,从而严重误导管理人员的注意力。此外入侵检测系统提 硕士学位论文 第一章绪论 供的警报往往孤立的且低层次的,而且同一攻击行为可能触发大量重复的警报, 网络管理人员很难通过这些警报迅速准确的掌握到入侵行为的整体场景,难以及 时采取有效的应对。 本文的研究目的在于针对当前入侵检测领域急需解决的现实问题,尝试提出 可行性的方案。 1 2 国内外研究现状 许多年来,入侵检测一直是网络安全领域内研究的热点和难点。专家学者们 将机器学习和数据发掘方法运用于入侵检测技术中,取得了相当可观的成就。例 如,a d a m 系统,i d d m 系统,m a d a m 系统【2 1 ,都是数据挖掘方法在入侵检测技术 中出色运用的代表作。p a n d a 等在文献【3 】中提出的集成投票系统算法,是机器学 习方法在入侵检测领域较为独特的运用,该方法最值得注意之处是计算复杂度相对 较低的同时,检测率也比较高。 理想的入侵检测系统应该同时具备高检测率,低误报率以及尽可能低的计算 复杂度,也就检测速度快。就目前情况来看,有些系统采用的算法的确同时具备 比较理想的高检测率和低误报率,在k d d e u p l 9 9 9 t 4 】数据集上有优良的表现,但计 算复杂度明显是较高的,所以不能胜任高速网络的实时入侵检测任务。 为了提高网络入侵检测系统的处理速度方面的性能,学者们进行了大量的研 究。在文献【5 】中,其作者提出了p c a ( p r i n e i p a lc o m p o n e n ta n a l y s i s ) ,l d a ( l i n e a r d i s c r i m i n a t ea n a l y s i s ) 等几种特征提取算法,以构建高效的i d s 。 此外还有大量值得注意的成果。文献】提出使用支持向量机和神经网络来进 行入侵检测。文献 7 将各种不同已有算法作为基算法的运用于到集成学习算法中 以构造强分类器,获得了更好的检测效果。 人们在入侵检测领域已经取得丰富的成果。但一般入侵检测系统提供的警报 是比较低层次的,而且不可避免的存在不少重复警报。管理人员要利用这些警报 采取及时有效的对策,存在一定的困难。警报关联技术的研究就是为了利用入侵 检测系统产生的底层警报构建整体的攻击场景,把警报间的因果关系直观的展现 给网络管理人员。警报关联技术是极为实用的技术,它在很大程度上提高了入侵 检测系统的可利用性,使其对人更有友善。攻击图【8 】是警报关联技术中的重要攻 击,大量的工作围绕其展开,并取得了可观的成果。 一般而言,入侵检测分为基于误用的和基于异常的两种【9 】。基于异常的入侵 检测,不需要预知攻击特征,也不需要了解系统漏洞的相关知识,理论上应该是 最为可行的方案。不过,由于建立关于网络正常行为的完整模型很困难,基于异 常的方法往往产生相对较高的误报率。考虑到网络的海量数据,即使是多出百分 2 硕士学位论文 第一章绪论 之一的误报,也会产生大量的虚假警报,对网络管理人员及时迅速地识别出真正 的攻击意图产生重大的影响。因此,基于误用的入侵检测系统,如s n o r t 等,被广 泛布置于各类机构中。黑客们针对这种情况,不断发明并采用新的攻击手段以规 避基于误用的入侵检测系统的监控。例如,使用基于多态的和元态的技术【l o 】可以 就同一种攻击方式产生不同的攻击实例,这些实例在语义上是完全一样的并能产 生同样的攻击效果,但语法上却有很大的不同。这样的话,针对每个实例去编写 攻击签名显然是不可行的。要解决这一问题,可通过分析这些攻击变种的根本原 天l ( r o o t - c a u s e ) ,编写针对漏洞的签名【1 1 1 ,如此可以检测出所有企图利用此种漏洞 进行的攻击。在h i d s 上采用这种策略是高效可行的,但由于涉及海量数据,计 算复杂度过高的原因,在n i d s 中使用针对漏洞的签名难度很大。如果使用近似 ( a p p r o x i m a t e ) 方法降低计算复杂度,却很可能会产生大量的虚假警报,合法行为也 和攻击签名配备。 文献 1 2 【1 3 】探讨了在基于误用的检测技术中运用模式识别方法。这样做是为 了利用模式识别方法的泛化能力去检测出已知攻击的新变种。由于需要复杂的数 据集支持,这种新颖的策略看来并不成功。这方面,由美国国防部投资、麻省理 一 工学院l i n c o l n 实验室组执行的某些工作遭受了严厉的批判【1 4 1 由于上述原因,基于异常的入侵检测方法一直是研究的热点。目前基于异常 的入侵检测的研究主要集中在无监督或无标记的异常检测方面。这是由于获得完 # 整、有正确标记的数据集需要领域专家付出极大的努力。流行的方法是将c l u s t e r i n g 和o u t l i e rd e t e c t i 0 1 1 技术应用在完全无标记的数据集上。如果在大量无标记的数据 外,还有少量已标记的数据,也可使用半监督检测技术。但半监督技术并不一定 能比无监督技术获得更好的效果,这是因为不能保证已标记的少量数据是有代表 性的和正确的【1 5 】。 此外,建立在入侵检测系统基础上的入侵预防系统( i p s ) 和入侵响应系统( m s ) 的研究也在逐渐展开。并且市场上已经出现一些商用的i p s 综上所述,国内外关于入侵检测技术的研究在近年来取得了丰硕的成果。但 还达不到理想的情形。可以预计随着网络应用的不断普及,入侵检测技术必然会 不断进步。 1 3 研究内容 入侵检测技术的研究目的是提出具备高检测率,低误报率同时检测速度快的 入侵检测系统。在不同的应用场合,这三个因素可以有不同的调试折中。 本文的研究内容是如下几方面: 1 研究了入侵检测系统的一般原理、常用方法以及评价指标。为进一步的工 3 硕士学位论文 第一章绪论 作奠定框架。 2 由于现有的基于异常入侵检测方法算法复杂度都较高,在运用于高速网络 的时候,处理速度不够快的问题明显。本文尝试利用集成学习方法来构造计算复 杂度低的高效入侵检测算法。 3 传统异常检测算法就整个样本集合建模,这种方法可能失之于笼统,未能 够充分利用样本集合的重要特征,从而不能发挥相关算法的最大效能。因此本文, 从分割样本空间这一思想入手,希望找出一种更加充分利用样本相似性的建模方 法,来提高检测率和降低误报率。 4 为了提高入侵检测产生的警报的可用性,以直观的方式呈现警报间的因果 关系非常有价值,这可以帮助网络管理人员理解攻击者的意图,以及估计攻击者 在网络中可能已经获得的权限,从而采取针对性强的应对方法。本文就复合攻击 的警报关联方法展开了初步的研究。 1 4 本文的结构 第一章绪论。介绍了入侵检测的背景以及研究意义,总结了近年来国内外一 些值得注意的研究成果。接着概括介绍了本文的内容以及章节安排。 第二章入侵检测原理以及评价指标的研究。分析了入侵检测的原理、相关技 术以及评价标准。为研究的进一步展开奠定基础。 第三章集成学习方法在入侵检测中应用的研究。将集成学习算法运用于入侵 检测领域,从比较特殊的途径同时取得高检测率,低误报率以及相对很低的计算 复杂度。 第四章入侵检测系统模块化集成的研究。不同于传统异常检测方法将样本空 间作为整体来建模,而是以服务相似性为标准将样本空间分割为若干个子集合, 分别构造子模块i d s ,然后进行集成,以获得更好检测效果的方法。 第五章基于攻击图的复合攻击警报关联方法的研究。运用攻击图这一重要工 具,提出一种复合攻击的警报关联及预报方法。 第六章研究总结与展望。对本文进行了总结,找出不足,提出下一步研究的 方向。一 4 硕士学位论文第二章入侵检测原理以及评价指标的研究 第二章入侵检测原理以及评价指标的研究 2 1 入侵检测的概念以及技术原理 任何恶意违反安全策略的未授权a g e n t 的非法行为都是广义上的入侵行为。 入侵检测就是要识别出已经发生、正在发生或将要发生的入侵行为,并以适当的 方式发出警报。 入侵检测技术分为基于误用的和基于异常的两种。基于误用的入侵检测系统 的代表是s n o r t 。这类系统依靠模式识别方法来进行检测,拥有一个包含了所有 已知攻击的签名的知识库,实际检测时首先将所分析的数据进行预处理获得必要 的模式、然后将该模式与知识库中的签名进行匹配来识别攻击,一旦匹配成功则 判定为入侵并发出相应的警报。这种类型的入侵检测系统的优点是能识别所有已 知攻击。在实际环境中,经过一段时间的调试,基于误用的入侵检测系统的误报 率可以达到非常低的程度。但该类型的入侵检测系统的缺点是对知识库中不存在 其签名的新颖攻击无法检测,这让攻击者有机会利用所谓的零日漏洞展开威胁性 极高的攻击。此外签名数目随着攻击方式的增加一定会不断增加,这样的情况不 断发展下去势必会对系统的检测速度产生不良的影响。 与设计基于误用的系统的基本思路相反,基于异常的入侵检测系统的基本思 想是从最一般的意义上对所有合法行为的普遍特征进行概括。通过对所有的合法 网络行为进行建模,进而获得一个描述系统中全部合法行为普遍特征的模型。在 实际检测的时候,通过计算对比,将所有偏离这个模型的行为都被判为入侵行为, 并产生警报。这种类型的入侵检测系统的优点是能够识别新颖的攻击行为,理论 上可以检测出所有攻击行为。由于实际网络拓扑的复杂性以及网络协议的多样性, 很难对正常行为进行全面、详尽、准确的描述,所以基本上不可能获得理想的完 美模型。相对来说,基于异常的入侵检测技术有较大的可能将正常行为识别成入 侵,亦即存在误报率较高的问题。 除了上面介绍的两类基本技术外,还有一类称为混合入侵检测的方法。此类 方法将基于误用的与基于异常两种入侵检测技术结合起来以获得更好的检测效 果。这种思路粗看起来理所当然是可行的,但合理有效的结合两类截然不同的入 侵技术各自的优点并不是一件容易的事情。由于实际网络环境的复杂性,混合方 法所能得到的效果有可能还不如使用单一技术获得的效果。虽然存在各种困难, 这类方法还是值得深入研究下去的。相对传统的入侵检测方法来说,该领域产生 的实际成果确实较少,但也有获得了一些比较值得注意的进展。 5 硕士学位论文第二章入侵检测原理以及评价指标的研究 2 2 入侵检测系统的架构 一般而言,入侵检测系统的分类有两种标准。一种是按系统所处理的数据的 来源来分,另外一种如2 1 节所述按照检测非法事件的方法来分。 根据所处理的数据来源的不同,可以将入侵检测系统分为基于主机的( h i d s ) 与基于网络的( n i d s ) 。如图2 1 所示,n i d s 通过监控网络流量来检测入侵行为。 一般来说它是通过抓取并分析流经网络上某些关键设备( 路由器,交换机等) 处 于混杂模式的网卡上的包来监控网络行为。 图2 1n i d s 位置示意图 而如图2 2 所示,h i d s 驻存于主机上,只负责保证该台主机的安全,它监 控的数据包括着经过该台主机处于非混杂模式的网卡的所有数据包和本机的系统 日志,系统调用等本机信息,这里要强调的是h i d s 监控的网络数据包都是针对 它所驻存主机的。 这两种i d s 各有长处。相对来说,由于获得的数据非常丰富详细,h i d s 有相 对很高的检测率和很低的误报率,但毕竟h i d s 只监控一台计算机的行为,而完 全无视网络中其他计算机的存在,因而存在对威胁反应迟钝的问题,当它在本机 上发现入侵迹象时,攻击者针对目标网络的意图往往已经部分实现。此外,高水 平的攻击者可以通过诸如修改本机的日志文件等手段来逃避检测。所以h i d s 一 般来说是作为网络纵深防御体系的最后一段防线。而n i d s 则是防火墙之后的第 二道安全防线。由于n i d s 只监控网络数据包,可供其分析的数据远不如h i d s 获得的数据丰富,所以n i d s 对整个网络系统的监控在某种意义上是粗粒度的, 6 硕士学位论文第二章入侵检测原理以及评价指标的研究 其检测率相对较低,而误报率相对较高。但n i d s 对入侵的整体状态敏感,能够 在入侵发生的早期做出及时反应,一般作为防火墙之后的第二道安全防线。 图2 - 2h i d s 位置示意图 至此,本文介绍了h i d s 与n i d s 的概念,并不涉及入侵检测系统细节问题。 接着将简要介绍入侵检测系统架构,如图2 3 所示一般i d s 由以下几个模块构成。 、 - 1 、一,、一一 图2 - 3 入侵检测系统架构 硕士学位论文 第二章入侵检测原理以及评价指标的研究 审计数据采集( a u d i tc o l l e c t i o n ) :采集必要的数据是入侵检测的前提。被监视 系统的许多部分可以成为数据源。比如:键盘输入,命令行日志,应用程序日志 等,系统调用日志等。n i d s 只监控网络流量。 审计数据存储( a u d i ts t o r a g e ) :采集的数据或作为日后参考之后,或等待被及 时的处理。数据量是非常大的。如何有效的存放这些数据是所有入侵检测系统中 非常关键的问题。有些研究者把入侵检测看成审计数据r e d u c t i o n 问题。 配置管理( c o n f i g u r a t i o nd a t a ) :怎么样、从哪儿收集审计数据,如何处理应对 被检测出的入侵等等都属于配置管理问题。这也是网络管理人员控制入侵检测系 统的主要方式。现实网络管理系统中的管理配置非常复杂,而且也是相对非常敏 感的。攻击者如果了解到这方面的信息,有可能构造出能避开检测的攻击。 参考数据( r e f e r e n c ed a t a ) :在基于误用的系统中存储的是攻击签名,随着新 的攻击方式出现,领域专家添加相应规则。基于异常的系统中存储是正常行为的 模型( p r o f i l e ) ,随着对正常行为知识的认识的深入与扩展,逐渐修正。 数据处理( a c t i v e p r o c e s s i n gd a t a ) :检测过程一般需要存储中间结果,例如部 分配备的入侵签名等。存储这种活跃数据的空间可能变的很大。 报警( a l a r m ) 入侵检测系统的最终输出,可能是对可疑行为的自动响应,但 一般来说是通知s s o 。 2 4 入侵检测系统的评价指标 假设一个入侵检测系统检测在足够长时间的实际运行后,或者在海量数据的 测试集上运行后,定义到真正的非法行为数目为t p ( t r u ep o s i t i v e ) ,未能检测到的攻 击行为数目为f n ( f a l s en e g a t i v e ) ,发出的错误警报数为f p ( f a l s ep o s i t i v e ) ,所有正常 行为数目为t n 。那么可以得到两个衡量i d s 的最重要性能的指标:检测率= t p ( t p + f n ) ,误报率= f p t n 。 也可以从另外一个角度定义检测率和误报率,设用i 表示入侵行为,a 表示 对某一行为发出警报,亦即断定为入侵。那么检测率( d e t e c t i o nr a t e ) ,表示为p ( a i i ) , 就是在所有样本都是入侵行为的情况下,系统判断为入侵行为的样本所占总样本 的比例。误报率( f a l s ea l a r mr a t e ) ,表示为以么i ,) ,就是在所有样本都是正常行为的 情况下,系统判断为入侵的样本占样本总数的比例。 同时具备高检测率,低误报率的入侵检测方法才是实用的。假设某入侵检测 系统的检测率很高,但误报率相对也高,那么在现代高速网络的环境下,它会产 生大量的虚假警报。这些虚假的警报会严重误导网络管理人员的注意力,明显降 低准确警报的价值。另外一方面,假设误报率极低,检测率却不够高,这会让不 少攻击行为漏网,如此就违背了设计入侵检测系统的初衷。 硕士学位论文第二章入侵检测原理以及评价指标的研究 此外在现在带宽不断增加的情况下,一个优秀的入侵检测算法须具备计算复 杂度较低的优点,这样相应的入侵检测系统才能快速的处理所有数据,而不至于 被海量数据淹没。 以上三点要求也可分别表述为完整性( c o m p l e t e n e s s ) ,准确( a c c u l a c y ) ,高效 ( p e r f o r m a n c e ) 。此外,一个比较理想的入侵检测系统还需要满足两个要求,就是容 错( f a u l tt o l e r a n c e ) ,可扩展性( s c a l a b i l i t y ) 。前者是指系统本身要具备抵抗攻击的能 力。后者则要求随着网络环境的变化,系统必须能在极端条件的下正常运转,而 不丢失信息。这一点在布置分布式入侵检测系统的时候尤其需要考虑。 入侵检测技术领域存在一种被称为基率错误( b a s er a t ef a l l a c y ) 的问题。这一问 题对设计入侵检测系统的思路有重要影响。现在,我们来描述着这个问题。 假设某种入侵检测系统的准确率是9 9 ,也可以粗略的描述为,检测一百个 行为都是攻击行为时,该系统会将其中9 9 个判断为攻击,而错误把其中一个攻击 行为当成正常的而漏报。另一方面若是对1 0 0 个正常行为进行检测,其中9 9 个会 被判断地正常,有1 个会被误判。而在实际情况中,攻击行为占的比例很小,现 在为了突出对比效果,极端假设为1 1 0 0 0 0 。约定i 表示入侵行为,a 表示警报, 亦即检测出入侵。那么由贝叶斯公式,我们可以得到但检测结果表明某一行为是 入侵时,该行为的确为入侵行为的概率为: p ( zi 么) = 坐丛坐l 、 公式( 2 1 ) p ( i ) p ( al ) + p ( i ) p ( al ,) 其中p ( i ) = 1 1 0 0 0 0 ,p ( a i i ) = 0 9 9 。其它几部分容易推算。代入数值,结果是 p ( i i a ) : ! 型q q q 兰q :竺2 :0 0 0 9 8 1 1 0 0 0 0 x 0 9 9 + ( 1 1 1 0 0 0 0 ) x 0 0 1 约等于是1 。也就是说,在基于以上假设的情况下,系统将某行为断定为攻 击行为,但该行为实际上的确是攻击行为的概率不到1 。换句话说就是,当检测 出某行为攻击行为是,该行为实际是正常的概率高达9 9 。 当然,为了强调基率错误,假设l 1 0 0 0 0 的攻击比例也许是太小了点。那么 1 1 0 0 的比例显然是偏高的,而在这样的情况下p ( i i a ) = 0 5 ,也就是5 0 。这就表明, 即使在检测率高达9 9 的情况下,检测结果可能依然提供给人们许多误导信息。 有些文献又将p ( i i a ) 称为贝叶斯检测率,由于p ( i ) 一般是非常小的值,从公式 2 1 中可以看到对贝叶斯检测率的值有决定作用的是误警率。可以得出以下结论, 入侵检测系统若要提供准确的信息,在保证高检测率的前提下,尤其需要减低误 报率。误报率的小幅度变化,对入侵检测系统的有效性会有很大的影响。 在不考虑处理速度的情况下,入侵检测系统的评价标准取决于检测率和误报 率的之间的关系。最理想的情况当然是,1 0 0 的检测率和o 的误报率。但在现 硕士学位论文第二章入侵检测原理以及评价指标的研究 实中,由于各种复杂因素的存在,这样的目标是不可能达到的。而且就同一个系 统而言,随着检测率的提高,误报率一般也会提高。所以在现实的环境中只能在 高检测率和低误报率之间进行折中,以获取相对理想的整体效果。 将检测率表示为误报率的函数,就得到所谓的r o c 曲线( r e o e i v e ro p e r a t i n g c u r v e ) ,这条曲线与坐标轴围成的面积a u c ( a r e a u n d e r c u r v e ) 可以表示入侵检测系 统的平均效能。a u c 值是判断入侵检测系统效能的重要数据。 2 5 本章小结 本章简要介绍了入侵检测的概念,技术原理以及系统架构。较为详细得分析 了检测率与误报率之间的关系,指出了低误报率对系统的有效性具有重大意义。 最后介绍了r o c 曲线以及a u c 值这两个重要概念。 1 0 硕士学位论文第三章集成学习方法在入侵检测中应用的研究 第三章集成学习方法在入侵检测中应用的研究 3 1 集成学习简介 机器学习是计算机科学一个重要的分支,其研究目的是寻找让机器具有从数 据中学习到有效知识的一般方法。机器学习广泛应用于许多领域。而集成学习是 机器学习领域最重要的研究方向之一1 6 1 。所谓集成学习,简单得说,就是使用某 种集成规则将一系列基分类器的分类结果进行整合,以获得比其中任意一个基分 类器远为优越的强分类器的一种机器学习方法。 3 1 1 分类问题 从一般的角度来说,基于异常的入侵检测问题属于分类问题。而分类问题是 集成学习的基本研究问题。所谓分类实际上就是找到某个函数y = f 【x ) ,对问题域中 任意一个实例x ,都有y = f ( x ) 决定x 在该标准下的种类归属。分类问题在机器学习 中的解决思路是通过某种学习方法在假设空间中找出一个足够好的函数h 来逼近 ,这个近似函数h 就称为分类器【1 7 1 。 3 1 2 为什么集成学习有效果 集成学习有效性可以归为三方面的原因,统计上的原因和计算上的原因以及 表示上原因。以下对这三方面的原因进行分析: 1 统计上的原因 用于分类器的训练集中的实例个数一般有限,未必能够满足精确的学习到目 标假设的需要。在这种情况下学习结果可能只是二系列充分满足训练集合的假设, 而由于过拟合问题的存在【1 8 】,在训练集上表现优越的假设不一定在测试集合上有 优良的表现。解决这一问题的方法之一就是通过将多个假设按照某种规则进行集 成,使得各假设和目标假设之间的误差得到一定程度的抵消,从而获得更为优越 的假设强分类器。 2 计算上的原因 现有的分类器模型一般都存在计算复杂度过高这一问题。以用途广泛的人工 神经网络和决策树为例,学习到最好的人工神经网络或决策树是n p 难问题【1 9 1 。 在对数据处理速度有很高要求的情况下,人们只能采用某些启发式的方法来降低 硕士学位论文第三章集成学习方法在入侵检测中应用的研究 寻找目标假设所需的计算复杂度。然而,通过启发式方法得到的假设往往不是最 优的。而通过把多个这样的假设集成起来,我们可以获得复杂度依旧相对较低的 最终假设,这个假设却可以很理想地逼近目标假设。 3 表示上的原因 由于各种条件的限制,假设空间亦即测试集是不完善的。而通过把假设空间 中的一系列假设集成起来就有可能表示出原本不存在于假设空间的目标假设。这 方面的具体原因比较复杂,文献【2 0 对此进行了详细的阐释,可以作为参考。 3 1 3 集成学习有效果的条件 上一小节提到的三方面原因表明使用集成学习方法在理论上是可能取得很好 的效果的,但不是说所有的集成方式都有效。相关研究表明集成学习有效的基本 前提是任何一个单个的基分类器的分类准确率都要高于o 5 。否则不但达不到集成 学习期望的效果,反而会提高分类错误率。 此外,进行集成学习的基分类器应当各不相同,亦即它们的分类结果要存在 一定程度的差异。如果基本分类器的分类结果基本一致,则很难期望通过集成学 习得到的最终分类器比单个分类器做出的决策更为精确有效,如此就违背了集成 学习的初衷。 。 3 2a d a b o o s t 算法的介绍 3 2 1b o o s t i n g 方法 在集成学习中有两类非常重要的方法:b o o s t i n g 和b a g g i n g 2 1 】【捌( b o o t s t r a p a g g r e g a t i n g ) 。其中b a g g i n g 是最早被成功运用的集成方法。而本章提出的入侵检 算法,是基于另外一类著名方法b o o s t i n g 中的a d a b o o s t 算法。 b o o s t i n g 的含义就是提高弱二分分类学习算法的准确度。这一思想源于机器 学习领域被称为p a c 学习( p r o b a b l ya p p r o x i m a t e l yc o r r e c t ) 的分支。s c h a p f f e 于1 9 9 0 年,f r e u n d 于1 9 9 5 年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论