(计算机应用技术专业论文)基于机器学习的入侵检测研究.pdf_第1页
(计算机应用技术专业论文)基于机器学习的入侵检测研究.pdf_第2页
(计算机应用技术专业论文)基于机器学习的入侵检测研究.pdf_第3页
(计算机应用技术专业论文)基于机器学习的入侵检测研究.pdf_第4页
(计算机应用技术专业论文)基于机器学习的入侵检测研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于机器学习的入侵检测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着计算机网络的迅速发展,网络安全成为了越来越棘手和重要的问题。为 应对网络威胁,一系列的安全保障技术应运而生,如加密机制、数据签名机制、 访问控制机制、认证机制和防火墙技术等,而这些静态安全防御技术在面对网络 中日新月异的攻击手段时缺乏主动的反应。入侵检测作为一种积极主动的安全防 护技术,能在系统受到危害之前拦截和响应入侵,提供了对内外部攻击的实时保 护,成为了保障网络安全的重要手段。然而传统的i d s ( i n t r u s i o nd e t e c t i o ns y s t e m ) 存在着很多问题,如:对未知网络攻击检测能力差、误报率高,对攻击数据的关 联和分析功能不足等。机器学习所关注的问题是系统如何随着经验积累自动提高 性能,这与入侵检测通过对外界入侵进行自我学习,以提高其检测率和降低误报 率是一致的。因此把机器学习的理论和方法引入到入侵检测中已成为一种共识, 并且近些年来在这一研究领域取得了一些积极的进展。 首先,本文系统地阐述了入侵检测系统的基本理论,包括入侵检测技术的基 本概念、常用检测方法和技术分类,介绍了入侵检测的研究现状,并从有效性、 适应性和可扩展性三个方面指出了当前入侵检测技术存在的问题等。 其次,本文系统地介绍了机器学习的基本理论,解释了为何把机器学习方法 引入入侵检测的问题;并对基于机器学习的入侵检测的研究现状进行了充分论 述。入侵检测与机器学习的结合,大大地弥补了前者的不足,提高了检测的性能, 促进了入侵检测技术的发展。 然后,本文着重对基于聚类的入侵检测技术进行了深入研究。先是阐述了聚 类算法设计的原理及主要特点,并就当前基于聚类的入侵检测的研究现状进行了 论述。聚类作为机器学习中一种重要的无监督学习算法,具有无需事前标记样本 类型等优点,在近些年得到了很好地发展和应用。k - m e a n s 作为经典的聚类算法 之一,但在用于入侵检测时有很多不足之处,因此针对相应的不足问题,本文提 出了基于聚类的入侵检测算法g - m e a n s ,g - m e a n s 不仅克服了k - m e a n s 的缺点, 而且具有高检测率和低误报率等优点,随后通过实验对其优越的性能进行了验 证,而且还通过与。阿c s 和k - m e a n s 的对比实验进一步验证了g - m e a n s 的优越 性。 山东大学硕士学位论文 最后,本文对特征选择的相关知识和针对具体的k d dc u p1 9 9 9 数据集的特 征选择的方法进行了阐述,特征选择在降低特征维数、剔除冗余信息、提高对攻 击数据的关联和分析、改善分类器的性能、提高分类结果的性能和精度、降低系 统识别的代价等方面具有重要的作用;介绍了数据包头异常检测的相关工作;结 合特征选择问题,提出了面向数据包进行异常检测的g - m e a n s ,并用实验给予了 验证;设计了一个简易的基于g - m e a n s 的实现在线检测功能的网络型入侵检测系 统,并部署到了实际环境中。 关键词:入侵检测;机器学习;聚类;g - m e a n s i i 山东大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r k s ,n e t w o r ks e c u r i t yh a sb e c o m e m o r ea n dm o r ei m p o r t a n t i no r d e rt od e a l 谢t ht h et h r e a t s ,n e t w o r ks e c u r i t y t e c h n o l o g i e se m e r g e d , s u c ha se n c r y p t i o n ,d a t as i g n a t u r e ,a c e sc o n t r o lm e c h a n i s m s , u t h e n t i c a t i o na n df i r e w a l l ,w h i c ha r es t a t i cs e c u r i t ym e c h a n i s m sa n dl a c kt h e p r o a c t i v er e s p o n s e sa g a i n s tt h et h r e a t s a sap r o a c t i v es e c u r i t yt e c h n o l o g y , i n t r u s i o n d e t e c t i o nc a l l i n t e r c e p tt h e i n v a s i o n sa n dr e s p o n db e f o r et h ei n v a s i o n sw h i c h j e o p a r d i z et h es y s t e m s ,p r o v i d i n gt h er e a l - t i m ep r o t e c t i o na g a i n s tt h ei n t e r n a la n d e x t e r n a la t t a c k s i n t r u s i o nd e t e c t i o nh a sb e c o m ea ni m p o r t a n tm e a n so fs e c u r i t y , h o w e v e r , t h e r ea r em a n yp r o b l e m si nt h et r a d i t i o n a li d s ( i n t r u s i o nd e t e c t i o ns y s t e m ) , s u c ha st h eb a dd e t e c t i o nc a p a b i l i t ya g a i n s tt h eu n k n o w nn e t w o r ka t t a c k ,h i g hf a l s e a l a r mr a t e ,i n s u f f i c i e n ta n a l y s i sc a p a b i l i t ya n ds oo n t h ec o n c e r n e dp r o b l e m so f m a c h i n el e a r n i n ga r eh o wt h es y s t e m sa u t o m a t i c a l l yi m p r o v et h ep e r f o r m a n c ew i l t h ei n c r e a s eo fe x p e r i e n c e ,w h i c hi sc o n s i s t e n t 、j v i t l li d s t h e r e f o r e ,i th a sb e c o m ea c o n s e n s u st op u tt h et h e o r i e sa n dm e t h o d so fm a c h i n el e a r n i n gi n t oi d s ,a n dt h i s r e s e a r c hf i e l dh a sm a d es o m ep o s i t i v ep r o g r e s si nr e c e n ty e a r s f i r s to fa l l ,t h i st h e s i si n t r o d u c e dt h eb a s i ct h e o r i e so fi n t r u s i o nd e t e c t i o n ,i n c l u d i n g i n t r u s i o nd e t e c t i o nt e c h n o l o g y , t h eb a s i cc o n c e p t s ,d e t e c t i o nm e t h o d sa n dt e c h n i q u e c l a s s i f i c a t i o n p o i n to u tt h ep r o b l e m so ft h ec u r r e n ti n t r u s i o nd e t e c t i o na l g o r i t h m s 、i t l lt h r e ea s p e c t sw h i c ha r et h ee f f e c t i v e n e s s ,a d a p t a b i l i t ya n ds c a l a b i l i t y s e c o n d l y , t h i st h e s i ss y s t e m a t i c a l l yi n t r o d u c e dt h eb a s i ct h e o r yo fm a c h i n el e a r n i n g , e x p l a i n e dt h er e a s o nt h a tt h em a c h i n el e a r n i n gm e t h o d sw e r ea p p l i e dt ot h ef i e l do f i n t r u s i o nd e t e c t i o n t h es t a t u sq u oo fi n t r u s i o nd e t e c t i o nb a s e do nm a c h i n el e a m i n g w a sa d e q u a t e l yd e a l t 、加也t h ec o m b i n a t i o no fm a c h i n el e a r n i n ga n di n t r u s i o n d e t e c t i o ni m p r o v e st h ep e r f o r m a n c eo fi n t r u s i o nd e t e c t i o na n dp r o m o t e st h e d e v e l o p m e n to fi n t r u s i o nd e t e c t i o n t h i r d l y , t h i st h e s i sf o c u s e do ni n t r u s i o nd e t e c t i o nb a s e do nc l u s t e r i n gt e c h n o l o g y f o rt h ei n d e p t hs t u d y t h ed e s i g np r i n c i p l e sa n dt h em a i nc h a r a c t e r i s t i c so fc l u s t e r i n g l l i 山东大学硕士学位论文 a l g o r i t h mw e r ed e s c r i b e d ,a n dt h es t a t u sq u oo fi n t r u s i o nd e t e c t i o nb a s e d o nc l u s t e r i n g w a sd i s c u s s e d a sa ni m p o r t a n tu n s u p e r v i s e dl e a r n i n ga l g o r i t h mw i t h o u tp r e - m a r k e d s a m p l e si nm a c h i n el e a r n i n g ,c l u s t e r i n gh a sb e e nw e l ld e v e l o p e di nr e c e n ty e a r s k - m e a n si so n eo ft h em o s tc l a s s i cc l u s t e r i n ga l g o r i t h m s ,b u th a sal o to fs h o r t c o m i n g s w h i l eu s e di ni n t r u s i o nd e t e c t i o n t h e r e f o r e ,t h i st h e s i sp r e s e n t e dt h ea l g o r i t h mo f i n t r u s i o nd e t e c t i o nb a s e do nc l u s t e r i n gg - m e a n sa g a i n s tt h ec o r r e s p o n d i n gp r o b l e m s o fk - m e a n s g - m e a n sn o to n l yo v e r c o m e st h ed i s a d v a n t a g e so fk - m e a n s ,b u ta l s o o w r l st h eh i 曲d e t e c t i o nr a t ea n dt h el o wf a l s ea l a r mr a t e w eo p e r a t e dt h e e x p e r i m e n t st ov e r i f yt h es u p e r i o r i t y a tt h es a m et i m e ,t h ec o m p a r a t i v ee x p e r i m e n t s 、加血t h eo p t i c sa n dk - m e a n sw e r eo p e r a t e dt of u r t h e rv a l i d a t es u p e r i o r i t yo f g - m e a n s f i n a l l y , t h eb a s i ck n o w l e d g e so ft h ef e a t u r es e l e c t i o na n dt h ef e a t u r es e l e c t i o n m e t h o d so ft h ek d d c u p19 9 9w e r ed e s c r i b e d t h ef e a t u r ee x t r a c t i o na n df e a t u r e s e l e c t i o np l a ya ni m p o r t a n tr o l ei nr e d u c i n gt h ec h a r a c t e r i s t i c so fd i m e n s i o na n dt h e d e l e t i o no fr e d u n d a n ti n f o r m a t i o n ,i m p r o v i n gt h ec l a s s i f i e rp e r f o r m a n c ea n da c c u r a c y , a n dl o w e r i n gt h es y s t e mc o s t w ep r o p o s e dt h ea l g o r i t h mg - m e a n sf o rp a c k e th e a d e r a n o m a l yd e t e c t o rw i t ht h ef e a t u r ee x t r a c t i o na n df e a t u r es e l e c t i o n ,w h i c hh a sb e e n v e r i f i e db yt h ee x p e r i m e n t s as i m p l en i d s ( n e t w o r ki n t r u s i o nd e t e c t i o ns y s t e m ) b a s e dg - m e a n sw a sd e s i g n e d , i m p l e m e n t e da n dd e p l o y e di nt h ea c t u a le n v i r o n m e n t k e y w o r d s :i n t r u s i o nd e t e c t i o n ;m a c h i n el e a r n i n g ;c l u s t e r i n g :g - m e a n s 原创性声明和关于学位论文使用授权的声明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:墼塞:堡 e t 期:垫! :丝 关于学位论文使用授权的声明 敝储群:避聊摊编期:一 山东大学硕士学位论文 第1 章绪论 1 1选题背景 随着信息技术的发展,计算机网络在经济和生活的各个领域得到了迅速普 及,逐渐成为了国家的经济基础和命脉,其地位变得越来越重要。伴随着网络的 发展,也产生了各种各样的问题,其中安全问题尤为突出。根据美国f b i 的调查, 美国每年因为网络安全问题造成的经济损失超过1 7 0 亿美元 1 1 。我国的网络安全 形势也十分严峻,频繁的黑客入侵事件和计算机病毒的泛滥,使我国的很多政府 部门、国家重要商业和教育机构都受到不同程度的侵害,有些造成了严重的社会 影响和经济损失。网络安全问题己成为世界各国政府、企业及广大网络用户最关 心的问题之一。网络安全的内容包括:机密性、完整性、可用性、可确认性和正 确性等方面,试图破坏安全的任何网络活动都称为网络入侵。 为了应对来自网络的各种威胁,多种安全防范措施运而生。如防火墙主要是 通过过滤和访问控制来阻止对系统的非法访问,但是它不能抵御某些特定的入侵 攻击,尤其是在防火墙系统存在配置上的错误,没有定义或者没有明确定义系统 安全策略时,都会危及到整个系统的安全:另外,防火墙主要是在网络数据流的 关键路径上,通过访问控制来实现系统内部与外部的隔离。因此,针对恶意代码 的攻击以及来自内部的攻击等,防火墙将无能为力。 入侵检测作为保障网络安全的重要手段,d e n n i n g 2 1 在1 9 8 6 年提出开始就 一直受到研究人员、商业界和应用者的重视。入侵检测是对传统计算机安全机制 的一种补充,是网络安全多层防御体系中的重要组成部分,成为目前动态安全工 具的主要研究和开发的方向。十几年来,研究者提出了许多不同种类的入侵检测 系统和检测方法:从入侵检测的目标类型看,既有基于主机的入侵检测系统,也 有基于网络的入侵检测系统,或是二者的混合系统;根据入侵检测系统的知识基 础看,既有基于行为的异常检测,也有基于攻击模式的误用检测或者二者的混合 系统;从实现的技术来看,既有应用传统的统计学方法,也有使用人工智能的方 法,包括贝叶斯分类、数据挖掘、专家系统、人工神经网络、人工免疫系统、隐 马尔可夫模型、自治a g e n t 等。 山东大学硕士学位论文 然而,对于入侵检测系统来说,其中一个最大的难点是无论使用哪种方法, 需要计算的数据量都十分巨大,难以满足实时检测的要求;同时,这些大量的数 据对于入侵检测的性能要求来说又是不完备和不充分的,因此无法满足检测率和 误报率的要求。如何寻找一种简单有效的检测算法成为当前入侵检测研究的一个 重大问题。 1 2国内外研究现状 自二十世纪八十年代以来,国外就开始了对入侵检测的研究,最早资助进行 这方面研究的是美国国防部高级研究计划署,对入侵检测的研究起着引路的作用 口】。早期的研究只是一种试验阶段,产品的针对性强,即为了保护专门的网络而 进行研究设计的,而且系统大多以基于主机的入侵检测系统为主。进入九十年代, 随着基于网络的入侵检测系统的问世,给入侵检测研究领域注入了新的活力,很 多的网络公司开始开发商业化的产品,而且对于入侵检测的研究已经进入很高涨 的阶段,在其它领域的一些算法被人们引入到了该领域。国外在异常检测算法上 进行了深入的研究,像人工智能、数据挖掘、免疫学、甚至包括信号处理领域的 信息论测度也被考虑到,主要可总结为以下几类:基于统计的检测模型、基于贝 叶斯推理的检测模型、基于模式预测的检测模型、基于机器学习的检测模型、基 于神经网络的检测模型、基于数据挖掘的检测模型和基于免疫的检测模型等。目 前,s r m c s l ( s r i 公司计算机科学实验室) 、普渡大学、加州大学戴维斯分校、哥 伦比亚大学、洛斯阿拉莫斯国家实验室、新墨西哥大学等科研机构在这一领域的 研究代表了当前的最高水平。 总之,国外对入侵检测研究已经很具体细致,包括从对进攻手段研究到入侵 数据预处理的研究、从算法的理论分析到具体的工程应用、从产品开发到产品的 评估,以及对入侵检测的一些标准化问题的研究,几乎面面俱到。而且从参与的 机构来看,包括政府的研究机构、科研单位、大学、网络公司等等,涉及到各个 层次的不同需求。从国外近几年来的研究态势来看,各种可能的检测算法几乎差 不多都为人们所想到,对于入侵检测的研究似乎处于一种无法打开新局面的境 地。但是,国外对入侵检测的研究热度仍然居高不下,从未间断。因为网络的日 益普及,人们对网络的依赖日益增强,使得网络安全成了世人一直关注的焦点。 由于网络登陆我国相对较晚,而且刚开始时人们对它的认识还不够,所以网 2 山东大学硕士学位论文 络安全方面的研究便迟缓了很多。近些年来,随着信息化进程不断推进,国内网 络的发展速度得到了显著的提高,因此网络安全的研究也日益被重视,特别对入 侵检测的研究也受到各方面的关注。近几年,国内在这一领域也进行了广泛的研 究。代表工作包括西安交通大学的管晓宏提出将系统与控制科学的统计分析、证 据推理以及信息融合方法与计算机网络技术相结合来识别入侵行为【4 】;上海交通 大学的陈克非、刘东喜等主要研究入侵追踪、定位问题【5 1 ;清华大学的陈光英、 李星、陈硕等对分布式系统的认知能力进行了研究【6 】:哈尔滨工业大学的方滨兴、 云晓春等对高性能、分布式、并行集群系统进行了研究,针对大型分布式网络提 出自组织层次模型 7 1 :武汉大学的王丽娜、张焕国等对容侵系统进行了研究【8 1 ; 北京航空航天大学的夏春和研究了入侵诱骗问题【9 1 ;中国科学院研究生院信息安 全国家重点实验室连一峰、戴英侠主要研究了分布式入侵检测模型【1 0 】;另外还有 其他一些高校等科研单位做类似的工作等。 国内虽然对入侵检测系统从体系结构到检测算法都进行了深入的研究,但从 所应用的技术来看,国内的研究大部分是对国外技术的跟踪性研究,根本性的创 新少,同国外的差距还是很大。虽然一些网络安全公司也相继推出自己的入侵检 测产品,但是很多都是在借鉴国外的技术手段。总之,国内的水平同国外存在很 大的差距。但随着国家在这方面研究的投入不断加大,而且启动了信息安全的 8 6 3 紧急应急计划,各科研单位和大专院校从事这方面的研究和开发的队伍越来 越壮大,相信在不久的将来,国内的水平将赶超上国外并占有领先的位置。 1 3本文工作 本文在跟踪国内外入侵检测的最新研究进展的基础上,专注于基于机器学习 的入侵检测领域的理论研究,并将工作重点放在基于聚类的入侵检测的研究与应 用上,提出了相应的解决方案。本文的工作及创新之处: ( 1 ) 系统地介绍了入侵检测系统的基本理论,包括入侵检测的相关概念、模 型以及入侵检测的技术分类,论述了入侵检测的研究现状,指出了当前入侵检测 技术存在的问题等。 ( 2 ) 介绍了机器学习的基本理论,叙述了为何把机器学习方法应用于入侵检 测的问题,重点论述了基于机器学习的入侵检测的研究现状。 ( 3 ) 阐述了聚类算法设计的原理及主要特点,论述了当前基于聚类的入侵检 山东大学硕士学位论文 测的研究现状,针对k - m e a n s 聚类算法用于入侵检测时的不足问题,提出了基于 聚类的入侵检测算法g - m e a n s ,g - m e a n s 不仅克服了k - m e a n s 的缺点,而且具有 高检测率和低误报率等优点,并通过实验对其性能的优越性进行了验证。 ( 4 ) 阐述了特征选择的相关知识和对k d dc u p1 9 9 9 数据集进行特征选择的 方法;介绍了数据包头异常检测的相关工作;提出了面向数据包进行异常检测的 g - m e a n s ,并用实验给予了验证;最后设计了一个简易的基于g - m e a n s 的实现在 线检测功能的网络型入侵检测系统,并部署到了实际环境中。 1 4本文的组织结构 全文共分五章,各章的内容安排如下: 第一章绪论。论述了相关背景及本文所作的研究工作,介绍了常用的网络安 全技术、入侵检测技术及研究现状,最后列出组织结构。 第二章基于机器学习的入侵检测相关概述。先介绍了入侵和入侵检测的相关 概念,阐述了入侵检测分类、入侵检测系统模型和组成,入侵检测存在的问题。 然后介绍了机器学习的理论知识。最后论述了基于机器学习的入侵检测的研究现 状,并解释了为何把机器学习方法引入入侵检测的问题。 第三章基于聚类的入侵检测算法。首先介绍了聚类相关知识;然后论述了当 前基于聚类的入侵检测的研究现状;最后针对k - m e a n s 聚类算法用于入侵检测时 的不足问题,提出了基于聚类的入侵检测算法g - m e a n s ,并通过实验对g - m e a n s 的性能进行了验证,而且给出了与o p t i c s 和k - m e a n s 的对比实验来验证 g - m e a n s 的优越性。 第四章面向数据包进行异常检测的g - m e a n s 及应用。在本章中首先阐述了特 征选择的相关知识和对k d dc u p1 9 9 9 数据集进行特征选择的方法:然后介绍了 数据包头异常检测的相关工作;接着我们提出了面向数据包进行异常检测的 g - m e a n s ,并用实验给予了验证;最后我们设计了一个简易的基于g - m e a n s 的实 现在线检测功能的网络型入侵检测系统,并部署到了实际环境中。 第五章结束语。总结全文并提出了需要进一步研究的问题。 4 山东大学硕士学位论文 第2 章基于机器学习的入侵检测相关概述 2 1入侵检测概述 2 1 1 入侵检测的定义 1 9 8 0 年,j a m e sa d e r s o n 提出将审计数据应用于监视入侵威胁,他将入侵定义 为:潜在的、有预谋的、未经授权的访问信息与操作信息,致使系统不可靠或无 法使用,并提出审计追蹦1 1 1 。h e a d y 认为入侵是指试图破坏资源的完整性、机密 性及可用性的行为集合( 1 2 】。s m a h a 从分类角度指出1 3 1 ,入侵包括尝试性闯入、伪 装攻击、安全控制系统渗透、泄漏、拒绝服务、恶意使用六种类型。卡内基一梅 隆大学的研究人员将入侵定义为非法进入信息系统,包括违反信息系统的安全策 略或法律保护条例的动作n 4 1 。综上所述,入侵的定义应与受害目标相关联,该受 害目标可以是一个大的系统或单个对象,把与目标相关的操作判断为入侵的依据 是:对目标的操作超出了目标的安全策略范围。因此,入侵系指违背访问目标的 安全策略的行为。 顾名思义,入侵检测是对入侵行为的检测。它通过收集和分析计算机网络或 计算机系统中若干关键点的信息,检查网络或系统中是否存在违反安全策略的行 为和被攻击的迹象。具有入侵检测功能的系统称为入侵检测系统,简称i d s 。入 侵检测技术是一种主动保护自己免受攻击的一种网络安全技术,它能够帮助系统 对付网络攻击,扩展了系统管理员的安全管理能力( 包括安全审计、监视、攻击 识别和响应) ,提高了信息安全基础结构的完整性。 2 1 2 入侵检测的模型 最早的入侵检测模型i 妇d e n n i n g 在1 9 8 6 年提出【2 1 ,这个模型与具体的系统和 具体输入无关,对此后大部分使用系统有借鉴价值。该模型主要根据主机系统审 计记录数据,生成有关系统的若干轮廓,并监测轮廓的变化差异发现系统的入侵 行为。 随着入侵行为的种类不断增多,涉及的范围不断扩大,而且许多攻击是经过 长时期准备,通过网上协作进行的。面对这种情况,入侵检测系统的不同功能组 件之间、不同i d s 之间共享这类攻击信息是十分重要的。为此,c h e n 等提出一种 山东大学硕士学位论文 通用的入侵检测框架模型,简称c i d f t l 5 1 。该模型认为入侵检测系统由事件产生 器( e v e mg e n e r a t o r s ) 、事件分析器( e v e n ta n a l y z e r s ) 、响应单元;( r e s p o n s eu n i t s ) 和事 件数据库( e v e n td a t a b a s e s ) 组成,如图2 1 所示。 图2 1 入侵检测系统的基本构成 ( 1 ) 事件产生器 事件产生器是入侵检测系统中负责原始数据采集的部分,它对数据流、日志 文件等进行追踪,然后将搜集到的原始数据转换为事件,并向系统的其它部分提 供此事件。 ( 2 ) 事件分析器 事件分析器接收事件信息,然后对它们进行分析,判断是否是入侵行为或异 常现象,最后将判断的结果转换为警告信息。事件分析器是入侵检测系统的核心 模块,它完成对事件的分忻和处理。分析模块可以来用现有的各种方法对事件进 行分析,确定该事件是否是攻击,如果是则产生报警,如果不能确定,也要给出 一个怀疑值。 ( 3 ) 事件数据库 事件数据库是存放各种中间和最终数据的地方。它从事件产生器或事件分析 器接收数据,一般将数据进行较长时间的保存。它可以是复杂的数据库,也可以 是简单的文本文件。 ( 4 ) 响应单元 响应单元根据警告信息作出反应,它可以做出切断连接、改变文件属性等强 烈反应,也可以只是简单地报警,它是入侵检测系统中的主动武器。 2 1 3 入侵检测技术分类 从不同的角度出发,入侵检测可以分为不同的类型。 ( 一) 按照信息收集模块的数据来源,入侵检测分为基于网络的入侵检测、基 于主机的入侵检测和混合式入侵检测 6 山东大学硕士学位论文 1 1 基于网络的入侵检测 基于网络的入侵检测产品放置在比较重要的网段内,不停地监视网段中的各 种数据包,对每一个数据包或可疑的数据包进行特征分析。如果数据包与产品内 置的某些规则吻合,入侵检测系统就会发出警报甚至直接切断网络连接。目前, 大部分入侵检测产品是基于网络的。 基于网络的入侵检测具有如下的优点:很少的使用就可以监视一个大的网 络;它们的部署对现有网络的影响很小;本身的抗攻击性好;可以提供实时的网 络监视,并且监视的粒度可以很细致。也存在以下的不足:对大而忙的网络存在 处理上的困难;不能分析加密的信息,在越来越多的组织使用虚拟专用网v p n 时,这个问题将变的更突出;对付不了诸如碎片攻击,这种畸形的数据包可能导 致i d s 系统运行的不稳定甚至崩溃。 2 ) 基于主机的入侵检测 基于主机的入侵检测系统通常是安装在被检测的主机之上,主要是对该主机 的网络实时连接以及系统审计日志进行智能分析和判断。如果其中主体活动十分 可疑( 如特征违反统计规律) ,入侵检测系统就会采取相应措施。 基于主机的入侵检测具有如下的优点:不受网络信息流的加密和交换网络使 用的影响;可以检测到特洛伊木马和其他破坏软件完整性的攻击。也存在以下的 不足:占用所监视主机的资源,影响所监视主机的工作性能;需要系统提供大的 存储空间;容易遭受拒绝服务攻击而失效;不能检测针对网络发起的多点攻击; 本身容易受到攻击;难于管理。 3 ) 混合式入侵检测 基于网络的入侵检测产品和基于主机的入侵检测产品都有不足之处,单纯使 用一类产品会造成主动防御体系不全面。但是另一方面,它们的缺憾是互补的。 因此把这两类产品无缝结合起来部署在网络内,构架成一套完整立体的主动防御 体系,这便是混合式入侵检测。它既可发现网络中的攻击信息,也可从系统日志 中发现异常情况,综合了基于网络和基于主机两种结构特点。 ( 二) 根据分析引擎所采用的分析技术的不同,入侵检测技术可分为:误用 入侵检测和异常入侵检测。 1 ) 误用检测 7 山东大学硕士学位论文 误用检测分析系统的活动,发现那些与被预先定义好了的攻击模式相匹配的 事件或事件集。由于与攻击相对应的模式也叫特征,误用检测往往被叫作基于特 征的检测。 误用入侵检测的优点:能够十分有效地检测到攻击,而不会产生惊人的误警 信息;能够迅速可靠地诊断特定攻击工具和技术的应用,这能够帮助管理人员优 先考虑对策;容易让普通的网络管理人员而非网络安全专家来操作等。同时也存 在如下的不足:只能检测出那些已知的攻击;对变形的攻击的检测似乎无能为力 等。 2 ) 异常检测 异常检测识别主机或网络中异常的或不寻常的行为。它们假设攻击与正常的 ( 合法的) 活动有大的差异来识别攻击。异常检测首先收集一段时期内正常操作活 动的历史数据,再建立代表用户、主机或网络连接的正常行为轮廓,然后收集事 件数据并使用一些不同的方法来决定所检测到事件活动是否偏离了正常行为模 式。 , 异常入侵检测的优点:在没有详细的特定知识条件下,可以检测出攻击发生 的症状;能够检测出未知攻击等。基于异常检测的入侵检测的不足:由于不可预 测的用户行为和网络,可能产生大量的误警信息;需要有关系统时间记录扩展的 “训练集”,以便特征化正常的用户模式等。 2 1 4 入侵检测存在的问题 入侵检测系统的优劣可以从三个方面来评价:有效性、适应性和可扩展性。 有效性是指d s 具有高的检测率和低误报率;适应性是指通过编码快速更新入侵 模式,能够检测到已知攻击的变体和未知攻击;可扩展性指根据网络配置,系统 能够并入检测模块,或者定制其他服务。总的来说,目前入侵检测系统主要有以 下几个缺陷: ( 1 ) 缺乏有效性:现代网络攻击趋向于自动化和集成化,致使i d s 对分布式、 多目标、多阶段的组合攻击的检测效果很差。许多i d s 采用集中统一收集和分析 数据的体系结构,存在单点失效问题。误报率高、占用资源多或者实时性差,不 能适应大规模和高带宽网络的安全防护。对攻击数据的关联和分析功能不足,导 致过多的人工参与。对采用加密手段的入侵方法无能为力。对于慢速攻击、变换 8 山东大学硕士学位论文 特征、插入与逃遁、系统内核篡改、隐蔽攻击等逃避i d s 检测的攻击方法检测率 很低。即使检测到攻击,现有的i d s 的响应能力和实时性也很有限,对于现在广 泛使用的快速脚本攻击防御能力较差。 ( 2 ) 缺乏适应性:误用检测模型不能检测到新的未知攻击,而添加新的规则 需要不断地更新模型,因此很难适应目前层出不穷的攻击手段。异常检测虽然具 备检测未知攻击,但需要为系统收集一个纯净的正常数据集,而这在现实的网络 环境中是很难做到的,因为训练集中一旦有入侵数据被认为是正常数据,那么该 类入侵行为及其变种都被视为正常数据,因此导致较高的误报率。 ( 3 ) 缺乏可扩展性:误用检测的入侵模式和入侵检测的统计测度是基于特定 的环境和系统的,不具有通用性,因此,在新的网络环境中重用和定制已经建立 起来的入侵检测系统难度很大。 2 2基于机器学习的入侵检测研究 传统的d s 存在着大量的问题,比如对未知网络攻击检测能力差、误报率高、 占用资源多;对攻击数据的关联和分析功能不足,导致过多的人工参与;对于现 在广泛使用的脚本攻击防御能力差等。机器学习所关注的问题是计算机程序如何 随着经验积累自动提高性能,这与入侵检测系统对外界的入侵进行自我学习,以 提高入侵检测的准确率,降低入侵检测的漏报率是一致的。换句话说就是,d s 的关键问题是如何利用以往的网络访问数据来建立可以对今后的访问模式进行 分类的模型,而这正是机器学习和数据挖掘技术的强项。因此把机器学习的理论 和方法引入到i d s 中来已成为一种共识,并且近些年来在这一研究领域取得了一 些积极的进展。 2 2 1 机器学习基础 机器学习( m a c h i n el e a r n i n g ) 是研究计算机怎样模拟或实现人类的学习行为, 以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一 门学问。它是人工智能的核心研究领域之一,是使计算机具有智能的根本途径, 是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算 的核心研究课题之,其应用遍及人工智能的各个领域,它主要使用归纳、综合 而不是演绎。关于“机器学习”至今还没有统一的定义,而且也很难给出一个公 认的和准确的定义。目前被广泛采用的机器学习的定义是汤姆米切尔( t o m 9 山东大学硕士学位论文 m i t c h e l l ) 在其著作( ( m a c h i n el e a r n i n g ) ) 中所提到的“利用经验来改善计算机系统 自身的性能”p 6 。 机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识 别现有知识、获取新知识、不断改善性能和实现自身完善的方法。机器学习的研 究目标有3 个:1 ) 人类学习过程的认知模型;2 ) 通用学习算法;3 ) 构造面向 任务的专用学习系统的方法。 图2 2 机器学习系统的基本结构 在图2 2 所示的学习系统基本模型中,包含了4 个基本组成环节。环境和知 识库是以某种知识表示形式表达的信息的集合,分别代表外界信息来源和系统所 具有的知识。环境向系统的学习环节提供某些信息,而学习环节则利用这些信息 对系统的知识库进行改进,以提高系统执行环节完成任务的效能。“执行环节 根据知识库中的知识完成某种任务,同时将获得的信息反馈给学习环节。 机器学习致力于“利用经验来改善系统自身的性能,而在计算机系统中,“经 验通常是以数据的形式存在的,要利用经验就不可避免地要对数据进行分析, 因此,机器学习已逐渐成为计算机数据分析技术的源泉之一。随着人类收集和存 储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据 的要求越来越广泛、越来越迫切,从而使得机器学习的重要性越来越显著。 2 2 2 基于机器学习的入侵检测算法的研究现状 对于基于机器学习的入侵检测技术的研究,国外的科研机构从上世纪8 0 年 代后期就开始了,并给予了高度的重视,而国内在这方面的研究则起步较晚。其 中代表性的工作如下:s p h s i e h 和v d g l i g o r t l 7 】提出了一种面向模式的误用检测 模型,该模型对误用程序、缺省特权的滥用和系统弱保护机制等多种入侵模式提 供了统一的描述形式,可作为统计异常检测方法的补充。a k a n a o k a 和 e o k a m o t o t l 8 】对入侵检测的流量做了多元统计分析( m t l l t i v a r i a t es t a t i s t i c a l a n a l y s i s ) ,通过实验选取合适的数据集,表明在线处理比批处理方式能获得更高 的检测率和更低的误报率。j m a r i n 等人【1 9 】基于命令行参数的选择和分类来建立 1 0 山东大学硕士学位论文 用户的正常行为轮廓,他们首先采用专家规则来降低处理数据的维数,然后进行 初步聚类,最后采用了一种叫做学习向量量化的近邻分类器对聚类中心进行细 化。j m a y 等 2 0 1 禾u m 了网络连接的内部统计特征和n - 伊a m 算法来完成大型网络的 异常检测。m e s m a i l i 等【2 l 】将基于范例的推理( c a s e - b a s e dr e a s o n i n g ) 用于入侵检测, 它采用了一个翻译模块把低层审计数据转换为高层的命令输入,通过模糊逻辑、 基于规则的推理( r u l e - b a s e dr e a s o n i n g ) 来提高系统性能。n j i a n g 等t z 2 改进t u n i x 进程调用序列中最大模式的定义,考虑了模式之间的覆盖关系,并把这种覆盖关 系作为新的吣进程调用序列特征用于模式之间和模式之内的异常检测。1 9 9 6 年f o r r e s t 等人瞄】在研究基于人工免疫的入侵检测中,发现可以通过对进程正常运 行时的执行轨迹建模来刻画进程的正常运行状态,她们提出了所谓的时延嵌入序 歹l j ( t i d e ) 方法,通过列举出现在训练数据中唯一的、预先定义的长度为k 的连续序 列来构造进程的正常行为轮廓,这样的短序列以树状存储在进程正常轮廓库中。 w e n k el e e 2 4 】的实验表明,机器学习方法在这样的短系统调用序列检测中起着重 要的作用。进一步,w a r r e n d e r 、f o 玎e s t 等人【2 5 】发现进程运行不正常时短系统调 用序列具有局域特征,因此可以通过研究给定长度的局部区域中长度为k 的短序 列与进程正常轮廓库中不匹配的短序列数目来检测攻击,称之为序列t i d e 方法 ( s t i d e ) 。s t i d e 方法的进一步扩展为带( 频率) 门限的s t i d e 方法, 1 h - s t i d e 方法,它 考虑了短序列出现的频率,而将稀有序列从进程的正常轮廓库中忽略。a w e s p i 、 m d a c i e r t 【 h d e b a r 2 6 1 基于一种生物序列模式发现方法- - t e i r e s i a s ,提出了一种可 变长度的短序列正常模式建立方法,研究结果表明该方法明显好于定长序列的检 测方法。g t a n d o n 和p k c h a n 2 7 】则把系统调用参数整合进异常检测的学习规则 中,他们的m - l e r a d 异常检测方法在检测新颖的异常攻击方面更为有效。 m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论