(计算机应用技术专业论文)基于数据挖掘的入侵检测系统研究(1).pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的入侵检测系统研究(1).pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的入侵检测系统研究(1).pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的入侵检测系统研究(1).pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的入侵检测系统研究(1).pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

壹州大掌2 0 0 5 曩礤士掣啦业能- : 中文摘要 随着计算机技术和i n t e m c t 技术的迅猛发展,计算机安全问题日益突出和复杂。由于入 侵检测技术对网络安全起着重要作用,进行入侵检测技术研究具有重要的意义。现有入侵检 测技术存在很多不足之处,特别是不能适应海量数据环境下对入侵检测建模的要求。 本文从基于数据库的知识发现开始,简要说明了数据挖掘技术应用于入侵检测领域的优 点:随后按照数据挖掘的过程,选用网络嗅探器程序收集的包级网络数据作为构建入侵模型 的训练和测试数据集,详细地说明了对该数据集的处理方法和过程:首先根据传输层t c p 和u d p 两种协议分解原始数据集,分别得到t c p 报文和u d p 数据报:然后按照t c p 连接 的目标服务类型,进一步对t c p 报文数据分解;利用t c p 连接四元组,得到每一次t c p 连接的报文块:从这些报文块中提取出网络连接的基本特征属性,形成可以供关联规则算法 学习检测模型的网络连接记录;对于在实际数据处理中遇到的各种问题,也讲行了分析并给 出了解决的办法。 论文的第四部分,详细的研究了各种数据挖掘方法的优缺点,再根据入侵检测网络记录 的特点,选择了关联规则算法中的一个算法a p r i o r i 算法,并且将其改进以适应入侵检测。 然后通过收集大量的黑客软件进行实验,虽然有些方面做的还不够,但是在检测的自适应能 力上取得了良好的效果。因此,本文提出的误用检测模型具有较好的检测性能。 关键字:信息安全,入侵检测,数据挖掘,关联规则,a p r l o r i 算法 蕾h 大掌2 0 0 5 届硬士掌瑚沣趣论文 a b s t r a c t a l o n gw i t hc o m p u t e rt e c h n o l o g ya n dt h ei n t e r n e tt e c h n o l o g ys w i f ta n dv i o l e n td e v e l o p m e n t , t h ec o m p u t e rs e c u r i t yq u e s t i o nd a yb yd a yp r o m i n e n ta n di sc o m p l e x b e c a u s et h ei n t r u s i o n d e t e c t i o nt e c h n o l o g yi sp l a y i n gt h ev i t a lr o l et ot h en e t w o r ks e c u r i t y , c o n d u c t st h ei n t r u s i o n d e t e c t i o ne n g i n e e r i n gr e s e a r c ht oh a v et h ev i t a ls i g n i f i c a n c e e x i s t i n gi i n t r u s i o nd e t e c t i o n t e c h n o l o g ye x i s t e n c ev e r ym a n yd e f i c i e n c y , s p e c i a l l yc a n n o ta d a p tt ou n d e rt h em a g n a n i m o u sd a t a c i r c u m s t a n c e st oi n v a d et h ee x a m i n a t i o nm o d e l l i n gt h er e q u e s t n i sa r t i c l ef r o md i s c o v e r sb a s e do nt h ed a t a b a s ek n o w l e d g es t a r t s ,t h eb r i e f i n gd a t am i n i n g t e c h n o l o g yh a sa p p l i e di nt h ei n t r u s i o nd e t e c t i o nd o m a i nm e r i t ;a r e r w a r d sd e f e r st ot h ed a t a m i n i n gt h ep r o c e s s ,s e l e c t st h en c t w o r ks n i f f e rp r o c e d u r ec o l l e c t i o nt h ep a c k a g el e v e ln e t w o r k d a t aa c h i e v e m e n tt oc o n s t r u c tt h ei n v a s i o nm o d e lt h et r a i n i n ga n dt h et e s td a t as e t i nd e t a i l e x p l a i n e dn st ot h i sd a t as e tp r o c e s s i n gm e t h o da n dt h ep r o c e s s :f i r s ta c t sa c c o r d i n gt ot r a n s m i t s l e v e lt c pa n dt h eu d pt w ok i n do fa g r e e m e n t sd e c o m p o s e st h ep r i m i t i v ed a t as e t o b t a i n st h e t c pt e x to fat e l e g r a ma n dt h eu d pd a t an e w s p a p e rs e p a r a t e l y ;t h e na c c o r d i n gt ot c p c o n n e c t i o ng o a ls e r v i c et y p e ,f o r d t e rt ot c pt e x to f at e l e g r a md a t ad e c o m p o s i t i o n = c o n n e c t sf o u r y u a ng r o u p su s i n gt c p , o b t a i n se a c ht c pc o n n e c t i o nt h et e x to fat e l e g r a mb l o c k ;w i t h d r a w st h e n e t w o r kc o n n e c t i o nf r o mt h e s et e mo fat e l e g r a mb l o c k st h eb a s i cc h a r a c t e r i s t i ca t t r i b u t e f o r m s m a ys u p p l yt h ec o n n e c t i o nr u l ea l g o r i t h ms t u d ye x a m i n a t i o nm o d e lt h en e t w o r kt oc o n n e c tt h e r e c o r d ;r e g a r d i n ge a c hk i n do f q u e s t i o nw h i c hm e e t si nt h ea c t u a ld a t ap r o c e s s i n g ,a l s os a i dg o o d h a sa n a l y z e da n dh a sp r o d u ds o l u t i o n t h ep a p e rf o u r t hp a r t , t h ed e t a i l e dr e s e a r c he a c hk i n do fd a t am i n i n gm e t h o dg o o da n db a d p o i n t s , h a v ea c t e da c c o r d i n gt oa g a i ni n v a d et h ed e t e c t i o nn e t w o r kr e c o r d i n gt h ec h a r a c t e r i s t i c , h a sc h o s e n i n a c o n n e c t i o n r o l e a i g n r i t h m - a p r i o r i a l g o r i t h m ,c a r r i e s o n t h ee x p e r i m e m t h r o u g h t h e e e l l e e t i o nm a s s i v eh a c k e r ss o f t w a r e ,a l t h o u g hs o m ea s p e c t sd oa r ea i s oi n s u m c i e n lb u th a s o b t a i n e dt h e9 0 0 de f f e c ti nt h ed e t e c t i o na u t o - a d a p t e da b i l i t y t h e r e f o r e ,t h i sa r t i c l ep r o p o s e dt h e e x c e p t i o n a l l yd e t e c t i o nm o d e lh a st h eg d o dd e t e c t i o np e r f o r m a n c e k e yw o r d :i n f o r m a t i o ns e c u r i t y ti n t r u s i o nd e t e c t i o n , d a t am i n i n g ,a s s o c i a t i o nr u l e r , a p r i o r i a l g o r i t h m i i 量州大掌2 0 0 5 疆q i 士掌位牛业 e 文 1 1 课题背景 第一章绪论 随着人类社会生活对i n t e m e t 需求的日益增长,网络安全逐渐成为i n t e r n e t 及各项网络服 务和应用进一步发展所需解决的关键问题,尤其是从1 9 3 3 年以来,随着i n t e r n e t i n t r a n e t 技 术日趋成熟,通过i n t e m e t 进行各种电子商务和电子政务活动日益增多,很多组织和企业都 建立了自己的内部网络并将之与i n t e r a c t 联通。这些电子商务和政务应用和企业网络中的商 业秘密便是攻击着的目标。据统计。目前网络攻击手段多达数千种,使网络安全问题变得极 其严螋。美国商业杂志信息周刊公布的一项调查报告成,黑客攻击和病毒等安全问题仅 在2 0 0 0 年就造成了上万亿美元的经济损失,在全球范围内每隔数秒就发生一起网络攻击事 仆。随着i n t e m e t 的发展,网络安全技术也在与网络攻击的对抗中不断发展。从总体上看。 经历了从静态到动态、从被动防范到主动防范的发展过程。 为了保护信息系统的安全,人们提出了很多信息安全防御机制,一般可以通过访问控制、 认证、信息加密、防火墙等安全措施来保护计算机和网络不被入侵和非法使用。这些传统的 安全方法是采用尽可能多的禁止策略对入侵进行防御,但是这些策略无法防止隐蔽通道的产 生以及系统所认定的授权用户的非法操作,对于来自内部的非法操作、口令或密钥的泄漏、 软件的缺陷以及拒绝服务型攻击( d o s ) 则更是无能为力;今年来流行的结合包过滤、应用 层网关技术的防火墙防止了许多如常见的协议实现漏洞、路由器、地址仿冒等多种攻击手段 并提供了安全的数据通道,但是它们不能对付层出不穷的应用层后门、应用设计缺陷和通过 加密通道的攻击:而为了解决用户对信息系统使用的方便性和严格控制之间的平衡问题也使 得系统不可能完全安全。要全面地保障整个信息系统的安全,除了要进行系统的安全保护之 外,还应该重视提高系统的入侵检测能力和事件的反应能力和系统遭到入侵破坏以后的快速 恢复能力,入侵检测( i n t r u s i o nd e t e c t i o n ) 就是在此需求下应运而生的。 1 2 入侵检测和入侵检测系统( i d s ) 的概念 入侵检测”j 的概念最早是由j a m e s a n d e r s o n 在1 9 8 0 年提出来的,他将入侵尝试或威胁定 义为:潜在的、有预谋的、未经授权访问信息和操作信息,致使系统不可靠或无法使用的企 图。入侵行为可以翅j 分来外部闯入、内部授权用户的越权使用和滥用三种类型。1 9 8 7 年, d o r o t h yd e n n i n g 首次将入侵检测的概念作为一种计算机系统安全防御问题措施提出来,他 同时也提出了一种通用入侵检测系统的抽象模型这个模型以主机上的审计记录文件为基 础,采用基于规则的特征匹配专家系统,用于发现主机上可能的入侵行为,它为以后的入侵 检测系统产品研制奠定了良好的基础。1 9 9 0 年,h e b e r l e i n 等人提出了一个新的概念:基于 网络的入侵检测:n s m ( n e t w o r ks e c u r i t ym o n i t o r ) ,它与此前的入侵检测系统最大的不同 在于它不检查主机系统的审计记录。而是通过局域网上主动的监视网络流量来追踪可疑的行 为。 入侵检测有别于传统的安全防御机制,它是用于检测任何危害或企图危害信息系统保密 性( c o n f i d e n t i a l i t y ) 、完整性( i n t e g r i t y ) 和可用行( a c c o u n t a b i l 时) 行为的种网络技术。 采用异常检测( a n o m a l yd e t e c t i o n ) 或误用检测( m i s u s ed e t e c t i o n ) 的方式,通过对计算机 和网络资源上的恶意行为进行识别和相应处理,能够在网络系统受到危害之前拦截相应入 量州大掌2 0 0 5 曩疆士掌位牛业弛- 文 侵。它不仅可以检测来自外部的入侵行为,也可以找出内部用户的非授权活动,作为一种积 极主动的安全防护技术,入侵检测可以与传统的安全防御机制共同构筑成计算机信息系统安 全管理模型,由于入侵检测系统可以弥补传统技术的不足,目前已经成为网络安全中的一个 研究热点。 执行入侵检测任务的程序就是入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ) 。它是避过检 查特定的攻击模式、独立事件、配置问题、欺骗程序、存在缺陷的程序版本和其他黑客可能 利用的漏洞来监控和安全有关的活动。图1 1 就是一个通用的入侵检测系统模型,该模型是 美国斯坦福国际研究所( s r i ) 的d e n n i n g 于1 9 8 7 年提出的。它的实现建立在如下的假设之 上:安全破坏是有异于系统正常应用模式的行为,因此可以通过监视系统的审计记录检测到。 这个通用模型由以下六个主要部件构成:主体( s u b j e c t s ) 、对象( o b j e c t s ) 、审计记录( a u d i t r e c o r d s ) 、活动档案( a c t i v i t yp r o f i l e ) 、异常记录( a n o m a l yr e c o r d ) 、规则集( r u l es e t ) 。 各部分的主要功能如下: 设计新的活动档案 图1 1 通用入侵检测系统模型 ( 1 ) 主体:启动在目标系统上活动的实体,如用户或系统本身。 ( 2 ) 对象:系统资源,如文件、设备、命令等。 ( 3 ) 审计记录:i 妇 构成的六元组。其中。a c t i o n 是主体对目标的操作。对操作系统而言,包括读、写、登陆、 退出等;e x c e p t i o n - c o n d i t i o n 是指系统对柱体活动的异常报告,如违反系统读写权限: r e s o u r c e - u s a g e 是系统的资源消耗情况,如c p u ,内存的使用率等;t i m e s t a m p 是活动发生 的时间。 在实际应用中,入侵检测系统中使用的审计数据一般来自系统日志、系统审计跟踪、网 络通信或者防火墙、鉴别服务器之类的应用子系统。因此这些数据不具有统一的格式,在有 些文献中,审计记录可以定义为更高一级的抽象而不是低级抽象,如网络通信中的一次连接 等。 ( 4 ) 活动档案:用以保存监视中主题的正常活动信息,具体实现依赖于检测方法。当事件在 审计数据中出现时,就改变了活动档案中的相关变量,活动档案就会根据规则集检查出来的 活动创建新的变量。 ( 5 ) 异常记录:有 组成。用以表示异常事件的发生情况。 ( 6 ) 觌则集:是一个决定入侵是否发生的处理引擎。结合活动档案用专家系统或统计方法等 分析收到的审计记录,调整内部规则或统计信息,判断有入侵发生时采取相应的措施。 反馈是通用模型中的一个重要的部分现有的某些主体活动也许会引发规则学习,加 2 夤州大掌2 0 0 5 曩硕士掌位吣比蕾- : 进新的规则,改变活动档案。因为在通用模型中没有体系结构的限制,没有把它们限制为简 单系统,所以各子系统又能进一步分布在多个节点上。 i d e s ( i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ) 与它的后继版本n i d e s ( n e x t - g e n e r a t i o n i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ) 均完全基于d e n n i n g 的模型。但并不是所有的i d s 都能够 完全符合该模型。d e n n i n g 模型的最大缺点在于它没有包含已知系统漏洞或攻击方法的知识, 而这些知识在许多情况下是非常有用的信息。 1 3 入侵检测系统的分类 当前有许多研究人员致力于构造入侵检测系统模型的研究,入侵检测系统可按照其采 用的技术及系统所检测的对象等多种方式进行分类。 1 3 1 根据数据的来源分类 ( 1 ) 基于主机的检查系统 系统获取数据的依据是系统运行所在的主机,保护的目标也是系统运行所在的主机。 ( 2 ) 基于阿络的检查系统 系统获取的数据来源是网络传输的数据包,保护的目标也是网络的运行。 ( 3 ) 分布式的检查系统 这种系统由不同的检测实体监控不同的主机和网络部分,主机间相互协作来共同完成检 测任务。这种技术一般是通过代理来完成各自主机范围内的检测,所以也称为基于代理的入 侵检测技术,优点是既能保证主机的安全,也能保证这个网络的安全。 1 3 2 根据数据分析方法分类 ( 1 ) 异常检测模型 这种模型的特点是首先总结正常操作应该具有的特征,例如特定用户的操作习惯与某些 操作的频率等:在得出正常操作的模型以后,对后续的操作进行监视一旦发现偏离正常统 计学意义的操作模式,即进行报警。这种方法的优点是可以识别出未知的入侵行为,正是由 于这个原因,异常检测是目前入侵检测系统的主要研究方向;它的缺点主要是:如果不能牧 举所有的正常使用规则,那么会导致误报的产生,另外,在检测的时候,判断某个行为是否 属于正常不能做简单的匹配,而要利用统计的方法进行模糊匹配,这在实现上有一定的难度。 ( 2 ) 误用检测模型 这种模型的特点是收集非正常操作也就是入侵行为的特征,建立相关的规则库;在后 续的检测过程中,将收集到的数据与特征库中的特征代码进行比较,得出是否入侵的结论。 这种方法的特点是能很好的识别已知的入侵形式,检测的方法也比较简单,所以容易实现, 缺点是对于未知的、新的攻击形式就无能为力了,存在着漏报。 1 3 3 根据时效性分类 ( 1 ) 脱机分析 就是在行为发生后,对产生的数据进行分折,而不是在行为发生的同时进行分析。如 3 责州夫掌2 0 0 5 曩硬士增q 扯毕柚“每:赶 对日志的审核、对系统文件的完整性检查都属于这种。 ( 2 ) 联机分析 就是在数据产生或者发生改变的同时对其进行检查,以发现攻击行为,这种方法一般 用于网络数据的实时分析,对系统资源要求比较高。 4 4 常用的入侵检测方法 目前的入侵检测系统模型构造中使用的检测方法很多,常用的检测方法有: 1 4 i 统计异常检测方法 统计分析方法首先给系统对象( 如用户、文件、目录和设备等) 创建一个统计描述。根 据刚户对象的动作为每个用户都建立一个用户特征表,通过比较当前特征与己存储定型的以 前特征,从而判断是否是异常行为。用户特征表需要根据审计记录情况不断加以更新。例如, 如果一个用户的特征文件有n 格特征变量m l , f 2 ,m 。这些变量可以是c p u 的使 用、i ,o 的使用地点及时间邮件使用、文件访问数量、网络回话时间等。用s i ,s 2 鼠,表示变量m l ,m 2 ,肘。的异常测量值其中s 是越大越异常。总的异常度可 以通过s = 口l 砰h - 口2 醴- - h - n 。鄙,g x 0 ,i = i n 来表示。其中口,表示各个特征变 量的权重。通常m ,并不是完全独立的,因而将导致更复杂的算法。测量属性的平均值被用 来与网络、系统的行为进行比较,任何观察值在正常值范围之外时,就认为有入侵发生。统 计方法的好还在于系统可以自适应地学习用户的行为,因为可能比人类专家更敏感,可检测 到位置类型的入侵和更为复杂的入侵。然而这种方法也存在着问题:系统可能被入侵者逐渐 训练,到最后入侵事件也会被认为是正常事件。伪否定和伪否定的产生往往取决于阀值的设 定的高低:由于统计方法对事件的顺序不敏感,造成事件之间具有的相互关系丢失,导致误 报、漏报率高而且这种方法不能适应用户正常行为的突然改变。 1 4 2 基于贝叶斯推理的异常检测方法 基于贝叶斯推理的异常检测方法是通过在任意给定的时刻,测量4 l ,4 ,以变 量值,推理判断系统是否有入侵事件发生。其中每个4 变量表示系统不同方面的特征( 如磁 盘哟的活动数量) 。假定4 变量有两个值,i 表示异常,0 表示正常。i 表示系统当前遭受 入侵攻击。每个异常变量4 的异常可靠性和敏感行表示以4 = 1 t ) 和h “,= i - 1 i ) ,则在 给定每个属值的条件下,由贝叶斯定理得出i 的可信度为 4 量州大掌2 0 0 5 疆习【士学位牛业论文 p u a , ,a 2 ,以) _ p ( 一l 4 ,么,i ) p ( i 泌4 ,a 2 ,4 ) 其中要求给出i 和一i 的联合概率分布。又假定每个测量值4 仅与i 相关,且与其他测量条 件a s 无关,i 手j ,则有 p ( a 。,a :,4 。,d = i - ip ( 4 i ) , l ,1 p ( a l ,a 2 ,爿。,一d = 兀p ( a ,- 、i ) i - l 从而得到 p ( z l a , 厶,剐一尸( 唧p ( 4 i d p ( 1 7 4 - ,4 :,。,4 ) p ( 1 d 1 1 尸( 彳。13 1 ) 因此,根据各种异常测量的值、入侵的先验概率及入侵发生时每种测量到的异常概率, 能够检测判断入侵的概率。但是为了检测的准确性,还必须考虑每个测量爿。之间的独立性。 通过相关性分析,确定各个异常变量与入侵的关系。 1 4 3 基于神经网络的异常检测方法 基于神经网络的入侵检测方法是训练神经网络连续的信息单元,信息单元指的是命 令。网络的输入层是用户当前输入和已经执行国的w 个命令;用户执行过的命令被神经网 络使用来预测用户输入的下一个命令,如图l 一2 所示。 预测下一 图1 - 2 基于神经网络的入侵检测 如果神经网络被训练成预测用户输入命令序列集合,则该神经网络就构成了用户的命令 轮廓框架。当用这个神经网络预测不出用户正确的后继命令,就在某种程度上表明了用户行 为与 其轮廓框架发生了偏离,这时候就有异常事件发生,根据这一点就能进行异常入侵 检测。 在图1 2 中,输入层箭头指向用户最近输入执行w 个命令序列。通过将每个输入以某 种方式编码把输入命令表示成几个值或级别的形式,能够成为命令唯一的标识。这样,输 入层上的输入值准确的于用户最近输入执行w 个命令序列相符合。输出层由单一的多层输 5 贵州大学2 0 0 5 屠习n 滞矗 毕业论文 出构成来预测用户发出的下一个命令。这种方法的有点是不依赖于任何有关数据种类的统计 假设,能较好的处理噪声数据,另外,也能够比较自然的说明各种影响输出结果测量的相互 关系;缺点是网络拓扑结构和元素的分配权值需要反复尝试才能确定。 1 4 4 基于专家系统误用入侵检测方法 基于专家系统误用检测方法是通过将安全专家的表示成i f t n 的形式,形成专家 知识库,然后,利用推理算法进行检测入侵。只有当规则的全部条件都满足的时候,规则表 示式中右边的动作才会执行。这种检测方法应用的实际问题时需要处理大量的数据和依赖于 审计跟踪的次序。同样,专家系统方法也存在一些缺点:专家系统必须要用安全专家的知识 来构造,因而系统的能力受限于专家知识,根可能造成漏判。而且在增加和删除规则时,必 须考虑规则集中不同规则之间的依赖性。 1 4 5 基于条件概率误用入侵检测方法 该方法是将入侵方式对应于一个事件序列,然后通过观测到事件发生情况来推测入侵 出现。这种方法的依据是外部事件序列,根据贝叶斯定理进行推理入侵。令e s 表示事件序 列,先验概率位p ( i n s t r u s i o n ) ,后验概率位p ( e s i l n s t r u s i o n ) ,事件出现的概率位p s ) ,则 川如一叩渤一等 通常网络安全专家可以给出先验概率p 伽t r u s i o n ) 尉入侵报告数据进行统计处理得出 p ( e s l l n s t r u s i o n ) 和p ( e s i i n t r u s i o n ) ,于是,可以计算出: 以懿) = c p 但司西曲8 f m ) 一心- , i n t r u s i o n ) ) p ( i n t r u s i o n ) + p ( e , qi n t r u s i o n ) 所以通过事件序列的观测,从而推出p ( e s i l n s t r u s i o n ) 。基于条件概率误用入侵检测方 法是在概率理论基础上得出一个普遍的方法。它是贝叶斯方法的改进,缺点是先验概率难以 给出,而且事件得独立性难以满足。 1 4 6 基于免疫系统的入侵检测方法 n e wm e x i c o 大学的f o r r e s t 等人注意到在生理免疫系统和系统保护机制之间有着显著 的相似性上述两系统运行者正常的关键是执行“自我月# 自我”决定能力。在决定把系统 调用作为一个主要信息源时,考虑了数据的大量目标,包括数据量,可靠检测误用能力和以 一种适合高级模式匹配技术编码的适合度。他们决定集中在短顺序的系统调用上,进一步忽 略传递给调用的参数,而仅看它们的临时顺序。系统首先被用来做异常检测。系统按两个阶 段对入侵分析处理,第一阶段建立一个形成正常行为特征轮廓的知识库,这里描述的行为是 以系统处理为中心的;在第二阶段,特征轮廓用于监控随后的异常系统行为。源于调用特权 程序的系统调用顺序随着时间流失被收集,系统特征轮廓由长度为1 ,0 的独一无二的序列 组成。使用三个度量描述正常行为偏离:成功的开拓、不成功的开拓和错误条件。尽管自我 ,非自我技术出现并成为一个十分有力和有希望的方法。一些攻击包括种族条件、伪装和镱 6 蕾 螂大攀z 0 0 5 层碍【士掌础弹业论文 略违背。不涉及特权处理的使用。这些攻击使用这种方法无法检测。 1 4 7 基于数据挖掘的入侵检测方法 用数据挖掘程序处理收集到的审计数据,为各种入侵行为和正常操作建立精确的行为 模式,这是一个自动的过程。不需要人工分析。数据挖掘的关键在于分类、关联、序列算法 的选取。关于数据挖掘的方法,将在后面的章节中详细的介绍。 1 4 8 基于状态转换的入侵检测方法 状态转移法将入侵过程看作是一个行为的序列,这个行为序列导致系统从初始状态转 入被入侵状态。然后用状态转换图来表示,每一个状态和特征事件被集成于模型中,所以检 测的时候不需要一个个地检查审计记录。 1 5 入侵检测系统的发展方向 入侵检测技术是在不断发展更新的,近年来入侵检测技术有几个主要的发展方向 1 5 1 分布式入侵检测与通用入侵检测框架 传统的i d s 一般局限于单一的主机或网络架构,对异构系统及大规模的网络的检测明 显不足。同时,不同的i d s 系统之间不能协调工作,为了解决这一问题,需要分布式入侵 检测技术与通用入侵检测架构( c i d f :c o m m o n i n t n 培i o nd e t e c f i o n f r a m e w o r k ) ,c i d f 是由 d a 褂强( 田际高级研究项目部) 在1 9 9 7 年提出的通用入侵检测框架,它计划实现几个目标: 第一个目标为了实现入侵检测和网络管理来共享组成入侵检测系统的事件分析,数据库和 回应组建;第二个目标是要实现入侵检测和网络管理来共享审计记录,报告信息,和入侵模 式信息等:第三个就是要实现协作性标准和a p i 集来统一实现和管理i d s ;最后就是设计开 放入侵检测框架标准,独立于现实语言,操作语言。和网络协议。目前c d f 仍然在研究中。 1 5 2 智能化的入侵检测 所谓的智能化方法,现阶段常用的有神经网络、遗传算法、模糊技术、免疫原理等方 法,这些方法常用于入侵特征辨识与泛化。但这些工作远远不足,还需要进一步的工作提高 其自学习与自适应能力。 1 5 3 与其他的网络安全技术相结合 网络攻击的复杂性对入侵检测系统提出了较高的要求,单纯依靠入侵检测系统很难检 测所有的攻击,必须与传统的安全防御措施相结合,从管理、网络结构、防火墙、病毒防护、 入侵检测等多方位全面对所关注的网络作全面的评估,共同对抗入侵行为,提高完整的网络 7 贵州大掌2 0 0 5 届q 士掣啦d u 惫文 安全保障。 1 5 4 宽带高速网络的实时入侵检测技术 大量高速网络技术如a t m 、千兆以太网、g 比特光线网等在近年内不断出现,在此 背景下的各种宽带接入手段层出不穷,其中很多已经得到了广泛的应用。如何实现在高速网 络下的具有较好实时性的入侵检测已经成为一个现实的问题。这里,主要涉及到两个方面的 问题,首先,入侵检测系统的软件结构和算法必须重新设计以适应高速网络的新环境,重点 是应该提高运行的速度和效率,另一个问题是,随着高速网络技术的不断进步和成熟,新的 高速网络协议的设计也成为未来新的网络协议结构是一个全新的问题。 费州大掌2 0 0 5 嗣司r 士掌位牛篮坤 文 2 。1 引言 第二章数据挖掘与入侵检测 入侵检测系统从本质上可以归结为对安全审计数据的分析与处理过程,无论是采用什 么样的检测技术,都需要对数据进行处理,这种分析与处理可以用统计学的方法完称,然而, 随着操作系统的日益复杂化和网络数据流量的急剧增加,安全审计数据同样以惊人的速度增 加,面对海量的系统安全日志数据或网络,任何传统的分析处理技术都适应无法适应入侵检 测的需要。如何适应这种海量数据的现状,能够对大量的审计数据进行全面、高速和准确的 分析,从中提取出具有代表性的系统特征模式,为入侵检测系统所用,已经成为当前入侵检 测系统的关键所在。近年来兴起的知识的表示和获取、数据挖掘( d a m m i n i n g ) 、特征选择 等相关技术的研究,为我们从新的角度对入侵检测的知识进行描述和分析莫定了基础,具有 巫要的实用价值。 数据挖掘【4 】的目的就是要从海量的数据中提取出用户感兴趣的数据信息( 知识) :另 外,由丁网络活动是一系列具有结构化特征的数据,具有类似数据库数据的特征,这样完全 可以利州数据挖掘技术从大量的网络数据中,提取出网络数据、数据属性间相关性的规则集, 米描述出网络数据或入侵行为的特征轮廓,从而获得相关的入侵知识、系统特征知识。 2 2 数据挖掘技术 2 2 1 数据挖掘的概念 随着数据库技术的不断发展以及数据库管理系统的广泛应用,数据库中存储的数据量 急剧增大( 呈超指数规律上升) ,数据的理解和数据的产生之间出现了越来越大的距离。在 堆积如山的数据中包含着许多待提取的有用的知识,这些有用的知识如同成熟的庄稼,不及 时收割便会浪费- 人们迫切需要新一代的计算技术和工具来帮忙开采数据山中蕴藏的矿藏, 并加以提炼,使之成为有用的知识。于是,一个新的研究领域知识发现应运而生。由于 蕴藏知识的数据信息大多存储与数据库中,因此又称作数据库中的知识发现( k n o w l e d g e d i s c o v e r yi n d a t a b a s e ) 或者数据挖掘( d m - - d a t a m j m n g ) 。 数据挖掘技术,一般是指从大型数据库的数据中提取人们感兴趣的知识。这些知识是 隐含的、事先未知的、潜在的有用信息,提取的知识可以表示为概念、规则、规律以及模式 等形式、更广义的定义认为:数据挖掘指在一些事实或观察数据集合中寻找模式的决策支持 过程。数据挖掘的对象不仅是数据库,也可以是数据文件,或其它任何组织在一起的数据集 合需要说明的是知识发现是从数据库中发现知识的整个过程,而数据挖掘仅仅是整个过程 中的一个步骤因为数据挖掘是知识发现接个过程中最重要的步骤,所以我们通常将知识发 现和数据挖掘作为同义词使用而不加区别。 2 2 2 数据挖掘过程 知识发现过程一般分为数据准备、数据挖掘、解释与评价三个大的阶段,如图2 - i 所 9 贵州大掌2 0 0 5 詹璜士嫩位牛业论文 不 图2 1知识发现的过程 数据准备包括数据选择、数据预处理和数据变换三个步骤,其中,数据选择是根据用 户要求,从数据库中提取与k d d 相关的数据,k d d 将主要从这些数据中进行数据提取; 数据预处理与转换是要从与k d d 相关的数据集合中除去明显错误的数据、冗余的数据,进 一步从所选数据中选取有用的部分。并将数据转化成为有效形式,以使数据挖掘更加有效。 数据挖掘( d m ) 阶段是根据k d d 发现任务的要求,选择合适的数据挖掘算法( 包 括选取台适的模型和参数) ,在数据库中寻求感兴趣的模型,并用一定的方法表达成某种易 :理解的形式。 模式解释是对发现的模式进行解释和评估,必要时需要返回前面处理中的某些步骤以 反复提取;知识评价是将发现的知识以用户能理解的方式提供给用户,并试用之。 从以上的处理步骤来看,整个发现过程不是简单的线性流程,步骤之间包含了循环和 反复上述众多处理环节实际上也可以简化为:k d d = 数据预处理+ d m + 解释评价。由于 预处理和解释评价研究较为成熟,目前k d d 的研究和实现难点都集中在数据挖掘上。 2 2 3 数据挖掘的目标和方法 鉴于数据挖掘对于k d d 的重要性,所以吸引了研究人员的主要精力,相关的研究工 作也取得了较大的进展。通常,根据发现任务与发现目标的不同,数据挖掘所能发现的典型 知识主要包括一下几类: f 1 1 关联规则 所谓关联规则【4 l ,是指数据对象之间的相互依赖关系。而发现规则的任务就是从数据 库中发现那些置信度( c o n f i d e n c e ) 和支持度( s u p p o r t ) 都大于给定值的强壮规则。从数据 库中发现关联规则近几年研究的最多目前,已经从单一概念层次关联规则的发现发展到多 个概念层次的关联规则的发现。在概念层次上的不断深入,使得发现的关联规则所能提供的 信息越来越具体,实际上这是个逐步深化所发现的知识的过程。基于更高概念层次上的规则 发现研究( 如一般化抽象层次上的规则和多层次上的规则发现) 是当前研究的重点之一。在 数据挖掘中,常见的关联规则发现算法又:a i s 、s e t m 、a p r i o r i 、d h p 、m l t 2 l 1 、m l - t m l l 等,其中a p r i o r i 和d h p 是比较成功的两个算法。 ( 2 ) 分类( c l a s s i f i c a t i o n ) 分类是最基本的一种认知形式。数据分类就是对数据库中的每一类数据,挖掘出关于 该类数据的描述或模型,而这些数据库中的类是事先利用训练数据建立起来的。作为数据挖 掘的一个重要主题,数据分类在统计学、机器学习、人工智能等领域中得到了较早的研究, 只是近些年来,人们才将它与数据库技术结合起来解决实际问题。在数据挖掘中,分类算法 的研究成果较多,常用的数据挖掘分类算法有:c a r t 、c 4 5 、i d 3 、s l i q 、k n n 、g a - k n n 等。 ( 3 ) 聚类 在机器学习中,数据分类成为有监督的学习,而数据聚类则称为非监督学习,两者所 采用的方法相差甚远。数据聚类是将物理的抽象的对象分成几个群类,在每个群体内部,对 1 0 贵州大掌2 0 0 5j 习【士掌位毕业论文 象之间只有较高的相似性,而在不同群体之间,相似性则比较低。一般地,一个群体也就是 一个类,但与数据分类不同的是,聚类结果主要基于当前所处理的数据,我们事先并不知道 类目结构及每个对象所属的类别。另外,聚类计算量非常大,其时间复杂度也要比数据分类 大得多。目前数据聚类已有很多不同的方法和技术,常见的算法有p a m 、c l a r a 、 c l a r a n s 、b i r c h 等。 除上述主要发现目标外,数据挖掘所发现的知识类型还有特征规则、趋势分析、异常 分析、模式分析等。 2 3 数据挖掘技术在入侵检测中的应用 2 3 1 基于数据挖掘的入侵检测系统的特点 最早运用数据挖掘技术于入侵检测p 4 领域的是美国哥伦比亚大学的w c n k el e e 研究 小组,他们在1 9 9 8 年首次将数据挖掘技术用于入侵检测系统。从他们提供的大量实验和测 试结果表明,将通用的数据挖掘技术应用于入侵检测系统,在理论上和技术上是完全可行的。 基于数据挖掘的入侵检测分析技术与其他分析技术不同之处在于:该方法是以数据为中 心,将入侵检测完全看成一种海量安全审计记录数据的分析与处理过程,即使根本不知道各 种攻击手段的作用机制,也可以从安全审计数据本身所隐藏的规律中发现异常行为,从而使 入侵检测系统具有更好的自学习、自适应和自我扩展的能力。从大量安全审计数据中提取出 能够精确描述程序或用户行为的特征模式是解决入侵检测漏报和误报问题的关键所在。 与传统的入侵检测技术相比,基于数据挖掘的入侵检测分析技术有一下几个特点: ( 1 ) 智能性好,自动化程度高 基于数据挖掘的检测方法采用了统计学、决策学以及神经网络的多种方法自动地从数据 中提取肉眼难以发现的网络行为模式,从而减少了人的参与,减轻了入侵检测分析员的负担, 同时也提高了检测的准确性。 ( 2 ) 检测效率高 数据挖掘可以通过对数据进行预处理,抽取数据中的有用部分,有效地减少数据处理量, 因而检测效率较高,对于面对网上庞大数据流量的入侵检测系统来说,这一点也是至关重要 的。 ( 3 ) 自适应能力强 应用数据挖掘方法的检测系统不是基于预定义的检测模型,所以自适应能力强,可以有 效地检测新型的攻击以及那些己知攻击类型的变种。 2 3 2 运用数据挖掘技术构建入侵检测引擎的过程 从本章第二节中可以知道,知识发现过程一般分为数据准各、数据挖掘和解释评估三个 阶段入侵检测系统构建过程与知识发现过程很类似,同样要经过数据准备、模型构建、解 释评估三个大的阶段。 数据准备包括数据选择、数据预处理和数据变换三个步骤,数据准备的第一步就是在实 际环境或实验环境中收集需要的数据,对于误用检测而言,主要选择脆弱性、攻击、威胁等 与入侵有关的审计数据,选择的数据类型取决于所定义的安全策略,这样就能保证生成的模 型能够精确检测针对特定安全策略的入侵及破坏行为。对干异常检测丽言,则应该选择能够 贵州大学2 0 0 5 届疆士掌位j q 也论文 反映系统或用户正常行为的事件审计数据,以便构建作为入侵检测基准的正常行为模式。数 据预处理的主要任务是将原始的数据定制成适合于模型生成的规范格式,例如,在基于网络 的入侵检测中,从数据链路层获取的数据帧必须进行逐层协议解析,恢复成各个协议层的连 接记录,并从中提取出可以用来对各协议层连接记录进行分类的特征属性。对干异常检测, 为了防止把异常记录作为正常记录来进行学习,必须在训练数据集中剔除掉异常记录。另外, 过于庞大的审计记录,对系统的存储资源和计算资源都有很高的要求,所以应该采用一定的 数据耩简策略。数据变换是指对事件数据的聚合,包括删除或合并无关的系统属性形成更 加紧凑的审计记录来达到数据精简的目的。 模型生成阶段主要就是使用具体的数据挖掘算法,对经过数据准备阶段的数据集进行分 析、处理,目的是抽象出利于进行判断和比较的特征模型,这种特征模型可以是基于误用检 测的特征向量模型,也可以是基于异常检测的行为描述模型,这主要根据用户的具体要求来 确定。 解释评估阶段的主要的任务就是对构建的检测模型迸行评估、优化,以得到能真正符合 崾求的模型,就可以使用这些模型来检测入侵( 已知、未知的入侵方式) 。 2 3 本文的研究重点 2 3 1 研究内容 通过上面的介绍可知,根据入侵检测引擎构建过程与知识发现过程的相识性原理;根据 w e n k e el e e 等国内外研究人员提供的实验和测试结果表明,采用数据挖掘中关联规则、序 列模式和数据分类算法构建入侵检测模型在理论和技术上都是可行的。 本文主要从事基于网络连接记录的检测模型的研究。基于网络入侵检测通常有两种方 法,一种方法是通过分析主机的审计记录来获取证据,然后结合各个主机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论