(计算机软件与理论专业论文)基于数据挖掘技术的入侵检测模型构建.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘技术的入侵检测模型构建.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘技术的入侵检测模型构建.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘技术的入侵检测模型构建.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘技术的入侵检测模型构建.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据挖掘技术的入侵检测模型构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士学位论文基于数据挖掘技术的入侵捡捌模型构建 论文题目: 专业: 硕士生: 指导教师: 基于数据挖掘技术的入侵检测模型构建 计算机软件与理论 魏硕 梁华金副教授 摘要 随着计算机网络应用的普及和网上商务活动的日益频繁,计算机系统的安全 问题越来越突出。攻击事件发生的数量逐年增加,近几年的上升幅度更为明显。 同时这些安全事故给社会造成了巨大的经济损失。通常使用入侵避免技术,例如 用户身份认证、避免程序错误等技术来作为防御攻击的第一道防线。但是光有入 侵避免技术还不足以完全防止入侵,例如无法防止局域网内部的攻击。需要入侵 检测技术来作为防御攻击的第二道防线。作为计算机安全领域的一个重要技术, 入侵检测技术的研究逐渐受到人们的重视。这几年我国政府也对入侵检测研究投 入了较大的重视。然而,传统的入侵检测系统在有效性、适应性和可扩展性方面 都存在不足,尤其是在遇到新的入侵类型时变得无能为力。针对这些不足,本文 将从数据处理的角度,用数据挖掘的方法根据海量审计数据建立描述入侵行为的 模型。我们从审计日志中归纳学习出分类规则,并以此作为描述入侵行为的工具。 建立入侵模型的过程中需要为训练数据添加适当的统计属性,以使分类模型能够 更有效的描述入侵行为。 本文首先对入侵检测系统的技术背景进行了简要的说明和归类,针对传统入 侵检测技术的不足之处,将主要研究方向定在入侵检测模型的构建上,使用数据 挖掘技术开发一套自动化、系统化的构建入侵检测系统的方法。 接下来讲述分类问题,实现了c 4 5 分类算法,并应用分类算法进行实验,从 审计数据电建立分类模型,以此研究特征属性的构造对分类模型准确性的影响, 根据对实验结果的分析,为入侵模型添加了一定数量的特征属性,并证明利用分 类算法建立入侵检钡口模型的可行性。 随后根据d a r p a 提供的用于入侵检测系统性能评估的t c p d 啪p 日志,建立误 用入侵检测模型。实验将t c p d u m p 日志重组成网络连接纪录,在入侵行为和网络 协议维上进行概念分层,进行训练数据的预处理秆特征构造,最终建立了具有较 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 好效果的分类模型。模型建立完成之后,根据现有入侵检测系统n f r 的入侵描述 语言,将生成的入侵规则进行了转化工作,并阐述了与模型建立相对应的检测过 程,指出建立实时检测系统所需要解决的问题。 最后,对今后的研究方向作了展望,指出检测新的入侵行为必须借助于异常 检测,同时也在提高实时检测系统的检测效率方面提出了一些可行的思路。 关键字:入侵检测,数据挖掘,分类,特征构造,概念分层 i i 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 t i t l e :c o n s t r u c t i o ni n t r u s i o nd e t e c t i o nm o d e l su s i n gd a t am i n i n gt e c h n i q u e s m a j o r :c o m p m e rs o f t w a r ea n dt h e o r y n a n l e :w e i s h u o s u p e r v i s o r :v i c e p r o f e s s o rl i a n gh u a j i n a b s t r a c t w i t ht h ep o p u l a r i z a t i o no f t h ea p p l i c a t i o n so f n e t w o r k b a s e dc o m p u t e rs y s t e m s a n dt h ei n c r e a s i n gf r e q u e n c yo fe c o m m e r c e ,s e c u r i t yi s s u e sb e c o m em o r ea n dm o r e o u t s t a n d i n g t h e r ea r ei n c r e a s i n ga m o u n to f a t t a c k sy e a ra f t e ry e a r w i lm o r e i n c r e a s i n gr a t ei nt h er e c e n ty e a r s t h e s es e c u r i t ya c c i d e n t sr e s u l ti nt r e m e n d o u s d a m a g e st oo u rs o c i e t y i n t r u s i o np r e v e n t i o nt e c h n i q u e s ,s u c ha su s e ra u t h e n t i c a t i o n , a v o i d i n gp r o g r a m m i n ge r r o r s ,a n di n f o r m a t i o np r o t e c t i o nh a v eb e e nu s e dt op r o t e c t c o m p e e rs y s t e m sa saf i r s tl i n eo fd e f e n s e i n t r u s i o np r e v e n t i o na l o n ei sn o ts u f f i c i e n t f o r e x a m p l e ,t h e yc a n n o ta v o i da t t a c k si n s i d e i n t r u s i o nd e t e c t i o ni st h e r e f o r en e e d e d a sa n o t h e rw a l lt op r o t e c tc o m p u t e rs y s t e m s t h e s ey e a r s ,o u rg o v e r n m e n ta l s ol a y s m u c hs t r e s so nt h er e s e a r c ho fi n t r u s i o nd e t e c t i o n h o w e v e r c u r r e n ti n t r u s i o n d e t e c t i o ns y s t e m sl a c ke f f e c t i v e n e s s ,a d a p t a b i l i t ya n de x t e n s i b i l i t y ,a n de s p e c i a l l y , t h e yb e c o m ei n e f f e c t i v ei nt h ef a c eo f n e wk i n do f a t t a c k s a i m e da tt h e s e s h o r t c o m i n g s ,t h i st h e s i st a k e sa d a t a c e n t r i cv i e wt oi d sa n dd e s c r i b e saf r a m e w o r k f o rc o n s t r u c t i n gi n t r u s i o nd e t e c t i o nm o d e lb ym i n i n ga u d i td a t a c l a s s i f i c a t i o nr o l e s a r ei n d u c t i v e l yl e a r n e df r o ma u d i tr e c o r d sa n du s e da si n t r u s i o nd e t e c t i o nm o d e l s a c r i t i c a lr e q u i r e m e n tf o rt h er u l e st ob ee f f e c t i v ed e t e c t i o nm o d e l si st h a tl i d _ a p p r o p r i a t e s e to f f e a t u r e sn e e d st ob ef i r s tc o n s t r u c t e da n di n c l u d e di nt h ea u d i tr e c o r d s t h i st h e s i sf i r s tp r o v i d e dt h eb a c k g r o u n do ni d s a i m e da tt h es h o r t c o m i n g so f c u r r e n tt e c h n i q u e so f i n t r u s i o nd e t e c t i o n ,w ef o c u s e do nt h ec o n s t r u c t i o no fi n t r u s i o n d e t e c t i o nm o d e l s t h eg o a lo f t h i st h e s i sr e s e a r c hi st h e r e f o r et od e v e l o paf m m e w o r k i i i 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 m a tf a c i l i t a t e sa u t o m a t i ca n ds y s t e m a t i cc o n s t r u c t i o no fi d s w et h e nd i s c u s s e dt h ep r o b l e mo f c l a s s i f i c a t i o n a f t e rt h ei m p l e m e m a t i o no f c 4 5a l g o r i t h m w eu s e di ta sat o o lf o re x p e r i m e n t w ed i s c u s s e dt h a tf o rb u i l d i n g c l a s s i f i c a t i o nm o d e l sf r o ma u d i td a t a t h em o s ti m p o r t a n ti s s u ei st oc o n s t r u c tas e to f p r o p e rf e a t u r e s b a s e do na n a l y s i st ot h er e s u l t s ,w ec o n s t r u c t e ds e v e r a lf e a t u r e sf o r t h ei n t r u s i o nd e t e c t i o nm o d e l sa n dp r o v e dt h ef e a s i b i l i t yo fb u i l d i n gi n t r u s i o nm o d e l u s i n gc l a s s i f i c a t i o n ,cn e x td e s c r i b e dt h ep r o c e s so f b u i l d i n gm i s u s ei n t r u s i o nd e t e c t i o nm o d e l s f r o mt c p d u m pd a t ap r o v i d e db yd a r p af o ri n t r u s i o nd e t e c t i o ne v a l u a t i o n t c p d u m p d a t ai sr e c o m b i n e di n t oc o n n e c t i o nr e c o r d si nt h ed a t ap r e p r o c e s s i n gp r o c e s s w et h e n h i e r a r c h yt h ed a t ao nt h ed i m e n s i o no fi n t r u s i o nt y p ea n dn e t w o r kp r o t o c o l , c o n s t r u c t e das e to ff e a t u r e sf o r t h et r a i n i n gd a t at of i n i s ht h ee s t a b l i s h m e n to f c l a s s i f i c a t i o nm o d e l w en e x ti n c o r p o r a t eo u rl e a r n e dm o d e l si n t or e a l - t i m ei d s sw i t h n f r w ea l s od i s c u s s e dt h ed e t e c t i o np r o c e s sc o r r e s p o n d i n gt ot h eb u i l d i n gp r o c e s s a n dp o i n t e do u tt h ep r o b l e m sa s s o c i a t e dw i t ht h ei m p l e m e n t a t i o no fr e a l t i m e i n t r u s i o nd e t e c t i o n a tl a s t ,w ep r o v i d e do u rf u t u r ed i r e c t i o n s w ei n d i c a t e dt h a ta n o m a l yd e t e c t i o ni s n e c e s s a r yt od e t e c tn e wa t t a c k s w ea l s op r o v i d e ds o m ef e a s i b l ei d e af o ri m p r o v i n g d e t e c t i o ne f f e c t i v e n e s so f r e a l t i m ei d s k e yw o r d s :i n t r u s i o nd e t e c t i o n ,d a t am i n i n g ,c l a s s i f i c a t i o n ,f e a t u r e c o n s t r u c t i o n ,c o n c e p th i e r a r c h y 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 第1 章绪论 随着i n t e r n e t 应用的普及,信息系统安全问题越来越突出。c e r t c c ( c o m p u t e r e m e r g e n c yr e s p o n s et e a m c o o r d i n a t i o nc e n t e r ) 对过去1 4 年间发生的网络攻击事 件进行了统计( 见表1 1 ) 【1 】,结果表明攻击事件发生的数量逐年增加,近几年的 上升幅度更为明显。同时这些安全事故给社会造成了巨大的经济损失,根据计算 机世界网消息,近日公布的“全美第七次电脑犯罪和安全年度调查”表明,美国 由于网络安全事故造成的损失在2 0 0 1 年继续增加,达到4 5 6 亿美元,而2 0 0 0 年这 一数字为3 7 8 亿美元。 表1 - 1c e r t1 9 8 8 2 0 0 1 网络攻击事件报告 年度 1 9 8 81 9 8 91 9 9 01 9 9 l1 9 9 21 9 9 31 9 9 41 9 9 5 事件数量 61 3 22 5 24 0 67 7 3 1 ,3 3 4 2 ,3 4 02 4 1 2 年度 1 9 9 61 9 9 71 9 9 81 9 9 92 0 0 02 0 0 l 事件数量 2 5 7 3 2 1 3 4 3 ,7 3 49 ,8 5 9 2 1 7 5 65 2 ,6 5 8 由于信息系统安全威胁越来越严重,并且造成的社会经济损失越来越大,因 此信息安全技术研究逐渐引起了人们的高度重视,并成为信息技术中一个非常活 跃的研究领域。 起初信息系统安全机制的研究主要是基于1 9 8 5 年美国国防部( d o d ) 国家 计算机安全中心( n c s c ) 公布的可信计算机安全评估准贝, i j t c s e c ( t r u s t e d c o m p u t e rs y s t e me v a l u a t i o nc r i t e r i a ) 1 2 】,其特点是在信息系统安全处理上主要 集中在系统自身的加固和防护上。例如采用多级安全权限的安全操作系统和安全 数据库、在网络出口配置防火墙、在信息传输和存储中采用加密技术、并采用身 份认证等。然而随着信息技术的发展,基于t c s e c 的静态安全模型和安全协议标 准已经不能适应当前安全需求,无法完全反应分布的、动态的i n t e m e t 安全问题, 这种单纯利用防护安全理论和技术构建的安全防护机制逐渐暴露出以下不足: 单纯防护技术容易导致系统安全机制的盲目建设:仅单纯采用防护技 中山大学硕士学位论文 基于数据挖掘技术的入侵检测模型构建 术,使人们很难详细了解信息系统当前的安全威胁和安全现状,引起系 统安全的盲目建设,从而造成安全投入大而又没有真正抓住安全的关键 环节,导致不必要的浪费。 防火墙在防范恶意攻击方面有明显的局限性:首先防火墙的主要功能是 保护内部网络免受外部攻击,因此它无法防范来自内部的恶意攻击;其 次随着网络应用的发展,内部网络与外部网络的信息交互越来越多,这 一方面增强了网上应用的开发能力,另一方面也使得内部网络与外部公 共网络的信息交换更加难以控制,因此制订一套合适的防火墙安全策略 非常困难。 经典安全理论和技术无法完全保证信息系统的安全:“存取控制”或“访 问控制”是经典和现代安全理论中保障信息系统安全的重要手段,然而 迄今为止,软件工程技术还无法做至i j t e s e c 中信息系统a 2 级安全要求, 即形式证明一个系统的安全性。因此无论是在理论上还是在实践中,都 不能完全保证信息系统的安全性,同时也没有一种切实可行的方法解决 合法用户在通过“身份鉴别”后滥用特权的问题。 针对基于t c s e c 构建的安全机制存在的不足,安全专家提出了可适应动态安 全模型p 2 d r , 该模型主要包含4 个组成部分:安全策略( p o l i c y ) 、防护 ( p r o t e c t i o n ) 、检测( d e t e c t i o n ) 和响应( r e s p o n s e ) 。p 2 d r 模型是在安全 策略的控制和指导下,在综合运用防护工具( p r o t e c t i o n ,如防火墙、操作系统身 份认证、加密等手段) 的同时,利用检测工具( d e t e c t i o n ,如入侵检测和漏洞扫 描等) 了解和评估系统的安全状态,通过适当的响应( r e s p o n s e ) 将系统调整到 “最安全”的状态。防护、检测和响应一起构成一个完整、动态的安全循环, 它们之间的相互关系见图1 1 。 中山大学硕士学位论文 基于数据挖捅技术的入侵检测模型构建 图1 一lp 2 d r 安全模型 在p 2 d r 模型中检测是一个非常重要的操作环节,是动态响应和加强防护的 依据,只有通过不断地检测和监控网络和系统,才能发现新的威胁和弱点,并通 过循环反馈来及时做出有效的响应处理,因此近年来入侵检测技术研究逐渐受到 学界和工业界的重视。 l ,1 入侵检测 1 1 1 入侵检测的含义及其分类 8 0 年代早期a d e n r s o n 曾使用“威胁”这一概念性术语将入侵企图定义为未经 授权而蓄意尝试访问和篡改信息,使系统不可靠或不能使用 3 j ;后来h e a d y 给出 入侵的另外解释,入侵是指有关试图破坏资源的完整性、机密性及可用性的活动 集合1 4 j :而s m a h a 贝j 从分类的角度指出入侵包括尝试性闯入、伪装攻击、安全控 制系统渗透、泄露、拒绝服务、恶意使用6 种类型f 卦。实际上入侵检测是继“数 据加密”、“防火墙”等安全保护技术之后,人们提出的又一种安全技术,它通 过对信息系统中各种状态和行为的归纳分析,一方面检测来自外部的入侵行为, 另一方面还能够监督内部用户的未授权活动。 按照信息源来分类,入侵检测系统可以分为基于主机的( h o s tb a s e d ) 入侵 检测系统和基于网络( n e t w o r kb a s e d ) 的入侵检测系统: 基于主机的入侵检测系统:为早期的入侵检测系统结构,其检测的目标主 要是主机系统和系统本地用户,检测原理是根据主机的审计数据和系统的 中山大学硕士学位论文 基于数据挖掘技术的入侵检测模型构建 日志发现可疑事件,检测系统可以运行在被检测的主机或单独的主机上, 这种系统的优点是可咀精确的判断入侵事件,可以检测网络i d s 检测不到的 攻击;不受网络信息流的加密和交换网络使用的影响;还可以检测到特洛 伊木马和其他破坏软件完整性的攻击。但也存在以下的不足:占用所监视 主机宝贵的资源,要影响所监视主机的工作性能;需要系统提供大的存储 空间;会遭受拒绝服务攻击( d o s ) 而失效:不能检测针对网络发起的多 点攻击;本身容易受到攻击;难于管理。 基于网络的入侵检测系统:根据网络流量、协议分析、简单网络管理协议 ( s n m p ) 等数据检测入侵,目前商业的入侵检测系统大都属于这种类型。 这种方法的优点是可以提供实时的网络监视;它们的部署对现有网络的影 响很小;本身的抗攻击性好,缺点是对大而忙的网络存在处理上的困难, 可以考虑使用硬件或提高数据包的分析速度和能力来解决此问题;在现代 的交换网络下它们的很多优点都不适用。不能分析加密的信息,在越来越 多的组织使用虚拟专用网时,这个问题将变得突出;检测精确度较差;对 付不了诸如碎片攻击,这种畸形的数据包可能导致i d s 系统运行的不稳定甚 至崩溃。 按照分析方法入侵检测系统可以被分为两大类:误用入侵检测( m i s u s e i n t r u s i o nd e t e c t i o n ) 和异常入侵检测( a n o m a l yi n t r u s i o nd e t e c t i o n ) 。它们的具 体含义如下: 误用入侵检测:误用入侵检测假设具有能够被精确地按照某种方式编码的 攻击,并可以通过捕获攻击及重新整理,确认入侵活动是基于同一弱点进 行攻击的入侵方法的变种。例女l j i n t e m e t 蠕虫攻击就是使用t f i n g e r 和 s e n d m a i l 的错误,然后通过按照预先定义好的入侵模式以及观察到入侵发生 情况迸行模式匹配来检测。入侵模式说明了那些导致安全突破或其他误用 的事件的特征、条件、排列和关系。目前已提出的误用入侵检测方法有很 多,如基于状态迁移分析的误用入侵检测方法s t a t 6 1 和u s t a t 7 1 、基于 专家系统和模型误用推理的误用入侵检测方法j 等。 异常入侵检测:异常入侵检测的前提条件是将入侵行为作为异常行为的子 集,理想状况是异常行为集合与入侵活动集合等同,这样若能够检测所有 4 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 的异常行为,则就可检测到所有的入侵行为。然而入侵行为并不总是与异 常行为相符合,它们之间存在以下四种关系:( 1 ) 入侵而非异常; ( 2 ) 非入侵且异常;( 3 ) 入侵且异常;( 4 ) 非入侵且非异常。异常入侵检测 要解决的问题就是构造异常行为集合并从中发现入侵行为。异常入侵检测 方法依赖于异常检测模型的建立,不同模型构成不同的检测方法,目前提 出的异常检测技术有基于模式预测的异常检测方法【1 0 1 、基于统计的异常检 测方法【i 等。 目前有关这两种入侵检测技术的评价是各有利弊:异常入侵检测能够检测出未 知攻击,然而误检测率较高;误用入侵检测的检测准确度较好,但其只能对已知 攻击行为进行检测。 1 1 2 入侵检测原理 虽然入侵检测技术被分成异常入侵检测和误用入侵检测两大类,然而它们的 实现原理却基本一样( 见图1 2 ) 。 图1 ,2 入侵检测原理 入侵检测的目的是蜷统行为中分鳓墨蝴入犀行为,为i 达到这一目的首 先必须对系统行为特征有一个溱天 系统的理解,对系统行为深入、系统理解的 中山大学硕士学位论文 基于数据挖掘技术的入侵检测模型构建 最好方法就是利用数学工具描述系统行为特征,即建立系统行为数学模型。目前 入侵检测领域提出的系统行为模型主要有两类:异常行为检测模型和攻击行为检 测模型。其中异常行为检测模型用于异常入侵检测,攻击行为检测模型则用于误 用入侵检测。在建立起系统行为模型后,就可以利用系统行为模型对系统行为进 行分析,由于系统行为通常都是记录在系统日志中,因此利用系统行为模型对系 统行为进行分析检测实质上就是利用系统行为模型分析系统日志,为了保证能够 检测到入侵行为,还必须保证采集到的系统日志能够蕴涵入侵行为,否则好的检 测模型也无法检测到入侵行为。 1 2 现有入侵检测系统存在的问题 评估入侵检测系统有这样一些指标:有效性、适应性和可扩展性。有效性指 i d s 同时具有高检测率和低误报率:适应性指一个i d s 可以在已知入侵行为发生 细微改变后仍旧能将其检测出来,并能在新的入侵行为出现后迅速升级将其检测 出来;可扩展性指i d s 可以与其他入侵模型结合起来,并能按照用户的网络配置 进行定制。 目前的入侵检测系统在有效性、适应性和可扩展性方面都存在不足: 在有效性方面,手工书写的入侵规则、模式以及静态选取的关于系统特征 属性是由安全专家的知识得来的,随着操作系统的日益复杂化和网络数据 流量的急剧同一类膨胀,导致了安全审计数据同样以惊人的速度递增。攻 击手段不断变化,入侵检测系统难以及时更新,即使是安全专家也很难在 一个系统中对所有的攻击方法进行特征编码,这些知识往往是不完整和不 准确的。 窿活晦性疗面,当前的入侵检测系统也不够完善,安全专家们把主要注意 力集中在分析现有的( 已知的) 入侵方法以及系统的脆弱性上,i f | i 使得 d s 无法有效的检测出为止的攻击。开发新的入侵模块由于固有的学习曲线变 得缓慢。 在可扩展性方面,当前的入侵检测系统也有所欠缺。由于专家制订的规则 以及描述系统的特征属性都是与环境榭关的,所以在新的计算环境对i d s 进行重用或者定制都冠得比较困难。而当前大多数入侵检测系统都是集中 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 式的,对其补充新的检测模块将变得异常困难。 当前一些入侵检测系统已经在可扩展性和定制化方面做了一些工作,如 b r o 1 2 】和n f r 1 3 1 ,它们将网络业务流解析成为一系列的事件,并执行相应的脚本 语言来对事件进行处理,例如b r o 的策略脚本和n f r 的n c o d e ,它们都包含了与 网络节点相关的事件处理机制。这就需要系统管理人员既充当安全专家的角色, 又充当i d s 构建者的角色,他们必须为处理事件书写正确的函数。这就产生了许 多不足,如规则书写工作量大、由于书写错误( 没有合适的规则调试工具) 或制 定规则的安全专家的考虑不周而引起检测精确度降低。需要建立一套更加系统 化、自动化的方法来进行i d s 的构建。 这些与攻击密切相关的信息就隐藏在激增的数据背后,人们希望能够对这些 数据进行更高抽象层次的分析,以便能更好的利用这些数据。目前的审计系统可 以高效的实现安全审计数据的输入、查询、统计等功能,但无法发现数据中存在 的关联、关系和规则,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸 但知识贫乏”的现象。针对这些问题,人们开始利用机器学习、数据挖掘、和 概率统计等理论来研究入侵检测规则自动生成技术。 如何在海量的审计数据中提取出具有代表性的系统特征模式,用于对程序或 用户行为做出描述,是实现入侵检测系统的关键。为了对审计数据进行全面、高 速和准确的分析,需要利用如数据挖掘( d a t am i n i n g ) 、机器学习( m a c h i n e l e a r n i n g ) 等智能方法来处理安全事件数据,从包含大量冗余信息的数据中提取 出尽可能多的隐藏的安全信息,这些知识是隐含的、事先未知的、潜在的有用信 息,提取的知识表示为概念、规则、规律、模式等形式 1 4 , 1 5 l ,并可用这些知识 去检测异常入侵和已知的入侵。我们的目标是利用数据挖掘技术,从数据分析的 角度对误用检测和异常检测、基于主机和基于网络的系统用统一的方法来进行处 理,力求用一种自动和系统的手段建立一套自适应的,具备良好扩展性的入侵检 测系统。 1 3 本文的结构和内容 本文篇章如下安排: 第一章对入侵检测进行概述和归类,并指出当前入侵检测系统存在的问题 中山大学硕士学位论文 基于数据挖掘技术的入侵检测模型构建 概括本文的研究重点。 第二章讲述入侵检测模式学习技术研究的理论基础数据挖掘,基于数据 挖掘理论对入侵检测模式学习技术依次进行介绍,并且给出使用数据挖掘技术的 入侵检测系统的一般模型。 第三章着重讲述构建入侵模式的工具分类算法,并通过实现c 4 5 分类算 法以及根据审计数据得到分类模型的实验,得出结论:影响入侵检测分类模型准 确性的重要因素在于对特征属性的合理选取;参考领域知识,从时间上对审计数 据进行统计,可以得到所需的特征属性,以改善分类模型。 第四章在d a r p a 提供的用于入侵检测评估的t c p d u m p 日志数据上,使用预处 理技术,特征构造和分类算法进行入侵模型的构建,构建过程中对训练数据进行 概念分层,提高分类模型的准确率。 第五章对全文进行总结,并提出后续工作方向。 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 第2 章数据挖掘 本章首先介绍入侵检测模式学习技术研究的理论基础数据挖掘,其次基 于数据挖掘理论对入侵检测模式学习技术进行分类介绍,最后给出使用数据挖掘 技术的入侵检测系统的一般模型。 2 1 数据挖掘过程 简单的说数据挖掘是从海量数据中提取或挖掘知识,很多情况下等同于另一 个常用的术语:数据库中的知识发现( k d d ,k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 。 这些模式或知识可以用来做出预测。在知晓了一定的领域知识之后,数据挖掘过 程大体可以被划分为3 个基本环节( 见图2 1 ) 。 匝圈_ 匝堕一 匠 图2 - 1 数据挖掘基本过程 以下对图2 1 中数据挖掘的3 个基本环节进行介绍说明。 - 训练数据采集 训练数据采集是数据挖掘的第1 步,要求采集到的训练数据尽可能覆盖所要 构造数据模式的信息,否则构造出的数据模式就不能很好的对数据进行处理,因 此训练数据的质量对数据模式的构造有着至关重要的影响,在误用入侵检测模型 的建造过程中需要保证采集到的日志数据包含的信息足够描述入侵行为。 i 7 i l 练数据预处理 由于现实世界中的数据多半是不完整的、有噪音的和不一致的,因此需要通 过对训练数据进行预处理来提高训练数据质量。训练数据预处理主要包括数据清 理、数据集成、数据变换和数据归约4 种,处理过程这4 种处理过程的具体含义如 下: 数据清理的目的主要是用于清除训练数据中的噪音,修正数据中的不一 致和空缺值的处理: 数据集成则是将来自多个数据源的数据进行合并处理: 数据变换是将数据转换成适合模式学习的形式,例7 l h i ) l l 练数据特征属性 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 的抽取,即通过对训练数据进行统计分析构造出新的数据特征属性,以 便更有利于数据模式的构造; 数据归约的目的是通过删除训练数据中的冗余特征属性或采用聚类等方 法来压缩训练数据的数量,以降低数据分析的复杂度和缩短数据模式构 造的处理时间,例如特征选择就属于数据归约技术的一种。 训练学习 训练学习就是在选用的特征属性空间中,利用数理统计的方法把被识别对象 进行归类,基本做法是在样本数据实例训练集基础上确定某个判决规则,使按这 种判决规则对被识别对象进行分类所造成的错误率最小。 2 2 数据挖掘算法 数据挖掘功能用于指定数据挖掘任务中要寻找的模式类型。数据挖掘任务一 般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性; 预测性挖掘任务在当前数据上进行推断以进行预测。 在某些情况下用户不知道他们的数据中什么类型的模式是有趣的,因此可能 想并行的搜索多种不同的模式。这样,重要的是数据挖掘系统要能够挖掘多种类 型的模式,以适应不同的用户需求或不同的应用。此外数据挖掘系统应当能够发 现各种粒度( 即不同的抽象层) 的模式。数据挖掘系统应当允许用户给出提示, 指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立, 通常每个被发现的模式带上一个确定性或可信性度量,建立入侵检测模型比较合 适的挖掘类型如下: 关联分析 关联分析【1 6 】( a s s o c i a t i o na n a l y s i s ) 发现关联规则( a s s o c i a t i o nr u l e s ) , 这些规则展示属性值频繁的、在给定数据集中一起出现的条件。关联分析广 泛用于购物篮或事务数据分析,更形式的关联规则是形如x = y 即 “a l “a 2 “a 。= b l b 2 “b 。”的规则,其中a i ( i 1 ,m ) ) ,b j ( j 1 ,n ) 是属性一值对。关联规则x = y 解释为“满足x 中条件的数据库元 组多半也满足y 中的条件”。例如给定一个关于公司顾客的关系数据库,一 个数据挖掘系统可能发现如下形式的关联规则: 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 a g e ( x ,“2 0 2 9 ”) “i n c o m e ( x ,“2 0 k 2 9 k ”) = b u y s ( x ,“c d _ p l a y e r ”) 【s u p p o r t = 2 ,c o n f i d e n c e 2 6 0 其中x 是变量,代表顾客。该规则说明,所研究的数据库中顾客2 ( 支持度 在2 0 2 9 岁) ,年收入2 0 k 一2 9 k ,并且在该公司购买c d 机。这个年龄和收入组的 顾客购买c d 机的可能性有6 0 ( 置信度或可信性) 。这是一个以上属性或谓词 之间的关联,采用多维数据库使用的术语,每个属性称为一维,上面的规则可以 称作多维关联规则。 假定作为该公司的市场部经理,想知道一个事务中哪些商品经常被一块购 买,这种规则的一个例子是 c o n t a i n s ( t ,”c o m p u t e r = c o n t a i n s ( t ,”s o f t w a r e ”) 【s u p p o r t = - 1 ,c o n f i d e n c e = 5 0 该规则说明,如果事务t 包含c o m p u t e r ,则它也包含s o f t w a r e 的可能性有5 0 , 并且所有事务的1 包含二者。这条规则涉及单个重复的属性或谓词( 即 c o n t a i n s ) 。包含单个谓词的关联规则称作单维关联规则。去掉谓词符号,上面 的规则可以简单写成c o m p u t e r = s o f t w a r e 1 ,5 0 】。 分类和预测 分类( c l a s s i f i c a t i o n ) 找出描述并区分数据类或概念的模型( 或函数) , 以便能够使用模型预测类标记未知的对象类。导出模型是基于对训练数据集 ( 即其类标记一致的数据对象) 的分析。 导出模式可以用多种形式表示,如分类i f t h e n 规则、决策树【1 7 】、数学公 式或神经网络1 8 】。决策树是一个类似于流程图的树结构,每个节点代表一个 属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。决 策树容易转换为分类规则。当用于分类时,神经网络是一组类似于神经元的 处理单元与单元之间加权连接。 分类可以用来预测数据对象的类标记,然而在某些应用中,人们可能希 望预测某些空缺的或未知的数据值,而不是类标记。当被预测的值是数值数 据时,通常称之为预测。预测也包含基于可用数据的分布趋势识别。分类的 详细步骤在第三章介绍。 一聚类分析 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 与分类和预测不同,聚类( c l u s t e r i n g ) 分析数据对象而不考虑己知的类标 记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用 于产生这种标记。对象根据最大化类内的相似性、最小化类问的相似性的原则进 行聚类或分组。即对象的簇在形成过程中,使得在一个簇中的对象具有很高的相 似性,而与其他簇中的对象很不相似。所形成的每个簇可以看作一个对象类。由 它可以导出规则。聚类也便于分类编制,将观察到的内容组织成类分层结构,把 类似的事件组织在一起。 2 3 通过数据挖掘建立入侵检测模型 基于数据挖掘的入侵检测系统d m i d s 的系统结构示意图如图2 3 所示,其 中左列为系统的训练阶段,根据历史审计数据生成入侵检测的知识库:右列为实 际的入侵检测过程。 训l 练阶段: 图2 3 基于数据挖掘的入侵检测系统一般流程 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 数据源:按照需要的不同,数据源可以是网络数据,也可以是主机数据。 当网络数据流在网段中传输时,采用特殊的数据提取技术收集网络中传 输的数据,作为入侵检测中的网络数据源。基于主机的数据源主要包括 以下两种类型:操作系统的历史审计记录和系统日志,还包括基于应用 的审计信息和基于目标的对象信息。1 9 9 9 年美国国防部高级计划署 d a r p a 提供了用于基于网络的入侵检测系统评估的数据【2 0 l 包括了7 个 星期中大约5 0 0 万次会话,其中包含上百次攻击。同时该数据中也包含了 大量的t e l n e t 会话记录,也为生成基于s h e l l 命令的用户行为异常检测提供 了数据源。另外,u n m 和c e r t 提供了大量的有关主机系统调用序列的数 据【2 “。我们的研究工作中使用d a r p a 训练数据的8 0 的来进行规则库的 生成维护,其余2 0 的数据用来对该系统进行实验评估。 数据预处理及特征属性提取:将日志中的网络的数据包还原成基于传输 层的连接记录,从中提取出可以用于对传输层连接记录进行分类的特征 属性( f e a t u r e s ) 。对于在传输层无法判断的连接记录,则进行高层的协 议解析,按照服务类型分解成相应的会话( 例如f t pt e l n e t 等) ,针对每一 种高层协议,提取出可以用于判断的特征属性,得到用来生成规则的训 练数据。对于主机审计数据,则可以不用协议解析这一步,审计数据可 以直接用来进行关联分析和序列分析。 数据挖掘:针对不同的用途,采用不同的数据挖掘算法,生成可用于入 侵检测的规则,用来描述用户的正常行为、异常行为以及入侵行为。目 前存在许多现成的k d d 算法可以使用,但是这些都是通用算法,未考虑 任何领域知识,如果算法不加修改,运行会产生大量无意义的结果。实 际应用的时候应根据具体需求将基本算法进行扩展,使结果合理化。美 国哥伦比亚大学w l e e 研究组根据先验知识,在控制挖掘过程中,从t c p 会话记录中的各变量划分为轴心变量和参考变量 2 2 , 2 3 i ,用来对生成的规 则进行初步筛选。对于新发现的规则,除了判定其是否描述了攻击之外, 还需要根据它与规则库中已存在的规则之间的相似性度量闽值来决定是 否对规则库进行更新。我们采用c 4 5r u l e 算法对训练数据进行分类,并 对控制算法的过程进行了进一步的修正,改支持度为相对支持度( 针对 中山大学硕士学位论文基于数据挖掘技术的入侵检测模型构建 某一变量而言) ,避免了遗漏一些出现频率低但是比较重要的变量所对应 的规则。 入侵检测阶段: 数据源:对基于网络数据的入侵检测系统,通常用l i b p c a p 接口从链路 层获取数据帧,作为下一步处理的数据源。基于主机的数据源是操作系统的当前 审计记录和系统日志。 数据预处理及特征属性提取:与训练阶段的过程相同,该过程的输出结 果是用户的当前行为模式,并作为下一步入侵检测的输入。 入侵检测:将当前行为模式与根据训练阶段得到的正常、异常模式以及 入侵规则进行比较,判断出入侵是否发生,以及发生的是何种入侵。目 前各种分析技术都有发展,s n o r t $ 口b r o 系统采用的是简单模式匹配; n i d e sd i d s 和c m d s 等采用专家系统;而u s t a tn s t a t 等实现了状态 转移法,i d i o t 系统使用了着色p e t r i 网。而n f r 系统则实现了基于语言 应用程序接口的检测模型( n c o d e 语言) 。u n m 的s t e p h a n i ef o r r e s t 研究 组进行的针对主机系统调用的审计数据分析处理,提出短序列匹配算法 进行当前行为模式与历史行为模式的比较。 响应:系统作出报警、采取防护措施防止进一步入侵,以及记录日志等 不同的响应方法。同时,系统继续对当前用户行为或者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论