(计算机应用技术专业论文)基于数据挖掘的入侵检测技术研究(2).pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术研究(2).pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术研究(2).pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术研究(2).pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的入侵检测技术研究(2).pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的入侵检测技术研究(2).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络攻击手段的多元化和复杂化,单纯依赖防火墙等静态防御已经难以胜任网 络安全的需要。入侵检测作为一种主动的安全措施,可以有效地弥补传统安全防护技术 的缺陷。但是面对日益增长的网络流量和层出不穷的攻击方式,传统的入侵检测模型也 暴露出很多不足。本文引入当今的研究热点数据挖掘技术,从收集到的系统和网络行为 记录中挖掘出潜在的入侵信息,自动识别入侵模式,大大减轻了人工工作量,提高了检 测效率。 本论文主要作了如下的工作: 1 阐述了当前入侵检测系统的分类,系统全面地介绍了入侵检测系统的研究发展状 况,并分析了当前存在的问题。然后阐述了数据挖掘技术的分类,并对各个方法进行分 析。 2 研究了系统调用序列的异常检测,并建立一个基于m a r k o v 链的系统调用序列检 测系统。针对异常检测的实时性要求,推导出系统调用长序列的求解异常度的高效计算 方法。试验比较了单步、多步m a r k o v 链模型的检测能力。 3 针对网络记录的混合型数据集提出了一种基于聚类的q n i 检测算法,并给出了正 常模式和异常模式的划分原理和方法,相关试验表明该算法的实现效果是满意的。最后 分析了聚类方法在入侵检测领域中的具体应用方法。 4 最后提出一个综合检测系统序列调用和网络数据包的体系结构模型c r ,该模型 可以大大提高检测的准确率。 关键字:入侵检测;系统调用序列:马尔柯夫链;数据挖掘:聚类 a b s t r a c t w i t ht h ei n c r e a s i n gc o m p l e x i t ya n dd i v e r s i f i c a t i o no fn e t w o r ka t t a c k s ,s o l e l yr e l y i n go n s t a t i cd e f e n s i v es y s t e m ss u c ha sf i r e w a l l sa r eh a r d l ya d e q u a t et os a f e g u a r dc o m p u t e rs y s t e m s a sa p r o a c t i v es e c u r i t yt e c h n o l o g y , i d s ( i n t r u s i o nd e t e c t i o ns y s t e m ) i sc a p a b l e o f c o m p e n s a t i n g t r a d i t i o n a l s e c u r i t y d e f e n s e s y s t e m s s h o r t c o m i n g s c h a l l e n g e db y e v e r - i n c r e a s i n gn e t w o r kt r a f f i ca n da t t a c k i n gm e t h o d s ,h o w e v e r , an u m b e ro fd i s a d v a n t a g e s m a n i f e s tt h e m s e l v e si nt h er e a l mo ft r a d i t i o n a li d ss u c ha si n a b i l i t yt od e t e c tn e wf o r m so f a t t a c k s t h i sp a p e ra t t e m p t st oe x p l o r ei d sd m ( d a t am i n i n g ) t e c h n o l o g y , w h i c hh a sb e c o m e ar e s e a r c hf o c u si nr e c e n ty e a r s d mh e l p si d sd i s c o v e rh i d d e ni n v a s i o nt r a c e sf r o mc o l l e c t e d c o m p u t e ra n dn e t w o r kr e c o r d sa n dr e c o g n i z ei n v a s i o np a t t e r n s ,t h u sr e s u l ti nc o n s i d e r a b l y r e d u c e dm a n u a lw o r k l o a dy e ti n c r e a s e dd e t e c t i o nr a t e m a j o rw o r ki ss u m m a r i z e d a sf o l l o w s : 1 t h ec l a s s i f i c a t i o no fr e c e n ti d sm o d e l s ,t h ed e v e l o p m e n to fi d s ,t h ec u r r e n tp r o b l e m s i d si sf a c i n g ,a n dab r i e fi n t r o d u c t i o nt od m 2 d e t e c t i o no fo u t o f - o r d i n a r ys y s t e mc a l ls e q u e n c e am a r k o vm o d e lo fs y s t e mc a l l s e q u e n c ef o ri n t r u s i o nd e t e c t i o ni sb u i l t t a r g e t e d f o rt h er e a l - t i m e r e s p o n s i v e n e s so f a b n o r m a l i t yd e t e c t i o n ,a ne f f e c t i v ec o m p u t i n g m o d e li sb u i l tt od e t e r m i n et h em a g n i t u d eo f t h ea b n o r m a l i t yb a s e do nal o n gs y s t e mc a l ls e q u e n c e e x p e r i m e n t sa r ec o n d u c t e dt oc o m p a r e t i l ed e t e c t i o na b i l i t yo fo n e s t e pa n dm u l t i s t e pm a r k o vc h a i nm o d e l 3 a ni n n o v a t i v eq n id e t e c t i o na l g o r i t h mb a s e do nc l u s t e ri sp r o p o s e dt od e a lw i t h m i x e dd a t as e t t h ep r i n c i p l ea n dm e t h o d o l o g yo fc l a s s i f y i n gn o r m a la n da b n o r m a lm o d ei s g i v e na sw e l l t e s t ss h o wt h a tt h ep e r f o r m a n c eo ft h ea l g o r i t h mi sa c c e p t a b l e a l s o ad e t a i l e d a n a l y s i si sp r o v i d e do na p p l y i n gc l u s t e ra l g o r i t h m st oi d s 4 f i n a l l y , c r ,ac o m p r e h e n s i v ed e t e c t i o nm o d e li sp r o p o s e d c rc o m b i n e st h ea n a l y s i s o fs y s t e mc a l ls e q u e n c ea n dn e t w o r kd a t ap a c k e t ,a n di se x p e c t e dt og r e a t l ye n h a n c et h e a c c u r a c yo fi n t r u s i o nd e t e c t i o n k e yw o r d s :i d s ;s y s t e mc a l ls e q u e n c e ;m a r k o vc h a i n ;d a t am i n i n g ;c l u s t e r i n g ; 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取 得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得丞洼堡王太堂 或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 钮;杉 签字日期:彩年,月岁日 学位论文版权使用授权书 本学位论文作者完全了解丞洼理至太堂有关保留、使用学位论文 的规定。特授权丞洼堡王太堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编, 以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复本和电子 文件。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:髟觑j 耖 签字日期:多年月s 口 导师签名:奇仪厶 签字目期:加形年月,日 第1 章引言 第1 章引言 1 1 论文研究的背景及意义 随着网络技术在全球各个领域的深入发展,人们在得益于信息革命所带来的巨大方 面的同时,也不得不面对信息安全问题的严峻考验。由于系统安全脆弱性的客观存在, 操作系统、应用软件、硬件设备不可避免地会存在一些安全漏洞,网络协议本身的设计 也存在一些安全隐患,这些都为黑客入侵系统提供了可乘之机。据美国金融时报报道, 世界上平均每2 0 秒就发生一次入侵国际互联网络的计算机安全事件,仅美国每年因此 造成的损失就高达1 0 0 亿美元。 由于各种网络攻击的多元化和复杂化,单纯依赖防火墙等静态防御已难以胜任网络 安全的需要。首先,它们都属于静态安全技术范畴,不能主动跟踪侵入者;其次,防火 墙不能阻止内部袭击,而据统计,超过一半的攻击来自内部;第三,由于性能的限制, 防火墙通常不能提供实时的入侵检测i d ( i n t r u s i o nd e t e c t i o n ) 能力。 信息安全技术逐步打破常规方法,正朝着主动方向发展,以防火墙为主的安全架构 模式难以对付层出不穷的入侵技术,入侵检测技术可以弥补防火墙的不足。近年来,入 侵检测系统不仅成为网络安全研究热点,而且具有广阔的市场前景。入侵检测系统i d s ( i n t r u s i o nd e t e c t i v es y s t e m ) 作为安全检测的最后一道防线,通过将实时的捕捉和分析系 统与网络监视系统相结合,对计算机和网络资源上的恶意使用行为进行识别和响应,是 安全防御体系的一个重要组成部分,针对i d s 方法和技术的研究工作已经引起越来越多 的重视。入侵检测系统已经普遍被认为是网络防火墙的补充,扩展了系统管理员的安全 管理能力,包括安全审计、审视、攻击识别和响应。 当今网络,网络犯罪日益严重,因此保障网络系统的安全,给广大计算机用户一个 洁净的网络环境已是当务之急。网络安全已成为国家与国防安全的重要组成部分,没有 网络安全就没有社会信息化,如何争取在信息战中取得主动权,保护国家信息安全,是 刻不容缓的研究课题,也是在未来信息社会中能够生存的必由之路。综上所述,致力于 入侵检测技术的研究具有非常重要的社会意义和现实意义。本论文工作旨在针对当前入 侵检测系统关键技术进行系统、深入地研究,以便给后续研究和产品开发以借鉴。 1 2 1 入侵检测系统历史及现状 1 2 入侵检测系统 j a m e se a n d e r s o n 在技术报告“c o m p u t e rs e c u r i t yt h r e a rm o n i t o r i n ga n ds u r v e i l l a n c e ” 中首次提出了入侵与入侵检测的基本框架的概念f i j ,而真正提出入侵检测模型的是 d o r o t h yd e n n i n g 【2 j ,d e n n i n g 给出了入侵行为可检测条件,即系统能够为正常用户行为 自动建模,当某操作行为明显偏离正常模型时,系统认为处于异常状态并存在入侵可能。 同时,他还建立了几个基于统计学的模型,并在后来的i d e s 项目的最初原型中得到运 用,详细描述参见文献【3 1 ;i d e s 完善后的版本n i d e s 于1 9 9 5 年开发完成,此系统可以 第1 章引言 检测多个主机上的入侵m 】。1 9 8 8 年s c b f i n g 等人提出了m i d a s 系引“,以异常行为规 则为中心建造专家系统,对已知入侵行为编码,通过审计数据完成检测功能。此后,i b m z u r i c h 研究实验室、c o m p a q ,c i s c o ,s r ii n t e r n a t i o n a l ,h a y s t a c kl a b s ,n e t w o r kf l i g h t r e c o r d e r 等公司和麻省理工学院l i n c o l n 实验室、普渡大学c o a s t 实验室、l a w r e n c e b e r k e l e yn a t i o n a ll a b o r a t o r y 、加州大学s a n t ab a r b a r a 分校、加州大学d a v i s 分校、卡耐 基一梅隆大学软件工程研究所、北卡罗来纳州州立大学、瑞典c h a l m e r su n i v e r s i t yo f t e c h n o l o g y 等研究机构都分别进行了入侵检测研究,提出了各自相应的检测模型。 入侵检测模型是对危及系统安全,即对系统保密性、完整性和可用性的恶意行为的 识别和反应过程,其基本前提条件有两个: 用户和程序行为是可见的; 正常和入侵行为具有截然不同的迹象。 1 2 2 入侵检测的分类 目前,入侵检测方法主要分为误用检测( m i s u s ed e t e c t i o n ) 、异常检测( a n o m a l y d e t e c t i o n ) 7 , 8 , 9 l : 误用检测 误用检测是通过将预先设定的入侵模式与实时监测到的入侵情况进行模式匹配来 检测的方法。它事先精确地将入侵攻击按某种方式编码,并通过实时捕获入侵攻击将其 重新分析整理,确认该入侵行为是否为已知的攻击模式。误用检测模型针对性地建立了 高效的入侵检测系统,检测精度高,误报率低,但它对未知的入侵活动或己知入侵活动 的变种的检测性能较低。误用监测根据匹配模式的构造和表达方式的不同,形成了不同 的误用检测模型1 1 。 1 、基于规则的专家系统模型 最早出现的误用检测大部分都是基于规则的专家系统,系统开发人员将已知的入侵 行为特征编码成规则构建规则库,通过将监测到的审记记录与规则相匹配来检测入侵。 专家系统是以专家的经验性知识为基础建立的、以知识库和推理机为中心的智能软件系 统。在这些系统中,入侵行为被编码成专家系统的推理规则,每个规则具有“i f 条件 t h e n 动作”的形式。检测模型的主要代表为美国s r i 实验室开发的入侵检测专家系统 ( i d e s ) ,它采用基于规则的通用专家系统p ,b e s t i l l 】。基于专家系统的入侵检测模型对 已知入侵和系统安全漏洞检测的精度高,而对于未知行为不能进行有效检测;同时系统 更新困难,系统开发的人为因素较大。 2 1 基于状态迁移分析的检测模型 入侵行为是由攻击者执行的一系列行为操作组成,这些操作可将系统从某些初始状 态迁移到危及系统安全的状态。其中,状态是指系统某一时刻的特征( 由一系列系统属 性来描述1 ,是此时刻所有用户、进程和系统数据的函数。初始状态对应于入侵开始前 的系统状态,危及系统安全的状态对应于已成功入侵时刻的系统状态。在这两个状态问, 则可能存在一个或多个中间状态的迁移。在识别出初始状态、危及系统安全的状态后, 第1 章引言 检测多个主机上的入侵l 4 , 5 1 9 8 8 年s c b r i n g 等人提出了m d a s 系统1 6 1 ,以异常行为规 则为中心建造专家系统,对已知入侵行为编码,通过市计数据完成检测功能。此后,i b m z u r i c h 研究实验室、c o m p a q ,c i s o d ,s r ii n t e m a t i o r t a l ,h a y s t a c kl a b s ,i 4 e t w o r kf i t 曲t r e c o r d e r 等公司和麻省理工学院l i n c o l n 实验室、普渡大学c o a s t 实验审、l a w r e c e b e r k e l e yn a t i o n a ll a b o r a t o r y 、加卅大学s a n t ab a r b a r a 分校、加州大学d a v i s 分校、卡耐 基梅隆大学软件工程研究所、北卡罗来纳州州立大学、瑞典c h a l m e r su n i v e r s i t yo f t e c h n o l o g y 等研究机构都分别进行了入侵检测研究,提出了各自相应的检测模型。 入侵检测模型是对危及系统安全,即对系统保密性、完整性和可用性的恶意行为的 识别和反应过程,其基本前提条件有两个: 用户和程序行为是可见的; 正常和入侵行为具有截然不同的迹象。 1 2 2 入侵检测的分类 目前,入侵检测方法主要分为误用检、坝u ( m i s u s ed e t e c t i o n ) 、异常检淝u ( a n o m a l y d e t e c t i o n ) 7 , 8 , 9 】: 误用检测 误用检测是通过将预先设定的入侵模式与实时监测到的入侵情况进行模式匹配柬 检测的方法。它事先精确地将入侵攻击按某种方式编码,并通过实时捕获入侵攻击将其 重新分析整理,确认该入侵行为是否为已知的攻击模式。误用检测模型针对性地建立了 高效的入侵检测系统,检测精度高,误报率低,但它对未知的入侵活动或己知入侵活动 的变种的检测性能较低。误用监测根据匹配模式的构造和表达方式的不同,形成了不同 的误用检测模型【1 0 】。 1 、基丁规则的专家系统模型 最早出现的误用检测大部分都是基于规则的专家系统,系统开发人员将已知的入侵 行为特征编码成规则构建规则库,通过将监测到的审记记录与规则相匹配柬柃测入侵。 专家系统是以专家的经验性知识为基础建靠的、以知识库和推理机为中心的智能软件系 统。在这些系统中,入侵行为被编码成专家系统的推理规则,每个规则具有“i f 条件 t h e n 动作”的形式。检测模型的主要代表为美国s r i 实验室开发的入侵检测专家系统 ( i d e s ) ,它采用基于规则的通用专家系统p - b e s t t “j 。基于专家系统的入侵检测模型对 已知入侵和系统安全漏涮检测的精度高,而对于未知行为不能进行有效检测;同时系统 更新困难,系统开发的人为因素较大。 2 1 基于状态迁移分析的检测模型 入侵行为是由攻击者执行的一系列行为操作组成,这些操作可将系统从某些初始状 态迁移到危及系统安全的状态。其中,状态是指系统某- - n , 刻的特征( 由一系列系统属 性来描述1 ,是此时刻所有用户、进程和系统数据的函数。初始状态刘应于入侵开始前 的系统状态,危及系统安全的状态对应于已成功入侵时刻的系统状态。在这两个状态间, 则可能存在一个或多个中间状态的迁移。在识别出初始状态、危及系统安全的状态后, 则可能存在一个或多个中间状态的迁移。在识别出初始状态、危及系统安全的状态后, 第1 章引言 主要应分析在这两个状态之间进行状态迁移的关键活动,可用类似有限状态机的状态迁 移图来描述状态间的迁移信息。u s t a t 1 2 , 1 3 系统就使用了状态迁移分析的方法进行实时 入侵检测。 状态迁移分析主要考虑入侵行为的每步对系统状态迁移的影响,它可以检测出协 同攻击和利用用户会话对系统进行攻击的行为,而且因为状态转移图利用使入侵成功发 生的最小属性子集,因此可检测到增加不相关动作的入侵变异;但同时由于复杂入侵攻击 模式的事件序列条件可能不满足,会导致检测能力的降低。 3 1 基于模式匹配的检测模型 p e t r i 网是研究离散事件动态系统的有力工具,以研究模型系统的组织结构和动态行 为为目标,着眼于系统可能发生的各种状态变化及其变化间的关系。p e t r i 网适用于表示 系统变化发生的条件及变化后的系统状态,常用于构造系统模型及进行动态特性分析。 通常,p e t r i 网的结构元素包括:位置、变迁和弧,位置用于描述可能的系统局部状态f 条 件或状况) ;变迁用于描述修改系统状态的事件;弧使用两种方法规定局部状态和事件 间的关系:它们引发事件能够发生的局部状态:由事件所引发局部状态的转换。在p e t r i 网模型中,标记包含其所在位置中的动态变化以表示系统的不同状态。p e t r i 网模型的状 态转换是局部的,它仅涉及一个变迁通过输入和输出弧连接位置的变化,利用这个特性 可以用来描述并行分布系统。 使用着色p e t r in ( c o l o r e dp e t r in e t w o r k ) 来描述入侵者的攻击模式,着色p e t r i 网是 用节点代表状态,边表示状态间迁移的有向图。图中表示迁移的边可附加某些用表达式 描述的操作。在发生状态迁移时,这些表达式允许对一些符号的局部变量进行赋值。着 色p e t r i 网可有多个初始状态,但只能有一个终结状态。开始匹配时,每个初始状态放 一个标记,每个着色p e t r i 网可能拥有一组与它有关的变量,用于描述状念变迁的上下 文。普渡大学c o a s t 实验室的i d i o t ( i n t r u s i o nd e t e c t i o ni no u rt i m e ) 模型,就是基于 此方法而研制的入侵检测系统1 1 4 , 1 5 l 。此模型仍然对已知行为特征敏感,而对未知入侵或 攻击由于缺乏相应的模式与之匹配,造成检测的有效性较低。 4 ) 基于人工神经网络的检测模型 人工神经网络的诸多良好特性对于入侵检测研究来说,是十分有用的:1 具有较强 的容错性,能够识别带有噪声的输入模式;2 具有较强的自适应学习能力;3 能够把识 别和预处理融为一体;4 采用并行工作方式,识别速度快;5 对信息采用分布式记忆方 式,信息不易丢失,有鲁棒性。 神经网络的容错性便于神经网络分析各种日志和网络数据,因为这些数据常常是不 完整或有一定失真的;其固有的速度也是非常重要的,因为保护计算资源需要对攻击及 时定义,神经网络的处理速度可以在无法挽回的破坏发生前对入侵作出反应;神经网络 的输出是概率形式表示,它给出的是对误用检测的预测,因此,基于神经网络的误用检 测模型所确认的特定事件或事件序列是攻击的可能性;神经网络可以通过学习获得检测 经验,以提高辨认攻击过程中攻击事件可能发生的位置的能力,如果的确是入侵企图, 则该信息可用于引发一系列相应处理事件。通过跟踪这些事件后继的事件,系统能提高 分析事件的能力并能在攻击成功前采取相应的防护措施。除此之外,神经网络还可以学 第1 章引言 习误用攻击的特性并确认以前未观察到的行为实例,通过训练神经网络使其具备较高的 检测率。当攻击的概率超过模型指定门限时,系统将给出存在威胁的警示标志。 j a m e sc a n n a d y 提出了将神经网络应用于误用检测的两种方法i ”】,g r o s h 也对人工 神经网络应用于误用检测进行了研究【1 7 】。此外也有利用b p 算法和改进b p 算法进行入 侵检测的相关研究【1 8 】。 5 1 基于遗传算法的检测模型 t e x a s 大学的n e d a a 应用遗传算法来为网络流量的监视获得规则【”】,这些规则能 将正常网络连接和异常网络连接区别开来:最初种群中的规则是随机规则,规则中包含 染色体,而染色体由基因组成,基因的取值可以是数字或通配符:当规则中所有非通配 符基因与连接中相应的域匹配时,则规则与当前连接匹配。通过将规则不断地进化,目 标函数演化出只与异常连接匹配的规则,规则的形式为i f ( p a t t e mm a t c h e d ) t h e n ( g e n e r a t e a l e r t ) 。与传统的遗传算法不同,传统的遗传算法寻找的是全局的单个最优解, 而在规则集里,单条规则是不够的,规则集中需要能识别不同类型的异常规则,因此需 寻找多个局部次优解。同时,l a d o v i c 也利用遗传算法建立g a s s a t a 检测模型【”】。 异常检测 异常检测是利用已建的正常用户和系统的行为特征来检测当前行为的背离度,以确 定当前行为是否为入侵行为1 2 ”。实际中,入侵性活动并不等同异常活动,存在4 种可能 情况:1 入侵但非异常;2 非入侵但异常;3 非入侵且非异常;4 入侵且异常。因此,异 常入侵要解决的问题就是构造异常活动集并从中发现入侵性活动子集。此检测模型与系 统相对无关,通用性较强,能够检测出新的和未知的入侵攻击行为,但因存在对整个系 统的所有用户行为描述的完备性问题,其检测的误报率较误用检测高。异常检测主要包 含以下检测模型: 1 1 基于统计的检测模型 异常检测思想最早由d e n n i n g 提出,即通过监视系统审计记录中系统使用的异常情 况,可以检测出违反安全的事件。d e n n i n g 建立的这种模型独立于任何特定的系统、应 用环境、系统弱点、入侵类型,因而是具有普遍意义的入侵检测模型。该模型包括主体、 客体、审计记录、表征、异常记录和活动规则5 个部分。表征是用度量和统计模型来表 示主体相对于客体的正常行为。d e n n i n g 提出的模型定义了3 种度量,即事件计数器、 间隔定时器、资源测量器,并提出了5 种统计模型,即可操作模型、均值和标准差模型、 多变量模型、马尔柯夫过程模型和时间序列模型。该模型通过对系统审计数据的分析, 建立起系统主体f 单个用户、一组用户、主机甚至是系统中某个关键程序和文件等) 的基 于统计的正常行为特征表述;进行检测时,检测模型将系统中的审计数据与已建立的主 体正常行为特征表述相比较,若相异部分超过设定阈值,即判断该行为是入侵行为。特 征表述借助主体的登录时刻、登录位置、c p u 的使用时间以及文件存取等属性来描述它 的正常行为特征。当主体的行为特征改变时,对应的特征表述也相应改变。该模型的提 出奠定了异常检测的基础,以后发展的许多异常检测方法和系统都是以它为基础而发展 起来的。基于统计的检测模型对于检测外部入侵有较好的效果,但未考虑入侵事件的顺 序,未考虑攻击或入侵行为对检测系统的学习适应性,同时其阈值的合理设计较为困难。 4 第1 章引言 基于统计的异常检测技术发展较早,也是相对成熟的异常检测技术。实用的入侵检 测系统大部分部采用了这种技术作为它们的关键技术之一。s r i 研究的最早入侵检测专 家系统i d e s 就采用了基于统计的异常检测技术【矧。后来s r i 将i d e s 原型机发展到具 有产品质量的检测系统,即下一代入侵检测专家系统n i d e s 。 2 ) 基于贝叶斯推理的检测模型 基于贝叶斯推理的异常检测模型是通过任意给定时刻测量4 ,4 | ,变量值,推理判 断系统是否有入侵事件发生。其中每个4 变量表示系统不同方面的特征( 如磁盘i o 的活 动数量,或者系统中页面出错的数量1 。假定4 变量有两个值,1 表示异常,o 表示正常。 ,表示系统当前遭受入侵攻击。在给定每个4 值的条件下,由贝叶斯定理得出,的可信 度为: 即川;芈嚣箦产 ( 公式1 1 ) 又假定每个异常变量4 仅与,相关,且与其他的测量条件4 无关,则有 p ( 1 1 4 ,4 ,以)p 【4 ,4 ,4i i ) t p ( j ) p ( - i1 4 ,4 ,4 ) e ( 4 ,4 ,4 li - 1 ) * e ( - 1 ) f 公式1 ,、 、一, 因此,根据各种异常测量值、入侵的先验概率及入侵发生时每个测量到的异常概率, 能够检测判断入侵的概率。但为了检测的准确性,还须考虑各个4 之间的独立性。这可 通过相关性分析,确定各个异常变量与入侵的关系。 3 1 基于人工免疫的检测模型 人工免疫系统在信息处理方面有优异特性,具备与生物免疫系统相似的多样性、分 布计算性和容错性,动态学习、适应和自监控能力,能以分布式并行完成复杂计算任务, 能学习新信息和记忆以前学习过的信息,并能执行模式识别,通过分布式检测和反应机 制完成对外部入侵的响应。考虑到计算机安全与自然免疫行为具有相似特性,免疫机制 开始被运用到计算机安全领域的研究。f o r r e s t 等人最早进行此领域研究,他们将计算机 病毒防护抽象为鉴别自身与危险个体的过程,用以检测重要数据和程序文件的更改,同 时用于监控计算机系统的外部入侵【2 3 ,2 4 ,2 5 , 2 6 】。 4 、基于系统调用的检测模型 早期的大多数异常检测技术是利用用户行为建立特征表述,当基于用户行为的活动 表述与正常表述发生偏离时便认为可能有入侵发生。但f o r r e s t 等人提出了一个简单的 异常检测方法,该方法是基于监视由特权程序使用的系统调用来进行检测的【2 ”。 他们认为存储在磁盘上的程序代码不运行就不会对系统造成损害,系统损害主要是 由执行系统调用的正运行的特权程序所引起的,故应将研究注意力放在监视特权进程 上。他们发现每个进程对应于一个轨迹即从开始执行到进程结束期问使用系统调用的顺 序列表1 ,虽然同一个程序在不同条件下执行所产生的轨迹数目很多,但这些轨迹的局 部模式( 短序列) 却表现出一定的一致性。因此f o r r e s t 等人认为一个程序的正常行为 可由其执行轨迹的局部模式( 短序列) 来表征,而与这些模式的偏离可认为是入侵行为。 第l 章引言 这种方法有两个重要特点:1 一个程序正常执行时,轨迹的局部模式具有一致性; 2 当利用程序的安全漏洞时会产生一些异常的局部模式。他们提出了个时延嵌入序列 ( t l d e ) 方法,通过列举现在训练数据中所有唯一的、预先指定长度k 的连续序列来构造 程序正常行为表述数据库。当选择序列长度为k 时,将长度为k 的窗口通过每个正常 轨迹,一次滑动一个系统调用并向正常表述库中添加唯一的序列。建立这样的数据库表 述只需要次遍历数据。为了节省存储空间和加速比较,将序列采用树状存储;检测时, 将检测轨迹的序列与正常数据库表述中的序列相比较,在数据库中找出不匹配序列,任 何不匹配情形都说明该序列是没包括在正常训练数据库表述序列,它可能是异常行为。 通过统计不匹配次数,并计算出不匹配序列占总序列的百分比,将此与预设阈值比较, 可判断程序执行是否正常。该项技术对u n i x 的程序s e n d m a i l ,l p r 和f t p d 等均有效。 近来,研究人员相继提出了基于系统调用的统计异常检测模型,其中包括序列时延 嵌入法( s t i d e ) 。该模型认为局部区域的不匹配数目能较好地表征异常行为,可把出现 在局部区域的不匹配数目作为异常行为的度量指标。此外还有基于频率的方法如 n g r a m v e c t o r 法,有限状态机的方法如隐马尔可夫模型h m m i 驯的使用等。 1 3 1 数据挖掘的提出 1 3 数据挖掘 由于网络技术、数据库技术、硬件实现技术的进步,使得大量信息能够置于计算机 中进行高效检索和查询。w e b 技术的出现促进了利用超文本格式将文字、图像等信息汇 于一体,丰富了信息资源。增强了信息产生和数据搜集能力。因此,成千上万的数据库 应用于商业管理、行政办公、科学研究和工程开发,而系统存储的海量历史数据又引发 了新问题。因此从数据库中发现知识k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 的其核心技 术一数据挖掘d m a t am i n i n g ) 应运而生。 知识发现包括四个主要阶段:数据采集选择、数据预处理、数据挖掘和解释评价。 数据挖掘是知识发现的一个特定的关键阶段,知识发现是其中的一个或多个阶段的反复 过程。实际系统中收集到的原始数据存在杂乱性、重复性及不完整性,数据采集选择是 辨别所需分析的数据集合,缩小数据处理范围:数据预处理主要包括数据清理( d a t a c l e a n i n g ) ; 1 特征子集选择( f e a t u r es u b s e ts e l e c t i o n ) 两方面,其功能是处理数据中的遗漏、 脏数据以及特征子集选择问题;数据挖掘阶段进行实际挖掘操作,在驱动发现型 f d i s c o v e r y d r i v e n ) 和驱动验证型( v e r i f i c a t i o n d r i v e n ) 挖掘中进行判断,然后选择合适方 法运行;解释评价的任务是对挖掘结果采用合适方式给以表达,包括可视化技术、信息 过滤、信息综合等,当输出结果不满意时可重复k d d 的某个或几个过程。 综上可知,数据挖掘是源于大型零售商面对决策支撑问题而提出州”j ,是从大量的、 不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。 第1 章引言 1 3 2 数据挖掘基本方法及应用 通常数据挖掘方法是根据知识类型进行论述,主要包括关联规则分析、分类规则 分析、聚类规则分析。 关联规则分析 关联规则分析是分析数据间隐含关联关系的工具,关联规则的形式描述如下【3 0 , 3 1 】: 项目集j 表示所有项目f i t e m ) 集合,d 表示所有事件( t r a n s a c t i o n ) 集合,r 表示事件集中 的某个事件,每个事件是某些项目的集合,z ,。设x 和y 为项目子集,x c i ,y , x n y 。0 ,如果x r ,称丁支持盖,其支持度s u p p o r t ( x ) = ( x 在d 中出现的次数 占总次数比例) ;置信度c o n f i d e n c e ( x y ) = 在d 中出现x 的事件集合中y 出现次 数占总次数的比例,。 关联规则表示为x _ y ,若s u p p o r t ( x - - , y ) 2 m i ns u p 且c o n f ( x - - y ) r a i n _ c o n f , 称规则x y 为关联规则。关联规则能发现形如“9 0 用户在一次购买活动中购买商品 x 的同时购买商品y ”之类的知识。 分类规则分析1 3 2 , 3 3 】 分类规则分析是数据挖掘领域重要的研究课题之一,目前分类分析集中应用在海量 数据实时分类算法设计方面。给定实例记录,即训练集,每个记录由多个属性构成,属 性分为连续型和分类型。分类分析目标是建立基于属性的分类属性模型。 分类分析广泛应用于各个领域,如零售业、欺诈检测、病理诊断等,目前己有多种 分类分析模型得到应用,包括线性回归模型、决策树模型、神经网络模型、遗传算法等, 在这些模型中由于决策树模型构造快捷,易于理解而且能够有效转换为s q l 语句的高 效访问数据库,精度较高,可采用并行算法实现。 聚类规则分析 聚类规则分析是根据指定的相似度准则,对目标数据集进行划分,同一聚类中的对 象尽可能相近,不同聚类之间的对象尽可能相异,主要分为层次型聚类和划分型聚类。 分类与聚类的区别在于:分类是将分类规则应用于数据对象,而聚类是发现隐含于混杂 数据对象的分类规则,分别代表有监督学习和无监督学习两类方法。不同聚类方法对于 相同记录集合可能得出不同的划分结果,聚类算法通常关注聚类精度,而对算法扩展性 问题考虑不多。主要的聚类算法包括:b i r c h 聚类,它在扩展性方面取得了进展,而 且在处理噪声方面进行了研究【3 4 ;c l a r a n s 聚类,它适用于大规模应用的随机搜索算 法( 3 5 】;c u r e 聚类,它针对大型数据库采用随机取样和划分方法进行聚类【3 6 1 。 自从数据挖掘思想提出以后,i b m a l m a d e n 研究中心、i b m t j w a t s o n 研究中心、 m i c r o s o f t 、加拿大s i m o nf r a s e r 大学、斯坦福大学、u n i v e r s i t yo fw i s c o n s i r r - m a d i s o n 等 研究机构投入大量工作迸行研究,将概率统计、粗糙集理论、计算智能引入挖掘算法, 从数据预处理、特征子集选择、算法设计、后处理到知识可视化表达整个过程全面研究, 得到大量的论文和成果。我国数据挖掘理论研究进展也较快,中科院和许多高校均开展 了数据挖掘领域的研究工作,取得了一定的研究论文和成果p7 ,“】。 第1 章引言 1 3 3 将数据挖掘引入入侵检测研究 国际上入侵检测研究已经进行了多年,各研究机构和公司研制的检测系统针对已知 入侵行为检测精度高,误报率较低;但对于未知攻击之入侵模式其检测率和误报率的结 果均不能令人满意。大部分商业检测系统考虑检测效率问题,但具体到实际应用时,还 需考虑系统成本问题,包括研发成本、使用成本等,导致了许多商业产品集中于误用检 测性能研究方面,而对于异常检测还处于研究阶段。 传统的基于知识的入侵检测系统需要安全领域专家首先将攻击行为和系统弱点进 行分类,针对检测类型选择统计方法,然后人工进行代码输入,建立相应的检测规则和 模式。相对于复杂的网络系统而言,领域专家的知识随着时间和空间变迁其局限性突显, 因此对提高入侵检测模型的检测有效性是不利的。 领域专家通常关注已知的攻击行为特征和系统弱点,对其进行分析研究,造成检测 模型对于未来系统面临的更多的未知入侵缺乏适应能力:而安全系统升级周期长,费用 高,对于提高入侵检测模型的检测适应性是不利的。 由于专家规则和统计方法通常需要专用的软、硬件平台支撑,阻碍了系统在新环境 下的重用和制定,同时造成嵌入新的检测功能模块困难,这对于提高入侵检测模型的可 扩展性是不利的。 因此如何建立具有较强的有效性、自适应性、可扩展性的入侵检测模型成为入侵检 测领域中重要的研究课题。哥伦比亚大学l e e 等人提出以数据为中心的思想,利用数据 挖掘在有效利用信息方面的优势,将入侵检测视为一类数据分析过程,研究审计数据建 模的可于亍性和有效性,并构造出检测模型【3 9 ,柏】。与此同时,哥伦比亚大学、纽约州立大 学、佛罗里达理工学院相继将数据挖掘引入入侵检测进行研究。 尽管将数据挖掘引入入侵检测研究,以此建立的检测模型在适应性和可扩展性方面 具有优势并得到实验验证,但进行检测时仍存在一定困难: 检测有效性方面,此类模型通过训练集中的行为特征学习,对已知入侵厥击行为 具备较高的检测率和较低的误报率;而对于未在训练集出现的和全新的入侵行为,则出 现较低的检测率和较高的误报率,这种现象对于大多数检测模型有普遍性,因此如何提 高检测算法和模型对未知入侵检测的有效性是急待解决的关键问题。 检测效率方面,由于现有入侵检测中的数据挖掘算法需要对大量已标识的历史数 据进行训练学习,然后才能进行测试数据集的检测,造成了对训练集数据的强烈依赖性, 训练集数据的分布特征决定了检测算法的性能;而训练集数据的获取及其真实性在现实 环境中不能完全保证,造成了检测模型较高的计算成本和相对局限性。 本文正是基于上述研究背景下,开展了基于数据挖掘的网络入侵检测研究,以提高 检测算法对未知入侵检测的有效性为目标,从检测率和误报率两个重要指标出发,针对 数据挖掘中存在问题提出相应的改进算法。 第2 章系统调用序列的异常检测 第2 章系统调用序列的异常检测 2 1f o r r e s t 的研究 s t e p h a n i ef o r r e s t 等人在1 4 1 , 4 2 1 中提出了通过监控系统中的特权进程的调用来检测入 侵检测的方法。依据是进程行为是由它发出的系统调用序列的统计特性来描述的,对应 于正常行为和异常行为的系统调用序列的统计特性是不同的,如果某进程发出的序列的 统计特性和正常行为的统计特性有足够差别,则可以确定该进程异常。f o r r e s t 介绍的短 序列法是在系统中先建立一个所有短正常系统调用序列的表,然后将被监视进程的系统 调用序列和表中的各个短序列进行匹配,如果匹配的比例足够大,则可以认为该进程正 常,否则认为异常。如果正常的系统调用序列是o p e n ,r e a d ,m m a p ,m m a p ,o p e n ,g e t f l i m i t ,m m a p ,c l o s e ,并且 c a l lp o s i t i o n lp o s i t i o n 2p o s i t i o n 3 o p e n r e a d m m a pm m a p g e t r l i m i t e l o s e r e a dm m a pm m a po d e n s m m a pm m a po p e ng e t r l i m i t o p e ng e t r l i m i tm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论