




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在入侵检测中的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着网络的复杂性不断提高,网络安全也越来越受到关注,为更全面的保护 网络不受攻击,需要能及时发现恶意行为,并在这种行为对系统或数据造成破坏 之前采取措施,入侵检测系统应运而生。入侵检测系统以数据分析为核心采用主 动防御的策略,已经成为网络安全的一道重要屏障。入侵检测作为一种主动的信 息安全保障措施,有效地弥补了传统安全防护技术的缺陷。数据挖掘作为数据分 析的有效手段自然被引入到入侵监测系统的构建当中,基于数据挖掘的入侵检测 系统也成为一个新的研究领域。 本文以基于数据挖掘方法的入侵检测技术研究为核心,首先对数据挖掘技术 和入侵检测技术进行了研究和分析,探讨了数据挖掘方法中聚类算法在入侵检测 中的应用,在此基础上,提出了一种改迸的模颧c 一均值聚类算法。其基本思想 是:将马l 无( m a h a l a n o b i s ) 距离引入到算法当中,以及在算法中使用矩阵化输入向 量来优化算法以适应更多的数据模式。 在本文中,分析了入侵检测技术的要点,提出了一种基于改进f c m 算法的 网络入侵检测方法。该方法的优点是不需要标示或训练数掘集。文中使用k d d 9 9 数据集作为实验数据,实验结果显示该方法检测未知入侵检测是有效的,而且它 提高了入侵检测系统的检测率和误警率。 关键词:入侵检测数据挖掘,模糊聚类,模糊c 均值聚类( f c m ) 算法 a b s t r a c t t h en e t w o r kc o m p l e x i t yi so nt h ei n c r e a s e t h en e t w o r ks e c u r i t yi sb e i n gp a i d c l o s ea t t e n t i o nt o w en e e das y s t e mw h i c hc a l lf i n dh o s t i l i t yb e h a v i o ra n dt a k ea c t i o n b e f o r ei td oh a r mt ot h es y s t e ma n dd a t e ,s oi n t r u s i o nd e t e c t i o ns y s t e mw i l lg i v ep l a y t oi r r e p l a c e a b l ef u n c t i o n i n t r u s i o nd e t e c t i o nh a sb e c o m ea s t r o n gb a r r i e rt od e f e n dn e t i n t r u s i o nb e c a u s eo fi n i t i a t i v er e c o v e r ys t r a t e g yo ff o c u s i n go nd a t aa n a l y z i n g a sa k i n do fa c t i v em e a s u r eo fi n f o r m a t i o na s s u r a n c e i n t r u s i o nd e t e c t i o na c t sa st h e e f f e c t i v ec o m p l e m e mt ot r a d i t i o n a lp r o t e c t i o nt e c h n i q u e s d a t am i n i n g ,a ne f f e c t i v e t e c h n i q u ei n d a t aa n a l y z i n g ,i s n a t u r a l l ya p p l i e di ni n t r u s i o nd e t e c t i o nt h e r e f o r e , r c s e a r c h i n go fi n t r u s i o nd e t e c t i o ns y s t e mb a s i n go nd a t am i n i n gb e c o m em o r ea n d m o r eh o t t h ec o r eo ft h i st h e s i si st h er e s e a r c ha n da p p l i c a t i o no fd a t a - m i n i n gb a s e d i n t r u s i o nd e t e c t i o ns y s t e m t h ee x i s t i n gd a t a m i n i n gt e c h n o l o g ya n di n t r u s i o n d e t e c t i o ns y s t e mt e c h n o l o g yw e r ea n a l y z e da n dc o m p a r e d ,t h ec l u s t e r i n ga l g o r i t h m w a sd i s c u s s e d a n dt h ea d v a n t a g e so ft h et e c h n o l o g yw e r ei n d i c a t e d ai m p r o v e d f u z z yc - m e a n sc l u s t e r i n ga l g o r i t h mi sp u tf o r w a r d t h eb a s i ci d e ao ft h ea l g o r i t h mi s u s i n gm a h a l a n o b i ss p a c ea n dm o d i f i e db yc h a n g i n gt h eo b j e c tv e c t o rt om a t r i xt o a d a p t e da l g o r i t h mt om o r ed a t am o d e l i nt h i sp a p e r , w ea n a l y z et h ec h a r a c t e r i s t i co ft h ei n t r u s i o nd e t e c t i o nt e c h n i q u e , a n db r i n gf o r w a r da p p r o a c ho fn e t w o r ki n t r u s i o nd e t e c t i o nb a s e do nt h ei m p r o v e d f u z z yc m e a n sc l u s t e r i n g t h eb e n e f i to ft h i sa p p r o a c hi st h a ti tn e e dn o tl a b e l e d t r a i n i n gd a t as e t s u s i n gt h ed a t as e t so f k d d 9 9 ,t h ee x p e r i m e n tr e s u l ts h o w st h a tt h i s a p p r o a c hc a nd e t e c ta n k n o w ni n t r u s i o n se f f i c i e n t l y , a n di n c r e a s ed e t e c t i o nr a t eo ft h e c l u s t e r i n gd e t e c t i o na n dd e c r e a s et h ef a l s ea l a r m sr a t e k e yw o r d :i n t r u s i o nd e t e c t i o n , d a t am i n i n g ,f u z z yc l u s t e r i n g ,f u z z yc m e a n s ( f c m a l g o r i t h m 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究i :作和瞅得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得云壁至些太堂或其他教育机构的学位或迁转丙使 用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 学位论文作者签名:记也铭 签字e t 期:2 一q 年1 月2 拍 学位论文版权使用授权书 本学位论文作者完全了解云洼王些盔堂有关保留、使_ j 学位论文的规定。特 授权丞洼王些太堂可以将学位论文的全部或部分内容编入有芙数据库进行检索, 并采用影印、缩印或扫描等复制平段保存、汇编以供查阅和借阅。同意学校向国家 有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:油世挠 签字日期:z , o 。7 年f 月2 珀 导师签名:甥 j 锣竞 签字日期:乃彩年,月矽r 学位论文的主要创新点 一、将马氏( m a h a l a n o b i s ) 距离和矩阵化输入向量应用于传统的数据挖掘聚 类f c m 算法中得到改进后的f c m 算法,并且在不同的数据集中迸行 了测试,得出改进后的算法具有很好的聚类效果。 二、设计仿真试验,利用改进后的f c m 算法在用于入侵检测的网络数据 集k d d c u p 9 9 上试验,得出将模糊聚类算法应用于入侵检测中具有很 好的检测率和较低的误警率。 第一章绪论 第一章绪论 1 1 课题的研究背景、目的和意义 随着计算机技术与通信技术的发展,计算机网络的发展和各种技术的 应用,使得计算机网络本身已经成为了信息社会最重要的基础设施之一, 它渗透到了社会生产和生活的各个领域,广泛应用于商业、教育、军事、 科研、政府部门等各个方面。 i n t e r n e t 的覆盖范围在不断扩人、使用人数在飞速增加,随着网络技 术研究的不断深人以及网络操作系统本身固有的诸多安全缺陷,如何保障 信息安全、防范网络入侵成为人们最为关心的问题。入侵是指任何试图破 坏资源完整性、机密性和可用性的行为。相对于传统的破坏手段而占,网 络入侵具有以下特点:第一,网络入侵不受时间和空间的限制。从理论上说, 入侵者可以在任意时刻通过任意一个网络节点向另一个网络节点发动快 速而有效的攻击,而不必考虑这两个节点实际地理位置之间的距离远近; 第二,通过网络的攻击往往混杂在人量正常的网络活动之中,具有较强的 隐蔽性:第了,入侵手段复杂多样,阶段式、分布式等新的入侵手段的出现, 使得入侵活动更具有隐蔽性和欺骗性;第四,与传统的破坏手段相比,网络 入侵具有更大的危害性。2 0 0 3 年,来自“计算机安全研究所”( c o m p u t e s e c u r i t y i n s t i t u t e ,简称c s t ) 的报告表明,7 8 的受访者通过互联网连接“经 常”受到攻击,而这个比例在2 0 0 0 年只有5 9 ;根据从事市场调研的g a r t n e r 公司的调查,截止到2 0 0 5 年,在只是自己管理自己的网络安全的中小企 业中,其中4 0 体验到一次入侵成功的网络攻击,而这些公司中的一半以 上甚至都不知道它们自己被攻击了。因此网络安全已成为国家与国防安全 的重要组成部分,同时也是国家网络经济发展的关键。使得网络的安全问 题越来越突出。从大型的商业网络到小型家庭办公网络,信息安全都受到 威胁。要保证网络的安全,直接措施是防止对网络的攻击行为,通常采用 防火墙技术。防火墙一方面可能被攻破或被绕过,另一方面过度使用防火 墙会妨碍网络正常运行,因此不能完全依靠防火墙来防止网络入侵。网络 系统还需要能及时发现恶意行为,并在这种行为对系统或数据造成破坏之 前采取措施,如发出警告、切断连接、封掉i p ,甚至进行反击等,这就是 入侵检测技术。 第一章绪论 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e mi o s ) 通过从系统内部和网络 中收集信息,分析计算机是否有安全问题并采取相应的措施图。入侵检测 的分析技术主要分为误用检测( m i s u s ed e t e c t i o n ) 和异常检测( a n o m a l y d e t e c t i o n ) 两种。 计算机网络的发展要求一个好的入侵检测系统应该准确、易于扩充、 具有好的适应性,并且能经常及时地进行更新。为了尽可能减少建立入侵 检测系统过程中的手工和不定因素的影响,可以采用以数据为中心的观 点,把入侵检测看成是数据分析过程,其中心思想足在入侵检测系统中使 用数据挖掘( d a t am i n i n g ) 技术。数据挖掘是从大量的数据中,抽取出潜在 的、有价值的知识( 模型或规则) 的过程。数据挖掘技术是一个新兴的数据 分析技术。在商业、生物、决策等方面有很多的研究,并且起到了很大的 作用。 由于数据挖掘能够从存储的大量数据中识别出有效、新颖、具有潜在 用途及最终可以理解的模式,所以可以用于发现未知或新类型的攻击。传 统的基于数据挖掘的入侵检测模型完全依赖于数据挖掘算法对己标记数 据集中数据样本的学习,因此保证数据样本的标记正确性和纯净性,对于 建立一个有效的入侵检测系统至关重要。但是在实际应用中,要为系统的 学习收集纯净的数据集往往不太容易,并且代价较高。以聚类( c l u s t e r i n g ) 为代表的无监督异常检测( u n s u p e r v i s e da n o m a l yd e t e c t i o n ) 方法的提出解 决了传统方法存在的问题。哥伦比亚大学w e n k el e e 的研究人员将数据挖 掘种的关联规则挖掘和分类算法应用于入侵检测系统,另外,新墨西哥大学 的s t e p h a n i ef o r r e s t 研究组也开发了系统调用序列的断序列匹配算法来检 测异常,他们研究了各种数据挖掘的方法在入侵检测系统申的应用,实验的 结果都是比较理想的。 1 2 国内外入侵检测系统研究现状 入侵检测的研究最早可以追溯到2 0 世纪8 0 年代,j a m e sa n d e r s o n 在 1 9 8 0 年首先提出了入侵检测的概念,将入侵尝试或威胁定义为:潜在的钉 预谋未经授权访问信息、操作信息,致使系统不可靠或无法使用的企图。 随着网络速度的提高,网络的数据流量越来越大,如果依靠人工分析入侵 数据,不但费时费力,而且不能在最短的时间内对入侵行为做出反应。随 着数据挖掘技术的发展,出现了一些较为成熟的方法,并且已应用到入侵 检测中。1 9 9 7 年左右,美国学者就开始着手将数据挖掘方法应用到入侵检 第一章绪论 测中,目前已取得了一定的成果。国内也有一些高校,如清华大学、西安 电子科技大学和华中科技大学的学者在关注这个领域的研究。 1 2 1 国外研究状况 目前国际上入侵检测的研究主要集中在美国,有许多研究得到政府和 军方的支持,并在实际的环境中得到应用,产生了大量的商用入侵检测工 具。目前入侵检测的厂商及其产品主要有i s s 公司( r e a ls e c u r e ) ,a x e n t 公 司( i t a ,e s m ) ,以及n a i ( c y b e rc o pm o n i t o r ) 值得一提的是开放源代码软 件s n o r t ,目前国际上绝大部分入侵检测产品都是对其改进而来。 国际上采用的入侵检测系统大体可分为两类:基于主机的入侵检测系 统和基于网络的入侵检测系统。异常情况分析一般所采用的技术是从审计 记录中抽取入侵检测度量进行统计分析,为用户建立描述文件。当该描述 文件有变化时,则认为有发生入侵攻击的可能性。这种基于统计分析的入 侵检测方法可以自适应地学习用户行为的模式,当用户行为发生变化时, 其描述文件将会被修改。 许多入侵检测系统在应用上已经取得重要成果,如美国a t & t 的 c o m p u t e rw a t e ht r w 的d i s c o v e r y h a y s t a c ke l a b o r a t o r 的h a y s t a c k 系统, 规划研究组织的信息安全指挥助理( i s o a ) ,l o sa l a m o s 国家实验室的教i j l i 和经验( w & s ) 和网络异常检测与侵入报告( n a d i r ) 等,其中最为成功的应 用系统是s r i 的一系列系统t d e s ,n t d e s 和e m e r a l d 。s r i 一直为美国 的f b i 提供先进的网络安全监控系统解决方案。 1 2 2 国内研究状况 我国在入侵检测技术方面也有一定研究,开发出了一些网络安全产 品,如西安信利网络科技公司的“网络巡警”解决方案,华泰网信息技术 有限公司的i n t e r n e t i n t r a n e t 网络安全预警系统;北京启明星辰科技贸易有 限公司的黑客入侵检测与预警系统;北京时代先锋软件有限责任公司的行 天黑客攻击检测工具等多种入侵检测产品;还有上海复旦光华在骨于网监 控方面,研究了对特定地址的信息流量监控与封堵技术;中国科学院软件所 在入侵检测关键技术研究上,提出了一种基于a g e n t 的分布式异常入侵检 测方法。 目前,国内己有少数一些研究机构及大学正在从事数据挖掘在入侵检 测方面的研究。从研究成果来看,大多处于初始阶段,还没有系统的理论 推出。数据挖掘技术应用于入侵检测系统的基本原理和方法尚未得到充分 第一章绪论 研究,因此,本课题研究数据挖掘的理论及用于入侵检测系统中数据分析 的理论和算法,具有一定的理论价值。 由于日i j 市场上的i d s 产品存在误报率高等缺点,大多数i d s 产品没 有真正发挥其实效,只是简简单单地充当流量分析、审计工具等。根据数 据挖掘技术的特点,针对入侵检测系统的特点及缺陷,设计一种基于数据 挖掘的入侵检测系统使系统误报率降低、提高系统正确性是研究目的所 在。从目前国内外的研究成果来看,它的应用前景很有潜力。 1 3 本论文研究的主要内容 本文共分为五章,具体每章的内容如下: 第一章:绪论。介绍课题的研究背景以及研究现状。 第二章:入侵检测概述。阐述了入侵检测的概念、功能、组成及分类, 并简要分析了现有的入侵检测技术。 第三章:介绍了数据挖掘的一些基本概念。对数据挖掘的主要技术 及国内外的研究现状进行了系统的介绍,为后继章节的进一步展开和深入 讨论奠定了基础。 第四章:数据挖掘及其在入侵检测中的应用。概述了数据挖掘中模糊 聚类算法、及利用矩阵化改进f c m 的过程,并在此基础上用不同的数据 集测试算法的效率。得出改进的f c m 算法是有效的。 第五章:设计系统仿真试验,测试模糊聚类算法在入侵检测中的效率 及作用。 第六章:总结与展望。总结了本课题的全部研究工作并对课题深入丌 展所需的进一步工作提出设想与展望。 4 第二章入侵检测技术研究 第二章入侵检测技术研究 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m 简称i d s ) 自2 0 世纪8 0 年 代早期提出以来,经过2 0 多年的不断发展,从最初的一种有价值的研究 想法和单纯的理论模型,迅速发展出种类繁多的各种实际原型系统,并且 在近1 0 年内涌现出许多商用入侵检测系统产品,成为计算机安全防护领 域内不可缺少的一种重要的安全防护技术。 2 1 入侵检测基本原理 入侵( ( i n t r u s i o n ) 是指任何企图危及计算机系统资源的完整性 ( i n t e g r i t y ) 、机密性( c o n f i d e n t i a l i t y ) 和可用性( a v a i l a b i l i t y ) 或试图越过计算 机或网络的安全机制的行为。它不仅包括发起攻击的人( 如恶意的黑客) 取 得超出合法范围的系统控制权,也包括收集漏洞信息,造成拒绝访问 ( d e n i a lo f s e r v i c e 。d o s ) 等对计算机系统造成危害的行为。入侵可能足由通 过互联网访问系统的攻击者发起,或者是由系统的某些授权用户发起,用 户在错误地使用授予他们的特权时,也将造成对系统的入侵。 入侵检测技术是一种主动保护自己的网络和系统免遭非法攻击的网 络安全技术。美国国际计算机安全协会( i c s a ) 对入侵检测( i n t r u s i o n d e t e c t i o n ) 的定义是:通过从计算机网络或计算机系统中的若干关键点搜集 信息并对其进行分析,从中发现网络或系统中是否有违反安全策略的行为 和遭到袭击的迹象的一种安全技术。进行入侵检测的软件与硬件的组合便 是入侵检测系统。与其他安全产品不同的是,i d s 需要更多的智能,它必 须可以将得到的数据进行分析,并得出有用的结果。一个合格的i d s 能大 大的简化管理员的工作,保证网络安全的运行。 2 2 入侵检测的分类 入侵检测系统的分类构架图如图2 1 所示。 第二二章入侵检测技术研究 幽2 1入侵检测系统分类架构图 从数据源来看,入侵检测通常可以分为以下几种:基于主机的入侵检 测系统、基于网络的入侵检测系统和混合型的入侵检测系统。 ( 1 ) 基于主机的入侵检测系统 基于主机的入侵检测系统的检测目标是主机系统和系统本地用户,原 理是根据主机的审计数据和系统日志发现可疑事件。该系统通常运行存破 监测的主机或服务器上,实时检测主机安全性方面诸如操作系统同志文 件、审核日志文件、应用程序日志文件等的情况,其效果依赖于数据的准 确性 基于主机的入侵检测系统具有检测效率高,分析代价小,分析速度快 的特点,能够迅速并准确地定位入侵者,并可以结合操作系统和应用程序 的行为特征对入侵进行进一步分析、响应。比如,一旦检测到有入侵活动, 我们可以立即使该用户的账号失效,用户的进程中断。基于主机的入侵检 测系统尤其对于独立的服务器及应用构造简单,易于理解。也只有这种检 测方式能检测出通过控制台的入侵活动。目前很多是基于主机日志分析的 入侵检测系统。 但基于主机的i d s 也有其不足之处:首先它在一定程度上依赖于系统 的可靠性,它要求系统本身应该具备基本的安全功能并具有合理的设置, 然后才能提取入侵信息;即使进行了正确的设置,对操作系统熟悉的攻击者 仍然有可能在入侵行为完成后及时地将系统同志抹去,从而不被发觉:并且 主机的日志能够提供的信息有限,有的入侵手段和途径不会在同志中有所 反映,日志系统对网络层的入侵行为无能为力,例如利用网络协议栈的漏 洞进行的攻击,通过p i n g 命令发送大数据包,造成系统协议栈溢出而死机, 或是利用a r p 欺骗来伪装成其他主机进行通信等等,这些手段鄙小会破 6 第二章入侵检测技术研究 高层的日志记录下来。在数据提取的实时性、充分性、可靠性方面基于主 机日志的入侵检测系统不如基于网络的入侵检测系统。 ( 2 ) 基于网络的入侵检测系统 基于网络的入侵检测系统搜集来自网络层的信息。这些信息通常通过 嗅包技术,使用在混杂模式的网络接口来获得。基于网络的入侵检测系统 位于客户端与服务端的通信链路中央,它可以访问到通信链路的所有层 次。因此,这种i d s 可以监视和检测网络层的攻击( 如s y n 洪流) 。 基于网络的入侵检测系统的主要问题是监视数据量过于庞大并且它 不能结合操作系统特征来对网络行为迸行准确的判断:如果网络数据被加 密,i d s 就不能扫描协议或内容,就如防盗系统一样,基于网络的i d s 系 统通常放置于企业内部网与外部网的访问出口上( 如路由器、m o d e m 池) , 能够监控从协议攻击到特定环境攻击的范围很广的网络攻击行为,对于监 控网络外部用户的入侵和侦察行为非常理想。基于主机的i d s 适合于那些 以数据或应用服务器为中心的网络系统,并对那些已取得系统访问权限的 用户对系统的操作进行监控。究竟是在哪个层次上部署i d s 需要根据使用 者自身的安全策略来决定。由于基于网络的入侵检测方式具有较强的数据 提取能力,因此目前很多入侵检测系统倾向于采用基于网络的检测手段来 实现。 ( 3 ) 混合型的入侵检测系统 进入2 0 世纪9 0 年代后,出现了把基于主机和基于网络的入侵检测结 合起来的早期尝试,最早实现此种集成能力的原型系统是分布式入侵检测 系统d i d s 。 混合入侵检测技术主要分为两种类型:第一种类型是指采用多种信息 输入源的入侵检测技术,例如同时采用网络数据包和主机审计数据作为数 据来源,其中以d i d s 系统为典型代表。第二种类型则强调采用多种不同 类型的入侵检测方法,例如同时采用统计分析的异常检测和基于专家系统 规则的滥用入侵检测技术,其中以早期著名的入侵检测专家系统( i n t r u s i o n d e t e c t i o ne x p e r ts y s t e mi d e s ) 为代表。 从数据分析手段看,入侵检测通常可以分为:滥用( m i s u s e ) 入侵检测 和异常( a n o m a l y ) 入侵检测。 ( 1 ) 滥用检测 滥用检测( m i s u s ed e t e c t i o n ) 是对利用已知的系统缺陷和己知的入侵方 法进行入侵活动的检测。运用已知攻击方法,根据已定义好的入侵模式, 通过判断这些入侵模式是否出现来检测。因为很大一部分的入侵是利用了 系统的脆弱性,通过分析入侵过程的特征、条件、排列以及事件间关系能 7 第二章入侵检测技术研究 具体描述入侵行为的迹象。 滥用检测由于依据具体特征库进行判断,所以检测准确度很高,并且 因为检测结果有明确的参照,也为系统管理员做出相应措施提供了方便, 可以有针对性的建立高效的入侵检测系统。滥用检测的主要缺陷在于与其 体系统依赖性太强,不但系统移植性不好,维护工作量大,而且将具体入 侵手段抽象成知识也很困难,并且检测范围受己知知识的局限,因为这些 入侵行为并没有利用系统脆弱性,尤其是难以检测出内部人员的入侵行 为,如合法用户的泄漏。它不能检测未知的入侵,也不能检测已知入侵的 变种,因此可能发生漏报。误用检测的常用技术有条件概率、模型误用推 理、状态迁移分析、专家系统、状态转换分析等。 ( 2 ) 异常检测 异常入侵由用户的异常行为和对计算机资源的异常使用产生。异常检 澳t j ( a n o m a l yd e t e c t i o n ) 需要建立目标系统及其用户的正常活动模型,然后 基于这个模型对系统和用户的实际活动进行审计,以判定用户的行为是否 对系统构成威胁。异常检测的方法有神经网络、机器学习和人下免疫等。 异常检测的优点是它不需要有系统缺陷的知识,且具有较强的适应性 和通用性。缺点是难于提取完整的用户j 下常行为特征,完善的异常门限值 很难确定,用户行为可能发生巨大变化,由此产生行为的不连贯性;根据统 计的方法不能发现序列相关的入侵行为,因为单个看它的每个行为都是正 常行为:入侵者可以利用基于统计的系统自学习的特点,经过一段时问的训 练,系统自动更新用户正常活动集合把入侵行为视为萨常行为。 异常检测已成为日前入侵检测领域的研究重点。异常检测有基于特征 选择、贝叶斯推理、数据挖掘、神经网络、免疫原理、机器学习、模式预 测、统计分析、直觉序列模式等技术。 2 3 入侵检测模型概述 d e n n i n g 于1 9 8 7 年提出了一个通用的入侵检测模型,开创了入侵检测 系统这个网络安全领域的一个重要分支。目前检测技术的体系结构都是在 此基础上进行扩展与细化得到的。如图2 2 所示。 第二章入侵检测技术研究 r u k sd e s i g na n du p d a k l e a r n i n g 图2 - 2 通用入侵检测模型 该模型以下6 个主要部分构成: ( 1 ) 主体( s u b j e c t s ) :启动在目标系统上活动的实体,如用户; ( 2 ) 对象( o b j e c t s ) :系统资源,如文件、设备、命令等; ( 3 ) 审计记录( a u d i tr e c o r d s ) : 由( s u b j e c t , a c t i o n , o b j e c t , e x c e p t i o n - c o n d i t i o n ,r e s o u r c e u s a g e ,t i m e s t a m p ) 构成的六元组,活动 ( a c t i o n ) 是主体对目标的操作,对操作系统而言,这些操作包括读、写、 登录、退出等。异常条件( e x c e p t i o n c o n d i t i o n ) 是指系统对主体的该活动的 异常报告,如违反系统读写权限:资源使用状况( r e s o u r c e - u s a g e ) 是系统的 资源消耗情况,如c p u 、内存使用率等:时标( t i m e - s t a m p ) 是活动发生时 间: ( 4 ) 活动轮廓( a c t i v i t yp r o f i l e ) :用以保存主体正常活动的有关信息,具 体实现依赖于检测方法,在统计方法中从事件数量、频度、资源消耗等方 而度量,可以使用方差、马尔可大模型等方法实现; ( 5 ) 异常记录( a n o m a l yr e c o r d ) :由( e v e n t ,t i m e s t a m p ,p r o f i l e ) 构成。 用以表示异常事件的发生情况; ( 6 ) 活动规则:规则集是检查入侵是否发生的处理引擎,结合活动轮廓 用专家系统或统计方法分析接收到的审计记录,调整内部规则或统计信 息,在判断有入侵发生时采取相应的措施。d e s 与它的后继版本n i d e s 均完全基于d e n n i n g 的模型。但并不是所有的i d s 都能够完全符合该模型。 d e n n i n g 模型的最大缺点在于它没有包含已知系统漏洞或攻击方法的知 识,而这些知识在许多情况下是非常有用的信息。 近年来,s t u a r ts t a n i f o r d c h e n 等人提出了c i d f ( c o m m o ni n t r u s i o n d e t e c t i o nf r a m e w o r k ) 模型,它将一个入侵检测系统分为以下组件:事件 9 第二章入侵检测技术研究 产生器( e v e n tg e n e r a t o r s ) 、事件分析器( e v e n ta n a l y z e r s ) 、响应单元 ( r e s p o n s eu n i t s ) 、事件数据库( e v e n td a t a b a s e s ) ,如图2 - 3 所示。组 件之间的交互数据( 称g i d o 对象) ,被封装到c d i f 消息中进行传递。 c i d f 将1 d s 需要分析的数据统称为事件( e v e n t ) ,它可以是网络中的数 据包,也可以是从系统日志等其他途径得到的信息。事件产生器的目的是 从整个计算环境中获得事件,并向系统的其他部分提供此事件。事件分析 器分析得到的数据,并产生分析结果。响应单元则是对分析结果作出反应 的功能单元。它可以作出切断连接、改变文件属性等强烈反应,也可以只 是简单的报警。 圈2 3c 1 d f 入侵检测模型 事件数据库是存放各种中间和最终数据的地方的统称。它可以是复杂的数 据库,也可以是简单的文本文件。目前入侵检测产品多是采用c i d f 模型, c i d f 正在开发和完善之中,并有可能成为入侵检测系统的标准。 2 3 1 入侵检测数据源 入侵检测系统的数据源主要分为:来自主机的审计数据和网络数掘 包。 操作系统的日志文件等主机审计数据中包含了详细的用户信息和系 统调用数据,从中可以分析系统是否被入侵以及入侵者留下的痕迹等信 息。入侵检测的早期研究主要集中在主机系统的日志文件等审计数据分析 上。随着分布式大型网络的推广和应用,网络数据包逐渐成为有效且最直 接的检测数据源,因为数据包中同样含有用户的访问信息。 2 3 2 评估入侵检测系统的性能 这里所指的入侵检测系统( i d s ) 性能指的是i d s 的一个整体综合表现, 包括了i d s 系统检测能力、大流量压力下的性能表现、抗攻击性等多个方 面。评估1 d s 性能有五个因素:准确性( a c c u r a c y ) 、处理性能( p e r f o r m a n c e ) 、 完备性( c o m p l e t e n e s s ) 、容错性( f a u l tt o l e r a n c e ) 和及时性( t i m e l i n e s s ) a 可以把以上五个因素综合为有效性、效率和可用性三个方面。在我们 0 第二章入侵检测技术研究 分析i d s 的性能时,主要考虑检测系统的有效性、效率和可用性。( a ) 有效 性研究检测机制的检测精确度和系统检测结果的可信度,它是开发设计和 应用i d s 的前提和目的,是测试评估t d s 的主要指标;( b ) 效率则是从检测 机制的处理数据的速度以及经济性的角度来考虑:( c ) 可用性主要包括系统 的可扩展性、用户界面的可用性,部署配置方便程度等方面。 对入侵检测系统的性能评价进行量化,得到一些测试评估i d s 的性能 指标。检测率和误报率;漏报率;i d s 自身的抗攻击能力;负荷能力;检测延迟 时间。 2 4i d s 的现状和发展趋势 2 4 1id s 目前存在的问题 目前存在的问题是许多现存i d s 采用集中统一收集和分析数据的体系 结构,即数据由单一的主机收集,并按照唯一的标准用不同方法进行分析。 还有一些i d s 用多种标准从被监视的多个分布式主机上收集分散的数据, 但这些数据仍要由一台完全独立的机器集中分析处理这种体系结构存在 以下问题:单点失效问题、可扩展性较差、i d s 重新配置或增加功能困难。 绝大多数入侵检测系统的处理效率低下,不能满足大规模和高带宽网 络的安全防护要求目前使用的主要检侧方法是将审计事件同特征库中的 特征匹配,但现在的特征库组织简单,导致的漏报串和误报率较高,很难 实现对分布式、协同式攻击等复杂攻击手段的准确检测;此外,预警能力严 重受限于攻击特征库,缺乏对未知入侵的预警能力这就决定了当前的入侵 检测系统在未来信息战中的作用是有限的,因为信息战中双方使用的网络 进攻手段肯定是储备的从未出现的新手段。即使检测到攻击,现有的入侵 检测系统的响应能力和实时性也很有限,不能预防现在广泛使用的快速脚 本攻击,对于此类快速的恶意攻击只能发现和记录,而不能实时阻止。 中心控制台对攻击数据的关联和分析能力不足,人工参与过多。系统 的自适应能力差,软件的配置和使用复杂,不能自动地适应环境,需要安 全管理员根据具体的环境对软件进行复杂的配置。 入侵检测技术及相关标准化仍处于研究与开发阶段。入侵检测系统的 内部各部件缺乏有效的信息共享和协同机制,限制了攻击的检测能力;入侵 检测系统之间基本无法协同,甚至交换信息都很难实现,因此要建立一种 大型网络的战略安全预警系统是很难的。目前,国内只有少数的网络入侵 检测软件,相关领域的系统研究也刚刚起步,与外国尚有很大差距。 第二章入侵检、坝4 技术研究 2 4 。2l d s 的发展趋势及主要研究方向 随着黑客技术的不断发展,入侵行为表现为不确定性、复杂性、多样 性等特点。一些黑客组织己经将如何绕过入侵检测系统( i d s ) 或攻击1 d s 系统作为研究重点。从目前国外入侵检测研究的发展趋势来看,今后入侵 检测的工作将侧重在以下几个方面: ( 1 ) 如何解决高速交换网环境的入侵检测问题;高速网络,尤其是交 换技术的发展以及通过加密信道的数据通信使得通过共享网段侦听的网 络数据采集方法显得不足,而大量的通信量对数据分析也提出了新的要 求。 ( 2 ) 大规模分布式的入侵检测系统以及异构系统之间的协作和数据共 享问题;需要制定统一的入侵模式库,为不同系统的入侵描述建立转换机 制; ( 3 ) 入侵检测的智能性问题;入侵方法越来越多样化与综合化,尽管 已经有神经网络与遗传算法等模式识别方法应用在入侵检测上,但是这只 是初步的研究工作需要对智能化的 d s 加以进一步的研究以解决茛自学 习与自适应能力。 ( 4 ) 入侵检测的自我保护问题;i d s 自身的安全性至关重要,需要和 其它的安全机制配合使用, ( 5 ) 建立有效的入侵检测的评测方法;用户在选择i d s 时,需要对众 多的i d s 系统进行评价,评价指标包括i d s 检测范围、系统资源占用、i d s 系统自身的可靠性与鲁棒性。因此设计通用的入侵检测测试与评估的平 台,实现对多种i d s 系统的统一评估,己成为当前i d s 的另一重要研究 与发展领域。 ( 6 ) 与其它网络安全技术相结合,如结合防火墙、安全电子交易等新 的网络安全与电子商务技术提供完整的网络安全保障。 1 2 第三章数据挖掘技术研究 3 1 基本概念 第三章数据挖掘技术研究 数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是 潜在有用的信息和知识的过程。 数据挖掘是个多学科交叉领域。一方面,想要以非平凡的方法发现 蕴藏在大量数据集中的有用知识,数据挖掘必须从数据库技术、人工智能、 机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息 提取、高性能计算和数据可视化等学科领域汲取营养。另一方面,这些学 科领域也要发展。也在从不同角度关注数据的分析和理解,数据挖掘也为 这些学科领域的发展提供了新的机遇与挑战。数据挖掘引起了学术界和产 业界的广泛关注。 数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 于1 9 8 9 年在第一届k d d 会议提出,它强调的是通过数据驱动发现方法,获得“知 识”。k d d 是指从数据库中抽取出其中隐含的、新颖的、有用的信息的1 平凡过程,即从大型数据库的数据中提取人们感兴趣的知识。而更广义的 说法是,k d d 意味着在一些事实或观察数据的集合中寻找模式的决策支 持。它工作的目标对象不仅是数据库,还可以是文件系统,或其它任何在 一起数据集合,如w e b 信息等。 数据挖掘是指用人们可以接受的计算效率,找出数据源中的模式或模 型数据挖掘最早被统计学家、数据库专家等广泛使用,它往往包括一种负 面意义,即指没有假设,没有目标地对数据进行探索性分析。k d d 是一 个多步骤的处理过程,在处理过程中可能会有很多次反复,主要包括以下 一些步骤: ( 1 ) 准备:了解k d d 相关领域的有关情况和背景知识,弄清楚用户的 要求: ( 2 ) 数据选择:根据用户的要求从数据库中提取与k d d 相关的数据, 并从这些数据中进行知识提取: ( 3 ) 数据预处理:主要是对阶段2 产生的数据进行再加工,检查数据 的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可 以利用统计方法进行补填; 第二章数据挖掘技术研究 ( 4 ) 数据挖掘( d a t am i n i n g ) :运用选定的知识发现算法,从数据中提取 用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用 的表示方式,如产生式规则等; ( 5 ) 模式解释:对发现的模式进行解释,在此过程中,为了取得更为 有效的知识,可能会返回前面处理步骤中的某些步以反复提取,从而提取 更有效的知识; ( 6 ) 知识评价:将发现的知识以用户了解的方式呈现给用户。这期叫 也包含对知识的一致性的检查,以确信本次发现的知识不与以前发现的知 识相抵触。 总结起来,k d d 的过程一般由三个主要阶段组成,如图3 - l 所示。数 据准备、数据挖掘、结果表达和解释评估。数据准备过程包括数据集成、 提取、预处理和数据变换,完成对数据的抽取和整理;数据挖掘操作根据待 发现的任务类别选择有效的数据挖掘算法对数据进行挖掘;结果表达和解 释评估过程包括对发现模式的评价和解释,根据最终用户的决策目的对提 取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具 提交给决策者。数据挖掘是k d d 中最关键的一步,是指从大型数据库或 数据仓库的数据中提取人们感兴趣的知识和规则,这些知识和规则是隐含 的、事先未知的、对决策有潜在价值的,提取的知识通常用概念、规则、 规律、模式等形式表示。 ) 数据l 一顶处屈一 辱t r 幽3 一lk d d 一般过程 1 4 第三章数据挖掘技术研究 3 2 数据挖掘系统体系结构 数据挖掘是一个高级的处理过程,它从数据集中识别出的以模式来表 示的知识。它的核心技术是人工智能、机器学习、统计等。但一个d m 系 统不仅是多项技术的简单组合,而是一个完整的整体。整个d m 系统町以 大致分为三级结构,如图3 2 所示。 图3 - 2d m 系统的三级体系结构 d m 的数据分析过程一般由三个主要的阶段组成:数据准备、采掘过 程、结果表达和解释。数据挖掘可以描述成这三个阶段的反复过程。 ( 1 ) 数据准备:该阶段又可进一步分成三个子步骤:数据集成、数据 选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行 合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选 择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的 质量。预处理是为了克服目前数据采掘工具的局限性。 ( 2 ) 数据挖掘:这个阶段进行实际的挖掘操作。包括的要点有: a 决定如何产生假设:发现型( d i s c o v e r y d r i v e n ) 的数据采掘是让数据 采掘系统为用户产生假设,而验证型( v e r i f i c a t i o n - d r i v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江西省赣州市会昌中学化学高三上期中统考模拟试题含解析
- 广东省东莞外国语学校2026届高一化学第一学期期中预测试题含解析
- 幼儿园立夏节气的活动策划方案范本
- 幼儿园制作中秋月饼策划方案
- 岁青春主题班会方案内容
- 新中式婚礼女方答谢宴策划方案
- 幼儿园中班新学期教学方案
- 恶意返乡面试题及答案
- 狗狗培训考试题及答案
- 家电公司出国管理规定
- CNAS-CC105-2016 《确定管理体系审核时间》(2018年第一次修订)
- 2025年初中语文教师招聘面试八年级下册逐字稿第25课马说
- 《船舶导航系统》课件
- 2019-2025年初级银行从业资格之初级风险管理模拟题库及答案下载
- 网络安全产品代理销售合同
- 广播工程系统施工方案
- 校园超市经营投标方案
- 带状疱疹护理查房
- 教育机构综合部的岗位职责
- VR体验馆商业计划书
- 房地产销售经理转正述职报告
评论
0/150
提交评论