(计算机软件与理论专业论文)基于数据挖掘的入侵检测方法的研究.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测方法的研究.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测方法的研究.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测方法的研究.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测方法的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据挖掘的入侵检测方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的入侵检测方法的研究 摘要 本文主要从数据挖掘的角度对网络数据进行分析,发掘出入侵检测的模型。在分析了入侵检测 的技术原理和通用的入侵检测模型以后,结合了数据挖掘的分析方法和处理过程的模型,分析基于 数据挖掘的入侵检测的过程。并对数据挖掘中的支持向量机方法在入侵检测中的可行性进行了分析, 并结合通用的入侵检测模型,给出了基于支持向量机的入侵检测模型,并分析了基于支持向量机的 分类器设计的流程。 对于在基于支持向量机的入侵检测方法中二次规划的计算量随着变量的增加而呈指数增加这个 问题,本文提出了一种粗糙集属性约简和支持向量机分类相结合的混合入侵检测方法,它以粗糙集 约简对支持向量机输入进行特征选择,有利于提高检测速度。算法有效的缩短了检测时间,更适用 于实时入侵检测场合。 网络入侵检测所处理的数据是由多类攻击数据和正常数据构成的,在入侵检测中,有时不仅需 要从样本集上区分正常样本和异常样本,还需要对不同类的攻击样本进行区分,以确定攻击是何种 类型,基于此对多分类支持向量机在网络入侵检测中的应用进行了研究,在分析了目前已有的多分 类支持向量机的优点以及存在的问题,提出了基于二叉树的改进的多分类支持向量机方法,并将改 进的方法用于入侵检测系统中,改进了入侵检测的效率,提高了入侵检测的自适应性。 关键词:入侵检测;数据挖掘;支持向量机;粗糙集;多类支持向量机 i i r e s e a r c ho ni n t r u s i o nd e t e c t i o nb a s e do nd a t am i n i n g a b s t r a c t 1 1 1 ed i s s e r t a t i o nf o c u s e so na n a l y s i sn e t w o r ka u d i td a t au s i n gd a t am i n i n g a n dm i n er u l e sa b o u t i n t r u s i o nd e t e c t i o n t h r o u g ha n a l y z i n gt h ei n t r u s i o nd e t e c t i o nt e c h n i c a lp r i n c i p l ea n dc o m m o ni n t r u s i o n d e t e c t i o nm o d e l ,a n du n i f i e st h ed a t am i n i n ga n a l y s i sm e t h o da n dt h et r e a t i n gp r o c e s s e sm o d e l ,a n a l y z e s m i n i n gi n t r u s i o nd e t e c t i o np r o c e s sb a s e do nt h ed a t a a n dh a sc a r r i e do nt h ea n a l y s i st os u p p o r tv e c t o r m a c h i n e sm e t h o di nt h ei n t r u s i o nd e t e c t i o nf e a s i b i l i t y ,a n du n i f i e st h ec o m m o ni n t r u s i o nd e t e c t i o nm o d e l , h a sg i v e ni n t r u s i o nd e t e c t i o nm o d e lb a s e do nt h es u p p o r tv e c t o rm a c h i n e s ,a n dh a sa n a l y z e dt h ef l o w w h i c hd e s i g n sb a s e do nt h es u p p o r tv e c t o rm a c h i n e ss o r t e r i n t r u s i o nd e t e c t i o ne f f i c i e n c yi si m p r o v e db yu s i n gs u p p o r tv e c t o rm a c h i n eo fm a c h i n el e a r n i n g m e t h o d s ,t h e r e b ye n h a n c ea d a p t a t i o no fi n t r u s i o nd e t e c t i o n as t u d yi ni n t r u s i o nd e t e c t i o nb a s e do n s u p p o r tv e c t o rm a c h i n e s ,ah y b d da n o m a l yd e t e c t i o na l g o r i t h ma s s o c i a t i n gr e d u c to fr o u g h s e tw i t h c l a s s i f i c a t i o no f s v mi sp r o p o s e dt oq u a d r a t i cp r o g r a m m i n ga l g o r i t h mc a l c u l a b l en u m b e ri n c r e a s i n g t h e v a r i a b l ea m o u n ti n c r e a s e s t h eu n d e r l y i n gi d e ai sr e d u c i n gd a t ad i m e n s i o ni nv i r t u eo fa t t d b u t er e d u c tt o s v m ,i m p r o v ed e t e c t i o ns p e e d t h i sa l g o r i l h me f f e c t i v er e d u c e dt h ed e t e c t i o nt i m e ,e x a c t l ys u i t e dt o r e a l - t i m ei n t r u s i o nd e t e c t i o no c c a s i o n n e t w o r ki n t r u s i o nd e t e c t i o nd a t am a d e 叩o fm u l t i - c l a s sa t t a c k sd a t aa n dn o r m a ld a t a ,i ni n t r u s i o n d e t e c t i o n , s o m e t i m e sn o to n l yn e e d st od i f f e r e n t i a t et h en o r m a ls a m p l ea n dt h eu n u s u a ls a m p l ef r o mt h e s a m p l ec o l l e c t i o n , b u ta l s on e e d st oc a l t y o nt h ed i s c r i m i n a t i o nt on o tt h es i m i l a ra t t a c k s a m p l e , d e t e r m i n e dt h ea t t a c ki sw h a tk i n do ft y p e t h ea p p l i c a t i o no fm u l t i - c l a s ss u p p o r tv e c t o rm a c h i n e ( s v m ) f o rn e t w o r ki n t r u s i o nd e t e c t i o nw a sr e s e a r c h e d 1 1 1 ed i s s e r t a t i o nh a sa n a l y z e da l r e a d yt h em u l t i c l a s s i f i e d s u p p o r tv e c t o rm a c h i n em e r i t 船w e l la st h ee x i s t e n c eq u e s t i o nw h i c hh a sa tp r e s e n t p r o p o s e db a s e do n t w of o r k st r e e si m p r o v e m e n tm u l t i - c l a s s i f i e ds u p p o r tv e c t o rm a c h i n em e t h o d , a n dm a k et h i sm e t h o di k s ei n i n t r u s i o nd e t e c t i o ns y s t e m , i m p r o v e dt h ei n t r u s i o nd e t e c t i o ne f f i c i e n c y , e n h a n c e di n t r u s i o nd e t e c t i o n a u n a d a p t e d k e y w o r d s :i n t r u s i o nd e t e c t i o n , d a t am i m n g ,s u p p o r tv e t o rm a c h i n e ,r o u g hs e tt h e o r y m u l t i - c l a s ss u p p o r tv e t o rm a c h i n e 1 1 1 学位论文独创性声明 本人所呈交的学位论文是我在指导教师的指导下进行的研究工作及取得的研究成 果据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰 写过的研究成果对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说 明并表示谢意 作者签名:显整日期:銎童垒! 堕! 碣 学位论文使用授权声明 本人完全了解大庆石油学院有关保留、使用学位论文的规定,学校有权保留学位 论文并向国家主管部门或其指定机构送交论文的电子版和纸质版有权将学位论文用 于非赢利目的的少量复制并允许论文进入学校图书馆被查阅有权将学位论文的内客 编入有关数据库进行检索有权将学位论文的标题和摘要汇编出版保密的学位论文 在解密后适用本规定 学位论文作者签名:吕,菱 日期如d 7 牟多月f 目 导师签名:杏汤安 日期:如7 蓐弓目p 目 创新点摘要 本文主要从数据挖掘的角度对网络数据进行分析,发掘出入侵检测的模型,对机器学习理论中 的支持向量机进行了深入研究主要的创新点如下: 1 针对在基于支持向量机的入侵检测方法中二次规划的计算量随着变量的增加而呈指数增加这 个问题,本文提出了一种粗糙集属性约简和支持向量机分类相结合的混合异常入侵检测方法。算法 在不损失检测精度的前提下有效缩短了检测时间,更适用于实时入侵检测场合。 2 针对在入侵检测中,还需要对不同类的攻击样本进行区分,以确定攻击是何种类型这个问题, 把两分类s v m 算法推广至多分类s v m 算法。提出了基于二叉树的改进的多分类支持向量机方法, 并将改进的方法应用于入侵检测中,缩短了训练和决策时间,提高了入侵检测的自适应性。 大庆石油学院硕 研究生学位论文 引言 计算机网络技术的发展改变了以单机为主的计算机模式的同时,网络入侵的风险性 和机会也相应地急剧增多。要想完全避免安全事件的发生并不太现实,网络安全人员所 能做到的只能是尽力发现和察觉入侵及入侵企图,以便采取有效的措施来堵塞漏洞和修 复系统。因此设计安全措施来防范未经授权访问系统的资源和数据,成为当前网络安全 领域的一个十分重要而迫切的问题。作为信息安全的重要支撑技术之一的入侵检测技术 获得了显著发展,成为安全保护体系结构中的一个重要的组成部分,为此目的所研制的 系统就称为入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,简称i d s ) 。 入侵检测是指在特定的网络环境中发现和识别未经授权的或恶意的攻击和入侵,并 对此做出反应的过程1 1 】。入侵检测作为一种动态的安全防护手段,它能主动寻找入侵信 号,提供系统对外部攻击、内部攻击以及误操作的抵御能力,对系统进行保护。在入侵 检测的方法中,统计方法 2 1 的应用最为广泛。统计方法通过收集长时间的合法用户的相 关数据来定义正常的行为,当前行为如果与正常行为发生偏离,并大于某一阈值则被视 为攻击。 目前,对入侵检测的研究主要有以下几个方面: 1 基于神经网络的入侵检测系统以用户的正常行为特征信息的量度值作为神经网 络的输入,使用神经网络对系统审计数据进行处理,从中归纳总结出用户的行为模式, 并据此区分用户的行为正常与否。 2 基于序列分析的网络入侵检测方法的研究:隐马尔科夫模型( h m m ) 本质上是一 种随机过程,其状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来。 系统调用审计过程,为每种程序( s e n d m a i l ,l p r 等) 建立个h m m ,通过训练模型来确定 正常行为。h m m 具有预测的功能,但是h m m 构造模型需要较长的时间。 3 规则归纳是目前最常用的一种机器学习的方法,它被广泛的应用于入侵检测。 比较典型的,在m a d a m i d s 采用了一个规则学习的工具r i p p e r 0 1 来自动建立检测模 型,从带标记的审计数据中自动挖掘攻击模式。其他的被运用到入侵检测的机器学习方 法还包括了决策树、范例推理、贝叶斯信念网络、遗传算法等等。 4 异类检测试图识别出与其他样本点非常不同的点。l a z a r e v i c 等将异类检测运用 到入侵检测中。他们比较了多种不同的异类检测算法,其中发现l o f ( 1 0 e a lo u t l i e rf a c t o r ) 算法的表现最好。 5 基于生物免疫系统原理基础设计的入侵检测系统:f o r r e s t 第一个提出将免疫原 理运用于主机安全。h o f i n e y r 提出一种用于分布式检测的免疫系统模型,采用否定选择 算法建立检测器,通过建立系统正常行为模式定义“自己”。 但是现在i d s 存在以下几个方面的不足: 引言 ( 1 ) 现存的规则库和知识库以及统计的方法都是基于专家知识的手工编码,面对复 杂的网络环境,专家知识往往不全面不精确。 ( 2 ) 专家仅仅集中分析已知的攻击方法和系统漏洞,所以系统无法检测未知的攻击, 需要时间去学习新的攻击方法,因此,对新攻击的检测延时太大。 ( 3 ) 专家规则和统计方法一般都是针对特定网络环境的,因此,很难在新的网络环 境实现i d s 的再利用。同时,i d s 往往是很庞大的系统,所以给i d s 中加入新的检测模 块很困难。 我们需要找到一种提高i d s 有效性、适用性和扩展性的方法。由此,产生了在传统 入侵检测技术基础上利用数据挖掘技术,分析多个检测引擎提交的审计数据以发现更为 复杂的入侵行为。把数据挖掘技术应用到入侵检测系统的思想是针对安全信息数据量日 益增加的问题而提出的,由c o l o m b i a 大学的w e n k el e e 等构建出系统模型【4 l ,此项目 是美国国防部d a r p a 项目中的一部分。实验表明,此方法能够提高系统的检测率,而 不会降低任何一种检测模型的其他效能。 把数据挖掘应用于入侵检测系统的优点在于系统能够从大量的审计数据中自动产 生精确适用的检测模型,使入侵检测系统适用于任何计算环境。数据挖掘中分类、关联、 序列、聚类等分析方法已经得到验证。这些方法有效地提高了入侵检测的精确性,在选 择统计特征时尤其有用。因此,本文将对基于数据挖掘的入侵检测方法进行研究和探讨。 本文旨在数据挖掘技术应用于入侵检测系统,以提高入侵检测系统的性能,主要的 研究内容如下: 1 主要对机器学习理论中的支持向量机进行了深入研究。分析了支持向量机用于 入侵检测系统中的可行性。详细研究了支持向量机的基本理论和分类算法。给出了以支 持向量机分类算法为基础的入侵检测模型,详细讨论了该模型的工作过程,并分析了基 于支持向量机的分类器设计的流程。 2 提出了一种粗糙集属性约简和支持向量机分类相结合的混合异常入侵检测方法。 该方法采用粗糙集约简网络连接记录的属性特征,用约简后的特征向量去训练支持向量 机。算法在不损失检测精度的前提下有效缩短了检测时间,更适用于实时入侵检测场合。 3 对多分类支持向量机在网络入侵检测中的应用进行了研究。在分析了目前已有 的多分类支持向量机的优点以及存在的问题,提出了基于二叉树的改进的多分类支持向 量机方法,用改进的方法构造了多分类支持向量机分类器,并把它用在入侵检测实验数 据的样本集的训练与决策分类上。 2 大庆石油学院硕十研究生学位论文 第1 章入侵检测与数据挖掘概述 如何建立具有较强的有效性、自适应性、可扩展性的入侵检测模型成为入侵检测领 域中重要的研究课题。哥伦比亚大学w e n k el e e 等人提出以数据为中心的思想,利用数 据挖掘在有效利用信息方面的优势,将入侵检测视为一类数据分析过程,研究审计数据 建模的可行性和有效性,并构造出检测模型。他们开发的入侵检测系统( m a d a mi d m i n i n ga u d i td a t a f o ra u t o m a t o dm o d e l sf o ri d s ) 在m i tl i n c o l n 实验室举行的 r a i d ( r e c e n t a d v a n c e si ni d s ) 上表现出良好性能。 把数据挖掘应用于入侵检测系统的优点在于系统能够从大量的审计数据中自动产 生精确的适用的检测模型,使入侵检测系统适用于任何计算环境,该方向已成为研究的 一个热点,属于网络安全和人工智能的交叉学科。数据挖掘中分类、关联、序列、聚类 等分析方法已得到验证。 1 1 入侵检测技术的基本原理 1 1 1 入侵检测系统概念 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,简称为i d s ) ,顾名思义,是指对入侵行为 的发现【5 1 。它通过在计算机网络或计算机系统中的若干关键点收集信息并对收集到的信 息进行分析,从而判断网络或系统中是否有违反安全策略的行为和被攻击的迹象。入侵 检测系统是安全体系的一种重要防范措施,它试图检测、识别和隔离入侵企图或计算机 的未授权使用。它不仅能监视网上的访问活动,还能针对正在发生的攻击行为进行报警, 甚至采取相应的阻断或关闭设备的措施。入侵检测系统能大大地简化管理员的工作,保 证网络安全地运行。一般情况下,i d s 主要执行如下任务: 监视并分析系统及用户活动; 检查系统配置和漏洞; 评估系统关键资源和数据文件的完整性; 识别已知的攻击行为以及统计分析异常行为; 对操作系统进行日志管理,并识别违反安全策略的用户活动: 针对已发现的攻击行为做出适当的反应,如告警、终止进程等。 1 1 2 入侵检测技术分类 从入侵检测的策略来看,入侵检测模型主要有两种:即误用检测和异常检测。误用 第1 章入侵榆测j 数据挖掘概述 检测( m i s u s ed e t e c t i o n ) 是希望用某种规则或模式预先标识特定的入侵行为,并在此基 础上将所捕获到的与待检测目标有关的流量同入侵规则或模式进行比较,以期能从流量 中发现与规则或模式对应的某种特定的入侵行为。误用检测的优点是可以有针对性地建 立高效的入侵检测系统,其精确性较高,主要缺陷是不能检测未知的入侵,也不能检测 已知入侵的变种,因此可能发生漏报。 异常入侵由用户的异常行为和对计算机资源的异常使用产生。异常检澳l j ( a n o m a l y d e t e c t i o n ) 需要建立目标系统及其用户的正常活动模型,然后基于这个模型对系统和用户 的实际活动进行审计,以判定用户的行为是否对系统构成威胁。异常检测的优点是不需 要有系统缺陷的知识,有较强的适应性,缺点是难于提取完整的用户正常行为特征。 1 常用的误用入侵检测技术 模式匹配技术是在对入侵行为中的特征进行抽象和提取后,将其表示成一定的规则 或模式,并采用适当的机制对捕获到的流量进行入侵规则或模式的匹配,以此检测和发 现躲藏在流量中的入侵行为。它的算法简单、准确率高,缺点是只能检测已知攻击,模 式库需要不断更新。 专家系统一般由规则和推理两个部分组成。系统中维护着一个描述各种攻击的规则 集,审计事件被表述成有语义的事实;推理引擎根据这些规则和事实进行判定。但利用 专家系统进行入侵检测具有一些不足,如难于抽取攻击知识,难于把这些知识表述成推 理规则等。另外针对一种脆弱性有多种攻击方法,因此会产生多个规n f 6 , n 。鉴于此,专 家系统多用于原型系统的开发,而商业产品中则采用更有效的方法。 特征分析方法有些类似于专家系统,主要用于误用检测,但在对所获取知识的使用 上有所不同。它把各种攻击手段的语义描述转变为审计跟踪中直接可查的信息。这种方 法降低了对攻击描述的语义要求,是一种比较有效的检测方法。其缺点同其它基于知识 的方法一样,需要频繁地修改补充攻击的特征集,另外对操作系统的依赖性较强。 另外,用于误用检测的技术还有p e t r i 网、状态转移分析等,二者都具有描述简单宜 观的优点,缺点是特征匹配时计算量大。 2 常用的异常入侵检测技术 统计分析是在异常入侵检测中用的最普遍的技术。文献【8 】中提出可用于入侵检测的 5 种统计模型:操作模型、方差、多元模型、马尔可夫过程模型和时间序列分析。统计 方法的最大优点是它可以“学习”用户的使用习惯,从而具有较高检出率与可用性。但 是它的“学习”能力也给入侵者以机会通过逐步“训练”使入侵事件符合正常操作的统 计规律,从而透过入侵检测系统。另外一点,统计分析检测点的选取是一个关键技术, 因为它的选取并不是根据特定的攻击,因此要选择有网络和系统特征意义的测量点。如 何找到同时合适两者的测量点仍是一个问题,目前对此一般是凭感觉和经验1 9 】。 神经网络在理论上也可以用于检测未知攻击。使用神经网络对输入向量( 来自于审 计日志或正常的网络访问行为,经数据信息预处理模块的处理) 进行处理,从中提取用 户正常行为的模式特征,并以此创建用户的行为特征轮廓。这就要求系统事先对大量实 4 大庆石油学院硕f 研究生学位论文 例进行训练,具有每一个用户行为模式特征的知识,从而找出偏离这些轮廓的用户行为。 数据挖掘方法被w e n k el e e 用于了入侵检测中【加】,用数据挖掘程序处理搜集到的审 计数据,为各种入侵行为和正常操作建立精确的行为模式,这是一个自动的过程,不需 要人工分析和编码入侵模式。另外,相同的算法可以用于多种证据数据,这样便于建立 系统的可适应性。数据挖掘方法的关键点在于算法的选取和建立一个正确的体系结构。 根据d a r p a 评估,运用数据挖掘方法的入侵检测系统在性能上优于基于“知识工程” 的系统i i l , 1 2 1 。 概括起来说,误用检测与异常检测两者的主要区别在于前者主要是为入侵行为建立 能够代表入侵特征的规则或模式,而后者则主要是将目标的正常和合法活动构造成相应 的行为模型。 1 1 3 通用入侵检测模型 最早的入侵检测模型由d o r o t h yd e n n i n g 在1 9 8 6 年提出【1 3 1 ,这个模型与具体的系 统和具体输入无关,对此后大部分使用系统有借鉴价值。图1 - 1 表示了这个通用模型的 体系结构1 1 4 】。 图1 一id d e n n i n g 提出的入侵检测模型 事件产生器根据具体的应用环境的不同,可来自于审计记录、网络数据包及其它可 视行为,这些事件构成了检测的基础。行为特征表是整个检测系统的核心,它包含了计 算机用户行为特征的所有变量,这些变量可根据具体所采纳的统计方法及事件记录中的 具体行为模式而定义,并根据匹配上的记录数据更新变量值。 如果有统计变量值达到了异常的程度,则行为特征表产生异常记录,并采取一定的 措施。规则模块可以由系统安全策略、入侵模式等组成。它一方面为判断是否入侵提供 参考机制;另一方面,根据事件记录、异常记录以及有效日期等控制并更新其它模块的 状态。在具体实现上,规则的选择与更新可能不尽相同。但一般地,行为特征模块执行 基于行为的检测,而规则模块执行基于知识的检测。由于两种方法具有一定的互补性, 实际系统中经常将两者结合在一起使用。图l - 2 是一种通用的入侵检测模型。 第1 章入侵检测与数据挖掘概述 模式匹配机 ( p a t t e r nm a t c h c r ) 入侵模式库 ( p a t t e r nd b ) 数据源 ( d a t as o u r c e ) 数据库 ( d a t e 知t s e ) 系统匹配机 ( p a t t e r nm a r c h e r ) 异常检测器 ( a n o m a l yd e t e c t o r ) 响应和恢复机制 ( c o u l t t c l n l e a g l f f cm e c h 卸i s m ) l 1 时间基准 图1 - 2 通用入侵检测模型 各部分的关系如图1 2 所示:两种检测技术所关心的数据各有侧重,即使对来自同 一数据源的信息也会有不同的采集重点和处理方式。为了提高检测结果的准确性,数据 源在提交数据之前需要进行预处理,去掉无用和干扰数据,这样也能提高检测的效率。 目前关于入侵模式的提取和编制还没有统一的标准,般由有经验的技术人员完 成;对于异常检测,则首先利用搜集的数据采取定的统计方法建立相应的系统剖析模 型,作为正常运行的参考标准。异常检测器不断地计算相应统计变量的变化情况,一旦 系统偏移参考基准超过许可范围,就认为系统发生异常。 1 2 入侵检测的数据源 一般地,数据源的选择取决于所要检测的内容。为了检测攻击,i d s 必须能够发现 攻击的数据,必须能够获得攻击的“正确”数据( 受害系统遭受攻击时的反应) 。通常, 入侵检测的数据源可分为基于主机的数据源和基于网络的数据源。 1 基于主机的数据源 基于主机的数据源主要包括操作系统审计记录和系统日志。操作系统审计记录是由 专门的操作系统机制产生的系统事件记录,而系统日志是由系统程序产生的用于记录系 统或应用程序事件的文件,通常以文本文件的方式存放。此外,基于主机的数据源还有 基于应用的审计信息和基于目标的对象信息。 2 基于网络的数据源 网络入侵是目前商业入侵检测系统最为通用的信息来源。其基本原理是:当网络数 据流在网络中传播时,把网络接口置于混杂模式( p r o m i s c u o u sm o d e ) ,就可以接收所有 6 人庆石油学院顸+ 研究生学位论文 流经网络接口的信息,作为入侵检测系统的数据源。采用网络数据作为入侵分析具有以 下一些优势:由于通过网络监听的方式获取信息,因此对受保护系统的性能影响很小: 网络监视器对网络中的用户是透明的,降低了监视器本身遭受入侵者攻击的可能;相对 于基于主机的入侵检测系统更容易检测到某些基于网络协议的攻击方法等。 3 论文实验所采用的数据源 由以上讨论可知,入侵检测的数据来源具有多样性、非线性、不同质、维数高等特 点。在实际的大型入侵检测系统中,获取完整的,满足要求的数据源是件耗时而困难的 工作。由于本文的目的是研究入侵检测的数据分析技术,因此直接采用了目前国际上广 泛使用的美国1 9 9 8d a r p a 1 5 - 1 8 】入侵检测评估数据源。 数据源来自于1 9 9 8 年由m i t 的l i n c o l n 实验室r l i p p m a n 等人1 1 5 j 为美国国防部 高级研究计划署归( d a r p a ) 和空军研究实验室( a i rf o r c er e s e a r c hl a b ) 负责实施的入侵 检测评估项目,他们仿真了空军的一个典型的局域网,网络由l l 台机器组成,分为“外 网”和“内网”。“外网”由5 台机器组成,它们分别是流量产生器、w e b 服务器、嗅探 主机和攻击产生器( 2 台) ;“内网”由6 台机器组成,它们分别是背景流量产生器、嗅探 主机、s o l a r i s 2 5 受害主机、s u n o s4 1 4 受害主机、l i n u x 4 2 受害主机和l i n u x 5 0 受害 主机。通过改变流量产生器的计算机上的操作系统可以模拟数百台“虚拟”主机的流量。 自动产生的流量模拟了2 0 多种网络服务,包括d n s ,f i n g e r ,f l p ,b t t p ,i d e n t ,p i n g ,p o p , s t m p ,t e l n e t ,t i m e 和x 等。这个数据源由网络数据流量、主机审计记录和系统文件转 储( d u m p ) 得到,其中网络数据包由改写的b r o 程序嗅探得到,主机审计记录由s u n s o l a r i s b s m 审计得到。数据源包含了7 周的训练数据( 压缩为4 g b ) 和2 周的测试数据,大约 有5 0 0 万条训练数据和3 0 万条测试数据。9 周搜集的数据包含了3 0 0 多次的攻击记录, 这3 0 0 多次攻击是从3 8 种不同的攻击类型和7 种不同的攻击场景提取出来的,可分为 4 大类:p r o b i n g ,d e n i a lo f s e r v i c e ( d o s ) ,u s e r - t o r o o t ( u 2 r ) 和r e m o t e - t o l o c a l ( r 2 l ) , 其中1 4 种攻击在训练数据中没有出现过。 p r o b i n g :各种端口和漏洞扫描工具,如n m a p ,s a t a n ,s a i n t ,m s e a n 等; d o s :拒绝服务攻击,攻击者耗尽系统计算或内存资源,使合法用户的访问中断。 如s y nf i o e d ,a p a c h e 2 、b a c k ,s m u r f , l a n d 攻击等; u 2 r :合法用户采用非法手段获得了系统的超级用户权限,最主要的u 2 r 类攻击 形式是缓冲区溢出,此外还包括特权程序e j e c t ,x t e r m ,p s ,f d f o r m a t 等; r 2 l :攻击者通过发送定制的网络包以获得访问本地主机的权限的攻击方法。对网 络应用程序如s e n d m a i l ,i m a p ,n a m e d 等缓冲区溢出可以获得访问受害主机的权限,诸 如d i c t i o n a r y ,g u e s t ,t i p w r i t e ,x s n o o p 等形式的r 2 l 攻击则利用系统的误配置。 1 9 9 8d a r p a 入侵检测评估数据源中,u 2 r 和r 2 l 这两类攻击所占的比例很小, 数据源的训练子集中包含了5 2 条u 2 r 攻击记录和1 1 2 6 条r 2 l 攻击记录,而在测试子 集中包含了2 2 8 条u 2 r 攻击记录和1 6 1 8 9 条r 2 l 攻击记录,其中4 条新的u 2 r 攻击记 录仅在测试子集中出现,并且在测试子集中占到了u 2 r 攻击的8 0 ;7 条新的r 2 l 攻 7 第l 章入侵检测1 ,数据挖掘概述 击记录仅在测试子集中出现,并且占测试子集的r 2 l 攻击记录的比例超过了6 0 。 乔治亚工学院的w e n k el e e 和哥伦比亚大学的s j s t o l f 0 1 1 9 1 对1 9 9 8d a r p a 入侵 检测评估数据源中的t c p 连接进行了后处理,所获得的数据集被提交给加州大学i r v i n e 分校,用于1 9 9 9k d dc u p 竞赛,目的是提供网络连接数据给研究者以衡量他们的入侵 检测系统的性能l l 。 在1 9 9 9k d dc u p 数据集中,一个完整的t c p 会话被认为是一个连接记录,每个 u d p 和i c m p 包也被视为一个连接记录,每条连接信息由4 类属性集组成:基本属性 集、( 基于时间的) 流量属性集、基于主机的流量属性集和内容属性集,共包含4 1 个不 同性质的属性,如表1 1 所示i l9 】。其中,含有3 2 个连续性属性和9 个离散属性。w e n k e l e e 等人发现对于不同类型的攻击,需要采用不同的特征属性子集。对于u 2 r 和r 2 l 类攻击,主要采用了基本属性集和内容属性集;而对于p r o b i n g 和d o s 类攻击,则需采 用基本属性集、( 基于时间的) 流量属性集和基于主机的流量属性集 表1 - 1 网络连接记录属性集( c :连续,d :离散) 基本属性流量属性集基于主机的流量属性集内容属性集 1 d r u r a t i o n :c1 0 c o u n t :c1 9 & s th o s tc o u n t :c 2 9 h o t :c 2 p r o t o e o l _ t y p e :d 1 1 s e r r o r :c2 0 d s th o s ts a m es r v :c 3 0 f a i l e d _ l o g i n s :c 3 s e r v i c e :d 1 2 r e r r o r :c2 1 & s th o s ts a m e _ s r c _ p o r t _31 1 0 9 9 e d _ i n :d 4 s r e b y l e s :c 1 3 s a m es r v :c:c 3 2 c o m p r o m i s e d :c 5 & s tb y t e s :c1 4 d i i f fs r v :c2 2 & s th o s ts r vs e r r o r :c3 3 r o o ts h e l l :d 6 f a l g :d 1 5 s r vc o u n t :c2 3 & s th o s ts r vc o u n t :c3 4 s u :d 7 1 a n d :d1 6 s r vs e l t o r :c2 4 d s th o s td i f rs r v :c3 5 r o o t :c 8 w r o n g _ f r a g m e n t :c 1 7 s r vt e r r o r :c2 5 & s th o s ts r vd i f fs r v : 3 6 f i l ec r e a t i o n s :c 9 u r g e m t :c 1 8 $ 1 wd i f fh o s t :c c 3 7 s h e l i s :c 2 7 & s th o s tr e r r o r :c3 8 a c c e s sf i l e s :c 2 8 d s th o s ts r vt e r r o r :c3 9 o u t b o u n de m d s :c 4 0 h o t _ l o g i n :d 4 1 g u e s l l o g i n :d 1 3 数据挖掘概述 1 3 1 数据挖掘概念和定义 数据挖掘( d a t am i n i n g ,简称d m ) ,人们通常把数据挖掘和数据库中知识发现 ( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e ,简称k d d ) 视为等同。知识发现过程由以下步骤 组成。 1 数据清洗( d a t a c l e a n i n g ) :清除数据噪声和与挖掘主题明显无关的数据。 2 数据集成( d a t a i n t e g r a t i o n ) :将多种数据源中的相关数据组合到一起。 3 数据j 2 先择( d a t ac u l l i n g ) :数据库中检索与分析任务相关的数据。 人庆石油学院硕i :t i j 究生学位论文 4 数据变换( ( d a t at r a n s f o r m a t i o n ) :将数据变换为易于进行数据挖掘的数据存储形 式。 5 数据挖掘( d a t am i n i n g ) , 知识发现的一个基本步骤,使用智能方法提取数据模式 或规律知识。 6 模式评估( ( p a t t e r ne v a l u a t i o n ) :根据一定评估标准从挖掘结果识别出真正有趣的 模式。 7 知识表示( k n o w l e d g ep r e s e n t a t i o n ) :利用可视化和知识表达技术,向用户提供所 挖掘出的相关知识。 从上可知,数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但由于目前在工 业界、媒体、数据库研究领域中,“数据挖掘”一词比较长的术语“数据库中知识发现” 更流行。因此,我们从广义上把数据挖掘定义为:从存放在数据库、数据仓库或其他信 息库的大量数据中抽取或挖掘出未知的、有价值的模式或规律等知识的过程【枷。 典型的数据挖掘系统结构如图1 3 所示其中数据库、数据仓库或其他信息库是一个 或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理 和集成。根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识 库是领域知识,用于指导搜索,或评估结果模式的兴趣度。数据挖掘引擎由一组功能模 块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块使用 兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。图形用户晁面 在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务提供 信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。 1 3 2 数据挖掘的分类 图1 3 典型的数据挖掘系统结构 从不同的角度出发,数据挖掘可按照以下方式进行分类: 9 第l 章入侵榆测与数据挖掘概述 1 根据挖掘的对象数据库分类 由于不同数据库中的数据描述、组织和存储方式不同,而数据挖掘的数据库分为关 系型、事务型、面向对象型、主动型、空间型、时间型、文本型、多媒体和异构型等数 据库; 2 根据挖掘的知识类型分类 数据挖掘的知识类型包含多种形式:关联规则、分类规则、时序规则、特征规则、 聚类规则,总结规则和趋势分析等。同时,由于知识表达层面的不同,数据挖掘又可分 为原始层次挖掘、高层次挖掘和多层次挖掘等类型; 3 根据挖掘的技术分类,常用的挖掘技术包括: ( 1 ) 人工神经网络方法,如自组织特征映射聚类; ( 2 ) 决策树方法,如分类回归树用于分类: ( 3 ) 规则归纳方法,如关联规则; ( 4 ) 模糊和粗糙集方法,如用粗糙集理论进行信息约简; ( 5 ) 可视化技术。 1 3 3 数据挖掘的分析方法 数据挖掘是从大量数据中发现有用的模式。因此许多模式识别和机器学习的方法被 用到数据库中进行数据挖掘,我们根据现在观点把数据挖掘分析方法分为以下几类1 2 ”。 1 统计方法 。 , 统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。与统计学有关 的机器学习的方法有: 传统方法:传统的统计学所研究的主要时渐近理论,考虑测试预想的假设是否与 数据模型拟合。它依赖于显式的基本概率模型。常见的统计方法有回归分析、判别分析、 聚类分析以及探索性分析。 模糊集:模糊集是表示和处理不确定性数据的重要方法。模糊集不仅可以处理不 完全数据、噪声数据或不精确数据,并且在开发数据的不确定性模型方面是很有用的, 能提供比传统方法更灵巧、更平滑的性能。 支持向量机:建立在统计学习理论的结构风险最小化原则之上。其主要思想是针 对两类分类问题,在高维空间寻找一个超平面作为两类问题的分界,以保证最小的分类 错误率。支持向量机的一个主要优点是可以处理线性不可分问题。 粗糙集:粗糙集是个新的数学工具,用于处理含糊和不确定数据,在数据挖掘 中起到重要作用。常与规则归纳、分类和聚类方法结合起来使用,很少单独使用。 2 机器学习 机器学习采用了两种不同的研究方法:在控制理论中,使用多项式等为基函数,利 用优化的方法建立模型,以刻画被控对象的行为;而以感知体为代表的研究,则是用非 1 0 大庆石油学院硕l :研究生学位论文 线性函数和超越函数作为优化计算的数学基函数。常用的机器学习方法有1 2 2 】: 规则归纳:规则反映数据项中某些属性或数据集中某些数据项之间的统计相关 性。a q 算法是有名的归纳算法。关联规则也是一个归纳学习的算法。 决策树:决策树的每一个非终结节点表示一个数据项的测试或决策过程。个确 定的分枝的选择取决于测试的结果。为了对数据集分类,从根节点开始,根据判定自顶 向下,趋向终节点或叶子结点。当到达叶子结点时,则决策树生成。决策树也可理解为 特定形式的规则集,以规则的层次组织为特征。 范例推理:范例推理是直接使用过去的经验或解法来求得给定的问题。范例常常 是一种已经遇到的并且已经有解法的具体问题。当给定待求得问题,范例推理就检索范 例库,寻找范例,按一定事先约定的规则求解问题。 。 贝叶斯网络:贝叶斯网络是一种直接的、非循环的图表示,结点表示属性变量, 边表示属性变量之间的依赖关系。与每个结点相关的是条件概率分布,描述该结点与它 的父结点之间的关系。 3 神经计算 人工神经网络是模拟人脑加工、存储和处理信息机制而提出的一种智能化信息处理 技术,人工神经网络实现了是一种从输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论