(计算机应用技术专业论文)模糊聚类算法及其在入侵检测中的应用.pdf_第1页
(计算机应用技术专业论文)模糊聚类算法及其在入侵检测中的应用.pdf_第2页
(计算机应用技术专业论文)模糊聚类算法及其在入侵检测中的应用.pdf_第3页
(计算机应用技术专业论文)模糊聚类算法及其在入侵检测中的应用.pdf_第4页
(计算机应用技术专业论文)模糊聚类算法及其在入侵检测中的应用.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 作为一种主动的信息安全保障措施,入侵检测技术有效地弥补了传统安全保 护机制所不能解决的问题。但是面对不断增大的网络流量、日益更新的网络设施 和层出不穷的攻击方式,传统的入侵检测技术存在许多不足。先进的检测算法是 入侵检测研究的关键技术。 本文研究了入侵检测技术和聚类分析技术,重点阐述了模糊聚类算法,剖析 了当前的模糊聚类分析过程,提出了改进的模糊聚类算法,并将它用于入侵检测。 论文的研究内容主要包括: 1 对f c m 算法,提出用初始化方法代替随机初始聚类类心的选取,用最优 模糊因子a 作为模糊加权指标改进现有的f c m 算法,降低了误检率。 2 将近似k - m e d i a n s 算法引入模糊聚类用于确定聚类中心,较好地避免了空 聚类的发生,降低了孤立点对模糊聚类的影响。 3 提出了新的相似度函数d s i m ( ) ,有效地解决了高维空间聚类选维和降维 问题,实现了高效的聚类。 4 。将函数d s i m ( ) 与近似k m e d i a n s 算法相结合,提出了新的模糊聚类算法 一d c f c m ,并将其用于入侵检测。解决了由尖锐边界、孤立点所带来 的误报警和漏报警问题,实现了对异常行为的检测。 通过k d dc u p1 9 9 9 1 】入侵检测评估数据集上的仿真实验表明,所提出的算法 大大加快了检测速度,提高了检测的效率,而且对新类型的攻击,也有一定的检测 效果。 关键词:入侵检测数据挖掘模糊聚类相似度函数近似k 一中心 a b s t r a c t t h ei i l t m s i o nd e t e c t i o nt e c h n o l o g y , an e wa n d a c t i v es e c u r i t yt e c h n o l o g y , c o m p e n s a t e s t h ed e f e c t so ft r a d i t i o n a lp r o t e c t i o nm e c h a n i s ms y s t e mw i t hg r e a t e f - f e c t i v e n e s s b u ti nt h ef a c eo fr a p i du p d a t e dn e t w o r kc o n f i g u r a t i o n s ,t h ed r a s t i c i n c r e a s eo fn e t 、) l ,o f kt r a f f i c a n dm a n yn e wa t t a c km e t h o d s ,t r a d i t i o n a l i n t r u s i o n d e t e c t i o ns y s t e m ( i d s ) h a ss o m el i m i t a t i o n s t h ec o m b i n a t i o no ff u z z yc l u s t e ra n d i n t i u s i o nd e t e c t i n ge n a b l e st h ei n t r u s i o nd e t e c t i o ns y s t e m t oh a v et h ea b i l i t yo f s e i f - s t u d ya n dt oh a v ea b e t t e ra n a l y z i n go n av a s ta m o u n to fd a t aa sw e l la st oe n h a n c e t h ed e t e c t i n ga b i l i t ya n dl i g h t e ns e c u r i t ym a n a g e r s w o r k t h ec o m b i n a t i o n i sp r a c t i c a l a n dc o n f o r m st ot h et r e n do ft h ed e v e l o p m e n to fi n t r u s i o nd e t e c t i o ns y s t e m t h i sp a p e rs t u d i e so nt h ei n t r u s i o nd e t e c t i o nb a s e do nf u z z yc l u s t e r , a n a l y s e st h e i n t l l l s i o nd e t e c t i o nt e c h n o l o g y ,a n dc o n c l u d e s i t sd e v e l o p i n gd i r e c t i o n t h em a i nw o r k s o ft h i sp a p e ra les u m m a r i z e da sf o l l o w s : 1 i n i t i a l i z a t i o n m e t h o di ss u b s t i t u t e df o rt h ec h o i c eo fr a d o ma n d - i su s e dt o i m p r o v e t h ep r e s e n tf c ma l g o r i t h ma n dr e d u c et h ef a l s ed e t e c t i o n 2 a p p r o x i m a t e dk - m e d i a ni s i n t r o d u c e di nt h ed e t e r m i n a t i o no ft h ec l u s t e r s c e n t e la v o i d a n c eo fn o n c l u s t e r sa n dl e s s e n i n go ft h ei n f l u e n c eo fo u t l i e ra n a l y s i so n f u s s yc l u s t e r s 3 am o d i f i e ds i m i l a r i t ym e a s u r ef u n c t i o n ,c a l l e dd s i m ( ) ,i sp r o p o s e d i no r d e rt o s o l v et h ep r o b l e mo fn o n c o n t r a s t i n gb e h a v i o rh i g hd i m e n s i o n a ls p a c e 4 al e a m i n ga l g o r i t h m ,c a l l e dd c f c m ,i sa d v a n c e dt h r o u g ht h ec o m b i n a t i o no f d s i m ( ) a n da p p r o x i m a t e dk m e d i a na n da p p l i e d i ni n t r u s i o nd e t e c t i o nw h i c hs o l v e s t h ep r o b l e mo fs h a r pb o r d e re f f e c t i n gp r o b l e m sa n dr e a l i z e s t h ed e t e c t i o no fa b n o r m a l i n c u n e n c e t h er e s u i to fe m u l a t i o ne x a m i n a t i o n so nk d d c u p19 9 9 l i n d i c a t e st h es y s t e m , g r e a t l vi n c r e a s et h ed e t e c t i n gs p e e d ,t h ee f f i c i e n c yo f i n t r u s i o nd e t e c t i o n ,a n dc a nd e t e c t v a r i e t yo fu n k n o w n i n t r u s i o n s k e y w o r d :i n t r u s i o nd e t e c t i o n d a t am i n i n g f u z z yc l u s t e r s i m i l a r i t ym e a s u r e f u n c t i o n a p p r o x i m a t e dk m e d i a n s 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其它人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:翌丝日期迎墨: 凡( ,1 ,刀,) 的,值不止一个,则可根据实际情况选择 一个满意的分类,或者进一步考查差( f 凡) 幌的大小,从较大者中找一个满 意的,值即可。 3 3 4 模糊聚类常用方法 模糊聚类是一种实现最优模糊划分技术的有效工具。模糊聚类及时把输入空 间、输出空间或是输入输出空问分解成一系列的模糊区域,每个区域对应一条模 糊规则。采用聚类进行模糊建模最常用的方法就是基于目标函数的模糊聚类,利 用非线性化方法搜索目标函数的局部极值点【3 5 】。 模糊聚类中最常用的目标函数是一种组内方差和的形式,假定x 为输入模式 向量x = x i ,x :,以 是一组数据元组,其中z = x i 。,墨:,k 】表示具有m 个 属性的数据对象。有使以下代价函数最小作为聚类的目标函数【3 5 】: 、, r 一万 代 “ t | x u i x 糊 ,芦 第三章模糊聚类分析2 5 男甥 厶( u ,矿,x ) = i = 1 k = l “m 口d 砌2 ( 3 - 1 ) u = ( “跃) ,“擅o ,“豫= 1 ( 3 2 ) u 诸 0 , 1 是划分矩阵u 舢的一个元素,它表示对象置划分到聚类,中的隶属度。 大越模糊。d 删2 = 恢一1 ,川一y 捌t g t x 。与第f 个簇的质心屹的距离: d u 2 ( 工,v f ) = 0 x i v f l | = ( 石i y f ) r 彳( 工i v f ) a 为正定矩阵,代表类的形状3 5 1 。引入集合 m 删= r “”k 【o ,1 】,v i ,k ;v k ,3 i ,u d 0 ;0 玎,v f ) m 向= 缈m 脚l 嘴足= 1 ,v k m 。= u m 砌l u 髓= o 或l ,v i ,k 则m 煳,m h 埘分别对应可能c 划分,概率c 划分和硬c 划分。 凸的模糊集合f 3 5 】 l 自t 2=。;一=1,:2,(?;。=1,:2。,l:-: i = 1 , 2 ,c ;k = 1 ,2 ,n 其中,7 7 ;为距离参数。这样,对隶属度函数形状的选择就会受到很大的限制。 文献【3 4 1 提出称为a c e ( a l t e m a t i o nc l u s t e re s t i m t i o n ) 的聚类规则,在隶属度函数的 2 6 模糊聚类算法及其在入侵检测中的应用 选择与类的原型的选择有很大的自由度,可以根据不同的应用环境选择不同的方 案【3 5 1 。 3 3f c m 算法及其改进 网络数据信息的多样性决定了其属性的不确定性,适合软划分。作为当今聚 类分析研究的主流技术,模糊聚类分析具有描述样本类属中间性的优点,能客观 反映现实世界,因此模糊聚类用于网络入侵检测是将有助于提高入侵检测系统的 分析能力。 在众多的模糊聚类算法中,应用最广泛而且较成功的是模糊c 均值( f u z z y c m e a n s ,f c m ) 算法。本节将研究f c m 算法,并将针对其不足,给出初步的改进 方案。 3 3 1模糊c 均值( f c m ) 算法分析 模糊c 均值( f u z z yc m e a n s ,f c m ) 算法,采用隶属度确定每个数据点属于某 个聚类程度。具体算法可描述如下: ( 1 ) 给定聚类数目c ,权指数m 以及迭代标准s 。 ( 2 ) 用值在0 , 1 间的随机数初始化隶属矩阵【,并使其满足式( 3 2 ) 的约束 条件。利用初始聚类类心得到v ( o ) ,令迭代次数,= l 。 ( 3 ) 计算聚类中心。给定v d ,根据公式,计算u ( 力。 ( 4 ) 重新计算隶属度。给定u ( d ,根据公式,计算y ( d 。 ( 5 ) 若m a x i 材请7 一“政u 卅i ) ,则迭代过程结束,否则 - - j + l ,转至( 3 ) 。 算法的输出是c 门的一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每 个类的隶属度,根据这个矩阵按照模糊集合中的最大隶属原则就能够确定每个样 本归属哪一类。从算法过程可知,f c m 算法计算简单而且运行速度快,具有比较 直观的几何意义。在很多情况下,算法对于孤立点比较敏感。 网络数据信息的多样性决定了其属性的不确定性,适合软划分。作为当今聚 类分析研究的主流技术,模糊聚类分析具有描述样本类属中间性的优点,能客观 反映现实世界,因此模糊聚类用于网络入侵检测是将有助于提高入侵检测系统的 第二章模糊聚类分析 2 7 分析能力。 3 3 2初始化聚类中心 f c m 算法要求用户提供聚类数目,在入侵检测问题中,因为攻击类型未知, 如果主观设定聚类数目,则聚类结果的稳定性和可靠性就无法保证。同时,f c m 算法是基于目标函数的聚类算法,由于目标函数存在许多局部极小点,而算法的 每一步迭代都是沿目标函数减小的方向进行。所以,如果初始化落在了一个局部 极小点附近,就可能使算法收敛到局部极小。针对f c m 算法对聚类数目值敏感和 容易陷入局部最优的缺点,本文在使用f c m 算法之前先对数据进行初始化聚类, 得到聚类数目和初始聚类的类心,变随机设置为有目的地选择,保证获得的聚类 结果为全局最优解,从而提高检测性能和检测结果的可靠性。 初始化聚类算法描述: ( 1 ) 初始化空聚类集合; ( 2 ) 取标准化后的数据集中第一条连接数据建立第一个聚类并保存到类集合; ( 3 ) 每取出一个新的连接实例x ,计算其与各个已存在的聚类集合的聚类中心 距离。取其中最小的距离d 晌= m i n ( x j ,c i ) ,其中i l ,k ,k 为当前类集合中已 建立的聚类个数; ( 4 ) 判断d 晌,若它d 删。d 。,d o 为事先定义的聚类宽度值,则将其放入已存 在的一种聚类簇,然后继续处理下一条实例数据;否则如果当前实例与聚类簇集 合中所有聚类实例的距离都大于以,则以该实例为中心定义一个新的聚类,并加 入到聚类簇集合中; ( 5 ) 当训练样本集中的所有数据都处理完,则结束,否则转( 3 ) 。 通过以上的聚类算法后,将得到一个经过初步聚类后的聚类簇,即得到聚类 数目和初始类中心。 3 3 3 最优模糊因子( i t 的确定 要实现f c m 模糊聚类就必须选定一个o 【,对于算法目标函数,口中加权指数( i t 的影响,b e z d e k 认为“参数0 【控制着模糊类问的分享程度”。但最佳a 的选取目 前尚缺乏理论依据,1 9 7 6 年b e z d e k 先给出了f c m 算法在t l = 2 时的一个物理解释; 模糊聚类算法及其在入侵检测中的应用 1 9 8 6 年c h e u n g 和c h e n 3 6 1 从应用背景得出仅的最佳取值区为【1 2 51 7 5 ;1 9 8 7 年 b e z d e k 和h a t h a w a y 等人【3 7 】从算法的收敛性角度着手,得出0 【的取值与样本数目n 有关的结论,建议0 【的取值要大于n ( n 2 ) :1 9 9 5 年p a l 和b e z d e k 等人【3 8 1 从聚类有 效性角度得出0 【的取值范围为 1 52 5 ;于剑【3 9 】和高新波一0 1 等从模糊决策及收敛点 集对0 【的取值进行了研究。但截至目前为止,在模糊指标0 【的选择这一问题上仍 缺乏理论上公认的研究结果。 研究表明模糊聚类的目标函数j 口存在拐点,也就是说目标函数,。对参数a 的 偏导数存在一个极小点,而且该点恰好在b e z d e k 的经验范围 1 15 】之内,并随样 本集的可分性的变化做出相应的移动。因此得到一种最优模糊指标a 的快捷选取 方法: 口= 怅c 警剐) 考虑到入侵检测的实时性,为了快速实现,上式加以简化得: 口= 鹕掣) ) 4 , 3 3 4 改进的模糊聚类算法描述 将上述初始化方法和最优模糊因子o t 引入f c m 算法,给出改进的模糊聚类算 法如下: ( 1 ) 用初始化聚类方法得出初始聚类数目c 和初始聚类类心。 ( 2 ) 给出迭代标准s ,用式( 3 4 ) 确定模糊权指数仅。 ( 3 ) 用值在0 , 1 间的随机数初始化隶属矩阵u 0 ) ,并使其满足式( 3 2 ) 的约束 条件。利用初始聚类类心得到v ( o ) ,令迭代次数j = 1 。 ( 4 ) 计算聚类中一i i 。给定矿( 力,根据公式,计算u ( d 。 ( 5 ) 重新计算隶属度。给定u ( d ,根据公式,计算v ( 力。 ( 6 ) 若m a x m 址一“膻川i s ,则迭代过程结束,否则卜+ 1 ,转至( 3 ) 。 第三章模糊聚类分析 2 9 3 4 实验及结果分析 为了说明所提出的方法的有效性,采用模拟数据集进行检验。模拟数据由均 值分别为( 2 ,2 ) ,( 2 , - 2 ) ,( - 2 ,2 ) 和( 一2 ,一2 ) ,各维方差均为l 的正态分布生成,每类有1 0 0 0 0 个样本,共计6 0 0 0 0 个二维点。实验的硬件环境为p 4 3 7 7 g h z c p u ,5 1 2 m 内存,软 件环境为w i n d o w sx p ,m a t l a b 6 5 。取模糊因子a = 2 1 ,分别用f c m 算法和本节改进 算法对实验数据进行测试,实验分析结果如表3 1 所示。 表3 1f c m 算法与改进算法的比较 、 算法 结果、 f c m 算法本节改进算法 初始中心误差平方和 0 0 8 1 30 0 4 0 1 聚类运行时间( s ) 7 2 5 8 0 9 4 6 5 5 l l 迭代次数 1 3 9 从表3 1 中的测试结果可以看出,本节提出的方法得到的初始值有比较好的效 果,聚类过程有良好的速度和迭代次数。从而提高了检测率。 随机选取属性值范围外的1 0 0 个明显偏离实验数据中心的点,将其作为噪声加 入实验数据集,分别在加入噪声的数据和没有加入噪声的数据上用本节方法进行 初始聚类中心的选取,与实际中心比较,考察算法的抗噪性。从实验结果中选取 了几个具有代表性的聚类中心进行比较,如图3 2 所示。 4 2 0 2 图3 2 几种类心的比较 实际中心 初始聚类中心 口 加噪聚类中心 从图3 2 中可以看到,本节算法取得初始值与数据的实际中心非常接近,在有 噪声的数据上的初值的选取也得到了较好的结果,表明该算法有一定的抗噪能力。 3 0 模糊聚类算法及其在入侵检测中的应用 为了考查全面考查算法的抗噪性和聚类性能,对实验所得到的所有聚类中心 均值进行比较,结果如表3 2 所示。 表3 2 实际中心均值、初始聚类中心均值、加噪初始中心均值的比较 实际中心均值初始聚类中心均值加入噪声后初始聚类中心均值 ( 2 ,2 )( 2 8 9 6 7 ,1 9 8 4 2 )( 2 0 7 6 4 ,3 5 1 2 1 ) ( 2 ,2 )( 1 9 5 6 3 ,2 5 6 7 1 )( 2 2 2 4 2 ,1 5 6 7 2 ) ( 2 ,2 )( 2 0 8 8 5 ,1 7 6 4 1 )( 2 5 2 1 1 ,2 3 3 3 3 ) ( 2 ,2 )( 2 3 4 5 9 ,- 1 9 5 4 7 )( - 1 8 7 2 2 ,2 4 3 2 6 ) 以上实验结果表明改进的算法有较好的抗噪能力,保证了获得的聚类结果为 全局最优解,从而提高检测性能和检测结果的可靠性。 3 5小结 本章首先探讨了数据挖掘技术中的聚类分析方法;接着研究了模糊理论,详 细阐述了模糊聚类思想、分析过程;最后针对模糊c 一均值( f u z z yc - m e a n sm e t h o d , f c m ) 算法的不足,提出具体的改进方案。通过实验,得出改进后的f c m 算法要有 效避免了聚类结果的局部最优,提高了检测性能和检测结果的可靠性。 第四章面向高维空间的模糊聚类算法 3 1 第四章面向高维空间的模糊聚类算法 上一章改进的模糊聚类算法在迭代过程中对聚类中心求解采用传统的方式, 对于大量复杂的网络数据不能高效、准确地求得聚类中心。本章重点分析近似 k m e d i a n s 算法,同时提出一种面向高维数据空间的新的d s i m ( ) 相似度函数, 并将该函数和近似k m e d i a n s 算法相结合,给出一种基于新的相似度函数和近似 k m e d i a n s 算法的模糊聚类算法( d c f c m ) 。 4 1 近似k - m e d i a n s 算法 在高维数据空间中,用类中值表述聚类中心,对噪声和孤立点有较好的抑制 作用。然而无论是求解广义中值还是限定中值,都存在较高的计算复杂度。e d i d a y 在文献中提出近似中值( a p p r o x i m a t e dm e d i a n ) 算法,它对数据点的结构和距离 函数没有特定的要求,并且具有线性的时间复杂度。实验表明,在适合的参数下, 这种近似算法能够得到比较精确的类中值【4 1 1 。 将近似中值用于计算类中值得出近似k m e d i a n s 算法,对于每个类,用近似 k m e d i a n s 算法来寻找类的中心,算法描述如下: 假设x 是一个给定的数据集, ( 1 ) 从x 中随机选择蜥个样本作为参考样本: z = t 。,置:,厶】,( 1 ,n r ) ( 2 ) 用式( 3 3 ) 计算x 中其余各点置= 置。,置:,x 拥】,( 1 f n ) 到i l r 个 参考点的珞和r ,: 一, r ,= o r = l ( 3 ) 选择r ,( 1 f 甩) 中最大的n ,个样本点作为测试样本: 置= 【x t l ,一2 ,爿乙 ,( 1 t n t ) ( 4 ) 用式( 3 3 ) 计算每个测试样本到x 中其它数据的模糊相似度n f 的和r ,: ( 5 )使足最大的测试样本就作为类,的近似m e d i a n s 。 可以看到,不同的类的m e d i a n s 是依赖于模糊隶属度来区分的。算法中n ,和 ,z ,是两个输入参数,一般可以选择甩r _ 刀, c 2 c c m 劬。; ( 2 ) = 1 ;户l e n g t h ( c :f ) ;k = n * c l u s t e n u m ( 3 ) 若,) 屯则将标为正常类,否则为异常类; ( 4 ) 抖斗: ( 5 ) 若i ) c l u s t e r n u m 则停止,否则转向( 3 ) ; 4 5 实验及结果分析 为了验证算法的有效性,根据s o n a r 数据特征,模拟出1 0 0 0 0 个信号模式,每 个模式由6 0 个0 到l 之问的反映特定频段能量的数字组成,可认为它是一类含有 6 0 维的高维数据,这个数据分为r 和m 两类,其中r 类1 0 0 个,m 类9 9 0 0 个。 实验过程如下,先用3 3 2 中的初始化方法进行初始聚类中心的计算,接着用 4 2 提出的面向高维空间的相似度函数d s i m ( ) ,确定模糊划分矩阵。然后,再迭代 的过程中使用近似k m e d i a n s 算法确定聚类中心。最后用4 4 给出的标类算法标 出对r 类和m 类。 按照上述方法,取模糊因子a = 2 1 ,近似k m e d i a n s 取样本的1 0 。进行 5 0 次试验,取最好的4 组结果进行比较,如表4 1 所示。 表4 1d c f c m 算法的实验结果 第一组第二组第三组第四组 r9 8 59 8 09 7 79 7 9 m9l o1 18 从表4 1 可以看出,本节的算法在高维数据聚类方面有非常优越的表现。能 3 6 模糊聚类算法及其在入侵检测中的应用 够较准确地进行聚类,避免了空聚类的发生,对实验结果进一步分析得出s o n a r 数据在d c f c m 算法下的聚类的准确率,如图4 1 所示。 1 0 0 7 5 5 0 2 5 r 类 m 类 图4 1d c f c m 算法聚类准确率曲线 图4 1 结果表明,d c f c m 算法对s o n a r 数据的聚类是可行且有效的,采用该 算法能有效提高聚类分析的准确率。 4 6 小结 本章详细阐述了基于d s i m 函数的模糊聚类算法的原理,并给出了具体的运算 公式。在该算法中,针对网络数据的未知性和高维性,采用无监督模糊聚类方式, 用新的相似性度量函数d s i m ( ) 进行高维数据聚类,有效地克服了l k 范数等传 统的距离函数在高维空间中的缺点,用近似k m e d i a n s 算法确定聚类中心,有效 地克服了空聚类和孤立点对聚类结果的影响。并且详述如何借助d c f c m 算法进 行分类。实验表明,d c f c m 算法在高维空问聚类方面有较优越的表现。d c f c m 算法可以用于入侵检测系统,因为该算法与其他相关算法比较有以下优点它不依 赖于任何数据生成模型; 它只需要一个特征集; 它可处理模糊类标签,且可获得全局最优解,克服了陷于局部最优的问题; 它采用适用于高维数据的相似度函数d s i m ( ) ,有效地克服了l k 范数等传 统的距离函数在高维空间中的缺点,适于网络入侵数据的检测: 它采用高效的模糊聚类技术对未知的网络数据进行聚类,生成分类器,节约 了成本,非常适合于实际应用。 第五章基y - d c f c m 的入侵检测系统 3 7 第五章基于d c f c m 的入侵检测系统 入侵检测的核心是准确分析网络数据,以及时发现入侵。本章将d c f c m 模糊 聚类算法用于入侵检测系统,构造网络数据分析器,用于检测入侵。采用国际通 用的k d dc u p l 9 9 9 1 a 侵数据集进行实验仿真,用来验证该算法的有效性和可行 性。 5 1 基于d c f c m 的i d s 入侵检测技术以探测入侵为中心,目的是为系统提供实时发现入侵行为并及时 采取相应防护手段。而数据推导和数据分类是其中的核心。 基于d c f c m 的i d s 采用c i d f 通用入侵检测模型( 如图2 1 ) 构造基本框架。 包括数据收集、行为分类、报告错误和响应反击等方面。其中,事件产生器是采 集和过滤事件数据的程序或模块,它从入侵检测系统外的整个计算环境中获得事 件,并向系统的其他部分提供此事件。事件产生器是所有i d s 所需要的,同时也 是可以重用的。事件分析器分析事件数据和任何c i d f 组件传送给它的各种数据。 从如分析器可以是一个轮廓特征引擎。响应单元是对分析结果做出反应的功能单 元,它可以终止进程、重置连接、改变文件属性等,也可以只是简单的报警。事 件数据库是存放各种中间和最终数据的地方的统称,它可以是复杂的数据库,也 可以是简单的文本文件。 5 1 1 总体设计结构 基于d c f c m 的入侵检测系统具体的设计模块如图5 1 所示: 1 网络接口驱动模块 由于系统要在速度达l o o m b s 的高速网络下采集数据包,因此需要采用专用 的高速网络接口驱动程序,将数据包丢失率控制在极低的范围内。 2 数掘捕获模块 设置网络接口卡工作方式,并将流经网络接口卡的所有网络数据包捕获,交 由分析模块进行分析。 3 8 模糊聚类算法及其在入侵检测中的应用 3 检测分析模块 根据检测规则对捕获到的数据包进行分析,以发现可疑的入侵行为和需要审计 的行为。 4 报警日志模块 对触发检测规则的情况,按照规则所指定的相应动作进行实时报警或者记录 到日志系统。 图5 1 基于d c f c m 的入侵检测系统框架 5 控制维护模块 采集控制维护模块用于控制网络探头的启动、停止、动态加载和更新规则、 获取工作状态信息等。并为上层提供相应的控制管理接口。服务器控制维护模块 用于控制各插件的注册、启动、停止、注销、动态加载和更新规则、动念调整缓 冲区大小等。并为上层提供相应的控制管理接口。 6 网络服务分析插件 对于某些常用的网络服务( 例如f t p 、t e l n e t 、s m t p 等) 进行分析和审计, 第五章基了:d c f c m 的入侵检测系统 3 9 并且能够还原网络现场。 7 w e b 服务模块 为用户通过w e b 界面使用系统提供服务和实现。 8 数据库管理维护模块 对数据库中的各种数据( 例如表空间、索引等) 的维护提供接口。 9 通信模块 完成网络探头部分和服务器部分的主机间的通信。通信信息一方面包括有关 入侵检测及响应的信息,另一方面包括一些有关控制和工作状态等方面的信息。 同时为防止信息泄漏,对传送的信息进行加密处理。 1 0 配置管理界面 通过此界面使用核心层有关模块提供的配置和管理接口,从而完成对整个系 统的管理和维护。 1 1 回放客户端和回放服务器 用户通过界面选择需要还原的一次网络连接( 例如一次f t p 过程) ,将启动回 放客户端并将其连接到回放服务器,随后以可调节的速度在回放客户端对整个连 接过程进行完整真实的播放。 1 2 其他用户层模块 包括监控显示界面、告警模块、数据检索模块和图形显示分析模块等。 5 1 2检测过程的实现 入侵检测系统以探测入侵为中心,目的是为系统提供实时发现入侵行为并及 时采取相应防护手段。这个系统的核心是数据分析和检测,整个过程分为两个阶 段:训练阶段和检测阶段。 1 训练阶段 用d c f c m 分析器对数据集分类,得出正常行为类集合异常行为类集。d c f c m 分析器其主要由数据预处理器和分类器两部分组成。 数据预处理器用来对大量网络数据进行混合数据标准化法进行预处理。 避免了小数据被大数据淹没的现象。 分类器由聚类模块和标类模块组成。聚类模块采用d c f c m 算法进行聚 类,标类模块将聚类结果标记为正常类和异常类,最终形成分类器。 2 检测阶段 4 0 模糊聚类算法及其在入侵检测中的应用 给定的一个新记录,先根据训练数据集对1 ,进行标准化,假设转化为v , 计算v 到各个聚类的距离,取距离最近的聚类,若该聚类标记为正常类,则 ,为 正常数据,否则,认为v 为异常数据。 基于模糊聚类的入侵检测采用网络数据包作为信息源。这些数据经过预处理 后形成系统的网络行为集,然后用模糊聚类算法进行分类,根据特征进行标类, 将得到的结果作为训练数据,对新的网络数据进行分析,达到检测异常的目的。 图5 2 展示了基于模糊聚类的入侵检测的过程。 网络数据包 网络行为集广 未知类篝 数据预处理亡= = = i 模糊聚类 5 2 1样本集描述 图5 2 基于d c f c m 的入侵检测的过程 5 2 实验仿真 实验选用的样本数据是目前入侵检测领域权威的测试数据,k d dc u p1 9 9 9 1 】 入侵数据集中的数据,来源于1 9 9 8 d a r p a 入侵检测评估程序。该数据集共提供了 大约4 ,9 0 0 ,0 0 0 条数据,每条数据有4 l 维属性和1 个属性标签,4 1 维属性中有 8 个离散属性,3 3 个连续属性。数据集中共包含4 大类3 8 种攻击。四大类为: d o s ( d e n i a lo fs e r v i c e 攻击) ,如:n e p t u n e ,s m u r f 等;u 2 r ( u s e rt or o o t ) 攻击,如: b u f f e ro v e r f l o w ,p e r l ,x t e r m 等:r 2 u ( r e m o t et ou s e r ) 攻击,如:s e n d m a i l ,x l o c k , g u e s t 等;p r o b i n g 攻击,如:i p s w e e p ,n m a p 等。 为了满足检测算法的两个假设的需要,需要对测试集作一些过滤。因此,实验 中只提取了一部分数据进行测试。数据分为两部分,一个作为训练集t ,用来生成 检测模型,另一个作为测试集来检测算法的性能。 在构造实验样本数据时,从k d dc u p1 9 9 9 t 1 1 数据集共选取样本1 0 0 0 0 条作为 训练集样本,其中正常数据占9 9 0 0 条,异常数据1 0 0 条。j 下常数据的比例达到9 9 , 符合聚类算法中假设的要求。在测试集的选取中,从数据集中选取了3 组数据在 算法实现过程中忽略了数据集中类标识属性,其仅供算法结果分析之用。 在测试样本集的选取中,从数据集选取了3 组数据a l ,a 2 ,a 3 ,每组各1 0 0 条记录,其中第一组数据包含的异常数据全部是训练数据中出现过的异常数据, 第二组包含的异常数据全都是训练数据未出现过的、未知异常数据。第三组包含 第五章基- j - d c f c m 的入侵检测系统 4 1 的异常数据是已知异常、未知异常的混合异常数据。 5 2 2数据预处理 在样本集中每一条记录均有4 1 个属性( 不包括记录末尾的攻击类型属性) , 为了操作方便,在实验过程中只选取数据中的2 0 个关键属性进行聚类,其中1 5 个数值属性,5 个字符属性。 数据源中包括字符型和数值型的属性特征变量。字符型数据和字符串型数据 属于离散数据,数值型数据属于连续型数据,所以需要对它们进行分别的处理。 对于离散型的属性特征变量来说,需要先将其进行编码,将离散型数据转化 为连续型数据。编码方案如下: 协议类型p r o t o c o l _ t y p e 的编码分为4 种: u d p = l ,t e p = 2 ,i c m p = 3 ;其它协议= 4 。 网络服务s e r v i c e 的编码分为2 0 种,具体的编码方案见表5 1 : 表5 1s e r v i c e 编码方案 连接正常或错误的状态f l a g 的编码分为8 种,见表5 2 : 表5 2 连接状态f l a g 编码方案 4 2 模糊聚类算法及其在入侵检测中的应用 采用对离散属性编码可将其转化成连续属性。此时所有的对象属性均为连续 型。考虑到入侵数据多个属性使用的是不同度量单位,可能造成小数据被大数据 淹没的状况,例如给定两个特征向量v 。= 3 0 0 0 ,1 ,2 ,l o ) ,1 ,:= 1 0 0 0 ,2 ,1 ,5 ) ,则: d i s t ( v i ,v 2 ) = i u ,一x 2 1 1 2 + i v 。:一v :1 2 + i v 。,一v 2 3 1 2 + i v 。一v 2 4 1 2 = j 3 0 0 0 l o o o l 2 + 1 1 22 + 1 2 12 + 1 1 0 5 f 2 直接影响聚类分析的结果。因此需对连续型数掘进行标准化。 计算属性的平均绝对偏差( m e a na b s o l u t ed e v i a t i o n ) s f 驴丢喜( 铲历,) 其中x 。厂,x :,x 矽是厂的以个属性特征值,m 是厂的平均值,即 计算标准化属性值 m 广:n x f ,l f = i z 矿:x 矿- m f ( 5 1 ) ! s f 采用平均的绝对标准差比标准差对于孤立点具有更好的鲁棒性【4 8 1 。在计算绝 对偏差时,特征属性值与平均值的偏差没有被平方,因此孤立点的影响在一定程 度上减小了,但孤立点仍然可以被发现。 实验中所使用的数据集仍采用k d dc u p1 9 9 9 1 l 】网络连接数据集。在构造实验 样本数据时,从k d dc u p1 9 9 9 t 1j 数据集共选取样本1 0 0 0 0 条作为训练集样本,其 中正常数据占9 9 0 0 条,异常数据1 0 0 条。正常数据的比例达到9 9 ,符合聚类算 法中假设的要求。在测试集的选取中,从数据集中选取了3 组数据在算法实现过 程中忽略了数据集中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论