




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)kmeans和tasvm及特征选择算法在入侵检测系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 随着计算机网络技术的飞速发展,人们的工作以及日常生活越来越依赖于计算机以 及网络。各种经济信息、军事信息、个人信息也随着网络逐步渗透到世界各地。与此同 时,人们也感到虽然网络可以使工作效率大幅提高,但是随之而来的网络安全问题已越 来越不可被忽视。网络安全问题不仅威胁个人信息安全也对国家安全造成相当影响。对 于技术日益精湛的非法入侵者的恶意攻击与试探或者由于编码、设计的漏洞给系统带来 的天生安全缺陷以及层出不穷的计算机病毒,现有的安全技术比如防火墙技术、身份验 证技术、操作系统安全内核技术等已显得力不从心。集主动防护、动态监控、抵御系统 入侵等优点于一身的入侵检测系统在最近十余年得到快速发展。此外,融合监督学习、 无监督学习等机器学习算法的入侵检测系统己成时下研究应用热点,得到相关领域学者 的广泛关注。 本文在研究了国内外基于融合监督学习与无监督学习等多种机器学习算法的入侵 检测系统的论文和相关材料的基础之上,提出了一种提高入侵检测性能的算法,此算法 经过特征选择和新型特征表示并融合了聚类算法和分类算法。 文章首先通过计算对应于每一具体攻击类型的所有特征的信息增益,对使用的实验 数据集k d dc u p l 9 9 9 进行了特征选择。将冗余的、重复的对分类结果不起关键作用的 特征删除,余下的特征均是对最后的分类结果起至关重要作用的特征。 其次,利用k - m e a i l s 聚类算法对经特征选择后余下的数据进行聚类,聚成5 类,取 到5 个聚类中心。接着,对于数据集中每一个数据点( 样本) ,从5 个聚类中心任意选 出2 个中心,这样会构成1 0 种不同的选取组合。将每一次选取的2 个中心与此数据点 构成一个三角形,这样会得到1 0 个不同的三角形。分别计算出每一个三角形的面积, 用这1 0 个面积作为此数据点的新的特征向量。 最后,利用十倍交叉验证以及l i b s v m 对基于新特征向量的数据模型进行训练和测 试,得出最终结果。此算法的正确率可达9 9 8 3 ,检测率9 9 8 8 ,误报率2 9 9 。这 些指标均优于比较实验的结果。另外对于每一具体攻击类型进行检测的准确率和召回率 也优于比较实验结果。 关键词:特征选择;基于三角形的特征表示;机器学习;k m e a n s ;支持向量机 大连理工大学硕十学位论文 i n c o n ) o r a t i n gk m e a n s ,t r i a n g l ea r e as u p p o r tv e c t o rm a c h i n ea n dl n c o r p o r a t m gk m e a n s ,ln a n g l ea r e a3 u p p o nve c t o rm a c n l n ea n q f e a t u r es e l e c t i o nf o ri n t r u s i o nd e t e c t i o ns y s t e m a b s t r a c t a st 1 1 ed e v e l o p m e n to f c o m p u t e ra n dn e m o r kt e c l l l l o l o g y ,p e o p l e sw o r k i n ga 1 1 dd a i l yl i f e a r ei n c r e a s i n 9 1 yr e l yo nc o m p u t e ra n di n t e m e t v 撕o u si m p o n a n ti o 姗a t i o nh a v es p r e a d e d a l la m m l dt h e 、v o r l dw i t ht h ei n t e m e t a l m o u 曲p e o p l ec a ni m p r o v et h e i rw o r k i n ge 艏c i e n c y b yu s i n gn 前啪r k ,p e o p l ec 籼o to v e r l o o kt 王l en e 似的r ks e c u r i t yp r o b l e m sa c c o m p a n i e d 谢t h t h en e t w o r ks e c u r i t yp r o b l e m sn o to n l yi n v o l v ei np e r s o n a li n f o 肌a t i o ns e c 耐t yb u tt h e n a t i o n a li n f o r m a t i o ns e c 耐t ya sw e l l t h e 出锄a t i c a l l yd e v e l o p i n ga :t t a c kt e c h n o l o g i e sa n d m a l i c i o u sa c c e s s ,t h es e c u r i t yb u gb yn a t u r ec a u s e db yl e a k so fc o d i n ga n dd e s ig na n d s u b s t a n t i a l 锄o u l l to fc o m p u t e rv i m s e sm a k et h ec 硼r e n ts e c u r i t yt e c l u l 0 1 0 9 i e ss u c ha sf i r e w a l l , i d e n t i t ya u t h e n t i c a t i o nt e c i l i l o l o g y ,o p e r a t i n gs y s t e ms e c u r i t yk e m e lt e c l l i l o l o g yt o ow e a l ( t o p r o t e c tm es y s t e m t h ei n t m s i o n d e t e c t i o ns y s t e mw i t ha c t i v e p r o t e c t i o n ,d ”绷r i i c a l m o n i t o r i n ga n ds y s t e mp r o t e c t i o nt o g e t h e rh a v ed e v e i o p e da tar a p i dp a c ei nr e c e n td e c a d e s f u l r t h e n n o r e ,t h ei n t r u s i o nd e t e c t i o ns y s t e m sm e 唱i n gs u p e n r i s e da n du n s u p e r v i s e dm a c h i n e l e a m i n ga l g o r i t h m sh a v eb e c o m et h e h o ts p o ti nc u r r e n tr e l a t i v er e s e a r c hf i e l d s b a s e do ns 诹d y i n go nr e l a t i v ep a p e r sa n da c a d e m i cr e s o u r c e sf r o mh o m ea n dd b r o a d ,o u r p 印e rp r o p o s e s a ni n 觚s i o nd e t e c t i o ns y s t e mb l e n d i n gt h ec l u s t e r i n ga l g o r i u na n da n i m p r o v e dc l a s s i 匆i n ga j g o r i t h m f i r s t ,b yc a l c u l a t i n ga l lf e a t i u e s i n f o r m a t i o ng a i nf o re v e r ys p e c i 矗ca t t a c kt y p e ,w ed e l e t e m er e d u n d a ma n dr e d u p l i c a t ef e a t u r e sw h i c ha r en o tp l a ys u b s t a n t i a lr o l e si nd i s c r i m i n a t i o n p r o c e s sf r o mt h ek d d c u p1 9 9 9 s e c o n d l y ,w ee m p l o yk - m e a n st oc l u s t e rt h er e m a i n i n gd a t a 甜把rf e a t u r es e l e c t i o ni n t o f i v ec l a s s e s ,f o re a c hd a t ap o i n ti nd a t a s e t ,w er a n d o m l yc h o o s e 似op o i n t s 厅o mt h ef i v e c l u s t e n gc e n t r o i d sa n du s et h o s e 抑op o i n t sa j l dt 1 1 ed a t ap o i n t t oc o n s t m c tt e nt r i a n g l e s t h e n w ec a l c u l a t et h ea r e a so f t e nt r i a n g l e sr e s p e c t i v e l ya n ds e t 也e1oa r e a sa st h en e wf e a t u r ev e c t o r o f t h i sd a t ap o i n t l a s t l y w ea p p l yt h e10 一f o l dc r o s sv a i i d a t i o n 锄dl i b s v mt ot r a i na n dt e s tt h ei n t m s i o n d e t e c t i o nm o d e lb a s e do nt h en e wf e a t u r ev e c t o r sa n do b t a i nm ef i n a le x p e r i m e n t a lr e s u l t o u r s y s t e ma c h i e v e sa c c u r a c yr a t eo f9 9 8 3 ,d e t e c t i o nr a t eo f9 9 8 8 a n df a l s ea l a r mr a t eo f 2 9 9 o nt l l e10 o fl dc u p19 9 9e v a l u a t i o nd a t as e t w ea l s oa c h i e v eab e t t e rd e t e c t i o n p e r l h m a n c e f 。rs p e c m ca t t a c kt y p e sc o n c e m i n gp r e c i s i o na n dr e c a l l k 哪e a n s 和t a s 及特征选择算法在入侵检测系统中的应用 l ( e yw o r d s :f e a t u r es e l e c t i o n ;t r i a n g l ea r e af e a t u r er e p r e s e n t a t i o n ;m a c h i n ei e a r n i n g ; k - m e a n s ;s u p p o r h tv e c t o rm a c h i n e i v 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作者签名: 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 大连理工大学硕士学位论文 1绪论 1 1选题的背景和意义 最近2 0 年来,计算机网络技术的大规模应用已经渗透至人们生活的各个领域,彻 底改变了世界的面貌,也改变了人们生活以及思维的方式。与此同时,经济,社会,人 文等信息不断的虚拟化,使得网络与信息安全问题越来越严重以至影响社会的正常运转 以及人们的正常生活。 据统计,全球每2 0 秒就有一次计算机入侵事件发生。广为使用的防火墙技术经常 被黑客攻破,身份验证技术虽然可以保护系统免受未经授权访问的侵入,但是在面对组 织内部授权访问的恶意攻击或者专业黑客的入侵却显得力不从心。同时,p 2 p ( p e e r t o - p e e r ) 技术、僵尸技术、d d o s ( d i s t r i b u t e dd e n i a lo f s e r v i c e ) 攻击等新的网路 安全威胁也不断地融合,更增加了网络安全的防御难度。网络安全威胁总是变幻莫测。 入侵检测技术是一种积极主动的安全防护技术,它最重要的两种技术就是实时响应和事 后分析。它可以在网络系统受到危害之前拦截和响应入侵。从网络安全立体纵深、多层 次防御的角度出发,入侵检测理应收到人们的高度重视【。自从1 9 8 0 年j a m e sa n d e r s o n 首次提出入侵检测的概念以后,对入侵检测系统的研究就逐渐开始。由于早期的网络环 境大多属于有限网络,固早期的入侵检测系统基本上是基于主机的,但随着网络的快速 发展,主机式的入侵检测系统逐渐不能满足人们的要求。1 9 9 0 年,基于网络的入侵检测 系统的概念被提出,目前大部分的入侵检测系统已经都是基于网络的了【2 3 1 。 当前的入侵检测系统通过将网络中的审计数据的特征与知识库中已有的特征进行 匹配来检测入侵或者误用模式。这些特征中的一部分是冗余特征或者对检测过程贡献非 常小【4 l 。传统的数据分析方式很难找出数据之间的内在关联及隐含的信息,只能做一些 数据表层的处理工作。论文的任务是有效的处理海量的网络数据,从中找出重要的输入 特征从而提高系统的效率和检测的准确性。数据挖掘( d a t am i n i n g ) 是所谓“数据库知 识发现”( k n o w l e d g ed i s c o v e r ) ri nd a t a b a s e ,k d d ) 技术中的一个关键步骤,其提出的 背景是解决日益增长的数据量与快速分析数据要求之间的矛盾问题 5 】,将数据挖掘技术 与入侵检测系统集成逐渐成为入侵检测系统的研究热点【6 j 。 此外,实际数据分类的异常复杂、高维、小样本和不可分性常常是阻碍了人们对数 据进行有效分析。为了解决这些问题,需要利用新的方法对特征进行表示,并降低特征 的维数。此外在入侵检测系统中集成监督学习和无监督学习的机器学习算法近些年也得 到了突飞猛进的发展。通常先利用无监督学习算法如聚类算法对数据进行预处理,然后 k m e a n s 和t a s 订及特征选择算法在入侵检测系统中的应用 使用监督学习算法对数据进行分类、预测。实践证明融合监督学习与无监督学习算法的 入侵检测系统较之使用单一算法的入侵检测系统可在一定程度上提高系统的效率并取 得较高的分类正确性以及较好的性能。 1 2 研究现状与应用 从理论与实际上,针对当前入侵检测系统的不足,许多专家学者提出了将数据挖掘 技术与机器学习算法融入至入侵检测系统中的方案。 ( 1 ) 信息增益 1 9 4 8 年,s h a n n o n 提出并发展了信息论,研究以数学的方法来度量信息,提出了 信息增益等基本概念,并得到广泛的应用。样本中属性的信息增益越大,其包含的信息 量也越大。也就是说,对最终分类结果的影响也越大。在特征选择时,应计算各个属性 的信息增益。具有最高信息增益值的属性是给定集合中具有最高区分度的属性l _ 7 1 。 ( 2 ) 神经网络 神经网络使用某些学习算法来学习输入与输出向量间的关系,然后归纳它们从而将 这种关系提取出来。将神经网络应用于入侵检测系统主要是学习系统中数据的行为。此 外,如果样本信息只能从训练数据中得来,那么我们可以使用神经网络进行更为有效的 特征选择。特征选择领域应用得比较普遍的是b p ( b a c kp r o p a g a t i o n ) 神经网纠阳】。 ( 3 )a n n s v m a n n 是一种受生物学启发的分布式计算形式。它由几个简单的处理单元或结点以 及结点之间的关系组成。任意两个结点之间的关系带有权值,这种权值可以确定一个点 对另一个点的影响度。a n n 可以学习和自适应不确定的系统并具有很强的鲁棒性和容 错性。此入侵检测系统将a n n ( a n i f i c i a ln e u r a ln e t w o r k s ) 与s v m ( s u p p o r tv e c t o r m a c l l i n e ) 以及两种加密方法进行融合来检测潜在的系统攻击。s v m 利用结构风险最小 化原则最小化泛化误差,a n n 是基于经验风险最小化原则的,它会使泛化误差大于 s v m 。a n n 很难得到全局方法,相反,s v m 却可以找到全局最优化方法l l o j 。 ( 4 ) c t s v m 一种基于s v m 的聚类树。为训练数据中的每一类建立一棵层次聚类树( 为了简化, 假定是二分类问题,利用d g s o t ( d y n 锄i c a l l yg r o w i n gs e l f - o r g a j l i z i n gt r e e )算法从 上到下对树进行聚类。每隔一段时间就迭代建立一棵层次聚类树。每次迭代后,就会有 新的结点根据一种学习算法加到树上。为了避免计算量过大,并不建立整个结点的层次 大连理工大学硕士学位论文 聚类树,相反,每轮迭代后,对层次聚类树上的结点利用s v m 进行训练,利用得到的 支持向量作为下一轮迭代的先验知识并以此来控制树高【l 。 ( 5 )t c m k n i t c m ( t r a l l s d u c t i v ec o n f i d e n c em a c l l i n e s ) 直推信度机,建立了一种适应范围较广 的机器学习置信度机制它被用来衡量一个样本分别属于已经存在的几个类别的可信程 度。t c m k n n 算法在本质上为分类算法。在处理分类问题的应用中,它试图将样本归 为已有分类中的某一类。在计算过程当中,当训练集中的某类的任一样本与待分类样本 的距离要小于用于计算奇异值的k 个最短距离中的最大值时,则需要为该类中所有样本 重新计算奇异值,从而为待分类样本重新计算p 值。将待分类样本划分到最大的p 值所 对应的类【l2 。 ( 6 ) 利用聚类技术减少支持向量的入侵检测系统 使用支持向量机时,一个很严重的问题就是极低的分类速度。分类速度是由支持向 量的数量决定的。基于经过聚类的s v m 是一种新的减少支持向量的方法。此方法利用 k - m e a l l s 聚类技术将所有数据聚成k 类。然后利用s v m 对每一类分别进行训练。k 值为 此类中支持向量数量的上斟1 3 j 。 ( 7 ) 无监督的异常检测系统 上述入侵检测系统都需要在已标注的( 正常异常) 训练数据集上进行训练。然而在 实际应用中,大部分原始的网络数据是没有经过标注的。如果通过人工的方式对海量数 据一一进行标注则会耗费大量的人力物力。所以无监督的异常检测系统近些年已成为研 究的热点。它们不需要任何标注好的数据,大大降低了对训练数据集的要求。聚类算法 是一种典型的无监督异常检测方法,这种方法通常假设数据集包含大量的正常数据和少 量的异常数据,并且正常数据与异常数据存在本质的不同【l 引。 ( 8 )m a d a m ( m i n i n ga u d i td a t af o ra u t o m a t e dm o d e l sf o ri n t m s i o nd e t e c t i o n ) m a d a m 是由哥伦比亚大学开发的数据挖掘算法,也是在入侵检测方面应用最为著 名和成功的系统之一。该入侵检测系统采用离线检测方式,通过应用高效的相关性规则, 它能够替代传统的硬编码以及配置文件来自动地产生相应的误用和异常检测模型来完 成入侵检测任务l l5 。 从上述具有典型性的入侵检测系统不难看出,在入侵检测系统中混合两种不同的机 器学习算法已成为一种研究趋势,尤其是混合几种聚类算法用来预处理数据集,然后用 一种分类器对经处理后的数据进行分类。 k - m e a i l s 和t a s 及特征选择算法在入侵检测系统中的应用 1 3目前存在的问题 从最早提出入侵检测的概念发展至今,入侵检测仍然是一个尚不成熟的技术领域。 现有的入侵检测技术仍存在诸多不足。目前存在的主要问题包括: ( 1 ) 高速网络环境下的检测问题 对于入侵检测而言,对网络数据包进行重组可以保证必需的检测能力,比如说,对 网络中的i p 碎片包进行重组并加以分析可以避免i p 碎片欺骗。但是这需要耗费更多的 计算能力。 ( 2 ) 交换式网络环境下的检测问题 传统的网络入侵检测技术必须要添加一些硬件措施才可以监控交换式网络,这会产 生性能和通用性的实际问题。 ( 3 ) 加密的问题 如果网络中的数据包或者特征字符串没有经过加密,通过与知识库中的特征进行匹 配,网络入侵检测技术可以发现入侵活动。但是如果网络上传输的数据被加密,网络入 侵检测系统将无法正常工作。 除了上述具体技术类型存在的问题,入侵检测还存在若干通用性的问题。 ( 1 ) 虚假警报问题 在实际运行环境中,由于虚假告警过多,管理员会对接踵而来的虚假告警疲于应付, 从而导致疏漏了真实的报警信号。虚假报警问题是实际入侵检测系统遇到的主要问题。 ( 2 ) 误报、漏报率高 比如说,异常入侵检测方法是利用统计的方法对审计数据进行检测的。但是统计方 法中的一个最大的难题就是有效阈值难以确定。如果阈值确定的过小,会造成误报的发 生,如果阈值设定的过大,又会产生漏报。 ( 3 ) 欠缺主动防御能力 入侵检测系统的特征分析的工作原理使得知识库中的特征库的更新总是落后于新 的攻击手段的产生,从某种程度上说,这样的入侵检测系统必然会欠缺主动防御能力。 1 4 本文的主要工作 由于国内入侵检测研究工作对于特征选择以及混合监督学习与无监督学习的机器 算法还处于起步阶段,论文研究工作大部分是在国外学者和国内部分学者研究工作的基 础上进行的。由于无法对所有的机器学习算法进行一一比较,本文只对其中比较典型的 对提高入侵检测系统效能有显著作用的算法进行了研究。本文主要做了以下工作: 大连理工大学硕士学位论文 ( 1 ) 给出了入侵检测系统的相关概念,一般组成、入侵检测系统的基本原理以及 几种先进的入侵检测技术。 ( 2 ) 简要的介绍了入侵检测中聚类算法和分类算法的应用发展情况,并阐述了课 题的研究背景、研究意义以及国内外相关的研究动态。 ( 3 ) 介绍了特征选择提出的背景以及常见的特征选择方法及其优缺点。 ( 4 ) 利用基于三角形面积的特征表示方法对每一样本的特征向量进行了重新表 示,并利用十倍交叉验证方法和支持向量机对经新特征表示的数据进行了分类,并通过 对比实验证明了改进算法的有效性。 ( 5 ) 对本论文的主要研究工作予以总结,并提出今后的研究方向。 k 哪e a n s 和t i a s v m 及特征选择算法在入侵检测系统中的应用 2 入侵检测技术概述 本章从入侵检测的基本概念入手,主要介绍了入侵检测技术的发展和分类,以及体 系结构。 2 1入侵检测的概念 “入侵 主要是指对系统资源的非授权操作,它可以造成系统数据的丢失和破坏、 甚至会造成系统拒绝对合法用户服务等后果。入侵者可分为两类:外部入侵者( 系统的 非授权用户) 和内部入侵者( 超越合法权限的系统授权用户) 。“入侵检测 的目标就 是通过检查操作系统的安全日志或网络数据包信息来检测系统中违背安全策略或危及 系统安全的行为和活动,从而保证信息系统的资源免受拒绝服务攻击、防止系统数据的 泄漏、篡改和破坏。美国国家安全通信委员会( n s t a c ) 下属的入侵检测小组( i d s g ) 在1 9 9 7 年将“入侵检测 定义为:入侵检测是对企图入侵、正在进行的入侵或者已经 发生的入侵进行识别的过程。 现有的各种安全防御机制都有其局限性。防火墙虽然有能力阻止对系统的许多非法 访问,但是无法抵御某些特殊的攻击。因此,只依靠单一的安全防御技术和防御机制的 网络体系的安全是得不到保证的。必须通过设立多道安全防线、集成各种可靠的安全机 制建立完善的多层安全防御体系才能有效抵御来自系统内、外的入侵。 入侵检测系统是防火墙的合理补充,它扩展了系统管理员的安全管理能力,提高了 信息安全基础结构的完整性。入侵检测系统的应用,能使在入侵攻击对系统发生危害前, 检测到入侵攻击,并利用报警与防护系统驱逐入侵攻击。在入侵攻击过程中,能减少入 侵攻击所造成的损失。在入侵攻击后,收集入侵攻击的相关信息,作为防范系统的知识, 添加入知识库内,以增强系统的防范能力。 2 2 入侵检测系统的基本组成 图2 1 所示的是通用入侵检测系统模型,主要有以下几部分组成。 ( 1 ) 数据收集器( 探测器) 主要负责收集数据。探测器将网络数据包、日志文件等这些关键的网络数据收集起 来,发送至检测器进行处理。 ( 2 ) 检测器( 分析器或检测引擎) 接收从数据收集器中传输来的数据并加以分析从而检测入侵,并发出警报信号。 ( 3 ) 知识库 大连理工大学硕士学位论文 将审计数据的数据特征存放至知识库中,入侵检测系统将网络中新的审计数据的数 据特征与知识库中的已知数据特征进行匹配分析从而判断此审计数据是否属于入侵行 为。 ( 4 ) 控制器 根据报警信号,人工或自动做出反应动作。 图2 1 通用入侵检测系统模型 f i g 2 1 t h em o d e lo ft h eg e n e r a li n t m s i o nd e t e c t i o ns y s t e m 2 3 入侵检测的原理及作用 入侵检测系统的主要工作过程包括监视、分析用户及系统活动,对系统构造和弱点 进行审计,识别反应已知攻击的活动模式并进行报警,对异常行为模式进行统计分析, 评估重要系统和数据文件的完整性,以及审计跟踪管理操作系统并违反安全策略的用户 行为。通过完成这些主要工作,可以实现对计算机系统的实时保护。 入侵检测利用模式匹配算法将当前待检测的网络数据同系统中的知识库进行比较, 根据匹配的结果来判断当前数据是否属于入侵行为。然后根据检测的结果做出响应。图 2 2 即为入侵检测系统过程的原理图1 1 6 】。 k - m e a n s 和t a s 订及特征选择算法在入侵检测系统中的应用 图2 2 入侵检测系统过程原理图 f i g 2 2 t h ep r o c e s ss c h e m a t i co ft 1 1 ei n t m s i o nd e t e c t i o ns y s t e m 2 4 入侵检测系统的分类 现有的入侵检测系统的分类方法很多,但是大都是基于信息源和检测方法的。本节 阐述了入侵检测系统的分类,并对各自的优劣做以比较。 2 4 1按照信息源的分类 入侵检测中的信息主要来源于系统主机的日志记录、网络数据包以及其他入侵检测 系统或系统监控系统的报警信息。根据数据来源,入侵检测可以被分为两类:基于单一 的工作站中运行的入侵检测系统被称为基于主机的入侵检测系统( h i d s ) ,h i d s 是通 过利用主机上的资源来监测主机上的网络流量从而发现入侵的。而那些独立运行于某个 网络上的入侵检测设备被称为基于网络的入侵检测系统( n i d s ) ,n i d s 通常分为两种 类型:基于签名的n i d s ( s i 印a 仰eb a s e d ) 与基于启发式的n l d s ( h e u r i s t i cb a s e d ) 。 这两种类型的n i d s 具有不同的任务并且提供了不同的安全级别。 ( 1 ) 基于主机的入侵检测系统( h i d s ) h i d s 需要安装在被保护的主机上,通常从主机的审计记录和日志文件中获得所需 数据源,并辅之以主机上的其他信息,从而保护单台主机不受网络或其他攻击的侵害。 基于主机的入侵检测系统的优点: 可以准确的判定攻击是否成功。 大连理工大学硕士学位论文 由于基于主机的入侵检测系统含有已知攻击的特征,利用这些特征h i d s 可以更加 准确的判断攻击是否成功。 监视特定的系统活动: h i d s 可以监视用户和访问文件的活动。 可以检测到n i d s 无法检测到的攻击。 适用被加密和交换环境。 基于主机的入侵检测系统的缺点: n i d s 会降低应用系统的效率。 依赖于服务器的日志与监视能力。 如果保护的主机数目较大,成本会很高。 只能监测自身主机情况,不监测网络上的情况。 ( 2 ) 基于网络的入侵检测系统( n i d s ) 基于网络的入侵检测系统是随着网络大量普及而产生的。n i d s 通过监听网络中的 数据包来获得必要的数据来源,并通过协议分析、特征匹配、统计分析等手段实时监控 当前网络运行状态,随时发现并分析可能的入侵行为。 n i d s 最大的优点就是提供对网络行为的实时监测以及同时保护多台网络主机。而 其固有的缺点在于对入侵欺骗手段通常都无能为力。 ( 3 ) 将基于主机和基于网络的入侵检测系统进行集成 由于单一的h i d s 与n i d s 系统都具有一定的缺陷,因此许多实际的入侵检测解决 方案都是集成上述两种入侵检测系统以实现它们之间的互补从而提高整个入侵检测系 统的性能。 2 4 2 按照检测方法的分类 按照检测方法的分类方式可将入侵检测系统分为两种:基于签名的入侵检测系统 ( s i g n a t u r eb a l s e d ) 和基于启发式( h e 面s t i cb a s e d ) 的入侵检测系统。所谓基于签名的 入侵检测系统主要是指利用“模式匹配的方法检测入侵数据的检测系统。也即平时所 说的滥用检测。这种系统在检测入侵的时候是基于将一个审计数据的签名与已知入侵的 模式( 签名) 进行匹配从而确定这条审计数据是否也属于入侵。基于启发式的入侵检测 系统是与异常检测系统同意的。即通过检测审计数据与正常模式的行为的背离从而发现 入侵。 ( 1 ) 滥用检测 k - m e 锄s 和t a s 及特征选择算法在入侵检测系统中的应用 滥用检测适用于已知入侵模式的可靠检测。它分析并搜集各种类型的“攻击特征 并将其存入知识库中。滥用入侵检测就利用这些攻击特征的集合或者是对应的规则集合 对当前的审计数据源进行特征匹配,如果发现满足条件的匹配,则表示发生了一次攻击 行为。滥用监测的误报率可以非常低。 滥用监测包括以下几种方法: 专家系统 早期的滥用监测采用的都是专家系统。比如i d e s 和d i d s 等。专家系统利用规则 ( 知识) 来判定入侵是否存在。因此需要具备完备的知识库和完备的条件库。完备实用 的审计记录可以保证条件库的完整性。另外,专家系统的工作效率将会被匹配算法的快 慢很大的影响。专家系统的优点在于它对用户的透明性。也就是说用户只需要把专家系 统看作一个黑盒( b l a c kb o x ) 【1 7 j 。所以用户不需要理解专家系统内部的功能实现。虽 然说专家系统可以将误报率压得非常低,但是专家系统在检测入侵的时候仍然会存在一 些实际的问题,比如不适于处理大批量的数据;缺乏处理序列数据的能力,即数据前后 的相关性问题:另外,随着规则库中规则数量的增加,专家系统的性能也随之迅速下降。 通过建立规则的分类索引并不能从根本上解决问题。更改规则时必须考虑规则库中不同 规则间的内部依赖性,根据己知的安全漏洞来编写规则,因而不能检测出未知入侵。 基于模型的入侵检测方法 入侵它往往会采用某种行为序列攻击一个系统,这种行为序列构成了具有一定行为 特征的模型,根据这种模型代表的攻击意图的行为特征,可以实时的检测出恶意的攻击 企图。 简单模式匹配( p a t t e mm a t c l l i n g ) 滥用入侵检测从本质上说就是基于模式匹配的一种入侵检测方法。它将己知的入侵 特征编码成为审计记录所认同的模式。当新的审计事件产生时,利用简单模式匹配去寻 找与它相匹配的已知入侵模式,从而判断是否有新的入侵产生。 状态转换方法 利用最优模式匹配的方法进行结构化的滥用检测。状态转换方法的优点是速度和灵 活性都非常高。通过使用系统状态和状态转换表达式对已知入侵进行描述和检测。有色 p e t r i 网和状态转换特征法都是主流技术。 滥用检测的优点: 对当前发生的攻击手段类型作出准确的判断。 由于特征库大都是人工静态更新,运行状态难以被入侵改变。 大连理工大学硕士学位论文 滥用检测不需要对用户行为进行大量统计计算,只需对用户事件与系统库进行 匹配,因此开销很低。 具有较高的检测率和较低的虚警率。 滥用监测的缺点: 只能检测到已知的攻击模式,对新的攻击类型常常显得力不从心。所以要不断 更新模式库从而检测到新的攻击方法。 系统移植性不好,维护工作量大,很难将具体入侵抽象成知识。 检测模式的更新需要依靠安全专家来手动完成,由于数据流量成指数增长,仅 凭专家用肉眼从海量数据中发现所有的模式不现实,因此很难更新特征库,造成误报率、 漏报率明显增加。 图2 3 为滥用检测过程原理图。 图2 3 滥用检测过程原理图 f i g 2 3 t h es c h e m a t i c0 fm i s u s ei n t m s i o nd e t e c t i o n ( 2 ) 异常检测 异常检测的原理就是将正常行为特征与实际审计数据的行为特征进行比较,识别出 正常数据与异常数据的偏离。异常入侵检测通常都会建立一个“规范集 ( n o m a l p r o f i l e ) ,这个规范集记录并不断更新系统正常活动的状态模型,大多数正常行为的模 型使用一种矩阵数学模型,矩阵的数量来自于系统活动的各种指标。将用户当前的活动 k m e a n s 和t a s v l 及特征选择算法在入侵检测系统中的应用 情况与这个正常模型进行对比,如果用户活动违反了其统计规律,则表示发现了攻击行 为。通常使用的异常检测主要包括:d e n n i n g 模型、m 诎o v 处理模型等等。 异常检测的优点: 可以检测到未知的入侵行为。 行为模式可以适用于用户行为。 异常检测的缺点: 异常检测中建立正常活动模型比较困难。 由于有些高级黑客仅通过“正常 行为就可以达到攻击的目的,因此会造成异 常检测的漏报问题。同样,当用户的某些正常行为由于某些原因与正常值有所偏离,异 常检测系统也会将这些正常行为当作异常数据从而造成系统的误报。 是一种“事后”检测,当检测到入侵行为时,破坏早已经发生了。 从现有的实际应用情况来看,基于滥用入侵检测技术的入侵检测系统是市场中应用 的主体。不过很多优秀的入侵检测系统也采用很多不同形式的异常入侵检测技术。融合 两种入侵检测技术从而实现技术上的互补将是现在乃至未来入侵检测系统的一种趋势。 2 5 先进的入侵检测技术 自2 0 世纪9 0 年代以来,不少研究人员提出了很多新的从不同的角度来解决入侵检 测的基本问题检测算法,并利用许多人工智能或机器学习的方法来扩展传统检测技术解 决问题的领域,解决传统检测技术中存在的若干问题,如虚警、缺乏检测未知攻击或变 形攻击的能力、扩展性以及自适应性。本部分介绍的入侵检测技术主要包括神经网络、 数据挖掘、数据融合、计算机免疫、遗传算法在内的技术领域知识在入侵检测领域内的 应用。 2 5 1神经网络技术应用于入侵检测领域 神经网络学习方法提供了一种健壮性很强的方法,它采用自适应的学习方法来描述 异常行为的特征。神经网络受生物学中相互连接的神经元( n e u r o n ) 组成的复杂网络的 启示,由许多单元组成,这些单元通过加权的连接相互作用。在实际的入侵检测技术中, 通过改变单元的状态以及连接的权值来增删连接来进行检测。但是将神经网络融入到入 侵检测系统中会遇到一些实际的问题:它很难满足安全管理的需要,因为神经网络难以 提供对于检测的值得信服的解释。 大连理工大学硕士学位论文 前人已经在神经网络技术应用在入侵检测方面做了若干研究工作。其中n n i d ( n e u r a ln e t 、v o r ki m m s i o nd e t e c t o r ) 算法是一种比较经典的将神经网络运用至入侵检测 系统的方法。 r y a l l 和l i n 提出了一种后向传播神经网络的方法运用至入侵检测系统中,并将其起 名为n n i d 算法。n n i d 是一种异常入侵检测系统。它通过用户所执行分配的命令来识 别合法用户。这个方法之所以合理有效是因为不同的用户会产生不同的用户行为。这些 行为依赖于他们对系统的需求。比如说某些人需要使用系统仅仅来接收或者发送 e m a i l ,而不需要系统为他们实现编程或者编译的工作。而另外一些用户有需要使用系 统中几乎所有的功能,比如编辑、编程、发送e m a i l ,网页浏览等等。然而,即使两个 用户做同一件事情他们也不会使用相同的应用程序。例如,一些使用者喜欢用“v i ”编 辑器而不喜欢“e m a c s ,喜欢把“p i n e 作为他们的邮件应用程序而不使用“e l m 程 序作为他们的邮件程序,或者经常使用“g c c ”来编译c 程序而不喜欢用“c c ”来编译c 程序。同样的情况,系统命令的使用频率也因使用者的差异而不同。这样,那些被使用 的命令和这些命令的使用频率则构成了一个使用者的“印记 ,这个“印记 反映了使 用者执行的任务,以及他们对应用程序的选择,因此我们可以凭借这种信息来区分使用 者。 值得注意的是,即使某些用户会使用其他的一些符号来代替他们经常使用的一种长 命令,这种方法依然奏效。因为审计日志记录的是系统实际执行的命令。用户的私密性 并没有被侵犯,因为一种命令的参数并不需要被记录。也就是说我们可以知道某个用户 一天发5 次电子邮件,但是我们不需要知道这些邮件是发给谁的。 为某一个特定的计算机系统构造一个n n i d 需要包括以下几个步骤: ( 1 ) 将每一个用户一段时期内的审计日志形成一个可以代表用户执行每条命令频 率的向量。 ( 2 ) 训练神经网络并基于这些命令分发向量来区分用户。 ( 3 ) 让神经网络识别出新命令分发向量的用户,如果网络的预测结果和实际用户 不符或者网络并未给出一个明确的结果,则证明有异常数据出现。 2 5 2 数据挖掘技术应用于入侵检测领域 数据挖掘( d a t am i n i n g ) 是“数据库知识发现”( k n o w l e d g ed i s c o v e 珂i nd a t a _ b a s e , k d d ) 技术中的一个关键步骤。主要是为了解决日益增长的数据量与快速分析数据要求 之间的矛盾问题。它可以采用各种特定算法在海量数据中挖掘出有用并可理解的数据模 式。 k - m e a n s 和t a s 及特征选择算法在入侵检测系统中的应用 数据挖掘通常是指一系列从大量的存储数据中提取以前未知的但是存在着潜在有 用性的数据的技术。数据挖掘的方法擅长处理大规模的系统日志( 审计数据) 。然而在 网络流量的流分析上,它们却往往起不到很大的作用。用于入侵检测系统的基本的数据 挖掘技术之一就是与决策树( d e c i s i o n 骶s s ) 相互关联的挖掘技术。决策树模型允许在 大规模数据库中检测异常数据。另一个技术是指分割技术。分割技术可以从未知的攻击 数据中提取出相关的模式。完成这一任务是通过匹配那些从简单的审计数据中提取出的 数据与在数据仓库中存放的未知数据的模式完成的。一个典型的数据挖掘技术就是找到 数据之间的关联规则。数据挖掘技术允许人们从新的攻击中提取出以前未知的知识( 特 征) 或者建立正常行为的模式。由于异常检测经常产生误警,利用数据挖掘技术可以轻 易的将警报与挖掘出的审计数据相联系,从而可以充分的减少误警率。 w e n l ( el e e 等人最早将数据挖掘引入到入侵检测领域,并提出用于入侵检测的数据 挖掘技术框架。数据挖掘技术应用到入侵检测的基本流程如图2 4 。 从图2 4 可以看出,在数据挖掘中,关联分析和序列分析算法主要用于模式发现和 特征构造这一步骤上,分类算法则用于最后的检测模型中。 图2 4 入侵检测中的数据挖掘流程 f i g 2 4 t h ed a t am i n i n gp 僦e s si ni n t n j s i o nd e t e c t i o n 大连理工大学硕士学位论文 2 5 3 数据融合与入侵检测技术 数据融合( d a t af u s i 伽) 的概念于2 0 世纪7 0 年代提出。数据融合技术是一种将从 许多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高端定制刺绣师个性化方案设计考试试卷及答案
- 农发行呼和浩特市武川县2025秋招数据分析师笔试题及答案
- 农发行乐山市峨眉山市2025秋招结构化面试经典题及参考答案
- 成都蒲江县中储粮2025秋招笔试行测高频题库及答案
- 国家能源鸡西市梨树区2025秋招笔试模拟题及答案
- 国家能源焦作市马村区2025秋招笔试数学运算题专练及答案
- 2025年陕西电力科隆发展有限责任公司招聘(1人)考前自测高频考点模拟试题及答案详解(各地真题)
- 出租协议书范文
- 协会成立申请书
- 中国移动普洱市2025秋招技术岗专业追问清单及参考回答
- 2025年中国零售用显示屏行业市场全景分析及前景机遇研判报告
- 吉林省长春市2024-2025学年七年级上学期生物月考试题(含答案)
- 2025至2030中国视觉点胶机市场运行状况与未来发展走势预测报告
- 心源性休克病人的护理
- 种草莓劳动课件
- 雀巢牛奶购销合同范本
- 2025-2026学年华中师大版(2024)小学体育与健康一年级(全一册)教学设计(附目录P123)
- GA/T 952-2011法庭科学机动车发动机号码和车架号码检验规程
- 吊洞停止点检查记录表
- 以友辅仁教案
- “20道游标卡尺题目及答案”
评论
0/150
提交评论