（计算机应用技术专业论文）基于无监督的入侵检测.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：60 大小：1.89MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（计算机应用技术专业论文）基于无监督的入侵检测.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要入侵检测是网络安全技术的一个重要组成部分。现在大多数的入侵检测算法都是有监督的使用带标签的数据样本进行调练。而无监督入侵检测算法一使用无标签的数据样本进行训练是一个新的具有诱惑力和挑战性的课题研究。一方面，算法不要求训练数据具有类别标签，这有可能极大韵减少算法的计算和存储资源，提高入侵检测的效率，并有可能发现新的攻击类型：另一方面，它也对算法提出了新的要求。要求算法能实时高效地处理海量、异构、离维的无标签数据。本文针对无监督入侵检测问题，结合自然计算、机器学习和数据挖掘等方面的几种无监督智能数据处理算法，提供了以下几种解决方法；将一种基于凝聚的层次聚类方法与d ec a s t r o 提出的人工免疫网络a i n e t 结合，提出了一种基于进化免疫网络的无监督异常检测方法。为了提高单类支撑矢量机在无监督入侵检测中的实用性，对训练数据集预处理。使用了两种方法一种是简单的基于数据点距离比较的方法，一对是改进的a i n e t 网络方法。实验证明，在单类支撑矢量机分类准确率下降不多的情况下，数据预处理方法能提高单类支撑矢量机的训练速度和分类速度。改进了一种孤立点挖掘方法，提出了适合入侵检测的孤立点检测算法。这种方法使用了基于密度的孤立点挖掘的主要思想，用克隆选择算法进行数据立方体搜索。实验证明，这种方法是可行的，而且具有深入研究的价值和广泛的应用前景。关键词：入侵检测无监督方法人工免疫网络单类支撑矢量机孤立点挖掘 a b s t r a c t i n t r u s i o nd e t e c t i o ni sa ni m p o r t a n tp a r to f n e t w o r k s e c u r i t y m o s ti n t r u s i o nd e t e c t i o n a l g o r i t h m sa v a i l a b l e a r es u p e r v i s e d ，w h i c ht a k el a b e l e dd a t aa st r a i n i n gs a m p l e s w h i l et h e r e s e a r c ho f u n s u p e r v i s e di n t r u s i o nd e t e c t i o nw h i c h t a k eu n l a b e l l e dd a t aa st r a i n i n gs a m p l e s i sa t t r a c t i v ea n d c h a l l e n g i n g o nt h eo n eh a n d ，t h ea l g o r i t h m st r a i no nu n l a b e l l e dd a t a w h i c hm a yr e d u c et h er e s o u r c e sf o rc o m p u t a t i o na n d s t o r a g e ，a n df i n dn e w k i n d so f a t t a c k s o nt h eo t h e rh a n d ，t h ea l g o r i t h m sh a v et ob ea b l et oh a n d l el a r g e ，h e t e r o g e n e o u sa n d h i g h - d i m e n s i o nd a t a s e t b a s e do n u n s u p e r v i s e dm e t h o d s o fn a t u r a lc o m p u t a t i o n ，m a c h i n el e a r n i n ga n dd a t a m i n i n g ，s o m eu n s u p e r v i s e di n t r u s i o nd e t e c t i o na l g o r i t h m sa r ep r o p o s e d ： a n a l g o r i t h mi sp r o p o s e dw h i c h c o m b i n e sa i n e t ，a l le v o l u t i o n a r ya r t i f i c i a li m m u n e n e t w o r k p r o p o s e db yd e c a s t r oa n dat r a d i t i o n a lh i e r a r c h i c a la g g l o m e r a t i v ec l u s t e r a l g o r i t h m t h ea l g o r i t h mp e r f o r m sw e l lo v e rt h ek d d c u pi9 9 9d a t a s e t t om a k et h e a p p l i c a t i o no f o n e - c l a s s s u p p o r t v e c t o rm a c h i n e ( o c s v m ) o n u n s u p e r v i s e da n o m a l y d e t e c t i o nm o r e p r a c t i c a l ，p r e s e l e c t i o no ft r a i n i n gd a t aw a sp r o p o s e d t w o a l g o r i t h m s a l eu s e di nt h ep a p e r o n eo ft h e mi sas i m p l em e t h o d c h o o s i n gd a t ap o i n t s b yd i s t a n c e - b a s e dc o m p a r i s o n t h eo t h e ro n ei sa ni m p r o v e m e n t o na i n e t t h ee x p e r i m e n t s s h o wt h a tt h e s em e t h o d sc a l ls p e e d u p t h e t r a i n i n ga n dc l a s s i f y i n gp r o c e s so fo c s v m w i t h r a t i o n a il o s so f t h ep e r f o r m a n c e a n a l g o r i t h m b a s e do no u t l i e r m i n i n g i sp r o p o s e d i ti sad e n s e - b a s e dm e t h o da n dt h e l o w - d e n s ed a t ac u b e sa r es e a r c h e db yc l o n a ls e l e c t i o na l g o r i t h m t h ee x p e r i m e n t ss h o wt h e m e t h o di sf e a s i b l e k e y w o r d ：i n t r u s i o n d e t e c t i o n u n s u p e r v i s e dm e t h o d s a r t i f i c i a li m m u n en e t w o r k o n e - c l a s ss u p p o r tv e c t o rm a c h i n eo u t l i e rm i n i n g y6 9 5 3 1 4 创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果：也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处。本人承担一切相关责任。本人签名：萄盗晕日期逍! ：关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期闻论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文( 保密的论文在解密后遵守此规定) 。本人签名：扭导师签名：日期矽矛日期型堂圭：第一章绪论第一章绪论 1 1 本文的研究背景和意义计算机联网技术的发展改变了以单机为主的计算模式，计算机网络通过信息传输和资源共享，为人们提供了更方便、快捷和多元化的生活平台。但无论是个人生活信息的电子化，学校进行远程教学与管理，还是企业开展电子商务。银行展_ 丌电子金融业务，政府进行电子政务，都有赖于安全、可靠的网络环境。然而，网络安全现状与人们对两络安全的要求存在矛盾和差距。目前，黑客技术臼益公开化，职业化，各种攻击日益频繁病毒曰益泛滥。重大网络安全时间日益增多，网络安全事件日益增加。当前的网络安全状况不能使人们建立对网络服务的安全信心。从而阻碍和减慢了计算机网络服务的普及。因此，计算机网络亟需强大的网络安全技术为其保驾护航。网络安全是一个包含内容很广泛的技术领域，入侵检测是其中一个重要的分支和组成部分。入侵检测是检测和响应计算机误用的学科。其作用包括威慑、检测、响应、损失情况评估、攻击预测和起诉支持。其研究包括网络模型的建立及数据收集，入侵检测模型的建立，入侵检测产品开发，入侵检测系统部署，入侵检测技术研究等。我们研究的是入侵检测技术中的入侵检测算法。入侵检测算法是入侵检测系统中最为核心的部分，它的检测能力和效率直接决定了整个入侵检测系统的检测能力。目前，大部分的入侵检测算法使用大量的带标签数据或者完全正常的数据来进行训练，使算法能发现系统正常或者异常行为的内在数学模型。然而，实际上我们并不能在实际网络环境中实时地或者轻易地得到贴有正确标签的或是完全正常的数据。为了解决这样的问题，人们提出了无监督入侵检测的概念和思想i i f 2 j ，研究可以直接处理无标签原始网络数据的方法和技术，以减少入侵检测算法的计算和存储资源，提高入侵检测的效率。无监督入侵检测算法一方面可以作为一个预处理过程，为现有的高效入侵检测算法提供带标签的正常、异常数据或者完全正常的数据，另一方面，它也可以直接构造入侵检测分类器。作为一种新思想、新方法，无监督入侵检测算法具有广阔的研究前景和重要的应用价值。基于无监督的入侵检测 1 2 1 入侵检测的历史发展 i 2 入侵检测概述 i d s 的诞生及发展有以下里程碑和阶段。 1 9 8 0 年，a n d e r s o n 提出必须改变现有的系统审计机制，为系统安全人员提供安全信息。他将入侵企图( i n t r u s i o na t t e m p t ) 或威胁( t h r e a t ) 定义为：潜在的、有预谋的、未经授权的访问信息、操作信息致使系统不可靠或无法使用的尝试。这被认为是关于入侵检测的最早论述j 。 1 9 8 4 年到t 9 8 6 年乔治敦大学韵d o r o t h yd e n n i n g 和s r i 公司计算枫科学实验室的p e t e r n e u m a n n 研究出了一个实时入侵检测系统模型i d e s ( i n t r u s i o nd e t e c t i o n e x p e r ts y s t e m s ，入侵检测专家系统) ，是第一个在应用中运用了统计和基于规则两种技术的系统，是入侵检测研究中最有影响的一个系统。 1 9 8 7 年，d e n n i n g 提出了入侵检测系统的抽象模型【4 l ，首次将入侵检泓的概念作为一种计算机系统安全防御问题的措旌提出。同一时期，大量入侵检测原型系统出现。 2 0 世纪8 0 年代后期。商业化的入侵检测系统开始出现。1 9 9 8 年，为了提高 d s 产品、组件及与其他安全产品之间的互操作性，美国国防高级研究计划署( d a r p a ) 和互联网工程任务组( i e t f ) 的入侵检测工作组( i d w g ) 发起制定了一系列i d s 的标准草案。d a r p a 提出的建议是c i d f ( c o m m o n i n t r u s i o nd e t e c t i o nf r a m e w o r k ) 通用入侵检测框架。至此，入侵检测完成了从概念诞生、模型建立、产品实现、产业标准化的过程。目前入侵检测仍在不断发展中。 1 2 2 入侵捡测的基本概念入侵检测是指“通过对行为、安全日志或审计数据或其它网络上可以获得的信息进行操作，检测到对系统的闯入或闯入的企图”p j ( 国标g b 厂r 1 8 3 3 6 ) 。入侵检测技术是为保证计算机系统的安全两设计与配置的一种能够及时发现并报告系统中未授权或异常现象的技术，是一种用于检测计算机网络中违反安全策略行为的技术。入侵检测系统是进行入侵检测的软件与硬件的组合。评价一个入侵检测算法或系统检测能力的其中两个参数是对攻击的检测率和误第一章绪论警率。检测率是实验检出的攻击数与实际的攻击数的比值；误警率是检测出为攻击而实际为正常的数据数与正常数据总数的比值。 1 2 3 入侵检测的分类根据不同的分类角度，入侵检测有不同的分类。以下是几种重要分类。 1 、按照检测技术划分，入侵检测分为两类： ( 1 ) 异常检测( a n o m a l yd e t e c t i o n ) ：建立用户正常的行为模型，通过判断用户行为是否显著偏离正常的行为模型来进行入侵检测。其优点是能及时检测到来知的攻击。但目前尚未有统一的模型能很好地描述各种复杂系统的正常行为。而且在现有技术下，误警率普遍较高。 ( 2 ) 误用检测( m i s u s ed e t e c t i o n ) ：也称滥用检测。通过建立攻击行为的特征库采用特征匹配的方法来确定攻击事件。其优点是对已知攻击的检测率高，误警率低。缺点足，它的检测能力依赖于特征库的更新，不能检测到未知的攻击类型。 2 、按照检测对象划分，入侵检测分为： ( 1 ) 主机型入侵检测：系统分析的数据是计算机操作系统的事件日志、应用程序的事件日志、系统调用、端口调用和安全审计记录。主机型入侵检测系统保护的一般是所在的主机系统。 ( 2 )网络型入侵检测：系统分析的数据是网络上的数据包、网络日志、网络安全审计记录等。网络型入侵检测系统担负着保护一个局域网或网络段的任务。 ( 3 ) 混合型入侵检测：综合了基于网络和基于主机的混合型入侵检测系统既可以发现网络中的攻击信息，也可以从系统日志中发现异常情况。 3 、按照数据分析发生的时间不同，可以分为： ( 1 ) 脱机分析：在行为发生后，对产生的数据进行分析，而不是在行为发生的同时进行分析。如对日志的审核、对系统文件的完整性检查等都属于这种类型。 ( 2 ) 联机分析：在数据产生或者发生改变的同时对其进行检查，以发现攻击行为。这种方式一般用对网络数据的实时分析，对系统资源要求比较高。 1 2 4 入侵检测系统现存的问题入侵检测系统在网络安全中有着有重要的作用，但在国内的应用远远谈不到普 4 基于无监督的入侵检测及，一方面是由于用户的认知程度较低另一方面是由于入侵检测是- i - j 比较新的技术，还存在一些技术上的困难，不是所有厂商都有研发入侵检测产品的实力。目前的入侵检测系统存在的主要问题有1 6 3 ： l 、如何减少入侵检测的误报和漏报，提高其安全性和准确性。在误用检测系统中，检测主要判断网络中搜集到的数据特征是否出现在入侵模式库中。因此。面对每天都有的新攻击方法产生和新漏洞发布，攻击特征库不能及时更新是造成系统漏报的一大原因。而异常检测系统的检测技术本身就导致了漏报误报率较高。另外，大多数入侵检测系统是基于单数据包检查的。协议分析的不够，因此无法识别伪装或变形的网络攻击，也造成了大量的漏报和误报。 2 、如何解决海量信息分析与提商入侵检测的速度的矛盾。目前，大部分现有的入侵检测产品只有几十兆的检测速度，随着百兆、千兆网络的大量应用，要求入侵检测产品能高效处理网路中的海量数据。这对入侵检测系统的软硬件都是极大的挑战。 3 、多种网络安全产品的交互和兼容问题。在大型网络中，网络的不同部分可能使用了多种入侵检测系统，还有防火墙、漏洞扫描、病毒防治等安全设备和产品，这些安全产品之闯的兼容和检测冲突阔题，以及如何交互信息，节约系统资源，协作工作的问题，需要解决。 i 2 5 入侵检测的发展方向今后的入侵检测大致可朝下述方向发展1 6 7 3 j 。 l 、入侵检测技术的改进和创新减少入侵检测误报和漏报最终需要依靠检测技术的改进和创新。目前入侵检测分析方法主要有：统计分析、模式匹配、数据重组、协议分析、行为分析等。智能化入侵检测则是目前较新的入侵检测方法。智能是知识和智力的总和。智能具有以下特征；具有感知能力，具有记忆与思维的能力。具有学习与自适应能力，具有行为能力 2 0 1 。人工智能的研究是当今科学研究的主流之一。人工智能的研究不仅体现了人类对自身与自然界存在和发展的不断探索，也在为人类提供新的生活平台及新的解决问题的范式。人工智能方法，简称智能方法，广义的来说，就是一切能体现上述若干特征的方法。从这个意义上来说，智能方法包括了机器学习方法、自然计算、数据挖掘方法、第章绪论5 模式识别等等方法。用智能化的方法与手段来进行入侵检测，现阶段的应用解决方案为，高效常规意义下的入侵检测系统与具有智能检测功能的检测软件或模块的结合使用。 2 、分布式入侵检测分布式入侵检测有两层含义。其第一层含义是，针对分布式网络攻击的检测方法；第二层含义是，使用分布式的方法来检灏分布式的攻击。其中的关键技术为检测信息的协同处理与入侵攻击的全局信息的提取。 3 、改进对大数据流量的网络的处理方法随着对大数据量处理的要求，入侵检测的性能要求也逐步提高，出现了千兆入侵检测等产品。但如果入侵检测检测产品不仅具备攻击分析，同时具备内容恢复和网络审计功能，则其存储系统也很难完全工作在千兆环境下。这种情况下，网络数据分流也是一个很好的解决方案，性价比也较好。这也是国际上较通用的一种作法。 4 、内容恢复和网络审计功能的引入内容恢复即在协议分析的基础上，对网络中发生的应为加以完整的重组和记录，网络中发生的任何行为都逃不过它的监视。网络审计即对网络中所有的连接事件进行记录。内容恢复和网络审计让管理员看到网络的真正运行状况，调动管理员参与行为分析过程。此功能不仅能使管理员看到孤立的攻击事件的报警。还可以看到整个攻击过程，了解攻击确实发生与否，查看攻击着的操作过程，了解攻击造成的危害。不但发现已知攻击、外部攻击，同时也发现未知攻击、内部用户的恶意行为。但使用此功能的同时需注意对用户隐私的保护。 5 、全面的安全防御方案使用安全工程风险管理的思想与方法来处理网络安全问题，将网络安全作为一个整体工程来处理。从管理、网络结构、加密通道、防火墙、病毒防护、入侵检测多方位全面对所关注的网络作全面的评估，然后提出可行的全面解决方案。 1 3 1 无监督方法 1 3 无监督入侵检测算法研究概述无监督的学习和方法是从无类别标记的样本中提取出有用的信息。为什么要进行无监督方法的研究，其作用是什么? 首先，收集并标记大型样本集是非常费时费力的 6 基于无监督的入侵检谢工作。如果能先在一个较小的样本空间上粗略地训练一个分类器，随后，允许它以自适应的方式处理大量的无标签的样本，我们就能节约大量的时间和精力。第二，也许有人希望逆向解决问题：先用大量的未标记样本集来自动的训练分类器，再标记数据的分组结果。这种方法比较适合数据挖掘方面的大型应用，因为这些应用常常事先不知道特处理数据的具体情况。第三，存在很多应用。待分类模式的性质会随时间发生缓幔的改变。如，自动食品分类器中的食品会随季节更换而改变。如果这种性质的变化能在无监督的情况下捕捉到，分类器的性能就会大幅提高。第四。可以用无监督方法提取些基本的特征这些特征对迸一步的分类会很有用。事实上很多无监督的方法都可以以独立于数据的方式工作，为后续步骤提供“灵巧预处理”和“灵巧特征提取”等有效的前期处理。最后，在任何一项探索性的工作中，无监督的方法都可以向我们揭示观测数据的一些内部规律和结构。如果我们能够通过这些方法得到一些有价值的信息，就能更有效地设计具有针对性的分类器。 i 3 2 无监督入侵检测算法研究目前大部分的入侵检测方法使用大量的带标签数据或者完全正常的数据来进行训练。我们对误用检测和异常检测方法进行分别讨论。在误用检测方法中，每个训练数据都标签为正常或者入侵，某个机器学习算法就在这个带标签的数据集上进行训练，例如，m a d a m i d 系统【9 l 从网络连接记录中提取特征。然后建立入侵模型。他的入侵检测模型是一些规则，通过判断某些网络变量的取值来进行分类。在异常检测方法中，大多数方法采用的诩练方法是，从一个完全正常的数据集中学习和建立正常行为的模型，然后，根据新的数据偏离正常模型的程度，判断数据是否是异常数据。关于这方面研究的综述见文献1 1o 】。可见。大部分误用入侵检测和异常入侵检测的算法都极大地依赖带标签的训练数据。如果调练数据的标签不正确，通过算法训练得到的正常或异常模型就会不准确，算法的检测效率就会大大降低，甚至算法会完全失效。然而，实际上我们并不能在实际网络环境中实时地或者轻易地得到贴有正确标签的戏是完全正常的数据。对极大数量的审计数据进行手工分类显然是不现实的。当然，我们可以通过模拟入侵行为或者正常彳亍为获得带标签的数据，但是，我们所建立的模型也许并没有完全反映网络和系统的真实或全部行为，而我们能够处理的攻击也将仅限于我们脆模拟的攻击，在以后出现的新的攻击将无法及时反映在训练数据中。无监督入侵检溉的研究第一章绪论7 也就从关注这样的问题开始。美国哥伦比亚大学的一个研究小组最早发表了关于无监督入侵检测方面的论文。 2 0 0 0 年。e e s k i n 等人在“a n o m a l y d e t e c t i o n o v e r n o i s y d a t a u s i n g l e a r n e d p r o b a b i l i t y d i s t r i b u t i o n ”一文l i i l 提出要在“有嗓声”的数据中进行异常检测。在文献【l 】中，首先提出了“无监督异常检测”的概念，强调了在算法训练中使用无标签的原始数据，要在原始数据中找到其中的入侵行为。在【2 】中，作者为无监督异常检测提出7 一个几何框架。其中的思想极大影响了近两年来这个方向的研究。其基本思想是，把训练数据集用某种映射( 如低维映射核函数映射等) 投影到一个特征空间，然后在特征空问中确定异常点。此后，关于无监督入侵检测的文章开始出现。其中，有的使用了聚类方法【1 2 i 引，还有很多文献应用了统计学习理论中的单类支撑矢量机晤j 6 i 。此外，还有文献吡”朋1 提到可以应用孤立点检测的技术，但将孤立点检测算法具体应用到入侵检测中的文章还不多见。 1 3 3 无监督入侵检测算法研究的现状与挑战我们将无监督入侵检测定义为：在无标签的数据中进行学习并发现数据中的入侵行为。无监督入侵检测算法的研究是一个新兴的研究方向，具有广阔的研究前景。同时，无监督入侵检测算法也是一个具有挑战性的课题。首先，从要解决的问题的角度看，有下面几方面： l 、算法不要求训练数据具有类别标签，这意味着数据提供信息的相对减少( 与等量的带标签数据相比) ，同时要求足够多的训练数据。 2 、网络入侵检测研究的数据大多是海量、异构、高维的审计数据。 3 、在很多网络应用的场合，实时地学习和更新的能力是很重要的。这要求算法具有挑选和保留有用信息的能力、学习和自适应能力、迅速反应的能力。其次，从现有的算法看，存在下面几方面问题； l 、可扩展性。现有很多算法无法在小数据集( 小于2 0 0 个数据) 与大规模数据集中同时工作的很好。现在只有少数聚类算法适合处理大数据集。 2 、处理不同类型的属性的能力。很多算法只能处理数值型数据。而无法处理类属型或混合型的数据。 3 、需要先验知识去决定输入参数。现在几乎所有的算法都必须初始化一些参数， 8 基于无监督韵入侵检溯如数据的类别数，有的聚类结果还对参数敏感。这加重了用户的负担，也使聚类的质量难以控制。 4 、对任意形状的聚类的识别。一般的聚类算法都是以欧几里德距离或者曼哈坦距离来衡量数据的相似度，基于这样距离度量的算法区域发现具有相似尺度和密度的球形簇。而实际应用中，一个簇的形状可能是任意形状的。 5 、处理嗓声的能力。绝大多数现实世界中的数据库都包含和噪声和孤立点，一些算法对这些数据敏感，可能会导致聚类结果质量的降低。因此，算法必须能够去除或过滤噪声。最后，从其他相关支持看，当前对网络进行描述的研究还在进行，人们还无法用足够精确的模型及时地描述网络行为。而对入侵检测技术的评估也还没有统一的标准，这些都影响着整个入侵检测领域的发展。可见，现有方法、技术与解决问题的要求是有矛詹的。正是这种矛盾推动着无监督入侵检测方向的发展。当然，我们不可能找到一个算法完全满足上面对算法的所有要求而同时又能克服现有算法的所有缺点。但是意识到这些问题将提供我们研究工作的切入点和灵感，同时使我们能从不同的角度来研究和评价一个问题或算法。大多数时候，我们会发现需要解决的闯题圊时对某些方殛有要求，当不能对这些方蔼都解决得很好时，通常的做法是在各种性能之间进行均衡( t r a d e o f f ) 。提供在现有资源下，解决问题的可行方法。这种均衡的思想会体现在本文的所有工作中。 1 4 论文所做的工作本文总结和归纳了前人在无监督入侵检测算法方面所做的研究和取得的成果。在研究分析了闯豚特点后，基于互补融合的原理，将无监督的传统方法与智能方法中的若干算法结合，尝试解决无监督入侵检测中的一些问题获得了一些成果，同时也意识到一些仍然存在的问题。下面简单介绍一下在文章中提出的方法所尝试解决的问题及获得的结果。很多传统的聚类算法并不适合两络数据的处理首先，算法不适合海量致据的处理。理由是，算法本身的时间和空间复杂度是指数级的，用现有的计算机系统进行处理，所需的空间和时侮是无法接受的。其次，在两络应用的场合，耍实时处理数据。但很多算法不能胜任增量学习。最后，很多聚类算法是为数值型数据设计的，不适台第一章绪论9 混合型的网络数据的处理。为了提高了传统聚类算法的可用性，我们将一种基于凝聚的层次聚类方法与d ec a s t r o 提出的人工免疫网络a i n e t 结合，提出了一种基于进化免疫网络的无监督异常检测方法。这种方法借鉴了a i n e t 网络压缩大型数据的原理和方法，将a i n e t 改进为可以处理混合类型数据。方法的基本恩想是，先用进化免疫网络对数据进行学习，用小规模的网络来表示庞大的数据，即完成数据的压缩表示。然后用一种传统的基于分层聚合的聚类方法来分析网络，最终完成对数据集的分析和正常模型的建立。这种方法在一定程度上可以实现增量学习的能力。支撑矢量机中的单类支撑矢量机是一种无监督学习的方法，早就被应用于无监督入侵检测中。支撑矢量机是通过对一个优化问题的求解得到问题的解答的。我们发现，直接将海量的数据输入单类支撑矢量机中迸行训练，那么大量的数据在硬盘和内存中反复调用将会引起很长的训练时间。我们提出通过合理的数据预处理算法，自动选择合适的训练数据集。这样既能使单类支撑矢量机产生较好的分类效果，又能合理地节省存储空间和计算资源。实验证明，在单类支撑矢量机分类准确率下降不多的情况下，数据预处理方法能极大的提高单类支撑矢量机的训练速度和分类速度。孤立点挖掘是当前数据挖掘研究的热点之一。孤立点挖掘也是无监督的方法。当前孤立点挖掘的研究更多的是理论和算法的研究。我们从孤立点挖掘的思想和方法中得到启发，改进了一种孤立点挖掘方法，使之适合于无监督入侵检测。这种方法使用了基于密度的孤立点挖掘的主要思想，克服了基于距离的方法的缺点。同时用克隆选择算法进行区域搜索。实验证明，这种方法行之有效，能发现入侵模式，具有继续深入研究的价值。 1 5 本文内容概述本论文的内容安排如下：第一章为绪论，简要说明了所做工作的目的、范围；入侵检测及无监督入侵检测的国内外进展情况：本文工作的切入点、研究方法、取得的成果，等。第二章介绍了本章所做工作、所使用方法的理论基础。包括实验采用的数据模型，免疫进化网络的发展和基本原理，统计学习理论的发展状况和支撑矢量机的基本原理，数据挖掘中的孤立点检测技术发展，等。第三章到第五章是作者所做工作的总结。每一章分别介绍了一种具有龟l j 新性的方法，包括方法的来源、应用到无监督入侵检测中的理由和作用、得到的实验效果及方基于无监督的入侵检测法优缺点分析等。第三章是基于进化免疫网络的无监督异常检测方法。第四章是基于数据预处理方法与单类支撑矢量机的无监督异常检测方法，将两种数据预处理方法分别与单类支撑矢量机结合。第五章是一种基于孤立点检测的无监督入侵检测方法，运用了孤立点挖掘的思想，将基于密度的孤立点挖掘方法与克隆选择搜索方法结合。第六章是总结部分。总结了作者的工作，同时给出了作者对无监督入侵检测技术的发展前景与方向的见解。第二章网络模型描述及算法基础理论第二章网络模型描述及算法基础理论 2 1 网络数据模型k d d c u p1 9 9 9 数据本文所研究是基于网络的入侵检铡，使用的网络数据集是k d dc u p1 9 9 9 入侵数据集，也简称为k d d c u p 9 9 数据。它最初来源于1 9 9 8 年d a r p a 入侵检测评估项目。在1 9 9 8 年，美国的d a r p a ( d e p a r t m e n t o f d e f e n s e a d v a n c e d r e s e a r c hp r o j e c t s a g e n c y ) 资助麻省理工学院的 l i n c o l n 实验室建立一个统一的标准以评估入侵检测系统的性能。d a r p a 的入侵检测数据是第一个用于评估计算机入侵检测系统的标准数据【2 1 i 。这个数据集称为k d dc u p1 9 9 9 数据集源于1 9 9 9 年的k d dc u p 竞赛 2 2 2 3 l 。k d d c u p 竞赛是一个非正式的竞赛，每年与“知识发现与数据挖掘会议( k n o w l e d g e d i s c o v e r y a n dd a t am i n i n g c o n f e r e n c e ) ”同时举行。每年的会议都会给出一到两个数据挖掘方面的问题，同时给出“标准”的数据来测试各种方法，目的是通过交流和比较。找到问题的最佳解决方法。同时促进数据挖掘学科的发展。入侵检测问题就是1 9 9 9 年的两个题同之一，其目的是建立一个分类器以判断t c p i p 连接是正常还是入侵。此后，这个数据集就成为了人们研究和测试入侵检测算法的标准数据之一。这批数据来源于一个模拟美国空军( u s a f ) 局域网的网络，包含了9 个星期的基于t c p 连接的网络流量，大约有5 0 0 万条连接纪录用于训练算法，大约2 0 0 万条记录用于测试。其中有大量的正常网络流基和各种攻击，具有很强的代表性。在训练集中，共有2 4 种攻击，它们可分为4 类攻击： ( 1 ) d o s ：( d e n i a lo f s e r v i c e ) 拒绝服务攻击，如s y nf l o o d ，l a n d 攻击； ( 2 )r 2 l ：( r e m o t et ol o c a l ) 远程非授权的接入，如口令猜测： ( 3 )u 2 r ：( u s e rt or o o t ) 各种权限的非法提升，如各种本地和远程的“b u f f e r o v e r f l o w ”攻击： ( 4 ) p r o b i n g ：各种端口扫描和漏洞扫描。测试集中有1 4 种攻击是训练集中没有的，但是现在数据榘并没有完全公开，大多数实验是通过实验者自己挑选部分已知的数据集弘i 来设计。一个完整的t c p 连接会话被认为是一个连接纪录，每个u d p 和i c m p 也被认为是一个连接纪录，每条连接信息包括以下四类属性集： ( 1 )基本属性集。如：连接的持续时间、协议、服务、发送的字节数、接收的字 2 基于无监督的入侵检测节数等。 ( 2 ) 内容属性集。即用领域知识获得的与信包内容相关的属性。如：连接中的 h o t 标志的个数、本连接中失败的登陆次数、是否成功登陆等。 ( 3 ) 流量属性集。即基于时间的与网络流量相关的属性。这类属性有分为两种集合：一种为s a m eh o s t 属性集，即在过去2 秒内与当前连接具有相同目标主机的连接中，有关协议行为、服务等的一些统计信息；另外一种是s a m e s e r v i c e 属性集，即在过去2 秒内与当前连接具有相同服务的连接中的一些统计信息。 ( 4 ) 主机流量属性集。即基于主机的与网络流量相关的属性。这类属性是为了发现慢速扫描而设的属性，获取的办法是统计在过去1 0 0 个连接中的一些统计特性。如过去l o o 个连接中与当前连接具有相同目的的主机的连接数、与当前连绩具有相同服务的连接所占的百分比等。基本属性是每条连接信息都固有的属性，领域属性、流量属性和主机流量属性是 w e n k el e e 等人采用数据挖掘的方法，通过正常模式和入侵模式比较，提取出柬的与入侵检测相关的属性1 2 5 | 。 4 类属性共有4 1 个，属性分别属于几种类型，有字符枚举型( 如网络协议) 、二值型、连续自然数型、连续整数型等。属性的取值范围也不尽年1 j 同。 k d dc u p l 9 9 9 数据集是一个典型数据挖掘数据库具有大型、离维、异构等特点。应该指出的是。尽管这是一个被广泛用来评价入侵检测算法和歼展入侵检测研究的数据集，它仍被指出没有很好的描述网络模型【2 “，尤其是对u 2 r 和r 2 l 攻击的描述。事实上，网络行为的描述和网络模型的建立也是当前研究的热点，它的进展和研究成果将直接影响与之相关领域的发展，包括入侵检测领域。 2 2 1 自然计算 2 2 人工免疫系统自然计算是指以自然界，特别是生物体内功能、特点和作用机理为基础，研究其中所蕴含的丰富的信息处理机制。抽取出相应的计算模型，设计出相应的算法并应用于各个领域。自然计算包括了进化计算、神经计算、生态计算、量子计算和复杂自适应系统等在内的众多以自然界机理为算法设计基础的研究领域。具有模仿自然界的特第二章网络模型描述及算法基础理论 13 点，通常是一类具有自适应、自组织、自学习能力的算法能够解决传统计算方法难以解决的各种复杂问题，在大规模复杂系统的最优化设计、优化控制、计算机网络安全、创造性设计等领域具有很好的用途。从学科发展的角度来看。自然计算的研究是各类自然科学( 特别是生命科学) 和计算机科学交叉而产生的研究领域，它的发展完全顺应了当前多交叉学科不断产生和发展的潮流。有关于自然计算的研究主要集中在：进化计算( 模拟自然进化过程) 、人工神经网络( 模拟大脑神经系统) 、分子计算、蚁群系统( 模拟蚂蚁群体觅食、筑巢等社会活动) 、量子遗传算法、人工免疫系统、人工内分泌系统、复杂自适应系统等。本文主要涉及入工免疫网络和克隆选择算法，属于人工免疫系统领域，下丽介绍一下该领域的进展和现状。 2 2 2 人工免疫系统的发展 “免疫”一词，首次见于我国明朝的免疫类方，是指“免除疫窃”，也就是免除传染疾病的意思。在西方，免疫( i m m u n e ) 是从拉丁文i m m u n i s 而来，原意是免税 ( e x c e p tf r o m “c h a n g e s ”) ，引申为免除疾病。免疫性( i m m u n i t y ) 指机体接触抗原性异物( 如各种微生物后) ，能产生一种特异性排除这些异物的保护性生理反应：长期以来免疫性仅仅指机体抗感染的防御能力，因此也称抵抗力属于微生物学范畴。随着科学技术的发展和基础理论研究的深入，免疫机制逐渐被揭示，人们对免疫的认识早已超过了抗感染的范围，对免疫概念也有了新的理解。研究生物免疫系统机理的“免疫学”成为当代生命科学中的前沿学科【2 “。免疫系统内没有中心器官，是由体内循环的免疫细胞群构成的复杂分散系统。它能区分自己( s e l f ) 与非已( n o n s e l f ) ，并具有排除与记忆非己的功能。从计算的角度看，生物免疫系统是一个高度并行、分布、自适应和自组织的系统，具有很强的学习、识别、记忆和特征提取能力。人们希望能获得生物免疫系统所具有的这些能力，也就开发面向应用的免疫系统计算模型人工免疫系统( a r t i f i c i a li m m u n es y s t e m ， a i s ) ，用于解决工程实际问题。目前人工免疫系统正在越来越多的受到人们的关注。它作为计算智能研究的新领域，提供了一种强大的信息处理和问题求勰范式口。 1 9 7 4 年，j e r n e 提出了免疫系统的网络假说【捌，开创了独特性网络理论，给出了免疫网络的数学框架，p e r e l s o n 对此进行了进一步的阐述，1 9 8 6 年，f a r m e r t ”1 基于免 1 4 基于无监督的入侵检溯疫潮络假说，构造了一个免疫系统的动态模型并与h o l l a n d 的分类器系统进行比较，提出了一些具有价值的学习算法的构造思想。随后的研究者不断从生物免疫系统中抽取隐喻( m e t a p h o r ) 机制，用于a i s 模型设计、算法实现和工程应用，其应用的范围包括信息安全弦3 “、模式识别1 3 扪、智能优化p 6 1 、机器学a t ”l 、数据挖掘1 3 8 , 3 9 1 、机器人学、自动控制等领域。显示了a i s 强大的信息处理和问题求解能力及广阔的研究前景。对于a i s 有不同的定义。我们采用t i m m i s 的定义：a i s 是一种有理论生物学启发而来的计算范式，它借鉴了一些免疫系统的功能、原理和模型，并用于复杂问题的解决。目前，a i s 在网络安全、机器学习与数据挖掘等方面已经得到了许多大学、研究机构和工业界的重视。美国新墨西哥大学开展基于a i s 的信息安全方面的研究。致力于构建计算机免疫系统，其相关的研究成果已经在i b m ，i n t e l 等公司的相关信息安全软件中得到了应用。英国k e n t 大学的t i m m i s l 4 0 1 对基于a i s 的机器学习和数据挖掘技术进行了系统的理论研究并开展了基于a i s 的机器学习和数据挖掘技术进行了系统性的理论研究，并开展了基于a i s 的大规模数据挖掘应用研究。作为计算智能的一个崭新分支，a i s 也已经成为许多国际期刊的重要议题。文献 4 1 4 6 对人工免疫系统的原理、模型作了详尽的分柝。而关于人工免疫系统的新进展则包括 4 7 4 9 】。 2 2 3 人工免疫系统的仿生机理与实现从信息处理的角度来看，免疫系统其备强大的识别、学习和记忆的能力以及分布式、自组织和多样性的特性，这些显著的特性不断地吸引着研究人员从免疫系统中抽取有用的隐喻机理，开发相应的a i s 摸墅和算法用于信息处理和问题求解。在这里不描述a i s 的生物原型1 5 0 , 5 1 1 ，主要给出a i s 的仿生机理。图2 1 是a i s 仿生机理的主要内容描述。图2 1 中，前4 种a i s 仿生机理对应了免疫系统的应答过程。免疫应答包括初次应答和再次应答。初次应答是搭免疫系统第一次遇到一种抗原再次应答是指对已识别抗原产生的免疫应答。免疫应答的实质就是一个识别、效应和记忆的过程。我们对文中主要应用到的克隆选择和免疫网络机理及其相应的实现算法进行描述。第二章网络模型描述及算法基础理论图2 1 人工免疫系统的仿生原理 l 、克隆选择与克隆选择算法克隆选择原理最先由j e r n e 提出。后由b u m e t i s 2 1 予以完整阐述。其大致内容为：当淋巴细胞实现对抗原的识别( 即抗体抗原的亲和度超过一定闽值) 后，b 细胞被激活并增殖复制产生b 细胞克隆，随后，克隆细胞经历变异过程，产生对抗原具有特异性的抗体。克隆选择理论描述了获得性免疫的基本特性，并且声明只有成功识别抗原的免疫细胞才得以增殖。经历变异后的免疫细胞分化为效应细胞( 抗体) 和记忆细胞两种。克隆选择的主要特征是免疫细胞在抗原刺激下产生克隆增殖，随后通过遗传变异分化为多样性效应细胞和记忆细胞。克隆选择对应着一个亲和度成熟( a f f i n i t y m a t u r a t i o n ) 的过程。即对抗原亲和度较低的个体在克隆选择机制作用下，经历增殖复制和变异操作后，其亲和度逐步提高而“成熟”的过程。因此，亲和度成熟本质上就是一个达尔文式的选择和变异的过程。克隆选择原理是通过采用交叉、变异等遗传

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于无监督的入侵检测.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于无监督的入侵检测.pdf

文档简介

温馨提示

最新文档

评论

相关文档