




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
牮j e 魄力大学碳士学倥论文 摘要 本文班繁予数据挖掘方法的入侵检鞭4 技术研究为拨心,莆先对数据挖掘技术鞠入侵投 溟按零送行了疆究鞠分辑,探讨了数搀挖瓣方法中聚粪算法在入侵捡懑审黝应溺,著掇爨 了一种基于最短距离算法、基于“同类相近”思想的鼹近邻优先( n e a r e s t n e i g h b o r f i r s t ) 舞法。在谈辣法中采用分辏读敬静原刘( 最远邻援索髯法s n n ) ,查找每一患6 邻域内豹 最近邻点,并采用k d dc u p1 9 9 9 数据集中的数据对该算法盼执行效率进行检测。摄攒这 一算法,设计了一个基于该聚炎簿法的入侵检测系统。 关键词:数攒挖掘,聚类分析,最近邻优先,入侵检测,附络安全 a 瓤s t 鼗a c 霉 t h ec o r eo ft h i st h e s i s 远t h er e s e a r c ha n da p p l i c a t i o no fd a t a - m i n i n gb a s e di n t r u s i o n d e t e c t i o ns y s t e m f i r s t ,t h ee x i s t i n gd a t a - m i n i n gt e c h n o l o g ya n di n t r u s i o nd e t e c t i o ns y s t e m t e c h n o l o g yw e r ea n a l y z e da n dc o m p a r e d ,t h ec l u s t e r i n ga l g o d t h mw a sd i s c u s s e d a n dt h e a d v a n t a g e so ft h et e c h n o l o g yw e r ei n d i c a t e d i nt h i sp a p e rn e a r e s tn e i g h b o rf i r s t ( n n f ) c l u s t e r i n g8 l g o r i t h mi sp r o p o s e dt or e s o l v et h i sp r o b l e mb a s e do nt h ei d e at h a tt h ed a t ai ns a m e c l u s t e rm u s tb en e a r , t h em a i nc o n t r i b u t i o ni n c l u d es n na l g o d t h m t h e nw et e s tt h i sa l g o r i t h m w i t ht h ed a t ak d dc u p1 9 9 9 + f i n a l l y , t h er e s e a r c hw o r kw a ss u m m a r i z e d ,a n dg i v e st h e p r o b l e mt os o l v ef l l r t h e r l ig u a n g - x i a ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp m f :w a n gy i n g k e yw o r d s :d a t am i n i n g ,c l u s t e r i n g ,n e a r e s tn e i g h b o rf i r s t ,i n 蠹 u s i o nd e t e c t i o n ,n e t w o r k s e c u r i t y 2 牮j e 魄力大学碳士学倥论文 摘要 本文班繁予数据挖掘方法的入侵检鞭4 技术研究为拨心,莆先对数据挖掘技术鞠入侵投 溟按零送行了疆究鞠分辑,探讨了数搀挖瓣方法中聚粪算法在入侵捡懑审黝应溺,著掇爨 了一种基于最短距离算法、基于“同类相近”思想的鼹近邻优先( n e a r e s t n e i g h b o r f i r s t ) 舞法。在谈辣法中采用分辏读敬静原刘( 最远邻援索髯法s n n ) ,查找每一患6 邻域内豹 最近邻点,并采用k d dc u p1 9 9 9 数据集中的数据对该算法盼执行效率进行检测。摄攒这 一算法,设计了一个基于该聚炎簿法的入侵检测系统。 关键词:数攒挖掘,聚类分析,最近邻优先,入侵检测,附络安全 a 瓤s t 鼗a c 霉 t h ec o r eo ft h i st h e s i s 远t h er e s e a r c ha n da p p l i c a t i o no fd a t a - m i n i n gb a s e di n t r u s i o n d e t e c t i o ns y s t e m f i r s t ,t h ee x i s t i n gd a t a - m i n i n gt e c h n o l o g ya n di n t r u s i o nd e t e c t i o ns y s t e m t e c h n o l o g yw e r ea n a l y z e da n dc o m p a r e d ,t h ec l u s t e r i n ga l g o d t h mw a sd i s c u s s e d a n dt h e a d v a n t a g e so ft h et e c h n o l o g yw e r ei n d i c a t e d i nt h i sp a p e rn e a r e s tn e i g h b o rf i r s t ( n n f ) c l u s t e r i n g8 l g o r i t h mi sp r o p o s e dt or e s o l v et h i sp r o b l e mb a s e do nt h ei d e at h a tt h ed a t ai ns a m e c l u s t e rm u s tb en e a r , t h em a i nc o n t r i b u t i o ni n c l u d es n na l g o d t h m t h e nw et e s tt h i sa l g o r i t h m w i t ht h ed a t ak d dc u p1 9 9 9 + f i n a l l y , t h er e s e a r c hw o r kw a ss u m m a r i z e d ,a n dg i v e st h e p r o b l e mt os o l v ef l l r t h e r l ig u a n g - x i a ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp m f :w a n gy i n g k e yw o r d s :d a t am i n i n g ,c l u s t e r i n g ,n e a r e s tn e i g h b o rf i r s t ,i n 蠹 u s i o nd e t e c t i o n ,n e t w o r k s e c u r i t y 2 华北电力大学硕士学位论文 y8 6 7 9 5 5 声明 本入郑重:占明:诧盘晰提交时硕士簪泣论文基于数据挖掘方法的入侵检测研究 与应用,是本人在华毫力大学玫凌硕士学建期潮,在导,零指导下进嚣熬磅究王圣筝弱鞭褥 的研究成果。据本人所知,除了文中特别加以标注和致谢之妙 ,论文中不包含其他人已经发 表或撰写过豹研究成采,魄不氇禽为获褥华j t 甑力大学或其稳教育撬构豹学位或证书丽使溺遗 的材料。与我一同工作的同志对本研究所做的雠何贡献均已在论文中作了明确的说明并表示了 谢意。 学位论文作者签名:厘i 、亟 日期:迦:i :i 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即;学校有权保管、并向 有关部门送交学位论文的原件与复印俘;学校可以采用影印、缩印藏其它笈青8 手段复帝8 并保 存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复制赠送积 交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内 枣。 ( 涉密瓣学位论文在鳃密詹遵守戴溉鼢 作者签名:磕 豳期:乏熊:乏刍 导师签名: 目熬:里:三丝 华托电力大学硕士学位论文 1 1 研究背景及意义 第一章引言 随着计算枫技术与通信技术的发展,计算机嘲络系统的组织方式发生了巨大的变化, 扶旱甥鹄蔓扶式结构热联橇系绕,笈聂裂黻分溱设计愚怒隽鏊磷懿各穗诗算辘弱终体系结 构。计算机网络的发展和各种技术的应用,使褥计算机网络本身已经成必了信息挫会最重 要的基础设施之一,它渗透到了社会生产和生活的各个领域,广泛应用于商业、教育、军 牵、辩研、政府部门等各个方面。 i n t e r n e t 熬覆盖灌鏊在不断扩大、使用人数在飞速壤热,随着网络技术研究的不断深 人以殿网络操作系统本身固有的诸多安全缺黢,如何保障信感安全、防范网络入授成为人 们最为关心的问题。网络入侵是指任何试图破坏资源完熬性、机密性和可用性的行为。相 对于传统的破坏手段而言,网络入俊具有以下特点:第一,网络入侵不受时间和空间的限 镪。获理论主说,入侵者可戳在任意时亥8 通过任意一个黼络节赢向另一个网络节点发动快 速露窍效蛉攻壹,恧不必考虑这嚣个节点实跨越理位置之闯熬距离远遥;第二,遥过爨络 的攻浓往往混杂在大量正常的网络活动之中,具有较强的隐蔽性;第三,入侵手段复杂多 样,阶段式、分布式等新的入侵手段的出现,使得入侵活动更具有隐蔽饿和欺骗性;第四, 与传统的破坏手段稻眈,黼络入侵其有更大的危害往。2 0 0 3 年,来自“计算机安全研究所” ( c o m p u t es e c u r i t yi n s t i t u t e ,麓称c s i ) 豹强告表翳,7 8 游受访者逶过互联网连接“经常” 受到攻击,丽这个比例在2 0 0 0 年只蠢5 9 ;根据从枣枣场调磺的g a r t n e r 公司的调查,截 止到2 0 0 5 年,在只是自融管理自己的网络安企的中小企业中,其中4 0 体骏到一次入侵 成功的网络攻击,而这些公司中的一半以上甚歪都不知道它们自己被攻击了。因此网络安 全己残戈戮家与国防安全静重凝组簸部分,同时也楚国家溺络经济发展的关键“。 鼷翦孵决网络安全闫题骶罴熙的方法一般包挺防火壤、数据翔密、努徐谈涯懿入爱检 测等。前三种措施对于那贱企图通过正常途径攻击系统的霉亍为具有较好的防范作周,毽对 那些采用非正常手段,利用系统软件的错误或缺陷,甚至是利用合法的身份进行危害系统 安全酌行为却显得无能为力。例如:幂| j 用远程植入技术,后门代码可以植入防火墙允许访 阉网终浆邀程墨放焉逶过防火墙,嚣门程痔懿系统激务等方式麓载,它只要戆先予杀毒软 牛运行,运行后不要有太多动作,杀毒软传是缀难发现它欺。在这萋孛震裳鸷焱下,第嚣耪 措施入侵检测得到了快速的发展。 入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,i d s ) 通过从系统内部和网络中收集信息, 分析计算穰是否有安全闯艨并采取褶应静猎施“。入侵检测的分拆技术主要分为谟用检测 ( m i s u s ed e t e c t i o n ) 萋曩异常检测( a n o m a l yd e t e c t i o n ) 嚣转。误用捡溪l 爨要蓠先垂网络安 华北电力大学硕士学患论文 全专家瓣攻志模式积累绕弱点进行分撂郛分类,然爱褥以手王建立稳瘦数入侵授溪l 戴刘耪 模式;褥异常检测则爨要依赖鼹络安全专家的懑觉秘经骏选择统计特缓皴槐逵入缦掇嬲系 统”。 计算机网络的发展要求一个好的入侵检测系统应该准确、易子扩充、具有好的适庶性, 并且熊经常及时迪进行爨新。为了尽可能减少建立入侵检测系统j 蓬程中的手工和不定因素 的影响,可以采用以数攒为中心的观点,把入侵检钡4 看成是数据分析过程,其中心思想怒 在入侵捡溅系绕中使鼹数据挖掘( d a t a m i n i n g ) 技术。数罐挖掘怒祆大量鹩数据串,摘取 崮潜奁鹣、裔徐穰匏懿识( 模型鬣筑羹) 豹过疆。数据挖箍技术怒一个新兴静数据分祈技术, 在髑业、生物、决策簿方疆有很多的磺究,并鼹起到了缀大蛇乍遐“。 由于数攥挖掘能够从存德的大量数据中谖剃出鸯效、巍黢、嶷育潜在鼹途及最终爵激 理熊的模式,所以可以用于发现未知或颓类型的攻击。传统的基于数据挖掘的入侵检钡4 模 型完全依赖于数据挖掘算法对已标记数据集中数据样本的学习,因此保证数据样本的标记 正确往和纯净幢,对于建立一个有效的入侵检测系统至笑重要。但是在实际应粥中,委为 系缆静学习波鬃纯净的数褥鬃往穰不太容荔,并且代价较高。以聚类( c l u 驰e f i n g ) 为代 表豹秃燕督舞豢捡溅( u n s u p e r v i s e da n o m a l yd e t e c t i o n ) 方法麓撼蹬解决了传统方法存在 豹鹈题剐。 1 2 国内外入侵检测系统研究现状 随着网络速度的提高,网络的数据流量越来越大,如果依靠人工分析入侵数据,不假 费时费力,箍且不能在最短的嚣寸闯内对入侵行为做出反应。随着数据挖掘技术的发展,出 现了一蓬较为威熬静方法,并且邑应用到入侵梭测中。1 9 9 7 年左右,荧国学者就开始着 手将数据挖掘方法痊翔到入侵检测串,嚣前琵敬褥了一定的戚采。国肉也膏一蘩高校,如 潼冬大学、瑟安电子秘按太学露肇中秘技大学懿学者在关注这个镶壤熬磺究盱“。 l 。2 。l 黧夕l 、磺窕现状 透年来,蓬繇学术赛对网络信惠安全十分羹视,混经葶l 起了凿际学术与工程界,包括 诗辩祝稀学与工程、数学、控涮工程、通信互程簿学科领域专家学者的极大关注。由荚嗣 电力磺究院( 嚣p 粼) 及霪骆熬资助魁摆啥傍大学、麻省理互学院、麴鲻骥工学院等美潮2 5 腰一流大学耨2 容金鼗参攘懿研究矮罄关键蒺磷设濂筏络系绞e 粼,s 羚“都的磷究,予 1 9 9 9 年4 月启动,该项目包括6 个子项目。资助总额达3 予万美元,其主要秘究内容楚 大舰模网络系统的安全闯题。 入侵检测是在i 9 8 0 年由a n d e r s o n 酋先提出的,他将入侵行为划分为外部闯入、内部 授税用户的越投使用和濂用等三种类型,并提出用审计追踪监视入侵威胁。1 9 8 7 年 d e n n i n g 疆出了个经典的异常稳渊抽象模登,蒋次将入侵检测体为一种计算枫系统安全 静陡德掺麓撬窭 1 3 j q 轴黜s t 等久撬密将免疫藤爨运溺到分布式入侵检测领域。近年来, 2 华北电力大学硕士学能论文 还有攀者撼融翘遗传算法和遗传编稷随用于入侵检测。r o s s a n d e r s o n 帮a b i d a k h a t t a k 则 将信惑检索技术弓| 入到了入侵检溯技术中。从1 9 9 8 年开始w l e e 簿入提出和实现了在公 炎入矮棱测框絮基磷上实瑷懿多缀i d s ,它运疆数豢挖掇方法对宰计数瓣进抒照瀵,掇裔 了瑰蠢捡溅系统戆壤磺度秘霹扩展援。鏊藩鏊内夕 炎 羰浆基于数爨挖撼熬入嫒检溅系绫骞 m a d a mi d 、a d a m 、分布式协同入侵检测聚统以及藏监督异常检测系统等。 舀前闰际上采用的网络入侵检测系统大体可分为两类:基于主机的入侵检测系统和基 予嘲络装入镘稔嚣系绫。:辩常情獯分析一般掰采蔫懿技黎是簸窜计 嚣暴串摘敬入侵梭溺度 爨逶行襞计分掇,鸯耀户建立撼述文传。警该攘述文终骜交纯瓣,爱g 认为霄笈堂入侵袭蠢 的可熊性。这种基于统计分柝的入侵检测方法霹以爨适成地学习用户行为的模式,当粥户 行为笈生焚化鲢,其搦述文件将会被修改。 诲多入侵梭测系绞在疲璃上已淑褥鬟要戒聚,鲡美瀚a t & t 韵c o m p u t e rw a t c h t r w 靛d i s c o v e r y , h a y s t a c kl a b o r a t o r 、兹h a y s t a c k 系统,魏憩鼯究绥织熟傣惑安全撩挥韵瑾 ( b o a ) ,l o sa l a m o s 隧家实验燮的教训鄹经验( w & s ) 霸鼹络舅嚣检溅与侵入报告n a d l 黜 祷,箕中鬣为戚功的瘫用系统照s r t 的一系列系统i d e s , n i d e s 秘e m e r a l d n ”。s r 一巍为美潮的f b i 提供先进豹阏络安全簸控系统解决方案。 l ,2 2 溺内婿究硗状 我国覆入侵检测技术方西撬霄一定研究,开发出了一些潮络安会产鼹,翔躜羹信稠鼹 终稀鼓公霹豹“灏络巡警”鼹凌方寨;薹骜泰瘸绩惠羧米脊鞭公锈酌i n t e m e t o n w a n e t 网络安 全该攀系绞;j 哀启明星疑科技贸鬟枣黻公司靛黑窭入侵捡测与鼷蘩系统;j 索避代先锋 软件饔照责任公司的行天黑客攻密检测工具等多种入侵糗测产品 逐鸯上海复显光华在嚣 于网簸控方面,讶究了对特定壹| 煞垃龅傣惑流量簸控与封墙技术;中潮科学院软俘所在入侵 箍 ;l 荧键技术磷究上,鼹爨了一释基于a g e n t 瀚分布式薜常入侵检镤4 方法。 恕数撰挖援技术敷用予入搜梭溅系绞跫出瓣稔鹱:强大学诗冀撬鬈l o s 磺究蜜w e n k e l e e 予1 9 9 9 每掇爨一个全撅驰概念“。霹鼹,j 毙磺霆怒美国霪稼郏d a r p a 矮嚣审熬一 部分。实验寝明,此方法熊够提高系统的检测率,丽不会降低任何一种梭测模型的其它效 熊。 爨裁,隧疼蠢有少数一些鹾究撬梭及大学燕奁姨事数撼挖掘在入橙检溺蠢嚣酌研究。 胰疆究成果来看,大多处予榜始除段,逐没骞系统懿邂谂撬爨。 数据挖掘拽术应用于入侵梭澳系统的基本鹰i 理髑方法尚未褥到充分磷究,嚣撼,零瀑 题研究数据挖箍的理论及用于入侵检测系统中数据分析的理论秘方法,凝肖一定的理论价 值。 鸯予嚣藩袁场主豹i d s 产龋存霆误掇率嵩等缺赢,大多数i d s 产晶浚有翼歪发挥冀癸 散,只是筒簿零罄地炎当滤篷分橱、审诗工具等。缀据数据挖糖技术瓣姆点,针对入後梭 测系统的特点及缺陷,设计种基于数据挖掘的入侵检测系统使象绫误报率降低、提亵系 华北电力大学硕士学位论文 绞正确蛙是磷究嚣懿掰在。从强藏国内终熬磺究残暴寒看,宅戆痰曩蕊景狠毒潜力。 1 3 本论文研究的主要内容 本论文主要针对目前入侵检测中黹遍存在的不可扩展和低时效的问题,解决如何使入 侵检测技术s 够适应计葵枫喇络的快遽增长。礤究工l 乍癌依摆疆翦审计数据流嬲随络数据 流的特征,利用数据挖掘中的聚类算法自动、离效地分析处理大型数据库,并从中挖掘出 潜在的规律、模式等知识的特点,以掇赢入侵检测的时效性与准确性。论文的主要研究工 作总的研究工作体现猩以下几个主要的方面: 1 分析入侵检测数据源特征,建立有效的训练和检测数据集; 2 提出蒸予数据挖掘的离效入侵检钡8 模越; 3 。在现衡数据挖掘算法上,提出适用于入侵检测的改进舞法,以适应入侵检测数据 集觏罐大、离检溯率和实时瞧等多方丽的要求。 耐向入侵检测的聚类算法是基于数据挖掘的入侵梭测系统研究的一个重要组成部分, 报据聚类算法能够靖冤需标记瀚数据隳遴行楚理,以及能进彳亍舜常数据挖掘等多稀特点, 可进步提高入侵检测系统的时效性。具体的研究工作包括: a ) 研究讨论理鸯数据挖攘算法程入侵检溯应翊中存在的闯题,探讨在入侵检测系统 中使用聚类技术的方法。主要包括数据预处理、训练和测试用标记数据集的自动 生戢、数舞分桥帮入侵捡测挨整静建立等方舔。 b ) 设计出更适用于入侵检测的最近邻优先( n e a r e s t n e i g h b o r s f i r s t 简称n n f ) 算法。 浚算法与转绕戆最短距离法蠢耜觳之楚,最怒距离法又称最遥邻连接法。萁基本 思想是把两个类的距离定义为两类中距离最近的元素之间的距离,并依次逐次选 择最“靠近”懿类聚集,壹至l 清是终点条件。该篓法在接索巢点匏最近邻森錾孪, 为了谶免比较其它所有点到该点的距离,本文提出了最近邻搜索算法,该算法只 爨诗舞菜一纛鬟它豹5 ( 曩产设定豹燕窝域馕) 邻域瓣近懿煮之瘸的鼹离,然嚣 通过比较,就可以得到与之最近的点。 c ) 逶过理论分援劳在k d dc u p1 9 9 9 数壤集上遴嚣实验验证n n f 算法憝撬嚣效率。 4 牮麓电力大学疆士学位论文 笫二章入侵检测与数据挖掘技术 作为零文研究韵基础,本章对相关鞭域知识进行介镪。酋先介绍了入侵检测系统的相 关概念、技术原理、分类和入侵检测系统的发展趋势;接着介绍了数据挖掘技术的概念、 特点、备种算法及适用场合。 2 1 入後梭测系统 入 萋检涮技零爨2 0 澄鳃嬲年代早颓提斑瑷采,经过2 8 多年的不断发袋,双最秘酌 一释宥价蕊翡研究怒法帮单缝静理论模黧,_ i 嚣速发展出种类繁多的各种实际原型系统,并 且奁送1 0 冬内灞现滋诲多商焉入餐检测系绕产菇,成为计算梳安全游护领城肉不可缺少 豹一萼孛鬟要鲍安垒黪护技术。 2 。l 。li d s 魏基本摄念 入侵检测是对系统的运行状态进行监视,发现各种攻击企图、攻蠢行海或蠹攻击继果, 以保证系统资源的机密性、完熬性与可用性。早猩1 9 8 0 年a n d e r s o n 在其报告中就提出了 威胁的早期模型,并按照其来源分为3 种: 1 ) 外部入侵者:系统的非授权用户。 2 ) 内部入侵者:超越合法全县的系统授权用户。其中,又可分为“伪装尝”秘“秘 密活动者”。 3 ) 违法者:在计算机系统上执行非法活动的合法用户。 美国国家安全通信委员会( n s t a c ) 下属的入侵检测小组( i d s g ) 在1 9 9 7 年给出了 关于“入侵”和“入侵检测”的定义:入侵蔻对信息系统的j # 授权访问以及( 或者) 未经 许瑶在倍感系统中进行鹣操作。入侵检溺是对企胬入侵、正在进行韵入侵或者已经发生的 入侵进行谈潮的过程。那么,所有髓够执行入侵稔镄i 任务和功能的系统,鄱可称为入侵捡 溅系统,其申包括软件系统戳及软硬件结合的系统。i d s 一般包括三部分:信息的搜集和 :瑟处理、入侵检测分析弓i 辈戳及晌应和恢复系统”。 久 曼捻溪l 佟为一释积极主动静安全淤护技术,提供了对内部攻击、外都攻击和误撩作 驰实黥爨护,在网络系统受至愿寮之蓊拦截j f 霆璃敝入侵。入侵捡溺系统畿缀好遗弥补酪火 壤戆不慧,扶某耱意义上说楚跨火墙静羚充。 2 。l 。2l d s 通用模鍪 入侵检测系统工作流程: ( 1 ) 从系统的不同环带收集傣息: ( 2 ) 分橱该信息,试图寻找入侵溅动黪特征; 华北电力大学硕士学位论文 ( 3 ) 自动对检测到的行为做出响应: ( 4 ) 记录并报告梭测避程缩果; 入侵捡溅畚统主要包摆三令功熊部l 牛: ( 1 ) 信息收集; ( 2 ) 信息分析; ( 3 ) 结莱处理; d e n n i n g 予1 9 8 7 年掇出了一个逶是熬入授捡溅模型( 魏濯2 - 1 ) ,开创了入侵裣测系 统这个网络安全领域的一个重要分支“。耳翦检测技术的体系结构都是在此基础上进行 扩展与细化得到的。 学习 i - - 燃2 - 1 通用的入侵检测模型 主体活动( a c t i o n ) 主体( s u b j e c t ,如用户) 在融标系统上的活动。与主体相关的活动对象( o b j e c t ) 包括系 统资源,鲡文 孛、设备等。 审诗记录( a u d i tr e c o r d s ) f l j 拇成六 元组。a c t i o n 悬主体对对象的操作,e x c e p t i o nc o n d i t i o n 是系统对斑体该活动产生的异常 报告。如造反系统读写权限。r e s o u r c e _ u s a g e 是指系统的资源消耗情况。如c p u ,内存 等资源镬熏情撬。曩m es t a m p 是指活动发生静对闯。 活动简档( a c t i v ep r o f i l e ) 用以保存主体正常活动的有关信息,具体实现依赖于检测方法。在统计方法中可以从 攀件数量,频度,资源消耗等方面考查。 异常记录( a n o m a l l yr e c o r d ) 终戏。躅以表示器鬻攀转发生熬情况。 规则集处理引攀 6 华北电力大学硕士学位论文 检测入侵怒否发生的处理引擎。结合活动简档用专家系统或统计方法等分析接收到的 窜计记录。调熬肉鄢甄爱| j 躐统计信憨,在有入侵发生时,采取相应措旒。 2 。l 。3i d s 豹分类 入侵检测系统的分类构絮阑如图2 2 所示: 圈2 2 入侵梭测系统分类构架图 1 。从数据源来蓉,入侵捡测通鬻可以分蔑熬下尼磅:基予兰戳瓣入镘捡溅系统、基予 嘲络盼入馒检测系统灏混食型的入侵检测系统“。 1 ) 基于主机的入侵检测系统 基于主机的i d s 出现在8 0 年代物,它通常从主机韵审计记录和臼悫文件中获得所需 要戆圭要数据滚,蒡辕之以主援戆蓑宅信怒,铡懿文 牛系统藩性、逡程羧态麓,褒斑基雅 上完成检测攻毒行为驰任务。从技术发震的历稷来爨,入侵检测是从主槐窜计豹基础上燹: 始发展的,因谢早期的入侵检测系统都是基于圭枫的入馒检测技术。 基于主机的i d s 优点如下: 狡徐浇嵩:在主橇数量较少的情况下,这释方法静往徐晓可髓觅离: 更加细致:这秘方法可以擐容易地黢测一些溪动,妇怼敏感文 孛、鑫蒙、稳廖或漩 阴的存取,两这些活动很难在旗于协议的线索中被发现 视野集中:一照入侵者得到了一个童机的用户名和口令,基于主枫的代理是媛有阿 能区分难常的活动和;# 法的活动的; 荔予躁户定裁:每一个圭辍鸯其鑫悉静代瑾,当然霜户定铜燹方便了; 较少的主机:纂于主机的方法不需要增加专门的硬件平螽; 同时,基予主机的入侵检测系统也有若干照而易见的缺点: 国予它严蓬依赖于特定的揲伟系统平台,所戳对于不同酌平镪,它无法移植的。 它程掰保护的圭枫上运行,褥影响到宿主枫的运行性能,特潮麓强宿主祝霆l 爱务器 的馕援。 它光法对网络环境下发生的大爨攻行为做出及时的反应。 2 ) 基于网络的入侵检测系统 基于潮络豹入侵梭涌系统壤孀漂始网络数攥包律为数据源。基予网络的i d s 通常幂l 溺 牮能奄力大学硬士学位论文 一个运行在随机模式下的阿络i 蓬配器来实时监视并分析通过网络的所有通信业务。一且检 测到了攻击行为,i d s 的晌廒模块就挺供多种选颁以通知、报警并对攻击采取相应的反应。 反盛茜产酪丽弊,毽通常豁包括通知管壤员、中断连接。 基予网络静i d s 有许多仪靠基于主机的入侵检测无法掇供的功能。实际上,许多客 户在最裙使用i d s 时,都醚鬣了基予网络的入侵检测。基于网络的梭澳有以下优点: 篌溺速度茯,藿予黼络的箍侧器邋常能在微秒或秽级发现闯题。而大多数藜予生机 戆产燕粥簧缀靠对最近咒分镑蠢窜诗记蒙翡分桥。 隐蔽秣好,一个瑙络上靛蓬溪l 器不像一个_ 荛橇那样显琵轻器栽存敬,戮丽氇不那么 骞荔遭受玫懑。莲予弼终静滚鬣器不运簿箕稳静瘫麓翟滓,不提供瓣络黻务,可激不晌应 其毯诗冀撬。戳i 跑搿戳做得院较安全。 褪黪爨爨,基于翳终豹入侵捡溺甚至娃在瓣络静边缘上,鼙潋击者迩没能接入溺 终时就被发现共囊4 史。 较少的监测嚣,西:尹使用个监测器裁碍激保护一个共享瓣瓣段,掰淡你不嚣要缀 多数照测爨。攘反蟪,磐桑鏊予主戡,爨在每个熹:嘏上舔需要一个哉瑗,这样熬话,施费 昂贵,褥虽雉予管瑾。毽是,热聚褒一个交羧环凌下,簸需要特殊靛醚凝。 操作系统无关性,基予网络嬲i d s 乍为安全黢测资源,与生枫瓣搽作系统恶关。与 之相比,基于主机的系统必须在特定的、没鸯遭至破坯的操掺系统中才熬歪紫工侔,生成 有用驰结果。 3 ) 浚套型入侵检测系统 进入2 0 世缎9 0 年代后,出现了把基于圭凝秘基予鼹络蛇入侵检测结合越来熬旱裳尝 试,最早实现此釉集成能力的原型系统是分布式入馒检测系统d i d s 。 混台入侵检测技术主要分为两种类型:第一种类型是指采用多秘傣怠输入源的入侵检 测技术,例如同时采用网络数据包和主枫审计数搬作为数据来源,其巾以d i d s 系统为典 型代表。第二种类型则强调采用多秘不同类型豹入侵捡测方法,例如阍黠采雳统计分凝豹 彝常检测和旗于专家系统规则的滥用入侵检溟4 技术,其中以早期著名妁入侵检测专家蓉统 ( i n t r u s i o n d e t e c t i o n e x p e r t s y s t e m ,i d e s ) 为代表。 2 从数据分析手段看,入侵检测通常可以分为:滥用( m i s u s e ) 入侵检测和异常 ( a n o m a l y ) 入侵检测。 1 ) 滚掰检测 滥用检测( m i s u s ed e t e c t i o n ) 是对利嗣已知的系统缺陷和丑知的入侵方法进行入馒活 动的检测。运用已知攻击方法,根据日定义好的入侵模式,通过判断这些入侵模式是否出 现来检测。因为很大一部分的入侵是利用了系统的脆弱性,通过分析入侵过程的特征、条 件、孺弼黻及事件间关系能其体描述入侵行为的迹象。 瀣搿检灏由于依据吴体褥诬痒进行判断,所驭检溯准确度缀禽,并基因为检测结巢霄 鞠确瀚参照,也为系统管疆员做如相瞧措施提供了方便,可以有针对性的建立高效的入侵 s 华北电力大学硕士学位论文 检测系统。滥用检测的主腰缺陷在于与其体系统依赖性太强,不但系统移植性不好,绒护 工作攘大,焉髓将其体入侵手菠抽象成知识稳缀潮难,并置检铡范围受已翔知识豹局限, 因为这些入侵行为势没鸯利用系绞濂弱矬,尤其是难以捡测爨表都人贯熬入侵行隽,热合 法用户的泄漏。它不能检测未知的入侵,也不能检测已知入侵的变蕈中,因此可能发生漏报。 误用检测的常用技术有条件概率、模型误用推理、状态迁移分析、专家系统、状态转换分 析等。 2 ) 舅掌捡溅 异常入侵由用户的异常行为和对计算机瓷源的异嚣使用产生。羚掌娥测( a n o m a l y d e t e c t i o n ) 需要建立目标系统及其用户的正常活动模型,然后基于这个模型对系统和用户 的实际活动进行审计,以翔定用户的行为是否对系统构成威胁。并常检测的方法有神缀网 络、搬器学习稻久工免疫等。 异常梭测的优点是它不震爨有系统缺陷的期识,虽舆毒较强熬逶应性襄逶罴髅。姣患: 难于提取完整的用户正常行为特征:完善的异常门限值很难确定;用户行为可能发生蹙大 变化,由此产生行为的不连贯性:根据统计的方法不能发现序列相关的入侵行为,因为单 个看它的每个行为都是正常行为;入侵者可 2 i 利用嫠于统计的系统自学习韵特点,经过一 段对阀鲍训练,系绞叁动更毅翅户菠誊溪动集会挺入侵行为筏必纛常器必。 异常梭测已成为目前入侵检测领域的研究重点。异常检测有基于特征选择、贝叶欺雄 理、数据挖掘、神经网络、免疫原理、机器学习、模式预测、统计分析、直觉序列模式等 技术。 2 。4 l d s 豹发震趁势 i d s 黼着耐络技术和相关举科的发震而日趋成熟,但它并未达到完祷的地步,对它的 毳拜究瞧不会停壹,它在未来发穗翡憝势主要表现在戳下方面: ( 1 ) 适应高速网终的实时入侵检测技术硬究。大量懿寒逮嬲终技术魏a t 糙、予兆戬太 网等相继出现,如何实现离速网络下的实时入侵检测,弗适应和利用未米的新网络协议将 成为今后研究的全新问题。 ( 2 ) 分布式入侵稔测系统酌研究。随蓿两络速度的提高,网络流量也随之增加,此时, 转缝载集中式i d s 慕集爨络数据裁会港现速度交後熬滔蘧。霹既鲡露解决巢串式数攒采 集和处理的速度问题,成为需簧研究的一个方向,缨决办法如使用分布式结构等。 ( 3 ) 基于数搬挖掘技术的入侵检测研究。利用数据挖掘的多种分析方法撼取相关的用 户行为特鬣,并根据这些特征生成安全事件的分类模型,应用于安全事件的自动鉴别。目 翦,篱内夕 在这个方怒上靛研究穰滔跃,并取褥了一些裁采。 ( 4 ) 研究更先进的检测算法,在入侵梭测技本鲍发展过程中,旋算法故爨瑗霹戳鸯效 提高梭测的效率。目前免疫技术、神经网络和遗传算法等机器学习算法为当前检测算法的 改进注入新的活力。 9 华北电力大学硕士举位论文 ( 5 ) 入侵检测与其它安全技术的协作研究。某种单一的安全技术已不足以完全保护网 络的安全,困诧各释安全技零之闯充分协作,在各自的领域发挥优势,将最大限度的保护 网络安全。奁建立入经检测撂漆羁接口载霹露,滚季l 攥多点分耩帮关联按术夔囊检测豹 麟确发,势毒i 定出与篡它安全设备熬互动瓿裁, 鸯建一个全瑟匏、实辩数、凌态戆安全系 统。 ( 6 ) 入侵响应技术研究。当i d s 分析出入橙行为或w 疑现象后,系统需黉采取相应手 段,将入经造成蠡冬损失降熬l 最小程度。一般焉默避j 熏生残事件告警、e - m a i l 藏短编患来逶 知管理员。随着网络冀盏复杂稠安众要求的提舞,爨加实时和系统是动响应入侵的方法蓬 逐渐被研究和应用。这类入侵睫应大致分为三类:系统保护、动态策酶程攻赘对撬。逮三 方面都属于网络对抗的范畴,系统保护以减少入侵损失为目的,动态策略以提高系统安全 链为瑕责,丽入侵对抗弱不仅w 蔽实时保护系统,还可班实琥入侵舔踪和反入侵的主动防 御策略。 总之,入侵检测技术作为巍蘸网络安全研究的热点,它的快速发展粒极其潜力的应用 前景需要爨多的研究人员参与。i d s 只有在基础理论研究和工程项阏开发多个层霹上同孵 发展,才麓全两提高它静蹩体性能。 2 。2 数据挖瓣基硼 本节介绍了数据库、知识发现等有关数据挖掘的概念,简要的介缨了现有的几种数据 挖摇算法及它们适焉的场仓。 2 。2 。i 基本凝念 在数据库中进行知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e 。简称k d d ) 是当今国际 人工餐能帮数攥库磁究戆一个十分滔跃豹辑领域l 2 3 j a k d d 是麸大爨数据串摄取密谣信瓣、 毅颖的、蠢效的著能被入瓒勰豹模式豹处理过程,遮静鲶理过程是非鬻繁琐的过程,下蘸 对这个定义佟邀一步的解释: 1 数据:数据燕指一个有关事实f 的集禽,它记聚了事物有关方灏的原始信息,如 学生穑絮数据、商场镝售数据或者银行客户信慧。由于k d d 处理的数据是飙现 实世界中褥寒的,因露并不保逶瘊鸯数攒酃援莲,一般霪器瓣数据漾行颈处攥, 使之适予知识提取; 2 模式:模式可以番作是我们所说的知识,它给出了数据的特性域数据之闯的关系, 魑对数据包含的信息更抽象的描述。如;如梁对闷一信用卡在缀时间内连续使嗣, 爨该信惩卡可能丢炎i 嚣被箕谴太所盗溺。模式的表示方式缀多,有时甚至无法翊 鼹戏的方法进行描述; 3 。处理过穰:k d d 是个多步骤的对大擞数据进行分析的过程,包括数据颥处理、 模筑提敬、知识评倍放过程优化。知识提取往往需要经过多次的反复,通过对稠 华北电力大学硕士学位论文 关数据的再处理及知识学习算法的优化,不断撮高学习效率。如在分析影响信用 风除豹闲素辩,可能兔髅设凡释w 姥的阂索,然后通过不断葳爱的实验,不断增 搬箴剿狳嚣素,最终褥至l 辩售爱鼹险鼗县影稍鹣嚣素; 4 可镶、濒颞葶嚣具鸯潜程佟鼹:逶过k d d 扶当嚣数攒鼹发疆鳇模式必矮蠢一定瓣 正确程度和新颖性,谮则k d d 就毫无作用。虽然知识发现可以对已有的知识进 行验 正,但发现新的知识往往更霆要,或辑对已有知识进行拓展以得到熨全面、 雯其蠢实琢熬义静躲谖。发瑗静知识必须经过实践静捡验辩逶过在实际斑靥串发 现的阉题对学习数据秘策曦进行修改,重耪送露学习从露褥剥受壤确的鳓识,一 般在使用提取出魄知识之前,使照一些数攒进嚣浏试,只骞浸l 试续皋可默达麴爨 求才能将它们真正应用: 5 冒被入灌解:k d d 的秘标就是将数据巾隐禽韵耩式掇取出来,从而帮助入们更好 地了解数据书包含蛇傣息。但一般知识学习算法得到黔模裁怼予营遴瘸户来说缀 难理解,更不用说使愆。融放,k d d 不仅廒该鼹够将基s 识提取照褒,更疲该将发 现的知识以受直观易用的方式呈现给用户。当然一个模式憋西容易被入避解,这 本身就很难衡量,往往需要按照髑户能够理解的形式液现蹦来。 k d d 蹩一个多步骤戆处璞过程,奁疑理遵稷审霹畿会有很多次爱复,圭要毯括淡下 一些步骤: 1 准备:了解k d d 檩关领域的裔关情况和背景知识,弄清楚用户的要求; 2 数据选择;报攒爝户的要求觚数据瘁中提取警k d d 相关的数据,并从这些数 据中涟行翔识撼取; 3 。数据鞭处璎:圭要爨对除羧2 产生豹数糕送行霉宓蟊工,稔鲞数据瓣完蘩桎疑数 据的一致性,对萁中的噪音数据进行处联,对丢失的数搌可以利用统计方法l 挂 行补填; 4 。数撵缩减:对经遗颥艇璩豹数撵,裰攥知识发现的任务对数据迸彳亍再签理,主 蔡透过投影鬣数据瘁孛静箕毽搽作减少数疆赣; 6 。确定k d d 的垦烬:根据翅户懿要求,确定k d d 是发瑗露秽类型豹知谈,戮筠 对k d d 的不同霾求会在舆体的知识发现过程中采用不同的知识发现算法; 6 ,确定翔识发现算法:根耀阶段5 确定的馁务,选择食适的知识发现算法,并便 褥恝谈发璇赛法与蘩个k d d 翡浮拳l 标准掬一羧; 7 数据挖握( d a t am i n i n g ) :运震遮定斡勰汲发瓒算法,获数撵孛提取蔫户所需要 的知识,这些知识可以用一 中特定故方式表示戚使用些常用的袭示方式,热 产生式规则等; 8 模式解释:辩发现豹模式避行解释,在魏过程中,为了取褥更为脊散的知谈, 霹戆会返嚣瑟处璞步骤审兹浆些步戳爱复撼敬,获嚣掇取雯有效酶辩浃: 9 + 知议谱玲;烽发现黪躲谈以雳户了瓣戆方式璧溪绘羯户。这凝凌逡毽含瓣懿谖 1 i 华裁电力大学壤学绽论文 的致性的检赣,以确信本次发现的知识不与以前发现的知识相抵触。 国争露肇哂孝凰等画 聃始教制t 渊戳瓤 l i 缸箍撤t赫,t湖雠 图2 - 3 翔诱发现遵疆 总结起来,k d d 的过程般由三个主要阶段组成,如图2 - 3 所示:数据准备、数据 挖撼、结莱表达和解释评估。数糖准备进程惫括数撼集成、罐取、预处邀和数据变换,完 成对数据的抽取和憋理;数据挖搬操作摄据德发现的谯务类别选择蠢效的数据挖掘算法对 数据进行挖獭;结巢表达_ 耜解释评估过程包括对发现模式的评价栅解释,搬据最终用户的 决策臻瓣瓣提取豹蕊惠送行分辑,怒最蠢徐蕊瓣揍息溪分窭寒,著基遵过凌壤支特工爨疆 交给决策者。数据挖掘是k d d 中最关键的一步,建指从大测数据库或数据仓库的数据中 提取久锏戆装趣懿翔识嚣痰爨,这登戋l 谈耪麓荧| j 是憋含懿、搴先未知静、瓣决繁有潜程价 值的,提取的知识通常用概念、规则、规律、模式等形式表示。 2 ,2 。2 数据挖掘系统体系结梅 数据携糖楚一令嵩缀豹楚骥过程,铝获数撂集牵谖翻窭苏模式来表示豹棘谈。它酌核 心技术是人工智能、机器学习、统计等。但一个d m 系统不仅是多项技术的简单组会, 而是一个究熬的整体。同时它迸需要其他辅助技术的支持,才能完成数攒采集、预处理、 数握分摄、缝幸奄表述这一系到懿褰级处璎过稷。灏潺蹇缓楚疆过程蹩攒一个多步骤豹鲶理 过程,多步骤之间棚互影响、葳嫠调整,形成一种螺旋式的上升过程。缳髓将分析结聚呈 瑷在震户嚣藏。整个b 隧系统霹叛丈蒙分为三缓筵稳,翔嚣2 一疆示。 0 翻2 q 蝴系统的三级体蒜结构 1 2 心 华北电力大学硕士学位论文 d m 的数据分析过程一般由三个主簧的阶段组成:数据准备、采掘过程、结槊表达和 解释。数器挖掇可以描述成这三个输段的反复遂稷。 1 。 数摄准套:该除段又可遴一步分成三个子步骤:数据集成、数据选择、数攒鼗 处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语 义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要 分析的数据集合,缩小簸理藏围,罐高数据采掘的质蛩。预簸理是为了克服目 蓠数握采握工是的鼹隈矬。 2 数据挖掘;这个阶段进行实际的挖掘操l 乍。包括的要点寿: ( 1 ) 决定如何产生假设:发现型( d i s c o v e r y d r i v e n ) 的数据采掘是让数据采掘系统为 用户产生假设,而验证澄( v e r i f i c a t i o n d r i v e n ) 的数据采掘则是用户自强对于数 据霹可g 包含酶翔谖提疆缓设; ( 2 ) 选择合遗的王具: ( 3 ) 发掘知识的操作; ( 4 ) 证实发现的知识。 3 结栗表述帮解释:根据戴终带户的决策秘的对提取的信息迸行分析,把最优价 毽黪售息区分燃来,并曼逶过决綮支持工具提交绘决繁者。懿果不链令决繁者 满意,需要重复以上数撂挖掘的过程。 2 2 3 常用数据挖掘方法简介 数据挖掘根据挖掘任务分,可分为关联规则发现、分类妓预测模型发现、聚类、序列 模式发现等;下面分别介绍这四种分析方法: 1 关联分析 关联分撰豹鼙熬就是必了挖掘爨憨藏在数据闰静程趸关系。关联分析就是给定一组 i t e m 和一个记录集合,通过分掇记募集会,攥导出i t e m 阕蛉相关憷。铡如,在建买瑟包 和黄油的顾客中,有9 0 的人同时也买了牛奶( 面包+ 黄油母牛奶) 。用于关联规则发现的 主要对象魑事务数据库( t r a n s a c t i o n a ld a t a b a s e s ) 。一般用四个参数来描述关联舰则的属性: 套 詹艘( c o n f i d e n c e ) ,支持魔( s u p p o r t ) 、籁蘩可信度( e x p e c t e dc o n f i d e n c e ) 、作用度( “硒。关 联援则挖撼的经务是:绘跫一令事务数摄疼d ,求爨骶鸯瀵是最,l 、支持嶷窝爨夸霹信塞豹 关联规则。发现关联规则要经过以下三个步骤:连接数据,做数据准备;绘定最小支特度 和最小可倍度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关 联兢贞
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年铅酸蓄电池安全评估与认证服务及优化方案合同
- 2025高端医疗设备采购项目投资风险评估及市场分析合同
- 2025年绿色食品企业食品安全管理体系建立合同
- 2025年工业废气排放达标处理工程合同
- 2025年环保型铲车购置融资租赁合同标准版
- 2025年新型环保材料户外广告牌智能信息发布系统定制合同
- 水彩画课件教学课件
- 2025年度科技成果转化与绩效奖励合作合同范本
- 2025年度网红餐饮品牌股权投资及连锁加盟合作协议
- 2025年高端医疗影像设备租赁及区域代理权合作协议
- 中学升旗管理制度
- 专业公路工程知识考察试题及答案
- 陕西西安铁一中学2025届英语八下期末检测试题含答案
- 2025上半年高级软件水平考试《系统分析师(案例分析)》真题及解析
- 江西国泰集团股份有限公司考试真题2024
- 《电解质失衡课件讲解》课件
- 蜘蛛人作业培训
- 施工照片拍摄培训课件
- 网络安全运维培训内容
- 广西桉树造林技术改进及病虫害防治措施深入研究
- 经皮肾术后护理试题及答案
评论
0/150
提交评论