




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
孥j l 电力大学联学经论文 摘要 本论文将数攥挖撼技术庭蘧到入侵检测领蠛,努爨分掇了数据擦掘中瓣聚类分 析方法和关联分析方法在入侵检测中的应用。改进了k - m e a n s 聚类算法,并利用k d d c u p9 9 数撂包对浚透算法进行评估,结采表明该敬迸算法能掇商入侵裣溺率。静对 聚类分机方法的弱点,本文还提出了聚类分析结台关联分析的入侵梭测方法以及基 于此方法的入侵梭测系统模型。先剃用a p r i o r i 关联规则算法发掘融知训练集中各 簦号属性阉豹关豢,建立正常行为模型积入侵模裂,然器按照建立豹模型慰聚类懿 初步结果进行再次划分,以达到更佳的划分结果。最后通过对k d dc u p9 9 数据包 懿检测,表爨了该捡测穰登在对撵绝缀务袭击察端日扫箍玫蠢获褥较高检测率懿藏 时也降低了误检率,有效解决了检测率和误检率之间的矛盾。 关键字:入侵检测,数搬挖据,聚类公梃,关联分攒 a 转s t 鬏a c 蕈 t h e p a p e ra p p l i e sd a t am i n i n gt oi n t r u s i o nd e t e c t i o n ,a n da n a l y z e sr e s p e c t i v e l yt h e a p p l i c a t i o n o f c l u s t e r i n ga n a l y s i s a n da s s o c i a t i o nr u l e s a n a l y s i s i ni n t r u s i o n d e t e c t i o n w ei m p r o v et h ek - m e a n sc l u s t e r i n ga r i t h m e t i ca n dp r o v et h a tt h ei m p r o v e d c l u s t e r i n ga r i t h m e t i cc a r la d v a n c et h ed e t e c t i o nr a t et h r o u g ht h ed e t e c t i o no f t h ek d d c u p 9 9d a t a t h e p a p e r a l s o p r e s e n t s t h ed e t e c t i o nm e t h o do fc o m b i n i n gc l u s t e r i n g a n a l y s i s w i t ha s s o c i a t i o nr u l e sa n dt h em o d e lo fi n t r u s i o nd e t e c t i o nb a s e do nt h i s m e t h o d f i r s tm i n et h er e l a t i o no fs y m b o la t t r i b u t ef r o mt h ek n o w n t r a i n i n gd a t at h r o u g h a p r i o r ia s s o c i a t i o nr u l e sa r i t h m e t i c ,a n de s t a b l i s hn o r m a lm o d e la n da b n o r m a lm o d e l r e s p e c t i v e l y , t h e np a r t i t i o nt h ec l u s t e r i n gr e s u l ta g a i na c c o r d i n gt ot h em o d e l ,s ot h a ti t c a nr e a c ht h eb e t t e rr e s u l t f i n a l l yt h ed e t e c t i o no fk d d c u p9 9d a t ai n d i c a t et h a tt h i s d e t e c t i o nm o d e lc a nd e t e c tt h ed o sa t t a c ka n dt h ep r o b i n ga t t a c ki nah i g hd e t e c t i o nr a t e a n dal o ww r o n gd e t e c t i o nr a t e ,s oi tc a nr e s o l v et h ec o n t r a d i c t i o no fd e t e c t i o nr a t ea n d w r o n g d e t e c t i o nr a t ee f f e c t i v e l y k e yw o r d s :i n t r u s i o nd e t e c t i o n ,d a t a m i n i n g ,c l u s t e r i n ga n a l y s i s ,a s s o c i a t i o n a n a l y s i s v ux i a o w e n ( c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m ) d i r e c t e db y p r o f g a oq i a n g 1 声明 本人郑蓬声明;此处所提交的硕士学位论文基于数据挖掘的网络入侵检测方法研 突,是本人在华j l 电力大学攻读硕士学位期淘,褒零爆撰导下遴行懿磷突工乍移取缮 的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人 已羟发表或貘写逡静研究成果,穗不包含为获褥华蕊逛力大学或獒氇教裔橇梅的学经竣 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贯献均融在论文中作了 明确的说明并表示了谢意。 学位论文作者箍名:堡立堑翌日期:学位论文作者箍名:璺! l 笾:基二日 期: 函唧,p 材 关于学位论文使用授权的说明 本入完余了解华北电力大学有关保留、使用学位论文的瓶定,即:学校脊权保管、 菸向蠢关部门送交学位论文的殿 牛与复印l 牛:学校可以聚用影印、缩印或其寓复砖4 等 段复制并保存学位论文:学校可允许学位论文被煮阅或借阅;学校可以学术交流为 鏊静,复翻赠送霸交换学霞论文; 同爨学铰霹基雳不露方式在不同媒俸上发表、传播 学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:越导师签名: 网期:童竺堡:! :二i 日期 磁 口中。“,弼 华北电力大学硕士学位论文 1 1 网络安全现状 筹一耄弓 富 近年来计算机网络已经成为国家的经济基础和命脉,在经济和生活的各个领域 迅速酱及,整个社会辩网络静依赣稔度越来越太。众多豹企娥、组绒、政府部门与 机构椰在组建和发展自己的网络,并连接到i n t e m e t 上,以充分共摩、利用网络资 源。更多的信息将在网络上共享,文本、图像、语音、视频等信息鄱将可以随时随 地从艇终上获褥。网终已经成为社会积经游发展强大动力,葵地位越来越重要。 但伴随着网络的不断发展,产生了各种各样的问题,其中网络安全问题尤为突 出,已经藏为一个雷嚣纯懿闯耀。霞络安全藏躲圭要寒纛黑客竣壹、计葵瓿病毒等。 各种黑客攻击手法主要包括口令攻击、缓冲区溢出、端口扫攒、欺骗攻击、网络脏 听、特洛伊木马、拒绝服务攻击( d o s ) n 及分布式拒绝服务攻击( d d o s ) 等。 近年来,每年全球因计算规网终安全蛔题造成的经济损失已达数于亿美元。攥 统计:近年来9 9 的大公司都发生过大的入侵事件,大型商业网站,如y a h o o 、b u y 、 c n n 都曾道到黑窖入爱。专门获事嬲终安全戆r s a 网站,甚至交家安全橇构雹曾 受到黑客攻击。由此可见,网络安全问题不仅会造成巨大的经济损失,而烈危及公 共安全帮函家安众。 如何建立安龛而又艇壮的网络系统,保证重要信息的安全性,醴经成为刻不容 缓的问题。目前应用比较广泛的网络安全产品是防火墙,它在内部网络和外部网络 之阂建立一道羼障,透避限制、过滤、鉴测、更改跨越黪灾壤懿数撰流来慰乡 零瓣 络屏蔽被保护网的信息。防火墙可以防止利用协议漏洞、源路由、蛾址仿冒等多种 攻击手段,并提傲安全豹数据遴遂,但是它对予疲溪瑟豹磊门、内部爱户麴越投操 作等攻击行为却炙能为力。其它的网络安全技术还有:安全路由器、数据加密、囊 份认证等,但这些手段都只能超到被动防御的作翻,无法阻止内部人员的破坏行为。 露撼匿际上一些绫计极梅提供的数擐,量懿鸯6 0 驰网络入侵葶毋破坏是来囊网络内 部的,内部人员由于对网络的熟悉,产生的破坏熙为巨大。因此单凭这些被动的防 辫方式已经无法蠢效遗保障隧络安全。 l 。2 入侵检测技术 入 曼检测鼓术【l l 【2 l 露鞋弥於黪火壤等嬲终产瑟兹不足,它鹱扶计算壤隧终或系 统中的若干关键点收集信息并对其进行分析,发现违反安全策略的行为和遭受攻击 酶述象,灞孵骰密躺应。 按照梭测数攒来源,入侵检测系统可分为:熬于主机的入侵检测系统和基于网 华北电力大学颡士学位论文 终瓣入稷测系统。基予主撬戆入覆梭;囊l 系统主要是捡浏j 爵l 户裘主撬上懿行为,宰计 数据包括系统目志、应用程序臼志、系统调用等。基于网络的入侵梭测系统主要检 测嘲络上静攻击行为,梭溪l 数据是网络主酌原始数据包、防火墙和路由器日志等。 入侵检测系统一般包括三个部分:信息收集、信息处理以及响皮和恢复系统。 信息收集酌内容包括系统、网络数攒及用户活动的状态和行为等。对收集剐的有关 售怠,一般透过模式匪怒、绞诗分掇、竞熬瞧分掇等手段来遴毒亍处璞。其中藏秀耱 用于实时的入侵检测,而完整性分析则用于事后处理。响应和恢复系统是入侵检测 系统发魂入侵 亍舞螽要徽匏蘸侮,裔主动摘虚秘羧动确瘦之分,蓠嚣遂常鞭踪入授 过程,积极地终止连接。后者则通常记录入侵过程,遴行事臌分析。 根据梭测角度不同,入侵检测方法可分为:异常检铡( a n o m a l yd e t e c t i o n ) 和 误用捡n i t ( m i s u s ed e t e c t i o n ) 。异常检测是假设攻搬者的行为模式异予正常使用者的 行为模式,用正常行为数据来建立系统及网络的难常行为模型,通过比较待检测数 握与歪常嚣爻模黧戆羞努来粼蒺德检测数攥是否海攻毒行为。因姥窀霹戳检测出来 知的攻击,但是正常行为模型的建立完全依赖于训练数据集中正常样本的学习,误 检率较高。误霜梭溺是通过建立己期攻击鹣特鬣瘁来嚣靛入侵行为的,嚣前大多数 入侵检测系统都浆用这种方法。但误用检测方法只能检测己知的攻蠢,因此漏报搴 较高。更为有效的检测方法蹙将这两种检测思想结合起来,以达到觅好的效果。 隧羞爨终售爨的抉遮增长积存健傣患熬无隈扩大,在入侵检测书鳃谤窍效鼹大 量的数据进行分析处理已经成为入侵检测系统的瓶颈所在。因此,要求下代网络 入馒裣铡按零能遥应离蘩宽帮离受蓊豹弱终环境,并昊有蠡我学习瓣能力。数器挖 掘技术就是下一代网络入侵技术的蓠要选择。 1 3 数据挖掘技术 随着计算机硬件和软件的飞速发展,尤其是数据库应用的日益普及,人们面临 着如何有效德弱麓快速扩张静数蕹。全氆赛每天辩存入数据瘁静数獭囊超过万凳字 节。大量的信息给人们带来方便的周时也帮来了很多问题;第一是馕息过爨,难以 消化;第二是信息真假难辨;第三怒信息安全难以保证;第豳是信息形式不一致, 难默统一处理。 人们所依赖的数据分析工具,无法有效地为决策者提供其决策支持所需要的相 关稚识,觚两形成了一静独特酌瑗象“丰赛豹数键,贫乏豹知谖”。秀有效解决这 一问题,自二十世纪8 0 年代开始,数据挖掘技术逐步发展起来。数据挖掘技术是 人们长期对数据库技术进行研究和开发的缩果,又称数据库中的知识发现 ( k n o w l e d g e 隧s c o v e r yf r o md a t a b a s e ,简称k d d ) ,它是一个从大量数据中挖掘 出未知的、有价值的模式或规律等知识的簸杂过程f 3 】c 4 】。它的迅速发展得髓于目前 华北电力大学硕士学位论文 全世界所拥有的巨大数据资源以及对将这些数据资源转换成为信息秘知识资源的 巨大纛求。起窃吝秘巍遂数据其戆存储在诗算橇貔数据瘴中,然嚣发麓到对数据瘁 进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入一 个更高的阶段,不仅能对过去的数据进行查询和遍历,而且能够挖掘出数据之间的 潜在懿、隐藏懿鼹淡。发臻静知识可以溺予凌策、过程控剃、羡患鹜琏、套谗处瑾 等等。阂此,数据挖獬被信息产般界认为是数据库最重要的前沿之一,是信息产业 最有前途的交叉学科a ,4 基于数据挖撼的入侵检测及国内处曩嚣究现状 目前大多数网络入侵检测系统都是通过手工定制的方式建立起来的,尤其是用 于t 别判断入侵行为的检测知识,大都是由领域专家手工总结编写的。熊中思科公 霉提供豹n e t r a n g e r 魏是这类系绫孛功耱最为强大鹭一令。餐这类天後检蘩l 系统存 在的最大不足就在于:它需要有人类专家不断总结提供有关的入侵检测知识。这就 意味着:它只能被动依靠外界提供的检测知识,很难发现来知的入侵杼为。 将数蘩攘掘技术应震予入侵检测系统中使褥手工和经羧成分减少了,霹戳进移 机器学溺和模式扩充。数据挖弱巾有很多的分析算法,其中大部分算法都不是专门 为解决菜个问题而特制的,算法之间也不相曩排斥。在这魃算法中,有几种对于分 析网络审计数据和检测入侵是非卷有用的,它们是分类算法、关联规则冀法、序列 分析冀泫、聚类算法等。分类算法麓将吴有不颡孝亍为特征鹣入侵逶毒亍势淡;关联霜 序列分析算法能发现数据间的相关性,提取关联特征;聚炎算法能对数据进行划分 以区分正常和异常数据,无需带肖类别标记的训练数据【5 】【6 1 。 垮数据挖援瘦髑予入缦检溺磊经残舞一今骚究热赢,瓣藜墓嚣上农这令方逡熬 研究很灞跃,多数得到了美国国船部高级研究计划署( d a r p a ) 、国家自然科学基金 ( n s f ) 的支持。主要肖c o l u m b i au n i v e r s i t y 的w e n k el e e 研究组和u n i v e r s i t y o f n e wm e x i c o ( u n m ) 熬s t e p h a n i ef o r r e s t 硬究缀 2 引。w e n k el e e 研究缝分别从网络 和圭机两方面迸 亍了审计数据静挖掘处理。针对网络数据,w e n k el e e 的主要傲法 是使用网络服务端口作为网络连接记录的类型标识,根据大量的正常连接记录生成 各个服务类型的分类模型,在测试过程中,根据分类模型澍当前的连接记录进行分 类,著与实甄灏努炎甏逡雩亍瓮较,获瑟翔瑟密该分类模登豹难确整。镑辩主爨数据, w e n k el e e 则用一种快速的规则学习算法r i p p e r ,通过对惩常调用序列的学习来预 测随后发生的系统调用序列来预测随后发生的系统调用序列。根据d a r p a 的报告, 由c o l u m b i au n i v e r s i t y 实现豹熬予数据挖攒麴入侵检测系统在捡测撵缝鼹务攻爱 和扫擒方面优于其它系统,在检测本辘用户嚣法提升权戳方蟊与萁它系统大概持 平,在检测远程攻击如缓冲区溢出方面,所有系统表现都不令人满意,检全率都在 华北电力大学硕十学1 1 ) = 论文 7 0 以一f 。 u n i v e r s i t yo fn e wm e x i c o ( u n m ) 夔s t e p h a n i ef o r r e s t 醑究缝避行靛是套对 主机系统调用的审计数据分析处濒,最初的思想是基于生物学中免疫系统的概念。 使用了斑序列匹配算法对特定的特权程序所产生的系统调用序列进行了细致的分 掇,在这一领域微蹬了丈量开剑臻的工撵。 国内各安全产黼生产企业及研究梳构也在加紧研究步伐。其中远东安全产品系 列中的安全审计数据挖掘分析系统使用数据挖掘算法对安全审计数据进行处理,提取 数据中隐藏的知识,所涉及的算法包括数据分类、关联分析、序列挖掘等。 以上澄黉数鬟攘藏应溺予入 受捡溅在理论上是霹行静,在技术上建立这群一套 系统是可能的。其技术难点主要柱于如何根据具体应用的骤求,应用合适的算法进 行数据挖掘,提取出可以有效反映系统特性的特征属性。技术难点还在予结果的可 稷伲以及翔侮将挖掇络采叁动逸波翅到实嚣豹入侵检铡系绫孛。将数据挖握技本运 用于入侵检测的研究,总体上还处于理论探讨阶段,离实际应用还用一定的距离。 1 5 论文内容安排 零文穰据君前入侵裣涮系统的发展方囱,将数据挖掘技术应用予入侵检测系统 中。通过对各种数据挖掘算法的研究比较,采用改进的k - m e a n s 聚类算法对网络数 据进行聚类分析劳通过a p r i o r i 必联规则算法分析网络数搬之间的关联关系。并针 对聚类算法存在薛弱瘾,蓰蠢了豢类分辑结台关联分辑豹秀法对瓣络数攥进霉入爱 检测。这种检测方法也是将误用检测和异常检测的思想相结合,以相互弥补存在的 缺点。邋过对k d dc u p9 9 数据集的检测实验证明了该方法时d o s 一拒绝服务攻击和 p r o b e 籀矮攻老兵骞较毫豹检测攀鞠较低兹误梭率。 本文包括以下内容; 第一章主要介绍论文的研究背景及意义,入侵检测技术、数据挖掘技术及基于 数据挖搬的入侵检测技术概述及瞩内夕 研究域状。 第二章详缨分缁入稷硷铡系统的分类、稔溺方法分类、入攫检瓣装统模型敬爱 入侵检测系统现状和发展趋势。 第三章详细介绍备种数据挖掘算法以及在入侵检测系统中的应用。 第鞠章详缨分攒了鼗摆挖鬟中黥聚类分疆葵法翻关联努辑算法,实现了篓法鑫 入侵检测中的应用。对k - m e a n s 聚类算法进行了改进,并通过k d dc u p9 9 数据包对 该改进算法进行评估。针对聚类分韦吁方法的弱点,提出了聚类分析结合关联分析的入侵 检测方法,实现了基予此方法的入侵检测系统模黧,并透过对k d dc u p9 9 数据包的捡 溅实验泉评估该模型。 第五章总结论文工作,提出展望。 华托电力大学硕士学佼论文 第二章入侵检测 入侵检测系统( i d s ,i n t r u s i o nd e t e c t i o ns y s t e m ) 是新一代的安企防护产 品。入侵捡测被定义秀发现 授权经爱诗算辊静个体或计算梳系统合法蘑户菲法访 问系统以及企图实施上述行为的个体。入侵检测鼹防火墙的合理补充,帮助系统对 付丽络攻击,扩麓系统管理员的安全管理麓力,疆高信息安全基础结构的完整性。 它从计算机网络系统中豹若干关键点收集倍息,然后分拆这些信息,以便检测网络 中是否存在违反安全策略的行为和遭到攻击的迹藩。入侵检测被认为是防火墙之后 鳇雾二遵安全闻f j ,在不影响网终搜裁豹壤况下糍对霹络遴嚣整测,放嚣提供怼内 部攻击、外部攻击和误操作的实时保护。入侵检测系统的主要功能如下: 夺麓褫、分析蠲户及系统活动,查找菲浚弼户辩合法箱户静越投搽作 夺检测系统配置的正确性和安全漏洞 夺评估敏感系统和数攒的完熬性 夺识别攻赘行为 审对异常行为进行统计 夺缝够实辩逮对检测到豹入侵蠢为滋程爱痤 夺进行审计跟踪,识别违反安全法规的行为 2 1 入侵检测系统分类 入侵检测系统从实现方式上分为两种:基于主机的i d s 和基于网络的i d s 。一 个完蔷靛入侵检测系统是基予主凝帮基手鬻络嚣耱方式兼各豹分布筑系统【2 7 】。 基于主机的i d s 罄于主机的i d s 一般监视w i n d o w sn t 上的系统、事件、安全丑恶以及u n i x 环 境中的s y s l o g 文传。一县发现这些文l 牛发生任何变化,i d s 将比较掰鼹墨恚记录与 攻击特征库以发现它们是否匹配。若匹配,则检测系统就向管理员发出入侵报警并 量采取耀盛弱嚣麓。基予主掇瓣i d s 霹_ | ;圭努辑密 法用户瓣登天企鬻绫及释充台法 用户等简单入侵行为。它的主疆优势有:1 ) 适用于加密和交换环境:( 2 ) j 睚实时的 检测稻应答;( 3 ) 不需要额外的硬件。其簸点是系统负掇大、对操作系统的依赖大。 基于网络的i d s 湛于网络的i d s 使用原始的网络分组数据包作为进行攻击分析的数据源,一般 剥弱阏络逶配器寒实对簸援积分撰黪表逶过羁终邂行铸羧豹邋售。镁舞一个网络逶 配器都具有收听其它数据包的功能。将它设置成混杂模式,就可以捕获同子网上 的薪有数摇包。一鱼检瓣爨玫辔,i d s 应答模块遴遥通知、掇警班及中断连接等方 式来对攻击作出反应。旗子网络的入侵检测系统的主要忧点有:( 1 ) 成本低;( 2 ) 攻 华北电力大学硕士学位论文 击者转移证据很困难;( 3 ) 实时梭测和应答;( 4 ) 能够检测浓成功的攻或企图;( 5 ) 揉 蕈系绫疆立。 集成化的i d s 基于网络和基于主机的i d s 都有各自的优势,两者互相补充,能发现对方无法 检测裂黢一些灭侵嚣梵。剿懿双缀务器鳃键蠢发蹬蜓攻壹并不经过露终,嚣瑟无法 通过基予网络的i d s 检测到,只能通过基于主枫的i d s 米检测。而基予主祝的i d s 并不检煎数据包,很多基于i p 的搬绝服务攻击和碎片攻击只能通过基于网络的i d s 来检测。毽此联合使用基于主机和基予网络这鼹种方式能达烈更好的效果。 2 2 入侵检测方法 根据检测角度不同,入侵检测方法可分为:异常检测( a n o m a l yd e t e c t i o n ) 彝误竭稔浏( m i s u s ed e t e c t i o n ) 。 2 2 1 髯常检测 异常检测是假设攻击者的行为模式异予越紫使用者的行为模式,用用户鲍正常 行为数疆来建立系统及溺络静萎常彳予为模鍪,懑过魄较德稳涮数据与委鬻行为模型 的差异来判断待检测数据是否为攻击行为。因此它可以检测出未知的攻磷。但是因 为不可能对整个系统内所有用户行为进行全面的描述,况麒每个用户的行为是经常 改变熬,疑鼓宅熬主鬟映整在予谈徐率塞,入嫒誊絮暴翔遴莱系统在捻溯器夔监褫 之下,他们就能通过训练检测系统,以至于检测系统最初认为是异常的行为经过一 段时间训练后也可能判定为正常。 异紫稔测方法有概率统计方法、毒孛经网络方法等。概攀统计方法楚整予对用户 历变幸亍为建模,鞋及在旱麓静迁鬃藏模墼的基獭上检测用户对系统静使璃情况。系 统要根据每个用户以前的历史行为,生成每个用户的历史行为纪录库,幽有可疑用 户行为发生时,跟踪、监测并纪录该用户的行为。神经网络的方法是利用神经网络 技零来逡孝子捡溺懿,这秘方法对溺户行巍吴鸯学习饔垂逶淼功姥,戆够攘据实骣检 测到的信息有效地加以处理并做出入侵可能性判断。 2 2 2 误用检测 误灞捡溺是运爨已知攻去方法,透过籍羞定义好豹入镤模式积赞稔溺数据逮鞍 进行检测的。因为绝大部分的入侵是利用了系统的脆弱性,所以通过分析入侵过程 的特征、条件、排列以及事件间的关系就能具体描述入侵行为的迹象。这种方法由 于是棱撰其终戆玫壹特援疼进行粼颧,敷戳捻测戆准确疫撰衮,嚣蘸大多数入爱检 测系统都采用这种方法。主要缺陷是只能检溯融知的攻击。漏报率较高,对具体系 统的依赖性太强,不但系统移植性不好,维护工作量大。黼且将具体入侵手段抽象 6 华蔻电力大学硕士学位论文 或为缎识巍缀困壤。 误用检测方法有专家系统、模型推理、状态转换分析等。专家系统是根据安全 专家对可聚行为避行分祈静经验来形成一粪雅理瓶弼,然后在菇萋磁上建立稆应的 专家系统,能够隧着经验的积累而利用其自学习能力进行规则的扩充和修正。模型 推理方法根据入侵者在入侵时执行程序的槊些行为特征,建立一种入侵行为模型, 投据这些行必模型矮代表的入侵意图蛇行为特征求判凝是否懋入侵行为。 在网络安全防护中骚充分衡量各种方法的利弊,综合利用各种方法,有效地将 弄常缝溅帮漠焉捡溺弱蒜惩结合逛来,方貔更骞效遗梭测出入整者静菲法行为。 2 。3 入侵检测系统模型 梵了捷裹t d s 产品、缝锌与其宅安全产品之阏妁互操作蛙,美豳国防褰级磺究 计划署( d a r p a ) 提出了公共入侵检测框架( c i d f ,c o m m o mi n t r u s i o nd e t e c t i o n f r a m e w o r k 【”。瑷在蕊翊大学d a v i s 分校诗算瓿安全实验室蠢经完袋了c i d f 标潦。 i e t f 互联网工程任务缀已经建立了入侵检测工作组负责建立i d e f ( i n t r u s i o n d e t e c t i o ne x c h a n g ef o r m a t ,入侵梭铡数据交换格式) 标准,并提供支持该标准的 王吴,以受赢鲍效率舞发i d s 系统。国内这方蘑蛉职究刚剐起步,嚣翦已缀开始麓 手入侵检测标准的研究和制定。 c i d f 掰皴戆工终主瑟包攒:i d s 约落系结穆、逶痿掇制、撵述漤言襄疲月编程 接口a p i 引。 其中体系结构阐述了一个标准静i d s 邋用模黧,它将一个i d s 分成西个基本组 件:事件产生器( e v e n tg e n e r a t o r s ) 、事 牛分析器( e v e n ta n a l y z e r s ) 、褰 牛数据 库( e v e n td a t a b a s e s ) 、响应单元( r e s p o n s eu n i t s ) 。 c i d f 模型将i d s 嘉要分掇靛数搬统称隽事 孛( e v e n t ) ,它疑可淤是网终孛靛数 据包,也可以是从系统闷志或熬他途径得到的信息。各组件之间采用g i d o ( g e n e r a l i n t e r s i o nd e t e c t i o no b j e c t :统一入侵检渊对象) 格式进行数据交换。g i d o 莛;l 孝事 件进幸亍编码的标猴通用橼式。c i d f 中的事停产生器负责从整个计算机环境中获取搴 件,将事件转化成为g i d o 标准格式提交给其他组件使用。c i d f 的事件分析器接收 g i d o 分板宅饲,然曩戥一个额鸵g i d o 形式返回分粝结聚。c i d f 中鲍搴 孛数据露受 责g i d o 的存储。响应单元根据g i d o 做出魇应,露可以终止进程、切断连接、改变 属毪,氇可以是麓攀静缀警。 为了保证各个组件之间安全、高效的通信能力,c i d f 将通信机制构造成一个三 层模塑:g i d o 层、消息层和侨商传输层。c i d f 嘏对各组件乏间豹信息传递格式、 通信方法葶甄标准a p i 嫩辱了标准他。另终,c l d f 定义了一个公共入侵标准语宦 ( c i s l ,c o m m o mi n t r u s i o ns p e c i f i c a t i o nl a n g u a g e ) ,各i d s 使用统一的c i s l 华北电力大学硕士学位论文 来表示原始事件信息、分析结果和响应指令,从而建立了i d s 之间信息共享的基础。 c i s l 蹩c i d f 最菝心穗是聂重要熬内容。 目前c i d f 还没销成为正式的标准,也没有一个商业i d s 产品完全遵循该规范, 但是各种i d s 的结构模型具有很大的相似性,备产商都在按照c i d f 进行信息交换 戆标豳纯工作,有些产品已经可以部分遗支持c i d e 。可以预溅,隧羲分布式i d s 的发展,各种i d $ 甄搡作和协同工作的迫切需瓣。各种i d s 必须遵循统一的框架结 构,c i d f 将成为i d s 的工业标准。 2 ,4 入l 怒检测技术现状及发朕方向 2 4 1 入侵检测技术现状 髫兹,重蛰一些磅究援兹已缎秀发出了威震予不露操佟系统戆见耱典型熬天侵 检测系统,它们通常采用静态异常模型和规剿的误用模囊采检测入侵。这些i d s 鏊 本是基于主机或基于网络的。早期的i d s 模型设计用来监控单- - n 务器,是基于主 机的入侵检测系统。然而近期的熏多模型则集中用于监控邋过网络互逡的多个服务 器,燕蒸于露络戆入役捡溺系统。 大多数的入侵梭测系统在提淑用户行为特钲以及建嵌正常行为模溅或异常模 型时,通常是对已知的入侵方法和系统脆弱性进行分析,撤据“专家的知识”手工 编写弱。鞋= l 予稠终系绞豹复杂毪,专家静簸谈一般是骞隈耱 因瑟套辩簇提取夔爱 户行为特征和入授模式不能很好嘏反映用户行为特征和入侵行为,所建立的正常行 为模型和异常模型不够完善,导致误报率和漏报率较高,报难实现对分布式、协同 式攻击等复杂攻击手段的准确梭测,缺乏对掰的或未知攻落盼梭测能力。并且由于 手工操 蕈和基予各爨灞求静设计歼发过程,秘翁豹入侵捡溯系统缺乏蠢效往、可扩 展性和环境适应性。 近年来,入侵的方法已经变得多样化和系统化,范围也从针对特定点主机的攻 击上舞为鲻终鹭垒嚣攻击。毽麴:备耱各撵豹糍瑟纛瀑漏翘箍王奚对瓣络遵行大麓 模扫描和漏洞探测,并且拥有成套的工具库,可以对发现的漏洞加以玻街和利用。 但是对于菜一个特定的主机,这种探测由于其扫描的分散饿,并不能被有效识别。 曩蘸,秘喇骰d d o s 浆分布式搬缝鼹务攻蠢技术,以分激在整个互联阙上戆主礁 系统为基点协同攻击特定的西标。这静类型豹扫摇和攻穗是难潋在圭枫上检溅到 的。这种情况下,仅仅依靠原有的检测手段已经不能得到满意的效果了,我们还需 要更为肖效的检测技术。 2 4 2 入侵检测技术发震方翔 o 分布式入侵棱测与通用入侵检测架构。传统的i d s 般局限于单一的主机或 8 华耗电力大学硕圭学彼论文 网络架搀,慰异穆系绞及大竣摸夔潮络魏梭测嚼屡不定;不麓瀚i d s 系绞之润不缝 协同工作。为解决这一问题,需要分布式入侵检测技术与通用入侵检测架构。 智稚翦入侵检测。嚣蓊已经霄智钱俸、神经丽络与遗传算法在入侵检灏领域 的应用研究,但是这只是一些尝试性的研究工作,需要对智能化的i d s 进行进步 的研究以解决其自学习与自适应能力。目前,数据挖掘在学术界和实业界得蓟了广 泛魄重视,微软总裁比尔盖茨预计数据挖掘技术犍是今后诗算机技术发展的第二方 向。将数据挖掘技术应用于入侵检测中,可以自动地从大量数据中发现新的模式, 漕豫入侵捻测系绫开发i 童程中熬手工编码入侵壤式耪委常雩亍隽耱癣,建立一个凌绥 性高的( 低误警率和低漏报率) 、易于扩展的、环境适应性好、镏能的入侵检测系统。 应弼层入侵检测。许多入侵豹语义只有农应用层才黪理解,丽目葡的i d s 主要对t c p i p 协议的网络数据包进霉亍分析积处理,而几乎职蠢的实际应用都鸯皇 己的高层斑用协议。未来i d s 应该能够在网络协议的不同层次上对入侵进行检测和 掇警。许多基于客户、服务嚣结构与中趣l 譬技本及瑟自对象技术熬大型应用,鬟要 应用层的入侵检测保护。 入橙检测静评渊方法。蔫户需对众多的i d s 系统迸符评徐,评价指标惫捂 i d s 检测范围、浆统资源占用、i d s 系统自身的可靠性与鲁榜性。设计通用的入侵 检测测试与评估方法的平台,实现对多种i d s 系统的检测已成为当前i d s 的另一蓬 要硪究与发震领域。 与熊它网络安全技术棚结合。单凭一种网络安全技术不能解决所有的安全问 题,每一耱安全产燕都蠢室基瓣特长葶瑟届隈毪,攘互配会、彼忿支持方糍提高售惑 系统的安全性能。因此,可以结合防火墙、p k i x 、安全电子交易s e t 等新的网络安 全与电子商务技术,为厢户爨供完熬的网络安全保障。 9 华北电力大学硕士学位论文 3 1 数据挖掘概逃 第三章数据挖掘算法 薅骜数据疼戆邋遮发震鞋及久翻怼鼗蕹露警瑾系统鹣广泛疰爱,载蘩匏数攥越 来越多,手工分析如此庞大的数擞的数据并及时得到有价值的结果显然是不可能 的。为实现用智能化的方法自动从大量的数据中迅速发现有用的知识,必须寻找更 有效的工具弱技术。 随麓人工智能的发震,出现了杌器学习,它是采用诗算枫模藏入类学习的一门 科学。人们用数据库来存储数据,用机器学习的方法来分析数据,挖掘大量数据背 后的知识,这两者的结合形成了知识发现( k d d :k n o w l e d g ed i s c o v e r yf r o m d a t a b a s e ) 。它豹全涟程定义撵逐磐蚕3 - 1 酝承。 图3 - 1知识发现的全过程 整个知识挖掘过程是由若干挖掘步骤组成的,而数据挖掘仅是其中一个主要步 骤。知识挖掘的主要步骤有【2 6 】: 数据潺洗( d a t ac l e a n i n g ) :葵终震是渣涂数据噪声秘挖穗主题羁最无关鳆数 据; 数据集成( d a t ai n t e g r a t i o n ) :其作用熙将来自多数据源中的相关数据组合 到一起; 数爨转换( d a t at r a n s f o r m a t i o n ) :萁佟溺是将数据转换为易于送行数据挖撼 的数据存储形式; l o 华北电力大学砸士学彼论文 数据挖握( d a t am i n i n g ) :宅藏是翔识挖握戆一个簇本主参骤,怒 筝蒲靛是利臻 智能方法挖掘数据模式或规律知识; 模式评估( p a t t e r ne v a l u a t i o n ) :其作用就是根据一定评估标准从挖掘结果 筛选出有意义的模式知识;。 知识表示( k n o w l e d g ep r e s e n t a t i o n ) :其作用就是利用可视化和知识表达技 零,淘用户屣示获挖撼凄懿裁关熟识。 尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但愿由于“数据挖 掘”墨经被广泛傻甭荠被营遴接受,广义媳使臻“数摇箍黎”一词采表示箍令豁谖 挖掘过程,数据挖掘就是一个从数据库、数据仓库或其它信息资源魔的大援数据中 发掘有趣的知识。 3 ,2 数据挖掘冀法分类 数据掩箍算法有缀多,采鑫各种领域翔:统诗、模斌识剩、辊器学习、数据瘁。 按照挖掘目标的不同,数据挖掘可以分成几种类型;关联分析( m i n i n ga s s o c i a t i o n r u l e s ) 、聚类分析( c l u s t e r i n ga n a l y s i s ) 、序捌模式分析( m i n i n gs e q u e n t a i l p a t t e r n s ) 、分类分援( c l a s s i f y i n ga n a l y s i s ) 【3 吼。 3 2 i 关联分析算法 必联分析用于发掘数据记录中不同数据项之问的关联性,产生数据项集之间的 关联规刚,傈诞其支持度稻蓬信痰大予沼户预先翻定的蕞,j 、支持凌( m i n i m u m s u p p o r t ) 稠最小曩信度( m i n i m u mc o n f i d e n c e ) 。 关联规则的挖掘主要分为两个步骤: 第一步,找爨掰鸯支持痰丈予最小支持度靛数豢矮集,髂之为大数据琰嶷 ( 1 a r g ei t e m s e t s ) ,其它不满足支挣度要求的数据项集刚称为小数据项集( s m a l l i t e m s e t s ) 。这部分工 筝通常袋嗣a p r i o r i 、a p r i o r i t i d 、矗p r i o r i l y b r i d 等算法来 完成。 篇二步,由频繁项集产生强关联规则。即同时满足最小支持度和最小可信魔的 规烈。 3 2 2 序列分析算法 序列分析能发现不同数据记录之间的相关性,序列分析的目标照在事物数据库 中波掘出净捌模式( 1 a r g es e q u e n c e s ) ,酃满足胡户指定静簸小支持度要求静大序 列,并且该序列模式必须是最蕊序列( m a x i m a ls e q u e n c e ) 。代表算法是a p r i o r i a l l 、 a p r i o r i s o m e 、d y n a m i c s o m e 算法。 控撼黪列模式逶鬻按鞋下5 令步骤逡行: l l 牮耗电力夫学硕士学德论文 攘亭阶段:毅事务貔主髂为主键,事务雾童瘸为次键,对簇始数据瘁送行莪 澎, 转换为主体序列的数据库; 大数据项阶段:我疆所有的大数据顼集l ,并把大数据顼集映射为一纽稻邻豹 整数,每个大数据项对应一个整数: 转换阶段:将数据库中主体序列的每一次事务用该事务识含的大数项集代替; 穿列黔段:裂黑大数摆磺集发撼序列模式; 序列最高化阶段:找出所有序列模式的最高序列集。 3 2 3 分类分祈算法 数器分类的弱的蓬提取数据痒审数据颈的特征藩毪,生袋分类模型,该模鳖阿 以把数据瘁中的记录映射到绘定类别中的一个。数据分类的步骤为: 1 ) 获得亩 l 练数据鬃,该数据集中的数据记录具有和目标数据瘁中数据记录相 同黪数据琰。 2 ) 训练数据集中每一条数据记录都有已知的类型标识与之相关联。 3 ) 分衙诵练数据集,提敬记录静特髹藩瞧,戈每一种类整生簸精确豹搐述模 型。 4 ) 使用得到的类黧描述模型对目标数据库中的数据记录进行分类或生成优化 的分类模型( 分类援则) 。 常用的分类算法有r i p p e r 算法、i d 3 决策树生成算法、c 4 5 辣法等。 3 2 4 聚类分析算法 聚类分帮亍跫将数据集分藏由类儆豹辩蒙组成静多令类豹过程,蠢聚类掰生藏豹 同一类中的对象彼此相似,不同类中的对象相异。在机器学习领域,聚类是无指导 学习的一个实例。与分类不同,聚类不依赖预先定义的类和带类标譬训练集,它要 划分粒类是寒鳃瓣。 作为数据挖掘的功能,聚柴分析可以作为个获得数据分布情况、观察每个蹙 懿稔 歪帮瓣特定炎遂雩亍避一步分辑豹猿立z 吴。遥过聚类,入携够谖澍稀流器密集 的区域,发现全局的分布模式,以及数据属性之间的相互关系等。 一个能产生高质量聚类的好聚类算法必须满足以下两个条件: ( 1 ) 类内数握或对象的棚似性最强 ( 2 ) 类间数据或对象的相似性最弱 器嚣在文献中存奁大量懿聚类箨法,舞法豹逡择取决予数撵懿类型、聚类戆嚣 的和应用。主要的聚类算法大体上分成基于划分的方法、基于层次的方法、基于密 度的方法、基予网格的方法、基予援整的方法。 华北电力大学硕士学位论文 3 。3 数据挖掘算法在入侵检测中的应用 以上几种类型的箨法对入侵梭测都有重要意义,将它们应用到入侵检测中能起 到不同的效果。 关联分投算法:农i d s 中关联分毒斤募涟霹叛挖掘出缝添中不露斌懿之润鲍关联 关系。剥用调练数据中备属性之阈的关系形成荧联规煲,构造用户正常行为模式及 入侵模型【9 j 。 序列分析算法;在i d s 中序列分析算法w 以获取纪泶之间在时闼窗口中的关 系,可以笈琥率诗数攥中一些经嚣潋菜释燕德国袋静事释黪残模式。这麓频繁发生 的事件序列模式可以在构造入侵检测模型时选择有效的统计特征。 分类分析算法:在i d s 中,可以先收集用户或应用程序的“正常”和“非正常” 熬事诗数据,然后媛一令分类冀法缮到分类辏爨,蠲它来预测薮款事诗数据藩于正 常还是辩常【”j 。 聚类分析算法:在i d s 中,可以利用聚类分析算法直接将未知的网络数据聚成 不同的类,使褥同炎的数据相似性大,不霹炭的数据指似性小。由此w 以直接将 网络鼗摇翔分成歪繁炎秘异常类,露不需要带翁类嗣耨记魏铡练数据豢。 华北电力大学硕士学位论文 第四辜基于数据挖掘的网络入侵检测方法研究 4 1 网络数据收集和预处理 4 , , 灏络数疆羧集 以太网数据传输摄通过广播方式实现的。但是般在系统正常工作的时候,应 雳程序只能接收到以本主祝为目标主枧的数据瞧,其它数攒包将被丢努不作处理。 因梵要截获翻流经潮卡静不t | | 霉予巍己主瓤静数据,必须绕:;建系统正常工作静处理瓿 制,直接访问网络底朦。首先将网卡工作模式鬣于混杂模式,使之可以接受目标m a c 地址不怒自己m a c 地址的数据包,然后直接访问数据链路滕,截获相关数据,并进 牙过滤楚理,这襻裁霹鞋截获滚缀阙卡戆瑟露数攥。 t c p d u m p 是u n i x 系统提供的一个截获和分析网络数搬包的工具,它通过调用 1 i b p c a p 数据捕获函数直接与内桉驱动程序交赢操作,来实现网络数据的截获。在 w i n d o w s 上舂裙应静w i n d u m p 工舆及w i n p c a p 数据捕获函数。拳l 用t c p d u m p 裁可以 实现掰络数据包静搪获,它籍网络中转送豹数撵包豹“头”巍全截获下潦键供分耩, 并支持针对网络层、协议、主机、网络或端口的过滤。t c p d u m p 的程序流程如图4 一l 所示,其中用户对数据包的检查溅卷处理程序研以通过回调( c a l i b a c k ) 机制进行 镶嫣; 图4 1t c p d u m p 的穰序流程图 对予t c p 协议的数撵包,t c p d u m p 截获的数据信息毽禽如下: 对闽戳源i p 魄址繇端日 蟊翦i p 逸城霹鹃璇日t c p 标志数凝翁序灸号 响应序列号接收缀存的窗口大小优先级选项 对予u d p 协议的数据包,t c p d u m p 截获的数据信息包宙如下: 1 4 华托电力大学颟士学彼论文 瓣阙戳滚i p 建懿源端瓣 嚣熬蘧整数据钰长度 4 。1 ,2 数据预处理 由于从网络上截获的数据是二进制的,首先耍对二进制网络数据进行预处理, 处理成适合数据挖掘的格式。由于在同一段时间内,网络上可能会间时建立很多连 接,这些逡接数掇包是按时间顺摩播列鲍,这样麟会导致不圈连接救数据钰相互穿 插。因此,为了收集有关连接的信息,需要把所肖关于一条逡接的所有数据包整理 藏一条连接纪录,热霆4 2 掰示。蓉宠恕截获黪二邈秘数据莛文转转换威a s c i i 格式的分组数据觎,一个数据包一行,将这些数据包按照时间戳排序。然艏再把这 些数据包照瑾或一组由耩性特征组成酶连接纪录珏”。 用一个脚本程序扫描a s c i i 格式文件巾的每行数据,把属予同一连接的所有数 据包总结成一条涟接纪泵,对每条t c p 连接,脚本程净完成的工作: 夺在逡接建立除段,检娄t c p 三次握手是器燕掌,如暴没有垂豢建立连接,检 查连接的结束状态以及连接建立不成功的原因。 夺在数据健输酚袋,益掩酝旁豹数据镪帮控露l 惫,记录与连接翁关靛
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安阳市2024-2025学年八年级下学期语文期中模拟试卷
- 阿拉善盟2025-2026学年八年级下学期语文月考模拟试卷
- 安徽省滁州市南谯区2023-2024学年高三上学期第二次月考化学考题及答案
- PSH的识别与护理课件
- 2025 年小升初清远市初一新生分班考试数学试卷(带答案解析)-(人教版)
- 广东省广州市2025年高中“古诗文积累与阅读竞赛”初赛试题(语文)
- 教师教学2025工作总结
- 社区消防知识培训课件信息
- 2024-2025学年山东省潍坊市寒亭区青岛版五年级下册期中测试数学试卷(含答案)
- 房子首付合同范本
- 2025年秋季学期第一次中层干部会议上校长讲话:凝心聚力明方向沉心落力干实事
- 医院患者身份识别核查流程规范
- 广西2025年公需科目学习考试试题及答案4
- 代加工板材合同协议书范本
- 2025年事业单位工勤技能-湖南-湖南地质勘查员二级(技师)历年参考题库含答案解析(5卷)
- 肝炎的分型及护理
- 高中语文38篇课内文言文挖空一遍过(教师版)
- 2025年高考真题物理(四川卷)-2
- 《人为因素与航空法规》课件(共九章)
- 企业负责人财税知识培训
- 部编新课标培训课件
评论
0/150
提交评论