(计算机软件与理论专业论文)基于数据挖掘的入侵检测系统的研究.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测系统的研究.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测系统的研究.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测系统的研究.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘的入侵检测系统的研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 随着网络技术和网络应用的不断发展,针对网络和计算机系统的入 侵越来越多,研究如何快速准确的检测出网络中入侵事件的发生,就显 得尤为重要和迫切。 本文以检测系统结构模型的建立、数据挖掘算法在入侵检测方面的 应用以及入侵特征的提取作为研究的主要内容。在数据挖掘中采用关联 规则和序列模式实现数据采集、特征建立和特征更新;通过机器学习得 到新的规则实现系统知识的自动更新。根据网络数据的具体情况,采用 轴属性、参考属性和基于宽度的逐层近似挖掘算法对挖掘算法进行扩 展,提高规则的准确性和概括性。 本文主要分为三大部分,第一部分首先综合分析了网络攻击的来源 和种类,入侵检测系统的组成、功能和分类。然后研究了本课题所需要 的基本内容,数据挖掘的基本概念和相关的挖掘算法及其改进。 第二部分研究了入侵检测系统结构和数据挖掘算法在入侵检测方 面的应用。提出了基于主机和网络以及异常检测与误用检测相结合的系 统结构模型。根据网络数据的具体情况在挖掘算法中引入了轴属性和参 考属性;对知识库的规则和模式进行合并和概化;对低频属性的挖掘提 出了基于宽度的逐层近似挖掘算法。 第三部分首先对d a r p a ( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t s a g e n c y ) 提供的网络数据进行了详细的分析,然后通过基于连接记录的 误用检测和用户行为的异常检测,对入侵检测系统从分析方法和实现技 术方面进行了积极的尝试。 关键词:入侵检测;数据挖掘;关联规则:序列模式 哈尔滨工程大学硕士学位论文 k b s t r a c t a st h ed e v e l o p m e n to ft e c h n o l o g ya n da p p l i c a t i o no fn e t w o r k ,i ti s i m p o r t a n tt h a t h o wt o q u i c k l ya n da c c u r a t e l y d e t e c t st h ei n t r u s i o no f n e t w o r kw h i l em o r ea n d m o r ea t t a c kt ot h ec o m p u t e ra n dn e t w o r kh a p p e n e d s o i ti s u r g e n tt os t u d yh o wt of i n dt h ei n t r u s i o ni nc o m p u t e rn e t w o r k p r e c i s e l ya n dr a p i d l y t h i sp a p e rf o c u s e so nd e s i g n i n gam o d e lf o ri n t r u s i o na n dt h e a p p l i c a t i o no fd a t am i n i n go ni n t r u s i o nd e t e c t i o na n dp i c k i n gu pt h ef e a t u r e o fi n t r u s i o n a s s o c i a t i o nr u l e sa n df r e q u e n te p i s o d ea l g o r i t h ma r ea p p l i e dt o d a t aa g g r e g a t i o n ,f e a t u r ec o n s t r u c t i o na n df e a t u r es e l e c t i o ni nd a t am i n i n g , a n de v e r yr e c o r d e rr e p r e s e n t e db yt h e s ef e a t u r e sa r ea n a l y z e db ym a c h i n e l e a r n i n gt o c r e a t en e wr u l e st ot h er u l el i b r a r y a x i sa t t r i b u t e ,r e f e r e n c e a t t r i b u t ea n dl e v e l w i s ea p p r o x i m a t em i n i n ga l g o r i t h ma r eu s e dt oe x t e n dt o d a t am i n i n ga l g o r i t h m t h i st h e s i si sc o m p r i s e do ft h r e ep a r t s t h ef i r s to n ei n t r o d u c e st h e s o u r c eo fn e t w o r ka t t a c k ,t h ec o m p o s i t i o n ,f u n c t i o na n dc l a s s i f i c a t i o no ft h e i n t r u s i o nd e t e c t i o ns y s t e m t h e ns o m er u d i m e n t a r yk n o w l e d g en e e d e di s i n t r o d u c e db r i e f l y ,w h i c hi n c l u d e st h eb a s i cc o n c e p t i o na n dt h ei m p r o v e d a l g o r i t h m so fd a t am i n i n g t h es e c o n dp a r tf o c u s e so nd e s i g n i n gt h ef r a m e w o r ko fi n t r u s i o n d e t e c t i o na n dt h ea p p l i c a t i o no fd a t am i n i n ga l g o r i t h mi ni n t r u s i o nd e t e c t i o n t h ei n t r u s i o nd e t e c t i o ns y s t e mb a s e do nd a t am i n i n gi s p r o p o s e d a s s o c i a t i o nr u l ea l g o r i t h ma n ds e q u e n t i a lp a t t e r na l g o r i t h ma r em e r g e di n t o a x i sa t t r i b u t e sa n dr e f e r e n c ef e a t u r e m a n a g i n gt h er u l e sa n dp a t t e r n so ft h e k n o w l e d g ed a t a b a s e i nc o m b i n a t i o na n dg e n e r a l i z a t i o nm a k e sag r e a t p r o g r e s so fa c c u r a c yo fi d s t h el e v e l w i s ea p p r o x i m a t em i n i n ga l g o r i t h m p r o p o s e dt om i n et h el o ws u p p o r tf r e q u e n tf e a t u r ec a nu p g r a d e st h ev e r a c i t y o ft h es y s t e m i nt h et h i r dp a r t ,t h en e t w o r kt r a f f i cp r o v e db yd a r p a ( d e f e n s e a d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) h a sb e e na n a l y z e dd e t a i l e d i nt h e 哈尔滨工程大学硕士学位论文 r e s e a r c ho fm i s u s ed e t e c t i o nb a s e do nc o n n e c t i o nr e c o r d e r sa n da n o m a l y d e t e c t i o nb a s e do nu s e rb e h a v i o r a na c t i v ea t t e m p ti na n a l y t i cm e t h o d sa n d r e a l i z i n gt e c h n i q u e sh a v eb e e nm a d e k e y w o r d s : i n t r u s i o n d e t e c t i o n ,d a t am i n i n g ,a s s o c i a t i o nr u l e s , s e q u e n t i a lp a t t e r n 哈尔滨工程大学 学位论文原创性2 声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 口 复u 白 2i 刁勿 日期:o 口一年月3 dh 哈尔滨工程大学硕士学位论文 1 1 安全威胁的来源 第1 章绪论 从计算机的发展历史来看,早期的计算机使用者集中在大学校园、 研究团体这样的学术领域。在这种学术研究气氛浓郁的应用环境中,安 全不是考虑的首要问题,功能全面和使用便捷才是人们所最关心的。这 一观念沿袭至今,因而才有了大量使用简洁功能异常强大的u n i x 命令, 例如c p ,s e d ,g e p ,a w k 等,缓冲区溢出的罪魁祸首g e t s ( ) ,s t r c p y ( ) 等 系统库函数,以及s e n d m a i l ,f i n g e r ,t e l n e t ,n i s 等曾经引发一系列安全隐 患的服务程序。 概括地说,安全威胁的根源主要是三个方面:计算机软件设计实现 中的疏漏,其中包括作为计算机核心的操作系统和作为支撑软件的编译 器和数据库等,也包括提供服务的应用程序“。这些软件往往由于功能 复杂、规模庞大,又没有安全理论的指导或安全原则未能贯穿始终,甚 至有的在设计之初就没有考虑安全问题,导致诸如缓冲区溢出、符号连 接和木马后门等名种各样的攻击手段隐藏其中,这些方法一旦被发现, 就可对系统的安全构成致命的威胁。 开放的t c p i p 协议族在规划之初未能对安全性( 身份鉴别和信息 保密等) 给予足够的考虑。针对该协议的典型攻击有t c p s y nf l o o d 、 分布式拒绝服务以及i p s p o o f i n g 等。网络的脆弱性加上主机系统的漏洞, 给无孔不入的攻击者以更多的可乘之机。 系统和网络使用过程中的错误配置及误操作。完善的安全防范体系 包括安全准则的正确执行,人为疏忽会造成系统错误配置。如果配置不 当,攻击者就可以轻易突破安全防线,获得非授权访问能力甚至是系统 特权。比如h t t p ,f t p ,s e n d m a i l 等服务的设置不当都会带来严重的后果。 作为中转站攻击另一目标( 如最近的分布式拒绝服务攻击就是利用 哈尔滨工程大学硕士学位论文 大学校园的主机做跳板攻击公用网络的) 其中,造成危害最大的是普通 用户到超级用户权限的提升,这一步完全发生在受害主机内部。所以, 安全系统要有能力感知用户在系统内部所执行的动作及其产生的后果, 并杜绝有害行为的发生,而要做到这一点,在很大程度上需要依赖于入 侵检测技术的实旌。 1 2 入侵检测的提出 安全问题十分复杂,是一种很难量化的概念。把系统的性能与安全 做一简单对比,系统性能的高低在定程度上可以通过量化指标来表 现。系统性能的提高,用户虽然摸不到,但却看得到,而安全是一个非 常难于量化的指标,真正是一个看不见摸不着的东西。因此安全问题很 容易表面上受到重视,而实际上却被忽视。“什么事情也没有”应是安 全的最高境界。但也正是导致忽视安全问题的原因所在。实际上,安全 就是防范潜在的危机,如果安全受到破坏,就要采取检测和响应的措施。 1 9 8 5 年美国国防部( d o d ) 国家计算机安全中心( n c s c ) 发布了 可信计算机安全评估准则( t c s e c ),这个准则的发布对操作系统、 数据库等方面的安全起到了很大的推动作用1 。但是随着网络的深入发 展,这个标准已经不能完全适应当前的技术需要,因为这个主要基于用 户终端环境的静态安全模型和标准无法完全反应分布式、动态变化和发 展迅速的网络安全问题。传统的信息安全技术都集中在系统自身的加固 和防护上,比如,在终端安装杀毒软件、在网络出口配置防火墙、在信 息传输和存储中采用加密技术,使用集中的身份认证产品等。然而,单 纯的防护技术有许多方面的问题。 首先,它容易导致系统的盲目建设,这种盲目包括两方面:一方面 是不了解安全威胁的严嫒和当前的安全现状;另一方面是安全投入过大 而又没有真正抓住安全的关键环节,导致不必要的浪费。 其次,防火墙策略对于防范黑客有其明显的局限性。 再次,保证信息系统安全的经典手段是“存取控制”或“访问控制”。 这种手段在经典的以及现代的安全理论中都是实行系统安全策略的最 哈尔滨工程大学硕士学位论文 重要的手段,但是迄今为止,软件工程技术还没有达到a 2 级所要求的 形式或证明一个系统的安全体系的程度,所以不可能百分之百地保证任 何一个系统( 尤其是底层系统) 中不存在安全漏洞。 在这种情况下,入侵检测系统应运而生。入侵检测技术是为保证计 算机系统的安全而设计的一种能够及时发现并报告系统中未授权或异 常现象的技术,是一种用于检测计算机网络中违反安全策略行为的技 术。i d s 是一套软件和硬件的结合体,能弥补防火墙的不足,为受保护 网络提供有效的入侵检测及采取相应的防护手段。入侵检测是一个全新 的、迅速发展的领域,并且已成为网络安全中极为重要的一个课题。入 侵检测的方法和产品也在不断的研究和开发之中,并且已经在网络攻防 实例中初步展现出其重要价值。 1 3 国内外研究现状 1 9 8 0 年4 月,j a m e s a n d e r s o n 为美国空军做了一份题为c o m p u t e r s e c u r i t yt h r e a tm o n i t o r i n ga n ds u r v e i l l a n c e ) ) ( 计算机安全威胁监控与监 视) 的技术报告,第一次详细阐述了入侵检测的概念“。他提出了一种 对计算机系统风险和威胁的分类方法,并将威胁分为外部渗透、内部渗 透和不法行为三种,还提出了利用审计跟踪数据监视入侵活动的思想。 这份报告被公认为是入侵检测的开山之作。 从1 9 8 4 年到1 9 8 6 年,乔治敦大学的d o r o t h yd e n n i ng 和s r i c s l ( s r i 公司计算机科学实验室) 的p e t e rn e u m a n n 研究出了一个实时入 侵检测系统模型,取名为i d e s ( 入侵检测专家系统) 。该模型由六个部 分组成:主体、对象、审计记录、轮廓特征、异常记录、活动规则。它 独立于特定的系统平台、应用环境、系统弱点以及入侵类型,为构建入 侵检测系统提供了一个通用的框架如图1 1 所示。 哈尔滨工程大学硕士学位论文 图1 1 通用i d s 框架 1 9 8 8 年,s r i c s l 的t e r e s al u n t 等人改进了d e n n i n g 的入侵检测模 型,并开发出了一个i d e s 。该系统包括一个异常检测器和一个专家系 统,分别用于统计异常模型的建立和基于规则的特征分析检测如图1 2 所示。 图1 2i d e s 结构框架图 1 9 9 0 年是入侵检测系统发展史上的一个分水岭。这一年,加州大学 戴维斯分校的lt h e b e r l e i n 等人开发出了n s m ( n e t w o r ks e c u r i t y m o n i t o r ) 。该系统第一次直接将网络流作为审计数据来源,因而可以在 不将审计数据转换成统一格式的情况下监控主机。从此之后,入侵检测 系统发展史翻开了新的一页,两大阵营正式形成:基于网络的i d s 和基 于主机的i d s 。 1 9 8 8 年的莫里斯蠕虫事件发生之后,网络安全才真正引起了军方、 学术界和企业的高度重视。美国空军、国家安全局和能源部共同资助空 军密码支持中心、劳伦斯利弗摩尔国家实验室、加州大学戴维斯分校、 4 哈尔滨工程大学硕士学位论文 h a y s t a c k 实验室,开展对分布式入侵检测系统( d i d s ) 的研究,将基于 主机和基于网络的检测方法集成到一起,其总体结构如图所示。 j 主机监视器jl a n 监视器! 图1 3d i d s 结构框架图 d i d s 是分布式入侵检测系统历史上的一个里程碑式的产品,它的 检测模型采用了分层结构,包括数据、事件、主体、上下文、威胁、安 全状态等6 层。 目前国际上入侵检测的研究主要集中在美国,有许多研究得到政府 和军方的支持,并在实际的环境中得到应用,产生了大量的商用入侵检 测工具。目前入侵检测的厂商及其产品主要有i s s 公司( r e a ls e c u r e ) , a x e n t 公司( i t a e s m ) ,以及n a i ( c y b e rc o p m o n i t o r ) 。 i d s 的发展趋势是由静态的安全模型逐渐过渡到动态的安全模型, 如p p d r r 模型。p p d r r 表示p o l i c y ,p r o t e c t i o n ,d e t e c t i o n ,r e s p o n s e 和r e c o v e r 即策略、保护、检测、响应和恢复,检测己经是网络安全模 型中非常重要的一部分。 我国在入侵检测技术方面也有一定研究,开发出了一些网络安全产 品,如西安信利网络科技公司的“网络巡警”解决方案、华泰网信息技 术有限公司的i n t e r n e t i n t r a n e t 网络安全预警系统、北京启明星辰科技贸 易有限公司的黑客入侵检测与预警系统、北京时代先锋软件有限责任公 司的行天黑客攻击检测工具等多种入侵检测产品。 把数据挖掘技术应用于入侵检测系统是由哥伦比亚大学计算机系 研究室w e n k el e e “,于1 9 9 9 年提出的一个全新的概念。目前,此项目 是美国国防部( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c yd a r p a ) 项 目中的一部分。实验表明,此方法能够提高系统的检测率,而不会降低 5 哈尔滨工程大学硕士学位论文 任何一种检测模型的其它效能。 目前,国内也有少数一些研究机构及大学正在从事数据挖掘在入侵 检测方面的研究。从研究成果来看,大多处于初始阶段,还没有系统的 理论推出。 数据挖掘技术应用于入侵检测系统的基本原理和方法正处在研究 阶段,因此,本课题研究数据挖掘的理论及用于入侵检测系统中数据分 析的理论和方法,具有一定的理论价值。 1 4 研究的主要工作和论文的组织 本文的工作主要分为三个方面。 1 以检测结构模型的建立、数据挖掘算法在入侵检测方面的应用 以及入侵特征的提取作为研究的主要内容。通过对入侵监测系统模型的 研究。根据异常检测模型和误用检测模型的特点,提出了基于主机和网 络以及异常检测与误用检测相结合的系统结构模型。 2 在系统中采用关联规则和序列模式等数据挖掘算法实现数据采 集、特征建立和特征更新;通过机器学习得到新的规则实现系统知识的 自动更新,提高系统自我学习的能力,增强系统的自适应性。 3 根据网络数据的具体情况引入了轴属性、参考属性等概念对 a p r i o r i 算法和f r e q u e n te p i s o d e 进行扩展,提高规则的准确性和概括 性。对于有关低频属性的挖掘,提出了基于宽度的逐层近似挖掘算法使 规则库更趋完善,从而降低漏警率和误警率。 论文分为5 章,第1 章研究了网络攻击的来源和分类并对入侵监测 系统国内外发展现状进行分析,明确了研究课题的意义;第2 章分析了 入侵监测系统的基本概念及分类;第3 章研究了数据挖掘的基本概念和 用于入侵检测的挖掘算法;第4 章提出了基于数据挖掘的入侵监测系统 结构模型并对所采用的挖掘算法进行扩展:第5 章对网络数据和试验结 果进行分析,最后是结论。 6 哈尔滨工程大学硕士学位论文 第2 章入侵检测系统 入侵的威胁多是通过发现操作系统和应用服务程序的弱点或者缺 陷来实现。在入侵检测之前,大量的安全机制都是从主观的角度设计的, 没有根据网络攻击的具体行为来决定安全对策,因此,它们对入侵行为 的反应非常迟钝,很难发现未知的攻击行为,不能根据网络行为的变化 及时地调整系统的安全策略。而入侵检测系统正是根据网络攻击行为而 进行设计的,它不仅能够发现已知入侵行为,而且有能力发现未知的入 侵行为,并可以通过学习和分析入侵手段,及时地调整系统策略以加强 系统的安全性。 2 1 入侵检测的概念 入侵检测( i n t r u s i o nd e t e c t i o n ) 是对( 网络) 系统的运行状态进行 监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的 机密性、完整性与可用性。 i d s c ( i n t r u s i o nd e t e c t i o ns y s t e mc o n s o r t i u m ) 1 9 9 9 年3 月发布的 入侵检测及其评估介绍给出了如下定义:入侵检测系统( i n t r u s i o n d e t e c t i o ns y s t e m ) 是从多种计算机系统及网络中搜集信息,再从这些信 息中分析入侵及误用特征:入侵是由系统外部发起的攻击:误用是由系 统内部发起的攻击。 所有的i d s 的本质都是基于分析一系列离散的、按先后顺序发生的 事件,这些事件用于误用模式进行匹配,入侵检测源都是连续的纪录, 它们反映了特定的操作,间接反映了运行状态。i d s 功能包括:监视、 分析用户及系统活动:系统构造和弱点的审计;识别反映已知进攻的活 动模式并向相关人士报警;异常行为模式的统计分析:评估重要系统和 数据文件的完整性;操作系统的审计、跟踪、管理和识别用户违反安全 策略的行为。 ;一;一;垒型望堡丝型兰型鎏一;一2 2 入侵检测系统的分类 2 2 1 按入侵检测的建模方法分类 以建立入侵模型的方法分类,入侵检测可分为异常检测( a n o m a l y d e t e c t i o n ) 和误用检测( m i s u s ed e t e c t i o n ) 。 异常检测观察到的不是已知的入侵行为,而是所研究的通信过程中 的异常现象,它通过检测系统的行为或使用情况的变化来完成。在建立 该模型之前,首先必须建立统计概率模型,明确所观察对象的正常情况, 然后决定在何种程度上将一个行为标为“异常”,并如何做出具体决策。 异常检测只能识别出那些与正常过程有较大偏差的行为,而无法知 道具体的入侵情况。由于对各种网络环境的适应性不强,且缺乏精确的 判定准则,异常检测误警率较高。 误用检测是指根据已知系统和应用软件的弱点及其攻击模式的特 征进行编码,并通过与审计数据的匹配来检测入侵“。与异常检测不同, 误用检测直接检测违反安全策略的行为。误用检测具有较低的误报率 ( f a l s ep o s i t i v er a t e ) ,但它不能检测出新出现的一些入侵行为,故漏报 率( f a l s en e g a t i v er a t e ) 较高。 2 2 2 根据检测数据来源分类 入侵检测系统根据其检测数据的来源分为两类:基于主机 ( h o s t b a s e d ) 的入侵检测系统和基于网络( n e t w o r k b a s e d ) 的入侵检 测系统”。基于主机的入侵检测系统从单个主机上提取系统数据( 如审 计记录等) 作为入侵分析的数据源,而基于网络的入侵检测系统从网络 上提取数据( 如网络链路层的数据帧) 作为入侵分析的数据源。通常来 说基于主机的入侵检测系统只能检测单个主机系统,而基于网络的入侵 检测系统可以对本网段的多个主机系统进行检测,多个分布于不同网段 上的基于网络的入侵检测系统可以协同工作以提供更强的入侵检测能 哈尔滨工程大学硕士学位论文 力。图2 1 给出了一个同时包含基于主机与基于网络的两种机制的入侵 检测结构框图。 图2 1 入侵检测系统结构图 基于主机的入侵检测系统的检测目标是主机系统和系统本地用户,原 理是根据主机的审计数据和系统日志发现可疑事件。该系统通常运行在 被监测的主机或服务器上,实时检测主机安全性方面诸如操作系统日志 文件、审核日志文件、应用程序日志文件等的情况,其效果依赖于数据 的准确性以及安全事件的定义。这种类型的i d s 是利用主机操作系统及 应用程序的审核作为输入的主要数据源来检测入侵”。基于主机的入侵 检测系统被设计成检测i d s 代理所驻留的宿主机,如图2 2 所示,这 种i d s 可以检测到网络协议栈的高层数据,也可检测到被监视主机上的 本地活动,例如:文件修改和用户账户的建立。 哈尔滨工程大学硕士学位论文 图2 2 基于主机的入侵检测系统 在图2 2 的客户一服务器通信模式下,客户机对服务器上的访问活 动将被服务器日志所记载。i d s 代理检测这些记录用户活动信息的日志 文件,将它们与事先知道的用户正常行为模式进行匹配。基于主机的i d s 有两种主要类型:基于应用和基于操作系统。 基于应用的i d s 在应用层搜集信息。应用层信息主要是数据库管理 软件、w e b 服务器或防火墙等产生的日志文件。这种方式可以更好地获 取在系统上用户活动( 如可以更准确的监控用户某一应用的行为) ,它 的缺点是应用层的脆弱性会破坏监视和检测。 基于操作系统的i d s 搜集在特定系统上的活动信息,这些信息可以 是操作系统产生的审计数据,它包括系统日志、操作系统进程产生的日 志以及那些在标准操作系统的审计和日志中没有反映的系统对象的有 关内容1 。这种方式可以监控对系统访问的主体和对象,并且可以将可 疑的活动映射到特定的用户i d 上。它的缺点是,操作系统的脆弱性会 破坏i d s 监视与入侵分析的完整性,同时它必须建立在特定的操作系 统平台上。 基于主机的入侵检测系统具有检测效率高,分析代价小,分析速度 快的特点,能够迅速并准确地定位入侵者,并可以结合操作系统和应用 程序的行为特征对入侵进行进一步分析、响应。例如,一旦检测到有入 侵活动,就可以立即使该用户的账号失效,用户的进程中断。也只有这 种检测方式能检测出通过控制台的入侵活动。 但基于主机的i d s 也有其不足之处:首先它在一定程度上依赖于系 1 0 堕玺堡三堡盔堂亟主堂焦造塞 统的可靠性,它要求系统本身应该具备基本的安全功能并具有合理的设 置,然后才能提取入侵信息;即使进行了正确的设置,对操作系统熟悉 的攻击者仍然有可能在入侵行为完成后及时地将系统日志抹去,从而不 被发觉;并且主机的日志能够提供的信息有限,有的入侵手段和途径不 会在日志中反映。日志系统对网络层的入侵行为无能为力,例如利用网 络协议栈的漏洞进行的攻击,通过p i n g 命令发送大数据包,造成系统 协议栈溢出而死机,或是利用a r p 欺骗来伪装成其他主机进行通信等 等,这些手段都不会被高层的同志记录下来。在数据提取的实时性、充 分性、可靠性方面基于主机的入侵检测系统不如基于网络的入侵检测系 统。 基于网络的入侵检测系统搜集来自网络层的信息。这些信息通过嗅 探技术,使用在混杂模式的网络接口来获得,如图2 3 所示。 图2 3 基于网络的入侵检测系统 从图2 ,3 可以看出,基于网络i d s 位于客户端与服务端的通信链路中 央,它可以访问到通信链路的所有层次。因此,这种i d s 可以监视和检 测网络层的攻击( 如s y n 洪流) 。 理论上,网络监视可以获得所有的网络信息数据,它在没有特定的审 计或日志机制的情况下,也可以获得数据。只要时间允许,可以在庞大 的数据堆中提取和分析需要的数据;可以对一个子网进行检测,一个监 视模块可以监视同一网段的多台主机的网络行为;可以通过增加代理来 监视网络,不会影响现存的数据源,不改变系统和网络的工作模式,也 l i 哈尔滨工程大学硕士学位论文 不影响主机性能和网络性能,处于被动接收方式,很难被入侵者发现, 隐蔽性好;可以从底层开始分析,对基于协议攻击的入侵手段有较强的 分析能力。 基于网络的入侵检测系统的主要问题是监视数据量过于庞大并且它不 能结合操作系统特征来对网络行为进行准确的判断;如果网络数据被加 密,i d s 就不能扫描协议或内容。基于网络的i d s 系统通常放置于内 部网与外部网的访问出口上( 如路由器、m o d e m ) ,能够监控从协议攻 击到特定环境攻击的范围很广的网络攻击行为。 2 3i d s 的现状和发展趋势 i d s 作为安全防御的最后一道防线,能够用于检测各种入侵行为,是 安全防御体系的一个重要组成部分,计算机技术的发展和网络技术的发 展为入侵检测技术的研究提出了新的要求。 2 3 1i d s 目前存在的问题 目前存在的问题是许多现存i d s 采用集中收集和分析数据的体系结 构,即数据由单一的主机收集,并按唯一的标准用不同方法进行分析。 还有一些i d s 用多种标准从被监视的多个分布式主机上收集分散的数 据,但这些数据仍要由一台完全独立的机器集中分析处理。这种体系结 构存在以下问题:可扩展性较差、i d s 重新配置或增加功能困难。 大多数入侵检侧系统的处理效率低下,不能满足大规模和高带宽网 络的安全防护要求。目前使用的主要检侧方法是模式匹配即将审计事件 同特征库中的特征进行匹配,而现在的特征库组织简单,致使漏报率和 误报率较高,很难实现对分布式、协同式等复杂攻击手段的准确检侧: 此外缺乏对未知入侵的预警能力。 中心控制台对攻击数据的关联和分析能力不足,人工参与过多,系 统的自适应能力差,软件的配置和使用复杂,不能自动地适应环境,需 要安全管理员根据具体的环境对软件进行复杂的配置。 i2 哈尔滨工程大学硕士学位论文 2 3 2i d s 的发展趋势及主要研究方向 随着网络攻击手段的不断提高,其破坏性和隐蔽性也越来越强。相应 地,入侵检测系统也在向分布式结构发展,采用分布收集信息、分布处 理、多方协作的方式,将基于主机的i d s 和基于网络的i d s 结合使用, 入侵检测技术的主要研究方向有: 1 i d s 体系结构研究。i d s 是包括技术、人、工具三方面因素的一 个整体,如何建立一个良好的体系结构,合理组织和管理各种实体,以 杜绝在时间上和实体交互中产生的系统脆弱性,是当前1 d s 研究中的主 要内容,也是保护系统安全的首要条件。 i d s 体系结构的研究主要包括:具有多系统的互操作性和重用性的通 用入侵检测框架;总体结构和各部件的相互关系;系统安全策略;具有 可伸缩性的统一i d s 系统结构;i d s 管理;安全、健壮和可扩展的安全 策略。 2 安全通信技术研究。目前,分布式系统的安全通讯机制也是研 究领域的一个热点,包括i e t f 的入侵检测报警协议( i n t r u s i o na l e r t p r o t o c o l ,简称i a p ) 、安全认证和远程控制等协议、高效且具有互操作性 的安全通道。 3 入侵检测技术研究。基于误用的检测包括专家系统、模型推理、 状态转换图、信号分析、p e t r i n e t s 图等。这种检测由于依据具体特征库 进行判断,所以准确度很高、方便响应;但与具体系统依赖性太强,移 植性不好,维护工作量大,受已有知识的限制,难以检测出权力滥用。 基于异常的检测包括概率统计方法、神经网络方法、专家系统、用 户意图识别、计算机免疫系统等。这种检测与系统相对无关,通用性较 强;可检测出以前未出现过的攻击方法。它的主要缺陷在于误检率很高。 鉴于两者存在的优点和不足,而且已证明依靠单一的入侵检测方法 不可能检测出所有入侵,所以现在的研究主要集中在对已有的检测方法 进行改进和对新检测法的研究上,期望找到效率和效果相一致的检测方 法。 哈尔滨工程大学硕士学位论文 4 响应策略与恢复研究。i d s 识别出入侵后的响应策略是维护系 统安全性、完整性的关键。i d s 的目标是实现实时响应和恢复。 实现i d s 的响应包括:向管理员和其它实体发出警报:进行紧急处理: 对于攻击的追踪、诱导和反击;对于攻击源数据的聚集以及i d 部件的 自学习和改进。1 d s 的恢复研究包括:系统状态一致性检测、系统数据的 备份、系统恢复策略和恢复时机“。 5 协作式入侵检测技术研究。随着黑客入侵手段的提高,尤其是分 布式、协同式、复杂模式攻击的出现和发展,传统的单一、缺乏协作的 入侵检测技术已经不能满足需求,需要有充分的协作机制。所谓协作主 要包括两个方面: ( 1 ) 事件检测、分析和响应能力的协作。 ( 2 ) 各部分所掌握的安全相关信息的共享。 尽管现在最好的商业产品和研究项目中也只有简单的协作,例如i s s 的r e a ls e c u r e 入侵检测产品可以与防火墙协作,a a f i d 中同一主机上 各主机型代理之间可进行简单的信息共享,但协作是一个重要的发展方 向。协作的层次主要有以下几种: ( 1 ) 同一系统中不同入侵检测部件之间的协作,尤其是主机型和网 络型入侵检测部件之间的协作,以及异构平台部件的协作。 ( 2 ) 不同安全工具之间的协作。 ( 3 ) 不同厂家的安全产品之间的协作。 ( 4 ) 不同组织之间预警能力和信息的协作。 要实现协作,首先要考虑两个问题。首先是信息表达的格式和信息交 换的安全协议,其次是协作的模型。信息表达的格式有两个标准:d a r p a 的通用入侵检测框架中提出的c i s l ( c o m m o ni n t r u s i o ns p e c i f i c a t i o n l a n g u a g e ,简称c i s l ) 语言:i e t f 的入侵检侧工作组( i d w g ) 中i a p 使用的另一套方案。 6 建立黑客攻击模型以及主机和网络安全状态模型。对于黑客攻击 的识别,现用的方法基本都是在已知攻击的基础上提取其特征,然后将 其加入特征库。但是现有的攻击特征库过于简单,没有扩展性和适应性, 造成较高的误报率和漏报率,并缺乏对未知攻击的预警w 。 1 4 哈尔滨工程大学硕士学位论文 安全是相对的,所以有必要建立状态模型以监测主机和网络当前的 安全状态。一旦发现异常,很有可能是未知的黑客攻击,可采取应急措 施,如进行全面的日志记录,启动一般处于禁止态的( 开销较大的) 入 侵检测模块,在一段时间内禁止一些危险操作等。对于存放高度机密信 息的机构这种措施尤其有用。安全状态模型应该是通用的,并有可调参 数,当系统置于新环境时,可由系统自适应或由安全管理员设定这些参 数。 2 4 本章小结 本章主要研究了i d s 的概念、i d s 的分类、i d s 的功能要求和发展 趋势,阐述了i d s 目前存在的问题和将来的发展趋势及主要研究方向, 说明了入侵检测系统是现在国际上研究的一个热点,以及本课题研究的 必要性。 哈尔滨工程大学硕士学位论文 第3 章数据挖掘技术 近年来,随着信息技术的高速发展,人们利用信息技术生产和搜集 数据的能力大幅度提高,数据库应用的规模、范围和深度不断扩大。人 们不可避免地遇到了信息灾难问题:一是信息过量,难以消化;二是信 息真假,难以辨识;三是信息安全,难以保证;四是信息形式不一致, 难以统一处理。面对这一严峻挑战,数据挖掘和知识发现技术应运而生, 并得以蓬勃发展。 3 1 数据挖掘概述 数据库的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 的定 义为:k d d 是从数据中辨别有效的、新颖的、潜在的有用的、最终可理 解的模式的过程。 知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模 式评估和知识表示。数据清理就是消除噪声或不一致数据;数据集成是 把多种数据源组合在一起;数据变换是数据变换或统一成适合挖掘的形 式;数据挖掘是使用智能方法提取数据模式;模式评估是根据某种兴趣 度度量,识别表示知识的真正有用的模式;知识表示是使用可视化的知 识表示技术,向用户提供挖掘的知识。根据数据挖掘的任务可分为:分 类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模 式发现、依赖关系或依赖模型发现、异常和趋势发现等等。 数据挖掘( d a t a m i n e ) 的定义为:数据挖掘就是从大量的、不完全的、 有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知 道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交 叉学科,它汇聚了不同领域的研究,尤其是数据库、人工智能、数理统 计、可视化。数据挖掘是k d d 中通过特定的算法在可接受的计算效率限 制内生成特定模式的一个步骤。 6 哈尔滨工程大学硕士学位论文 典型的数据挖掘系统具有以下主要成分,如图3 1 所示a 图3 1 数据挖掘系统 数据库、数据仓库或其它信息库:这是一个或一组数据库、数据仓 库、电子表格或其它类型的信息库,可以对其进行数据清理和集成。 数据库或数据仓库服务器:根据用户的数据挖掘请求,服务器负责 提取相关数据。 知识库:领域知识用于指导搜索,或评估结果模式的兴趣度。 数据挖掘引擎:它是数据挖掘系统的基本部分,由一组功能模块组 成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估:通常它使用兴趣度度量,并与数据挖掘模块交互,以便 将搜索聚焦在模式上。 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户 与系统交互,指定数据挖掘查询或任务,提供提示信息。 哈尔滨工程大学硕士学位论文 3 2 数据挖掘算法介绍 3 2 ,1 关联分析算法 关联分析就是要发现关联规则,找出给定数据集中数据项之间的联 系,考虑一些涉及很多物品( i t e m s ) 的事务( t r a n s a c t i o n ) :事务a 中出 现了物品1 ,事务b 中出现了物品2 ,事务c 中出现了物品1 和2 ,那么,物 品1 和2 在事务中的出现相互之间是否存在一定的关系呢? 在数据库的知 识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规 律的知识模式。更确切的说。关联规则通过量化的数字描述物品l 的出 现对物品2 的出现有多大影响。 关联规则表示数据库中一组对象之间某种关联关系的规则,对审计 记录进行关联规则挖掘目的是发现每条审计记录内部不同属性之间的 相互依赖的模式。设i = i l ,“i 。 是审计记录中数据属性的值集。 d = r l ,r 2 ,r 是审计纪录的集合,r i ( i = 1 2 ) 是一条由属性子 集表示的审计纪录,即冗c ,。设x 是i 的一个子集,若x c r ,审计记 录r 包含x 。包含k 个属性的属性集被称为“长度为k 的属性集”。 关联规则是形如a j b 的蕴涵式,其中a c i ,b c ,并且a n b = o 。 规则ajb 在事务集d 中成立,具有支持度s 和置信度c ,其中 s = s u p p o r t ( a j b ) = l t :爿u b 丁) i d l ( 3 1 ) s o h ( 3 一1 ) 所示是指包含a 和b 的事务与所有事务的百分比; c = c o n f i d e n c e ( a j b ) 刊 t :a u b c t ,t d l i a c t ,t e d ) l ( 3 - 2 ) 如( 3 - 2 ) 所示c 是指包含a 和b 的事务与包含a 事务的百分比。同时满 足最小支持度阈值和最小置信度闽值的规则称作强规则。如果项集满足 最小支持度,则称他为频繁项集。关联规则的挖掘可分为两步。 1 找出所有频繁项集,这些项集出现的频繁性至少和预定义的最 小支持度一样。 2 。由频繁项集产生强关联规则,这些规则满足最小支持度和最小 鼍信度。 8 哈尔滨工程大学硕士学位论文 目前经典关联规则算法是a p r i o r i 算法。a p r i o r i 算法是 r a g r a w a l 。等人在1 9 9 4 年提出的,它是最早进行关联规则挖掘的算 法。 a p r i o r i 是一种宽度优先算法,通过对数据库d 的多趟扫描来发现所 有的频繁项目集,具体解决办法分为两步: 1 找到所有支持度大于最小支持度的项集( 1 t e m s e t ) ,这些项集称 为频繁集( f r e q u e n ti t e m s e t ) 。 2 使用第1 步找到的频集产生期望的规则。 第2 步中,如给定了一个频集y =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论