（计算机系统结构专业论文）面向分布式ids的海量数据存储系统.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-18 格式：PDF 页数：64 大小：2.16MB 积分：0 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

（计算机系统结构专业论文）面向分布式ids的海量数据存储系统.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要面向分布式i d s 的海量数据存储系统陈浩龚俭东南大学计算机科学与工程系随着计算机网络的发展，网络攻击也在迅速发展，网络安全越来越受到人们的重视和关注。能够检测和处理网络攻击的入侵检测系统( i d s ) 作为一种重要的安全部件，也得到了长足的进步。i d s 需要保存和处理它检测生成的数据以得到可信的结论，数据的规模和种类随着网络流量的增大和网络攻击的发展而增加，达到一定程度以后就形成了海量数据，需要改进数据的组织管理模式以适应海量数据的特征。为了在多个位置追踪大空间跨度的入侵，出现了分布式的i d s ，因此引入了i d s 节点间的协同问题。另外为了增强入侵检测的准确性和效率，可以使用数据挖掘的方法对海量数据进行处理，以得到某些能够对i d s 的检测或处理过程起到辅助作用的信息。本论文的主要工作是为分布式入侵检测系统c o m o n 设计海量数据存储系统。系统位于入侵检测模块的下游，主要功能是：为检测器m o n s t e r 与中央分析器r a 1 r s 提供高效可靠的本地数据存储、管理和查询能力：在m o n s t e r 和r a i r s 之间实现安全通用的数据协同传输功能：实现基于分布式攻击数据的数据挖掘功能，增强系统的预警能力和检测能力。论文分为六章。第一章对入侵检测、分布式i d s 和协同、数据挖掘技术及其在i d s 中的应用进行了概述，并介绍了本文的实现背景一- - c o m o n 分布式i d s 的体系结构，确定了论文的二作目标。第二章分析了d i d s 海量数据的特征，并运用数据仓库的理论为数据建立多维模型，分析了模型的参数，设计了c o m o n 系统中海量数据存储的总体结构。第三章至第五章分别对具体的实现模块进行叙述。第三章首先给出了m o n s t e r 和p a i r s 中的数据类型、格式定义和关联关系，然后讲述了在海量数据情况下数据库存储和文件存储的优化方案，进行了性能分析，最后提出了两种数据自动化管理算法：简单生命期算法和基于管理规则加权的算法。第四章主要关心数据的协同传输问题，分析了c o m o n 系统中的协同需求，运用s e t p a p l 安全传输平台作为底层模块，设计协同通道和数据传输格式，进行分析评价。第五章探讨了数据挖掘技术在i d s 中的应用，分别设计了冗余消除模式挖掘、攻击趋势分析和频繁意图串挖掘三种数据挖掘算法，对算法执行结果和应用效果进行丁分析。最后一章对本论文工作的内容和贡献作出总结，并且在已完成的工作基础上对将来的研究目标和研究方向提出了建议。【关键字】网络安全入侵检测系统海量数据协同数据仓库数据挖掘 a b s t r a c t a b s t r a c t a l a r g e s c a l ed a t as t o r a g es y s t e ma d a p t e dt 0d i s t r i b u t e di d s c h e nh a og o n gj i a n d e p a r t m e n to f c o m p u t e rs c i e n c ea n de n g i n e e r i n g ，s o u t h e a s tu n i v e r s i t y w i t ht h ep r o g r e s so fc o m p u t e rn e t w o r k s ，n e t w o r ka t t a c k sh a v ea l s ob e e ne v o l v i n gq u i c k l y , a n dn e t w o r k s e c u r i t yh a sd r a w nm o r ea n dm o r ea t t e n t i o nf r o mr e s e a r c h e r s a ni m p o r t a n ts e c u r i t yc o m p o n e n tt h a tc a nd e t e c t a n dh a n d l en e t w o r ke v e n t s ，t h ei d s ( i n t r u s i o nd e t e c t i o ns y s t e m ) h a v eu n d e r g o n es i g n i f i c a n td e v e l o p m e n t t h e i d sn e e dt os t o r ea n dp r o c e s sd a t ap r o d u c e dd u r i n gd e t e c t i o n ，t h u st op r o v i d ec o n f i d e n tr e s u l t s t h ev o l u m ea n d c a t e g o r yo fi t sd a t aw i l li n c r e a s ea st h en e t w o r kt r a f f i ca n da t t a c k si n c r e a s e ，a n dc a l lb ev i e w e da sl a r g e s c a l ed a t a w h e nr e a c h i n gc e r t a i nl i m i t s ；a sar e s u l t , t h ed a t am a n a g e m e n tm o d e l sn e e dt ob ei m p r o v e dt om e e tt h ef e a t u r e so f l a r g e 。s c a l ed a t a a ne f f o r tt ot r a c eg e o g r a p h i c a l l yd i s t r i b u t e da t t a c k su p o nm u l t i p l es i t e s ，t h ed i s t r i b u t e di d sh a s e m e r g e d ，a n dt h u st h ec o o p e r a t i o nt a s ka m o n gi d sn o d e si si n t r o d u c e d a d d i t i o n a l l y , i no r d e rt oi m p r o v et h e a c c u r a c ya n de f f i c i e n c yo f d e t e c t i o n d a t ac a n b ep r o c e s s e dv i am e t h o d so f d a t am i n i n g , a n du s e f u li n f o r m a t i o nb e e x t r a c t e da n ds u p p l e m e n t e dt oi d s sd e t e c t i o na sw e l la sp r o c e s s i n g t h em a i nt a s ko ft h i sd i s s e r t a t i o ni st od e s i g nal a r g e - s c a l ed a t as t o r a g es y s t e mf o r t h ec o m o nd i s t r i b u t e d i d s t h i ss y s t e m ，l o c a t i n gd o w n s t r e a mt ot h ed e t e c t i o nm o d u l e ，i sm a i n l yf u n c t i o n i n ga st h ef o l l o w i n g ：p r o v i d ea s e c u r e ，e f f i c i e n tl o c a ld a t as t o r a g e ，m a n a g e m e n ta n da c c e s s i n gm e c h a n i s mf o rt h em o n s t e rs e n s o ra n dr a i r s c e n t r a la n a l y z e r ；p r o v i d eas e c u r e g e n e r a ld a t ac o o p e r a t i o n & t r a n s p o r tc h a n n e lb e t w e e nm o n s t e ra n dr a i r s ； i m p l e m e n td i s t r i b u t e dd a t a - b a s e dd a t am i n i n gu t i l i t i e si n c l u d i n gt h er e d u n d a n c ye l i m i n a t i o np a t t e md i s c o v e r y , t h e a t t a c kt r e n da n a l y s i s , t h ef r e q u e n tp l a ns t r i n gd i s c o v e r y , w h i c hw i l l a s s i s tt h es y s t e mi n e a r l y - w a r n i n ga n d d e t e c t i o n ， t h ed i s s e r t a t i o ni sc o m p o s e do fs i xc h a p t e r s c h a p t e rii sas u m m a r yo fi n t r u s i o od e t e c t i o n ，d i s t r i b u t e d1 d s a n dc o o p e r a t i o n ，d a t am i n i n ga n di t sa p p l i c a t i o n ，a sw e l la sa l li n t r o d u c t i o no f t h ec o m o ni d s sa r c h i t e c t u r ea n d t h eo b j e c to ft h ed i s s e r t a t i o n ，c h a p t e r1 1a n a l y z e st h ef e a t u r e so fl a r g e s c a l ed a t ai nd i d s ，e s t a b l i s h e da m u l t i d i m e n s i o n a ld a t am o d e l ，i n d i c a t e dt h ep a r a m e t e r so ft h em o d e l ，a n dd e s i g n e dt h eg e n e r a la r c h i t e c t u r eo f i a r g e s c a l ed a t as t o r a g ei nc o m o n c h a p t e ri i i - vi n t r o d u c e st h er e s p e c t i v em o d u l e si nt h i ss y s t e m c h a p t e ri i i s t a t e st h ed a t ad e f i n i t i o no f a n dr e l a t i o na m o n gd a t ai nm o n s t e ra n dc o m o n ，m a k e so p t i m i z a t i o n st ot h ed a t a b a s e a n df i l es t o r a g em e c h a n i s m su n d e rl a r g e - s c a l ec i r c u m s t a n c e sw i t hp e r f o r m a n c ea n a l y s i s ，a n dp r o p o s e dt w od a t a a u t o m a t e dm a n a g e m e n ta l g o r i t h m s ：s i m p l el i f e c y c l ea l g o r i t h ma n dr u l e - b a s e dw e i g h e da l g o r i t h m c h a p t e ri v m a i n l yc o n c e r n sa b o u tt h ed a t ac o o p e r a t i o n t r a n s p o r t a t i o np r o b l e m a n dw i t ht h ec o o p e r a t i o nr e q u i r e m e n t s a n a l y z e d ，t h es e t r a p ll i b r a r yi su s e da st h eb o t t o ml a y e r , c o o p e r a t i o nc h a n n e l sa n dd a t ae x c h a n g ef o r m a t sa r e d e f i n e d ，a n di t sf u n c t i o n a l i t ya n dp e r f o r m a n c ei se v a l u a t e d c h a p t e rvd i s c u s s e sa b o u tt h ea p p l i c a t i o no fd a t a m i n i n gi ni d s ，d e s i g n e dt h r e ed a t am i n i n gt e c h n i q u e s ，n a m e l yt h er e d u n d a n c ye l i m i n a t i o np a t t e r nd i s c o v e r y , t h e a t t a c kt r e n da n a l y s i sa n dt h ef r e q u e n tp l a ns t r i n gd i s c o v e r ya l g o r i t h m s ，a n ds t u d i e dt h eo u t p u ti n f o r m a t i o na n d t h e i rf e e d b a c ke f f e c t s t h el a s tc h a p t e rs u m m a r i z e st h ed i s s e r t a t i o n sc o n t e n ta n dc o n t r i b u t i o n ，a n dp r o v i d e s a d v i s o r yp r o s p e c t sf o rf u t u r er e s e a r c h 【k e y w o r d s n e t w o r ks e c u r i t y , i n t r u s i o nd e t e c t i o ns y s t e m ，l a r g e s c a l ed a t a ，c o o p e r a t i o n ，d a t am i n i n g ， d a t aw a r e h o u s i n g i i 东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名：堕：竺日期：型争2 铲东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和信阅，可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。研究生签名：堕：堡导师签名：曼殓日期：2 卯争坫2 乒第一章引言 1 ，1 入侵检测 1 1 1 入侵检测系统第一章引言入侵检测系统( i d s ：i n t r u s i o nd e t e c l i o ns y s t e m ) 作为一种重要的安全部件，是网络与信息安全防护体系的重要组成部分，是传统计算机安全机制的重要补充，自1 9 8 0 年被提出咀来i d s 在2 0 多年间得到了较快的发展。特别是近几年，由于非法入侵不断增多网络与信息安全问题变得越来越突出。i d s 作为一种主动防御技术，越来越受到人们的关注。 i d s 首先通过在计算机网络或系统中的若干关键点收集信息并对收集到的信息进行分析，判断网络或系统中是否有违反安全策略的行为和被攻击的迹象，然后根据分析结果采取决策并作出适当的响应。现在的i d s 产品，主要可以分为基于主机的i d s ( h i d s ) 和基于网络的i d s ( n i d s ) 两种，使用的检测方法主要是滥用检测( m i s u s ed e t e c t i o n ) 和异常检测 ( a n o m a l yd e t e c t i o n ) 。滥用检测是对不正常的行为进行建模。这些行为就是以前记录f 米的确认了的滥用或攻击。目前误用检测的方法主要是模式匹配，即将每一个己知的攻击事件定义为一个独立的特征，这样对入侵行为的检测就成为对特征的匹配搜索，如果和已知的入侵特征匹配就认为是攻击。异常检测是对正常行为建模，所有不符合这个模型的事件就被怀疑为攻击。现在异常检测的方法主要是统计模型，它通过设置极限阈值等方法将检测数据与已有的正常行为比较，如果超出极限阂值，就认为是入侵行为。为了提高检测准确率，有人把其他领域的一些概念和方法引入到i d s 中来，这些方法主妥是为了增强d s 的学习能力，使得t d s 可以智麓她检测出来知攻击，主要有神经网络、模糊理论、免疫系统、数据挖掘等。【i 2 1 1 1 2 分布式入侵检测系统和协同由于网络的相互依赖日益严重。网络入侵也从仅涉及单一结点发展到跨距处于不同管理域中黔多个结点。因此，仅通过对在一个主机或系统上所检测到灼安全事件进行独立的结论描述往往是不精确的，应当从全局范围来检测和插述所发生的安全事件。根据s p a f f o r d 雨i z a m b o n i 的定义，分布式入侵检测系统( d i d s ) 是一种对数据在多个位置上进行分析的入侵检测系统，且位置的数目与被监测的主机数目正相关 3 1 。入侵检测系统协同是指两个或两个以上的入侵检测系统自动交换数据而达到单个系统无法达到的目标。入侵检测系统之间可以在几种情况下产生协同的需求包括分析、补充、纠止、校验、调整、响应等等。目前典型的协同模型有对称式和非对称式两种，在对称式模型中，各个节点处于相同的功能地位，它们可以对等交换数据以完成协同的目标：在非对称模型中，不同的节点担负不同的任务，因而数据的交换模式也呈现出非对称性。为达到完备的检测效果入侵检测系统之间需要在以卜三方面达到协同【4 】：配置协同：两个入侵检测系统能够彼此定位并成功传送数据；语法协同：两个入侵检测系统都能正确地解析所交换的数据的语法；语义协同：两个入侵检测系统能就数据的含义达成一致。东南大学顼士学位论文然而，不同的i d s 产品往往具有自己独有的配置、语法和语义。因此有必要制定标准化的i d s 协同规范，以支持不同的i d s 之问的协同需要。在i d s 中，应该进行标准化的工作主要包括：大规模分布式i d s 的体系结构、入侵特征等数据的描述( 格式) 、i d s 内部的通信协议和数据交换协议、安全部件间的互动协议和接口标准等。目前在i d s 协同的标准化方面比较著名的研究成果有由美国加州大学d a v i s 分校的安全实验室提出的c i d f ( c o m m o n i n t r u s i o nd e t e c 如nf r a m e w o r k ) 和由i e t f 安全颁域的入侵检测交互格式工作组f d w g ( i n t r u s i o nd e t e c t i o nw o r kg r o u p ) 负责建立的i d m e f ( i n t r u s i o nd e t e c t i o nm e s s a g ee x c h a n g e f o r m a t ) 标准，它们从通信机制和语言格式等方面规范了i d s 的协同传输标准。p q 1 1 3l d s 中的数据存储问题自从i d s 诞生以来，越来越多的研究者开始关心如何对检漫5 结果进行进一步处理，以发现更高层次的攻击描述或攻击规律。一般来说，越高级的分析就需要对越大量的数据进行处理。所以，i d s 中的数据存储问题正在成为研究的目标。入侵检测系统所涉及的数据包括：原始安全事件和相关描述文件；复合攻击结论；状态分析结论：响应结论和日志；安全状况统计中间结果和报告；数据挖掘中间结果和报告：系统日志：辅助信息等。i d s 的数据是i d s 为使用者提供用户可见信息的数据来源，是对安全状况进行分析以及对安全事件进行处理的重要依据。安全数据存储和管理机制的好坏直接关系到系统的性能好坏i 系统能够给用户提供的信息质量和系统的可用往，是入侵检测系统的设计中相当重要的一个环节。一个前端采集和分析能力强大的系统，如果后端处理能力低下、无法给用户提供及时、准确、有用的信息，也称不上是一个好的系统。初期的i d s 只具备简单的日志存储能力，管理员需要手j 【浏览日志，从中发现攻击线索：日志的维护也是人：e 的。由于日志数据大多具有固定的格式和结构，很多i d s 开始使用关系型数据库系统( r d b m s ) 来作为数据的存储方式，这使得数据的浏览和管理变得方便也使数据易于交换和被第三方程序所处理。但是也使系统的结构更加复杂。s n o r t 同时支持日志文件和数据库两种数据存储方式 1 4 1 随着一些专门的日志分析系统的出现，人们开始把多个 i d s 的数据看作一个整体，这些系统一般采用c l i e n t - s e r v e r 模式，把多个i d s 的数据传输到一个通常具备海量存储的分析器上去进行分析，形成星型拓扑的分布式数据存储体系结构。目前，随着数据挖掘在入侵检测中的应用日益广泛，i d s 研究和开发机构开始把数据仓库作为分布式i d s 数据的存储体系结构。在这种体系结构中，使用个集中式的、基于r d b m s 的存储器来对各个i d s 输出的格式数据进行统一存储管理1 7 j 。这种体系结构的优点是显而易见的：它允许不同的用户对数据的副本进行异步豹处理。包摆离线日练和人工标记。与此同时，检测器仍然可以向数据库中输入数据。本文所描述的数据存储体系结构即是由这种数据仓库经过更严格的建模和更多组分的实现发展而来。 1 2 数据仓库和数据挖掘 1 2 ，1 数据仓库和数据挖掘技术简介数据挖掘( d a t am i n i n 曲是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展，人们积累的数据量急剧增长，动辄以t b 计，如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。姓数据 2 第一章引言库中的知识发现( k d d ，k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 的关键步骤。目前数据挖掘所包含的内容有关联分析、聚类分析、分类、预测、时序模式、偏差分析等。用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及i n t e m e t 等。在数据挖掘的过程中，被应用的方法包括统计分析方法、决策树算法、模糊集和粗糙集方法、神经网络和遗传算法等。数据仓库是一种支持管理决策( 包括信息处理、分析处理和数据挖掘) 的数据组织结构。从定义上来说，数据仓库( d a t a w a r e h o u s e ) 是一个“面向主题的、集成的、时变的、非易失的数据集合”，围绕定的主题而组织，通常集成了多个异种数据源，从历史的角度提供信息，并且与操作数据库相分离。它是一种语义上一致的数据存储，充当决策支持数据模型的物理实现，通过集成异种数据源的数据而构造，支持结构化的和专门的查询、分析报告承1 决策制定。数据仓库基于多维数据模型( m u l t i d i m e n s i o n a ld a t am o d e l ) ，把数据看作“数据立方体” ( d a t ac u b e ) 形式。它由维和事实定义。“维”( d i m e n s i o n s ) 是关于一个组织想要记录的透视或实体，它是数据的一组属性，使得用户能够在这些属性上对数据进行描述。事实( f a c t ) 是数值度量的我们可以根据事实的累积值分析维之间的关系。在数据仓库中，通常包括一系列维表。以进一步描述每一个维；和一个或多个事实表，每个事实表面向一个主题，事实表中包括事实的名称或度量，以及每个相关维表上的关键字。依据事实表和维表的关联模式的不同，数据仓库中的数据模型可以是星型、雪花型或事实星座型等。在多维数据模型上，每个维可以包含多个抽象层次，称为概念分层。可以沿着备维的概念分层改变对数据的视图这就产生了上钻( d r i l l u p ) 、f 钻( d r i l l d o w n ) 、切片( s l i c e ) 、旋转( r o t a t e ) 等多维数据操作。在第二章中将结合具体实例对它们作进一步说明。典型的数据仓库是三层的体系结构。底层是数据仓库服务器，它常常是基于关系型数据库系统的多维数据集合，通过称为“网间连接程序”的接口程序从操作数据库和外部数据源提取数据。中间层是o l a p 服务器，它负责处理多维操作请求，根据实现方式的不同可以分为关系o l a p ( r o l a p ) 和多维o l a p ( m o l a p ) 两种模型。顶层是是面向用户的前端二i ：具包括查询报告二具、分析：具和数据挖掘工具等。除此之外数据仓库中还应包括必要的监控管理程序，以及元数据( m e t a d a 忸) 一一定义仓库对象及其运行模式的数据等。“1 1 2 2数据挖掘在入侵检测中的应用数据挖掘在入侵检测领域的应用，是从异常检测开始的。大多数i d s 检测的是专家们手 f ：构造的攻击特征编码，它 = f 的缺陷在于无法检测新出现的攻击或没有特征编码的攻击。从 1 9 9 0 年代末开始。利用数据挖掘来建立异常检测模型的i d s 开始出现，这些模型根据己知攻击雨r 正常”模式来检测朱知攻击，并且可以以自动的方式进行分析，效率远高于传统的人工分析和提取攻击特征。例如，对进程的系统调用序列进行建模，或对t c p 报文的t a g 位的统计学规律进行建模，以发现攻击。为了更好地在实时环境下运用数据挖掘技术来进行入侵检测，提高检测的准确性、有效性和可用性，w e n k el e e 等研究者们探索了很多关了二提取攻击模式、减轻处理负担、检测代价评估、增强系统自学习能力的技术，并提出了基于数据挖捌的1 d s 的体系结构。 i o l 数据挖掘不仅可以用于攻击模式的发现，而且可以用于其它方面，包括预警利响应、检测算法调：常、规则集优化等。传统的响应是针对单个攻击事件而做出的反制动作。如果我们能够在宏观上发现一个较长时间跨度或较大地理范围内的某种攻击规律例如蠕虫的爆发流行，我们就有可能采取某种在时间或空问上具有一般性、并且代价上较为台算的预警措施，从而节省对每次攻击都要进行响应的处理开销。另外，在实际环境中，各种攻击的出现并不东南大学硕士学位论文是均匀的，而是具有一定的统计学规律，通过对这些规律的分析和挖掘，可以提高入侵检测算法的效率。如果拥有了海量的历史攻击数据，还可以通过时间序列分析等数据挖掘方法对未来的攻击发展趋势进行预测，从而超前地调节入侵检测行为，达到更好的检测效果；也可以根据攻击者的行为模式，对下一步可能采取的攻击进行预测，并采取相应的防范措施。 1 3 研究背景本文的研究与实现背景是一个面向大规模网络的入侵检测和自动响应系统c o m o n 及其重要组成单元r a i r s 和m o n s t e r 。c o m o n ( c o o p e r a t em o n i t o r ) 系统是以国家8 6 3 通信主题重点课题高速i p 网的网络运行监测和保障系统( 课题编号：8 6 3 3 1 7 0 1 - 0 3 9 9 ) 和国家自然科学基金重大研究计划课题面向大规模互联网络的入侵检测和预警模型( 课题编号： 9 0 1 0 4 0 3 1 ) 为背景研发的基于网络的分布式入侵检测系统。c o m o n 的拓扑结构是星形结构，它由一个可回卷的动态反馈自动入侵响应系统r a i r s 和若干个传统的i d s 系统( 例如 m o n s t e r ) 构成，其中m o n s t e r 是系统的监测器和前处理器，负责数据的采集过滤、简单攻击的检测和本地响应；p a i r s 是系统的中央节点、后处理器，负责事件关联( 复合攻击检测) 和意图识别、数据挖掘和分布式响应。系统的总体结构图如下：1 图1 1o o m o n 分布式i o s 总体结构示意图在该系统中，p a i r s 是整个d i d s 的核心，它的功能主要包括：事件关联、入侵意图识别、白动响应和预警。p a i r s 在目前的高速网络实时入侵检测技术的基础上扩展自动入侵响应和预警功能，支持分布式响应能力和预警能力，支持攻击警报冗余消除和关联的功能，支持响应生命周期管理。针对这些需求。r a i r s 系统需要有与各i d ss e n s o r 的协同能力海量数据的存储和管理能力，以及对海量数据进行宏观分析的能力。对丁二外周i d s 节点，它们是面向接入网的中小型i d s 系统，每个节点负责一个管理域( 通常是校园网、企业网等中小型网络) ，在网关的位置完成与自己的管理域相关的入侵检测、预警和响应能力。作为一个满足这种需求的入侵检测系统，m o n s t e r 既可以工作在独立的 d s 模式f ，又可以作为d i d s 的s e n s o r ( 检测器) 。它支持实时报文采集过滤转发功能，实现了 4 第一章引言基于特征匹配的单报文检测、多报文上下文相关检测、基于协议分析的会话检测三个级别的检测能力，具有冗余消除能力和响应能力，具备与异种i d s 的协同能力。同时，也支持使j j s n o r t 等i d s ，在不更改核心检测模块的条件下，扩展协同接口，来支持与r a i r s 系统的互操作。面对这些需求，m o n s t e r 需要有独立的存储子系统和存储管理算法，和与r a i r s 系统进行协同的能力。为了满足上面提到的各种协同需求，需要建立一个检测和响应信息接收和发送的协同平台该平台的功能包括：作为节点之间的信息语义网关，一方面将m o n s t e r 的检测信息转化为某种标准形式传递给r a i r s ，另一方面将r a i r s 的响应信息和检测调整信息通过标准的传输协议传递给m o n s t e r 的响应系统。在这方面已经实现的协同传输平台有s e t r a p l ，它提供了i d s 之间基丁i d m e f 的数据协同和基于加密和身份认证的安全传输。具有通用、可靠的特点网而被用作c o m o n 系统的协同底层平台。 1 4 研究内容和目标本论文的研究内容是为分布式网络入侵预警防范系统c o m o n 设计实现一个海量数据管理系统，并设计实现一系列其它相关功能，共包括：检测器( m o n s t e r ) 的存储模块，中央分析器( r a i r s ) 的存储模块，数据协同传输模块，数据挖掘模块等j l 大部分。它们完成的功能为：为检测器与中央分析器提供高效可靠的本地安全数据存储、管理和查询能力；在检测器利中央分析器之间实现安全保密的数据自动汇总传输和请求应答传输功能：实现基于分布式攻击数据的冗余消除模式分析、攻击趋势分析、频繁意图分析等数据挖掘功能，增强系统的预警能力和异常检测能力。本系统需要达到的目标为： 1 ) m o n s t e r 节点能够在本地存储检测模块输出的安全事件。在中等规模网络、满负荷情况f ，一般能够存储2 周以上的数据，包括攻击记录和描述文件，并自动淘汰过期数据。数据的存储和检索都有较高的效率。 2 ) r a i r s 节点能够在本地存储管理域内的所有安全事件，实现基于生命周期的自动空间管理和数据淘汰。实现数据的高效索引，使复杂数据分析和数据挖掘在尽可能高的效率r 实现。 3 ) 各m o n s t e r 和r a i r s ：宵点之间需要能够交换信息，这些信息包括简单攻击记录、响应指令、运行状态信息和检测规则数据等。信息的交换应该是实时的、标准的、舣向的、安全的、透明的。 4 ) r a i r s 节点需要实现冗余事件模式分析、攻击趋势分析、频繁意图串挖掘等数据分析和数据挖掘功能，分析结果可以通过人平自动的方式反馈给入侵检测和预警响应模块，从而提高其工作效率。查童查兰堡主兰垡堡兰一 1 5 论文结构本论文由六章构成：第一章引言，介绍了与本论文有关的背景知识，包括入侵检测技术，协同技术和响应技术，数据仓库和数据挖掘技术等，回顾了这些领域内的研究进展，描述了本论文工作的应用背景。提出了应用需求和目标。第二章基于数据仓库的i d s 数据模型，对i d s 的数据特征进行了分析，结合数据仓库的理论和方法，建立了一个i d s 数据仓库模型，包括多维数据模型、体系结构和处理流程，描述了该模型的细节，并分析了本模型与其它数据仓库模型的异同。第三章分布式i d s 的数据存储系统，介绍了当前常用于数据仓库中数据存储的技术路线，分别对m o n s t e r 和r a i r s 的数据特征进行了进一步分析，提出了适合它们的数据存储方式以及具体的优化措施，进行了实践检验和性能分析。第四章分布式1 d s 中的数据协同传输，分析了c o m o n 系统对数据协同传输的需求，在s e t r a p l 传输平台的基础上设计了提供加密传输和身份认证功能、旦符合i d m e f 规范的数据协同传输体系结构、交互模式和传输格式，进行了性能分析评价。第五章数据挖掘在i d s 中的应用研究，针对r a i r s 系统的设计目标设计了一系列数据挖掘功能和算法。包括冗余事件模式分析、攻击趋势分析和频繁意图串挖掘等，通过在实际数据上的挖掘，对挖掘结果进行了评估。第六章总结与展望，对本论文的工作成果和意义进行了总结，并对今后可以继续展开研究和进行改进的方向进行了展望。 6 第二章基于数据仓库的i d s 数据模型第二章基于数据仓库的ld s 数据模型 2 1 分布式i d s 的数据特征 i d s 的数据在逻辑上或者是一系列有格式的记录或者是无格式的变长数据。但是，仅仅从这一共性来进行存储系统结构的设计是远远不够的。在火规模分布式环境中，按照撮基本的数据库或文俐：存储设计原则所创建的i d s 存储系统遇到了很多功能上和性能上的挑战。在功能上，有对分布式异构环境的支持需求，对宏观分析的支持需求等：在性能上，有对海域数据的高效存取的需求，对数据动态管理希| 淘汰的需求等。这些需求是因为d i d s 的数据出现了一些新的特征。必须针对这些特征进行i d s 存储系统的体系结构设计，才能够解决上面提到的功能和性能需求。 1 集成性根据1 1 2 ，分布式 d s ( d f d s ) 是一种对数据在多个位置上进行分析的入侵检测系统，且位置的数目与被监测的网络人小和主机数目相关。d i d s 通常具有多个检测器，这些检测器都能够独立地产生安全数据，并且可以是异构的，输出的数据具有不同的格式和含义。作为一个整体，d i d s 不仅需要对每一个检测器的检测结果进行独立的分析，也需要进行一些范围更广的分析，以发现更宏观意义上的关于攻击的知识( 本文第五章的内容即属于这一范畴) 。这些分析需要涉及到不同的检测器的检测结果，因而需要一个机制使得特定的用户程序能够方便地访问到不同的检测器产生的数据，屏蔽数据格式、语义、工作方式等方面的差异。这个机制便起到了数据集成的作用，并将在第五章中详细讨论。不论该机制的具体实现方案如何，都体现了d i d s 的数据集成性的特点。 2 海量性 d i d s 的数据通常具有较大的规模，符合海量数据的特征，这是由两个因素决定的。首先，d i d s 的应用场合常常是开放的广域网和城域网，网络上的主机数日非常庞大，这使得网络内部的攻击、由网络内部发往网络外部的攻击和由网络外部发往网络内部的攻击都大大高于一般的园区网络。其次，目前的入侵检测技术。包括滥用检测和异常检测，都还具有较高的误报率，例如，s n o r t 的误报率通常在5 0 以上，也就是说大部分记录是无价值的。虽然可以通过一定的检测后处理过程，对检测结果进行“去粗留精、去伪存真”的加工，尽可能保留真实可靠且具有价值的检测结果，但这些过程一般是非实时的，处理前的数据仍需要依赖一定的存储。以p a i r s 系统为例，在分布式环境下，每昼夜可能需要记录1 0 g b 以上的原始数据。在未来，随着未来网络用户数量的进一步增加、单位d i d s 系统管理域的扩大、攻市技术的发展和后处理过程的日益复杂化，d i d s 的数据还会向着更大的规模发展。 3 实时性 d i d s 数据的实时性是由每个检测器的检测特征所决定的，义与i i 户的需求有关。它包括数据输入利输出两个方面的实时性。首先，作为数据存储系统数据来源的检测器，一般是指对网络流量进行实时滥蜩检测的i d s 节点，它们所输出的检测结果是实时的，因此对存储系统来说，输入是实时的。其次，用户或系统对检测结果的反馈( 包括自动响应在内) 对数据的实时性提山了要求。延迟越大的数据，其描述当前网络状态的准确性就越差，实施响应的效果也越差，甚至火去响应的必要。对d i d s 数据管理系统的设计者来说，就意味着要尽 7 东南大学硕士学位论文可能的降低数据从检测器输出到呈现在用户面前或可供程序自动分析处理之间的时间延迟也就是满足对输出的实时性的要求。 4 流动性这一特征是由海量性和实时性特性所决定的。i d s 的数据随着时问是以线性速度累积的，而可供使用的存储容量则是相对固定的。所以不可能把所有数据都连续地保存在系统中，只能根据需要，把最值得关注的数据保存下来，如下图所示。根据上一节关于实时性的分析，对于一般的入侵检测系统来说，一次攻击相关的信息保存的时间越久，它与当前和未来的网络状况的相关程度就越低。在这种情况下，如果不考虑其它属性对数据价值的影响，对数据庶该在时间上采取“先进先出”( f i f o ) 的原则进行处理：即尽量把较新的数据维持在系统中，淘汰较老的数据，使系统内的数据是一个时间上连续的集合，而时间跨度的大小则可以根据条件和需要进行调整。对用户可见的连续数据集称作当前数据窗口，它随着时间不停向前推移，如图2 1 所示。类似的，也可以根据其它原则对数据进行选择性的保存和删除，这样就使系统内的数据成为一个不断流入和流出的动态集合，具备了流动性。图2 1j d s 数据的流动性和当前数据窗口 5 多样性 d i d s 数据的多样性指的是，对于一个d i d s 系统来说，除了最基本的攻击记录以外，还需要包含一系列其它数据，以实现系统的功能。这些数据包括：元数据、维上的数据、数据处理的中间结果和最终结果等。复合攻击检测、意图识别和响应、异常监测、数据统计、数据挖掘、数据管理等功能，都依赖于与之配套的数据集来实现。这样，d i d s 系统内就存在若干种相互关联的数据，它们具有不同的格式和含义，动态特征也有差异：有的具备典型的海量数据特点( 如攻击记录) ，有的则规模相对较小( 如统计数据) ；有的流动性很强( 如原始记录) ，有的则基本稳定( 如元数据) ；它们形成了多样性的数据逻辑结构。兰罾到一一一 1悱。r+一酽：。百一一句脚一爵| | | | 一e l ：一一_ 涯一一悔；i一碧i，一暂旦第二章基于数据仓库的i d s 数据模型 2 2i d s 的多维数据模型 2 ，2 ，1数据多维建模的必要性在传统的i d s 和c o m o n 的早期版本中，一直按照标准的d b m s 环境下数据格式的设计思路，根据数据的类型和关系设计数据表和关联关系，并实现

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机系统结构专业论文）面向分布式ids的海量数据存储系统.pdf

文档简介

温馨提示

最新文档

评论

（计算机系统结构专业论文）面向分布式ids的海量数据存储系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档