




已阅读5页,还剩59页未读, 继续免费阅读
(计算机科学与技术专业论文)网络安全olap分析中查询优化技术的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术人学研究生院硕十学位论文 摘要 随着互联网在世界范围内的迅猛发展,各种入侵和攻击行为越来越频繁,正 向着组织化、规模化的趋势发展。因此迫切需要对网络安全状态进行实时监测, 并在海量的安全数据中发现潜在的变化趋势,进而对大规模网络的宏观安全态势 进行把握。 联机分析处理( o l a p ) 是对海量的网络安全数据进行查询和分析的关键技术之 一。它可使分析人员能够通过快速的、一致的和交互式的访问来获取并理解各种 可能的信息视图。当前,o l a p 技术越来越多地应用于各类实时监控系统。通过对 网络安全实时数据的o l a p 分析,分析人员能够对当前网络态势进行准确的把握。 由于o l a p 常常用于海量数据和实时数据的分析,如何提高o l a p 查询和分 析效率成为研究的关键。因此,在存储空间、计算机处理能力有限的条件下,如 何对海量安全数据、实时数据进行查询优化是本文工作的核心。 本文的主要工作概述如下: 1 基于网络安全态势的感知、监控和分析对实时性的需求,本文在m o n d r i a n 多维分析引擎的基础上加入实时数据分析功能,设计了一种新的混合数据查询系 统。它支持海量历史数据查询、实时数据查询、以及既包含实时数据又包含历史 数据的查询。 2 由于维度的概念分层,细粒度的物化视图通常可进一步聚集得到粗粒度的 物化视图。本文设计了基于物化视图问聚集关系的查询优化技术,通过物化视图 与维表响应用户查询,提高查询效率。 3 针对实时数据,本文设计了分块聚集增量查询技术。混合数据查询系统对 上一次查询结果进行缓存,当新数据到达时通过对缓存结果增量更新来响应用户 查询,无需重新进行聚集操作。 4 将以上优化技术应用到网络安全数据的多维分析中并加以实现,对海量安 全数据及实时安全数据的查询效率都有一定的提高。 主题词:o l a p ,数据流,混合数据查询系统,查询优化,网络安全态势感知 第i 页 国防科学技术人学研究生院硕十学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h o l o g yt h r o u g h o u tt h ew o r l d ,v a r i o u s i n v a s i o na n da t t a c kb e h a v i o r sb e c o m em o r ea n dm o r ef r e q u e n ta n dt e n dt ob e s y s t e m a t i ca n ds c a l a b l e t h e r e f o r e ,i ti si m p e n d i n g l yr e q u i r e dt oa c c u r a t e l ya c q u i r et h e s e c u r i t ys i t u a t i o na n dd i s c l o s et h ep o t e n t i a lc h a n g et e n d e n c yf r o mm a g n a n i m o u s s e c u r i t yd a t at og r a s pt h eg e n e r a ls e c u r i t ys i t u a t i o n o n l i n ea n a l y s i sp r o c e s s i n g ( o l a p ) i sa no n eo ft h em o s ti m p o r t a n tt e c h n o l o g i e s i nt h ed a t aq u e r i e sa n da n a l y s i so nt h em a s s i v en e t w o r km o n i t o r i n gd a t a w i t ht h eh e l p o fo l a p ,i ti sc o n v e n i e n tf o ra n a l y s t st oo b t a i na n du n d e r s t a n di n f o r m a t i o nf r o ma v a r i e t yo fp o s s i b l ev i e w so fd a t at h r o u g hr a p i d ,c o n s i s t e n ta n di n t e r a c t i v ea c c e s s a t p r e s e n t ,o l a pi sm o r ea n dm o r ea p p l i e d t ov a r i o u sr e a lt i m em o n i t o r i n gs y s t e m s w i t h t h eo l a pa n a l y s i so nt h er e a lt i m ed a t a , a n a l y s t sc a ng r a s pt h ec u r r e n ts i t u a t i o n s i n c eo l a pi so f t e nu s e di nt h ea n a l y s i so fm a g n a n i m i t yd a t aa n dt h er e a lt i m e d a t a , h o wt oi m p r o v et h ee f f i c i e n c yo fo l a pq u e r ya n da n a l y s i sb e c o m e st h ek e yo f s t u d y t h e r e f o r e ,w i t ht h el i m i t e dm e m o r ys p a c ea n dp r o c e s s i n ga b i l i t y ,h o wt oi m p r o v e t h eq u e r yi nt h em a s sd a t aa n ds t r e a m i n gd a t ai st h ec o r ep r o b l e mo fo u rs t u d y w es u m m a r i z eo u rw o r k sa sf o l l o w s 1 s i n c et h ea c q u i r e m e n t ,m o n i t o r i n ga n da n a l y s i so fn e t w o r ks e c u r i t ys i t u a t i o ni s o f t e nr e q u i r e dt ob ed o n ei nr e a lt i m e ,an e w b y b r i dd a t aq u e r ys y s t e mi sd e s i g n e db a s e d o nm o n d r i a n ,w h i c he f f i c i e n t l ys u p p o r t st h eq u e r i e so nh i s t o r i c a ld a t a ,t h eq u e r i e so n r e a lt i m ed a t a ,a n dt h eq u e r i e sc o n t a i n i n gt h eh i s t o r i c a ld a t aa sw e l la st h er e a lt i m ed a t a 2 b e c a u s eo ft h eh i e r a r c h yo ft h ed i m e n s i o n ,m a t e r i a l i z e dv i e w si nh i g hl e v e lc a l l b eo b t a i n e dt h r o u g ht h ef a r t h e ra g g r e g a t i o no p e r a t i o n sm a t e r i a l i z e dv i e w so nt h el o w l e v e l t h i sp a p e rd e s i g n saq u e r yo p t i m i z a t i o nt e c h n i q u eb a s e do nt h ea g g r e g a t i o n r e l a t i o n ,i m p r o v i n gt h eq u e r ye f f i c i e n c y 3 f o rt h er e a lt i m ed a t a , t h i sp a p e rd e s i g n sa ni n c r e m e n tq u e r yt e c h n i q u eb a s e do n b l o c ka g g r e g a t i o n t h eh y b r i dq u e r ys y s t e mc a c h e st h er e s u l to ft h el a s tq u e r y w h e n t h en e w e s ta g g r e g a t e dv a l u ea r r i v e d ,t h eh y b r i dq u e r ys y s t e mc a ne x e c u t ei n c r e m e n t a l u p d a t eo nt h ec a c h e dr e s u l tt oa b t a i nt h en e wr e s u l t ,d i s p e n s i n gw i t he x e c u t i o no n c e m o r e 4 w ea p p l yt h eo p t i m i z a t i o nt e c h n i q u e sa b o v eo nt h em u l t i d i m e n s i o n a la n a l y s i so f n e t w o r ks e c u r i t y i ti m p r o v e st h eq u e r ye f f i c i e n c yo fh i s t o r yd a t aa sw e l la ss t r e a md a t a k e yw o r d s :o l a p ,d a t af l o w s ,h y b r i dd a t aq u e r ys y s t e m ,q u e r yo p t i m i z a t i o n , n e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s s 第i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:圜缝塞全q 坠至金堑生查询优丝擅查鳗遮i 土生塞趣 学位论文作者签名:建:j 丝垂 日期: 矿7 年缈月z z - - e l 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:圜终塞全q 坠堂佥堑主查询篮氆拉本鲍遮i 土皇塞理 学位论文作者签名:麦l 堡垒 日期:矿口7 年,p 月,v 日 作者指导教师签名:登煎! 兰 日期:1 o f 年n 月1 f 日 国防科学技术人学研究生院硕十学位论文 表2 1 表2 2 表2 3 表3 1 表3 2 表3 3 表3 4 表3 5 表3 6 表4 2 表4 3 表目录 o l a p 三种存储模式的特点1 1 m d x 基本语法16 m o n d r i a n 的a p i l9 事实表f a c tt a b l e 一2 5 时间维表t i m et a b l e 2 6 源地址维表s o u r c et a b l e 2 6 事件维表e v e n t t y p e _ t a b l e 2 6 物化视图a g g _ t a b l e 2 6 混合数据查询系统中大窗口查询时间表3 7 c u b e 元素定义。4 2 d i m e n s i o n 元素定义4 3 第1 v 页 国防科学技术入学研究生院硕十学位论文 图1 1 图1 2 图2 1 图2 2 图2 3 图2 4 图2 5 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 11 图目录 o l a p 系统结构1 数据仓库系统结构3 网络安全数据立方体及维上层次路径8 网络安全数据立方体的星型模型ll 网络安全数据立方体的雪花型模型1 2 m o n d r i a n 框架18 m o n d r i a n 查询处理流程2 0 混合数据查询系统结构2 3 查询时间区间2 4 物化视图间的聚集路线图2 7 混合查询系统的查询流程2 9 查询时间对比图3 0 由四个聚集块组成的滑动窗口3 1 增量连续查询示意图3 3 聚集后增量查询效果图3 4 大窗口连续查询流程图3 5 大窗口一次查询流程图3 6 y h o l a p 体系结构3 9 c o n n e c t i o n 初始化时序图4 4 s c h e m a 对象初始化时序图4 5 基于聚集表生成s q l 时序图4 6 基于事实表生成s q l 时序图4 6 基于物化视图间的聚集关系生成s q l 时序图4 7 增量查询过程图4 8 在运营商维对历史数据的分析4 9 在地区维对历史数据的分析4 9 在运营商及地区维对历史数据进行分析5 0 实时数据分析5 0 第v 页 国防科学拉术大学研究生院硕叶= 学位论文 第一章绪论 1 1 研究背景 在当今社会中,互联网已成为重要的国家基础设施,信息技术与产业也呈现 出空自口繁荣的景象。但随着互联网技术的发展,危害信息安全的事件不断发生, 网络和信息安全也己成为关系国家安全、社会稳定的重要因素。从1 9 8 8 年报道的 第一例病毒( 蠕虫病毒) 侵入美国军方互联网,导致8 5 0 0 台计算机染毒和6 5 0 0 台停机,造成直接经济损失近l 亿美元,此后这类事情此起彼伏i i 。到2 0 0 1 年, 著名的红色代码蠕虫病毒在因特网上传播的最初9 小时内就感染了超过2 5 万个计 算机系统,造成的损失以每天2 亿美元的速度增长,最终高达2 6 亿美元 ”。由此 可见,互联网技术的发展也加快了病毒的传播速度,病毒所造成的损失也越来越严 重。因此,对大规模网络安全状态进行实时监测并在海量的安全数据中发现潜在 的变化趋势,进而对大规模网络的老观安全态势进行把握,成为社会信息化进程 中亟待解决的问题。 联机分析处理( o l a p ) 口1 技术,是基于数据仓库的一种数据分析技术,是实 现对大规模网络监测数据进行实时综合分析的重要手段。o l a p 通过对原始数据进 行立方体建模、数据立方体的计算以及数据立方体的各种查询操作,从多个角度 多个层次对数据进行深入的观察。从而快速灵活地为分析人员提供支持。当分析 人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行 进一步更为详细的查询。在当前现有的网络防护设旖条件下可将获取的数据结 构、内容各异的网络安全数据经数据预处理存储至数据仓库中。用户可通过o l a p 分析引擎对数据仓库中的安全数据进行多角度多层次的分析与查询。o l a p 系统如 图l1 。 i :。= :、1 二磊:忑 一7 7 l 一。, 。: - 一,j | 融 瞳1 1o l a p 系统结构 由于大规模网络监测数据的海量性,分析人员的查询往往需要很长时间,造 第1 页 同防科学技术人学研究乍院硕十学侮论文 成分析效率低下,安全措施不及时等i 、j 题。物化视图( m a t e r i a l i z e dv i e w ) 技术是 数据仓库中的一个关键技术,它的思想是预计算某些用户可能查询的视图,并将 视图所对应数据加以实际物理存储,这样来加快用户查询的响应速度。利用物化 视图响应用户查询需要严格的匹配过程,但是在关系型o l a p 应用中,由于维存 在概念分层,不同的物化视图之问也会存在聚集关系,因此如何利用这种聚集关 系对物化视图的查询进行改进,是本文将要解决的一个问题。 当前,o l a p 技术越来越多地应用于各类实时监控系统。在安全数据的实时监 测过程中,数据以数据流的形式到达。与传统的历史数据不同,数据流是以不同 的更新速率连续地流进和流出计算机系统,是一种按时问顺序的、快速变化的、 海量的和潜在无限的数据形式。在数据流环境下时间是一个无限的概念,但数据 流上数据立方体建立过程中每一维都应当是有限的,否则数据立方体将是无穷大。 当前采用比较多的是滑动时间窗口技术,其思想是将用户考察的数据限定在一个 时间范围内,在这个相对有限的时间维上进行流数据立方体的建模与查询。对实 时数据进行o l a p 分析,对数据存储空间、查询响应时间等方面提出了更多的挑 战。如何根据数据流特点,提高数据流上查询的效率也是本文要考虑的问题之一。 当用户查询请求所涉及到的数据查询范围既包括实时数据又包括历史数据时,如 何有效支持这种查询也是需要考虑的问题。 针对网络安全态势的感知、监控和分析的实时性,本文将设计一种混合数据 查询系统,它支持海量历史数据查询、数据流数据查询、以及既包含实时数据又 包含历史数据的查询。在此基础上,设计了基于物化视图问聚集关系的查询优化 技术以及针对实时数据的增量查询技术,并将其应用到网络安全态势感知系统中。 1 2 研究现状 1 2 1 数据仓库与联机分析处理技术 “数据仓库”这个名词,是由“数据库之父”w i l l i a mh i n m o n 于2 0 世纪8 0 年代中期第一次提出的。随着互联网和信息技术的快速发展,各行各业的信息量 大大加强,这种海量信息的潜在价值也f 在得到越来越多的关注,数掘仓库逐渐 成为i t 领域中最被关注的热点之一。o l a p 技术也在数据仓库技术的基础上出现 的。o l a p 技术主要是针对特定问题进行联机数据查询与分析。如今,数据仓库与 o l a p 技术已发展成为有机的统一整体。 自从“数据仓库”名词的提出,数据仓库历来没有一个公认的、且被标准化 的定义。w i l l i 锄h i n m o n 在他的( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 1 4 】中给出了数据 仓库的定义: “数据仓库中的数据是面向主题的、集成的、稳定的并随时间不断 第2 页 同防科学技术人学研究牛院硕十学位论文 变化的数据集合,用束支持管理人员的决策。”数据仓库系统结构如图1 2 所示。 查询搬表系统 , 数据仓库分析i :具 图1 2 数据仓库系统结构 随着数据仓库技术的完善,各行各业积累了大量的历史数据。面对这些大量 复杂的数据,传统系统的访问性能逐渐下降,而且这些大量的数据并不能得到有 效利用,不能提供有效的行业决策。在1 9 9 3 年,e f c o d d 认为,联机事务处理 ( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 已不能满足终端用户对数据库查询分析的 需要,也不能满足决策者提出的决策分析需求。用户的决策分析需要对关系数据 库进行大量计算才能得到结果,而简单的结果并不能满足决策者提出的要求。因 此他提出了多维数据库和多维分析的概念,即联机分析处理( o n l i n ea n a l y s i s p r o c e s s i n g ) 。 o l a p 分析是建立在数据仓库上的重要应用。数据仓库和o l a p 技术在数据 分析和决策支持中发挥着重要的作用。o l a p 技术对原始数据进行逻辑建模,使分 析人员能够从多个角度观察信息。o l a p 在内的许多应用驱动了数据仓库技术的出 现和发展;而数据仓库技术也加快了o l a p 技术的发展。 从概念角度讲,o l a p 应具有如下四项功能【2 0 】: ( 1 ) 查询:通过一个简单的通用界面,实现一个通用的综合查询,并能形成 强有力的特定查询; ( 2 ) 重构:灵活地定义维和维层次,以便产生多层次、多角度的数据视图, 重构多维数据库中的信息; ( 3 ) 分类:用合适的方式分类或组合数据集,便于后期概括; 第3 页 国防科学技术人学研究生院硕+ 学位论文 ( 4 ) 概括( 聚集) :将数值型多集合值映射到单一综合值。 数据立方体是数据多维分析处理的基础,对它的研究主要集中在数据方的有 效计算与查询上,如:从顶至底计算冰山立方体的b u c 算法【6 】、s t a r - c u b i n g 算法 1 7 1 等。o l a p 常常需要在超大规模数据仓库上执行复杂的查询,而查询响应时间必 须很快满足交互环境的需要。为了解决这个问题,除了传统的查询优化和索引技 术以外,又引入了物化视图( m a t e r i a l i z e dv i e w ) 技术。物化视图技术的思想是预 先进行查询计算,并对计算结果进行物理存储。因此,如何选择一部分方体来物 化也引起研究者的关注,分别提出了贪婪算法【引、遗传算法【9 】等。随着数据立方体 在大量多维数据仓库中的o l a p 快速聚集查询中起到越来越重要的作用,在许多 特殊领域存在着大量的高维数据集合,尤其当维中含有若干个概念分层时,往往 会面临“维灾难”问题。因此,人们又相继提出了多种数据立方体的压缩存储方 法。一些算法是以不同的压缩形式近似一个数据立方体,如小波【l 们,多变量多项 式【1 1 1 ,采样【1 2 】【1 3 】,以及数据概率分布1 4 1 等。一些算法则压缩和保存完整的数据立 方体,w a n g 和f e n g 等人首先提出了压缩的数据立方体c o n d e n s e dc u b e t l 6 】。d w a r f 算法【1 7 j 提出了一个基于语法的,用于计算、存储和查询的高度压缩的数据结构, q u o t i e n tc u b e u 8 侧重于在压缩时保持数据立方体格原有的语义,q c t r e e t l 9 】是在 q u o t i e n tc u b e 技术的基础上,以树形作为不同方体的组织结构,改善了存储及查 询效率。 以上关于数据立方体的研究均基于静态的历史数据,没有涉及实时数据的 o l a p 分析。随着信息技术的发展,人们越来越需要在实时监控系统中对实时数据 进行o l a p 分析。与历史数据存储在磁盘或主存中不同,实时数据以数据流的形 式流入、流出计算机系统,只能在有限的内存中进行处理。对流数据进行多维分 析就需要对数据流上无限的时间维进行适当的建模,这是流数据与历史数据的最 重要的区别之一。 韩家炜专家们提出了基于数据流的多维多层次的在线分析处理的s t r e a m c u b e l 2 引,重点分析了流式数据多维分析的一些需求,采用了倾斜时间框架、关键 层次和关键路径物化方法,设计了一种h 树状结构,实现了流立方体的初始化计 算、增量式更新以及响应在线的查询。虽然时间滑动窗口的提出解决了数据流环 境下时间维的问题,但是滑动时间窗口内的聚集计算任务是非常繁重的,因此又 有人提出了一种时空效率更高的聚集计算方法f 2 3 1 。把滑动时间窗口划分为多个相 连但不相交的子聚集块( p a n e ) ,整个时间窗口的聚集值可通过每个子聚集块的聚 集值计算得到。这种划分子聚集块的方法,实质上是加大数据聚集粒度,加快整 个滑动时间窗口聚集速度,而且随着时f u j 窗口向前滑动,每个予聚集块的子聚集 值可以在多个滑动窗l 聚集过程中使用。学者们也通过研究将数掘流时间窗口上 第4 页 国防科学技术入学研究生院硕十学位论文 的连续查询拓展到传统数据库中2 4 1 ,提出厂在传统数抛库中实现连续查询的机制, 以及如何在插入、删除、更新数据的情况下进行优化。 1 2 2o l a p 查询优化技术 通常o l a p 查询是非常复杂的,而且所涉及的数据也是非常庞大的,因此如 何减小用户查询的响应时间是一个十分关键的问题。 索引技术是数据库中加快查询速度的最普遍的方法。索引是为了数据检索性 能而建立的,利用它可以快速地确定所要检索信息的物理存储路径。在数据库中, 性能的一个主要衡量标准就是数据的存取速度,而磁盘i o 又是决定存取速度是重 要因素,访问i o 次数越少性能越好。使用索引能减少使用i o 的次数,提高用户 查询效率。 c a c h e 技术是一种有效缩短o l a p 查询时间,加快o l a p 响应速度的策略。 系统可将查询结果存储在c a c h e 中,当将来需要这些数据时,可直接从c a c h e 中 读取,无需进行重新计算。 此外,物化视图( m a t e r i a l i z e dv i e w ) 技术是数据仓库中的一个关键技术,它 的思想是它是一种将视图所对应数据加以实际物理存储的技术。其目的是通过预 计算来加快数据仓库系统对用户查询的响应速度。在现有的计算方法中,主要存 在三种物化策略: ( 1 ) 不物化:在构建立方体的过程中不进行任何预先计算,在响应查询的时 候临时从原始数据计算所需求的聚集结果。这种方法虽然无需建立物化视图,减 少了存储空间及维护代价,但查询过程需要大量的计算,在大多数的应用中无法 满足要求。 ( 2 ) 完全物化:预先计算所有的数据立方体。这种选择虽然能够为快速查询 提供支持,但是需要大量的存储空间保存预先计算的聚集值,从而导致存储空间 的爆炸式增长,同时增加数据立方体维护的复杂性。尽管如此,从计算方法的角 度出发还是具有一定价值的,有助于设计和实现部分物化计算方法。多路数据聚 集方法【3 3 】就是典型的代表,其中的分块计算方法和多路聚集计算方法在数据立方 体计算中具有重要的作用。 ( 3 ) 部分物化:按照用户的需求选择一部分数据立方体进行预先计算。这种 方法也就是存储空问和响应时间的一种折衷。因此,在大多数的计算方法中采用 部分物化策略。如典型的冰山立方体计算方法| 3 4 】【3 5 j 1 3 6 1 。 1 2 3 网络安全态势感知技术 网络态势感知源于空中交通监管( a i rt r a f f i cc o n t r o l ,a t c ) 态势感知,此后 第5 页 围防科学技术大学研究乍院硕十学佗论文 在军事战场、核反应控制以及医疗应急调试等领域被,“泛地研究。念势感知能够 在复杂的环境中对当前环境的连续变化状况展示给决策者,方便决策对当前状况 做出判断。因此,态势感知越来越成为一项热门的研究课题。 目f j ,对网络态势感知还未能给出统一的、全面的定义。所谓网络态势是指 由各种网络设备运行状况、网络行为以及用户行为等因素所构成的整个网络当前 状态和变化趋势。值得注意的是,态势是一种状态,一种趋势,是一个整体和全 局的概念,任何单一的情况或状态都不能称之为态势。网络态势感知是指在大规 模网络环境中,对能够引起网络态势发生的变化的安全要素进行获取、理解、显 示以及预测未来的发展趋势【4 3 1 。 网络态势感知技术在国内还是刚刚起步,相关理论与技术还不是很成熟。但 作为一项新兴的技术,还是具有很大的发展空间,它主要包括以下几个方面的研 究内容1 4 驯: ( 1 ) 能对大规模网络进行实时或近实时的态势感知,快速准确地判断出网络 安全状态,实现实时的态势可视化显示,并能利用网络安全属性的历史记录,为 用户提供一个比较准确的网络安全演变趋势。 ( 2 ) 具有前向预测功能。在网络安全事件发生之前进行预测,为网络管理员 制定决策和防御措施提供依据,做到防患于未然。 ( 3 ) 自动响应。依靠人为干预对入侵进行反击是不可行的,需要自动阻止、 反映入侵,而不是仅仅报警。 ( 4 ) 智能化。通过采用诸如神经网络、遗传算法以及专家系统,使其具有自 学习和自适应能力。 ( 5 ) 能检测和防御分布式攻击( 如d d o s ) ,并能很好地检测出未知攻击和 潜在的恶意网络行为。 ( 6 ) 交互方便、易于使用。免去繁琐的配置与安装,便于推广。 针对网络安全数据的海量性、实时性与用户快速分析数据之间的矛盾,o l a p 技术在网络安全感知系统中越发重要。混合数据查询系统的设计能为有效提高用 户对海量安全数据及实时安全数据的分析效率,对分析人员把握当前网络态势提 供了有力的支持。 1 3 论文结构 本文共分为五章。各章节的内容概述如下: 第一章为绪论,主要介绍本文的研究背景和相关研究现状。 第二章为本文相关技术及理论基础的介绍。本章介绍了o l a p 相关技术,当 第6 页 国防科学技术大学研究生院硕十学何论文 前流行的查询优化技术,以及多维查询语言4m d x 。最后对m o n d r i a n 多维分析引 擎的框架及查询流程进行了详细的分析。 第三章在m o n d r i a n 多维分析引擎的基础上设计了混合数据查询系统,并对其 系统结构及功能模块进行介绍。通过对物化视图之问聚集关系的分析,本章设计 了基于物化视图聚集关系的查询优化技术;针对实时数据的聚集查询的需求,设 计了分块聚集增量查询,有效提高实时数据查询效率。最后针对既包括历史数据 又包括实时数据的用户查询,设计了有效的响应机制。 第四章介绍我们研究开发y h o l a p 系统,首先介绍系统平台的体系结构,对 系统设计的关键部分包括数据立方体模型的构建和系统性能优化做了重点介绍, 并将其应用于大规模网络安全态势分析与预测系统中。最后简要介绍了用户查询 实例。 第五章对本文的工作进行总结,并对r 后的工作及前景进行展望。 国防科学 土术人学研究生院硕士学位论文 2 1 1 数据立方体 第二章相关技术 2 1o l a p 相关技术 多维数据集,由于其多维的特性通常被形象地称作数据立方体,它是联机分 析处理的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。数据立 方体允许用户从多维对数据建模和观察,它由维度( d i m e n s i o n ) 和度量( m e a s u r e ) 柬 定义。 维度( d i m e n s i o n ) ,也称为维,指的是分析对象的描述属性用于表达人们观 察数据的角度。如图2l 中,网络安全数据的立方体中包括t i m e 、s o t a c el o c a t i o n 和e v c n t t y p e 三个观察角度,感兴趣的目标是某一类安全事件发生次数c o u n t 。分 析人员经常分析网络安全数据随着时间推移而产生的变化情况,那么时间就成为 了网络安全数据j :的一个维,即时间维,而需要从地区的差异柬考察网络安全数 据的不同时地区也就成为一个维,即地区维。这些分析角度或分析的出投点就 是维度。在对信息进行表达和分析时,往往需要分析从员从多个角度对数据进行 观察,当数据以多维的形式组织起来时,就称其为多维数据集。最常见的表达是 包含三个维度的数据立方体,当需要更多的维时,形成的是一个超立方体( h y p c r c u b e ) 。一般情况下把多维数据集泛称为数据立方体( d a t a c u b e ) 。 ”r ms o u ml 蛐lj o n e w n l t 辨 凹2 】网络安全数据立方体及维上层次路径 第8 页 = l w m i : 呷 王一 1 l 上 国防科学技术人学研究生院硕十学位论文 维属性具有不同值的个数称为维的基数,维属性的每个墩值称为维的成员 ( m e m b e r ) 。每个维取值的一个组合对应了数据立方的一个单元( c e l l ) ,在关 系坏境下也称为元组( t u p l e ) 。例如,图2 1 表示了数据立方体中的每个单元是 由不同的( t i m e ,s o u r c el o c a t i o n ,e v e n tt y p e ) 取值所决定的度量c o u n t s ,带有阴影 的那个单元对应于四月期间源自于北京的蠕虫数量。 人们观察数据的某个特定角度( 即某个维) 还可以存在不同的细节程度,称 这些维度不同的细节程度为维的级别( d i m e n s i o nl e v e l ) 。一个维往往具有多个级 别,例如描述时间维,可以从月、季度、年等不同级别来描述,月、季度、年分 别是时间维的级别。对于一个维,至少有一个“a l l 层次,用于表示最高的层次。 粒度( g r a b u l a r i t y ) ,是维层次的另一种理解方式。粒度是指数据仓库或多维 数据集的数据单位中保存数据的细化程度的级别,例如在时间维中选择以“日 为最小粒度,就表示“时间维”中每一记录代表一日。细化程度越高,粒度级就 越小;相反,细化程度越低,粒度级就越大。 度量( m e a s u r e ) ,也称为指标量,是在多维空间衡量信息的一种方法,是决 策者所关心的具有实际意义的数值。例如:网络安全数据中木马的发生的次数。 在多维数据集中,通常对基于该多维数据集的事实数据表中的某个列或某些列的 值,进行聚合和分析,这些值就称为度量。度量是所分析的多维数据集的核心, 它是最终用户浏览多维数据集时重点查看的数值数据。在某些特殊的情况下,如 果将度量作为观察信息的角度,则度量也可以看作是维度。 聚集,是多维数据集是经常用到的一个操作。将数据由低层次汇总至高层次, 就是聚集。例如,对地址维来说,可以将全国“省”一级别的数据汇总,而得到 “中国 级别的数据。 2 1 2o l a p 基本操作 在多维数据立方体模型中,数据以多维的形式组织起来,其中每个维又被分 为多个层次。这种组织为用户从不同角度观察数据提供了灵活性。o l a p 的基本多 维分析操作有钻取( d r i l l d o w n 和r o l l u p ) 、切片( s l i c e ) 、切块( d i c e ) 以及旋转 ( p i v o t ) 等等【2 7 】。 钻取( r o l l u p d r i l l d o w n ) ,是改变维的层次、变换分析的粒度。钻取的深度与 维所划分的层次相对应。钻取包含向下钻取( d r i l l d o w n ) 和向上钻取( r o l l u p ) 操作。向下钻取是在某一维的某一级别上,将数据细化至更小粒度的下一级别; 而向上钻取,是从低层次的细节数据概括到更高层次的数据。 切片操作,是对给定数据立方体的若干维进行值的确定,导致剩余维数目只 有两个;若剩余维的数目是三个或三个以上,则执行的操作是切块操作。切片和 第9 页 国防科学技术人学研究生院硕十学位论文 切块操作叮以吲定某些维的值,从而使分析人员史加关注度量值在剩余维上的变 化趋势。 旋转操作是变换维的方向,即在表格中重新安排维的旋转如行列互换。 其他o l a p 操作:有些o l a p 还提供其他钻取操作。钻过( d r i l la c r o s s ) 执行 涉及多个事实表的查询;钻透( d r i l lt h r o u g h ) 操作使用关系s q l 机制,钻透数据 立方体底层,到后端关系表。 2 1 3o l a p 系统分类 o l a p 系统按照其存储器的数据存储格式可以分为关系o l a p ( r e l a t i o n a l o l a p ) 、多维o l a p ( m u l t i d i m e n s i o n a lo l a p ) 和混合型o l a p ( h y b r i do l a p ) 三种类型【2 7 】。 r o l a p 是基于关系数据库的o l a p 实现,其数据以及计算结果均直接由关系 数据库获得,并且以关系型的结果进行多维数据的表示和存储。r o l a p 将支撑多 维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系 数据库中,并用独立的关系表来存放聚集数据。r o l a p 不存储源数据副本,占用 的磁盘空间最少,但也使其存取速度大大降低。因此,这种存储方式适合于不常 被查询的大数据。它的最大障碍是从数据库中产生报表或处理多维数据时会影响 操作型数据库的使用,降低了事务执行的性能。 m o l a p 表示基于多维数据组织的o l a p 实现,使用多维数组存储数据,多维 数组是一种高性能的多维数据存储格式。多维数据在存储中将形成“立方体”的 结构。m o l a p 存储模式将数据与计算结果都存储在立方体结构中,即将多维数据 集区的聚合、维度、汇总数据以及其源数据的副本等信息均以多维结构存储在分 析服务器上。m o l a p 存取速度最快,查询性能最好,但由于需要存储副本,因此 需要额外占用一些磁盘空间。它适合于服务器存储空间较大,频繁使用且需要快 速查询响应的中小型数据集。 h o l a p 是基于混合数据组织的o l a p 实现。在h o l a p 中,原始数据和r o l a p 一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储。这样它既能 与关系数据库建立连接,同时又利用了多维数据库的性能优势。这种方式的缺点 是在r o l a p 和m o l a p 系统之问的切换会影响它的效率。一般情况下,h o l a p 存储模式适合于对源数据的查询性能没有特殊要求。 表2 1 总结了三种存储方式各自的特点和对不同应用的查询效率。 第l o 页 国防科学技术人学研究生院硕十学何论文 表2 1o l a p - 二种存储模式的特点 内容m o l a pr o i a p h o l a p 源数据的副本 有 无 无 l i 刚分析服务器存储空间大小小 使用多维数据集小较大大 数据查询快 慢慢 聚合数据查询快慢快 使用查询频度经常不经常经常 2 1 4o l a p 实现方式 数据立方体是多维数据在逻辑上的表现形式,并通过一系列多维代数操作对 数据立方体进行操作。而在物理层面上,多维数据可以有多种组织形式,既可以 基于多维数据库技术,也可以建立在关系数据库技术之上。关系型数据立方体以 广泛应用的关系数据库技术为基础,使用关系表存储数据立方的数据,在技术成 熟度以及各方面的适应性上较之多维型数据立方体占有优势,是目前常用的数据 立方体实现方案。 图2 2 网络安全数据立方体的旱型模型 多维数据集在关系数据库中表示时,需要分成两大类型:一类足用于存储事 实度量值与各个维主键的事实表;另一类是维表,在维表中至少要保存描述该维 的层次关系、成员的类别等元数据3 。如图2 2 为网络安令数据在关系数据上构建 数据立方体的星型模式。 第1 i 页 国防科学技术人学研究生院硕十学位论文 星型数据模型足数据仓库和联机分析处理使用的最基本、最常用的数据模型。 它能准确、简洁地描述出实体之间的逻辑关系。建立多维数据模型,一般都是在 对应用主题分析的基础上建立星型模型。 一个典型的星型模型包括一个大型的事实表和一组逻辑上围绕这个事实表的 维度表。事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型 模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同 主题密切相关的、用户最关心的试题数据。维度是观察事实、分析主题的角度。 维度表的集合是构建数据仓库数据模式的关键。维度表通过主键与事实表相连。 用户依赖维度表中的维度属性,从事实表中获取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年云南省科技厅下属事业单位真题
- 新型通信系统设计考试题目及答案
- 公益组织会计的工作计划
- 2024年延安市人民医院招聘笔试真题
- 2024年湖南省科学技术厅下属事业单位真题
- 2024年湖北省乡村振兴局下属事业单位真题
- 成功的蜂巢软件设计师考试的试题及答案
- 如何提升品牌员工的认同感计划
- 2024年南宁上林县三里镇招聘笔试真题
- 2024年马鞍山经开区城管局招聘笔试真题
- 科技项目立项申报表
- 六年级下册美术教案-第14课 有趣的光影 丨赣美版
- 人教版小升初数学总复习知识点归纳
- 电气工程竣工验收表格模板
- 药用动物学习题
- 食管癌放射治疗设计课件
- 必修地球圈层结构通用PPT课件
- 光伏行业英文词汇.doc
- 土地增值税清算鉴证报告(税务师事务所专用)
- 物联网体系结构PPT课件
- 智能照明控制系统工程报价清单明细表
评论
0/150
提交评论