(计算机应用技术专业论文)面向nssa的异构数据规范化处理与集成.pdf_第1页
(计算机应用技术专业论文)面向nssa的异构数据规范化处理与集成.pdf_第2页
(计算机应用技术专业论文)面向nssa的异构数据规范化处理与集成.pdf_第3页
(计算机应用技术专业论文)面向nssa的异构数据规范化处理与集成.pdf_第4页
(计算机应用技术专业论文)面向nssa的异构数据规范化处理与集成.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)面向nssa的异构数据规范化处理与集成.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

乞。 j c l a s s i f i e di n d e x : u d c : i l l l lli ipl i ti l l l r li i r li l l i y 18 0 8 3 15 ad i s s e r t a t i o nf o rt h ed e g r e eo f m e n g h e t e r o g e n e o u sd a t a n o r m a l i z a t i o na n d i n t e g r a t i o no f n e t w o r k s e c u r i t ys i t u a t i o n a l a w a r e n e s s c a n d i d a t e :s u nm i n g s h u a i s u p e r v i s o r :p r o f w a n gh u i q i a n g a c a d e m i cd e 伊e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y d a t eo fs u b m i s s i o n :d e c e m b e r ,2 0 0 9 d a t eo f o r a le x a m i n a t i o n :m a r c h ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用己在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体己经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :洲中 日期:;2 口年专月了龃 i 哈尔滨工程大学 学位论文授权使用声明、 、 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可 解密后) 由哈尔滨工程大学送交有 作者( 签字:3 小峒甲 日期: 为,o 年: 月i 日 哈尔滨工程大学硕士学位论文 摘要 态势感知的概念源于军事界,在航天飞行的人因研究,军事战场中的局 势评估,核反应堆的控制和医疗调度等方面都有广泛应用。网络安全态势感 知是态势感知技术在网络中应用的一种。网络安全态势感知( n e t w o r k s e c u r i t ys i t u a t i o n a la w a r e n e s s ,n s s a ) 从宏观层面审视整体网络的安全及形式 状况,通过网络的即时流量数据,流量波形图、关键量化指标、终端结点日 志信息和传感器服务数据等对网络系统状况作出分析,对其中已存在或潜在 的威胁与异常做出及时评估。现有的以关系数据模式作为全局数据模式欠缺 可扩展性,并且集成效率偏低。x m l 为异构数据源的集成提供了简洁有效的 途径,其所具有的与平台和语言无关性、灵活性、自描述性、数据交换能力 以及可扩展性等优势,使得x m l 可以比较理想地与不同的数据类型进行联合 处理。 论文中数据规范化过程中,各感知模块借助x m l 将不同的数据类型转换 为统一的x m l 文档格式,进而通过x m l 实现异构数据的规范化。数据集成过 程中,利用基于权值的朴素贝叶斯分类方法对承载异构数据的x m l 文档进行 集成,其目标是向态势感知传感器的上层,也就是更高层应用用户提供具有 统一格式的数据。在异构数据规范化和集成过程中需要解决的问题主要有: 数据源异构性、数据语义冲突及寻找更高效集成方法等问题。论文结合实际 的项目,着重对态势信息的标准模型的建立、异构数据源与标准模型之间匹 配关系的确立、x m l 文档的动态生成及其集成工作进行研究。 经过项目验证表明,不同传感器的数据规范化和传感器间的异构数据源 的集成工作完成良好。在向上层用户提交的集成数据中,上层用户可以充分 了解所提交数据的含义,完成既定目标,满足项目要求,对异构数据规范化 和集成工作有一定的指导作用。 关键词:网络安全态势感知;朴素贝叶斯;异构数据;数据规范化;数据集成 a b s t r a c t t h ec o n c e p to fs i t u a t i o n a la w a r e n e s so r i g i n a t e sf r o mm i l i t a r y ,w h i c hh a s e x p e n s l v ea p p l i c a t i o ni nt h ea r e ao fs p a c et r a v e l ,s i t u a t i o n a le v a l u a t i o ni n b a t t l e f i e l d ,c o n t r o lo fn u c l e a rr e a c t o ra n dm e d i c a lt r e a t m e n t n e t w o r ks e c u r i t v s i t u a t i o n a la w a r e n e s si sak i n do fa p p l i c a t i o ni ns i t u a t i o n a la w a r e n e s s n e t w o f k s e c u r i t ys i t u a t i o na w a r e n e s ss c a n st h ew h o l es t a t eo fn e t w o r ka n ds e c u r i t yw i t h m a c r o s c o p i c a la s p e c t ,a n a l y z e st h es t a t eo fn e t w o r ks y s t e mw i t ht h er e a lt i m ef l o w d a t a , o s c i l l o g r a p ht r a c e ,c r u c i a lq u a n t i t a t i v ei n d e x ,l o gd a t ao ft e r m i n a ln o d ea n d t h ed a t ao fs e n s o rs e r v i c ea n de v a l u a t e st h e e x i s t i n ga n du n d e r l y i n gt h r e a ta n d a b n o r m a l i t y t h em e t h o do ft a k i n gr e l a t i o n a ld a t am o d e la sag l o b a ld a t am o d e li s l a c ko fs c a l a b i l i t ya n dn o t p e r f e c ti ni n t e g r a t i o ne f f i c i e n c y x m lu n i t e d l y p r o v i d e sas i m p l ea n de f f e c t i v em e t h o dt oi n t e g r a t eh e t e r o g e n e o u sd a t as o u r c e x m lc o u l dp r o c e s sd i f f e r e n td a t at y p ea l m o s tp e r f e c t l yb e c a u s ex m l h a st h e 、 a d v a n c e so f p l a t f o r m i n d e p e n d e n c e , f l e x i b i l i t y , s e l f - d e s c r i b i n g , d a t a t r a n s f o r m a t i o na n de x p a n d a b i l i t y i nt h ep r o c e s so fd a t an o r m a l i z a t i o ni nt h i s a r t i c l e ,e a c ha w a r e n e s sm o d u l e t r a n s f e r sd i f f e r e n td a t a t y p et ou n i f o r mx m ld o c u m e n tf o r m a tt oa c h i e v e h e t e r o g e n e o u sd a t an o r m a l i z a t i o nt h r o u g ht h ef o r mo fx m l i nt h ep r o c e s so fd a t a i n t e g r a t i o n ,t h em e t h o do fw e i g h tb a s e dn a i v eb a y e sc l a s s i f i e ri n t e g r a t e st h e x m l sc o n t a i n sh e t e r o g e n e o u sd a t a , t h et a r g e to fw h i c hi s t op r o v i d eu n i f o r m f o r m a td a t at oh i g h e rc l a s su s e rw h i c hi s h i g h e rc l a s so fs i t u a t i o n a la w a r e n e s s s e n s o r t h ep r o b l e mw h i c hn e e d st or e s o l v ei nt h ep r o c e s so fd a t an o r m a l i z a t i o n a n di n t e g r a t i o n1 s h e t e r o g e n e i t ya m o n gd a t as o u r c e ,s e m a n t i cc o n f l i c t sa n dt of i n d m o r ee f f i c i e n ti n t e g r a t i o nm e t h o d t h i sa r t i c l ep u te m p h a s i so ne s t a b l i s h m e n to f s t a n d a r dm o d eo fs i t u a t i o ni n f o r m a t i o n ,e s t a b l i s h e m e n to ft h em a t c h i n gr e l a t i o n b e t w e e nd a t as o u r c ea n ds t a n d a r dm o d e ,x m lf i l e d y n a m i cg e n e r a t i o na n d i n t e g r a t i o nc o m b i n e dw i t ha c t u a lp r o j e c t e x p e r i m e n t si na c t u a lp r o j e c ti n d i c a t et h a tt h en o r m a l i z a t i o no fd i f r e r e n t 一 哈尔滨t 程大学硕士学位论文 s e n s o rd a t aa n dt h ei n t e g r a t i o nw o r ko fh e t e r o g e n e o u sd a t as o u r c ea m o n g d i f f e r e n ts e n s o r sc o u l db ef i n i s h e dp e r f e c t l y i nt h ei n t e g r a t i o nd a t aw h i c hi s s u b m i t t e dt oh i g h e rc l a s su s e r ,w h a tm a k e sh i g hc l a s su s e rf u l l yu n d e r s t a n dt h e m e a n i n go ft h ed a t as u b m i t t e d ,m e e t st h er e q u i r e m e n to fp r o j e c t ,h a ss o m e g u i d a n c ee f f e c tt oh e t e r o g e n e o u sd a t an o r m a l i z a t i o na n di n t e g r a t i o n k e y w o r d s :n e t w o r k s e c u r i t y s i t u a t i o n a l a w a r e n e s s ;n a i v e b a y e s ; h e t e r o g e n e o u sd a t a ;d a t an o r m a l i z a t i o n ;d a t ai n t e g r a t i o n , 哈尔滨丁程大学硕士学位论文 目录 第1 章绪论1 1 1 选题背景、目的及意义l 1 2 国内外研究现状2 1 3 研究内容3 1 4 论文的组织结构4 第2 章相关技术6 2 1x m l 技术6 2 1 1x m l 知识概述6 2 1 2x m l 在数据集成中的应用8 2 2x m l 数据库”9 2 2 1x m l 数据库介绍9 2 2 2o r a c l ex m ld b 技术1 0 2 2 3x m l t y p e 的应用“1 1 2 3 朴素贝叶斯分类模型1 2 2 3 1 贝叶斯定理1 2 2 3 2 极大后验假设与极大似然假设1 3 2 3 3 朴素贝叶斯分类原理1 4 2 3 4 应用朴素贝叶斯分类方法的优势1 5 2 4 本章小结”1 5 第3 章异构数据的规范化处理16 3 1 数据源选取及分类16 3 2 异构数据的规范化“1 9 3 2 1 态势信息的标准模型的制定1 9 3 2 2 数据源与模型之间的匹配关系的确立2 3 3 2 3 传感器数据的标准化2 8 3 3 本章小结3 0 哈尔滨t 程大学硕士学位论文 第4 章异构数据的集成算法研究3 1 4 1 传感器数据集成的模型结构一3 1 4 2 基于权值的朴素贝叶斯分类方法3 3 4 2 1 加权朴素贝叶斯分类模型3 3 4 2 2 权值的确定3 4 4 2 3 基于权值的朴素贝叶斯分类算法3 5 4 2 4 分类算法的实验设计与结果比较3 7 4 3 基于朴素贝叶斯分类模型的传感器数据集成算法生成3 9 4 4 集成算法实例3 9 4 5 本章小结4 l 第5 章实现、验证与分析4 2 5 1 态势信息标准模型的建立4 2 5 2x m l 文档的生成4 3 5 3 集成可视化4 5 5 4 本章小结5 1 结论5 2 参考文献5 4 攻读硕士学位期间发表的论文和取得的科研成果5 8 致谢5 9 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 选题背景、目的及意义 网络安全态势感知技术【1 2 对于快速了解当前网络状况,评估发展趋势具 有重要意义。随着不同软硬件技术在开发过程中的大量使用,同一项目中经 常会涉及到各种异构数据源,给信息的表示带来不便,因此必须对异构数据 进行处理从而获得项目预期的过程数据和结果。这些数据中,有的异构数据 是格式的异构,有的异构数据是表达方式和表达意义的不同。为了完成项目 的预期目标,获得格式和表义都相同的数据,就需要对异构的数据进行规范 化和集成工作。因此,如何实现异构数据的规范化和集成,已成为目前迫切 需要面对和解决的问题。 目前,异构数据规范化和集成的工作方式有很多种实现方式【3 , 4 , 5 】。比较 通用的有:多数据库系统、联邦数据库系统( f e d e r a t e dd a t a b a s es y s t e m ,f d b s ) 采用的是关系或对象的数据模式作为全局模式,无法满足项目对下层与上层 统一数据定义的应用标准;美国斯坦福大学研制的t s i m m i s 叼( t h e s t a n f o r d i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 无法表示对象的行为 特性,因此对于各数据源的方法和程序细节难以集成等等。针对上述不足, 论文设计的集成系统优点在于建立了一个能够被各数据源识别的公共数据模 型,此模型对后期的数据规范化和集成工作提供统一的数据格式及转换的方 向性指导,从而解决了其他集成平台在不同数据层次上交互困难的问题。 在网络安全态势感知研究工作过程中,根据反应角度全面、数据冗余度 低、具有较强的代表性的要求,共分成四种传感器,分别为n e t f l o w 传感器、 s n m p 传感器、日志传感器及面向服务传感器。各传感器根据自身的信息需求 和研究角度选择了不同的软件、硬件设备。因此,使得在开发的过程中不可 避免的出现了多种不同类型数据信息。例如在开发过程中,使用了 c i s c o l 2 0 0 0 路由器,c i s c 0 2 8 2 1 路由器和华为e 3 5 2 交换机等硬件设备;软件 上,使用了w i n d o w sx p 和l i n u x 操作系统并使用o r a c l e 和s q ls e r v e r 等不 同的数据库系统。这种按研发需要组织数据的方式必将形成不同的数据类型 及形式不同的输出方式。然而不同的开发和研究目的是一致的:都是为了反 哈尔滨t 程大学硕士学位论文 映同一时间点下的网络安全态势状况,这就为数据的共享和联合处理带来了 一定的困难。 为此,必须在项目中解决不同传感器产生的数据异构的现象。同时,各 个传感器产生的待规范化和集成的数据也必须满足一下条件方能顺利的进行 集成工作【_ q( 1 ) 数据模型统一,即是由统一数据模型框架下产生出来的, 不存在无法识别含义的数据;( 2 ) 各个传感器产生的异构数据易集成,可以 比较容易的经过相应处理得到含义清晰的集成数据。 x m l 在表示异构数据上的优势以及优秀的跨平台性,自描述性促使诸多 集成系统都倾向于采用x m l 文档作为信息数据的表示方法。项目中,在充 分考虑高效、安全并且可以为后续的编程工作提供良好的数据输出支持的情 况下,我们将x m l 作为传感器生成数据、集成过程中数据以及集成得到结 果数据的格式。 课题来源于“十一五”某国防重点预研项目,论文主要研究的是不同数 据传感器产生的异构数据的规范化和集成工作。 1 2 国内外研究现状 异构数据集成 8 , 9 , 1 0 , 11 】的研究是开始于2 0 世纪8 0 年代,最早可以追溯到异 构数据库集成技术。近三十年的发展,众多异构数据集成系统在不同领域崭露 头角,其中的代表有t s i m m i s ( t h es t a n f o r d mm a n a g e ro fm u l t i p l e i n f o r m a t i o ns o u r c e s ) 、t h eg a r l i cp r o j e c t 、c o x m l 、v e r s a t i l e 和p a n o r a m a 等等。 t s i m m i s 1 2 】由美国斯坦佛大学开发完成,它使用对象交换模型 o e m ( o b j e c te x c h a n g em o d e l ) 作为集成的数据模型,这种模型是一种带标签 的数据模型。t s i m m i s 使用基于逻辑的语言m s l ( m e d i a t o rs p e c i f i c a t i o n l a n g u a g e ) 作为定义语言进行集成工作。t s i m m i s 的优点在于整个集成过程 中对数据本身没有任何限制,针对不同的数据类型均有不同的程序解决方法, 缺点就在于这种不同的解决方法极大地增加了集成的复杂程度,且由于m s l 本身的局限性,使得t s m m i s 无法表示对象的行为特性,因此对于各数据 源的方法和程序细节难以集成。 t h eg a r l i cp r o j e c t 是由i b m 开发完成的,是联邦数据库系统( f d b s ) 的 一种,各数据源组成一个f e d e r a t i o n ( 联邦) ,而各数据源作为联邦中的组成 2 哈尔滨工程大学硕士学何论文 部分,是通过联邦数据库系统提供的互相访问接口实现联邦成员间的数据访 问和共享的。该系统的优点在于可以实现非关系型数据的联合查询功能;使 用中间件技术优化了访问结构等。缺点是,访问的访问方式比较单一,必须 通过d b 2 来进行。 北京大学开发的c o x 】lv 1 0 通过建立基于x m l 的信息集成通用平台, 以x m l 为媒介实现异构数据库和异构数据的联合互访,在平台的适用性上 比较有优势,但是它的数据描述能力有待提高。 v e r s a t i l e 系统是一个基于c o r b a 的异构数据源集成系统,它的主要突 破点在于在s q l 语句执行的基础上加入了一些构造符,并使用o i m ( o b j e c t i n t e g r a t i o nm o d e l ,对象集成模型) 作为数据集成的公共模型。v e r s a t i l e 的优 点在于它可以通过引入构造模板和动态字典从而不通过扫描数据库来描述各 种异构数据源模型,大幅度地增加了集成效率。然而,由局部动态字典形成 的全局动态字典的不完全性造成了v e r s a t i l e 的维护要求高的缺点。 p a n o r a m a 是由华中科技大学研制开发的数据集成系统,它提出了一种名 为“c a x 的集成方法,这种方法以多数据系统为基础,采用流行的c o r b a 技术作为中间件形成该集成系统的物理模型框架,采用a g e n t 技术为中间件形 成该集成系统的逻辑模型框架,采用融合了c o r b a 和a g e n t 的关键中间件技 术实现对异构数据源产生的信息的封装过程。该系统具有比较全面的查询、事 务处理和模式集成功能,并能够对当前常用的数据库系统如o r a c l e 、s q l s e r v e r ,s y b a s e 和d b 2 等进行支持,实现不同数据库系统之间的透明访问。但 是这种集成系统的弊端在于维护的成本过高,不适合大范围的集成行为。 x m l 的出现大大推动了数据集成的发展,x m l 半结构化、平台无关性 等优点使得众多厂商和科研团体加入到基于x m l 集成系统的开发当中。 x m l 是通过对包含有集成数据的x m l 文档进行集成来实现异构数据的集 成,因此可以将x m l 视为一种特殊的中间件。随着集成数据类型的丰富性 加强,x m l 不仅仅成为集成的一种中间件,一种关键技术,更成为了网络传 输中重要的信息表达方式之一。 1 3 研究内容 根据项目的实际进展情况及亟待解决的问题,结合课题的研究来源与项 3 哈尔滨工程大学硕士学位论文 目所要达到的目标,拟对面向网络态势的异构数据的规范化和集成的研究从 以下几个方面展开: l 、态势信息的标准模型的制定 利用x m ls c h e m a 建立态势信息标准模型,从而使各传感器以此信息 模型为规范,使各传感器产生的数据从产生开始就是符合项目标准的。 2 、确立数据源和标准模型之间的匹配关系 建立了态势信息标准模型后,需要将各传感器产生的数据与态势信息标 准模型之间建立一种关联,这种关联可以是一对一的,也可以是一对多的, 但不可以是多对一的,否则,就有可能造成信息含义歧义的现象。而确定数 据源和态势信息标准模型的匹配关系工作也是各传感器将数据转换成标准 x m l 文档之前必须做的工作。 3 、将传感器采集的数据转换为标准格式 将传感器采集的数据转换为标准格式工作是在各传感器端完成的,这个 标准格式是以x m l 文档形式存在并出经过f t p 传输到集成器端进行集成。 4 、对各传感器的数据进行集成 在集成器端需要对各传感器提交的x m l 文档进行集成。这种集成依照 的标准是之前制定的态势感知标准模型。从而,从不同角度反映网络安全态 势的不同源的异构数据信息在同一层次进行了融合。 5 、集成可视化界面的开发 为了更直观地对各传感器提交的数据进行查询,更快捷地了解当前网络 的状态,项目在规范化和集成的基础上进行了集成可视化界面的开发。在集 成可视化界面中,可以直观地显示出各传感器提交的数据信息,对n e t f l o w , s n m p ,日志和面向服务传感器的部分功能予以调用。 1 4 论文的组织结构 全文共分五章,各章的内容概括如下: 第1 章是绪论,介绍课题提出的背景及意义,对数据集成的研究过程进 行了分条的阐明;同时简要地介绍了数据集成技术在国内外的研究现状。 第2 章相关技术,介绍了异构数据规范化与集成中所用到的技术。这里 只介绍三种:x m l ,x m l 数据库,朴素贝叶斯分类模型。 4 哈尔滨工程大学硕士学位论文 第3 章异构数据的规范化,给出了态势信息模型建立的初衷和详细阐述。 在建立了态势信息模型的基础上,传感器所提交的数据就有了具体的含义, 否则就只是一个个独立的数字。通过态势信息模型的限定,对各传感器产生 的数据x m l 化,等待集成处理。 第4 章异构数据的集成算法研究,详细分析了异构数据集成所用的算法 朴素贝叶斯算法。通过比较与具体实验数据,对朴素贝叶斯应用在课题 中的理由和优越性进行了分析和对比。 第5 章实例验证与分析,通过具体项目的验证,完成了原始数据流到异 构数据集成的过程,从而证明了态势感知技术在网络中的有效性,并且能够 为用户提供可参考的报警信息。 5 , 哈尔滨1 = 程大学硕士学何论文 第2 章相关技术 对异构数据源的集成是目前热点的研究内容。这项技术处于不断地更新 和发展中,论文研究的数据集成方法涉及到x m l ,x m l 数据库及其朴素贝 叶斯分类技术,这些标准技术是论文工作依靠的技术基础,本章将具体介绍 这些相关的技术,并详细分析应用这些技术的优势。 2 1x m l 技术 随着信息的膨胀式发展,不同格式,类型,表义的数据大量产生,而表 示这些信息的方式各不相同,这种不相同包括数据在形式上的不相同和表达 方式上的不相同。例如,“张老师与“张强这两个值,在数据库中的表 现形式是不同的,但实际反映的含义却有可能相同;而同样都是数字“2 5 ” 却可能表示不同的含义,有可能表示2 5 号端口,也可能表示2 5 个比特等等。 鉴于这样的情况可能会以更复杂的形式出现,就需要有一种良好的信息表示 机制和数据集成机制来切实地解决不同传感器之间的数据异构问题。现实的 需要要求有一种统一的格式或模式能够对不同类型的数据进行统一表达,从 而适应数据的传输以及处理。x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记 语言) 可以在一定程度上满足需求它特有的平台无关性、可扩展性、独立 性等特征无一不是建立统一数据表达方式的良好条件。 2 1 1x m l 知识概述 x m l e l 3 , 1 4 , 1 5 , 1 6 】是w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ,万维网协会) 推荐的 一种技术。x m l 作为一种元标记语言,具备数据和表示相分离、自描述性等 优势,在描述复杂数据和包括图像在内的多种数据上具有很强的优势。它通 过严格的语法定义,良好的可扩展性,比较好地规范了网络中的文件数据传 输;它通过开放的自我描述方式,更好地对待表达数据的数据结构进行了突 出。x m l 的结构不是固定的,可以根据需要自行定义其中的结构和各标记的 具体属性,这是通过x m l 标签来实现的。x m l 中的标签可以由开发人员自 己来定义,从而确定x m l 文档的结构,下面是一个简单的x m l 文档信息: 6 哈尔滨工程大学硕七学位论文 c + + p r o g r a m m i n gl a n g u a g e b j a r r l es t r o u s t r u p 19 9 8 9 8 0 t c p i pi l l u s t r a t e d r i c h a r ds t e v e n s 19 9 6 5 6 0 x m l 的优剧1 7 , 1 8 1 在于: ( 1 )良好的可扩展性 x m l 可以根据不同的格式需求,自行定义出合适的格式结构,如数学标 记语言,化学标记语言等等。这样就保证了在既定的结构下,收发信息者可 以有效的交换数据。同时,x m l 文档的读取方式很简单,不需要特定的软件, w i n d o w s 记事本,正等方式均可以。 ( 2 )良好的移植性 x m l 可以实现数据的跨平台交换:x m l 文档可以存储包括语音格式在 内的多种数据,x m l 通过自身的跨平台性从而实现了包含在x m l 文档内的 其他数据的跨平台性。 ( 3 ) 内容与形式分离 x m l 文档改变了h t m l 文档在内容形式上不可分离的缺点,实现了以 标记包含信息,大大简化了x m l 的检索任务量,修改x m l 文档中用于表现 数据的表单即可实现对x m l 文档的修改,而不必如h t m l 一般,完全更新 文档。 ( 4 ) 遵循严格的语法要求 7 , 哈尔滨t 程大学硕士学位论文 j i i i i i i i i i i i i 宣i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 置i i i i i i i i i i i 宣i 宣i i i i i i 宣i 宣i 宣i i x m l 在表示数据的格式上要求十分严格,必须遵照相应的规则,如整个 文档必须且只能有一个根元素,每个元素均需要有起始和终止标记,文档中 的标记必须成对出现。这样做的目的在于提高分析器的识别门槛,实现x m l 文档的规范性和可维护性。 ( 5 )良好的自描述性 x m l 文档具体包括了数据部分,标记说明部分和数据格式说明部分。因 为x m l 文档具有这样的结构,因此,可以有效地进行自我描述。 ( 6 ) 便于不同系统之间信息的传输 前面提到过,x m l 文档易于读取和编写,因此,x m l 良好的跨平台性 使得诸多数据可以依靠x m l 技术实现跨平台转移。在不同操作系统,不同 数据库的数据传输过程中,x m l 凭借自身的良好特性使得它可以胜任在不同 系统之间传输数据。 2 1 2x m l 在数据集成中的应用 x m l 在表示数据方面的优点【1 9 】使得各种借助于x m l 文档的集成信息大 量出现,而在一定范围内就势必需要对包含有不同类型数据的x m l 文档进 行集成。 课题中涉及到的不同类型数据有四类:n e t f l o w 信息流,s n m p 采集的 m i b 2 数据,各类日志数据以及面向服务组采集的各种主机服务信息。这些 不同类型的数据被包含在x m l 文档中,通过对包含有各传感器数据的x m l 文档进行集成,从而实现对各传感器数据的集成。传感器生成x m l 逻辑结 构图如图2 1 所示: 图2 1 传感器生成x m l 文档的逻辑结构图 8 哈尔滨t 程大学硕士学位论文 在集成的过程上,论文采用的是借助j a v a 程序的方式,通过在j a v a 编程 平台( 项目中采用的是e c l i p s e ) 中载入预定义的数据模型,从而实现对不同 的x m l 文档的操作。 在集成工作之前,需要定义一个能够被四类数据共同认可和识别的数据 模型,从而使数据在转化成x m l 文档之初便具备一定的集成基础,这个基 础作为集成的前提条件,使不同结构的x m l 文档之间可以互相识别。这个 规范化的过程将在第三章第二节中做详细介绍。 2 2x m i 数据库 x m l 存储在数据库中的方法很多,其中多以将x m l 文档中内容读出,以 文本形式或其他基于内容的形式存储在数据库中。这种方法的优点是技术较 为成熟,操作比较简单,但是在数据传输过程中无法保证数据的保密性以及 效率。在课题中,我们使用o r a c l ex m ld b 技术实施x m l 文档的存储。使用 这种存储模式的优点有: l 、可以实现x m l 的文档存储,而不是内容的存储。这样既保持了x m l 文档结构特性不改变,也使读取时不需要多余的二次反转换。 2 、在传输过程中,更加有利于数据的安全性。 3 、利用o r a c l e 数据库提供的o r a c l ex m ld b 功能,有效地保证了存储和 读取过程的效率。 2 2 1x m l 数据库介绍 x m l 数据库【2 0 ,2 1 】是一种能够存储并读取x m l 文档的数据库系统。利用 它,我们可以直接对x m l 文档进行插入,读取,删除等操作,而不需要对 x m l 文档内容进行先读取后存储的过程。由于在数据量膨胀的今天,不同类 型的数据在表示上难以统一。此时,x m l 的出现在一定程度上缓解了这样的 尴尬,但随之而来的是x m l 文档在存储和表示上的问题。x m l 数据库技术 的出现弥补了传统数据库的劣势,在x m l 文档存储的问题上做出了突破。 与传统数据库相比,x m l 数据库具有以下优势: l 、x m l 数据库可以对特定结构和格式的数据进行有效的管理。这里提 到的特定结构和格式主要是指半结构化数据,包括h t m l 和x m l 等。x m l 文档的在普通数据库中无法直接存储,而x m l 数据库主要解决了这样的问 9 , 哈尔滨t 程大学硕七学位论文 题。 2 、x m l 数据库可以显示出存储在其中的半结构化数据的层次特征。例 如,h t m l 和x m l 文档都是有层次特征的,普通数据库在存储其中内容时, 无法存储数据之间的层次关系,x m l 数据库可以做到这一点。 3 、x m l 数据库提供了更高层次上的对存储在数据库中数据的修改权限, 它可以实现对存储在数据库中的数据的结构特性的修改,而不仅仅局限于对 数据的值的修改。 2 2 2o r a c l ex m ld b 技术 o r a c l ex m ld b l 2 2 2 3 】是o r a c l e1 0 9 提供的新的存储技术,该技术能够为x m l 文档提供高性能的存储和检索功能,突破了传统数据库在存储半结构化数据 时的不力。o r a c l ex m ld b 提供了独立的逻辑言语用以独立执行存储和管理 x m l 文档。o r a c l ex m ld b 技术在提供对x m l 文档存储和查询的功能的同 时,还提供了对x m l 文档的内容予以操作的功能,包括对x m l 文档中按标 签对不同的x m l 文档进行数据组织结构级别的增删等操作,这在传统数据 库中是无法实现的,而这些功能恰恰是课题在实现异构数据集成时所必需的。 o r a c l ex m ld b 技术存储管理其中的x m l 文档是以存储,内容,编程语 言三个独立特性为特征进行的。它不但提供了较传统数据库更为高效科学的 定位于查询算法,而且在x m l 文档层次结构的角度使用了r e p o s i t o r y ( x m l 信息库) ,更好地实现对x m l 文档层次化数据的管理功能。o r a c l ex m ld b 在提供传统数据库功能之外,o r a c l ex m ld b 还必须具备针对x m l 特点的 工作机制。由于x m l 文档中的层次化数据结构无法再传统数据库中找到很 好的存储模式,因此o r a c l ex m ld b 还建立一种以x m l 为中心的有效索引, 查找,搜索,更新等功能。 o r a c l ex m ld b 提供的功能如下: ( 1 ) 存储和管理x m l 文档。 ( 2 ) 提供了可以对内存进行管理和优化的x m l 工作机制。 ( 3 ) 将标准w 3 c 推荐的x m l 模式、x m l 数据模型纳入o r a c l e 数据库的 能力中来。 ( 4 ) 提供了基于f t p 、h t t p 、w e b d a v 协议的源生数据库,以此为支持 的实现x m l 内容的插入和查询功能。 1 0 , 哈尔滨工程大学硕十学位论文 i ii ( 5 ) 提供了包括x p a t h 和s q l x m l 方式在内的更新x m l 的业界标准方 法集。 ( 6 ) 建立了一个轻型的,允许使用文件和u r l 组织和管理x m l 文档及其 内容的x m l 信息库。 ( 7 ) 提供了允许以j a v a 、c 语言和p l s q l 对x m l 内容进行访问和修改 的多个业界标准a p i 。 ( 8 ) 继承了x m l s q l 的二元性,提供给x m l 操作s q l 数据的功能并保 留s q l 操作x m l 文档及其内容的功能。 ( 9 ) 提供了标准的s q l 运算法以对x m l 文档及其内容进行操作。 2 2 3x m l t y p e 的应用 x m l t y p e 2 4 】是o r a c l e9 i 开发出的一个新的数据类型,专门用来实现在 o r a c l e 数据库中存储及管理x m l 文档的功能。在o r a c l e 数据库中,x m l t y p e 作为一种既定数据类型,在存储x m l 文档时,可以根据x m l 的结构类型实 现存储条件的判断。也就是说,o r a c l e 可以首先判断欲存储进来的x m l 文 档是不是事先定义好的结构,如果不是则不允许存储,这也是x m l t y p e 的 强大之处。当然,这个判断过程是可选的。x m l 文档存储在o r a c l e 中是以 c l o b ( 字符大对象) 数据类型的形式存在的【2 5 1 ,这样做最重要的意义在于 保持了x m l 文档在数据库中的结构特性不改变。 x m l 文档在o r a c l e 中的存储结构如图2 2 所示: 函i l 吊t i l 工砸譬而l f 礓二川二:。汕t 糊黝缀渤戮黝缓糍戮戮戮黝j oo 。, 盅i q l 篓 s o l i o 址p l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论