




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)电信网管系统中异构数据源数据集成方法研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北方工业大学硕士学位论文 摘要 电信行业目前面临多厂商、多种设备的历史遗留问题,虽然t m n 标准制定给电 信设备的接口标准化提供了依据,但是t m n 标准制定的相对较晚,完整的实施t m n 标准也非常困难,接口的不统一导致了这给电信网管数据集成带来了非常大的难度。 论文首先分析了t m n 和异构数据源数据集成。电信管理网( t m n ) 是电信网管系 统平台的所要遵循的基础,本集成系统是在遵循t m n 的基础上开发的。基于联邦数 据库系统的集成方法、基于数据仓库的集成方法以及基于中间件的集成方法是比较常 见的几种集成策略,这些策略在不同的着重点和应用上解决了异构数据共享问题并且 为企业提供及时的决策支持。论文分析了这几种集成方法,并对其进行了比较。在结 合电信网管系统的需求的基础上,提出了符合电信网管数据特征的集成方法。 论文接着对电信网管系统中数据集成需求进行了分析,并在此基础上结合电信网 管系统的实际需求,研究和实现了m m l 接口数据、s n m p 接口数据的集成,并且研 究和提出了c o r b a 接口数据的集成方法。最终通过实际应用证明了本集成方法的可 行性。论文在电信网管系统中提供统一的数据平台应用上具有一定的意义。 关键字:t m n 、数据集成、s n m p 、c o r b a 、m m l 北方上业人学硕士学位论文 t h er e s e a r c ha n d a p p l i c a t i o no fh e t e r o g e n e o u sd a t as o u r c e i n t e g r a t i o nm e t h o d s i nt e l e c o m m u n i c a t i o n sn e t w o r km a n a g e m e n t s y s t e m a b s t r a c t t h et e l e c o m i n d u s t r y i s c u r r e n t l yf a c i n gm a n ym a n u f a c t u r e r s ,m u l t i p l ee q u i p m e n t p r o b l e m sl e f to v e rb yh i s t o r y a l t h o u g ht m n s t a n d a r d sf o rt e l e c o m m u n i c a t i o n se q u i p m e n t s t a n d a r d i z a t i o no fi n t e r f a c e sp r o v i d et h eb a s i s ,t m ns t a n d a r d sd e v e l o p e dr e l a t i v e l yl a t e ,t o c o m p l e t ei m p l e m e n t a t i o no ft m ns t a n d a r d sa r ev e r yd i f f i c u l t t h ei n t e r f a c en o n u n i f o r m l e dt ot h et e l e c o m m u n i c a t i o n sn e t w o r kf o rd a t ai n t e g r a t i o nv e r yd i f f i c u l t y f i r s t ,t h ep a p e ra n a l y z e d t m na n d h e t e r o g e n e o u s d a t as o u r c e i n t e g r a t i o n t e l e c o m m u n i c a t i o n sm a n a g e m e n tn e t w o r k ( t m n ) i st h eb a s i so ft e l e c o m m u n i c a t i o n s i n t e g r a t e dn e t w o r km a n a g e m e n ts y s t e mt ob ef o l l o wa n do u rd a t ai n t e g r a t i o ns y s t e mi sa l s o i n c o m p l i a n c ew i t ht h eb a s i so ft h et m n f e d e r a ld a t ai n t e g r a t i o nm e t h o d s ,d a t a w a r e h o u s ei n t e g r a t i o na n dm i d d l e w a r ei n t e g r a t i o na p p r o a c ha r em o r ec o m m o nm e t h o d so f s e v e r a lm a s t e rs t r a t e g i e s t h ef o c u so ft h e s es t r a t e g i e si nd i f f e r e n ta p p l i c a t i o n sa n dd a t a s h a r i n gi s s u e sr e s o l v e dh e t e r o g e n e o u sd a t aa n dp r o v i d et i m e l yd e c i s i o ns u p p o r t t h i sp a p e r a n a l y s e ss e v e r a li n t e g r a t e dm e t h o d sa n dt h e i rc o m p a r i s o n t h e nt h ep a p e r sa n a l y s e st h ed a t ai n t e g r a t i o nn e e d so ft e l e c o m m u n i c a t i o n sn e t w o r k s a n do nt h i sb a s i so ft h ea c t u a ln e e d so ft e l e c o m m u n i c a t i o n sn e t w o r km a n a g e m e n ts y s t e m s , r e s e a r c h e da n dr e a l i z e dt h em m li n t e r f a c e ,s n m pi n t e r f a c ed a t ai n t e g r a t i o n ,a n d r e s e a r c h e da n dp r o p o s e dc o r b ai n t e r f a c ed a t ai n t e g r a t i o nm e t h o d s u l t i m a t e l y , p r a c t i c e h a sp r o v e dt h ef e a s i b i l i t yo ft h i si n t e g r a t i o n p a p e r sh a v ec e r t a i ns i g n i f i c a n c ei np r o v i d i n g au n i f i e dd a t aa p p l i c a t i o np l a t f o r mf o rt e l e c o m m u n i c a t i o n sn e t w o r km a n a g e m e n ts y s t e m k e yw o r d s :t m n ,h e t e r o g e n e o u sd a t ai n t e g r a t i o n ,s n m p , c o r b a ,m m l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得j e 直王些盔堂或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:梆字日期:舛广月弘日 学位论文版权使用授权书 本学位论文作者完全了解j e 直工些太堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。本人授权j e 直至些太堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:翁皤 签字日期弦5 年 月妒 学位论文作者毕业后去向: 导师躲易临铲 签字目期洒戽j 月j 。日 工作单位:北京北大方正电子有限公司电话:1 3 4 2 6 2 3 5 0 5 8 通讯地址:北京j :海淀区上地五街9 号邮编:1 0 0 0 8 1 北方工业人学硕十学位论文 1 引言 1 1 课题的背景和意义 建设优秀的网管系统是提高电信网络服务质量和网络能力、保证网络运行质量、 增加效益的最根本手段。然而,当前我国的电信网络运营商的网管系统建设通常都是 条块分割的,网管系统的建设以网元设备a 带的网元管理系统为主,部分设备还使用 a 带终端,同时还陆续建成或完善有一些专业网络管理系统,如传输网管系统、接入 网网管系统等等。每出现一种新网元,就建设一套针对浚网元的网管系统,随着时间 的推移,整个电信网络的网管系统横向分散,彼此问缺乏数据交换和共享的接口,很 难具备良好的扩展性。由于不同的开发商采用各自不同的技术自行研制且大多采用各 自的管理协议,不可避免地带来网络协议互不兼容、管理信息不能互通、缺乏对整个 网络的综合管理、管理内容庞杂、操作界面多样等问题,在企业运营维护方面的信息 系统建设上存在着多个“信息孤岛”。因为各个地区都是以电信总局的标准为基础, 根据自身的网络情况白行研制、开发网管系统,许多网管系统都是在短时间内完成的, 并且不同的项目由不同的单位承担,结果势必影响这些网管系统的致性、周密性、 通用性,当出现新机型或同一厂家的机器升级时,往往要对网管系统做很大的改动, 浪费人力、物力、财力。 这种局面造成的问题集中表现在整个网络的维护和管理水平还停留在网元管理 层的维护和检测,大量的历史告警和性能信息无法集中统“一入库,随着技术和市场的 发展以及网络复杂程度的成倍增长,这种管理模式的局限性日益显现,网络的运营维 护成本将不断上升,无法满足大规模网络管理的需要,更无法满足对全网业务进行量 化和性能分析的需要。在这种多厂商、多机型的环境下,要解决目前网管系统中存在 的问题,需要多方的努力。既要求标准制定部门针对各种通信网络和业务,尽快制定 统一的管理信息模型标准;也要求电信总局与各厂家之问协商,争取提供统一的网元 接口的通信协议和管理数据格式;还要求网管系统设计者与网络运营者相互合作,在 充分了解运营商的业务和管理需求、熟知网络设备的通信接口和管理方式的基础上来 建立一种被管对象数据处理模型,以保证网管系统的灵活性、可扩展性。 针对上述电信网络的现状,为了推动电信业的进步,研究各种数据集成方法,建 北方工业大学硕士学位论文 立一种通用的数据集成模型,实现数据的集成与硬件和系统无关。从而方便地将不同 电信设备、电信系统所产生的异构数据源集成到数据仓库中,为网络优化、网管故障 相关性分析,统计设备的故障率等分析提供基础。 1 2 课题的来源及研究目标 本课题来源于电信本地网网路管理和集中监控系统中数据集成的需求。建设本地 电话网网路管理和集中监控系统( 以下简称网管系统) ,可以集中优秀技术人才,通 过网管系统对本地网内的电信设备进行实时监视、控制和操作,实现全网的集中监控、 集中维护、集中管理,有效地保证网路的运行质量,提高人员、设备的利用率,取得 良好的经济效益和社会效益。本集成系统是将各种网元设备管理系统数据和协议数据 进行集成,为网管系统提供统一的数据平台。 本课题根据实际项目的需要主要研究实现网管系统中的m m l ( m a nm a c h i n e l a n g u a g e ) 接e l 数据、s n m p 接i s l 数据、c o r b a 接口数据的集成统一。m m l 接口数 据是一个格式十分复杂的数据源,不同厂商的同一网元设备的m m l 接口数据是不同 的,同一厂商不同网元设备的m m l 接口数据格式也是不同,同一厂商同一设备的不 同类型的m m l 接口数据格式也是不同的。本课题要研究一种比较通用的能够提取这 些不同格式的数据的提取模式,从而完成对m m l 接口数据的集成。s n m p 接口数据 和c o r b a 接口数据是目前网管系统中比较常用的接口数据,本课题要同时完成对 s n m p 接口数据和c o r b a 接口数据的集成转换。 1 3 论文的工作和组织情况 论文在对电信网管接口协议研究的基础上,通过对大量的电信接口数据分析,提 出了一个电信网管数据集成方案,并对该方案进行了编码实现。 论文的贡献之处在于:提出了网管数据集成方案,该方案实现了m m l 接口数据、 s n m p 接口数据和c o r b a 接口数据的集成。使用户通过简单的配置即可实现新网元 的接入以及数据的集成。 论文结构如下: 第一章引言,介绍了课题的背景、意义、来源、研究目标和论文的组织情况 北方工业大学硕十学位论文 第二章电信管理网( t m n ) 概述和第三章异构数据源及其集成方法介绍了论文的 相关技术背景,并且对这些技术背景提出了自己的观点 第四章对电信网管系统中数据集成需求进行了分析。分析了电信网管系统数据的 来源,数据的特性,目前的网管系统数据集成方法以及集成需求。 第五章电信网管数据集成模型研究:主要介绍了作者提出的一种电信数据集成模 型,并且对这种数据集成模型进行了设计和实施。 第六章电信网管数据集成模型实现主要介绍了数据集成模型的网络物理实施和 最终实验结果。 第七章论文的总结和技术展望 3 北方i :业大学硕士学位论文 2 电信管理网( t m n ) 概述 随着通信技术的高速发展,通信网的网络规模不断扩大,网络复杂性日益提高。 为了提高服务质量和降低运行成本,对网络管理系统的要求越采越多、越来越高。所 以,如何以合理的管理手段维护目益复杂的电信网,从而提高网络的效率,成为一个 迫切需要解决的问题。i t u - t 提出了对电信网实现统一的综合维护管理的新手段电信 管理网i lj ( t m n ,t e l e c o m m u n i c a t i o n sm a n a g e m e n tn e t w o r k ) 。t m n 是电信网管系 统平台的所要遵循的基础,本集成系统是在遵循t m n 的基础上开发的。 2 i 、电信管理网( n 压n ) 的产生 从2 0 世纪8 0 年代起,i t u p l ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ) 就开始进 行网管系统互操作的研究。在研究过程中,人们发现网管系统的互操作仅是网管系统 建设中的一个问题,在网管系统的建设中还有其他一些问题也迫切需要解决。如网管 系统的可持续建设、网管系统的质量、网管系统的容灾、网管系统的系统结构、网管 系统的演变、网管系统的使用方式等。除此之外,人们还进一步发现,这些问题中的 每一个问题,都不是孤立存在的,都和其他问题有各种各样的关系,对其中每一个问 题的研究都不能和其他问题割裂开来,必须将其放在网管系统的大环境中进行综合研 究,才有可能得到一个较好的解决方法。基于上述的考虑,人们将网管系统建设中的 主要问题,放在通信网的大环境中进行统一考虑,希望能得到一个全面解决各问题的 方案,t m n 就是这样一个解决有关网管系统建设问题的方案。 2 2 、t m n 相关概念 2 1 1t m n 与电信网的关系 从技术和标准的角度来看t m n 就是一个原则和为实现原则中定义的目标而制定 的一系列技术标准和规范:从逻辑和实施方面考虑,t m n 是一个由各种不同的管理应 用系统按照t m n 的标准接口互连而成的网络。这个网络在限定点上与电信网连接。 t m n 与电信网的关系是管与被管的关系,是管理网与被管理网的关系。t m n 与一般 电信网的关系如图2 1 所示。 北方t 业大学硕十学位论文 图2 1t m n 与一般电信网的关系 由图可看出,t m n 力图使用一种独立于电信网的、专门进行网络管理的网络, 它需要建立一个集中式的监控系统,并要求从通用网络的角度使不同的网络在同一种 操作方式卜兼容。这样可以为线路租用者提供快速和高质量的服务,并且使网管人员 轻松地掌握管理网络的方法,而无须详细了解每家厂商的网管技术。 2 2 2t m n 的结构 i t u t 从管理功能块的划分、信息交互的方式和物理实现各个不同侧向定义了 t m n 的体系结构,分别是:t m n 的功能体系结构、t m n 的信息、体系结构和t m n 的物理体系结构3 1 1 4 1 5 1 1 6 【7 】【8 1 。 ( 1 ) t m n 功能结构 t m n 功能结构主要描述t m n 内的功能分布。其基础是把t m n 的功能划分为 t m n 功能块,功能块之间利用数据通信功f i ( d c f ) 来传递信息,并由参考点隔开。如 图2 2 所示: 北方工业大学硕士学位论文 图2 2t m n 功能块与参考点 t m n 的功能模块分为五种,即操作系统功f l b ( o s f ) 、协调功能( m f ) 、网络单元功 能( n e f ) 、q 适配功i 能( q a f ) 和工作站功能( w s f ) 。 o s f 主要对管理信息进行处理,以便支持、控制各种管理功能的实现。 m f 介于o s f 与n e f ( 或q a f ) 之间,起协调或中介作用。它按o s f 的要求,对 来自n e f ( 或q a f ) 的信息进行适配、过滤和压缩等处理。 q a f 用来将不具备标准t m n 接e l 的n e f 连接至t m n 内部,其任务是进行t m n 接口与非t m n 接口之间的转换。 n e f 与t m n 进行通信以便受其监视、控制,它代表了被t m n 管理的设备和( 或) 功能。 w 5 f 为管理信息的用户提供一种解释t m n 信息的手段。其功能包括终端的安全 接入和注册,识别和确认输入,格式化和确认输出等。 参考点确定了不同的管理功能块间的边界。它实际上是表示两个管理功能块之间 进行信息交换的概念上的一个点。t m n 内有三类不同的参考点,即:q 参考点,f 参 考点,x 参考点。 6 北方工业人学硕十学位论文 ( 2 ) t m n 信息结构 t m n 信息结构主要用来描述功能块之间交换的不同类型的管理信息,其基础是 管理层次模型、信息模型和组织模型。 为了便于管理和操作,t m n 管理功能可以划分为不同的层。从上至f 为事务管 理层、业务管理层、网络管理层、网元管理层、网元层。 信息模型是描述管理对象及其特性的方法,它精确地规定叮以用什么消息来管理 所选择的对象( 语法) ,以及这些消息的意思( 语义) 。因而它实际上是一种规定管理系 统和管理对象之问接l = _ l 的手段。信息模型采用面向对象的方法和实体关系的方法来处 理管理对象及其关系。 组织模型规定了t m n 的结构,以及管理层内或管理层问的t m n 功能,它主要 用来描述管理进程担任控制角色( 管理者) 和被控角色( 代理) 的能力以及管理者和代理 之间的相互关系。 ( 3 ) t m n 物理结构 t m n 功能块在物理实体上分布及实现时就构成了t m n 物理结构。t m n 物理结 构包括操作系统( 0 s ) 、网7 己( n e ) 、工作站( w s ) 3 nq 适配器( q a ) 等物理实体。 t m n 功能块在t m n 物理实体上的分布如表2 1 所示: 表2 1t m n 物理实体与功能块之间的关系( m :必备功能o :可选功能) n e f q a fq s f w s f n em 0oo q a m o s0mo w sm 在由t m n 功能结构向物理结构映射的过程中,t m n 功能块之间的参考点映射成 t m n 实体间的接口,如q 3 参考点映射成q 3 接口。 北方工业大学硕士学位论文 2 2 3t m n 的功能 t m n 管理功能基本上是依据o s i 的管理功能分类方法并加以扩展以适应t m n 的需要。一般将它们分为五大功能域: ( 1 ) 性能管理 性能管理主要提供有关通信设备状况、网络或网络单元性能的报告和评估。主 要作用是收集各种统计数据用于监视或校正网络、网络单元或设备的状况和性能,并 帮助进行评价和分析。包括性能质量保证、性能监视、性能控制和性能分析四项任务。 ( 2 ) 故障管理 故障管理指能够对不正常的电信网运行状况或环境条件进行检测、隔离和校正的 一系列功能。诸如:告警监视、故障定位、故障校正和测试功能等。 ( 3 ) 配置管理 配置管理涉及网络的实际网络安排,主要实施对网络单元的控制、识别和数据交 换,主要功能包括网络规划、软件的安装和初始化、业务的规划、供给功能等。 ( 4 ) 账务管理 账务管理能够度量网络服务的使用及其费用,主要是收集账务记录和设置使用服 务的计费参数。主要功能有计费功能和资费摊算功能。 ( 5 ) 安全管理 t m n 应为网络的安全提供周密的安排,一切未经授权的接入都不得透入网络和 系统。典型的安全管理功能有接入控制和安全告警。 2 2 4t m n 管理功能层次 一个t m n 的管理功能可划分为五个层次,较高层次的管理层利用较低层次的管 理层提供的管理功能实现本层的管理功能。这五个管理层分别为: ( 1 ) 网元层 北方工业人学硕士学位论文 按照t m n 的标准,将被管设备抽象成网元,所有网元组成网元功能层。 ( 2 ) 网元管理层 网元管理层直接行使对网元的管理职能,主要有下述三种功能 控制和协调一系列网元; 在上面的网络管理层与下面的网元层之间提供协调( 网关) 功能; 维护涉及网元的统计数据、记录和其他有关数据。 ( 3 ) 网络管理层 网络管理层从全网的角度对管理域内的网络进行管理,包括:从全网的观点来控 制和协调所有n e 的活动;具有提供、中止或修改网络的能力;就网络性能、使用和 可用性等事项与上面的业务管理层交互。 ( 4 ) 业务管理层 业务管理层主要处理业务的合同事项,诸如用户与网络运营者之问的接口、与业 务提供者的交互,以及与最高层的事务管理层的交互等,主要功能有: 为所有业务事项( 包括提供和终止业务、计费、故障报告等) 提供与用户的基本联 系点; 与业务提供者、下面的网络管理层和上面的事务管理层进行交互 维护统计数据; 业务之间的交互。 ( 5 ) 事务管理层 事务管理层是最高的逻辑功能层,负责总的业务与网络事务,主要涉及经济和政 策等方面,包括与电信网有关的政策的制定、费用摊算等等。 t m n 管理功能层次中各个层次之间的关系如图3 所示 北方工业大学硕士学位论文 2 2 5t m n 的接口数据 修、御s r + q 3 l 业务o s f 十q 3 q 3 | 婀络0 s f q 3 石裔, y 彳 蹲元管理 广弋0 s f u 十q x 糍 图2 2t m n 管理功能层次中各个层次之间的关系 尽管t m n 有技术上先进、公认的标准和接口等优点,但目前国内本地网上运行 的电信设备的开发研制多在t m n 标准制定之前,很难要求这些设备提供满足t m n 标准的网管接口。另外,我国的交换机机型繁多,涉及到国内外多个生产厂商,国外 的包括:s 1 2 4 0 、a x e l 0 、5 e s s 等;国内的则有:c & c 0 8 、z x j l 0 、s p 3 0 等。各厂家 所称产的设备一般都具有自己的网元管理系统,而网元管理系统所提供的接口类型不 同,交换机输出的管理数据格式也千差万别。电信行业虽然制定了系列的网管技术 规范和管理需求定义,但各地区都是根据自身的网络情况自行研制、开发网管系统, 这就导致电信管理网的管理数据接口各式各样,目前主要有:m m l ( m a nm a c h i n e l a n g u a g e ) 接口数据、数据库( o r a c l e 、i n f o r m i x ) 数据、x m l 数据、c o r b a 接e l 数据、s n m p 接口数据、q 3 接口数据、非标准q x 接口数据等数据格式。各式各样的 数据源给网络集中监控和管理带来了极大的不便,这就有了对各种数据源数据进行集 成的需求。 论文根据实际项目的需要主要研究m m l 接口数据向数据库的集成和s n m p 接口 北方3 2 j l k 大学硕十学位论文 数据,c o r b a 接口数据向x m l 的集成。 s n m p 接口数据主要是网元管理系统采用s n m p 协议进行管理时所产生的s n m p 接l 数据。它主要是通过访问代n ( a g e n t ) 获取的管理信息。 c o r b a 接口数据是由网元管理系统采用c o r b a 分布式管理体系结构所留下的 接r _ 数据,是目前网管系统中比较常用的接口数据。 m m l 接口数据主要是一些网元设备所产生的话务报告和告警报告,由于目前电 信网络由多厂商多设备构成,不同厂商的同一网元设备的m m l 接口数据是不同的, 同一厂商不同网元设备的m m l 接口数据格式也是不同,同一厂商同一设备的不同类 型的m m l 接口数据格式也是不同的,所以m m l 接口数据十分复杂。 2 3 本章小结 本章介绍了电信管理网及其相关概念,并对t m n 的接口数据进行了分析。电信管 理o ( t m n ) 是i t u t 提出了对电信网实行统一的综合维护管理的解决办法,是一套幽 际规范。是i t u t 借鉴o s i 中有关系统管理的思想及技术、用于电信管理的网络体 系结构。电信管理网t m n 使不同电信设备厂商的设备可以进入开放的电信网络管理 系统,最大限度地提高系统的性能。t m n 框架反映了现代电信网络管理技术的最新 发展。本论文的数据集成工作在结合t m n 框架的基础e 主要实现m m l 接口数据、 s n m p 接口数据和c o r b a 接口数据的集成。 北方工业大学硕士学位论文 3 异构数据源集成方法 现在随着计算机技术特别是网络技术的迅猛发展,许多行业、单位和部门内部都 逐步实现了业务、信息的计算机化管理。但是,由于各个行业、单位和部门的具体业 务和功能归属不同,它们都只是根据自身需要构建了许多相互独立的信息服务和管理 系统,甚至在一个单位内部所采用的信息化环境也可能不会固守任何一个平台,而是 由不同平台组成。这样随着时间的推移和技术的进步,这些由不同技术构建的信息系 统就像一个个“信息孤岛”,各自有着不同的处理对象、操作方法和专用客户端。而 由于部门之间协同合作的需要,各个环节之间数据交流以及集成共享的问题也r 益严 重起来。目前人们对数据集成方法研究比较多,从集成策略上讲联邦数据集成方法、 数据仓库集成方法以及中间件集成方法是比较常见的几种集成策略。本章将介绍数据 集成的一些概念并对常用的集成策略进行比较。 3 1 数据集成相关概念 3 1 1 异构数据 异构数据【1 7 1 是一个含义丰富的概念,它是指涉及同一类型但在处理方法上存在各 种差异的数据,在内容上,不仅可以指不同的数据库系统之间的数据是异构的( 如 o r a c l e 和s q ls e r v e r 数据库中的数据) ;而且可以指不同结构的数据之间的异构 ( 如结构化的s q ls e r v e r 数据库数据和半结构化的x m l 数据) 。 从总体上来说,数据的异构性可以包括以下三个方面:系统异构、数据模型异构 和逻辑异构。 系统异构是指硬件平台、操作系统、并发控制、访问方式和通信能力等的不同。 而数据模型异构则是指数据库管理系统( d m b s ) 本身的不同。比如数据集成系统 可以采用同为关系数据库系统的o r a c l e , s q ls e r v e r 等作为数据模型,也可以采用 不同类型的数据库系统一关系、层次、网络、面向对象或函数型数据库等。 逻辑异构则包括命名异构、值异构、语义异构和模式异构等”o l 。比如语义的异构 北方t 业大学硕士学位论文 具体表现在相同的数据形式表示不同的语义,或者同一语义由不同形式的数据表示。 以上这些构成了数据的异构性,数据的异构给行业、单位和部门等的信息化管理 以及决策分析带来了极大的不便。于是数据集成技术应运而生了。 3 1 2 数据集成 数据集成【“1 1 1 8 1 是为各种异构数据提供统一的表示、存储和管理,这些功能在异构 数据源集成系统中实现。数据集成屏蔽了各种异构数据问的差异,为用户提供一个访 问异构数据源的统一接口,使用户不必考虑数据模型的异构性、数据抽取以及数据合 成等问题。因此集成后的异构数掘对用户来说是统一的和无差异的。 简要地说【”1 ,异构数据源集成就是在一个确定领域中,集成其存在的异构的和自 治的数据源,使用户感到所查询的数据都具有单一的模式且存储在单个数据源中。 数据集成的过程包括:数据提取( e x t r a c t ) ,数据清洗转换( t r a n s f o r m a t i o n ) 和数据 加载( l o a d i n g ) ,即e t l 。 3 1 3 异构数据源的特性 异构数据源的特性主要体现在以下四个方面 ( 1 ) 已存性 在现代化的机构中存在和维护着各种不同价值的各种数据,由于应用领域不同, 也可能因为历史的原因,这些数据可能被保存在不同的数据库或文件系统中。考虑到 成本和技术的因素,这些数据难以合并到一个数据库中,但它们仍然是有价值的,需 要引入到新的应用环境中发挥作用。这种问题也常被称为遗留( l e g a c y ) 系统的利用问 题。已存性正是对这一一客观事实的承认。 ( 2 ) 分布性 用户需要的数据来自于多个数据源,各数据源可以存储在同一场地,但更多的是 工作于一个分布式环境中。分布性是指数据被分散地存储在各个不同场地上意味着 数据集成同样需要解决分布式数据库系统中的重复副本透明性,位置透明性和分布式 事务管理等问题,只不过解决的手段主要是通过模式集成而不是数据划分。 北方工业大学硕士学位论文 ( 3 ) 自治性 异构数据源集成系统的各成员系统都是独立设计的,并且运行在局部数据库管理 系统的控制之下,因此自治性是指各成员数据库管理系统能保持对自己数据库的局部 控制,即成员系统的数据库管理员可以自主地决定与其它成员系统共享和协作的程 度。 ( 4 ) 异构性 这种异构性可分为两个方面:环境的异构和数据语义的异构。 环境的异构主要体现在不同的数据源有各自独立的运行环境,包括: 不同的硬件平台、不同的系统软件、不同的网络平台、不同的数据库管理系统等。 数据语义的异构一方面表现在对数据的命名、计量单位、精度的差别,另一方面 表现在具有不同的完整性、安全性要求。 3 1 4 数据集成需要解决的问题 异构数据源数据集成需要考虑如下几个方面的问题科。 ( 1 ) 对用户的透明性 对于集成系统的全局用户,集成的复杂性应该是不可见的,用户应能选择最适合 的用户接口和查询语言,同时不需知道数据是来自于哪个系统。同时,每个局部数据 源的用户并不因为集成系统而改变他们的常规操作,即每个被集成的数据源的局部管 理系统应尽可能保持自治性。 ( 2 ) 数据的完整性 异构数据源数据集成的目的是为应用提供统一的访问支持。为了满足各种应用处 理( 包括发布) 数据的条件,集成后的数据必须保证一定的完整性,包括数据完整性和 约束完整性两方面。数据完整性是指完整提取数据本身,一般来说,这一点较容易达 到。约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特 征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提 北方工业大学硕士学何论文 高效率。 ( 3 ) 性能 网络时代的应用对传统数据集成方法提出了挑战,提出了更高的标准。一般说来, 当前负责集成的应用必须满足:轻量快速部署,即系统可以快速适应数据源改变和低 投入的特性。 ( 4 ) 语义冲突 信息资源之间存在着语义上的区别。这些语义上的不同叮能引起各种矛盾,从简 单的名字语义冲突( 不同的名字代表相同的概念) ,到复杂的结构语义冲突( 不同的模型 表达同样的信息) 。语义冲突会带来数据集成结果的冗余,干扰数据处理、发布和交 换。所以如何尽量减少语义冲突也是数据集成的一个研究热点。 ( 5 ) 权限限制 由于数据库资源可能归属不同的单位( 部门) ,所以如何在访问异构数据源数据基 础上保障原有数据库的权限不被侵犯,实现对原有数据源访问权限的隔离和控制,就 成为连接异构数据资源库必须解决的问题。 ( 6 ) 集成内容限定 多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义要 集成的范围,就构成了集成内容的限定问题。 ( 7 ) 异构数据模型统一描述 由于各数据源采用的数据库管理系统,有些甚至只是一些非结构化或半结构化的 文件型数据,数据模型上存在的差异较大。用公共数据模型( c o m m o nd a t am o d e l , c d m ) 来描述各异构数据源的数据模式,将每个异构模型被映射到c d m 上是目前解 决异构数据集成的通常做法。公共数据模型和公共数据语言是实现异构数据的同一化 和集中化的基础。 ( 8 ) 查询处理( 包括对数据的增、删、改、查,为叙述方便,统称查询处理) 集成系统的用户所需的数据物理上分散存储于各局部数据源,这些数据源包括数 北方工业人学硕士学位论文 据库系统、电子表格、h t m l 文件等。各种数据源提供的查询能力各异,有些数据源 仅支持对其内容的简单扫描,例如h t m l 文件;有些数据源支持利用布尔表达式的 简单查询,例如e x e c l 的文本检索;而有些数据源却能支持诸如投影、选择、连接 等的复杂操作,例如关系数据库系统。另外,各数据源对查询处理还有自己的特殊限 制。因此,在异构数据源集成系统中查询处理的关键是查询计划确定,即如何将全局 查询分解成针对不同数据源的子查询集合,并分发到各数据源,产生的子查询结果最 后重组成一个回答提交给用户。 3 2 数据集成方法综述 随着异构数据集成理论的不断完善,与之相辅相成的实现方法和技术也层出不 穷,例如联邦技术、复制技术1 4 1 1 、数据缓存技术4 2 i 、w e bs e r v i c e 技术1 4 3 1 、x m l 技术 4 4 j 、m e s s a g e 技术【4 副等等。在企业数据集成领域中,已经取得了一些方法论研究成果 和成熟的应用框架1 9 1 1 2 0 】【2 l 】,其中联邦数据集成方法、数据仓库集成方法以及中间件 集成方法是比较常见的几种集成策略,这些策略在不同的着重点和应用上解决异构数 据共享问题并且为企业提供及时的决策支持。在这里将对这几种集成方法做一个基本 分析。 3 2 1 基于联邦数据库系统的集成 联邦数据库系统( f d b s ) 是不采用全局模式,在维持局部成员数据库自治的前提 下,对异构数据库的成员数据库进行部分集成,提供数据的共享和透明访问,具有分 布性、自治性和异构性的特征刚联邦数据库系统的体系结构如图3 2 所示 图3 2 联邦数据库系统的体系结构 北方工业大学硕士学位论文 用户对中央虚拟数据库的操作根据数据字典中映射模块映射为对各子系统的操 作,通过通信接口将各子系统的结果返回,由数据组装模块组装至中央虚拟数据库, 呈现给用户数据字典与中央虚拟数据库是f d b s 实现数据透明性、操作透明性以及各 种操作的基础,数据字典与中央虚拟数据库旨在提供一个面向应用需求的联邦集成模 式,从而实现对各个成员数据库的透明访问。数据字典描述各子系统数据,它的核心 是属性映射表、元数据类型映射表以及成员数据库系统的注册信息表。 联邦数据库系统由半自治数据库系统构成,相互之间分享数据,联盟各数掘源之 间相互提供访问接口,同时联盟数据库系统可以是集巾数据库系统或分布式数据库系 统及其他联邦式系统。在这种模式f 又分为紧耦合和松耦合两种情况,紧耦合提供统 一的访问模式,一般是静态的,在增加数据源上比较困难;而松耦合则不提供统一的 接口,但呵以通过统一的语言访问数据源,其中核心的是必须解决所有数据源语义上 的问题。 该策略的优点:可以保持原来数据模式的独立性:并且不用建立新的数据存储 缺点是:所要集成的数据只能是有结构的数据。 3 2 2 基于中间件的数据集成 基于中间件的数据集成是通过统一的全局数据模型来访问异构的数据库、遗留系 统、w e b 资源等。中间件位于异构数据源系统( 数据层) 和应用程序( 应用层) 之间, 向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的 通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要集中为异构数据 源提供一个高层次检索服务。其体系结构如下图3 3 所示: 北方工业大学硕士学位论文 图3 3 基丁中间件的数据集成体系结构 目前已经有许多基于中间件的数据集成系统,有代表性的系统主要有:t s i m m i s 系统l 、m i x 系统【3 9 1 、和东南大学的v e r s a t i l e 4 0 1 。 该策略集成的优点:为应用提供统一的数据模式,并且不用新的应用可以直接使 用中间件的接口,降低应用编程的工作量。缺点:想设计出包含所有格式的数据的集 成中间件非常困难。 3 2 3 基于数据仓库的数据集成 从广义上讲,数据仓库描述了一种语义一致的数据组织与处理的体系结构,它将 多个分散、异质的原始数据融合在一起,完成不同数据存取、查询及文档分析、报告 生成、支持决策过程:从狭义上讲,数据仓库是支持经营管理中的决策制定过程的、 面向主题的、集成的、内容相对稳定持久的、不同时间的数据集合口”。因此,面向主 题、集成、稳定和随时间变化是数据仓库最主要的特征。本质上,数据仓库就是一个 使用自身数据库管理系统的数据库应用p ”。 企业异构数据集成需要数据仓库技术的原因简单的讲就是希望利用数据仓库为 最终用户提供可用和易懂的商业信息。虽然其中一些信息已经存在于企业的信息管理 系统中,但他们是相互独立而不是集成的,主要是因为交易类应用是设计型而非分析 型应用。将这些己有原始数据进行处理以转换成对管理分析有用的信息是数据仓库发 展的一个重要动力。 由于异构数据集成的首要原则就是对用户来说,他们需要的所有有用的信息,应 该好像驻留在一个单一的数据源里一样。为了满足这个目标通常采用两种方法:一种 是通过数据联邦技术进行分布式数据访问;另一种就是将数据移动到对应用程序更有 效或更一致的位置,这种方法被称为数据合并或数据安排。实际上,数据仓库集成方 法的核心就是数据安排与数据联邦技术的有机结合。 与联邦数据集成方法相比,当需要对源数据进行复杂转换或清理的时候,更好的 选择就是将数据加载到数据仓库中进行集成。如果复杂的查询是可预测的并频繁重复 的,那么数据仓库集成技术的使用将会更加合理和有效。 北方工业大学硕十学位论文 目前,很多关系数据库一商都声称已建立了数据仓库,但是要真正实现数据仓库 还有许多问题有待解决,例如:如何对数据仓库进行精确和简练,以保证数据质量; 如何实现高效的元数据管理等等”6 l 。 优点:可以集成各种格式的数据,包括有结构、无结构和半结构化的数据。 缺点:需要建立新的数据存储。 3 2 4 几种集成模式的比较 中间件模式是目前比较流行的数据集成方法,它通过在中间层提供一个统一的数 据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一个统一的整 体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数据源之间能映射到 这个中间层。 数据仓库技术则在另外一个层面上表达数据之间的共享,它主要是为了针对企业 某个应用领域提出的一种数据集成方法,也就是我们在上面所提到的面向主题并为企 业提供数据挖掘和决策支持的系统。 联邦数据库系统主要面向多个数据库系统的集成,其中数据源有可能要映射到每 一个数据模式,当集成的系统很大时,对实际丌发将带来巨大的困难。 通过比较并结合电信网管系统实际应用,我们认为在电信网管系统数据集成中采 用基于数据仓库的集成方法比较合适,冈为: l 、电信网管数据比较分散,因此不能够使用联邦数据库的模式进行集成。 2 、虽然基于中间件的数据集成可以避免集成系统的重复开发,降低软件的耦合 度。但是电信网管数据是具有动态临时性的,数据的出现也是随机的。所以仅仅使用 中间件技术不能满足数据在存储上的需求。 3 、作为电信网管数据,最终目的是为前台数据挖掘和数据展现提供统一的数据 平台支持,正好满足数据仓库的特性。 北方工业大学硕士学位论文 3 3 本章小结 本章主要对数据集成的相关概念进行了介绍,数据的异构性是由于历史原因造成 的,数据的异构性主要包括:系统异构、数据模型异构和逻辑异构。异构数据源主要 有已存性、分布性、自治性、和异构性。而异构数据源数据集成需要解决集成后的数 据对用户的透明性、数据的完整性、数据的性能等方面:目前通常采用联邦式、基于 中间件模型和数据仓库等方法来构造集成的系统。 电信网管数据有其自身的特点,下一章将分析电信网管数据源数据的特性并根据 这些特性提出适合电信网管系统的数据集成方案。 北方工业大学硕士学位论文 4 电信网管数据集成需求分析 本章在对电信网管现状,网管数据和目前的网管数据集成方法进行了分析,在此 基础上提出了电信网管数据集成的需求。 4 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年放射科影像诊断解读考试模拟题答案及解析
- 离异父母子女抚养费缴纳及监管协议
- 建设工程项目环境检测技术服务合同补充协议
- 离婚房产处置与子女抚养、教育费用全面执行协议
- 夫妻共同债务处理协议书范本及案例分析
- 慕槿川离婚协议财产分割及子女抚养责任协议
- 金融租赁债权债务三方转让与租赁资产处置协议
- 空白离婚协议书范本编写与婚姻法律风险评估合同
- 婚姻解除后子女抚养费用调整补充协议范本
- 离婚协议书定制模板:股权分配与子女监护权协议
- 视频监控调取记录表
- 第2章 Windows 10操作系统
- 教研活动:幼儿园班级主题墙创设课件
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 酒店住宿水单模板-可修改
- SF-三福的历史与文化 v2.0
- 幼儿园故事《小红帽》PPT模板
- GB/T 6723-2017通用冷弯开口型钢
- GB/T 4456-2008包装用聚乙烯吹塑薄膜
- 葫芦丝(初学教学)-课件
- 李家小学教师绩效考核实施方案
评论
0/150
提交评论