(计算机应用技术专业论文)异构数据源集成技术在udc项目中的应用研究.pdf_第1页
(计算机应用技术专业论文)异构数据源集成技术在udc项目中的应用研究.pdf_第2页
(计算机应用技术专业论文)异构数据源集成技术在udc项目中的应用研究.pdf_第3页
(计算机应用技术专业论文)异构数据源集成技术在udc项目中的应用研究.pdf_第4页
(计算机应用技术专业论文)异构数据源集成技术在udc项目中的应用研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)异构数据源集成技术在udc项目中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 异构数据源集成是实现企业应用集成的关键,是解决网络条件下“信息孤岛”问题的。 效途径。 随着计算机和网络技术的发展,企事业单位都陆续建成一些应用信息系统。由于各部 需求不同,信息系统的建设时期不同、软件开发商不同、选用的数据库系统不同,形成了 。量异构的数据资源,这些资源无法为用户提供跨部门的综合信息,无法实现系统间的信息 享与交换,这也正是目前高等院校信息化建设面临的主要问题。 - 大学数据中心( u d c ) 旨在建设一个中心数据库,通过对异构数据源信息的集成,屏蔽 校各个部门的应用系统在数据模式和语义方面的差异,为全校用户提供一个通用的数据集 平台,保持数据在不同系统上的完整性和一致性。从信息集成的层面解决高校普遍存在的“ 息孤岛”问题。 本文通过对异构数据源集成技术现状的研究及对数据集成的过程、方法进行详细分析 主要针对高校数据中心建设中存在的模式异构、语义异构问题,提出运用非虚拟中间件法 行异构数据源集成问题的解决方案,方案包括以下三个方面: 1 通过建设共享的数据模型,构建大学数据中心,使建成的目标数据库有一个全局自 面向综合应用的数据模式,作为异构数据源有效集成的基础; 2 选择x m l 作为转换语言,定义了一种基于x m ls c h e m a 的集成数据模型( x i d m ) , 为局部模型与共享数据模型之间实现相互转换的中间模式; 3 在教育部统一信息标准的基础上,针对各种语义冲突类型,引入元数据的概念,描 。 统一的信息标准到各数据源语义定义的映射,并制定映射转换规则。 , 本文的研究为解决大学数据中心建设面临的异构数据源集成问题提供了有益的理论依 _ 和实践指南。 关键词:异构数据数据集成模式异构语义冲突映射x m l - a b s t r a c t h e t e r o g e n e o u sd e t as o u r c ei n t e g r a t i o ni st h ek e yi s s u et or e a l i z et h ee n t e r p r i s e a p p l i c a t i o ni n t e g r a t i o n a n di s a f te f f e c t i v ew a yt os o l v e “t h ei n f o r m a t i o ni s o l a t e d i s l a n d ”u n d e r t h en e t w o r kc o n d i t i o n s a l o n gw i t ht h ec o m p u t e ra n dt h en e t w o r kt e c h n o l o g yd e v e l o p m e n t ,c o r p o r a t i o n s a n de n t e r p r i s e sc o n s t r u c t e ds o m ea p p l i c a t i o ni n f o r m a t i o ns y s t e m so n ea f t e ra n o t b e t b e c a u s ev a r i o u sd e p a r t m e n t sh a v ed i f i e r e n td e m a n d s ,t h ei n f o r m a t i o ns y s t e m sa r e c o n s t r u c t e di nd i f f e r e n te r a s ,d i f i e r e n ts o f t w a r ed e v e l o p e r s ,a n ds e l e c t e dd i f i e r e n t d a t a b a s es y s t e m s w h i c ha r er e s u l t e di nh e t e r o g e n e o u sd a t ar e s o u r c e s t h e s er e s o u r c e s a r eu n a b l et op r o v i d et h ec o m p r e h e n s i v ei n f o r m a t i o na n dt or e a l i z ei n f o r m a t i o n s h a r i n ga n dt h ei n f o r m a t i o ne x c h a n g eb e t w e e ns y s t e m s ,w h i c hi sa l s op r e c i s e l yt h e m a i nq u e s t i o nu n i v e r s i t yf a c e sa tp r e s e n t t h eu n i v e r s i t yd e t ac e n t e rr u d c ) i sf o rt h ep u r p o s eo fc o n s t r u c t i n gac e n t r a l d a t a b a s e t h r o u g hi n t e g r a t i n gt h eh e t e r o g e n e o u sd a t a r e s o u r c e s i tw i l ls h i e l d d i f r e r e n c e si nt h ed a t ap a t t e r ua n dt h es e m a n t i ca s p e c to fe a c ha p p l i c a t i o ns 3 ,s t e mi n t h eu n i v e r s i t y , p r o v i d eag e n e r a ld a t aa n di n t e g r a t e dp l a t f o r mf o rt h ee n t i r es c h o o lu s e r , m a i n t a i nt h ed a t ao nt h ed i f i e r e n ts y s t e mi n t e g r i t ya n du n i f o r m i t y , a n ds o l v e ”血f o i i n a t i o ni s o l a t e di s l a n d ”p r o b l e mo fu n i v e r s i t yf r o mi n f o r m a t i o ni n t e g r a t i o nl a y t h i sa r t i c l eb r o u g h tap r o j e c tt os o l v et h ei n t e g r a t i o np r o b l e m so fh e t e r o g e n e o u s d a t ar e s o u r c e st h r o u g hr e s e a r c h i n gt h ei n t e g r a t i v et e c h n o l o g yo ft h eh e t e r o g e n e o u s d a t ar e s o u r c e sa n da n a l y z i n gt h ep r o c e s s e sa n dm e 血o d so fd a t ai n t e g r a t i o n w h i c h u t i l i z e dt h en o n h y p o t h e s i z e dm i d d l e w a r e t h ep r o j e c tm a i n l ya i m sa tt h em o d e l h e t e r o g e n e o u sa n dt h es e m a n t i ch e t e r o g e n e o u sq u e s t i o n sw h i c he x i s ti nt h eu n i v e r s i t y d e t ac e n t e rc o n s t r u c t i o n t h ep l a ni n c l u d e sf o l l o w i n gt h r e ea s p e c t s : t h r o u g hc o n s t r u c t i n gt h es h a r i n gd a t am o d e l ,w eb u i l dt h eu d c t om a k et h e g o a ld a t a b a s eh a v ea l lo v e r a l la n dg e n e r a la p p l i c a t i o nd a t ap a t t e r n ,w h i c hi s t h e f o u n d a t i o no f t h ee r i e c t i v ei n t e g r a t i o no f h e t e r o g e n e o u sd a t ar e s o u r c e s b yc h o o s i n gx m l a st h et r a n s f o r m a t i o nl a n g u a g e w ed e f i n e da l li n t e g r a t i o n d a t am o d e lb a s e do nt h e ls c h e m a ( x i d m ) ,a si n t e r g r a d a t i o nb e t w e e nt h es h a r i n g d a t am o d e la n dt h ep a r t i a lm o d e l u r t i f l e dt h ei n f o m a a t i o ns t a n d a r do nt h ef o u n d a t i o no fm i n i s t r yo fe d u c a t i o n ,i n v i e wo fe a c hs e m a n t i cc o n f l i c tt y p e ,w eu s e dt l l ec o n c e p to fm e t a d a t a ,d e s c r i b e d m a p p i n gf r o mt h eu n i f i e di n f o r m a t i o ns t a n d a r dt os e m a n t i c sd e f t n i t i o no fv a r i o u sd a t a s o u r c e s ,a n dd e f i n e dm a p p i n gt r a n s f o r n l a t i o nr u l e t h i sa r t i c l eh a sp r o v i d e dt h eb e n e f i c i a lt h e o r yb a s i sa n dt h ep r a c t i c eg u i d ef o r h e t e r o g e n e o u sd a t ai n t e g r a t i o np r o b l e m sw h i c hu n i v e r s i t yd a t ec e n t e ra r ef a c i n g k e y w o r d s :h e t e r o g e n e o u sd a t a ,d a t ai n t e g r a t i n g ,m o d e lh e t e r o g e n e o u s ,s e m a n t i c h e t e r o g e n e o u s ,m a p p i n g ,x m l i i 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的 成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内 容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对 本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式 标明。 本声明的法律责任由本人承担。 论文作者签名:日期:旦! :! 型 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属 兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同 意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许 论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学 位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论 文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名: 异构数据源集成技术在u d c 项目中的应用研究 1 1 选题意义 第一章引言 从上个世纪六七十年代开始,各行各业就开始陆续投入资金进行信息化建 设,建立了各种应用信息系统,如:企业资源计划( e n t e r p r i s er e s o u r c e s p l a n n i n g ,e r p ) 系统、客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,c r m ) 系统、人力资源系统、办公自动化系统,电子商务( e - c o m m e r c e ) 平台等等,以适 应企事业单位发展的需要。特别是最近十年来,随着网络技术的发展,各种可供 利用的信息总量以惊人的速率增长。然而,这些相对独立的信息系统是由不同的 开发团队在不同的时期建成的,因此系统所使用的平台、操作系统、数据库系统 都有可能不同,无法有效地提供跨部门、跨企业的综合性的信息,数据不能共享, 这就是普遍存在的“信息孤岛”现象。 近年来,高等院校信息化建设已经取得了令人瞩目的成绩,根据教育部科技 发展中心公布的“高校教育信息化建设与应用水平调查”得出的结果。1 ,目前国 内高校几乎都已建立校园网,其中拥有1 0 0 0 m 主干带宽的高校已占调查总数的 6 4 9 ,2 0 0 5 年一些综合类大学和理工类院校将率先升级到万兆校园网,网络用 户涵盖了教职员工等校内各类人群和无法计数的校外访问者,部分实现了网上办 公、网上管理、网上教学和网上服务。网络遍布校园每个角落,给学校的教学、 生活提供了方便。 但从学校宏观角度而言,这些系统彼此之间都是独立的,很难根据这些系统 提供的信息来辅助学校的决策与管理,信息化建设存在一些普遍存在的、亟待解 决的问题: 第一、信息化建设不连续,缺少体系规划的背景支持,各院系之间的关系相 对松散,难以在更高的层次上进行信息的处理,如信息挖掘、决策支持等。 第二、存在各种类型的业务系统,这些不同时间段由不同人群研发完成的业 务系统间无法实现有效的数据共享,形成了网络环境下的“信息孤岛”。 第三、数据标准不一致,质量良莠不齐,各部门由于对计算机技术、信息技 术的掌握的程度不同,各自应用系统产生的数据质量存在着很大的差异,有些部 异构数据源集成技术在u d c 项目中的应用研究 门起点较高,从一开始依据教育部信息化标准来做,数据的质量较好,而有些部 门根据日常业务,自行建立的套数据标准,数据质量难以保证。 第四、数据的私有性,各个业务部门通过各自的业务系统产生大量的数据, 普遍认为是自己的劳动成果,难以全面共享。 第五、数据重复建设情况严重,在学校诸多的应用系统中,如教职工的个人 信息,学生的个人信息,几乎在每个应用系统中都使用和建设,而每个部门得到 的人员信息都不相同,各部门一般只认可自己的数据,重复建设造成的结果是, 同样的人事数据存在着多个版本,没有一个标准。 面对以上问题,如果考虑将现有系统推倒重来,根据当前的需求重新进行总 体规划,开发一个合乎要求的集成的信息系统,这种方法看似很理想,但实际是 不经济、不科学的,不仅开发费用太高,造成现有资源的巨大浪费,而且也不容 易被用户接受,磨合期很长,况且,需求的不断变化是客观存在的,随着业务的 发展和技术的进步,新的系统又不能满足要求时,就将面临又一次的推倒重来, 这显然是不切实际的做法。 还有一种做法是希望为这些异构的孤立的系统编写专门的接口程序,把它们 彼此联系起来。但是很快就出现了新的问题,这种“点对点”的连接方法,即在 每两个业务系统之间建立专门的接口的解决方法,接口的数目和复杂性,将随着 新应用的增加按几何级数增加,最终新应用和现有系统的集成变得可望而不可 及。 企业应用集成( e n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n ,e a i ) 技术是目前 解决“信息孤岛”问题的有效手段,它可以通过中间件作为粘合剂来连接企业内 外各种业务相关的异构系统、应用以及数据源,从而满足e - c o m m e r c e 、e r p 、c r m 、 s c m 、o a 、数据库、数据仓库等重要系统之间无缝共享和交换数据的需要。1 。一 个完整的e a i 解决方案一般包含五个层面:( 1 ) 用户交互:实现应用用户界面 统一的接入与安全机制,利用门户技术进行构建。( 2 ) 应用连接:通过h u b 或 总线架构,实现应用与应用之间的连接,完成相关的数据路由与数据格式转换。 ( 3 ) 业务流程整合:实现业务流程管理,包括工作流管理和自动化流程两个方 面。( 4 ) 构建整合:这个层面包含两个部分,一部分是构建与现有应用兼容的 新应用,另一部分是对现有资源进行重用以适应新环境的需要。( 5 ) 信息集成: 异构数据源集成技术在u d c 项目中的应用研究 实现数据集成,在异构的数据源之间实现数据层的直接整合。 建设大学数据中心( u d c ) 就是希望通过异构数据源的信息集成,屏蔽学校 各个部门应用系统在硬件平台、操作系统、网络协议和数据源方面的差异,为全 校用户提供一个通用的数据集成平台,保持数据在不同系统上的完整性和一致 性,从信息集成的层面解决高校普遍存在的“信息孤岛”问题。 虽然高等院校与企业是性质完全不同的实体,但是在信息化建设方面他们有 着共同的目标,这使得借鉴企业信息化成果及其数据集成经验成为可能。因此, 我们研究国内外异构数据源集成的相关技术,借鉴企业信息化建设的经验,结合 高等院校特点开展异构数据源集成技术的研究,并将其应用到数据中心建设中, 是十分有意义的工作。 1 2 研究内容 本文通过对国内外数据集成相关理论与成果的分析研究,结合项目实践,主 要做了以下几方面的工作: 第一、认真研究了异构数据源集成的国内外现状,详细分析了异构数据源的 主要特征、集成面l 临的问题以及集成的般过程,并介绍了进行异构数据源集成 的几种方法。 第二、仔细分析了高校信息化的现状,借鉴中国电信信息化的成功经验,提 出建设大学数据中心的背景、意义和目的,并给出数据中心建设中异构数据源集 成问题的解决方案。 第三、提出建设共享数据模型的指导思想和建设目标,并介绍了利用数据库 建模工具p o w e r d e s i g n e r 进行建模的过程。 第四、提出基于x m ls c h e m a 的集成数据模型x i d m 作为异构数据源转换 的中间模型,并详细介绍了利用该模型实现多种数据源之间相互映射,进行数据 转换的方法。 最后,分析了数据中心建设中存在的语义异构的几种情况,通过对教育部信 息化相关标准的研究,结合我校实际,提出基于教育部部颁标准的语义异构问题 的解决办法。 异构数据源集成技术在u d c 项目中的应用研究 1 3 论文结构 本文共分七章。 第一章是引言部分,主要介绍选题的意义、研究的内容及文章的结构;第二 章研究异构数据源集成技术的国内外现状和发展趋势,详细探讨异构数据源的特 性及主要集成过程和方法;第三、四、五、六章是全文的主体,其中第三章提出 高校数据中心建设的目标和异构数据源集成问题的解决办法;第四、五、六章分 别详细阐述第三章提出的共享数据建模、基于x m l 的集成模型设计和语义异构的 解决方案;第七章是对全文的总结及对进一步研究工作的展望。 异构数据源集成技术在u d c 项目中的应用研究 第二章异构数据源集成技术概论 2 1 数据集成的国内外研究现状 数据集成的研究始于七十年代中期,至今已经三十年了。其发展大致可分为 两个阶段。第一个阶段以多数据库系统“1 的研究为主,主要分为两大类,一类采 用物理上分布、逻辑上集中的系统结构,系统有个全局的数据模式,这种系统的 结( 节) 点缺少自治性,难以管理,难以集成。第二类是八十年代中期m c l e o d 等人提出的联邦数据库系统,这是一种逻辑、物理上都分布的结构,每个结点 有自己的联邦模式,而没有唯一的全局数据模式,由于不再受制于全局模式,结 点的自治性得到加强,数据库系统的集成、扩充和重新配置也较为方便和自然。 上述方法都是针对多库系统提出的,仅局限于数据库中数据的集成。 进入九十年代中期,随着计算机网络的普及和w o r l d w i d e w e b ( w w w ) 的出现, 传统的数据集成技术已无法适应人们获取更多更新数据的需要。人们要求数据集 成系统必须具有可扩展性,可以实现数据源的“即插即用”。因此,数据集成的 研究从多库集成转向多数据源集成,进入数据集成研究的第二阶段异构数据 源集成系统。 异构数据源集成系统与多库系统相比,数据集成的范围扩大了。除集成结构 化( s t r u c t u r e d ) 数据外,还需集成来自w e b 等数据源的半结构化 ( s e m i s t r u c t u r e d ) 数据”1 。有些半结构化数据没有独立的结构描述信息( 数据 模式) ,如文本数据,而有些数据虽有结构描述信息,但数据与其结构描述之间 的关系却很松散,如h t m l 文本之类的文档数据。 未来的数据集成研究的热点将是建立一种跨越w e b 信息分布的集成应用逻 辑信息网格( g r i d ) 。信息网格是要利用现有的网络基础设施、协议规范、 w e b 和数据库技术,为用户提供一体化的职能信息平台,其目标是创建一种架构 在o s ( o p e ns e r v e r 开放式服务器) 和w e b 之上的基于i n t e r n e t 的新一代信息 平台和软件基础设旌。在这个平台上,信息的处理是分布式、协作和智能化的, 用户可以通过单一入口访问所有信息”1 。 总之,异构数据源集成的研究处于起步阶段,迄今还没有真正实用的数据集 成系统出现。 异构数据源集成技术在u d c 项目中的应用研究 2 2 异构数据源集成技术 异构数据源集成就是把企事业单位的各个自治并且异构的局部数据源中的 信息有效地集成,实现各个信息子系统间的信息共享,即将信息系统中存在的原 来的信息不一致、缺少数据交换共享的各个自治数据库进行集成,建立主题数据 库,满足全局数据库上的应用需要。数据的异构主要包括数据模式和数据语义上 的异构。数据模式上的异构是指数据在机构和组织上的异构,主要表现在数据类 型定义、数据的标识和聚合方式等方面。数据语义的异构一方面表现在数据的命 名、计量单位、粒度上的差别,另一方面表现在具有不同的完整性、安全性要求。 数据集成的主要任务就是要在全局上屏蔽掉这些差异,使用户看到一致性的和合 理化的数据,用一种统的界面来访问这些数据,从而实现数据的共享和互操作。 2 2 1 异构数据源的特征 异构数据源的特征主要体现在以下四个方面: ( 1 ) 遗留性 在现代企事业单位中,数据是无形的财富,甚至与一个单位的生存息息相关。 因此,各部门都不断地对这些数据进行更新、保存和维护工作。但由于应用的领 域不同、开发年代不同,这些数据总是被保存在不同的数据库或文件系统中遗留 下来,以备新的应用的需要,这就是异构数据源的遗留性; ( 2 ) 分布性 异构的数据源不仅来自多个遗留系统或文件系统,数据源本身也常常是分布 式的,甚至保存在异地的环境当中,这就是数据源的分布性; ( 3 ) 独立性 需要集成的系统都是不同时期、不同的开发商独立设计的,并且各成员数据 库管理系统在集成完成前后始终保持对自己数据库的局部控制; ( 4 ) 异构性 体现在环境的异构、数据模式的异构、语法语义的异构上。 环境的异构是指需要集成的各个数据源的运行环境不同,既可以运行在不同 的硬件平台上,如大型机、小型机、p c 机、嵌入式系统等,也可能运行在不同 异构数据源集成技术在u d c 项目中的应用研究 的系统软件中,如各种版本的u n i x 、m i c r o s o f tw i n d o w s 、d o s 等。 数据模式的异构是指数据在组织和结构上的异构。目前存在关系型数据库、 面向对象数据库、文件系统等不同的数据集合体;而在相同的数据集合体中也存 在不同的数据库管理系统,如关系数据模型中有大型数据库管理系统,如o r a c l e 、 s y b a s e 、d b 2 等,中小型数据库管理系统,如s q ls e v e r 、i n f o r m i x 等,还有桌 面式数据库管理系统a c c e s s 、v f p 等;文件系统中有e x c e l 、w o r d 等:此外,还 有互联网上的h t m l 、x m l 文件等。 语法语义的异构是指数据的命名、计量单位、粒度上的差别,如:同一属性 名具有不同含义、不同数据类型,或不同属性名具有相同含义,以及数据源间的 语法、语义约束等。同时也表现在不同数据源具有不同的完整性、安全性要求。 2 2 2 异构数据源集成须解决的问题 网络环境下,异构数据源集成需要解决的问题很多,归纳起来主要有以下几 个方面: ( 1 ) 保持独立性 每个局部数据源的用户并不能因为集成系统而改变他们的常规操作,即每个 被集成的数据源的局部管理系统应尽可能保持独立性。 ( 2 ) 隐藏复杂性 对于集成系统的全局用户,集成的复杂性应该是不可见的,用户应能选择最 合适的用户接口和查询语言,而不需要知道所使用的数据的来源。 ( 3 ) 保证完整性 异构数据源数据集成的目的是为应用提供统一的数据访问支持。为了满足各 种数据处理的需求,集成后的数据必须保持一定的完整性,包括数据完整性和约 束完整性。数据的完整性是指能够完整地提取原始数据;约束完整性是指数据与 数据之间的关联关系的完整提取。保证完整性就是保证数据本身及数据的逻辑关 系在集成中保持完好,它是良好的数据发布和交换的前提,可以方便数据处理过 程,提高效率。 ( 4 ) 减少语义冲突 数据源之间存在着语义上的差别。这些语义上的不同直接引起各种矛盾,比 异构数据源集成技术在u d c 项目中的应用研究 如命名冲突( 不同的名字代表相同的概念) ,代码冲突( 同样的信息由不同的代 码标示) 。语义冲突会带来数据集成结果的冗余,干扰数据处理、发布和交换。 所以尽量减少语义冲突也是数据集成的一个目标。 ( 5 ) 限制访问权限 由于需要集成的数据库资源本来归属不同的单位( 部门) ,所以如何在访问 异构数据源数据的同时,保障所属数据库的权限不被侵犯,实现对原有数据源访 问权限的隔离和控制,成为连接异构数据资源库必须解决的问题。 ( 6 ) 定义集成范围 多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定 义要集成的范围,也是异构数据源集成必须解决的问题。 ( 7 ) 共享数据模型 由于各数据源采用不同的数据库管理系统或属于非结构化、半结构化的文件 型数据,数据模型上存在的差异较大。建立共享的数据模型来描述整个异构数据 源的数据模式,再将各个异构模型映射到共享数据模型上,是异构数据集成的有 效做法,共享数据模型是实现异构数据的同一化和集中化的基础。 ( 8 ) 查询处理( 包括对数据的增、删、改、查) 用户所需的数据在物理上分散存储于各局部数据源,这些数据源包括数据库 系统、电子表格、h t m l 文件等,各种数据源提供的查询能力各异,有些数据源 仅支持对其内容的简单扫描,例如h t m l 文件;有些数据源支持利用布尔表达式 的简单查询,例如e x e c l 的文本检索;而有些数据源却能支持诸如投影、选择、 连接等的复杂操作,例如关系数据库系统。因此异构数据源系统需解决查询处理 能力不一致的问题。 2 3 异构数据源集成的过程 异构数据源的集成通常包括四个步骤:数据提取、数据清洗、数据转换,数 据加载与刷新。 2 3 1 数据提取 对于从异构数据库中提取数据多采用o d b c 和j d b c ,他们是用来在数据库系 异构数据源集成技术在u d c 项目中的应用研究 统之间存取数据的标准应用程序接口,使数据库系统具有很好的开放性,数据格 式转换也很方便。另一种提取数据的方法是针对不同的数据库系统编写接口程 序,这样可提高数据的提取速度,例如,s t a n f o r d 大学的w h y s 数据仓库原型系 统”3 提出在每个数据源上建立一个捆绑器,数据库上的捆绑器用c 语言编写,以 实现数据的提取和格式转换。对于从w e b 服务器提取数据可采用标准的j d b c 接 口,对于从不同的文件系统提取数据则需要分别编写相应的接口程序。 2 3 2 数据清洗 来自多个数据源的数据由于源头多,关系复杂,因此数据的质量参差不齐, 数据间的标准也不一致,需要对数据进行清洗,清除脏数据( d i r t yd a t a ) 。一般 脏数据包括错误的、不一致的及没有用的数据,包括下面几种情况。3 : ( 1 ) 同一数据源内的结构型脏数据。指那些违反数据模式及完整性约束的 数据,比如属性值超过值域范围的数据,属性的依赖关系被破坏的数据等; + ( 2 ) 同一数据源内的实例型脏数据。指那些数据本身的值发生错误和矛盾 的数据,比如值的缺失、重复、错误等情况; ( 3 ) 多数据源之间的结构型脏数据。指各个数据源之间的数据结构不一致 的现象,比如属性的命名冲突( 包括同义异名、同名异义等) ,表示方法不同的 结构冲突等; ( 4 ) 多数据源之间的实例型脏数据。指那些存在于不同数据源中的重复数 据和相互矛盾的数据。 对于结构型脏数据的清洗,需要建立统一的数据模型,定义统一的完整性、 安全性约束,解决语法语义冲突的问题。对于实例型脏数据则需建立数据有效值 与重复值核查机制,一般通过软件方式实现。 清洗的步骤是:首先分析脏数据类型、数量,然后定义转换规则,为清洗提 供标准,并经过试验性转换以验证其效果,最后执行转换。经过清洗的数据为进 一步的数据集成做好了准备。 2 3 3 数据转换 数据转换是异构数据源集成的关键环节,如何实现分布的异构的数据源间的 异构数据源集成技术在u d c 项目中的应用研究 数据转换或各个局部数据源到全局数据库的数据转换是目前研究的热点。主要的 数据转换方式及其优缺点: ( 1 ) 使用数据库自带工具进行转换 一般情况下,数据库管理系统都提供将外部文件中的数据转移到本身数据库 表中的数据转入工具。比如o r a c l e 提供的将外部文本文件中的数据转移到 o r a c l e 数据库表的数据装入工具s q ll o a d e r ,p o w e r s o f t 公司的p o w e rb u i l d e r 中提供的数据管道d a t ap i p e li n e 等,s q ls e r v e r2 0 0 0 中的数据转换服务( d t s ) 提供了一套图形化工具和可编程对象,以解决数据移动问题,其中包括将数据从 分散的数据源中提取出来,并且转换、合并到一个或多个目标位置。 这些数据转移工具可以灵活地进行数据转换,而且由于它们是数据库管理系 统本身所附带的工具,执行速度快,不需要o d b c 支持,使用较方便,但是它的 缺点是必须运行该数据库产品的前端程序才能运行相应的数据转化工具,操作步 骤多,且多以手工方式进行,并且严格限制了目的数据库的类型。 ( 2 ) 使用独立软件进行转换 除了数据库系统本身自带的转换工具外,近年来,业界也开发出一些功能强 大的独立转换工具,基本可以实现多种数据库之间相互的数据转换,在数据转换 过程的各个环节可以通过数据计算功能,实现高效、复杂的数据计算、转换功能。 能充分读取关系数据库中的数据和机器中的各种格式的数据,并提供图形化的转 换过程设计功能,使得我们无需掌握任何数据库方面的技能,只需通过简单的配 置,就可以实现所需要的转换功能。比如通用数据转换工具d b p u t 就具有良好、 可靠的性能。 这种方法简单易行,但是它的缺点是只能在数据库之间实现转换,对半结构 化数据无能为力。 ( 3 ) 使用中间数据库的转换 对于大型数据库,可以借助小的桌面数据库,如a c c e s s ,来进行转换,即 在实现两个数据库之间的转换时,依据关系定义、字段定义,从源数据库中读出 数据通过中间数据库转入目标数据库中。 这种转换方法,扩展性强,但是实现过程比较复杂,转换质量不高,转换过 程长。 l o 异构数据源集成技术在u d c 项目中的应用研究 ( 4 ) 设置传递变量的转换 借助数据库应用程序开发工具与数据库连接的强大功能,通过设置源数据库 与目标数据库两个不同的传送变量,同时连接两个数据库,实现异构数据库之间 的直接转换。这种方法在现有的数据库系统下扩展比较容易,转换速度和质量大 大提高,但实现过程非常复杂。 2 3 4 数据加载与刷新 数据经过清洗与转换后,装入目标数据库的过程叫做数据加载,对于数据库 进行不同时段的更新称为数据刷新。 2 4 异构数据源集成的主要方法 2 4 1 传统方法 异构数据源集成的传统方法是将一个数据源里的数据经过清理和格式转换 后加入另一个数据源,使用户访问本地数据库就能得到另一个数据源的数据,如 数据管道、数据复制等。 这种方法处理简单,己为大多数用户理解和接受。许多数据库管理系统d b m s 都自带有一些数据转换程序,也为用户提供了方便。缺点是数据冗余大,当数据 更新时会带来不同步的问题,即使人工定时运行转换程序也只能达到短期同步, 并且数据的完整性、一致性无法保证,不适合那些数据量大、更新频繁的场合。 是一种低效益的解决方案。 2 4 2 中问件法 目前比较常见的异构数据源集成方法是利用中间件集成异构数据库,该方法 并不需要改变原始数据的存储和管理方式。中间件位于异构数据库系统( 数据层) 和应用系统( 应用层) 之间,向下协调各数据库系统,向上为访问集成数据的应 用提供统一的数据模式和数据访问的通用接口。各数据库的应用仍然完成他们的 任务,中间件系统则主要集中为异构数据源提供一个高层次的检索服务。显然, 异构数据源集成技术在u d c 项目中的应用研究 中间件系统模式是实现异构数据集成较理想的鳃决方案。根据被集成的数据源结 合的紧密程度又可分为两种:一种为紧密耦合方法,另一种为松散耦合方法。 紧密耦合的数据源集成方法建立在数据库模式集成之上,它通过定义一个概 念模型或元模型来实现聚合,将各应用系统的局部数据库模式转换到一个统一的 模式上,这样建立的集成系统具有一个集成的全局模式,就像一个单一的数据库 一样。 紧密祸合方法的优点在于,它允许用户象使用一个集中的数据库一样透明地 访问各异构的、自治的、分布的数据库,数据的集成度较高。缺点是:实现这 方法花费较大,每当现存的成员数据库模式发生变化或一个新的成员数据库加入 到系统中,就必须重新生成一次全局模式,使得维护全局模式十分困难。紧密耦 合的方法适用于成员数据库较多,数据源变动不是很频繁的环境。较常见的紧密 耦合的数据集成方法有虚拟数据仓库( 虚拟中心数据库) 技术、数据库访问网关 技术、多数据库系统技术等。 松散耦和的异构数据源集成方法将集成的任务交给各成员系统,集成系统提 供一套工具,使各成员系统可使用工具将数据库的内容和结构加入到集成系统。 松散耦和方法对数据的集成度不高,但更新成员数据库时非常灵活,集成系 统不须维护一个全局模式:而且对原有应用系统不必加以任何改造,各应用系统 可在原模式下运行,自治度高。它的缺点是对成员用户的要求较高,成员用户必 须了解所使用的数据库的内容和结构,或者用户有数据库专家的支持才行。松散 耦和的方法适用于成员数据库不定,数据变动比较频繁的场合。较常见的松散耦 和的数据集成方法有基于消息中间件的集成代理、w e bs e r v i c e s 等。松散耦和 方法是未来异构数据源集成的趋势。 中间件法也被称为虚拟集成法,集成系统只是提供虚拟的集成视图和对该集 成视图的查询处理机制,系统能够自动地将用户对集成模式的查询转换成对各异 构数据源的查询,因为虚拟数据集成不需要存储数据,并能保证查询到最新的数 据,因此比较适合于高度自治,集成数量多,且更新变化快的异构数据集成。其 缺点是需要维护一个全局模式,当数据源模式发生变化时,维护全局模式比较困 难。 2 异构数据源集成技术在u d c 项目中的应用研究 2 4 3 数据仓库法 与“虚拟法”相对应的数据仓库法是一种物理数据集成方法。它通过 e t l ( e x t r a c t 、t r a n s f o r ma n dl o a d 。提取、传输、加载) 工具将数据搬迁到数据 仓库,在集成系统中,数据仓库位于客户端与数据源之间,用来存储来自各数据 源中的待集成数据,系统提供对数据仓库的查询机制。这种方法的优点是包含历 史数据,相对稳定,查询响应速度快。数据仓库存在的问题是,当数据源中的数 据变动频繁时,要从数据仓库中查询到最新的数据,需要定时更新数据仓库,时 效性差,维护数据仓库的代价很高。 2 4 4 非虚拟中间件法 非虚拟中间件法是针对虚拟集成法提出的。它既不同于传统方法,不是简单 的数据复制或迁移;也不同于虚拟的中间件法,它不是只建立一个全局的数据模 式,和一个逻辑上集中的数据库,通过通用的访问接口来实现对集成数据的访问, 而是要建立一个物理上集中的数据库,可以提供对系统的综合业务支持:而且不 同于数据仓库的传输与加载方式。它依靠一个中间的集成转换模型实现异构数据 源与中心数据库的数据交换,这个转换模型位于异构数据源与数据中心之间,支 持各种数据结构间的自由转换。这种方法虽然没有虚拟法轻便、灵活的优点,但 是比较易于实现,而且性能稳定,适合数据标准化程度要求高,对目标数据库的 查询要求比较复杂的情况下使用。 本文在解决数据中心建设中的异构数据源集成问题时,使用的就是非虚拟中 间件法。 异构数据源集成技术在u d c 项目中的应用研究 第三章u d c 及其异构数据源集成解决方案 “信息孤岛”现象的普遍存在,迫使高等院校急切地寻求解决问题的出路。 高校和企业虽经营目的大相径庭,但却有着同样的信息集成需求,不少企业在效 益目标的驱动下,信息化发展水平远远超过高校,多采用最先进的技术来支持自 身的业务拓展,借鉴企业信息化成果及其数据集成经验会大大加快高校信息化步 伐,帮助高校解决数据集成的难题。其中电信企业是各个行业中发展相当快的一 个典范,我们试从分析中国电信近年来的发展历程来总结其在信息集成方面的宝 贵经验。 3 1u d c 的产生背景 中国电信是中国最大的基础网络运营商之一,拥有世界上最大的固定电话网 络,服务遍及国内3 1 个省市和世界2 0 0 多个国家和地区,多年来,围绕着生产 运营和职能管理中国电信先后建设了计算机综合业务管理( 9 7 ) 、计费帐务、客户 服务( 1 0 0 0 0 号、1 7 0 、1 1 4 等) 、网络资源管理、网络管理、办公自动化( 0 a ) 、财 务等系统。截至2 0 0 4 年1 1 月,中国电信的用户数已达到1 8 8 亿“。 然而近几年,在信息技术革命和经济全球化的推动下,世界电信业发生了巨 大的变化,发展和变革的浪潮席卷全球。随着国内电信企业的相继上市,国际电 信企业的不断进入,国内电信行业的竞争也趋于白热化。中国电信面临着来自资 本市场、行业竞争、客户需求、模式转换、决策风险等多方面的压力与挑战。“信 息孤岛”的形成,严重制约着企业的进一步发展。 中国电信在2 0 0 2 年着手制定了企业信息化战略规划( i t s p i 0 ) ,2 0 0 4 年, 又组织编制了c t g m b o s s ( 中国电信集团管理业务运营支撑系统,c h i n a t e l e c o mg r o u pm a n a g e m e n t b u s i n e s s o p e r a t i o ns u p p o r ts y s t e m ) 系歹0 规范, 以更好地指导其进行企业信息化建设。 中国电信c t g m b o s s 体系架构从多方面借鉴了国际电信管理论坛的n g o s s ( 新一代运营支撑系统与软件) 标准规范。其功能架构重点参考e t o m 业务过程 框架“,技术架构比照t n a 技术中立架构“,数据架构借鉴s i d 共享信息模型“”, 以这些为基础形成的业务、技术、测试规范体系从整体上考虑了c o m p 遵从性测 异构数据源集成技术在u d c 项目中的应用研究 试的要求。“。 可以看出,中国电信近年来致力于接轨国际标准,全面借鉴n g o s s ,为实现 信息数据的集成,解决“信息孤岛”的问题提供了很好的思路。 n g o s s 所关注的工作流程自动化、信息与数据的共享、应用系统( 包括遗留 系统) 的集成等问题,也是高校教育信息化研究的主要内容。因此我们借鉴n g o s s 的研究成果,结合高等教育的特点,按照中国电信建设c t g m b o s s 的思路,提出 构建大学管理支撑系统u m s s ( u n i v e r s i t ym a n a g e m e n ts u p p o r ts y s t e m ) “, 以解决高校存在的类似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论