(计算机科学与技术专业论文)公路客运异构数据集成系统研究与实现.pdf_第1页
(计算机科学与技术专业论文)公路客运异构数据集成系统研究与实现.pdf_第2页
(计算机科学与技术专业论文)公路客运异构数据集成系统研究与实现.pdf_第3页
(计算机科学与技术专业论文)公路客运异构数据集成系统研究与实现.pdf_第4页
(计算机科学与技术专业论文)公路客运异构数据集成系统研究与实现.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(计算机科学与技术专业论文)公路客运异构数据集成系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

m a s t e ro fe n g i n e e r i n g b y w a n g z h i m i n ( c o m p u t e rs c i e n c ea n dt e c h n o l o g y ) t h e s i ss u p e r v i s o r :p r o f e s s o r z h a n g w e i s h i j u n e2 0 1 1 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文“公路客运异构数据集成系统研究与实现 。除论文中己 经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以 明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发 表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名:殛 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全 文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式出版发 行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于:保密口在年解密后适用本授权书。 不保密口( 请在以上方框内打“ ) 论文作者签名:导师签名: 日期:彻7 年 胁 伊沁 7 ( 、 月 中文摘要 摘要 随着计算机网络技术的迅速发展,企业在信息化建设过程中,需要有很多的 信息管理系统来维护企业数据。由于企业间以及企业内部各部门问的相对独立性, 造成了构建系统数据的分布性、自治性和异构性。随着企业竞争的目益激烈,独 立的数据库信息已经满足不了商业机构对复杂业务的需要,迫切需要将这些单个 的数据系统有机地联系起来,实现信息共享,以提高企业的运作效率。因此,异 构数据集成技术变成了企业在管理信息数据中的重要组成部分,其通过解决跨平 台、多应用、多结构的数据集成,可以把企业内部之间以及企业间的相关数据资 源进行有效整合,为企业的决策提供支持。所以怎样有效地对异构数据进行集成 也成为在计算机领域里一个重要的研究课题。 本文在分析总结国内外研究成果的基础上,对异构数据集成技术进行了深入 研究。首先简要介绍了异构数据集成技术的相关理论,仔细分析了目前主流的异 构数据中间件的模型。然后详细研究了本课题提出的x m l 通讯机制,设计了异构 数据集成中间件的四级模式结构以及相互转换过程,设计了x m l 格式与数据库合 理的映射规则,并给出具体应用实例展示了二者转换,以实现x m l 格式标准化。 最后,本文借鉴目前主流的异构数据集成技术的设计思想,对大型公路客运系统 进行总体框架与功能模块的设计。使用东软集团的u n i e a p 2 0 开发环境和j a v a 语 言实现了异构数据集成统一查询语言的方法,以及公路客运系统各个模块的功能, 并通过具体实例验证了其有效性、实用性。 实践证明,以u n i e a p2 0 的表现层、业务逻辑层、持久层三层架构体系的设 计方案不仅解决了异构数据集成的应用问题,而且具有数据源易扩展,系统维护 性强的特点,能够满足客户浏览器的实际需要,实现了真正意义上的公路客运信 息分析,在企业数据整合和分析中发挥了重要的作用,并带来了很好的收益。 关键词:异构数据集成技术;坦l ;三层架构体系;公路客运系统 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r kt e c h n o l o g y ,t h ee n t e r p r i s en e e d s t oh a v eal o to fi n f o r m a t i o nm a n a g e m e n ts y s t e mt om a i n t a i ne n t e r p r i s ed a t aw i t ht h e p r o c e s so ft h ei n f o r m a t i o nc o n s t r u c t i o n b e c a u s eo ft h er e l a t i v ei n d e p e n d e n c ea m o n g e n t e r p r i s e sw i t h i n t h ee n t e r p r i s e ,i tr e s u l t si nab u i l d i n gs y s t e md a t ad i s t r i b u t i o n , a u t o n o m ya n dh e t e r o g e n e i t y w i t h t h ei n c r e a s i n g l yi n t e n s ec o m p e t i t i o ne n t e r p r i s e , i n d e p e n d e n to ft h ed a t a b a s ei n f o r m a t i o nh a sf a i l e d t om e e tb u s i n e s si n s t i t u t i o n st o c o m p l e xt h en e e d so ft h eb u s i n e s s ,s ot h e r ei s t h eu r g e n tn e e dt op u tt h e s ei n d i v i d u a l d a t as y s t e m sr e l a t e do r g a n i c a l l ys h a r i n gi n f o r m a t i o na n di m p r o v i n gt h eo p e r a t i o n a l e f f i c i e n c yo fe n t e r p r i s e s t h e r e f o r e ,h e t e r o g e n e o u sd a t ai n t e g r a t i o nb e c o m e s a ni m p o r t a n tc o m p o n e n to ft h ee n t e r p r i s ei nm a n a g i n gi n f o r m a t i o nd a t a ,i t c a nr e l a t e dd a t a r e s o u r c e so fe n t e r p r i s e si n t e g r a t ee f f e c t i v e l yt h r o u g hs o l v i n gd a t ai n t e g r a t i o nw h i c hi s c r o s s p l a t f o r m ,m u l t i p l ea l l e g i a n c ea n dm u l t i p l es t r u c t u r ef o re n t e r p r i s e s d e c i s i o ns u p p 。 o r t s oh o wt oe f f e c t i v e l yt ot h ei n t e g r a t i o no fi tb e c o m e sa ni m p o r t a n tr e s e a r c hs u b j e c t b a s e do nt h ea n a l y s i so ft h er e s e a r c ha c h i e v e m e n t sa th o m ea n da b r o a d ,t h e h e t e r o g e n e o u sd a t ai n t e g r a t i o nt e c h n o l o g yw a sd e e p l ys t u d i e di nt h i sp a p e r f r i s t l y ,t h i s p a p e ri n t r o d u c e d t h er e l a t e dt h e o r yo fi t ;s e c o n d l y ,d e t a i l e d l yr e s e a r c h e do nx m l c o m m u n i c a t i o nm e c h a n i s m sa n dg i v e nt h ex m l f o r m a ta n dd a t a b a s em a p p i n gr u l e si n o r d e rt or e a l i z et h ex m ls t a n d a r df o r m a t f i n a l l y ,b a s e do nt h ed e s i g nt h o u g h to f p r e s e n th e t e r o g e n e o u sd a t ai n t e g r a t i o n t e c h n o l o g y ,t h i sp a p e rd e s i g n e d t h eo v e r a l l f r a m e w o r ka n df u n c t i o nm o d u l e so ft h eh i g h w a yp a s s e n g e rt r a n s p o r ts y s t e m u s i n g u n i e a p2 0d e v e l o p m e n te n v i r o n m e n ta n dj a v al a n g u a g er e a l i z e dq u e r yl a n g u a g e m e t h o do ft h eh e t e r o g e n e o u sd a t ai n t e g r a t i o na n dv e r i f i e di t sv a l i d i t yp r a c t i c a l i np r a c t i c a l ,t h r e el a y e rs t r u c t u r es y s t e ms o l u t i o n so fu n i e a p2 0w h i c ha r e p r e s e n t a t i o nl a y e r ,l o g i c a ll a y e ra n dp e r s i s t e n tl a y e rn o to n l ys o l v e dt h ep r o b l e mo f t h e h e t e r o g e n e o u sd a t ai n t e g r a t i o na p p l i c a t i o n s ,b u ta l s oh a de a s y t oe x p a n d ,s y s t e mw i t h d a t am a i n t e n a n c es t r o n gc h a r a c t e r i s t i c s k e yw o r d s :t h eh e t e r o g e n e o u s d a t ai n t e g r a t i o n ;x m l ;t h r e el a y e rs t r u c t u r e ; t h eh i g h w a yp a s s e n g e rt a n s p o r t s y s t e m 目录 第1 章绪论。1 1 1 课题背景。1 1 2 国内外研究现状综述2 1 3 本文的主要研究工作3 1 3 1 研究目标3 1 3 2 研究内容4 1 3 3 拟解决的关键性问题5 1 4 本文的组织结构5 第2 章异构数据集成技术6 2 1 异构数据集成技术介绍6 2 1 1 异构数据集成的概念与特点。6 2 1 2 异构数据集成的关键技术8 2 2x m l 技术9 2 2 1 x m l 技术介绍9 2 2 2x m l 技术与数据库1 0 2 3 基于x m l 模式映射冲突的解决策略1 1 2 4 本章小结1 2 第3 章企业异构数据集成系统的整合设计1 3 3 1 全局模式和局部模式的设计。1 3 3 1 1 四级模式结构1 3 3 1 2x m l 与数据库模式的映射机制1 5 3 1 3 异构数据集成流程2 2 3 2 全局查询处理器的设计2 2 3 2 1 全局查询语言的概念2 2 3 2 2 全局查询语句分解流程2 3 3 3 包装器的设计2 4 3 3 1 局部模式的实现过程2 4 3 3 2 查询语句转换过程k 2 5 3 3 3 数据模式转换过程2 6 3 4 集成处理器的设计2 7 3 5 本章小结2 7 第4 章公路客运系统的架构与功能设计 4 1 系统需求分析2 9 4 2 总体框架设计3 0 4 3 功能模块设计3 1 4 3 1 基础管理模块设计3 2 4 3 2 营运管理模块设计3 3 4 3 3 售票管理模块设计3 4 4 3 4 结算管理模块设计3 4 4 3 5 报表管理模块设计3 5 4 3 6 系统管理模块设计3 6 4 4 工作流程3 6 4 5 本章小结3 7 第5 章公路客运异构数据集成系统的开发与实现3 8 5 1 开发环境概述。3 8 5 1 1 集成开发环境u n i b 蟑2 0 3 8 5 1 2 系统开发框架与配置3 8 5 2 异构数据集成系统的实现4 0 5 2 1a p a c h ec x f 框架简介。4 0 5 2 2w e b s e r v i c e 服务实现原理4 1 5 2 3 异构数据集成系统的整合实现。4 2 5 3 x m l 与数据库映射机制的实现4 6 5 4 客户端用户界面的开发与实现4 8 5 4 1 实时班次信息查询模块的实现4 8 5 4 2 临时加班模块的实现5 3 5 4 3 临时班次停班复班模块的实现5 4 5 4 4 临时顶班模块的实现5 6 5 4 5 实时班次保留座位模块的实现5 7 5 5 报表管理的设计与实现5 9 5 6 本章小结6 1 第6 章总结与展望6 2 6 1 论文总结6 2 6 2 下一步工作展望。6 3 参考文献6 4 6 7 研究生履历6 8 公路客运异构数据集成系统研究与实现 第1 章绪论 1 1 课题背景 随着计算机网络技术的迅速发展,企业在信息化建设中,需要有很多信息系 统来管理企业中的数据但这些系统由于业务需求和职能定位的不同,以及各部 门的建设化管理和信息数据的阶段性、技术性等因素的影响而使数据相互隔离, 因此,企业内部的数据便带有明显的异构性、分布性和自制性。然而在许多情况 下,企业已不能满足于系统仅能提供局部业务的数据,而是越来越迫切需要实现 分布在网络上各数据源数据的共享,以便提高企业的运作效率。所以,为了保证 企业内部及企业间的信息共享、维护和管理,就必需实现对分布在异构数据源的 数据进行一种统一操作的方法。 异构数据在这些异构数据源中都按照各自规定的方式存储和操作。对于结构 化、半结构化和非结构化的数据源,它们的存储方式和操作方式都有一定的差异, 许多的异构数据源系统被分布在各个网络节点中,而它们大多都是是相互独立的。 因此,异构数据源的分布性、异构性和自治性等特点同样也存在于异构数据的应 用中【l 】。分布性是指通信通过网络来实现,将异构数据存储在彼此可相互通信的多 个场地中;异构性是指异构数据存储在不同的环境当中,并具有各自的数据模式; 自治性是指每个数据源不受其他系统的限制和影响,其存储的数据都可独自地被 应用程序访问。因此,异构数据的三个主要特点是分布性、异构性和自治性,通 过这些特点的相互结合,使企业对需求的异构数据源进行统一管理,从而确保异 构数据的时实性、完整性和一致性。因此,异构数据集成系统的优点是能够将这 些异构的数据集成起来,企业利用异构数据集成系统可使企业内部的相关数据资 源进行统一、有效的整合,并呈现给用户统一的查询界面。因此,异构数据集成 技术受到越来越多企业的青睐,并成许多人的研究方向。 本论文是基于东软集团交通事业部下的一个大型公路客运系统的开发研究, 该系统是为上海二十三家汽车客运站需求设计,确保二十三家客运站在世博会期 间同时上线的稳定性、实时性。本论文着重对企业异构数据进行处理研究,这其 第1 章绪论 中包括两大方面:一是针对企业内部以及企业与客户 成,通过中间件m e d i a t o r 将异构数据进行统一查询、 家汽车客运站需求设计,参与研发一个大型公路客运 究,保证上线期间每日上万条大规模即时数据的稳定 度上解决了异构数据库集成的命名异构、类型异构以 现有异构数据源进行有效管理。 1 2 国内外研究现状综述 随着企业信息化浪潮的涌来和对异构数据集成技术的迫切需要,企业互相之 间和企业内各部门的数据、信息整合技术研究引起了国内外各大组织研究机构的 广泛关注。 目前,国内外已经研究出一些技术相对成熟的异构数据集成系统,其中,具 有代表性的有如下几个f 2 1 : ( 1 ) i p e d o l p e d o 3x m li n f o r m a t i o nh u b 是一个强大的x m l 信息平台,为 一个全套的服务级软件产品。企业能够利用这x m l 信息平台方便地集成各个分散 系统,实现统一管理各系统信息,并且能及时地展现个性化信息。 ( 2 ) t s i m m i s 是斯坦福大学研制的一种自描述数据模型o e m t 3 1 ( o b j e c t e x c h a n g em o d e l ) 的公共数据模型,其视图定义语言( m s l ) 可以将异构数据库中 数据转换成o e m 模型来集成,这样便可以灵活地处理数据的异构性、分布性。采 用o e m 模型的好处是对异构数据可以实现跨语言来解决集成问题,对异构数据没 有其它限制,但其缺点是转换成o e m 数据时程序主要靠人工编写,这样编程任务 比较繁重。 ( 3 ) n i m b l e l t 4 1 是在一个数据包装器基础上,使异构数据源数据转换成x m l 文 档,以便在源数据上建立统一视图查询。该系统的工作原理是基于用户界面输入 的查询语句转化为对x m l 文档的查询语句( x m l 广q l ) ,从而对x m l 文档进行 查询,最终将x m l 文档的查询结果传递给用户界面,完成对不同数据源数据的统 一查询【5 1 。 公路客运异构数据集成系统研究与实现 ( 4 ) d h a r m as y s t e m t 6 1 公司的e u n i f y 产品是一套异构信息联合使用的解决方案, 该e u n i f y 产品的目的是提供一个全套的统一观点的应用服务器,创建一个三层结 构的应用模型。d h a r m ai n t e g r a t o r 是e u n i y 的核心产品,它主要负责提供全部信息 源的统一视i 茎t ( u n i f i e dv i e w ) ,再通过工业标准接口和普遍的应用服务器连接,在 d h a r m ai n t e g r a t o r t 7 】内部会有多套软件分别于不同类型的异构数据源相关联,如: d h a r m aa p p l i n k s l 关联s a p ,a s 4 0 0 等用户应用系统;d h a r m al e g a c y l i n k t g l 关联 继承数据库v s a m ,i s a m 等;d h a r m ar e l a t i o n a l l i n k 1 0 l 与现有的各种关系数据库 关联;d h a r m ad a t a l i n k t l l l 与客户私有数据源关联。 d h a r m ai n t e g r a t o r 1 2 - 1 5 1 是在完成统一视图范围之内包含数据的复杂操作,它可 以预定信息源和应用程序之间的信息数据传递规则,在内容上具有路由作用,并 且还具备逻辑统一视图的一部分全局操作所必须的功能。 ( 5 ) v e r s a t i l e 1 6 】是东南大学的一种基于c o r b a 的可拓展的异构数据集成系统 模型。此模型是在i o n a 公司的o r b i x 产品的基础上,对s o ls e r v e r 、v e r s a n t 、 文本系统、超文本数据进行集成。 通过对上述异构数据集成系统的分析,可以看出目前主流的集成系统在不同 方面、不同程度上都有一定的特性与弊端。为此,在总结当前异构数据集成系统 的基础上,本论文设计并实现了基于w e b s e r v i c e 的异构数据集成系统,对企业现 有数据源进行统一管理,并且在这基础上对大型公路客运系统进行研发,确保大 规模数据有效性、实时性。 1 3 本文的主要研究工作 1 3 1 研究目标 本文主要研究目标是在企业公路客运系统上,对异构数据进行有效集成。一 方面重点研究通过m e d i a t o r w r a p p e r 这种异构数据集成中间件以及数据库包装器, 将数据的异构性、自治性,及统一查询处理有效结合,确保了数据的高效性、透 明性和可扩展性,从而对异构数据集成进行统一的数据管理;另一方面在这异构 数据集成的基础上,研发一个大型公路客运系统,并确保数据的有效性、实时性。 第1 章绪论 1 3 2 研究内容 ( 1 ) 首先为公路客运系统设计一个异构数据集成公共模型,其体系架构为图 1 1 所示。 j乌面涅 l 应用程序 1 , z 了 。 7 i 基于m b s e 丌i c e 的异构数据集成中问件 中阆 件层 一。 l l 、s 砚服务总线 同一 i 呈务层 0 一: 、- 一 数据层 底层敦据库一底层数据库 -一 - 一 一 图1 1 异构数据集成系统体系结构 f i g 1 1h e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e ms t r u c t u r e 在这四层结构中,应用程序为系统的表示层,用来为用户提供统一的查询界 面;中间层将系统的业务逻辑封装起来,构建在数据层和应用程序之间,作用是 将异构数据通过转换统一为一个x m l 格式,提供数据集成的业务服务,完成异构 数据集成操作;网络层作用是通过w s d l 服务总线为中间层和数据层提供连接服 务;而各个异构数据库则构成了系统的数据层1 1 7 - 1 s 】。 ( 2 ) 定义系统的统一查询语言,处理数据结构、命名等的转换问题。 ( 3 ) 对公路客运系统进行总体框架与功能设计。 ( 4 ) 研发一个大型公路客运异构数据集成系统。 ( 1 ) 考虑局部模式与全局模式转换问题。即将来自异构数据源中的数据通过 中间件转换成集成系统能处理的统一的x m l 格式,解决转换工程中的冲突问题。 ( 2 ) 定义系统的统一查询语言返回查询结果。用户输入统一的查询条件,通 过包装器将统一的查询语言分解成各自的数据源能接受的查询语句,查询数据。 ( 3 ) 在研发公路客运系统时对实时数据进行有效处理,确保系统对实时数据 进行有效处理,同时对系统进行优化,从而提高大规模数据运行效率。 1 4 本文的组织结构 本论文共分为六章: 第一章,绪论。首先介绍了本论文的研究背景及研究意义,然后深入分析了 国内外研究现状,最后给出了本文的研究目标、内容和组织情况。 第二章,异构数据集成技术相关理论。对异构数据概念、x m l 技术及其集成 方案的相关理论进行了详细的介绍,为下文的论述奠定理论基础。 第三章,对异构数据集成系统进行详细的架构设计以及流程概述。介绍异构 数据的四级模式结构,每个模式的作用以及贯穿模式过程中的查询处理器和包装 器的设计,对异构数据集成系统进行了深入的理论研究。 第四章,公路客运系统总体框架设计及功能设计。针对系统需求分析,对系 统总体框架以及功能进行设计。 第五章,公路客运异构数据集成系统的实现与举例应用。先介绍异构数据集 成过程以及具体实现案例,然后在异构数据集成基础之上实现公路客运系统研发 过程与实际应用。 第六章,总结与展望。总结本文的工作,针对本文的不足之处,提出了下一 步的工作展望。 第2 章异构数据集成技术 第2 章异构数据集成技术 异构数据集成是软件工程领域研究的热点,该集成技术通过中间件转换可以 实现统一查询返回相应结果。论文采用基于w e b s e r v i c e 的异构数据集成方式, 解决企业异构数据集成问题。本章从数据的异构性开始介绍,详细介绍了异构数 据集成关键技术以及x m l 技术与数据库间的转换关系,最后介绍了基于x m l 模式映射冲突的解决方法。 2 1 异构数据集成技术介绍 2 1 1 异构数据集成的概念与特点 企业应用集成【怫2 0 l ( 蹦) 可以将业务流程、应用软件和硬件以及各种标准 联合起来,实现了不同的企业应用程序之间的无缝集成,整体进行业务处理和信 息共享。数据集成是e a i 的一种重要方式,是指将各种不同的数据源集成起来, 为用户提供一个统一的视图,这里的视图可以是实际的,也可以是虚拟的。数据 集成是一种中间件 2 1 - 2 4 1 ( m i d d l e w a r e 或m e d i a t o r ) ,它可以使应用程序访问各种分 布的、结构不同的数据源,就诸如访问单一数据源一样,以统一的方式访问。数 据集成屏蔽了数据源的差异性,可以为数据和内容源提供实时的读和写,并能变 换这些数据,用来进行商业分析和数据交换。 数据异构性分为系统、语法、结构以及语义四大方面。系统级异构是指主机、 操作系统以及网络的异构;语法级异构体现为数据类型、格式的不同;结构级异 构是指数据结构、接口和模式的差异1 2 5 五7 1 ;而语义级的异构是指在某些领域内专 用词汇意义不同。异构数据集成涵盖多种计算机技术,例如分布式对象技术, x m l ,面向对象技术以及数据库技术等。 ( 1 ) 分布式对象技术主要包括:m i c r o s o f t 公司的c o m d c o m t 2 8 1 标准,s u n 公司的j a v ar m i t 2 9 1 ( j a v ar e m o t em e t h o di n v o c a t i o n ) 标准和o m g ( o b j e c t m a n a g e m e n tg r o u p ) 标准。这些技术在组织企业内部的管理信息系统应用中具有 很高的效率,但是当它被用于建立基于互联网的分布式异构系统应用集成时,却 不是一个很好的选择。 公路客运异构数据集成系统研究与实现 ( 2 ) x m l 技术:本论文主要运用x m l 技术对异构数据集成,具体内容介 绍将在2 2 节叙述。 ( 3 ) 面向对象技术及数据库技术 3 0 l :基于面向对象技术能够把异构环境下的 数据和对数据的操作合并为一体。数据库技术包涵数据模型技术,数据的查询和 优化技术以及数据的表示和描述等。数据集成应具备分布的透明性和异种数据源 的透明性。其中,分布的透明性也可以指分布的独立性,它包括以下两方面: 位置透明性( 即位置独立性) ,就是用户不需知道数据的物理存储地,就比 如所用数据都是本地存储数据p 。 分布式存取透明1 3 2 1 ,作用是网络上的任意数据都可处理,就好像它们存储 在本地服务器上一样,系统需要对其管理存取控制。 从以下两个方面可以体现异构数据源的透明性 3 3 - 3 4 】: o d b m s 不同通用数据之间的透明性; ( g ) d b m s 不同的通用数据和非通用数据之间的透明性。 目前异构数据集成的方式主要有三种:数据仓库、联邦式和中介器法。 ( 1 ) 数据仓库法【3 5 】 数据仓库作用是使各个不同数据源的异构数据都备份存储存在一个的数据 库中。这类结构将全部数据源的异构数据都被提取出来,集成到一个全局模式, 同时存取于数据仓库中,对于用户来说这与普通的数据库系统没有太大差异。数 据仓库提供用户对原始数据的读取,也可以利用数据仓库支持的统一数据接口查 询决策支持。其优点是原本分散的应用系统仍然在独立运作,并不会影响原有的 应用架构,可以集成多种数据源以及复杂的商业规则,数据集成质量好。而它的 不足之处是:数据仓库中的数据在存储之前必须经过筛选处理过程,数据仓库如 果因为不及时更新,更新不能反映到基本数据源中,就不会准确反映查询结果, 不允许用户对数据仓库进行更新操作。 ( 2 ) 联邦数据库系统 3 6 1 联邦数据库系统( f e d e r a t e dd a t a b a s es y s t e mr o b s ) 的核心组成部分是参与联 邦的半自动的数据库系统,其目标是完成数据库系统间大多数据的共享。f d b s 分为紧耦合以及松耦合两种情况,紧耦合是静态的,提供统一的访问模式,在增 第2 章异构数据集成技术 加数据源上有较大难度;而松耦合则不具备统一的接口,但可以通过统一的语言 访问数据源。数据源是独立的,通过数据源之间的数据交换格式进行一一映射, 任何一个数据源可以访问其它数据源提供的信息。这种方法的特点是工作量大, 扩展性差,但比较简单,集成系统的数据模式统一,不需要考虑分布数据的转化 和统一。但它存在一个问题:f d b s 中将每个数据库模式分别和其它所有数据库 模式实现一一映射时实现互操作最常用的方法,当联邦的数据库比较多时,连接 映射规则的使命就会十分艰巨( 当n 值很大时,在联邦里就需构建n x ( n 1 ) 个映射 规则) 。这就需要十分长的研发时间去建立这种集中式的系统,并且对主机设备 性能要求较高,实现成本较高。因此在数据库数量不多情况下,异构数据采用 f d b s 方法集成可以适用,而客运系统数据源的量很大,所以不考虑这种体系结 构。 ( 3 ) 中介器法【3 7 】 中介器法又称为w r a p p e r m e d i a t o r ,中介器法支持虚拟数据库,用户可以对 这个虚拟数据库进行查询操作,就像它已经物化( m a t e r i a l i z e d ) 。m e d i a t o r 没有存 储任何自己的数据,而是将用户的查询转换成一个或多个对数据源的查询,然后 m e d i a t o r 综合处理每个数据源的查询结果,并使结果反馈给用户。这种方法并没 有将每个数据源的数据统一存储,而是基于m e d i a t o r w r a p p e r 架构体系提供上级 的集成应用条件。虽然m e d i a t o r w r a p p e r 中间件技术完成了数据更新的需求,补 充了数据仓库技术的不足之处,但因为每个数据源的w r a p p e r 要独立构建,所以 异构数据源的w r a p p e r 构建问题再一次给开发者提出了新的任务。 本文考虑到公路客运领域所用到的异构数据库,大多数为分布式关系数据 库,而且数据更新频繁。鉴于以上对数据集成三种体系结构的分析对比,认为最 适合客运数据集成平台的是m e d i a t o r - w r a p p e r 体系结构。用户可以通过中介器提 供的全局视图进行查询,不需要知道所查询数据的位置和结构;统一查询经过解 析、分解以及重写等步骤,经过包装器的数据转换,中间结果通过组装操作,将 全局结果返回给用户。 2 1 2 异构数据集成的关键技术 对于实际运行的系统来说,有许多因素都可能导致数据库系统之间的差别, 中,数据格式 由于异构数据源集成系统仍有一些难题没有完全解决( 如语义冲突的消解, 查询的优化等) ,国外研发的系统大部分都具有实验特性或者是基于具体的开发 项目以及应用,商业价值的产品为数不多( 如i b m 的d a t aj o i n e r ) ,但是都不十分 成功。 异构数据集成系统的研究核心目前都集中到中介器上,不管采用哪种框架体 系,异构数据集成技术所需解决的关键问题可体现在如下三个方面: ( 1 ) 提供一个集成系统的公共模型,表示来自各个数据源的不同数据,从而 方便统一管理; ( 2 ) 将来自各数据源的不同数据转换为统一格式,实现异构数据转换问题, 便于迸一步处理集成系统; ( 3 ) 定义公共模型上的基本运算。如果采用中介器法,还需要实现公共模型 上的操作到各数据源操作的自动转换。 2 2x m l 技术 2 2 1 x m l 技术介绍 x m l 即为“可扩展的标识语言 s s l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,是_ l 、- j 新发展起来的面向i n t e r n e t 应用的置标语言,它是于1 9 9 8 年由w 3 c ( w o r l dw i d e w e dc o n s o r t i u m ) 组织制定的一组通用规范。它定义了一套语义标记规范,这些 语义标记可以使文档分割成很多部件并将其标识。对于x m l 首先要介绍s g m l 和h t m l 。s g m l 是指“通用标识语言标准 1 3 9 ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ) ,是国际上定义电子文件结构及内容描述的标准。同x m l 相比,s g m l 的用途很广泛,但是它不适合用在w e b 数据描述中,并且s g m l 软件价格很昂 贵。h t m l 即“超文本标识语言 ( h y p e r t e x tm a r u pl a n g u a g e ) ,它比较适合w e b 页面的开发。但它的标记相对少,只有固定的标记集,不具备s g m l 的灵活性 和适应性。x m l 将s g m l 和h t m l 二者结合,取长补短,使其在w e b 应用中 既能利用s g m l 的优点,又保留了h t m l 的简单性。x m l 可以看成是s g m l 的 的 或 其 w 吉 兀 数据库应用领域中,x m l 技术有很大的潜力,近年来基于x m l 的数据库应用 已成为一个热门话题,并且涌现了一些关联产品。 接下来从三个方面来论述x m l 与数据库的关系【4 1 4 3 l 。 ( 1 ) x m l 数据源 x m l 数据源种类繁多,根据具体的应用,可分为三种:关系型数据库、x m l 纯文本文档( 如邮件、目录清单) 以及来自于其它不同应用数据。 ( 2 ) x m l 模式与关系模式的互相转化 r d m s x m l - r d m s 的互相转化,可以实现异构数据库间的通信。比较x m l 的关系模型与数据模型的特性,可以归结为二者转化的实质是: 第一,x m l 中的数据( 存储方式包括属性名、属性值等) 到关系模式中字段 的映射; 第二,x m l 中数据的关联位置关系到元组和元组与字段的关系在关系模式 中的映射。 ( 3 ) x m l 数据库 x m l 数据库有两类m l :一类是“n a t i v e x m l 数据库 ,将x m l 以初始格 式储存,基于x q l 可以查询几个x m l 文件,其查询结果返回一个节点集合, 并封装在根元素( s q hr e s u l t ) ,此节点集合同样为一个x m l 文件;另一类是 “x m l - e n a b l e d 数据库 ,以x m l 格式导入和导出。x m l 提供了一种连接关 系数据库和面向对象数据库等其他数据库系统之间的访问技术,也就是说我们可 公路客运异构数据集成系统研究与实现 先访问面向对象数据库、关系数据库等其它数据库系统,然后生成x m l 文件, 再对文件进行数据存储或其它处理。鉴于x m l 在阐述数据方面的优势,x m l 与数据库的合成所实现的功能会更强大。 数据库与x m l 技术间的映射规则主要有两种【4 5 1 :基于表的映射( t a b l e b a s e d m a p p i n g ) 以及基于对象的映射( o b j e c t - b a s e dm a p p i n g ) 。这两种映射都可以实现在 x m l 文档和数据库之间转换数据。 它们的主要区别是基于表的映射简单,转换出来的x m l 文档格式单一,和 关系表类似,若要将单一的x m l 格式转换成复杂的格式,还需要x s l t 转换语 言。而基于对象的映射功能强大,可以根据需要转换成各种格式的x m l 文档。 2 3 基于x m l 模式映射冲突的解决策略 模式( s c h e m a l 4 6 1 是针对实际数据的具体描述,反映出一些数据库的结构模 型、属性特征以及联系各约束,其作用是描述异构数据源中存储的是何种类型数 据和数据之间的关系。本文所说的模式是用来说明数据源中的数据逻辑组织方 式,诸如在s q l 数据库中,任一个表的定义都是一个模式,它描述的是这个表 中的属性名、属性的排列顺序、属性的域、主键以及外键等主要信息。 由于大多数数据源系统都是独立开发的,描述数据的数据模型可能会存在差 异,这样在通过不同数据源模式组合成全局模式时会变得困难。以关系数据库为 例,即使是相同的数据模型,也很难区分出在这两个不同的数据库中两个模式所 描述的数据是相同的。 基于x m l 的映射规则以x m l 作为数据转换的标准,将通过模型与模式映 射的方式相结合以完成模式集成。利用连接全局模式与局部模式间的映射方式, 以完成数据源视图到全局视图的转化作为此方法的目标【4 7 1 。 本文所涉及的公共模式有两种:全局视图和局部视图。全局视图体现的是集 成系统的元数据全局信息,并允许访问人员访问数据。局部视图体现的是每个数 据源共享数据的元数据信息,并成为全局视图的数据基础。它通过实现统一的 x m l 格式来消除在数据模型上每个数据源的不同,而且限制了访问人员对每个 数据源的访问范畴,从而对每个数据源提供安全作用,所以局部视图在数据集成 中是一个重要的构成部分。经过视图合成器集成,每个数据源的局部模式成为了 第2 章异构数据集成技术 全局视图的构成部分。从专业设计角度出发,首先需要设计一个全局视图,使其 能够符合异构数据集成的系统需求。消除数据源之间的模式异构是j i f 页n 获得面向 用户需要的全局模式的关键

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论