(计算机应用技术专业论文)基于xml的数据库交换技术研究.pdf_第1页
(计算机应用技术专业论文)基于xml的数据库交换技术研究.pdf_第2页
(计算机应用技术专业论文)基于xml的数据库交换技术研究.pdf_第3页
(计算机应用技术专业论文)基于xml的数据库交换技术研究.pdf_第4页
(计算机应用技术专业论文)基于xml的数据库交换技术研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 信息系统在现代社会已经深入到各行各业中,在各自的位置上发挥着重要的作用。随着 网络技术的发展,使得基于网络的资源共享成为可能,几乎每一个大中型公司和许多小型的 公司,都越来越依赖于计算机化的信息。信息的共享改变了人们的传统工作方式,企事业之 问,以及企事业内部的各个部门之间,可以通过信息共享的方式加强合作,从而提高工作效 率。但是现在的问题是,由于原有信息系统开发环境和方式的独立性,形成了信息系统之间 的数据和信息的异构性,很难进行通信和资源的共享,从而形成了一个个信息孤岛,成为困 扰企业信息建设的主要问题之一。随着信息产业的蓬勃发展,由信息共享带来的不一致性, 冗余等问题越来越突出。很多企业的信息化程度越高,信息孤岛就越多,信息共享所面临的 问题也就越尖锐,这确实是一个挑战,是一个急需要解决的问题。 异构数据集成,将系统内部和外部的不同结构的数据资源进行整合,是企业进行资源共 享和实现产品数据管理( p o m ) 、企业应用集成( e a i ) 、企业资源规划( e r p ) 的技术基础。传统 的方法是建立统一的数据模型,对异构数据提供统一的表示、存储和管理的方法,以此来提 供统一的操作。虽然它能整合企业各种相关数据资源达到数据集成的目的,但是成本较高、 过于复杂、难于维护,而且实现起来也有很大的难度。当前,实现异构数据集成的主流方式 是通过网络进行数据交换,使用中间件来实现系统的松耦合集成。 针对目前在这方面研究的不足,本文提出了一种基于x m l 的数据交换技术:即利用x m l 作为中间件来对各种数据进行集成。将数据交换分为相对独立且相互关联的三个部分:即数 据提取、数据映射和数据加载。其中数据提取负责将源数据库中的数据迁移到数据交换文件 中:数据映射负责通过中间文件将源交换文件转换成目标交换文件;数据加载负责将目标交 换文件中的数据迁入到目标数据库中去。文中提出了完整的系统结构图,详细的对它的原理, 三个部分对应的数据提取工具、数据映射工具、数据加载工具结合图形进行了详细说明。最 后结合实际对如何应用系统进行了阐述。 随着信息化的逐步推进和信息量的飞速膨胀,数据集成的范畴会越来越广,对各种数据 进行集成的要求也会越来越迫切。论文的开题来源于大庆石油管理局实际的项目,因此具有 重要的理论和实际价值,希望对课题的研究能对异构数据集成的发展贡献微薄之力。 关键词:异构数据,数据集成,交换集,实例,公共表,模板,变量 a b s t r a c t n o w a d a y st h e n f o r m a t i o ns y s t e mi su s e di na l m o s te v e r yt r a d ei no u rs o c i e t ya n dp l a ya v e r yi m p d r t a n tr o l e w i t ht h ed e v e l o p m e n to fi n t e r n e ti tb e c o m ep o s s i b l et h a tt h ei m f o r m a t i o n c a nb es h a r e di nw e b a 1 m o s te v e r yl a g e s c a l e ,m e d i u m s i z e da n ds m a l lc o m p a n yb e c o m em o r ea n d m o r ed e p e n d i n go ni t t h ei n f o r m a t i o ns h a r i n gc h a n g et h ew o r k i n g - w a yo fp e o p l e ,t h ee f f i e i e n c y a n dc o l l a b o r a t i o no fw o r kb e t w e e ne n t e r p r i s e si sp r o m o t e da n ds t r e n g t h e n e dt h r o u g ht h i sw a y b u t t h e r ei sap r o b l e m ,b e c a u s ef o r m e ri n f o r m a t i o ns y s t e mw a sb u i l ti n d e p e n d e n t l yi nd i f f e r e n t w a y ,t h ed a t aa n di n f o r m a t i o nb e t w e e ni n f o r m a t i o ns y s t e m sish e t e r o g e n e o u s ,s oc o m m u n i c a t i o na n d r e s o u r c e s h a r i n ga p p e r s h a r d t h er e s u l ti st h e r e a p p e a r s al o to f s i n 9 1 e i n f o r m a t i o ni s l a n d ,w h i c hh a sb e c o m eo n eo ft h em a i np r o b l e m si ne n t e r p r i s ei n f o r m a t i o nw i t h t h ev i g o r o u sd e v e l o p m e n to f t h ei n f o r m a t i o ni n d u s t r yb ys h a r i n gi n f o r m a t i o na b o u tt h e i n c o n s i s c e n e i e s r e d u n d a n c yi s s u e sa r eb e c o m i n gm o r ea n dm o r ep r o m i n e n t m a n ye n t e r p r i s e i n f o r m a t i o n i z a t i o nt h eh i g h e r ,t h em o r ei s o l a t e di s l a n di n f o r m a t i o n ,i n f o r m a t i o ns h a r i n ga n d t h ep r o b l e m sf a c i n gt h em o r ea c u t e ,i ti sac h a l l e n g e ,a nu r g e n tp r o b l e mn e e dt ob es o l v e d t h ed a t ao fv a r i o u sc o n s t r u c ti n t e r n a la n de x t e r n a lo n es y s t e mc o u l db ei n t e g r a t e db y i n t e g r a t i o no fh e t e r o g e n e o u sd a t a s o m ei m p o r t a n te n t e r p r i s e a p p l i c a t i o n ,s u c ha sp 删、e a i 、 e r pa n ds oo n ,d e p e n do nt h ei n t e g r a t i o nv e r ym u c h t r a d i t i o n a lm e t h o di st oe s t a b lis hau n i f i e d d a t am o d e lt op r e y i d eau n i f i e dd a t ai s o m e r i z a t i o nu n i ts a i d s t o r a g ea n dm a n a g e m e n tm e t h o d s i no r d e rt op r o v i d eau n i f i e do p e r a t i o n a 1 t h o u g hi tc a ni n t e g r a t ev a r i o u se n t e r p r i s ed a t a r e s o u r c e sr e l e v a n tt ot h ep u r p o s eo fd a t ai n t e g r a t i o n ,w h i c hi sn o to n l yc o s t ,t o oc o m p l e xa n d d i f f i c u l tt om a i n t a i n ,b u ta l s oh a v eg r e a td i f f i c u l t ya c h i e v i n gt o g e t h e r a tp r e s e n t ,g e n e r a l l y i n t e g r a t i o no fh e t e r o g e n e o u sd a t ai st h r o u g ht h en e t w o r kt oe x c h a n g ed a t a ,t h eu s eo fm i d d l e w a r e t oa c h i e v es y s t e ms o n g o u h ei n t e g r a t i o f f b e c a u s eo ft h el a c ko fr e s e a r c hi nt h isa r e a ,t h i sa r t i c l ep u tf o r w a r dad a t ae x c h a n g eb a s e d o nd i lt e c h n o l o g y :i n t e r g r a t i n gv a r i o u sd a t ab yt h eu s eo fx m la sam i d d l e w e e d a t ae x c h a n g e isb ed i v i d e di r i t er e l a t i v e l yi n d e p e n d e n ta n dt h r e ei n t e r r e l a t e dc o m p o n e n t s :d a t ae x t r a c t i o n , d a t am a p p i n ga n dd a t al o a d i n g d a t ae x t r a c t i o ni s b er e s p o n s i b l ef o rt h ee x t r a c t i o no fs o u r c e d a t a b a s em i g r a t e dt ot h ed a t ae x c h a n g eo fd o c u m e n t s ;d a t am a p p i n gi sb er e s p o n s i b l ef o r t h e e x c h a n g e o fd o c u m e n t st h r o u g ht h em i d d l e d o c u m e n t s c o n v e r t e di n t og o a l se x c h a n g e o f d o c u m e n t s :d a t a o a d i n gi m p o r t sd a t ai nt h et a r g e te x c h a n g ef i l ei n t ot a r g e td a t a b a s e t h ea r t i c l e d u t sf o r w a r dc o m p l e t es y s t e mc h a r t ,d e t a i l e di t sp r i n c i p l e s ,t h et h r e ep a r t so ft h ec o r r e s p o n d i n g d a t ae x t r a c t i o nt o o l ,d a t am a p p i n gt o o ,d a t al o a d i n gt o o li n c l u d i n gc h a r t s f i n a l l yt h ea c t u a l e l a b o r a t e do nh o wt oa p p l i c a t i o n s w i t ht h eg r a d u a la d v a n c eo fi n f o r m a t i o nt e c h n o l o g ya n dt h er a p i de x p a n s i o no fi n f o r m a t i o n a n dd a t ai n t e g r a t i o nw i l li n c r e a s i n g l yb r o a ds c o p eo ft h ev a r i o u sd a t ai n t e g r a t i o nr e q u i r e m e n t s w i11b e c o m ei n c r e a s i n g l yu r g e n t t h ea r t i c l e st i t l ec o m e sf r o ma c t u a lp r o j e c t ,a n dt h e r e f o r e h a sa ni m p o r t a n tt h e o r e t i c a la n dp r a c t i c a lv a l u e n o d e s tm e a n si sb ee x p e c t e dc o n t r i b u t et o t h ed e v e l o d m e n to fi s o m e rjz a t e dd a t ai n t e g r a t i o nt h r o u g ht h ea r t i c l e sr e s e a r c h k e y w o r d s :i s o m e r o u sd a t a ,d a t ai n t e g r a t i o n ,e x c h a n g es e t s ,i n s t a n c e ,p u b l i ct a b l e ,t e m p l a t e , v a t j a b l e 大庆石油学院硕七研究生学位论文 第一章概述 计算机自诞生以来,被大量用于数据处理工作之中。由于在选择数据处理系统时,存在时 间和空间上的差异,使得人们使用的数据源千差万别,相应的产生了数据集成的问题。随着 计算机应用技术的快速发展,对异构数据进行集成已成为一个不可回避的问题,人们逐渐提 出了各种数据集成方法。在此对数据集成问题与相关的技术内容进行回顾。 1 1 问题的提出 计算机软件技术发展的初期,单独的计算机只能处理本地的数据。计算机之间并不具备 互相通信的能力,确切地说还不存在数据和资源共享的要求。而在企业中传统的计算机应用 主要是代替一些孤立的、体力性质的工作环节,根本没有考虑数据的集成。这种情况下,驻 留在一个个单机中的数据,彼此之间无法进行沟通和数据共享。同时,计算机软件厂商间技 术和市场份额的竞争,使得各软件系统的数据格式、数据处理方式及数据显示方面存在着差 异,软件系统的数据异构,成为计算机软件先天性无法回避的顽疾。 随着计算机应用的普及,计算机与计算机软件已经渗透到国防,国民经济,日常生活的 每一个领域。对于企业而言,企业信息化建设势在必行,以此完成企业业务自动化和信息化 的转型。但是,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和 人为等因素的影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括 采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企 业的异构数据源。更为糟糕的是,这些异构数据源,分布在企业的不同业务地区或者是部门 中。严重的数据分布性,在整个企业中形成了一个个异构的信息孤岛。 互联网技术的快速发展,促使新型的基于信息技术的管理理念的生成。e r p ,c r m ,s e m 等 都需要集成的可共享的企业数据环境。此时在信息化建设过程中,那些分散的不同业务数据 管理系统虽然能够满足业务数据存储和管理要求,但在许多情况下,这些管理系统已经开始 制约企业的数据共享进程,不能满足信息、数据高度一致共享的需要。 为了消除信息化建设中产生信息孤岛的失误,数据集成已经成为企业进一步发展所必须 面对的问题。数据集成不仅架起信息孤岛之间的桥梁,同时又是企业内部和企业间应用集成与业 务流程集成的基础。因此,要想达到信息化的最高境界一信息的充分共享,数据集成是必由 之路。 1 2 数据集成相关概念 数据间异构是计算机软件技术快速发展和软件厂商间市场竞争的结果。互联网络的普及, 使得数据资源共享成为一个热门话题。同时,企业经营管理的理念的转变,更加依赖于基于 信息技术的经营模式,异构数据集成技术前所未有地受到企业和计算机软件厂商的重视。异 构数据和数据集成是理解和研究异构数据集成技术的两个基本概念。 异构数据异构数据是一个含义丰富的概念,数据异构主要表现在四个方面:1 ) 、计算机 体系结构的异构各个参与的数据库可以分别运行在大型机、小型机、工作站、p c 或嵌入式系 统中。2 ) 、基础操作系统的异构各个数据库系统的基础操作系统可以是u n i x 、w i n d o w sn t 、 l i n u x 等。3 ) 、 f i b s 本身的异构异构数据库系统可以由同为关系型数据库系统的o r a c l e 、s o l 第一章概述 s e r v e r 等,如关系、模式、层次、网络、面向对象,函数型数据库共同组成。4 ) 、数据模型 的异构包括不同的模型和相同的模型间不同的版本等带来的异构。本文主要讨论的是第4 种 异构,即由数据模型引起的异构。 数据集成数据集成是对各种异构数据提供统一的表示、存储和管理,这些功能在异构数 据集成系统中实现。数据集成屏蔽了各种异构数据源间的差异,通过异构数据集成系统对不 同数据源的数据进行统一操作。因此集成后的异构数据对用户来说是统一和无差异的。 数据集成的需求由来已久,对数据集成系统的研究一直是数据管理研究领域及其相关领 域的一个非常热门的话题。对数据集成问题研究的逐渐深入,不断地提出新的技术解决方法。 1 3 数据集成框架 数据集成的一般框架分为两种,数据仓库法和虚拟法( 中介法) “1 。对于数据仓库法,事先 将各数据源的数据加载到一统一的数据仓库中,然后所有的数据操作都针对数据仓库中的数 据进行。这种体系结构的优点是,数据操作功能实现简单;数据仓库中存储的是备分散的数 据源的副本,当各数据源数据发生变化时,必须修改数据仓库中的数据。因此这种虚拟方式 的缺点是各数据源数据的实时性较差和数据的冗余存储。但是使用这种框架结构在一些对实 时要求不高或者各数据源数据变动不频繁的情况下,不失为一种好的选择。 虚拟法采用与数据仓库法完全不同的结构,数据仍保持在各数据源中,集成框架只提供 一虚拟的数据集成视图,和对该数据集成视图进行数据操作的机制。虚拟法避免了数据冗余 存储的问题,同时虚拟法不需要事先复制数据,能够保证数据的时效性,但是同时增加了数 据统一表示和操作实现的复杂性。虚拟方法更适合于处理数据源数量较大、数据变化频繁、 集成系统对数据源没有控制的情况“。许多异构数据集成的实现技术,都是基于虚拟集成框架 提出的。在下一节中,将比较详细地对这些技术进行介绍。 1 4 数据集成方法 实现异构数据集成的方法分为基于模式和基于中阏件两种。 1 4 1 基于模式的集成方法 模式集成指的是将各个数据库中的信息在逻辑上用同样的概念模式表示以形成一个统一 的异构数据库,达到数据共享的目的”1 。模式集成可分为基于全局模式、基于视图和基于联邦 数据库系统的三种方法。 全局模式中每个参与集成的数据库有自身的局部概念模式,用户可以通过建立在局部概念 模式上的局部外模式访问本地库。在所有局部概念模式的基础上建立了全局概念模式,用户 通过建立在全局概念模式上的全局外模式访问集成系统中的其他数据库。 基于视图的方法中,集成视图被定义成虚类的集合,这些虚类定义了一个视图模式,他 们的虚对象则构成虚数据库。生成集成视图时先建立空的集成视图,然后各个异构的数据库 将自身想要参与集成的类( 即共享信息) 输入到集成视图中,集成系统通过语法、语义的分 析解决各输入类之间的冲突,并进行类的派生操作,从而建立适宜于数据共享的集成视图。 基于视图的集成技术最典型的应用是数据仓库系统。通过在数据仓库之上建立共享数据的集 成视图,从而为上层数据操作提供同一的数据表示。 联邦数据库系统( f d b s ) ,提供了一种组织、访问和更新菇享信息的逻辑方法,联邦数据 大庆石油学院硕士研究生学位论文 库系统是多个自治的成员数据库系统的集合,同时实现它们之间的数据共享与互操作。在大 多数情况下,联邦数据库系统是异构的,各成员数据库系统可能有不同的数据模型、查询语 言、并发控制、事务处理机制、安全策略等,另外,联邦数据库可能有自己的联邦数据模型, 联邦数据库不能直接操作成员数据库。成员本身也可以是联邦数据库,一个数据库可以是多 个联邦数据库系统的成员数据库o ,。 基于模式的集成方法,在实际的应用中,人们采用的实现方法是建立基于全行业或全企 业的统一的概念模型,这样的模型一般比较庞大,这不仅增加了实现的难度,在管理、维护、 保持灵活性等方面都存在大量问题,女n p o s ce p i c e n t r e ,p p d m 等。 1 4 2 基于中间件的集成方法 中间件是完成异构数据源集成的关键,中间件负责屏蔽各数据源的差异,为上层应用提供 统一的数据操作界面。基于中间件的集成方法应用在三层结构的基于虚拟法的集成框架中。 根据发展的历史分为如下几种: 1 最通用的o d b c 方法 o d b c 最初是由制定u n i x 标准的x o p e n 财团和s q la c c e s sg r o u p 提出的。m i c r o s o f t 是 o d b c 的实现者。o d b c 使用层次的方法来管理数据,即在数据库通讯结构的每一层对可能出现 产品依赖的地方都引入一个公共接口以解决潜在的不一致,具有良好的数据独立性,因此得 到了广泛的应用。 2 通用数据访问结构( u n i v e r s a ld a t aa c c e s sa r c h i t e c t u r e ) 它是m i c r o s o f t 公司继o d b c 后推出的新一代的数据访问组件,是m i c r o s o f t 公司的d n a 架构 ( w i m o w sd i s t r i b u t e di n t e r n e ta p p l i c a t i o na r c h i t e c t u r e ) 的一个中心部分,提供了 w i n d o w sd n a 应用的数据访问服务。通用数据访问结构实际上是一组软件组件,这些组件之间 通过o l ed b 定义的一组共同的系统级界面进行互操作。o l ed b 是它的核心。 3 分布式中间组件 九十年代以来,分布对象组件技术( d o c ) 到了迅速的发展,随着研究的深入和应用的日益 广泛,d o c 形成了两个阵营,一个是m i c o r s o f t 公司,使用d c o m 技术;另一个是o m g 组织,使 用c o r b a 技术。d c o m 是组建对象模型c o m 的进一步扩展。c o m 定义了组件和客户之间的相互作用 方式,它使得组件和客户端之间无需任何中介组件就能相互联系。客户可以通过组件对象提 供的接口直接访问组件中的方法。d c o m 技术只适用于w i n d o w s 平台,现在虽然在u n i x 平台上有 了一定的扩展,但效果仍不理想。但是,因为它和w i n d o w s 都是微软的产品,因而可以和操作 系统紧密相关,从而大大提高了它的运行效率。 c o r b a 是o m g 的对象管理体系结构中的一个关键组成部分,利用它用户可以在异种平台上 开发分布式面向对象应用,而不必考虑各种平台的细节和差异。目前已经有很多家公司开发 了基于c o r b a 的应用。c o r b a 的跨平台能力非常优秀,但正因为此,所有与操作系统之间的交 互必须通过中介代理进行,这使得它的运作效率不如d c o m 。它们的运作结构非常相似,都采 用远程进程调用的方式,进行操作的请求和结果的应答。 d c 0 m 和c o r b a 都采用包装的思想,以统一的接口的方式向外提供调用,并且二者也都实 现了对对象的透明访问,这就对数据集成提供了极大的便利。可以利用d c o m 或c o r b a 将对源 数据进行操作的部分进行统一的包装,而后就可以很容易的在此之上建立集成模块,对包装 过的数据进行集成,再提交给用户。 4 x m l 中间件 x m l 中间件集成方法是利用x m l 相关技术,将x m l 文件作为集成层的数据描述载体,通过转 换来实现对异构数据的集成。 第一章概述 在以上基于中间件的集成方法中,目前较为流行的是基于分布式中间组件的方法和基于 x m l 的中间件的集成方法。 1 ,5 本课题研究内容 软件系统提供的各种业务功能是以数据处理为中心的。软件系统对业务数据处理的方式 有数据的采集、数据的存储、数据的表现、数据的转换等。计算机技术的高速发展和企业内 及企业间的业务的需求,使异构数据集成成为必须。本文采用基于x l v l l 中间件的集成方法来 研究异构数据库的集成,研究的主要内容包括: ( 】) 数据交换系统介绍数据交换系统总体结构和工作原理,对其中部分内容做了简单 阐述。 ( 2 ) 源数据库中数据的提取介绍数据提取工具,数据提取的四条重要原则及如何生成 源交换文件等。 ( 3 ) x m l 文件的转换介绍数据映射工具,讨论如何将源交换文件转换成目标交换文件。 ( 4 ) 目标数据库中数据的加载介绍数据加载工具,讨论目标交换文件中数据加载到目 标数据库的方法。 ( 5 ) 数据交换系统的应用从数据库连接方法、配置信息和事务日志等方面介绍如何应 用数据交换系统。 1 6 课题研究的意义 通过对本课题:基于x m l 的数据库交换技术的研究将使得大批量的数据可以自由的在两 种异构数据库中进行迁移,为软件系统应用数据打下可靠的基础,确保整个软件系统内部功 能的一致性和运行时的可靠性,以及系统的可扩展性,从而延长软件系统的生命周期。因此 对数据库交换技术的研究将有助于数据集成的发展,使异构数据库间的集成成为可能。同时 它将促进数据库、数据仓库、虚拟数据库及其它一些相关领域的发展,加速中国的信息化进 程。 1 7 论文的组织方式 本论文一共分为六章,按照论文研究的内容进行组织。第一章概述部分,介绍异构数据 集成产生的背景,相应技术的发展现状和特点,并且阐明了课题的研究内容和意义。第二章 数据交换系统,集中介绍了其体系结构、在解释各部分功能的同时给出了数据交换系统的工 作原理。最后介绍了数据集成中间件、数据存放格式和模式信息。第三章第五章对基于x m l 的数据库交换系统进行详细的介绍。其中第三章源数据库中数据的提取,通过原理图和程序 运行示意图对数据提取工具进行了介绍。详细讨论了数据提取的四条重要原则,l 文件中数 据的存取方法和g e n e r a l 字段图片数据的处理方法。第四章x m l 文件的转换,介绍了数据映 射工具的原理,数据库模式信息的生成以及模式信息文件中模式信息的提取。重点对映射建 模、映射模板文件以及通过它转换x m l 文件的具体方法进行了详细讨论。第五章目标数据库 中数据的加载,简单介绍了数据加载工具原理图,讨论了煳l 文件的解析方法、数据加载的 原理、最后分析了数据交换效率。第六章数据交换系统的应用,为更好的应用数据交换系统, 就如下方面进行了介绍:数据库的连接方法( 特别介绍了o r a c l e 简易客户端的安装方法) 、 系统辅助信息,如系统配置信息、事务日志等。最后对课题的研究现状进行了总结。 大庆石油学院硕士研究生学位论文 1 8 本章小结 本章解释了异构数据集成技术发展的必然性,与之有关的基本概念,异构数据集成的相 关技术的发展状况和特点。介绍了对本课题:基于x m l 的数据库交换技术的主要研究内容及 研究意义,为方便阅读最后根据论文研究的内容说明了本文的组织方式。 第二章数据交换系统 第二章数据交接系统 数据交换系统属于数据集成的研究范围,本章在分析当前研究现状基础上掇出本文的数 援交换系统黪体系结构,从多方蟊对数爨交换系统送行分臻。 2 1 当前研究现状 基翦国内癸诲多软譬 乎啻开发商,在其套垂的乎奁产鑫中,赘疆谟稳应黪数据库交换工 鼹。例如由华王达梦公司开发静,穰有自主版权浆商潞纯数据库管壤系统d m 3 系统,提供了 数据交换的工熬。它首先进行类型转换,访问源数据库系统,将源数据库的数据定义模型转 换为目标数据库的数据定义模型,然后进行数据重组,即将源数据库系统中的数据装入到目 的数据痒中。在一些现有数掇库中也提供了数据转换、导出和导入的功能,它们基本上类议 予数据疼熬餐份。螽f o x p r o 数摇痒懿秀迂囱导霹葭褥f o x p r o 中酌数据转挨到s q ls e r v e r 、 o r a c l e 数据库中。a c c e s s 的升迁向导、s o ls e r v e r 、o r a c l e 数据魔的导出和导入功能等。它 们都有如下一些特点:1 ) 、都是点对点交换而且大多怒单向不可逆的,多使用猩版本升级: 由低版本向高版本升级、数攥库转移:由小型数据库向大型数据库的迁移的情形下。2 ) 、功 g 枣投,只藐凌察隈蕊豆耱数攥蓐藤避嚣迁移数据。程基哭裁转羧营遵数豢,不逶霸予大对 蒙数据。3 ) 、依赖于具体的数据库管理系统( d b m s ) ,搽作眈较繁琐,扇户使焉j ;方便。4 ) 目标数据库( 转换的数据库) 必须与源数据库一致。獭两者不一致时,通过数据库系统提供 的工具转换数据也完成不了数据迁移的目的。 2 。2 数据交换系统结构 2 1 世纪是倍息时代,随翁信息时代的来临,微机的普及,数据麾和数据仓库技术的发展, 数撼疼之趣交换数据憋变彳罨越寒越频繁,数据交换毽成为了一个热f j 静磅究课题。针对嚣蘸 众多的数据痒,孺户需要一个专f j 豹工熊来处理各秘数耀瘁之魔静交软操作,邀燕是奉课题 的研究目的:研究一个功能完备且独立运行的数据交换系统,尽可能减少环境依赖性。 数据交换系统使用基于中间件的集成方法,将交换文件作为数据交换的中介,根据数据 麾援式信息之阍建立的映射关系,以故求实现异构数据的集成。整个系统的体系结构如下匿 凝示: s 图2 - 1 数据交换系统总体结构 大庆石油学院硕士研究生学位论文 源d b ( 数掇瘁) :需要逐毽数据联在魏数据瘁。像惩f o x p r o d b a s e 、a c c e s s 、s q ls e r v e r 、 o r a c l e 等常觅数据痒,也霹班包括p a r a d o x 、d b 2 等不鬻冕的数爨霹。 目标d b ( 数据库) :需臻迁入数据所在的数据库。 数据提取工具:用于将源数据库中的数据提取出来,以便迁移列数据交换文件中的功能 构件。 数据交换文终:矮予趁交换过程中承载脱离添数据疼霾磊据数据霹环凌熬交换数据豹文 件系统。由多个文件组成,主要包括两部分:源交换文件和源模式信息。 网络:在数据交换系统中,网络是避接源数据库和目标数据滕之间的通道。当源数据库 和目标数据库同在一定区域内( 如公司、试验室等) 时,网络是局域网。如果距离很遥远( 不 在一令城枣或不在一令局域羽肉等) 露,网络是广域阚。 源交换文锋:源数瓣滗中需要交换豹数据懿存羧文件,由一个躐多个文释缀成。 源模式信息:源数据库的模式信息,如字段名称、数据类型、字段长度等。至少包括辩 鼷交换数据的数据表的模式信息,也可以包括完整的源数据库的模式信息。 曩标模式傣息:虽栝数据库中蹶有袭的模式信息,如字段名称、数据类型、字段长度、 _ 差夕 磋等。 数据映射工具:通过中间文件将源交换文件转换成目标交换文件的功能构件。 目标交换文件:迁入到目标数据库中的数据存放的交换文件,由个或多个文件组成。 数据加载工具:将目标交换文件中的数据迁入到照标数据库中去的功能构件。 2 3 数据交换系统工作原理 在图2 - 1 鼹数据系统中,完成一次宠蹩的数据迁移霈要如下步骤: t 、透过数摇提取工其褥源数蕹痒中鬻要交换数数据转换到鼗攥交换文箨。 2 、数据交换文件从源数据库端发送剿目标数据黪端。 3 、根据目标数据库生成目标模式信息。 4 、通过数据映射工具提取模式信息文件的模式俗恩,在数据淡实体和字段间建立映射关 蘩= 兰残睽瓣漤援文磐,搜溺它涛源交按文 串转换戒强拣交换文传。 5 、通过数据如载工其将嚣标交换文件中的数据迁移到磊标数搬痒中。 当源数据库端和目标数据库端在同一端,例如,都在本地机器上或一个局域网内等,不 需要网络来传输数据交换文件。如图中第1 种传输方式,直接将数据交换文件变给数据映射 工其进嚣处理;当源数据黪端和曩标数攥瘁端不在圜一炼,例如,不在一个城市或不在一个 粥蠛蕊两等,数据交换文棒褥妥逶过网络童滚数蠢瘁端黄赣爨嚣拣数据痒端。鞠溜中篱2 耪 传输方式,需嚣通过网络将数据交换文件传输到目标数据库端。 在某些特殊情况下,当需要交换数据的源数据标和目标数据表结构基本数( 44 2 节中 谗细介绍) ,可以不使用数搦映射工具进行文件转换,如图中第2 种方式。这种情况下源交换 文终亵嚣标交换文斧是稳阏豹。 从以上可以看出,在瀚2 一l 豹数据交换系统中,起主要作用的是数据提取工具、数据浃 射工具和数攒加载工具,三者的比较说明如下表所示。这三个工殿将在第三章第五章进行 详细介绍,本章后面将对数据集成中间件、数据的存放格式和模式信息进行介绷。 第二章数据交换系统 表2 - 1 三个工具比较分析 内容位置是否必须输入输出 数据提取工具源数据库端是 数据交换文件 数据映射工具目标数据库端否 数据交换文件目标交换文件 目标模式信息 数据加载工具目标数据库端是 目标交换文件x m l 文件中数据 2 4 数据集成中间件 2 4 1 中间件的选择 x m l 是一种半结构化的数据模型,它有如下特点: ( 1 ) 自描述性 x m l 中的语义标识,一方面限定了元素的层次结构,另一方面也说明了元素的含义,在 x m l 搜索结果中,由标识就可以知道内容的含义,这使得搜索结果更有意义。 ( 2 ) 内容独立性 蹦l 可脱离具体应用,对保存在异构环境中的各种数据进行描述,其它系统应用能直接对 这些自描述的x m l 文件中的数据进行操作。因此,它将成为跨平台数据交换和操作的标准模式, 实现异构数据集成中数据的互操作性。 x m l 的内容独立性还表现在x m l 只代表其数据内容本身,数据存储格式不受显示格式的制 约。x m l 一般包括三个要素:数据、结构以及显示方式。它使用d t d 或者s c h e m a 规定一套关于 标记符号的语法、语义规则,比较准确她描述文本资料的内容、含义、结构、特征和关系等 信息( 称为元数据) ,而把数据的外观表现形式交给样式表( 如c s s 、x s l 等) 处理,这样就把资 料的内容和其表现形式合理地隔开,从而大大提高x m l 资料的可理解性、可交换性和重用性。 ( 3 ) 可扩展性 允许各个组织、个人建立适合自己需要的标识集合,可以根据需求参数化和语义化相应 的数据。x m l 可以在不破坏现有结构和系统的情况下增加新的数据字段。应用服务器利用x m l 对所有数据建模,若要改变数据模型只需改变数据模型定义,查f l d t d 、s c h e m a 等,不需要重新 编码现有的对象。 ( 4 ) 具有描述复杂数据的能力 x m l 提供了数据的结构化表示,并且易于操作。例如,可以标记以下内容:普通文档 结构化记录对象数据库查询记录图形表示所有w e b 上的信息之间的链接。x m l 可 以用一种统一的数据模型描述来自不同数据源的数据,屏蔽数据源中应用环境和数据结构的 异构性。 ( 5 ) 良好的平台独立性 x m l 文档是纯文本,独立于平台和应用。因此,运用) ( m l 可以有效的解决新旧系统、不同 应用系统之间或者不同数据源之间的数据共享与交互问题。 基于x m l 的上述优势和特点,使之成为异构数据集成时中间件的一个标准载体。通过它 可以集成和统一来自不同或异质数据源的信息,还可以为不同类型或持有不同设备( 如固定计 算机,移动设备,p b a 等) 的用户提供服务。将各种异构数据源的数据,集中合并成x 札格式 的中间数据文件,并向上层应用提供对x m l 数据进行操作的应用接口,从而实现异构数据间 的集成。 大庆石油学院硕士研究生学位论文 2 4 2x 扎文件的分类 有两种x m l 文件,一种是w e l 卜f o r m e dx m l 文件,另一种是v a l i d a t i n gx m i 。文件。 如果一个x m l 文件满足x m l 规范中的某些相关法则( 以下将详叙) ,且没有使用d t d ( 文 件格式定义) 或x m ls c h e m a 时,可称该文件是w e l l 一f o r m e d 。而如果一个x m l 文件是 w e l l 一f o r m e d ,且正确地使用了d t d 或x m ls c h e m a 且语法又是正确的,那么这个文件就是 v a t i d a t i n g 。对应两种x m l 文件,有两种x m l 解析器。一种是w e l l - f o r m e d 解析器,另种 是v a l i d a t i n g 解析器。i e 5 中就内含v a li d a t j n g 解析器,v a l i d a t i n g 解析器也可用来解析 w e l 卜f o r m e dx m l 文件。 不管是何种x m l 文件,显示形式都由c s s 或x s l 来完成。如果要将它以某种形式显示出 来,就必须编辑c s s 或x s l 文件。如果没有定义显示方式,x m l 会以原来的形式( 默认) 进行 显示。 1w e l l f o r m e dx m l 文件 在数据交换中,x m l 文件必须是w e l f o r m e d 的,这样才能够被解析器正确地解析出来( 检 验方法,显示在浏览器中或使用d o l l 方法) 。刨建) 【l i l l 文件的时候,必须满足如下几个主要法 则: 首先,x m l 文件的第一行必须是声明该文件是x m l 文件以及它所使用的x m l 规范版本。在 文件的前面不能够有其它元素或者注释。 第二,在x m l 文件中有且只能够有一个根元素。 第三,在x m l 文件中的标记必须正确地关闭,也就是说,在x m l 文件中,控制标记必须 有与之对应的结束标记。如:( 名称) 标记必须有对应的 ”符号,其余的内容解析器将原封不动地交给下游的 应用程序,即使c d a t a 区域中的开始和结尾的空白以及换行字符等,都同样会被转交( 注意 c d a t a 是大写的字符) 。 例( ! c d a t a 飞翔的x m l ) ) ) ) ) ,:一) 0 0 0 0 ( ( ( ( ( ( ( 笫八,x m l 处理空白字符和h t m l 不一样。h t m l 标准觌定,不管有多少个空白,都当作一 个空白来处理;而在x m l 中规定,所有标记以外的空白,解析器都要忠实地交给下游的应用 程序处理。这样,有时必须摒弃编写h t i “l 文件时的缩排习惯,因为缩排的空格,解析器也要 第二章数据交换系统 处理。 另外,在) ( i f 【l 文件中,如果要用到如下表中的特殊字符,必须用相应符号代替。 表2 - 2x m l 文件中需要替换的特殊字符 特殊字符替代符号特殊字符替代符号 & a m p :& q u o t : & g t : 2v a l i d a t i n gx m l 文件 在x m l 文件中,用的大多都是自定义的标记。但是如果两个同行业的公司a 和b 要用x m l 文件相互交换数据,a 公司用( 价格) 标记来表示他们产品的价格信息,而b 公司可能用( 售 价) 来表示价格信息。如果一个x m l 应用程序来读取他们各自的x m l 文件中的信息时,如果 它只知道( 价格) 标记里表示的是价格信息,那么b 公司的价格信息就读不出来,必将产生 错误。显然,对于想利用x m l 文件来交换信息的实体来说,他们之闾必须有一个约定即 编写x m l 文件可以用哪些标记,母元素中能够包括哪些子元素,各个元素出现的顺序,元素 中的属性怎样定义等。这样他们在用x m l 交换数据时才能够畅通无阻。对于同行业之间的x m l 数据交换,有一个固定的d t d 或x m ls c h e m a 将会方便很多。例如,如果网上的各大电子商场 的x m l 网页都遵循同一个标准时,那么

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论