(计算机应用技术专业论文)多数据库系统数据整合平台设计.pdf_第1页
(计算机应用技术专业论文)多数据库系统数据整合平台设计.pdf_第2页
(计算机应用技术专业论文)多数据库系统数据整合平台设计.pdf_第3页
(计算机应用技术专业论文)多数据库系统数据整合平台设计.pdf_第4页
(计算机应用技术专业论文)多数据库系统数据整合平台设计.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机应用技术专业论文)多数据库系统数据整合平台设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着网络技术和数据库技术的不断发展,企业不断进行信息化建设,各个部 门根据各自的信息要求和特定的应用选择了各自的软硬件环境,从而使得部门之 间不断的孤立,很难实现部门之间的数据共享。而现有的数据库厂商都提供一些 数据集成工具,这些工具要么和各自的产品相关要么就是不具有通用性。 目前,应用最广泛也是最成功的解决分布的、异构的和自治的数据库互操作 问题的方案就是多数据库系统( m d b s ) 。m d b s 在已有的一组局部数据库的基础 上提供统一的访问界面,使得用户不用理会这些局部数据库之间的差别。 本文主要针对关系型数据库进行设计,通过分析当前图书馆中所运行的一组 学术论文数据库之间的异构差异,提出了一种m d b s 解决方法。系统采用中间件 体系结构。由于本文设计时主要考虑资源共享,并没有包括数据库系统中数据修 改问题,所以在文中并没有分析数据一致性和事务相关问题。首先文中引入了一 种基于数据视图的模式集成模型,并介绍x m l 语言模型描述方法。同时对查询 执行过程中的一系列问题进行了分析。包括:查询预处理、查询分解、数据集成 和管理、查询优化相关问题。查询预处理完成对全局查询语句的等价修改,包括 查询整理、查询合并、等价条件变换,该步骤主要是辅助查询分解的执行,提高 查询分解效率。查询分解完成全局查询的分解,局部数据库只能识别各自独立的 查询表示方式,查询分解模块将全局查询分解为可在局部数据库上执行的局部查 询,同时尽可能保证取回的数据是和全局查询相关的,该过程和模式集成信息密 切相关,文中给出了一种建立在上述模式集成信息基础之上的查询分解算法,并 在相应的章节中给出了详细的算法实现。数据集成过程和模式集成信息密切相关, 完成局部数据片段的组装。查询优化章节中提出了一些提高全局查询执行效率的 方法,针对图书馆中数据库存在数据复制的特殊情况文中给出了一种解决办法。 最后,文中对系统的一些设计细节进行了描述,对系统整体设计进行了介绍。 通过测试系统能够很好的解决模式冲突中提出的所有冲突,屏蔽了不同数据库体 系之间的异构性和数据模式之间的异构,使得用户能够在统一的查询界面中完成 数据的查询。 关键词:多数据库系统,查询分解,模式集成 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r ka n dd a t a b a s e ,s o m ec o r p o r a t i o n sr e f o r m e d t h e m s e l v e su s i n gi n f o r m a t i o nt e c h n o l o g y e v e r yd e p a r t m e n tc o n t i n u e st ob u i l dt h e i r d a t ac e n t e r t h e yc h o s eh a r d w a r ea n ds o f t w a r ep r o d u c t sa c c o r d i n gt ot h e i ro w nn e e d s m a n ya p p l i c a t i o ns y s t e m sh a db e e nd e p l o y e do nt h ed a t ac e n t e rt oi m p r o v eo f f i c e e f f i c i e n c y a f t e rt h a t i tb e c o m e sv e r yd i f f i c u l tt os h a r ed a t ab e t w e e nd i f f e r e n t d e p a r t m e n t sb e c a u s eo ft h ed i f f e r e n c eo fd a t am o d e la n ds y s t e ma r c h i t e c t u r e d a t a b a s ev e n d o r sh a dp r o v i d e ds o m et o o l st os o l v et h i sp r o b l e m b u tw ej u s tc a nu s e t h e s et o o l si ns p e c i a ls c e n e r i oo ri ns o m ea p p l i c a t i o n sb u i l to ng i v e np r o d u c t s s o m es c h o l a r sh a v e d o n el o t so fr e s e a r c h e s ,a n dt h e yh a dr a i s e ds o m ef r a m e w o r k s t os c r e e nt h ed i f f e r e n c eo fs y s t e ma r c h i t e c t u r ea n dd a t am o d e lb e t w e e nl d b s ( 1 0 c a l d a t a b a s em a n a g es y s t e m ) t h eb e s tf r a m e w o r ki sm d b s ( m u l t i - d a t a b a s es y s t e m ) i f s y s t e mi sb u i l tu s i n gt h i sf r a m e w o r k ,u s e r sw i l lb ea b l et oq u e r yt h ed a t at h r o u g ha u n i f i e di n t e r f a c ew h i c hm d b s p r o v i d e s t h i sp a p e rp r e s e n t sam d b sp r o g r a mi nan u m b e ro fr e l a t i o n a ld a t a b a s e m a n a g e m e n ts y s t e m se n v i r o n m e n t t h ep r o g r a mu s e sm i d d l e w a r ea r c h i t e c t u r e ( w r a p p e r m e d i a t o r ) w ej u s tf o c u so nt h es h a r i n go fd a t a s ow ew i l ln o tt h i n ka b o u t a n y t h i n ga b o u td a t a b a s et r a n s a c t i o np r o c e s s i n ga n dd a t ac o n s i s t e n c y f i r s to fa l l ,w e h a v ep u tf o r w a r dam o d e lo fm o d e li n t e g r a t i o na n dx m ld e s c r i p t i o n t h em o d e li s b a s e do nt h es t r u c t u r eo ft a b l e i ti se a s yf o rd e v e l o p e r s a f t e rt h a tw ea n a l y z e de v e r y p a r to fq u e r yp r o c e s s i n g , s u c ha sq u e r yp r e t r e a t m e n t ,q u e r yd e c o m p o s i t i o n ,d a t a i n t e g r a t i o na n dm a n a g e m e n t ,q u e r yo p t i m i z a t i o n g l o b a lq u e r yw i l lb ec h a n g e d e q u i v a l e n t l yi nt h ep r o c e s so fq u e r yp r e t r e a t m e n t i t sp u r p o s ei st oa c c e l e r a t eq u e r y d e c o m p o s i t i o n i td o e st h a tb yt i d y i n gg l o b a lq u e r y , c o m b i n i n gq u e r ya n dc h a n g i n g q u e r yl i m i t a t i o ne x p r e s s i o n b e c a u s el o c a ld b m sj u s tc a n e x e c u t et h eq u e r yw h i c hb e w r i t t e nu s i n gi t sq u e r yl a n g u a g e ,w ec a nn o tp a s st h eg l o b a lq u e r yt oi td i r e c t l y b e f o r e p a s s i n gq u e r yt oi tw em u s td e c o m p o s et h eg l o b a lq u e r y i fw ew a n tt of e t c hd a t a r e l a t e dt ot h i sg l o b a lq u e r y , w em u s tg e n e r a t et h eq u e r yt h a tc a l le x e c u t ei nt h el o c a l d b m sa n dl e t c hd a t aw en e e d i no r d e rt od ot h a tw ew i l lm a pt h eg l o b a lf i e l d st o a b s t r a c t l o c a lf i e l d sa n dt r a n s f e r q u e r yl i m i t a t i o ne x p r e s s i o nt ol o c a l q u e r y l i m i t a t i o n e x p r e s s i o na c c o r d i n gt ot h ei n f o r m a t i o no fm o d ei n t e g r a t i o n t h eg l o b a lq u e r yr e s u l t s w i l lb eg e n e r a t e db ya s s e m b l i n gd a t af r a g m e n t st h a tf e t c h e db yt h el o c a lq u e r yi nt h e p r o c e s so fd a t ai n t e g r a t i o n s o m em e t h o d sh a v eb e e ni n t r o d u c e dt oi m p r o v et h e e f f i c i e n c yo fq u e r ye x e c u t i n g ih a v eg i v e no p t i m i z e da l g o r i t h me s p e c i a l l yu n d e rt h e c i r c u m s t a n c eo fd a t ar e p l i c a t i o n f i n a l l yt h i sp a p e rs h o w ss o m eo t h e rd e s i g n si nd e t a i la n de x p l a i n se v e r ym o d u l e s f u n c t i o n w eh a v ed o n es o m et e s t st o t e s tt h i ss y s t e m i tc a ns c r e e nt h ed i f f e r e n c eo f s y s t e ma r c h i t e c t u r ea n dd a t am o d e lb e t w e e nl d b se o m p l e t e l y n o ww ec a nf i e t c h d a t af r o mm d b sd i r e c t l yj u s tl i k em d b sh a v es a v e da l ld a t a k e y w o r d s :m d b s ,q u e r yd e c o m p o s i t i o n ,m o d e li n t e g r a t i o n i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 签名:日期:洲年r 月彳日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:聿篁墨名二一导师签名:陋 日期:沙7 鼙盯月e 1 第一章引言 1 1 课题简介 第一章引言 由于历史原因,目前数据库还没有形成统一的标准,各种不同的数据库管理 系统( d b m s ) 都在使用当中。过去三十年中,文件系统、层次网络系统、关系数据 库、面向对象数据库等作为数据管理平台都曾广泛使用,而且基于不同的数据管 理系统都建立了大量的应用系统【啦】( 信息孤岛) 。随着通信技术和数据库技术的 发展,越来越多的应用系统需要访问一些分布的、异构的和自治的数据库来完成 其相应的任务。这些分布的、异构的和自治的数据库在数据模型、查询语言、系 统结构等方面可能存在差异,因此用户不能以统的模式和查询语言访问这些数 据库。因此,我们面临着解决不同种类的数据管理系统之间的互操作问题【3 】。人 们提出了多种方法来解决不同种类的数据管理系统之间的互操作问题,如数据转 换、查询转换等等。但这些方法都有各自的局限性,很难真正实现不同种类的数 据管理系统之间的互操作。数据集成【4 】系统在其中扮演着十分重要的角色。 目前,应用最广泛也是最成功的解决分布的、异构的和自治的数据库互操作 问题的方案就是多数据库系统( m d b s ) 。一个m d b s 是由一组独立发展起来的 l d b s 组成,并在这些l d b s 之上为用户建立一个统一的存取数据的层次,使得 用户像使用一个统一的数据库系统一样使用m d b s ,而不需要改变l d b s ,从而 屏蔽了各个l d b s 的分布性和异构性,并保持了各个l d b s 的自治性,从而各个 l d b s 用户仍然可以对相应的l d b s 进行访问。 1 2 多数据库系统研究现状 随着应用的发展,用户操作需要多个分布的、异构的和自治的数据库来共同 完成,在这种情况下,人们提出了m d b s 。人们对m d b s 进行研究始于上个世纪 九十年代,对m d b s 中异构模式的消解、全局查询分解、全局事务的处理和数据 的完整性都傲了大量的研究,取得了丰硕的成果。为了提高系统性能,对查询分 解进行了优化;为了保持全局事务的一致性,提出了全局可串行化方法;当全局 事务发生失败,为了保持全局事务的原子性,提出了2 p c 协议、重做、重试和补 电子科技大学硕士学位论文 偿方法。在这些理论基础上,a o o g a c 和c d e n g i 等开发了一个m d b s m i n d 系 统,该系统支持常用的查询、修改等操作,以及基本的事务处理命令,具有较强 的实用价值。由于组成m d b s 的各个l d b s 的分布性、异构性和自治性,使得对 复杂的m d b s 的研究还不是很完善,m d b s 至今仍然是数据库领域的研究热点。 随着计算机网络的普及和互联网的出现,传统的数据集成技术已经无法适应 人们获取更多更新数据的需要。人们要求不仅能够集成本地数据源中的数据,而 且要求集成分散的网络数据源中的数据;不仅能集成现有数据源中的数据,还要 支持可扩展数据源的集成;不仅能够支持数据结构的集成,还要支持语义的高层 次的数据集成。 1 已有项目介绍 1 ) g a r l i cs y s t e m s 5 , 6 】 g a r l i c 是美国i b m 公司a l m a d e n 研究中心数据库组的一个开发项目,其目的 是开发一个集成系统,该系统能对大规模异构多媒体信息进行管理。该系统把传 统数据和多媒体数据存储在不同的数据仓库中,比方说数据库、文档、文本管理 器、图像管理器、视频服务器等等。g a r l i c 支持新的数据仓库的添加,并通过一 个“中间件”查询处理器提高查询效率。这个查询处理器利用数据库查询优化技术 去提升本地相关的基础数据仓库的搜索能力。 2 ) t s i m m i ss y s t e m l 7 , s 】 t s i m m i s 是由斯坦福大学( s t a n f o r du n i v e r s i t y ) 研制开发的异构信息源集成系 统该系统的查询处理利用了演绎数据库技术,包括视图扩展和执行计划生成。 描述了o e m 模型的整个体系 9 1 ;描述了一种基于o e m 的协调语言和它的实现【1 0 1 , 这种语言可以在协调器中创建消除了各种类型语义冲突的集成视图。描述了一种 使用o e m 的对象匹配方法【1 ( 文献中称为对象融合) ,这种方法可以解决实例级的 冲突,同时还提出了一种针对这些融合对象的全局查询优化方法。则描述了一种 对非结构化数据的查询语言及优化技术。o e m 可以表示和查询复杂对象,包括自 描述对象,是基于协调器的信息集成系统的一个典范,但o e m 不能对具有全局模 式的多数据库系统进行表示和查询。 r l 1 3 1o b j e c t g l o b e l l 纠 o b j e c t g l o b e 提供分布、开放的对i n t e r n e t 上数据的查询处理。o b j e c t g i o b e 建 立开放的数据交互市场,在市场中分布处理数据和查询过程,可用于任何类型的 i n t e m e t 应用。同时o b j e c t g l o b e 以循环方式集成数据提供者,数据提供者也可以 是查询的执行者。 2 第一章引言 4 1l o r e 【1 3 】 l o r e ( l i g h tw e i g h to b j e c tr e p o s i t o r y ) 是美国s t a n d f o r d 大学设计的一个专门用 于管理半结构化信息的数据库管理信息系统,可以对半结构化数据o e m ( o b j e c t e x c h a n g em o d e l ) 和x m l 数据进行存储和管理。l o r e 包含标准数据库的些特性, 如:多用户支持、日志和恢复功能以及查询和更新语言。同时l o r e 也提供了其他 一些操作数据库的工具。 5 、v e r s a t i l e 1 4 , 1 5 , 1 6 】 v e r s a t i l e 是一个基于c o r b a 的可扩展的异构数据源集成系统原型。该模型 在i o n a 公司的o r b i x w e b 产品上,对s q ls e r v e r , v e r s a n t ,文件系统,超文本数 据进行包装和集成。该系统不仅能集成上述数据源,而且能集成随时插入的新数 据源中的数据。 6 ) p e g a s u s 1 7 】 p e g a s u s 是h e w l e t t p a c k a r d 实验室开发的一个多数据库管理系统,它的目的是 在异构、分布的数据库上为用户提供一个开放、统一的信息处理环境,允许用户 用统一的接口存取分布、异构的多个数据库上的数据。p e g a s u s 采用面向对象模型, 包括3 个组成部分:类型、函数和对象;采用h o s q l ( 异构对象s q l ) 查询语言,在 查询处理过程中,首先对h o s q l 查询语句进行语法分析,转换成内部表示,称为 f 一树。查询管理器把f 一树当作输入,在经过若干处理后把它转换成一个优化的执行 计划,称为e 树。由查询评价器解释e 树,并产生最终结果。 在国内,东南大学研制的g a l a x y 系统是一个基于c o r b a 的分布式异构数 据源集成系统,使用对象集成模型( o i m ) 作为数据集成的公共模型,对象集成查 询语言( o i q l ) 作为其查询语言。o i q l 在s q l 语言的基础上增加了一些构造符, 用于完成对象之间的导航式查询以及对一些集合类型对象的查询。g a l a x y 可以查 询数据库、w w w 数据等信息源,但对查询优化考虑得并不多 1 8 , 1 9 】。东北大学在 基于c o r b a 的多数据库系统s c o p e c i m s 中,使用对象查询语言作为全局查 询语言,并提出了基于模式集成语义的查询处理规则和路径表达式的查询处理方 法。s c o p e c i m s 系统主要是为满足c i m s 环境下信息集成需求而设计的,对查 询计划的生成及查询优化研究的不多 2 1 1 。华中科技大学在c o b a r 的基础上研 制了p a r o n a r n a 系统,p a n o r a m a 2 2 】可以给用户提供一个公共数据模型和一种全局 查询语言p a n o s q l ,通过它们将不同的数据库集成到系统中。该系统的主要构件 包括:集成到p a n o r a m a 中的局部d b m s 的接口、一个事务管理器、一个公共数 据模型、一个模式集成器、一种全局查询语言、一个全局查询处理和优化器。另 电子科技大学硕十学位论文 外,中山大学对联邦数据库也有一定程度的研究【2 3 】。 2 现有系统使用技术分析 分析现有的异构数据集成项目,使用最多的实现技术有:c o r b a 2 4 2 5 】组件模 型、c o m d c o m 组件模型、j a 、,ar m i e j b 组件模型和b r i d g e 技术。本文分别 对这四种技术进行分析: c o r b a 组件模型 c o r b a 是非常有效率的组件模型,而且c o r b a 的延展性非常的优秀。 c o r b a 功能规范定义了严格的c o r b a 安全服务,而且c o r b a 能够集成s s l 安全机制,因此非常适合在需要极高安全权限的应用中使用。不过c o r b a 的复 杂性以及没有对象回收机制让c o r b a 应用系统的开发难度相对提高了许多。 c o r b a 组件模型的问题是c o r b a 封包的传送和沟通是使用所谓的g i o p ,造成 c o r b a 应用系统之间无法沟通的原因是g i o p 定义了封包的基本格式,但是在 封包中数据如何排列、字节的顺序格式都没有定义,因此不同的c o r b a 厂商便 加入了自行实现的格式,造成了c o r b a 应用系统无法沟通的问题。后来o m g 虽然也发现了这个问题,并且稍后定义了i o r ( i n t e r o p e r a b l eo b j e c tr e f e r e n c e ) 标 准,但是仍然没有成为大众接受的标准。 c o m d c o m 组件模型 由于c o m d c o m 一开始的设计是以应用程序沟通为主,并不是以企业运算 为核心设计目标的,因此c o m d c o m 在大型计算应用方面有许多限制。 c o m d c o m 虽然执行效率很好,但是d c o m 的延展性很差,在i n t e r n e t i n t r a n e t 的使用上也存在许多困难,例如和防火墙集成有困难等。d c o m 提供了对象自动 回收机制,如果d c o m 发现有对象一直没有使用,而且超过一定的时限,那么 d c o m 便会自动销毁此对象。不过d c o m 的对象自动回收使用了大量的p i n g 机 制,因此也造成了网络的负荷加重。 目前m i c r o s o f t 已经将d c o m 进化为c o m + ,并且成为操作系统的核心服务, 虽然m i c r o s o f t 不断改善d c o m c o m + ,但是d c o m c o m + 在i n t e m e t i n t r a n e t 和 w e b 的使用上的确不如c o r b a 或是e j b 有弹性,只适合在i n t r a n e t 或是局域网 络应用系统之中使用。 j a v ar m f e j b 组件模型 r m i 工的执行效率并不好,而且受限于只能使用j a v a 语言,这使r m i 并不 适合作为企业的分布式架构标准。因此现在使用j a v a 解决方案的应用系统都以 e j b 取代r m i 。 4 第一章引言 e j b 提供了安全的执行环境,比r m i 更有效率的远程激活机制,更有延展性 的对象访问机制,并且能够以c o r b a 技术作为底层的实现技术,以简化c o r b a 的复杂性,并且通过c o r b a 成为语言中立的核心组件模型,而不受限于只能使 用j a v a 语言。更由于e j b 是以j a v a 语言实现上层的功能,因此e j b 服务器可以 在任何支持j v m 的平台上执行,让用户的选择性更大。e j b 也提供了安全服务让 软件人员能够开发需要严格安全机制的应用系统。 b r i d g e 技术的应用和限制 b r i d g e 技术用于解决不同操作系统和组件模型之间沟通。虽然b r i d g e 技术允 许不同的组件模型或者应用系统沟通,但是b r i d g e 技术有许多限制。第一,通常 b r i d g e 软件只能让特定版本的双方沟通。第二,b r i d g e 软件本身执行的平台限制, 例如b r i d g e 软件可能只能在w i n d o w s 平台上执行等。还有一点就是b r i d g e 软件 还可能会让应用系统变得更为复杂,难以控制。因此b r i d g e 技术也在近来逐渐地 没落和消失了。 上述问题可以使用许多技术来解决或是克服,但是这些技术可能是属于特定 厂商的技术,或是没有获得大多数人的接受。面对复杂的i n t e m e t i n t r a n e t 世界不 断推出的各种新版的组件模型,需要的是一个不受限于特定的组件模型类型、组 件模型版本以及数据封包的技术,这些问题可以被现在逐渐成为标准技术的 s o a p 和w 曲s e r v i c e s 解决。 1 3 多数据库系统设计原则及体系结构 m d b s 不仅仅是一个分布式数据库系统,它与分布式数据库系统的区别在于: ( 1 ) 在分布式数据库系统中,整个数据库系统被看成一个单元,由一个d b m s 来管理;在m d b s 中,整个数据库系统被看成多个已存的l d b s 组成,每个l d b s 由各自异构的d b m s 来管理。 ( 2 ) 在分布式数据库系统中,各个l d b s 的数据模式相同;在m d b s 中,各 个l d b s 的数据模式不同,需要将它们统一起来。 ( 3 ) 在分布式数据库系统中,d b m s 能够自动地对查询进行优化和更新数据库; 在m d b s 中,需要特殊的查询优化技巧来处理异构性和动态性。 ( 4 ) 在分布式数据库系统中,不允许存在局部用户,而在m d b s 中既有全局用 户又有局部用户。由于m d b s 的已存性、分布性、异构性和自治性,使得m d b s 的设计与一般的分布式数据库系统大大不同。 电子科技大学硕士学位论文 m d b s 的设计原则主要有以下几点: ( 1 ) 禁止从一个数据库到另一个数据库之间的数据转换和迁移。 ( 2 ) m d b s 要求对l d b s 不做任何修改,这就是设计自治性。 ( 3 ) m d b s 不能影响l d b s 原来的工作模式,即l d b s 上还可以运行只使用本 地资源的局部应用程序。 ( 4 ) 在m d b s 中只使用一种统一的数据库语言,用户像使用一个数据库系统一 样使用m d b s 。 ( 5 ) m d b s 必须对用户屏蔽各个l d b s 异构的操作环境,包括计算机、操作系 统、网络协议等。 m d b s 的体系结构如图1 1 所示。m d b s 是一种客户服务- 器( c l i e n t s e r v e r ) 图1 - 1m d b s 体系结构 结构,多个m d b s 用户与m d b s 进行交互,用户可以通过m d b s 对多个局部数 据库进行存取操作。m d b s 管理所有全局数据库系统的控制信息,包括全局模式、 全局查询的处理以及全局事务的提交和控制等。每个l d b s 通过一个驱动器与 m d b s 连接,这个驱动器可以与相应的l d b s 在同一个站点上,也可以在m d b s 端。m d b s 与驱动器之间的通信构成一个通信子层。对于m d b s 用户而言,他所 看到的只是m d b s ,他只与m d b s 打交道,从而就屏蔽了l d b s 的分布性和异构 性。 6 第一章引言 1 4 论文研究工作及其意义 企业中数据孤岛越来越严重,多数据库系统能有力的帮助不同数掘孤岛之间 实现数据的共享。多数据库系统构建在模式集成的技术之上,用户查询针对全局 模式信息编写,同时用户只能看到全局模式所描述的数据,不同局部物理数据源 之间的差异由m d b s 屏蔽。 多数据库系统由一组局部物理数据库组成,多数据库中的数据即时从这些物 理数据库中取得,物理数据库无法识别全局查询,系统需要将全局查询分解为一 组局部查询,局部查询取得数据后传回到系统中,数据集成处理模块将局部数据 按照模式集成信息将局部数据集成为全局数据。针对上述问题,本文对系统中全 局查询整个执行过程进行了研究,包括:模式集成、查询预处理、查询分解、数 据集成处理、以及一定的查询优化。由于图书馆现有学术论文数据库管理系统都 是商用关系型数据库管理系统,所以上述的研究都只针对关系型数据库系统进行 的。模式集成信息采用x m l 语言进行描述。查询预处理完成查询语句的等价变 换,包括:子查询合并和查询限定条件变换等。查询分解介绍了一种全局查询到 局部查询的分解方法。数据集成处理介绍了数据的集成等等,文中对查询优化也 提出了一些方法。 多数据库系统有效的屏蔽了不同数据中心之间的差别,使得企业能充分的实 现数据共享,同时局部数据库依然具有自治性,在该数据库上运行的其他系统依 然能很好的运行,即:保证原有应用系统很好运行的同时又能实现数据共享。因 此多数据库系统具有重要的研究意义。 1 5 论文结构安排 本文共分六章,各部分安排如下: 第一章:本章为概述部分,主要介绍了论文选题的背景、研究意义、目前国 内外的研究现状和本文的主要研究工作。 第二章:对该系统设计过程中所涉及的技术进行介绍以及选择这些技术的原 因。 第三章:介绍了多数据库系统体系结构和模式集成相关问题,涉及数据模式 的设计、映射、模式冲突以及解决办法,同时说明了模式集成信息的x m l 表示 方法。 7 电子科技大学硕十学位论文 第四章:介绍了本文中对查询的处理方法,对查询过程中涉及的一些问题进 行了详细的介绍且提供了相应的解决办法。 第五章:在上两章相关实现的基础上,进一步说明了多数据库系统的其他方 面的设计内容,包括:系统整体结构,设计思路等。最后对本系统进行测试验证, 对测试结果进行了分析。 第六章:对全文进行了总结。提出了本论文尚未解决有待以后继续进行研究 的问题,并对将来的研究工作进行了展望。 第二章x m l 语言及j 2 e e 第二章x m l 语言及j 2 e e x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 源自于s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) 和h t m l ,由w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 开发和管理,是用于定义其他标识语言的一种文本文档的元标记语言 ( m e t a m a r k u pl a n g u a g e ) ,它以一种开放的自我描述方式定义了数据结构,在描 述数据内容的同时也突出对结构的描述,从而体现出数据之间的关系,是一种通 用的结构化数据表示格式。x m l 具有良好的可伸缩性和灵活性,不仅提供对资源 内容的表示,同时也提供资源所具有的结构信息,适合于表示各种信息,因而被 广泛接受。目前已经被应用于多领域中。 2 1x m l 的特点 企业内部存在着各种不同的数据源,可以是关系数据库,也可以是支持x m l 的资料库或其他遗留系统。由于各种数据源的接口方式各异,数据结构不相同, 因此企业数据交换比较困难。在数据集成领域,x m l 作为多种应用程序之间的桥 梁,有效地解决了异构数据源之间数据交换的难题,这是由x m l 的特点【2 6 2 7 1 所 决定的: 1 ) 自描述性:x m l 语言可以让信息提供者根据需要,自行定义标记及属性名, 也可以包含描述法,从而使x m l 文件的结构可以复杂到任意程度。 2 ) 跨平台性:x m l 可脱离具体应用以一种统一的数据模型来描述保存在异构 环境中的各种数据,屏蔽数据源中应用环境和数据结构的异构性,其他应用系统 能直接对这些自描述的x m l 文件中的数据进行操作,因此,它能够实现异构数 据源中数据的互操作。 3 ) 可扩展性:x m l 可以在不破坏现有结构和系统的情况下增加新的数据字 段。 4 ) 便于网络传输:x m l 文件只是一些简单的文本文件,因而很容易通过网络 进行传输。 在进行异构数据集成方面,x m l 具有如下重要特征和优势: 1 ) x m l 直接用于i n t a - n a ,它的主要设计目标是在w e b 上保存和传递信息。 9 电子科技大学硕士学位论文 2 ) x m l 是可扩展的,用户可以根据需要定义自己的标记。 3 ) x m l 具灵活性,x m l 提供了一种结构化的数据表示方式,使得用户界面 与结构化数据相分离。 4 1x m l 支持以全球统一的标准来定义自描述数据。 5 1x m l 支持将不同来源的信息集成为统一的文档。 6 1x m l 可支持在各种分布应用程序之间传递信息。 7 ) x m l 的自描述性质能够很好地表现许多复杂的数据关系,使得基于x m l 的应用程序可以在x m l 文件中准确高效的搜索相关的数据内容。 x m l 已成为数据表示的一个开放标准,它的这些特征有利于不同系统之间的 信息交流,因而在异构系统的数据交换和集成中发挥了重要的作用。 2 2x m l 模式 d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文档类型定义) 是一套关于标记符的语法规 则,最初是为s g m l 开发的,它可以是x m l 文档的一部分,但是它通常是一份 单独的文档或者一系列文档。x m l 本身并没有一个通用的d t d ,想使用x m l 进行数据交换的行业或组织可以自行定义它们自己的d t d ,d t d 规定了一个语法 分析器用于解释一个“有效的”x m l 文档所需要知道的所有规则的细节。一个d t d 可以是内部的,包含在一个“格式良好的”x m l 文档 ( s t a n d a l o n e = ”y e s ”) ,也可以 是外部的,作为一个外部文档被引用( s t a n d a l o n e = ”n o ”) 。d t d 标记声明可以是元 素类型声明,属性表声明、实体声明或符号声明。作为) ( m l1 0 规范的重要组成 部分,d t d 对于x m l 文档的结构起到很好的描述作用,是近几年来x m l 技术 领域所使用的最广泛的一种模式。但是,它也有一些缺点,如:采用非x m l 的 语法规则、支持数据类型有限、扩展性较差等。因此w 3 c 于2 0 0 1 年5 月正式推 荐x m ls c h e m a 作为x m l 的标准模式,显然,w 3 c 希望以x m ls c h e m a 作为 x m l 模式描述语言的主流,并逐渐代替d t d 。s c h e m a 的优点如下: 1 1 一致性。s c h e m a 本身就是x m l 文档,使得对x m i 的定义不必再利用一种 特定的形式化语言,而是直接借助x m l 自身的特性,使得x m l 达到从内到外的 完美统一。 2 ) 扩展性。s c h e m a 对d t d 进行了扩充,从而使其具有较强的可扩展性,比 如引入了数据类型、命名空间等。 3 ) 互换性。用户可以根据需要设计适合自己应用的s c h e m a ,并且可以同其他 l o 第二章x m l 语言及j 2 e e 人交换彼此的s c h e m a 。通过映射机制,可以将不同的s c h e m a 进行转换,实现更 高层次的数据交换。 4 ) 规范性。同d t d 一样,s c h e m a 也提供了一套完整的机制以约束x m l 文 档中标记的使用,相比之下,s c h e m a 更具规范性,它定义了x m l 文档的整体结 构,元素间的关系等。 2 3x m l a p i x m l 数据源多种多样,根据具体的应用,大概可分为下面三种【2 8 】:第一种是 x m l 纯文本文档,第二种是数据库,第三种则来源于其他各种带有一定格式的应 用数据,如邮件、目录清单、商务报告等等。其中,第一种来源,即x m l 纯文 本文档是最基本的也是最为简单的,将数据存储于文件中,其最大的优点在于可 以直接方便地读取,或者加以样式信息在浏览器中显示,或者通过d o m 或s a x 接口编程同其他应用相连。第二种数据来源是对第一种来源的扩展,其目的是便 于开发各种动态应用,其优点则在于通过数据库系统对数据进行管理,然后在利 用服务器端语言( 如j s p , p h p 等) 进行动态存取。这种方式最适合于当前最为流行 的基于三层结构的应用开发。第三种数据由于来源广泛,微软为此提供了基于 o l ed b 的解决方案,使得各种桌面应用系统可以通过o l ed b 直接导出x m l 数据文档。 对于x m l 文档,可以通过d o m ( f l o 文档对象模型) 读取x m l 文档中的节点, 这是最基本也是最底层的x m l 存取技术。d o m 是w 3 c 推荐的一种技术标准, 实际上是提供一组a p i 来存取x m l 数据。d o m 为开发基于x m l 的应用系统提 供了便利。它通过一种随机访问机制,使得应用程序利用该接口可以在任何时候 访问x m l 文档中的任何一部分数据,也可以对x m l 文档中的数据进行插入、删 除、修改、移动等操作。在d o m 中,文档的逻辑结构类似一棵树。文档、文档 中的根、元素、元素内容、属性、属性值等都是以对象模型的形式表示的。文档 中的根实际上也是一个元素,之所以要把它单独列出来,是因为在x m l 文档中, 所有其它元素都是根元素的后代元素,而且根元素是唯一的,具有其他元素所不 具有的某些特征。d o m 用于随机访问x m l 文档的各个部分。d o m 的优点在于 它在内存中保存文档的整个模型。这使得能以任何顺序访问x m l 元素。然而, 对于大型文档来说,这样做可能不方便。因为它可能会用尽内存,或者当系统达 到了它的极限时、机器的性能将会慢下来。 电子科技人学硕十学位论文 另外一种x m l 编程接口是s a x ,它是由著名的x m l 讨论组x m l d e v 开 发的。s a x 提供了一种对x m l 文档进行顺序访问的模式,这是一种快速读写x m l 数据的方式。s a x 接口是事件驱动的,当使用s a x 分析器对x m l 文档进行分析 时,就会触发一系列事件,并激活相应的事件处理函数,从而完成对x m l 文档 的访问。s ax 处理x m l 的方式与d o ma p i 不同。s a x 解析器不是将d o m 树 解析和表现为输出,它是基于事件的,所以在x m l 被解析时,事件被发送给引 擎。s a x 可以在文档的开始接收事件,也可以接收文档中的元素。使用这些事件 可以构建一种结构。 s a x 是比d o m 更基础的通道。有了s a x ,可以自己构建出一个d o m ,但 是既然己经有d o m 了,而且d o m 又比s a x 容易使用,那为什么还要用s a x 昵? 这是因为,d o m 模型的建立是在解读完整的x m l 文件后才会完成,有时无 法符合某些特殊情况,例如x m l 文件太大或是动态x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论