（计算机应用技术专业论文）基于xml的异构数据集成技术的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-20 格式：PDF 页数：70 大小：4.11MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

（计算机应用技术专业论文）基于xml的异构数据集成技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

论文题目：基于x m l 的异构数据集成技术的研究专业：计算机应用技术硕士生：乔玮( 签名) 指导教师：罗晓霞7 ( 签名) 摘要随着信息化建设的深入和网络技术的发展，相当数量的企业积累了大量的存储在不同平台、依赖于不同数据库管理系统的数据和众多非结构化数据( 如x m l 文档、文本文件等) 。如何通过网络，将这些不同来源、不同格式的异构数据进行有效的集成，实现企业内部数据共享，使之在企业运行中发挥更大的作用，是企业信息化发展的必然需求。为满足这种需求，进行异构数据集成技术的研究非常必要。本文首先对现有的数据集成方法、x m l 技术、w e bs e r v i c e s 技术等异构数据集成理论和技术进行了研究，并在此基础上，采用m e d i a t o r w r a p p e r 中间件法，设计了一种基于x m l 的异构数据集成系统结构。在该系统结构中，使用x m ls c h e m a 建立公共模型，以x m l 为数据交换格式，x q u e r y 为全局查询语言，利用w e bs e r v i c e s 技术屏蔽数据源的运行环境差异，在中间层建立一个公共的集成环境。它屏蔽了各异构数据源的平台、系统环境、内部数据结构等方面的异构性，为用户提供了一个统一、透明的访问接口，实现对各异构数据源中数据的集成查询。其次，对该系统结构中每个模块进行了功能描述和设计，并对其关键模块的设计与实现进行了详细说明。设计实现了关系型数据库关系模式到x m ls c h e m a 模式的转换方法，并建立该集成系统的公共模型。设计实现了查询处理器中基于公共模型的x q u e r y 全局查询分解处理算法。通过将每个异构数据源封装为一个w e b 服务，实现了异构数据源的无缝集成，使系统具有低耦合、灵活、易扩展的良好特性。最后，本文应用上述系统结构，设计实现了一个学生信息查询系统实例，完成了包括结构化数据源和半结构化数据源在内的异构数据集成查询功能，实验结果表明本文设计的异构数据集成方案是可行的和正确的。关键词：异构数据集成；x m l ；公共模型；x m ls c h e m a ；查询分解研究类型：应用研究 s u b j e c t ：r e s e a r c ho nh e t e r o g e n e o u sd a t ai n t e g r a t i o nt e c h n o l o g y b a s e do nx m l s p e c i a l t y ：c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e ：q i a ow e i i n s t r u c t o r ：l u ox i a o x i a a b s t r a c t ( s i g n a t u r e ) q 趋丛丝： ( s i g n a t u r e ) 丝逝丝： w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nc o n s t r u c t i o na n dn e t w o r kp o p u l a r i z a t i o n ，a c o n s i d e r a b l en u m b e ro fe n t e r p r i s e sh a v ep r o d u c e dm o r ea n dm o r eh e t e r o g e n e o u sd a t as t o r i e d i nd i f f e r e n tp l a t f o r m s ，d e p e n d e do nd i f f e r e n td a t a b a s em a n a g e m e n ts y s t e m ( s u c ha sx m l d o c u m e n t ，t e x td o c u m e n t ，e t c ) h o wt oi n t e g r a t ea n du s et h e s eh e t e r o g e n e o u sd a t a 、i t h d i f f e r e n tf o r m a tf r o md i f f e r e n ts o u r c e st h r o u g ht h en e t w o r ki san e e d e dw a yi nt h ep r o c e s so f e n t e r p r i s ed e v e l o p m e n t o n l yi n t h i sw a yc a ni ts h a r et h ed a t ac o m p l e t e l yi ne n t e r p r i s ei n o r d e rt om a k ei tp l a yag r e a t e rr o l e s o ，i ti sn e c e s s a r yt od os o m er e s e a r c ho nh e t e r o g e n e o u s d a t ai n t e g r a t i o nt om e e tt h i sd e m a n d f i r g l y ，t h i sp a p e rf o c u s e so nt h e o r i e sa n dt e c h n o l o g i e so fe x i s t i n gh e t e r o g e n e o u sd a t a i n t e g r a t i o nm e t h o d ，t h ex m lt e c h n o l o g ya n dt h ew e bs e r v i c e st e c h n o l o g y t h e n ，ak i n do f h e t e r o g e n e o u sd a t ai n t e g r a t i o na r c h i t e c t u r e b a s e do nx m lb yu s i n gm e d i a t o r w r a p p e r a p p r o a c hi sd e s i g n e d t h i ss t r u c t u r ea d o p t sx m ls c h e m at ob u i l dp u b l i cm o d e l s ，u s e sx m l a st h ee x c h a n g ed a t af o r m a t ，u s e sx q u e r ya st h eg l o b a lq u e r yl a n g u a g e ，m a s k st h ep l a t f o r m d i s c r e p a n c yo fd a t as o u r c e se n v i r o n m e n tb a s e do nw e bs e r v i c e st e c h n o l o g y , t os e tu pap u b l i c i n t e g r a t e de n v i r o n m e n ti nt h em e d i a t i o nw h i c hs h i e l d sa l ld i f f e r e n c e si na s p e c t so fd a t as o u r c e i n c l u d i n gt h ep l a t f o r m ，s y s t e me n v i r o n m e n ta n di n t e r n a ld a t as t r u c t u r e ，a n ds oo n i tp r o v i d e s au n i f i e da n dt r a n s p a r e n ti n t e r f a c ef o ru s e ra n di m p l e m e n t e dt h ea c c e s s i o no fi n t e g r a t e dq u e r y s e c o n d l y , t h i sp a p e rd e s i g n sa n dd e s c r i b e st h ef u n c t i o no fe a c hm o d u l ei nt h es y s t e m ， a n dd e f i n e st h ek e ym o d u l e s t h e n ，t h em e t h o df o rt r a n s f o r m i n gf r o mt h er e l a t i o ns c h e m at o x m ls c h e m am o d e li sd e s i g n e da n di m p l e m e n t e d ；ap u b l i cm o d e lo ft h ei n t e g r a t i o ns y s t e mi s c o n s t r u c t e d a na l g o r i t h mf o rg l o b a ld e c o m p o s e dq u e r y i n gb a s e do nt h ep u b l i cm o d e li nt h e q u e r yp r o c e s s o rh a sb e e np r o p o s e d i tm a k e st h es y s t e ml e s sc o u p l i n g ，f l e x i b l ea n ds c a l a b i l i t y t h r o u g he n c a p s u l a t i n ge a c hh e t e r o g e n e o u sd a t as o u r c et oaw e bs e r v i c e f i n a l l y , as t u d e n ti n f o r m a t i o nq u e r y i n gs y s t e mh a sb e e ni m p l e m e n t e db yu s i n g t h i s f r a m e w o r k ，w h i c hc a nc o m p l e t et h eh e t e r o g e n e o u sd a t aq u e r yf u n c t i o ni n c l u d i n gs t r u c t u r e d a n ds e m i s t r u c t u r e dd a t as o u r c e s t h ee x p e r i m e n tr e s u l ts h o w s t h a tt h ea r c h i t e c t u r ed e s i g n e d i nt h i sp a p e ri sf e a s i b l ea n dv a l i d a t e d k e y w o r d s ：h e t e r o g e n e o u sd a t ai n t e g r a t i o n x m lp u b l i cm o d e l x m ls c h e m a q u e r yd e c o m p o s i t i o n t h e s i s ：a p p l i c a t i o nr e s e a r c h 娄料技丈学学位论文独创性说明本人郑重声明：所呈交的学位论文是我个人在导师指导下进行的研究工作及其取得研究成果。尽我所知，除了文中加以标注和致谢的地方外，论文中不包含其他人或集体已经公开发表或撰写过的研究成果，也不包含为获得西安科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。学位论文作者签名：拜砒若日期：五研岁乡汐学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查i 剜和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西安科技大学。保密论文待解密后适用本声明。学位论文作者签名：硪指导教师妣多笔旋夕w 7 年月z 日 1 绪论 1 1 选题背景与研究意义 1 绪论随着信息化建设不断深入，相当数量的企业积累了大量的、以不同形式存储的、依赖于不同数据库管理系统的数据。由于企业内部各部门的业务和职能千差万别，信息化水平参差不齐，最初进行的信息化建设往往只考虑自身的业务需求进行系统开发，导致已有的数据库应用系统是在不同时期、根据不同需求、由不同厂商开发实施的，其开发标准、数据库平台、数据格式等不同，编码标准也很难达到统一，数据的统一性没有保证，各部门之间无法进行信息共享，形成了“信息孤岛，数据冗余现象严重，严重影响了信息化对企业的服务能力【l 】。网络技术和信息技术的不断发展，使企业存贮的信息种类也不断扩展，有越来越多的非结构化信息( 如x m l 文档、文本文件等) 不断出现。调查显示，企业中8 5 的数据是非结构化的，而超过2 5 的企业正在使用1 5 个以上的数据库【2 1 。企业内各部门在网络中已从一个孤立的节点成为不断与网络交换信息、传递信息的实体，现代企业比以往任何时候都需要进行内部数据的交换和共享。企业如何通过网络有效的利用这些大量结构化、非结构化的信息，对这些不同来源、不同格式的数据进行有效的集成访问和利用，实现企业内部的数据共享，使之在企业运行中发挥更大的作用，是企业信息化发展中的必然需求。为了满足这种需求，对异构数据集成技术的研究非常必要。异构数据集成技术的目的就是为用户提供一个访问异构信息的统一接口，其屏蔽底层数据源的不同，使得用户不必再考虑底层各数据源模型、结构组成和分布等问题，能够通过统一的查询界面实现对异构数据源的访问，用户只需指定他们想获得的数据的要求，而不必关注数据抽取、数据合成等问题【3 】。异构数据集成系统即是采用异构数据集成技术，通过提供的底层数据源数据的全局视图，实现模式转换、集成和全局查询处理等功能，使用户操作所有数据源就像操作一个数据源一样。这其中的关键是如何以一种统一的数据模式来描述各异构数据源中的数据，以屏蔽它们的平台、数据结构等的异构性，实现数据的无缝集成。本文研究的基于x m l 的异构数据集成技术是解决上述问题的一种方法：设计了一种基于x m l 的异构数据集成系统结构，其继承了数据库中间件的特点，使用x m l s c h e m a 建立公共模型，对各异构数据源数据的集成查询统一以x m l 文档形式进行交互，向用户屏蔽了底层数据源的模式异构，支持灵活的添加数据源。用户可以通过一个统一的访问界面来集成访问各异构数据源，查询所需数据，挖掘已有数据的新效用，而不需西安科技大学硕士学位论文要考虑这些数据的格式、物理分布和结构等因素。 1 2 国内外研究现状近三十年来，国内外研究学者对异构数据集成进行了大量的研究，提出了许多异构数据集成体系结构和技术方案，主要的集成模型有：联邦数据库方式、中间件方式和数据仓库等。中间件方式通过提供一个全局模式和对应各数据源的局部模式，集成来自不同数据源的数据，解决对异构平台数据库的访问【4 】。在这种技术支持下，数据库访问和网络通讯等相关部分作为一个独立的部分，开发人员可以集中精力处理业务逻辑，只需遵循一定的协议透明的和中间件进行交互便可完成数据的存取和通讯等任务。总的来说，中间件方式具有适用数据源数量大、支持数据源结构多样、查询数据更新即时和数据源部署灵活等优点，因此选用中间件方式集成异构数据源是较理想的数据集成方式。对于基于中间件技术实现异构数据集成的研究，国内外提出和实现了一些解决方案。 s t a n f o r d 大学研究开发的t s i m m i s 5 】系统采用结构化的方法，使用自描述模型 ( o e m ) 表示异构数据源，提供了集成不同数据源信息所具有的表现力和灵活性，并用模式匹配技术作预定义集进行查询。其依赖m e d i a t o r 组件结合来自异构数据源的信息， w r a p p e r t r a n s l a t o r 组件转换源数据和查询为统一模型。该系统的重点放在m e d i a t o r 规则的定义和m e d i a t o r 宣称规范语言上，而不是由数据源相关元素的语义确定。该系统的缺点是动态增加数据源非常困难。东南大学的v e r s a t i l e l 6 1 是一个基于c o r b a 的分布式异构数据源集成系统原型。它使用对象集成模型( o i m ) 作为数据集成的公共模型，在s q l 语句的基础上增加了一些构造符，形成一种对象集成查询语言作为其查询语言，可对s q ls e r v e r 、超文本数据等进行包装和集成。但这类基于传统分布式对象结构的系统主要应用于企业内部，必须在对等体系结构间才能进行通信和数据传递，其强耦合性和编程的高复杂性导致该系统不能直接运用于互联网。 x m l 的出现将基于中间件技术的异构数据集成研究推向了一个新的阶段。x m l 是一种可扩展标记语言，是w 3 c 定制的开放标准，其自描述性可方便的转换来自不同数据源的结构化和半结构化数据，这使得x m l 本身非常适用于异构数据间的交换。将 x m l 作为数据的描述工具和转换工具来构造异构数据集成中间件，不仅适合异构数据集成访问的需要，而且适合w e b 发展的需要。 m 1 7 j 系统用x m l 作为数据交换和集成的统一模型，用x m ld t d 作为交换数据的结构化描述，m e d i a t o r 视图基于d t d 结构。它的形式化集成规则基于树型结构模型表示局部d t d 模式和集成模式，但并未考虑语义模型。 2 1 绪论 w i s c o n s i n 大学和i b ma i m a d e nr e s e a r c hc e n t e r 共同研究和实现了x p e r a n t o 8 】中间件系统。该系统支持对象关系数据的x m l 发布，支持基于x m lq u e r y 的x m l 关系数据视图。它以d t d 为目标模式，不支持主键约束和外键约束的描述，也不支持多表关系约束的转化。在国内由万常选等人开发的x r e s t o r e p 中间件系统，支持x m l 文档在关系数据库中的存储和查询。该系统只针对无模式的x m l 文档进行存储和查询。由于大多数的商业数据仍然存储在关系数据库里面，因此人们对关系模式到 x m l 文档的转化表现出了极大的兴趣，并已存在相关转化工具和算法的研究。一些产品实现了关系模式到x m l 文档的转换，例如o d b c 2 x m l 、o r a c l e sx s q l 、s i l k r o u t e 1 0 , 1 1 】等工具。但大部分的工具都是为相关的数据产品服务，不支持多种异构数据库，更不支持其到x m l 的集成，o d b c 2 订l 、s i l k r o u t e 虽然支持多数据库系统，但仍不支持异构数据库的集成。同时，这些工具都是输出x m ld t d 模式，不支持x m ls c h e m a 模式。 i b m 、o r a c l e 和m i c r o s o f t 也在它们的数据库产品d b 2 、o r a c l e 和s q ls e r v e r 中增加了为关系数据创建物化x m l 视图的功能。s q ls e r v e r 目前是唯一支持x m l 视图查询的r d b m s ( r e l a t i o n a ld a t a b a s em a n a g e m e n ts y s t e m ) ，但其仅支持用x p a t h 表达的x m l 查询，查询能力非常有限。s i l k r o u t e 和x p e r a n t o 主要研究中间层x m l 视图上的 x q u e r y 到关系数据库上的s q l 查询的翻译，它们仅支持关系数据库的集成。a g o r a 主要研究将标准化的x q u e r y 查询翻译成中间层通用虚拟关系模式上的s q l 查询，仅支持关系数据库和支持d o m 接口的数据库的集成。上述这些系统和产品功能或尚不完备，或只能使用与某些特定的数据库连接，扩展性差，软件成本较高，不适合于中小规模企业及高校，总体上不尽如人意。因此，研究具有可重用性、可扩展性和可移植性等特点，可提高数据集成开发效率的异构数据集成技术是当前的研究发展方向。 1 3 研究内容和主要工作本文在学习和研究现有异构数据集成相关技术，对相关技术的优缺点进行分析比较的基础上，设计以m e d i a t o r w r a p p e r 为基本架构的基于x m l 的异构数据集成系统结构及其各组成模块。在该系统结构中以x m ls c h e m a 为异构数据集成公共模型，以x m l 为数据交换格式，利用w e bs e r v i c e s 和s o a p 技术解决异构系统的互操作问题，使系统具有较高的灵活性和良好的扩展性。本文的主要工作是： ( 1 ) 设计基于x m l 的异构数据集成系统结构，对该系统结构中每个模块进行了功能分析，设计并实现系统各组成模块的业务逻辑和算法流程，对其中的关键模块的算法和实现方法进行了详细说明。 3 西安科技大学硕士学位论天 ( 2 ) 研究并设计关系型数据库的关系模式到x m ls c h e m a 模式转换方法及集成系统中公共模型的建立方法。 ( 3 ) 设计并实现异构数据集成系统中对x q u e r y 全局查询的分解处理算法。 ( 4 ) 将各个异构数据源封装为w _ e bs e r v i c e s ，使系统具有低耦合、灵活、易扩展的良好特性，实现了异构数据源的无缝集成。 ( 5 ) 在实验阶段设计实现一个异构数据源为两种不同类型的关系数据库和一个x m l 文档的异构数据集成查询实例，实验结果证明，本文设计的基于x m l 异构数据集成系统方案及其技术是可行的和正确的。 1 4 论文组织结构本论文组织结构安排如下：第l 章绪论，介绍论文的选题背景和研究意义，国内外的相关研究现状；阐述论文的研究内容和主要工作。第2 章主要技术概述，介绍了异构数据集成的相关技术及其特点，包括常用的数据集成技术、x m l 技术和w e bs e r v i c e s 技术，指出这些技术应用在异构数据集成中的优势。第3 章基于x m l 的异构数据集成系统结构设计，选择中间件方式设计了基于x m l 的异构数据集成系统结构，并详细说明了该系统中间层工作二个阶段，建立集成模型、数据集成查询的工作过程，并对系统特点进行了总结。第4 章关键技术与算法设计，介绍了基于x m l 的异构数据集成系统结构中主要模块的设计实现。设计实现了关系数据库关系模式到x m ls c h e m a 的转换方法、公共模型的建立方法及对全局x q u e r y 查询的分解算法。第5 章异构数据集成系统运行实例，实现一个学生信息集成查询运行实例，可通过一个查询集成访问三个异构数据源，并得到集成查询结果。实验结果证明了本文所设计基于x m l 的异构数据集成系统方案和技术是可行的和正确的。第6 章总结，总结了本文的工作，展望下一步的研究工作。 4 2 主要技术概述 2 1 异构数据集成 2 主要技术概述 2 1 1 异构数据集成所涉及的主要问题实现异构数据集成所涉及的主要问题有以下几点： ( 1 ) 异构性异构性是异构数据集成面临的最主要问题。主要包括系统异构和数据异构【1 2 】。系统异构是指计算机体系结构、操作系统等不同。数据异构主要是模式的异构，数据存储模式包括关系模式、对象模式、x m l 文档树型模式等。但即使是同一类数据存储模式，它们的数据也存在着差异。例如s q l s e r v e r 所采用的数据类型和m y s q l 所采用的数据类型并不完全一致，也存在差异。 ( 2 ) 完整性异构数据集成的目的是要通过对数据源进行无缝连接，为用户提供一个统一和透明的访问接口。因此，实现异构数据集成需要在数据源内及数据源间两个方面来保证数据完整性和约束完整性【1 3 1 。数据完整性是指完整的数据提取，包括数据的正确性、一致性和相容性。约束完整性中的约束是指数据与数据之间的关联关系，是唯一表征数据间逻辑的特征。保证约束完整性是进行良好的数据发布和交换的前提，其可以加快数据处理过程，提高效率。 ( 3 ) 透明性透明性与解决异构的程度相关，决定异构数据集成系统的功能和使用的方便性，包括平台透明性、系统透明性、数据源透明性。平台透明性隐藏了硬件平台、操作系统和通讯协议等各种数据源所基于平台之间的差异，对于用户来讲，每个数据源像运行在同一个硬件软件平台上。系统透明性当数据源的数据管理系统、数据模型和语言间的差异被隐藏时，对用户来讲，每个数据源就像是用同一个数据模型来描述的，由同一个数据管理系统和数据语言来管理和维护的。数据源透明性隐藏了数据源的描述信息，由系统解决诸如数据的存储位置，数据如何被查询等问 5 西安科技大学硕士学位论文题，用户所见到的只是一个逻辑数据源。 ( 4 ) 权限控制对多个异构数据源进行数据访问时，针对需求的不同，数据源归属单位或部门的不同，数据源内数据的共享内容和范围的不同，异构数据集成需要制定某种机制，根据不同任务制定数据访问范围定义，进行权限控制。 ( 5 ) 自治性在对原应用系统的数据进行集成时，不能影响原有系统的正常运行。 ( 6 ) 扩展性异构数据集成系统应具有较好的可扩展性和适应性，能够适应数据源数目、内容以及格式等的不断变化，包括可移植性、可伸缩性及部署灵活性等。 2 1 2 实现异构数据集成的技术方法为解决异构数据源之间的互连集成问题，国际化标准组织和各数据库厂家做了不懈的努力。目前，有以下三种比较常见的异构数据源集成方式【1 4 6 1 ，分别为数据仓库、联邦数据库和m e d i a t o r w r a p p e r ( 中间件方式) 。这些方法在不同的着重点和应用上解决数据共享，为企业提供决策支持。本节将对它们进行介绍，并对其优点和缺点进行分析比较。 ( 1 ) 数据仓库数据仓库是需要建立一个存储数据的仓库，周期性的通过数据的迁移和转换 e t l ( e x t r a c t i o n ，t r a n s f o r m a t i o n ，a n dl o a d i n g ) 将局部数据源上的共享数据移植到新的数据仓库系统中，并提供查询机制。在这种结构中，所有数据源的数据都被抽取出来，合成一个全局模式，并存储在数据仓库中，这在用户看来，与一般的数据库系统差别不大。数据仓库支持对历史数据的访问，用户可以通过数据仓库提供的统一数据接口进行决策支持查询。该模式的优点是处理简单，数据集成质量好，可以为用户提供简单快速和频繁的数据访问，保证查询性能的快速和高效，还可为其它应用提供o l a p 及决策支持等功能。该模式的缺点是实施的周期较长，不能充分利用单位己有的信息投资；各个局部数据源和数据仓库上都保存数据，数据重复存储，冗余大；实现数据同步非常困难，如果数据更新不及时，将不能准确反映查询结果；不允许用户对数据仓库进行更新操作，因为这些更新不能反映到基本数据中。数据仓库适用于规模不很大，但要求查询效率高，并且数据源数据更新不多的情况下，其主要存储的是历史的和汇总的数据，用于决策支持，主要供分析或执行人员使用。数据仓库模式结构如图2 1 所示( 实际连接的数据库数量不仅仅只有三个) 。 6 2 主要技术概述 e x t r a c t i o n - t r a n s f o r m a t i o n - l o a d i n g 图2 1 数据仓厍模式 ( 2 ) 联邦数据库联邦数据库系统( f e d e r a t e dd a t a b a s es y s t e m ，f d b s ) 是由参与联邦的半自治数据库系统组成，目的是实现数据库系统间部分数据的共享，对每个数据库的操作都是独立于其它数据库和联邦的。所谓“半自治是因为联邦中所有数据库都添加了彼此访问的接口。由于联邦数据库中的所有数据源都要添加彼此访问的接口，所以需要编写大量接口程序，而且联邦数据库方式只支持数据库数据源的集成，针对现在各种结构化、半结构化、无结构信息的大量出现及访问需求，联邦数据库并不适用。联邦数据库模式结构如图2 2 所示。图2 2 联邦数据库模式该模式的的优点，在f d b s 中各数据源相互独立，一个数据源可以访问任何其它数据源提供的信息。 7 西安科技大学硕士学位论文该模式的缺点是，在f d b s 中实现互操作的方法是将每个数据库模式分别和其它所有的数据库模式进行一一映射，当参与联邦的数据库很多时，建立映射规则的任务变得十分巨大( n 值很大时，联邦中需要建n x ( n 1 ) 个映射规则) 。构建这样一个系统需要很长的开发时间，并且要求有高性能的主机设备，实现代价较高。所以异构数据集成采用 f d b s 方法只适合于数据源数量比较少的情况下。 ( 3 ) m e d i a t o r w r a p p e r m e d i a t o r w r a p p e r 方法也称为中间件方式，m e d i a t o r w r a p p e r 为用户提供一个全局模式( m e d i a t e ds c h e m a ) 将各数据源集合起来，数据仍保存在相互独立的数据源中，用户的查询在全局模式上进行，数据之间通过包装器( w r a p p e r ) 依照全局模式进行转换。 m e d i a t o r 对全局模式进行查询，根据数据源的元数据和映射规则将全局查询分解为对各个数据源的查询，然后把子查询发送到各个数据源的包装器中。包装器把子查询翻译成针对各局部数据源的实际查询，各局部数据源查询结束后将查询结果返回，由m e d i a t o r 对查询结果进行封装返回给用户。在此过程中用户不需要知道数据源的位置、模式等信息。中间件方式的结构如图2 3 所示( 这罩可连接的数据源不仅仅只有两个) 。 t 查询结果查询结果查询结果睁瞬苗苗图2 3m e d i a t o r w r a p p e r ( q b 间件方式) 模式 m e d i a t o r w r a p p e r 模式的优点：可以集成非数据库数据源；数据源的查询能力可以是受限的，数据源可以不支持s q l 查询；数据源是完全自治的，很容易向系统中添加删除数据源：动态分解针对每个数据源的查询，查询结果总是最新的：对数据源的访问通常是只读的。 8 2 主要技术概述 2 2x m ， 2 2 1x m l 简介 x m l 【1 7 1 ( e x t e n s i b l em a r k u pl a n g u a g e ，可扩展的标记语言) 是由w 3 c ( w r o r l dw i d e w e bc o n s o r t i u m ) 的x m l 工作组定义的。x m l 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ，标准通用标记语言) 的子集，其目标是允许普通的s g m l 在w e b 上以 h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 的方式被服务、接收和处理，在s g m l 和h t m l 之间互相操作。s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 是指“通用标识语言标准，它是国际上定义电子文件结构和内容描述的标准。同x m l 相比，s g m l 定义的功能很强大，缺点是它不适用于w e b 数据描述，而且s g m l 软件价格非常昂贵。h t m l 的优点是比较适合w e b 页面的开发，缺点是只有固定的标记集，缺少s g m l 的灵活性和适应性。x m l 是s g m l 的一个子集，它保持了对现有的面向s g m l 系统的向下兼容性，结合了s g m l 和h t m l 的优点并消除其缺点，使其在w e b 应用中既能利用s g m l 的长处，又保留了h t m l 的简单性。 x m l 是元标记语言，可通过它定制针对不同应用环境和要求的标记。它以统一、开放、基于文本格式的模式来自我定义和描述数据结构，在描述数据内容的同时能突出对结构的描述，从而体现出数据之间的关系。x m l 被设计为混合语言，以便在用户和程序之间交换信息。x m l 包括很多相关规范，比如文档格式化标准( s c h e m a ) ，显示模式定义( x s l ) 、文档查询标准( x q u e r y ) 、文档解析标准( s a x ) 和文档链接标准( x l i n k ) 等，基于x m l 这个底层的规范，还有很多高层的应用协议。x m l 的出现，为分布、异构的软硬件环境下的信息集成方法研究提供了一个全新的思路。 x m l 的优点： ( 1 ) x m l 是自描述的。x m l 不仅允许定义自己的一套标记，而且这些标记不必局限于对于显示格式的描述，其允许根据各种不同的规则来制定标记，比如根据商业规则、数据描述甚至数据关系来制定标记。 ( 2 ) x m l 是扩展的。x m l 允许开发各种不同专业( 如音乐、化学、数学等) 特定领域的标记语言。目前已经开发出了一些特定的标记语言，如数学标记语言m a t h m l 。 ( 3 ) x m l 的内容和形式是相分离的。x m l 文档中的标记是包含信息的，比如键字继承关系等，这些信息对于数据的检索起重要的简化作用。当只想改变数据的表现形式时，只需修改从x m l 文档中分离出的用于数据表现的样式单就可以了。 ( 4 ) x m l 支持对文档内容的验证。x m l 文档的结构和内容是由其语法定义的，非常注重准确性。x m l 制定了一整套基本要求，倘若语法有丝毫错误，分析器都会停止对它的进一步处理，保证了x m l 文档的有效性。d t d 和x m ls c h e m a 就是这类语法。 9 西安科技大学硕士学位论文 ( 5 ) x m l 适用于数据交换。x m l 可以定义各种数据，其非专有、易于阅读和编写的特性，使之成为源文档的最佳格式，成为在不同应用间进行交换数据的理想格式。利用 x m l 的这些特性，可使得只要交换数据的系统能处理x m l 文档，就能处理由x m l 标记的各种数据，从而实现了不同格式数据的跨平台交换【l 引。 ( 6 ) x m l 支持高级搜索。x m l 可以知晓文档内容的结构和含义( 根据它的语法规则) ，所以很容易在x m l 文档中进行搜索。 ( 7 ) x m l 源自s g m l 语言，是w 3 c 定制的开放标准。s g m l 和x m l 将能够长期作为一种通用的标准，从而使得基于x m l 的应用具有广泛性和持久性。 2 2 2d t d 和x 匝s c h e m a 在使用x m l 描述相同的事物时，不同的编写者可能使用不同标记和结构，造成信息交换的困难，因此需要一种机制指定应该如何用x m l 描述某一特定事物，d t d 和 x m ls c h e m a 就是专门用于检验文档是否满足某种格式要求的机制。 ( 1 ) d t d d t d 1 9 】( d o c u m e n tt y p ed e f i n i t i o n ，文档类型定义) 的作用是定义文档的语法，它规定了一个x m l 文档的文法结构的一系列规则。d t d 作为x m l l 0 规范的重要组成部分，对于x m l 文档的结构起到了很好的描述作用。d t d 实际上可以看作是一个或多个x m l 文件的模板，它列出了可用在这些x m l 文件中的元素、属性、实体和符号的表示方法，元素的排列顺序，元素能够包含的内容以及这些内容之间可能的相互关系。 d t d 可以是一个完全独立的文件，也可以在x m l 文件中直接设定，分为外部d t d 和内部d t d 两种。外部d t d 独立于x m l 文件，它可以供多个x m l 文件使用，就像用同一个模板可以写出多个不同内容的文件一样，这些多个x m l 文件因为引用同一个外部d t d ，所以它们的结构大致相同。 d t d 也存在不足： d t d 是基于正则表达式的，未使用x m l 作为其描述手段，不符合x m l 文档的语法标准而自成体系。蓬) d t d 只提供了非常有限的数据类型、不支持域名机制，在大多数应用环境下应用能力不足。 d t d 的约束定义能力不足，描述能力有限，无法对x m l 实例文档做出更细致的语义限制。 d t d 的结构不够结构化，其构建和访问并没有标准的编程接口，无法使用标准的编程方式对d t d 进行维护，重用的代价相对较高。 ( 2 ) x m ls c h e m a 2 0 0 1 年5 月，x m ls c h e m a 2 0 】规范成为w 3 c 的正式推荐标准，x m ls c h e m a 是d t d 1 0 2 主要技术概述之后第二代用来描述x m l 文件的标准。x m ls c h e m a 和d t d 都用于文档验证，但二者有一定的区别，x m ls c h e m a 拥有许多类似d t d 的准则，但又要比d t d 更为强大，最重要的是x m ls c h e m a 本身就是一个x m l 文档，可以自由地对它进行处理，且x m l s c h e m a 的描述能力更精确、更灵活，它的出现弥补了d t d 在x m l 模式定义方面的不足。 ( 3 ) x m ls c h e m a 与d t d 的比较： x m ls c h e m a 的语法完全遵循x m l 规范，符合x m l 语法，可以和d o m 、s a x 、 j d o m 等技术结合使用，功能强大。d t d 语法本身有自己的语法和要求，比较难于学习，难以和x m l a p i 相结合。例如，下列元素在d t d 中的声明如下：可以看到，该定义不但用了不合x m l 规定的名字字符，如字符“! ”，而且e l e m e n t 标识没有关闭，没有引用的属性。 x m ls c h e m a 文档完成相同功能的定义如下：可以看到，x m ls c h e m a 文档是完全符合x m l 规范的x m l 文档。 d o m 和s a x 是常用的x m la p i 。由于d o m 和s a x 只对x m l 实例文档有效，没有提供解析d t d 文档内容的功能，所以无法通过d o m 或s a x 来得到d t d 中对x m l 文档的元素、属性的声明和约束的描述。在基于d t d 的数据交换过程中，一些应用程序需要得到d t d 本身的描述内容和结构，以方便对x m l 文档中的数据进行处理，例如，在使用关系型数据库存储x m l 文档过程中，就会涉及到如何将d t d 映射为关系模式描述的问题，为了实现对d t d 解读，必须为d t d 开发新的接e l 或者专用工具，这样就带西安科技大学硕士学位论文来了很大的不便。由于x m ls c h e m a 本身就是一个x m l 文档，所以可以方便地通过使用d o m 、s a x 等x m la p i 解析x m ls c h e m a ，实现了x m l 文档及其描述模式在处理方式上的一致性，利于数据的传输和交换。 x m ls c h e m a 是内容“开放的模型，可扩展、功能强，可以针对不同情况分别对整个x m l 文档或者文档局部进行验证。d t d 是内容“封闭的模型，可扩展性差，缺乏灵活性。 x m ls c h e m a 可更灵活地描述数据，如x m ls c h e m a 允许元素的内容取空值，而 d t d 则没有此功能。例如，，表示元素“地址” 可以取空值。 x m ls c h e m a 与d t d 都支持对于元素节点顺序的描述，但d t d 没有提供对于无顺序的情况的描述，它必须采用穷举元素各种可能出现的排列顺序方式来实现，这种方法不仅繁琐，有时甚至是不现实的。例如：用x m ls c h e m a 来实现子元素的无序描述就要简单得多，x m ls c h e m a 提供t 标记来描述这种情况。 x m ls c h e m a 支持丰富的数据类型，完全能够满足网络应用的需求。d t d 不支持元素的数据类型，对于属性的类型定义也很有限。 d t d 提供的数据类型只有c d a t a ，e n t i t y ，n m t o k e

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于xml的异构数据集成技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于xml的异构数据集成技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档