




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于xml模式的异构数据库集成的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文题目: 内蒙古科技大学硕士学位论文 基于x m l 模式的异构数据库集成的研究 l i i ii i i1 111 11 11i l l liil y 17 8 9 5 7 3 作者: 李珊 协助指导教师: 论文提交日期:2 0 10 年月 日 学位授予单位:内蒙古科技大学 单位: 单位: 基于x m l 模式的异构数据库集成的研究 a s t u d y o nh e t e r o g e n e o u sd a t a i n t e g r a t i o nb a s e d o nx ,s c h e m a 研究生姓名:李珊 指导教师姓名:谭跃生 内蒙古科技大学信息工程学院 包头0 1 4 0 1 0 ,中国 c a n d i d a t e :l is h a h s c h o o lo f i n f o r m a t i o ne n g i n e e r i n g i n n e r m o n g o l i au n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g y b a o t o u0 1 4 0 1 0 ,p & c h i n a 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并 表示了谢意。 签名: 垄逍日期:丝! 里:互出 关于论文使用授权的说明 本人完全了解内蒙古科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 , ( 保密的论文在解密后应遵循此规定) 签名: 查巡导师签名:獐次垒日期:童坌丝。佥丝 内蒙古科技大学硕士学位论文 目录 摘要i a b s t r a c t 1 i 第一章绪论1 1 1 研究目的和意义l 1 2 数据集成的硼贫观状l 1 3 异构数据库集成时所面临的问题3 1 4 楫小结5 第二章x m l 概述6 2 1x m l 的优势7 2 1 1 内容和表现形式分离7 2 1 2 良好的可扩展性。7 2 1 3 良好的移植性。8 2 1 4 良好的自描述性8 2 2x m l 相关习支米8 2 2 1 文档类型定义8 2 2 2 :i :】m l ,s c h e m a 9 2 2 3 命名空间( n a m e s p a c e ) 9 2 2 4 :爆】l ,9 2 3d i d 与x m ls c h e m a 对比9 2 4 本章小结10 第三章异构数据库集成1 1 3 1 异构数据库集成涉及的主要问题。1 1 3 2 数据集成方法简介1 2 3 3 异构数据源集成系统的难点及关键技术。:1 2 3 4 异构数据库中数据异构的类型1 3 3 4 1 数据异构l3 3 4 2 语义异构1 3 3 5 异构数据集成的基本过程1 4 3 6 本章小结1 5 第四章异构数据源集成解决方案1 6 4 1 集成策略1 6 4 2 集成框架结构16 4 3 框架特点18 内蒙古科技大学硕士学位论文 4 4 楫小结18 第五章关系模式与x m ls c h e m a 双向映射方法19 5 1 沮。与关系模式的两种映射方法19 5 1 1 基于模板驱动的映射1 9 5 1 2 基于模型驱动的映射2 0 5 1 3x m ls c h e m a 中的基本数据类型2 2 5 1 4 咀。s c h e m a 的简化2 4 5 2 关系模式到x m l 模式映射模型2 6 5 2 1 关系稹式到x m ls c h 锄n a 的映射流程2 6 5 2 2 映射模型定义2 7 5 3x m ls c h a n a 到关系模式的映射3 0 5 3 1 ,s c h e m a 结点树的定义3 0 5 3 2 映射规则定义 5 4 本章小结3 6 第六章实现3 7 6 1 数据库引擎的实现3 7 6 2x m l 解析器的实现3 9 6 3 关系模式到x m l 映射的实现 6 4x m l 到关系模式映射的实现4 0 6 5 本章小结4 2 结论4 3 参考文献 致谢4 8 2 内蒙古科技大学硕士学位论文 摘要 随着信息技术的发展,信息数据不仅在量上与日倍增,在存储方式上也越来越形式多 样。原有的信息系统在面对异构数据源的访问和集成问题时越来越无计可施。为了充分、 有效地利用各种载体形式的信息数据,解决系统中存在大量冗余数据、垃圾数据、信息孤 岛等问题,实现各个异构数据源之间的数据共享和集成,本文提出了一种基于x m l 模式的 异构数据源集成的解决方案。 数据集成的目的是提供一个访问异构数据源的统一接口,使用户不必考虑数据模型的异 构性、数据抽取、数据合成等问题,用户只需指定他们想要的数据,而不必描述怎样得到 数据。本文深入地研究了目前异构数据源集成系统的国内外研究和应用现状,分析了目前 异构数据源集成系统面临的突出问题,如异构性、完整性、语义冲突和集成内容的限定等 方面的问题。针对存在的诸多问题,本文提出了采用一种“数据交换中心 的思想来有效 解决不同企业应用系统之间的协同工作的集成策略,通过采用统一的数据交换标准,使各 应用系统与数据交换中心相连,利用数据交换中心来实现数据共享和交换。 本文在充分论证了x m l 在解决异构数据源集成问题上的可行性和优越性,并且在比较 了基于模板驱动和基于模型驱动的两种x m l 到关系模式的映射方法的优缺点的基础上,最 终采用基于模型驱动的映射方法,进一步定义了x m l 与关系模式双向映射的详细映射规 则,最终用程序实现了异构数据源的集成。 关键词:x m ls c h e m a ;关系模式;数据集成 - l ,i 内蒙古科技大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g y , n o to n l yi n f o r m a t i o na n dd a t aa r ei n c r e a s i n g i nq u a n t i t y , b u ta l s ot h es t o r a g em e t h o d sa r eb e c o m i n gm o r ea n dm o r ed i v e r s e t h ee x i s t i n g i n f o r m a t i o na n dd a t as y s t e m sh a v eb e e nm o r ea n dm o r eh e l p l e s si nt h ef a c eo f h e t e r o g e n e o u sd a t a s o u i c o sa n di n t e g r a t i o np r o b l e m s i no r d e rt of u l l ya n de f f e c t i v e l yu s ei n f o r m a t i o na n dd a t ao f v a r i o u sc a r r i e rf o r m s ,t os o l v eal o to f r e d u n d a n td a t ae x i s t i n gi nt h es y s t e m , g a r b a g ed a t a , i n f o r m a t i o ni s l a n d sa n do t h e ri s s u e s ,a c h i e v i n gd a t as h a r i n ga n di n t e g r a t i o na m o n gv a r i o u s h e t e r o g e n e o u sd a t as 0 1 o e s ,t h i sp a p e rp r e s e n t sa k i n do f x m l - b a s e x im o d e lo f h e t e r o g e n e o u sd a t a i n t e g r a t i o ns o l u t i o n s ( h d i s ) t h e p u r p o s ei st op r o v i d ed a t ai n t e g r a t i o no f h e t e r o g e n e o u sd a t as o u r c e s t oa c c e s sat m i f i e d i n t e r f a c er e g a r d l e s so f t h eh e t e r o g e n e i t yo f d a t am o d e l s , d a t ae x t r a c t i o n , d a t ai n t e g r a t i o na n do t h e r i s s b e sa m o n g s tu s e r sj u s ts i m p l ys p e c i f y i n gt h e md e s i r e dd a t a n on e e dt od e s c r i b eh o wt og e t d a t a i nt h i ss t u d y , c u r r e n ts y s t e m so f h e t e r o g e n e o u sd a t as o u r c ei n t e g r a t i o na n da p p l i c a t i o no f d o m e s t i ca n df o r e i g nr e s e a r c ha m p r e s e n t e di nd e p t ha n dc u r r e n th e t e r o g e n e o u sd a t ai n t e g r a t i o n s y s t e mf a c i n gp r o m i n e n tp r o b l e m ss u c ha sh e t e r o g e n e i t y , i n t e g r i t y , s e m a n t i cc o n t r a d i c t i o na n d r e s t r i c t i o nc o n t e n t so f i n t e g r a t i o ni sa n a l y z e dd e a r l y a c c o r d i n g l y , i tp r e s e n t sad a t ae x c h a n g e c e n t e r ( d e c ) a i m e dt oe f f e c t i v e l ya d d r e s sd i f f e r e n te n t e r p r i s ea p p l i c a t i o n sa n di n t e r o p e r a b i l i t y b e t w e e l ls y s t e mi n t e g r a t i o ns t r a t e g yt h r o u g ht h eu s eo f u n i f i e dd a t ae x c h a n g es t a n d a r d st oe n a b l ea l l a p p l i c a t i o n sa n dd a t ae x c h a n g ec e n t e rt ol i n kt ot h eu s e o f d a t a e x c h a n g ec e n t e r , a c h i e v i n gd a t a s h a r i n g a n d e x c h a n g i n g i nt h i sp a p e r , i tf u l l yd e m o n s t r a t e dt h a tt h ex m l i n t e g r a t i o nh a sg r e a tf e a s m i l i t ya n d s u p e r i o r i t yi ns o l v i n gt h ep r o b l e mo f h e t e r o g e n e o u sd a t as o u g o 路a n dc o m p a r a t i o nf o rs t r e n g t h sa n d w e a k n e s s e so f t h et w ox m lm o d e so f m a p p i n gr e l a t i o n sb a s e do nm o d e l - d r i v e na n dt e m p l a t e - d r i v e nw e r em a d e i nt h ee n d , af i n a lm a p p i n gb a s e do nm o d e l - d r i v e na p p r o a c hw a sc h o s e na n d f u r t h e rd e f i n i t i o no f t h ed e t a i l e dm a p p i n gr u l e sf o rx m la n dt w o - w a y r e l a t i o n s h i pm a p p i n gw a s o b t a i n e d , a c h i e v i n gt h ei n t e g r a t i o no f h e t e r o g e n e o u sd a t as o u l o 嚣t h r o u g hp r o g r a m m i n g k e yw o r d s :x m ls c h e m a ;r e l a t i o n s h i pm o d e l ;d a t ai n t e g r a t i o n 卜l 【 内蒙古科技大学硕士学位论文 第一章绪论 信息技术的迅猛发展和i n t o n e t 技术的广泛应用,给人们的生活、工作和学习带来 了极大的方便。但随着人们对信息综合利用需求的进一步提高,i n t e m e t 的局限性也凸 现出来,因为计算机互联网络实现的是一种硬件的连通,所连接起来的信息大部分是异 构的,形成了一个个信息孤岛,这些异构数据很难达到互联互通,真正实现数据的共 享。信息的不一致造成有限的信息共享、缺少数据交换是制约实现数据综合利用的主要 瓶颈。因此,如何找出并消除异构数据库中数据的冲突、异常,进行数据集成,是实现 信息综合应用必须解决的关键问题。 1 1 研究目的和意义 数据集成的目的【1 1 是提供一个访问异构数据源的统一接1 2 1 ,使用户不必考虑数据模 型的异构性、数据抽取、数据合成等问题,用户只需指定他们想要的数据,而不必描述 怎样得到数据。这样就减轻了用户寻找相关数据源以及数据源之间交互后合并结果的负 担。数据集成平台提供了底层数据源存储数据的统一视图,这样用户访问所有异构的数 据源就像操作一个数据源一样。 1 2 数粼的研飙状 异构数据库集成【2 】是一个不但与各种数据库有密切联系,而且有别于各种数据库的 新的领域。它的研究目标是对物理上分布的多个不同结构的数据库,在尽可能少地影响 本地自治性的基础上,构造具有用户所需要的透明性的全局数据库,以实现数据的共享 和透明访问。每个数据库系统在加入异构数据库系统之前就已经存在,拥有自己 d b m s ,异构数据库的各个组成部分具有自身的自治性,在实现数据共享的同时,每个 数据库系统仍保有自己的应用特性、完整性控制和安全性控制,异构数据库系统的异构 性主要体现在以下几个方面: ( 1 ) 计算机体系结构的异构:各个参与数据库系统的可以分别运行在大型机、小 型机、工作站、p c 或嵌入式系统中。 ( 2 ) 基础操作系统的异构:各个数据库系统的基础操作系统可以是u n i x 、 w i n d o w s n t 、d o s 等。 ( 3 ) d b m s 本身的异构:可以是同为关系型数据库系统的o a r c l e 、s q l s e w e r 等,也可以是不同数据类型的数据库,如关系、模式、层次、网络、面向对象、函数型 数据库共同组成一个异构数据库系统【3 】o - t 内蒙古科技大学硕士学位论文 异构数据库集成的主要难点是如何解决不同平台不同数据库之间的数据通信和多个 数据源的集成。近年来,国外在这方面的研究较多,也取得了一些成果,但只能够解决 数据结构集成,在语义集成方便还是存在着不足。 我国数据库技术的发展大致开始于7 0 年代中、后期。国内近几年来,对异构数据 库的研究工作开展得比较多,有关异构数据库的文献和产品也层层推出。他们虽然对异 构数据库作了不少的研究工作,但大都是在有特定的工程环境下进行的。对一般工程环 境下异构数据库集成问题,一直没有广泛接受且行之有效的方法。 目前,集成异构数据库主要有以下四种方梨3 】: ( 1 ) 给各种异构数据库都建立用户交互接口【4 】,不进行任何模式的集成。这种方 法实现简单,但用户不能透明访问数据,而且增加新的异构型数据库时,必须增加新的 接口不利于系统的扩充。 ( 2 ) 建立联邦数据库系统f d b s s l ( f e d e r a t d td a t a b a s es y s t 锄) 。它是由一组互相协 作的,但保持各自自治性的成员数据库系统组成,各个成员数据库之间仅存在着松散的 联邦式藕合关系,没有全局统一模式,它们通过定义输入、输出模式进行彼此之间的数 据访问,从而实现不同程度的数据集成;因此它可以在维持局部成员数据库自治的前提 下,对异构的成员数据库进行部分的集成,并提供数据的共享和透明的访问,具有分布 性、自治性和异构性的特征。联邦数据库系统代表没有集成和完全集成的折中方案,这 种方法比较复杂,不适合普通应用系统的使用,一般由大型数据库厂商开发。 ( 3 ) 利用软件厂商提供的现成中间件1 6 1 集成异构数据库。中间件位于异构数据库系 统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据库系统,向上为访问集成数 据的应用提供统一数据模式。该方法不需要改变原始数据的存储和管理方式,使用方 便,但是价格太高。 ( 4 ) 建立数据仓库 7 1 。它是把来自于多个数据库的数据副本都存储在单一的数据库 中。在这种结构中,所有数据库的数据都被抽取出来,合成个全局模式,并存储在数 据仓库中,这在用户看来与一般的数据库系统无异。数据仓库支持对历史数据的访问, 用户也可以通过数据仓库提供的统一的数据接口进行决策支持的查询,只是该方法需要 实现数据的定期更新。 通过以上对目前国内外实现异构数据库集成状况的分析比较,各种方案都各有利 弊,从实用的角度来看上述方案都不能解决目前中小企业部门存在的异构数据库的数 据集成问题。 x m l 逐步成为数据表示和信息交换的工业标准,它为异构及不同平台的关系数据 库,提供了数据传送的平台,而且具有强大的网络传输功能。因此,可以很好的解决异 构数据库之间的数据通信问题。 内蒙古科技大学硕x - e # 位论文 1 3 异构数据库集成时所面临的问题 异构数据源集成是数据库领域的经典问题,并随着x m l 技术的兴起,再次成了该 领域研究的一个热点。从目前的研究来看,数据源的集成一般是指对数据访问的集成, 即提供统一的访问机制,并不包括对不同数据源数据之间的集成。本文扩展了集成的概 念,在访问集成的基础上,进一步支持不同数据源数据之间的简单集成。单从集成角度 看,企业异构数据源集成,与普遍的异构数据源集成问题没有本质区别,具有同样的共 性问题。然而,从为企业应用构建支撑系统的角度来讲,必须考虑企业异构数据在集成 过程中所遇到的特殊问题。总的来看,作者认为在构建企业异构数据源集成系统时,主 要会面对以下几方面问题: 异构性: 异构性是企业异构数据集成必须面临的首要问题,其主要表现在两方面 8 1 : ( 1 ) 系统异构,数据源所依赖的应用系统、数据库管理系统乃至操作系统之间的 不同构成了系统异构。 ( 2 ) 模式异构,数据源在存储模式上的不同。一般的存储模式包括关系模式、对 象模式、对象关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。需要注 意的是,即便是同一类存储模式,它们的模式结构可能也存在着差异。例如o r a c l e 所采 用的数据类型与s q ls e r v e r 所采用的数据类型并不是完全一致的。 完整性: 异构数据源数据集成的目的是为应用提供统一的访问支持。为了满足各种应用处理 ( 包括发布) 数据的条件,集成后的数据必须保证一定的完整性,包括数据完整性和约束 完整性两方面: ( 1 ) 数据完整性是指完整提取数据本身,一般来说,这一点较容易达到。 ( 2 ) 约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑 的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程, 提高效率。该部分是论文研究的重点之一。 性能: 网络时代的应用对传统数据集成方法提出了挑战,提出了更高的标准。一般说来, 当前负责集成的应用必须满足:轻量快速部署1 9 ,即系统可以快速适应数据源改变和低 投入的特性。 语义冲突: 信息资源之间存在着语义上的区别。这些语义上的不同可能引起各种矛盾。造成异 构主要由于下面的几个问题1 0 】: 不同的信息源使用多种术语( 词汇) 表示同意概念; 内蒙古科技大学硕士学位论文 同一概念在不同的信息源中表达不同的含义: 各信息源使用不同的结构来表示相同( 相似) 的信息: 各信息源中概念之间存在着各种联系,但因为各信息源的分布自治性,这种隐 含的联系不能具体体现出来。 而在语义异构中语义冲突是最复杂的问题,所面临的语义冲突举例【1 q 说明: 值_ 值冲突:相同的数据表示不同的值。如同一数字分别用米和厘米做单 位,它就表示不同的长度; 属性一属性冲突:不同数据源对相同实体的属性采用不同的定义方法,例如 人的姓名在一个库中是姓名,在另外一个数据库中则采用姓、名分开定义的方 式; 夺表表冲突:相同的实体在不同的数据库具有不同的表现形式; 值一属性冲突:在某一表中被表示为属性名,而在另外一张表中被表示为属 性值; 值表冲突:在某一数据库中被标明是表中某属性的值,而在另个数据库 中则表示表名; 属性表冲突:某一数据库中的属性名被表示成另一数据库的表名。 权限瓶颈 由于数据库资源可能归属不同的单位,所以如何在访问异构数据源数据基础时原有 数据库的权限不被侵犯,实现对原有数据源访问权限的隔离和控制,为连接异构数据资 源库必须解决的问题。作者将该问题定义为权限瓶颈问题。 附加约束 集成两个或多个数据源的时候,数据源的数据之间可能存在着某种联系,保存在不 同资源库中的关于同一套工装的信息之间存在着一定的逻辑联系。那么,把这种逻辑联 系附加到集成结果中的过程就称为附加约束。 集成内容限定: 多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义要集 成的范围,就构成了集成内容的限定问题。 上面列举了在构建企业异构数据源集成系统时所必须面对的几个主要问题,其中, 异构性、完整性、性能、语义冲突问题为异构数据集成中的共性问题,权限瓶颈、附加 约束和集成内容的限定则属于企业异构数据集成的特性问题。值得指出的是,尽管作者 对问题进行了分类,但事实上,这些问题是相互联系、相互制约的,不应该简单的孤立 对待。 r。 - 一一 解决方案,并基于 1 4 本章小结 y ,l 一 内蒙古科技大学硕士学位论文 第二章舭概述 利用x m l 模式来完成异构数据库集成是我们研究的重点,即通过研究x m l s c h e m a 与关系模式的双向模式映射算法,实现x m l 与r d b 的双向数据转换。这些研 究内容由两部分组成:基于模式映射的x m l 到r d b 的映射算法、基于模式映射的 r d b 到x m l 的映射算法,在第5 章有详细的介绍。 x m l 到r d b 转换的基础是x m ls c h e m a 到关系模式的映射算法,为了对现有算 法有一个清晰描述,作者根据两个指标:映射采用的模式描述语言类型是d t d 或 x m l s c h e m a ;映射过程是只注重数据结构转换或在数据结构合理转换的基础上做到 了语义约束的保留,将现有算法分为四类: l 、面向数据结构的d t d 到关系模式转换算法a d e u t s c h 等人在1 9 9 8 年进行的 s t o r e d 项目中对这个问题进行了首次尝试,他们采用数据模式发现技术,根据x m l 事例文件获得一个合理的x m l 模式描述d t d ,然后研究d t d 到关系模式的映射算 法,该算法可以处理无d t d 的x m l 文档,也可以处理非有效的x m l 文档【埘。 r b o u n e t 在x m l 到关系模式转换方面的策略是以对象关系数据库为中介,先将x m l 转换为对象关系数据,然后再转换到关系数据【l 。j s h a n m u g a s u n d a r a m 提出了三个著名 的内嵌算法,是面向数据结构方面最著名的转换算法 【仞。另外还有d f l o 蝴t 埘、 g k a p p e l t l 4 1 ,m i ( 1 e t ( e 【1 5 l 等人的算法。 2 、保留语义约束的d t d 到关系模式映射算法第一个在数据结构正确转换基础上提 出数据语义约束保留的是l e ed o n g w e n 博士,他在j s h a n m u g a g u n d a r f l m 内嵌算法【l l 习的 基础上,对d t d 的语义约束特征进行了分析,对数据语义约束转换的意义、方法、实 现算法进行了完整的描述,并在参考文献【1 6 件提出了模式映射过程中的语义约束保留 问题,该论文被评为2 0 0 0 年在美国盐湖城举行的第1 9 届概念( c o n e e p t u a lm o d e l i n g 2 0 q 0 际会议最佳论文。 ) 3 国、面向数据结构的x m ls c h e m a 到关系模式映射算法l e e d o n g w o n 博士对x m l s c h a n a 的语义约束特征1 7 1 、x m l 模式描述语言比较方面1 8 1 进行了大量研究,提出了面 向数据结构的统一x m ls c h e m a ( 包括x m l - s c h a n a ) n 关系模式的映射算法刚,但该算 法尚不能实现x m l - s c h e m a 语义约束的保留。 4 、保留语义约束的x m i , - s c h a n a 到关系模式映射算法本文作者提出保留语义约束 的x m ls c h e m a 到关系模式映射算法。 从上述分析可以看出,在参考文献 2 1 1 1 2 2 之前的研究尚不能处理保留语义约束的 x m l s c h e m a 到关系模式的映射算法,本章集中研究一种保留语义约束的x m ls c h e m a 到关系模式的映射方法。为此,首先介绍x m l 技术与x m ls c h e m a 的新特点、比较了 内蒙古科技大学硕士学位论文 x m ld t d 与x m ls c h e m a ;提出集成框架和x m ls c h e m a 与关系模式的双向映射算 法;设计实验路线、选择多种数据源,用程序对本章算法进行验证与分析;最后对本章 工作进行总结,指出主要技术突破和不足之处。 x m l 2 3 】即可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是一种平台无关的表示数 据的方法。简单地说,使用x m l 创建的数据可以被任何应用程序在任何平台上读取。 甚至可以通过手动编码来编辑和创建x m l 文档。和 r r m l 语言一样,x m l 也是从 s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 进化而来的。h t m l 主要关注于数据的显 示格式,而x m l 则重点用于表示数据内容。 x m l 标记语言为描述结构化文本提供了一种开放标准,它不仅可以描述传统的文 本文件,也可以描述电子商务信息和关系数据库等复杂数据。用x m l 文档来传送数据 能极大的提高系统的平台独立性。因此,x m l 正逐渐成为互联网上的一种标准的数据 交换格式。 x m l 模式是指用来描述x m l 结构、约束等因素的语言,例如x m ls c h e m a 、 x m l d t d 、x d r 、s o x 等等。x m l 模式类似于关系数据库模式,他们规定了数据应 该符合的规则,能够证实秋精确地定义词汇表,以检验x m l 文档的合法性。 目前,x m ld t d 是使用比较广泛的一种x m l 模式,但由于x m l d t d 并不能完 全满足x m l 自动化处理的要求,例如不能很好实现应用程序不同模块间的相互协调, 缺乏对文档结构、属性、数据类型等约束的足够描述等等,所以w 3 c 于2 0 0 1 年5 月正 式推荐x m l s c h e m a 为x m l 的标准模式。本身也是x m l 的一种应用,而x ml d t d 则有着与x m l 完全不同的格式。另外,x m ls c h e m a 相比x m l d t d ,提供了更完善 的数据类型支持,不仅内置了如f o n g ,i n t ,s h o r t ,d o u b l e 等三十七种数据类型,还支持 用户自定义数据类型。因此,x m ls c h e m a 正在逐渐代替x m ld t d t l 3 l 。 2 1x m l 的优势 2 1 1 内容和表现形式分离 在h t m l 中数据内容和表现形式是混在一起的,这样当改变数据的表现形式时更 新文档的工作量很可观。同时,对于x m l 文档而言,标记是包含信息的,比如关键字 继承关系等,这些信息对于数据的检索描述起着巨大的简化作用。当只想改变数据的表 现形式时只需修改从x m l 文档中分离出的用于数据表现的样式表就可以了。 2 1 2 良好的可扩展性 x m l 允许程序员制定自己的标记集满足自己的需要,同样一个行业或某特定人 群,也可以制定在自己范围内的通用标记集。这样x m l 可以轻松地适应每一个领域而 内蒙古科技大学硕士学位论文 无需对语言本身作大的修改,另外要说明的是x m l 的数据定义也是与数据本身分离独 立存在的,这样使x i v l l 的标记集不致日益扩大。对于有特殊要求的人,他们可以选用 需要的标记集。现在比较典型的例子是c m l 化学置标语言和m a t h m l 数学置标语言。 这两种语言都是利用了x m l 的扩展性这特点。 2 1 3 良好的移植性 x m l 语言可以定义各种数据,像文本图像声音等。这些数据往往有很多种不同的 格式使得数据不能在各系统之间交流,或使用额外的转换软件来实现跨平台的交流。 x m l 的这个特性使得只要交换数据的系统都能处理一种格式的文件即x m l 文档,就 能处理由x m l 标注的各种数据,从而实现了不同格式数据的跨平台交换。 2 1 4 良好的自描述性 良好的自描述性使得x m l 数据可以被不同的应用程序分析处理c 2 3 l ,并且x m l 的 自描述性可以使一篇x m l 文档被人理解,通过标记元素之间的关系数据,要表达的内 容就会一清二楚了。标记 m a 瑚g e 陶职位 ,可以很明白地表示出有个职位是经 理,数据m a n a g e r 代表的是一个由标记表述的信息名字。对于一份完整的x m l 文档而 言包括三个部分:数据、标记和样式。数据部分是x m l 的核心,通常是与数据库紧密联 系的。现在数据在网页中的作用越来越大,这就要求有更好的处理数据的方法,可仅有 数据是不够的。x m l 的处理程序还不能识别这些数据,所以还需要为这些数据提供标 记说明,将信息通过标记和数据传给处理程序,使数据得以正确使用。标记说明这部分 数据的信息通过一定的格式和说明传递给x m l 的处理程序,对于数据本身标记没有任 何作用。标记只是体现数据的特性和数据间的关系。说明标记的常用方法是使用d t d 文档类型定义。近来出现了另一种方式s c h e m a ,它具有超过d t d 的优势,可以预计 s c h e m a 将取代d t d 成为新的x m l 数据类型定义方式。 2 2 1 文档类型定义 文档类型定义d t d 是用来定义x m l 文档结构的瞄】。实际上可以看作一个或多个 x m l 文件的模板,这些x m l 文件中的元素、元素的属性、元素的排列方式j i 顷序、元 素能够包含的内容等,都必须符合d 1 m 中的定义。将舳文档和它的d t d 文件进行 比较分析,看是否符合d 巾规则的过程称“验证( v a l i d a t i o n ) 。它是由x m l 解析 器( p a r s e r ) 来完成的。如果该文档与d t d 中列出的约束规则相匹配,则认为该文档是 有效的;如果该文档与约束规则不匹配,则认为该文档无效。一个有效的x m l 文档不 内蒙古科技大学硕士学位论文 仅遵循x m l 的语法规则,而且受到d t d 词汇表规则的约束。d t d 和验证型解析器, 能组成了一种可靠的错误检测机制,保证x m l 文档的完整性和有效性。 d t d 有许多优点,它相对简单,语法紧凑,而且广泛地为x m l 实现者所理解如 果设计得当,它可以是高度模块化的、灵活的和可扩展的。然而,d t d 还是有一些不 足。它采用独有的非x m l 语法,不能很轻易地支持命名空间,而且提供非常有限的数 据类型,仅适用于属性。 2 2 2x i 讧ls c h e m a x m ls c h e m a 2 6 是一种描述信息结构的模型。它用来定义x m l 文件的文本结构、 数据类型等x m l 文件描述规则。并为一类文档建立了一个模式,规范了文档中的标记 ( t a g ) 和文本t e x t 可能的组合方式。s c h e m a 包含了d t d 的所有功能。 2 2 3 命名空间( n a m e s p a c e ) x m l 通过u r i ( u n i v e r s a lr e s o u r c ei d e n t i f i e r ,统一资源定位) 描述名字空间网,避免 了重复,一个x m ls c h e m a 文件可以引用一个或多个命名空间的名字来定义目标命名空 间的名字。一般的,h t t p :w w w w 3 o r g 2 0 0 1 x m l s c h e m a 被作为根部模式描述来定义新 模式,在定义目标命名空间时,也可以引用已定义的多个命名空间。 2 2 a x s l x m l 的一个最重要的特性是把内容和显示格式分开。这样带来了很大的好处,可 以让不同的用户按照各自希望的格式显示同一x m l 文档的数据内容。这也就意味着 x m l 文档本身并没有关于格式方面的信息。为x m l 文档提供格式信息的是样式表, 适用于x m l 文档的样式表语言有x s l 和c s s 2 语言。c s s 2 语言既可以用于h t m l 文 档、也可以用于x m l 文档;而x s l 是专为x m l 设计的样式表语言,并采用x m l 语 法。x s l 的优势在于它可以用于转换,当然x s l 也可以把x m l 文档转换为h t m l 格 式。而且同一个样式表可以用于多个具有相似源树结构的文档。显示的媒介不仅限于 w e b 浏览器,还可以是印在纸上的书和报告等。处理x s l 样式表的是x s l 样式表处理 器。样式表处理器接受一个x m l 文档或数据,以及x s l 样式表,输出特定样式的显 示。其显示格式根据x s l 样式表确定。这个处理过程分两步进行。首先,从x m l 源树 构建一棵结果树,然后,翻译结果树,产生作用于显示器或纸或其它媒介的显示。第一 步被称为树转换,第二步成为格式化,在x s l 规范中有详细说明。 2 3d t d 与x m l s c h e m a 对比 内蒙古科技大学硕士学位论文 x m l 的可扩展性表现在用户可以定义标记以及标记之间的嵌套关系,而文档类型 定义d t d ( i d e m n e n tt y p ed e f i n i t i o n ) 就是实现标记定义的语言。它定义了文档的逻辑结 构,规定了文档中使用的元素、实体、元素的属性、元素与实体之间的关系。根据 d t d 可检查x m l 文档中的数据,以验证是否符合规定和要求,可以保证x m l 文档数 据的正确性和有效性。使用d t d 虽然方便,但是d t d 存在一些缺陷,一是它用不同于 x m l 的语言编写,需要不同的分析器技术。这增加了开发商的负担,降低了软件瘦身 的可能性。此外开发人员需要多学一门语言及其语法。二是d t d 不支持名称空间。随 着大部分的数据处理日益以x m l 为中心,信息的交互变得普及和深入,名称空间的作 用也凸现。三是d t d 在支持继承和子类方面的局限性。由于面向对象技术的出现,对 继承和子类技术的支持成为软件技术领域的主流概念。此外,d t d 没有数据类型的概 念,无法对特定元素使用特定数据类型,对强制性结构化无计可施。 x m l s c h e m a 2 s j 是继d t d 之后用来描述x m l 文件的第二代标准,用来定义x m l 文档类型的语言,规定x m l 文档的数据类型及组织方式。同时还有丰富描述功能的元 数据资源,x m ls c h e m a 以文件的方式,拥有许多类似d t d 的准则,但要比d t d 强 大一些,可以克服上面所述d t d 的缺陷。s c h e m a 主要验证数据的显示格式是否正确及 是否超出值域范围;所有必需的信息存在;确保不同使用者对文档理解
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国无镀铜实芯焊丝市场调查研究报告
- 2025年中国带充电探照灯市场调查研究报告
- 2025年中国六角型彩砖塑料模具市场调查研究报告
- 车辆号牌使用权纠纷调解处理合同
- 股权激励财务顾问合作协议书
- 2025年人教版小学二年级语文(上册)期末考卷及答案
- 闽教版小学六年级下册科学期末考试试卷附答案
- 2025年高速在线检测设备项目立项申请报告
- 2025年过程校验仪项目提案报告
- 黑水虻转化农业有机废弃物过程中的氮固定与氮减排效应研究
- 拆除与清运合同协议书
- 2025年中级会计实务考试解析方法试题及答案回顾
- 食品许可证初级考试试题及答案
- 执业医师考试重要法律法规试题及答案
- 统编版2024-2025第二学期小学六年级期末语文测试卷(有答案)
- 2025《银行专业实务(银行管理)》初级银行人员高分必会试题库1000题-单选400题
- 咖啡师考试试题及答案
- 烟花爆竹经营安全培训
- 会计核算中的权责发生制与收付实现制试题及答案
- 2025年人教版新教材数学一年级下册期末复习计划
- 2024版压力容器设计审核机考题库-多选3-2
评论
0/150
提交评论