




已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基丁二x m l 的异构数据交换和校网网中的虑川 摘要 随着高校校园网的普遍应用,校园网技术得到了迅速,许多高校都建立数字校园,高 校信息化建设初具规模。但是数字校园建设是一项复杂的工程,而且时间跨度大,伴随着 校园网的逐渐建设完善过程中,也产生了一些问题。由于各系统都是自行开发的,采用的 数据库管理系统不相同,数据库的结构也不一致,造成各应用系统之间不能互通互联,无 法实现共享,导致信息不及时、不一致、利用率低下。因此,如何对异构数据进行有效的 转换和整合已成为数字校园建设中的需要解决的重要环节。 本论文以校园网中异构数据为基础,根据异构数据库系统之间的数据转换的实际需 求,提出了基于x m l 实现异构环境下的数据整合模型,为提高校园网的数据资源管理奠 定了基础。 论文首先研究了异构数据交换相关技术和理论,分析了传统的数据交换实现方法与其 中所存在的问题,通过研究分析x m l 技术及其在数据交换中的优势,提出了基于x m l 实现异构环境下的数据整合的解决方案。论文对数据整合中的主要部分异构数据转换 问题进行了研究,分析设计了异构数据交换模型,分别从x m l 与关系数据库的模式映射、 x m l 与关系数据库的数据格式映射以及异构数据库间借助于x m l 实现大对象数据交换等 方面分析了基于x m l 实现数据交换的可行性;在此基础上给出了一个基于x m l 的异构数 据库交换的三层模型,并对模型的功能结构、交换流程与实现过程进行了详细分析,并且 在j a v a 环境下,借助于j d b c 、d o ma p i 等技术通过x m l ,实现了o r a c l e 数据库与s q l s e r v e r2 0 0 0 数据库之间的数据转换。 关键字:校园网,x m l ,关系数据库,异构数据交换 基1 :x m l 的异构数据交换在校矧网中的府川 t h ea p p l i c a t i o no fd a i ae x c h a n g eo f h e t e r g e n e o u so nc a m p u sn e t w o r kb a s e dx m l a b s t r a c t w i t ht h ea p p l i c a t i o no fc a m p u sn e t w o r k sw i d e l y , t h et e c h n o l o g yo fc a m p u sn e t w o r k sa r e g r o w i n gr a p i d l y m a n yu n i v e r s i t i e sh a v ep u t d i g i t a lc a m p u s o nt h e i ra g e n d a , d e v e l o pt h e u n i v e r s i t yi n f o r m a t i o n i z a t i o nc o n s t r u c t i o n b u t i t sac o m p l i c a t e de n g i n e e r i n g o f “d i 百t a l c a m p u s ”a n ds p a nl o n gt i m et ob u i l d o nt h ep r o c e s so fc o n s u m m a t e ,t h e r ea r em a n yp r o b l e m s a p p e a r e d t h e s es y s t e m s a r e d e v e l o p e dm o s t l yb y t h el o c a l d e p a r t m e n t ,b u t t h e i n t e r c o m m u n i c a t i o na n dr e s o u r c e ss h a r i n gc a n n o tb ep r o c e s s e da m o n gt h ea p p l i c a t i o ns y s t e m s w h i c ha r ed i f f e r e n ti nd b m sa n dd a t a b a s es t r u c t u r e s ,s ot h ei s o l a t e di s l a n d so fi n f o r m a t i o nh a d b ef o r m e d ,w h i c hl e dt ol a t e n e s sa n dd i s a g r e e m e n ta n dt h el o wu s i n gr a t e t h e r e f o r e ,i ti sa n e c e s s a r yc h o i c ef o rt h e d i g i t a lc a m p u s c o n s t r u c t i o nt oe f f e c t i v e l ye x c h a n g ea n di n t e g r a t et h e d a t af o r m a t t h et h e s i sb a s e do nd a t ah e t e r o g e n e o u so fc a m p u sn e t w o r k ,a c c o r d i n gt ot h ed e m a n do f d a t ae x c h a n g eo nd i f f e r e n th e t e r o g e n e o u sd a t a b a s es y s t e m s ,i tp r e s e n t st h em o d e lo ft h e h e t e r o g e n e o u sd a t ae x c h a n g eb a s e do nx m l i te s t a b l i s h e st h e f o u n d a t i o nt oi m p r o v et h e m a n a g e m e n tt h er e s o u r c eo fc a m p u sn e t w o r ki n f o r m a t i o n t h et h e s i sf i r s t l ys t u d i e st h er e l a t e dt e c h n o l o g yo fd a t a b a s ea c c e s st e c h n o l o g y , a n a l y z e st h e t r a d i t i o n a ld a t ai n t e r c h a n g em e t h o d sa n dp r o b l e m s ,i n v e s t i g a t et h et e c h n o l o g yo fx m la n dt h e a d v a n t a g ei nd a t ae x c h a n g e i tp r o v i d e sas o l v i n gs c h e m et h a th e t e r o g e n e o u sd a t ai n t e g r a t i o n b a s e do nx m l t h i st h e s i sd i s c u s s e st h em a i np a r to ft h eu n i v e r s a ld a t ai n t e r c h a n g ep l a t f o r m t h e d a t ai n t e r c h a n g eo fh e t e r o g e n e o u sd a t a b a s e s i ta n a l y z e st h ep o s s i b i l i t yo fx m lb a s e dd a t a i n t e r c h a n g ef r o mt h ea s p e c t so fs c h e m ab i n d i n go fx m la n dr e l a t i o nd a t a b a s e ,d a t af o r m a t b i n d i n go fx m la n dr e l a t i o nd a t a b a s ea sw e l la st h ei m p l e m e n t a t i o no fl a r g eo b j e c td a t a i n t e r c h a n g eb e t w e e ni s o m e r i cd a t a b a s eb yu s i n gx m l f i n a l l y , i td e v e l o p sax m lb a s e i i 基t - x m l 的异构数据交换住校吲网中的成j l j t h r e e l a y e rm o d e lf o ri m p l e m e n t i n gd a t ai n t e r c h a n g eo fi s o m e r i cd a t a b a s ea n di m p l e m e n t st h e d a t ai n t e r c h a n g eb e t w e e no r a c l ed a t a b a s ea n ds q ls e r v e r2 0 0 0d a t a b a s eb yu s i n gj d b ca n d d o ma pit h r o u g hx m lu n d e rt h ej a v ae n v i r o n m e n t k e y w o r d s :c a m p u sn e t w o r k ,x m l ,r e l a t i o nd a t a b a s e ,h e t e r o g e n e o u sd a t ae x c h a n g e i i i 首都师范大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得 的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过 的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:二。护年妒月夕日 首都师范大学位论文授权使用声明 本人完全了解首都师范大学有关保留、使用学位论文的规定,学校有权保留学位论文并 向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学位论文用于非赢利目的 的少量复制并允许论文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进行 检索。有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。 学位论文作者签名: 阀日期:少口,年p 月7 日 基丁x m l 的异构数据交换在校园网巾的应用 1 1 选题背景及意义 第一章引言 随着计算机网络技术的迅猛发展,高等学校的校园网建设已经进入了一个新的阶段即 建设数字校园。利用先进的信息化手段和工具,将校园原有的各项资源数字化,使传统的 校园在时间和空间上得以延伸。它是以网络为基础,从环境( 校内、校外、设备、教室等) 、 资源( 人力、设备、图书、讲义、课件等) 到活动( 教、学、管理、服务、办公等) 的全 部信息化。简而言之,数字校园就是以成熟和先进的信息技术为工具,对传统校园的各项 活动的重新整合,以实现现代高等教育机构教、学、管理等功能的新的高效形式【1 1 。 从应用方面来说,校园网的建设涉及到两个最核心的问题,那就是应用的集成与数据 的集成与交换问题。应用的集成包括对现有的各种应用系统的集成以形成应用的集成平台 和在统一的开发集成平台上进行旧系统的升级、新系统的开发等。而数据的集成与交换则 是校园网建设中最为重要的问题。表面上校园网上已经实现的应用是非常丰富的,从学校 管理、行政办公到教学管理、学生管理与学习等学校的方方面面。而且各种应用系统都建 立在校园网上,就其应用本身而言己经是基于校园网了。但是,这些应用系统由于开发的 时间与开发的部门不同、所使用的数据库存在差异,而在校园网上又没有形成一套有效的 数据交换与数据共享集成机制,导致了“信息孤岛,【2 】的产生:各应用系统自成体系,各系 统所处理、产生的数据分散。独立,数据以不同的格式存储在不同存储介质上,无法相互 交换、更无法实现共享,自然更谈不上学校决策支持系统的实现。为了能综合利用并分析 这些独立分散的数据,在高校各部门之间实现数据共享与数据交换,有必要在校园网上建 立一套完善的基于校园网的数据集成交换平台,通过这个平台一方面一个部门可以使用其 它部门的数据;另一方面也可以通过该平台提供的数据交换功能有效地维护各部门间的数 据致性与完整性,以提高工作效率。 针对目前一般高校的校园网的应用情况,尤其是建设数字校园的呼声越来越高,结合 我校的具体实际,高校内部的异构数据库数据交换平台的建设能够整合现有的应用数据, 解决异构数据库间的数据共享,能够加速各部门信息系统的集成,形成更广泛更高效的有 机整体,提高业务处理速度,加强部门之间的合作与交流。同时也能对其他诸如o l a p 、数 据挖掘、数据仓库、移动计算等应用提供数据基础。此外,异构数据库数据交换共享还可 以避免数据库的异构性带来的数据资源浪费,提高数据资源的利用率。所以,实现异构数 基t - x m l 的异构数据交换在校同网中的廊j j 据库的数据交换对于高校信息化的进一步发展具有重大意义。 1 2 研究现状 1 2 1 高校信息化研究现状 一般来说,欧美发达国家的教育信息化起步较早,其特点是:具有统一的集成平台将 多样的系统整合在一起;提供统一的用户信息管理服务;多种应用都以w e b 方式实现服务, 并提供统一和易用的门户站点;利用成熟的流程管理、协同工作应用软件在很大程度上取 代传统的教学办公方式;校园的外延无限扩大,上万、几十万的学生和教师存在于不同时 问和空间的数字校园范围之中。 在国内,从2 0 世纪9 0 年代起,各高校开始了以m i s 系统应用和局域网建设为主流的 数字化校园建设。我国的教育行业真正的信息化是从1 9 9 4 年开始,以国家教委主持的“中 国教育科研网( c e r n e t ) ”正式启动为标志。c e r n e t 是我国开展教育信息化的重要平台。 1 9 9 9 年,c e r n e t 开始建设自己的高速主干网,2 0 0 4 年,开通中国第一个i p v 6 高速主干网 c e r n e t 2 。2 0 0 2 年5 月,中山大学举行了高校数字化校园建设工作研讨会,清华大学、北 京大学、浙江大学、复旦大学等近1 0 所高校介绍了各自的经验,我国高校数字化校园建 设已经进入了一个伞面发展的阶段3 】【4 】。 目前国内高校的校园网络基本具有以下的条件:存在多校区的高校在校区之间用光纤 连接,整个校园网络主干千兆,甚至万兆,百兆到楼层桌面,光纤i n t e r n e t 出口,甚至 有双线路接入教育网和网通( 或者电信、铁通等) 。基于校园网的各种应用有电子邮件、 f t p 服务、人事管理系统、新闻系统、学生信息管理系统、电子图书馆、网络课堂、教务 管理系统、办公自动化系统等。应该说,目前高校已有了一定的数字化校园的物质基础和 技术应用基础【5 】【6 】。 与此同时,我们也看剑,高校信息化建设较企业起步较晚,并且由于没有成熟理论指 导,很多高校从一开始就没有统一的规划,各部门按照各自的需求开发信息信息,并采用 不同的技术、不同的数扔 库及数据格式,造成r ,占息孤岛,使得信息难以共享,应用难于 集成,用户界面不友好,门户建设很难进行【4 】。如何把校园内现有的信息系统和正要开发 的应用系统的数据、资源进行有效的整合集成,使得各个系统能够共享数据,无缝衔接, 使用户能够得到动态的,在时间和空间上一致的信息服务环境,充分发挥校园网作用,这 是推进信息化校园建设急需解决的一个核心问题( 丌。 从数据的应用需要来看,校园网上的各种应用在各自的应用领域都有一系列的数据应 2 基于x m l 的异构数据交换在校同网中的应川 用需求,这些应用需要一般由应用系统本身来提供。但是应该看到在这些应用的背后也存 在着诸多问题,其中最主要的问题是这些应用系统所形成的“信息孤岛”问题。事实上, 随着校园网上应用的f = l 益丰富,在校园网的各种应用中,数据的交换、共享与集成等涉及 到各个应用系统之间的数据应用越来越多,概括起来主要有以下几个方面【4 1 : ( 1 ) 数据的备份与恢复。 ( 2 ) 综合数据查询:数据查询是校园网中最为频繁的应用,如果所查询的数据来自于一 个应用,则可以由应用系统本身来实现:但如果所查询的数据来源于多个应用,则这样的数 据由单个应用是无法解决的。例如要查询教师的基本信息与工资情况,这样的数据必须来 源于职工人事管理系统与工资管理系统就属于这一种情况。 ( 3 ) 应用之间数据的导入与导出:应用之间的数据经常需要交换,如将招生系统中的新生 数据导入到教务管理系统与学生管理系统中。这些数据往往是在格式上、结构上甚至在语 义上都存在差别。 ( 4 ) 系统的更新换代与整合:任何一种软件都有一定的生存周期,随着操作系统、软件平 台、应用环境的变化,应用系统都需要更新换代,而这种更新往往是根本性的,例如有操 作系统系统的改变、后台数据库的改变、数据库结构的改变等等。系统更新后,旧系统中 的数据必须要迁移到新系统中;另方面,随着数字校园的建设也必须对原有应用系统进行 再开发或整合,同样也要涉及到数据的迁移问题。 ( 5 ) 多媒体数据的集成与交换:校园网上应用越来越趋向于多媒体化,网上的多媒体数据 也会越来越多如各种文件、表格、电子教案、多媒体课件等。对这些多媒体数据也必须使 用数据库来进行管理,管理中必然要涉及到交换与集成的问题。 以我校为例,经过多年的建设与发展,校园网的基础框架已经初具规模,同时校园网 的应用也得到了迅的发展,基本教学、办公、管理等目前,学校在校园网上已经建成了许 多的应用:如办公自动化系统、综合教务系统、科研信息管理系统、设备资产管理系统、 财务管理系统、网络教学系统和图书管理系统、校园“一卡通”应用系统等( 如图1 1 所 示) 。这些应用对提高学校的管理水平、行政事务的处理效率都起着重要的作用。 3 基y - x m l 的异构数据交换在校吲网中的虑川 网络基本 服务: 电子邮件 主页发布 文件传输 域名服务 教 务 管 理 系 统 图 f 5 管 理 系 统 鼓 备 管 理 系 统 财 务 管 理 系 统 学 生 管 理 系 统 档 案 管 理 系 统 。 卡 通 管 理 系 统 办 公 自 动 化 系 统 佼 同 网 教 学 平 台 首都师范大学校园网 1 1 校园网应用系统框架 通过对我校校园网的各应用系统后台数据库的分析比较不难看出( 表1 1 所示) ,我校 的应用系统后台数据库主要集中为两大数据库:o r a c l e 和s q ls e r v e r2 0 0 0 。针对校园网的 实际应用情况,本文以关系数据库的异构数据交换作为研究重点。主要涉及的关系数据库 为o r a c l e 和s q l s e r v e r2 0 0 0 。 应用系统名称后台数据库 教务管理系统o r a c l e 图伟管理系统 s q ls e r v e r2 0 0 0 设备管理系统s o ls e r v e r2 0 0 0 学生管理系统 o r a c l e 档案管理系统s o ls e r v e r2 0 0 0 一卡通管理系统o r a c l e 办公自动化系统 o r a c l e 校园网教学平台m y s q l 财务管理系统s q ls e r v e r2 0 0 0 1 2 2 数据集成研究现状 表1 1 校园网应用系统概况 当前,实现异构数据库的集成一般有两种方法。第一种就是将原有的数据移植到新的 数据管理系统中来,为了集成不同类型的数据,必须将一些非传统的数据类型转化成新的 数据类型。许多关系数据库供应商提供了类似的功能。这种集成方式的缺点是随着数据管 理系统的升级,原来数据的相关应用软件,或是被废弃或是重新开发的。第二种方法是利 用中间件集成异构数据库,该方法并不需要改变原始数据的存储和管理方式。中间件位于 异构数据库系统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据库系统,向上为 4 基丁x m l 的异构数据交换住校同网中的应川 访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据库的应用仍然完成 它们的服务,中问件系统则主要集中为异构数据源提供一个高层次检索服务。显然,中问 件系统模式是实现异构数据集成较理想的解决方案碡1 。 早期的数据来源主要是各种关系型数据库,因此集成主要针对关系数据库进行。像 o d b c 方法和传统的模式集成方法都是典型的对关系数据库进行集成的方法。随着信息技 术的迅速发展数据的存储超出了关系数据库的范畴,相应也就产生了跨平台对多种类型 的数据进行集成的要求。新出现的技术例如:微软的通用数据访问结构、二层集成方案、 d c o m c o r b a ( d i s t r i b u t e dc o m p o n e n to b j e c tm o d e l c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ) 和用扩展标记语言x m l 进行集成等都可以对多种异构的数据进行集成。 2 0 世纪9 0 年代以来,分布对象技术( d o c ) 得到了迅速的发展,随着研究的深入和 应用的日益广泛,d o c 形成了两个阵营:一个是m i c r o s o f t 公司,使用d c o m 技术;另一 个是o m g 组织,使用c o r b a 技术。d c o m 技术只适用于w i n d o w s 平台,现在虽然在 u n i x 平台上有了一定的扩展,但效果仍不理想。但是,因为它和w i n d o w s 都是微软的产 品,因而可以和操作系统紧密相关,从而大大提高了它的运行效率。目前有很多家公司开 发了基于c o r b a 的应用。c o r b a 的跨平台能力非常优秀,但正因为如此,所有与操作 系统之间的交互必须通过中介代理进行,这使得它的运作效率不如d c o m 。 目前,中间数据法的数据交换主要是以x m l 9 1 ( e x t e n s i b l em a r k u pl a n g u a g e ) 作为中间 数据格式。x m l 是一种数据格式描述的元语言标准,具有系统独立性、可扩展性、自描述 性、遵循严格的语法规范以及支持多语种等特点,自产生之后就迅速被作为中间数据格式 标准应用到数据交换领域。作为数据交换的中介,x m l 不仅能够提供对数据的存储,还包 含对数据结构的描述【1 0 1 。x m l 的系统独立性使得x m l 数据能够在不同的系统中使用各种 编程语言解析和处理,屏蔽了异构数据库间系统环境的差异。因此,基于x m l 的数据交 换方案已经被广泛用于解决网络环境下异构数据库的共享。由于多数企业的数据是存储于 关系数据库,为了使用x m l 进行数据交换,必须实现关系模式与x m l 模式之间的转换。 针对这一问题,国内外都在进行研究,己经提出了很多算法。国外具有代表性的算法 有k o s s m a n n 等人的算法【l l 】,d e u t s c h 等人的s t o r e d 1 2 】算法、s h a n m u g a s u n d a r a m 等人的 内联算法【1 3 】、g k a p p e l 等提出的x r a y 算法【1 4 1 、d l e e 等提出的c p i 算法【1 5 】【1 6 】【l7 1 。国内 的以曾宇昆【18 1 、方翔1 9 1 1 2 0 1 、谷长勇2 、孙宏伟冽等人的算法为代表。但它们大多使用d t d 作为x m l 模式的说明语言,而d t d 缺乏对x m l 文档的内容及其语义的约束机制,不支 持名字空间,数据类型有限,因此转换得到的x m l 模式会丢失部分关系模式的信息。 5 旗丁x m l 的异构数据交换在校旧网中的应川 w 3 c ( w o r l dw i d ew 曲c o n s o r t i u m ) 推荐使用x m ls c h e m a 作为x m l 的模式说明语言, x m l s c h e m a 有丰富的内嵌数据类型和强大的类型定义功能,能够更好地表达数据的结构、 类型和约束。孙宏伟 2 4 1 【2 5 1 、方翔等人在基于x m ls c h e m a 的模式转换方面做了大量的 工作,能够在模式转换中保留完整性约束,较好地进行关系模式和x m l 模式的转换。 1 3 本论文的技术难点与主要内容 x m l 技术的一经推出,由于其独特的优越性,事实上已经成为异构数据库进行数据交 换的主要技术。本论文正是基于x m l 技术对目前高校内各类异构数据库的数据交换需要 进行深入的分析,以期在将x m l 技术应用于异构数据库的数据交换方面取得实用的成果。 1 3 1 基于x m l 的异构数据库数据交换的主要技术难点 只要对数据应用需求进行分析就可以看出,所提出的问题归根结底实际上还是异构数 据的交换问题。只有通过建立一个基于校园网的通用数据交换与集成平台就可以实现数据 应用需求。从以上分析可以看出,使用x m l 作为异构数据库数据交换的主要技术手段是 可行的,因此,本文主要工作如下: ( 1 ) 研究关系模式与x m l 模式的转换,解决x m l 与关系数据库之间的数据模型映射 问题:由于x m l 适应于表现半结构数据,而关系数据库所表示的是结构化数据,它有严格 的数学模型。这自然涉及到如何将关系数据库的数据模型准确到映射以x m l 文档中,其 中又有两个问题:一是数据模式的映射;二是数据类型的映射。 ( 2 ) 解决异构数据交换的规则建立问题:异构数据交换中最需要解决的是逻辑异构问 题,而解决这一问题需要通过建立一个存放转换规则功能模块,数据交换在该功能模块下 进行。而这种规则是需要用户去建立,因此它必须是简单的、界面友好的。 ( 3 ) 研究多媒体数据的交换问题:多媒体数据在关系数据库中往往是以大对象数据 ( l o b ) 的形式保存的。传统的数据交换方法对l o b 数据的支持往往是不完善的甚至是不能 实现的。如何将l o b 数据提取到x m l 文档中,然后再将其交换到目标数据库中也是数据 交换中必须解决的难点问题之一。 1 3 2 本论文的主要内容与安排 本论文的研究主要分为五个部分。 第一部分:应用需求 6 摹丁x m l 的异构数据交换在校州网中的应用 应用的背景、需求分析,问题的提出,传统的数据交换策略及其所存在的问题。基于 x m l 实现异构数据库数据交换必须解决的主要技术难点。 第二部分:基于x m l 的异构数据交换的相关技术 介绍了x m l 技术和其实际应用领域,并且通过对异构数据库的传统方式进行比较分析 指出其存在的问题,结合x m l 技术的优势,提出了基于x m l 的数据交换应用。 第三部分:校园网异构数据整合方案 结合本校校园网中数据异构的实际情况,利用x m l 文档与关系数据库的关系,提出校 园网异构数据整合方案。分析设计了数据模型映射、数据类型映射、数据完整性约束的转 换,交换规则定制。并对数据转换过程的实现数据获取、映射转换、数据写入进行了 深入研究。 第四部分:基于x m l 的异构数据数据交换模型设计 根据第三章的设计思路,设计了系统的总体解决框架及模型:基于x m l 的数据交换模 型:x m l 的三层架构、并对数据转换流程、系统功能模块的划分进行了分析设计。 第五部分:原型实现 编程环境:w i n d o w s x p , o r a c l e 9 i ,8 q ls e r v e r2 0 0 0 j d k l 4 ,e c l i p s e 预计实现的功能:完成o r a c l e 与s q ls e r v e r 之间的数据交换,并实现以下功能: ( 1 ) 根据源数据库信息生成x m l 文件并能查询并显示所需要的信息: ( 2 ) 将指定x m l 文件写入到目标数据库中。 1 4 本章小结 本章从高校信息化建设的研究现状入手,分析了“信息孤岛”产生的原因,根据校园 网中数据资源整合的实际需求提出了建立异构数据库数据交换系统的必要性。着重讨论了 各种数据库的访问技术与传统的异构数据库数据交换方式,指出了这些方式所存在的问 题,由此引出了建立基于x m l 的异构数据库数据交换中心的必要性,同时提出论文的基 本框架。 7 基于x m l 的异构数据交换在校吲网中的应用 第二章基于x m l 的异构数据交换的相关技术 2 1x m l 技术 2 1 1x m l 简介 x i v i l 是一种元标记语言( m e t a - m a r k u pl a n g u a g e ) ,可提供描述结构化资料的格式。 x m l 提供了一种独立于运行程序的方法来共享数据,它是用来自动描述信息的一种新的标 准语言【2 7 1 。x m l 由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分 析程序的简明程序处理所有新创建的标记语言,正如h t m l 为计算机用户订阅i n t e m e t 文 一档提供一种显示方式一样,x m l 也创建了一种任何人都能读出和写入的世界语。x m l 能 增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。运用x m l 的扩展 功能不仅能从w e b 服务器下载大量的信息,还能大大减少网络业务型2 引。 x m l 中的标记( f a g ) 是没有预先定义的,使用者必须要预定义需要使用的标记,x m l 是能够进行自描述( s e l fd e s c r i b i n g ) 的语言【2 9 1 。x m l 使用d t d ( d o c u m e n tt y p ed e f i n i t i o n 文档类型定义) 来规范这些数据,x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 是一种来描述这 些文档如何显示的机制,它是x m l 的样式表描述语言【3 0 】。x s l 包括两部分:一个用来转 换x m l 的方法;一个用来格式化x m l 文档的方法。利用x m l ,w e b 设计人员不仅能创 建文字和图形,而且还能够创建文档类型定义的多层次、相互依存的系统、数据树、源数 据、超链接结构和样式表【3 1 1 。 x m l 文档由称为实体的存储单元组成,实体可以包含解析数据或未解析数据。解析数 据由字符组成,其中些字符组成字符数据,另一些字符组成标记。标记中包含了对文档 存储格式和逻辑结构的描述。 2 1 2d t d 与x m ls c h e m a 一个x m l 文件遵守d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文档类型定义) 中定义的种种 规定【3 4 1 。d t d 描述了一个x m l 文档的语法和词汇表,也就是定义了文档的整体结构以及 语法。简而言之,d t d 规定了一个语法分析器为了解释一个“有效的”x m l 文件所需要 知道的所有规则的细节。d t d 原来是为使用s g m l 开发的,它可以是x m l 文档的一部 分,但是它通常是一份单独的文档或一系列文档。x m l 本身并没有一个通用的d t d ,想 8 基1 - x m l 的异构数据交换在校i 元l 网巾的应川 使用x m l 进行数据交换的行业或组织可以定义他们自己的d t d 3 2 1 。 d t d 标记声明可以是元素类型声明,属性表声明,实体声明,或符号声明。x m l 提 供一种称为文档类型声明的机制,用于定义对逻辑结构的约束,支持预定义存储单元的使 用。文档类型声明指定了文档使用的d t d 。文档类型声明出现在文档的序言部分,处在 x m l 声明之后和第一个元素之前。它可以包括d t d ,也可以标识d t d 所在文档的u r l 。 一个合法的x m l 文档必须符合文档类型声明指定的约束条件。而且,它的基本元素必须 是在文档类型声明中指明的。 d t d 的功用很多:定义内容模式,限制范围、属性的数据类型。但它也有着一些缺点, 如采用了非x m l 的语法规则,不支持多种多样的数据类型,扩展性较差,不支持名称空 间( n a m e s p a c e ) 等等。 因此,w 3 c 又推出了x m ls c h e m a 规范【3 3 】。事实上s c h e m a 也是x m l 的一种应用, 它是将d t d 重新使用x m l 语言规范来定义。这从某种意义上讲j 下好体现了x m l 自描述 性的优点。与d t d 相比,x m ls c h e m a 具有如下一些优点【3 8 】【3 9 】 4 0 】: ( 1 ) 一致性:s c h e m a 建立在x m l 之上,它的样子和一般的x m l 文件完全相同,使 得x m l 达到了从内到外的完美统一。 ( 2 ) 扩展性:s c h e m a 中引入了丰富的数据类型,它们包括:布尔型,数字,日期时 间,u r l ,整数,十进制数,实数,时间段,等等。而且它还支持由这些简单的类型生成 复杂的类型,以及由用户定义的数据类型( 原型) 。 ( 3 ) 易用性:x m ls c h e m a 取代d t d 的另一个原因要归结于d o m 和s a x ( 关于d o m 和s a x 的概念将在后面介绍) 。此时对于x m l 文档结构的描述已变成为s c h e n 1 l j a 这种“形 式良好的x m l 文档,可以方便d o m 和s a x 去访问。 ( 4 ) 规范性:同d t d 一样,s c h e m a 也提供了一套完整的机制以约束x m l 文档中标 记的使用,但相比之下,后者基于x m l ,更具有规范性。 ( 5 ) 支持名称空间。 ( 6 ) 互换性:每个人都可根据需要设计适合自己应用的s c h e m a ,并且可以同其他人 交换彼此的s c h e m a 。利用s c h e m a 能够书写x m l 文档,验证文档的合法性。另外,通过 映射机制,还可以将不同的s c h e m a 进行转换,以实现更高层次的数据交换。 2 1 3x m l 应用程序接口d o m 和s a x l 数据实际上就是纯文本数据,使用x m l 数据格式的应用程序首先能对l 数 9 基于x m l 的异构数据交换在校i 剧网中的席川 据进行分析、读取、并进而进行处理。d o m ( d o c u m e n to b j e c tm o d e l ,简称d o m ) 与 s a x ( s i m p l ea p i sf o rx m l ,简称s a x ) 是两种常用的x m l 应用程序接口标准。其中,d o m 是w 3 c 组织制定的应用程序官方接口标准,也即文档对象模型。而s a x 是x m ld e v 邮 件列表中的成员根据应用的需求制定的一套民间应用程序接口标准。 1 文档对象模型( d o m ) d o m 4 1 】是w 3 c 公布的一种跨平台的、与语言无关的接口规范,采用对象模型和一系 列的接口来描述x m l 文档的内容和结构,即利用对象把文档模型化。这种对象模型描述 了文档的结构、操作接口的行为和属性、接口之间的关系以及互操作【3 8 】。 d o m 通常作为层添加到x m l 解析器和需要文档信息的应用之间,图2 1 表示了d o m 所处的位置 3 9 】。为了编写通过d o m 访问x m l 文档的应用程序,需要在计算机上安装x m l 解析器和d o m 实现方案。 使用数据的应用程序 jl 应用程序通j l 文档对象模型( 树形结构视图) t 。m 加载文 ix m l 解析器 i羹零薹警差 i x m ll 文档l i 少 2 1d o m 所处的位置 解析器首先检查读入内存的x m l 文档是否格式良好,如果是,可在需要的情况下依据 文档模式进行有效性验证。然后通过文档对象模型处理器在内存中构建x m l 文档的树壮 视图,文档对象处理器将x m l 文档中的指令、元素、实体、属性等所有个体都使用对象 模型表示,这些对象就是树的节点,每个对象同时包含了方法和属性。使用该文档的应用 程序就可以通过d o m a p i 访问树结构,添加、修改、删除元素或元素的内容等。d o m 引 擎可用于:j a v a c + + ,c 撑等环境中。 2 s a x 1 0 基丁x m l 的异构数据交换在校同网巾的应用 由于d o m 需要读取整个文件并将它存储到树结构中,因而效率不高、缓慢,并且会 过度使用资源。一种替代方法是使用s i m p l ea p if o rx m l 或s a x 。s a x 允许正在读取文 档时处理该文档【4 2 1 。这避免了在采取操作之前需要等待存储文档的所有内容。s a x 是由 x m l d e v 邮件列表的成员开发的,目的是提供一种更自然的方法来使用x m l ,这种方法 不会涉及到使用d o m 的那种开销。s a x 是一种基于事件的推( p u s h ) 模型,提供了一种对 x m l 文档进行快速、只前、只读、顺序访问的模式。s a x 接口使事件驱动的,当使用s a x 解析器对x m l 文档进行解析时,就会触发一系列事件,并激活相应的事件处理函数,从 而完成对x m l 文档的访问。开发人员自行编写这些事件的处理函数,便可达到从x m l 文档中检索信息并做相应处理的目的【加1 。 解析器将事件( 如元素的开始或结束) 发送给处理信息的事件处理程序。然后,应用 程序自己可以处理数据。虽然原始文档保持不变,但s a x 提供了操纵数据的方法,然后 会将该方法导向另一个过程或文档。 3 在s a x 与d o m 之间的选择取决于以下几个因素 ( 1 ) 应用程序的目的:如果必须对数据进行更改,并且作为x m l 将它输出,则在大 多数情况下,使用d o m 。与使用x s l 转换来完成的简单结构更改不一样,如果是对数据 本身进行更改,则尤其应该使用d o m 。 ( 2 ) 数据的数量:对于大文件,s a x 是更好的选择。 ( 3 ) 将如何使用数据:如果实际上只使用一小部分数据,则使用s a x 将数据抽取到 应用程序中,这种方法更好些。另一方面,如果知道将需要向后引用已经处理过的信息, 则s a x 可能不是正确的选择。 ( 4 ) 要速度:通常,s a x 实现比d o m 实现快【删。 但是s a x 和d o m 不是互斥的,可以使用d o m 来创建事件的s a x 流,可以使用s a x 来创建d o m 树,在实际应用中,大多数解析器常用s a x 来创建d o m 树。 2 1 4x m l 技术的应用领域 x m l 作为因特网上的一种新技术,其应用非常广泛,现在它已经渗透到了因特网的各 个角落。人们已经普遍认识到x m l 的作用和其巨大的潜力,并将其应用到因特网的各个 方面。就当前x m l 的应用来说,大致可以分为以下几类: ( 1 ) 设计标记语言在这方面的应用是x m l 设计的初衷。我们可以把x m l 作为一种 元语言来定义新的标记。这方面最为典型的应用就是在化学领域内所定义的c m l 和数学 基于x m l 的异构数掘交换在校吲网中的应用 领域内的m a t h m l 等专业领域内的标记语占。 ( 2 ) 数据交换把x m l 作为数据交换的一种中间数据格式,这是目前x m l 最有前途的 一种应用。现在x m l 己经成了一种替代电子数据交换( e d i ) 的格式广泛应用于电子商务中。 从技术上说,电子商务是通过因特网传输和交换商务数据,并能根据商务数据进行人工或 自动处理。x m l 的可扩展性和自描述性等特点使它成为数据交换有力的首选工具。电子商 务首选出现的是类型是b 2 c ( 企业一消费者) ,该类型电子商务的信息是直接呈现在浏览器 中,供人们阅读,因此侧重于表现的h t m l 语言在其中直到了巨大的作用。随着比较购物 和个性化要求以及b 2 b ( 企业一企业) 类型电子商务的出现,人们要求计算机能够理解数据 的语义,而且能够将数据和表示分离开来,这时h t m l 就显得力不从心了。x m l 弥补了 h t m l 的巨大缺陷,成为电子商务中的核心技术。 随着x m l 标准体系的成熟和技术的发展,已经出现了相当多的客户化工具,尤其是可 视化工具的出现,使得人们可以无须了解x m l 的细节就能够编写出需要的x m l 文档,使 得x m l 应用在电子商务中成为可能。而浏览器对x m l 越来越强的支持能力,对x m l 应 用直到了巨大的促进作用。 ( 3 ) w e b 应用随着因特网的飞速发展,因特网己经成为继报刊、电台、电视之后的一 种新型媒体。网络出版牌价出现以来,用于信息发布的主要是h t m l 技术,但是这种方式 在跨媒体出版时遇到了极大的困难,人们需要为不同媒体制作不同的版本。x m l 的内容与 显示相分离的特点可以使得人们能够一次性制作内容再配以不同的样式单,实现一次制作 多次出版。 为了满足不同领域和显示设备的需要,人们利用x m l 定义了多个面向显示的语言,包 括x h t m l ( 可扩展的超文本标记语言) 、面向w e b 图形的v m l ( v e c t o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校福利房管理制度
- 学校茶水房管理制度
- 学生会人事管理制度
- 学生课堂上管理制度
- 安保部工作管理制度
- 安全痕迹化管理制度
- 安防部宿舍管理制度
- 定制类店面管理制度
- 实训室创意管理制度
- 客车站风险管理制度
- 物流司机奖罚管理制度
- 7数沪科版期末考试卷-2024-2025学年七年级(初一)数学下册期末考试模拟卷02
- 德阳研学旅行课程的融合开发与实践发展策略研究
- 病理学考试题库
- 2025年全国普通高校招生全国统一考试数学试卷(新高考Ⅰ卷)含答案
- 事业单位考试(面试)试题附答案
- HYDRUS-2D3D学习手册资料
- 生物●广东卷丨2024年广东省普通高中学业水平选择性考试生物试卷及答案
- 数字化转型项目管理试题及答案
- 2025年上海市七年级语文下学期期末考试复习(基础知识+课内古诗文+课外文言文)
- 北京市海淀区2023-2024学年高二下学期期末考试英语试卷(含答案)
评论
0/150
提交评论