已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于xml技术的异构数据库数据交换技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着计算机及网络技术的飞速发展,数据库系统也由小型化向大型化发展, 由集中式向分布式发展。而且企业的办公系统也随着计算机技术的发展在逐步 升级,有可能一个企业有多个系统,而其后台的数据库有时也是不一致的,所 以就形成了在一个企业间的异构数据库系统,如果要实现这些系统的相互通信 以及透明访问,异构数据库间数据交换是企业各项信息和对企业实现有效管理 的基础。 数据交换对企业的业务管理影响很大,它的目标是在松散耦合、数据格式 不同、跨平台、跨地域等异构环境中实现数据的共享,进而有效地利用资源, 提高整个系统的性能,加快系统间的数据流通。但当前各种数据交换技术运用 于异构环境下均存在很多问题,主要是耦合度大、成本高和实旖复杂等。x m l 技 术的出现给数据交换带来了新的实现方法。 x m l 7 本身具有的与平台无关、易于扩展、交互性好和语义性强等特性,使得 x m l 已经成为数据交换的事实标准。基于x d l 的数据交换模型能够较容易地实现 对各异构数据库的描述以及数据源之间的数据转换,从而解决目前异构数据集 成中存在的联邦查询优化欠缺等问题。利用x m l 技术建立异构数据库之间的转 换关系。 本论文首先介绍了课题的研究背景和意义以及课题所要做的工作。然后讨 论了x m l 数据库和关系数据库以及数据交换的基本概念和相关知识,特别论述 了x m l 与关系数据库间的映射,分析了基于x m l 的异构数据库间数据交换技术。 对课题涉及到的关键技术进行了充分的讨论与研究,其中包括如何消除异构模 式、并发控制和数据分布等问题。最后结合系统的应用情况,以及b s 结构的 特点,给出了设计数据库的体系结构,系统的整体框架以及系统业务流程。在 研究数据库的设计方案时,针对基于w e b 的数据库访问方法,以及数据库的存 储机制,做了详细的分析和选择,并结合实际应用,实现了系统的功能。 关键字:办公自动化系统,x _ m l ,异构数据库,关系数据库 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e ra n dn e t w o r kt e c h n o l o g y , d a t a b a s es y s t e m s d e v e l o pf r o mm i n i a t u r i z a t i o nt om a x i m i z a t i o na n df r o mc o n c e n t r a t i o nt od i s t r i b u t i o n b u ts y s t e m so fo n ee n t e r p r i s eu p g r a d e sw i t ht h ed e v e l o p m e n to fc o m p u t e r t e c h n o l o g y , o n ee n t e r p r i s em a yh a v es e v e r a ls y s t e m s ,b u tt h ed a t a b a s e so ft h e s es y s t e m sa r en o t i d e n c i a l s ot h eh e t e r o g e n e o u sd a t a b a s es y s t e mi sf o r m e d w er e a l i z et h ea c c e s s a n dc o m m u n i c a t i o ni nt h e s es y s t e m s ,t h ed a t ae x c h a n g ei nh e t e r o g e n e o u sd a t a b a s ei s t h ef u n d a m e t i o nf o rc o n f o r m i n gt h ee n t e r p r i s ei n f o r m a t i o na n dr e a l i z i n ge f f e c t i v e m a n a g e m e a t d a t a e x c h a n g ei s o n eo ft h em a i ni n f l u e n c i n gf a c t o r so fd e v e l o p m e n to f e n t e r p r i s e si n f o r m a t i o n i t sg o a l i st or e a l i z et h e s h a r i n go ft h e d a t ai nt h e h e t e r o g e n e o u se n v i r o n m e n t ( 1 0 0 s ec o u p l i n g ,d i f f e r e n t d a t af o r m a t ,h e t e r o g e n e o u s p l a t f o r m ,h e t e r o g e n e o u sa r e a ,a n ds oo n ) ,t h u su t i l i z e sr e s o u r c e se f f e c t i v e l y , i m p r o v e s t h ep e r f o r m a n c eo ft h ew h o l ea p p l i c a t i o ns y s t e m ,a c c e l e r a t e sd a t ac i r c u l a t i o no f i n f o r m a t i o ns y s t e m ,a n dr e a l i z e st h es h a r i n ga n di n t e g r a t i o no ft h ed a t a b u tv a r i o u s e x c h a n g et e c h n o l o g i e s h a v em a n y p r o b l e m s w h e n a p p l y t o h e t e r o g e n e o u s e n v i r o n m e n t s t h ec o m m o nq u e s t i o ns u c ha sh e a v yc o u p l i n g ,h i 曲c o s t sa n d c o m p l i c a t e di m p l e m e n t i n g t h ee m e r g e n c e o fx m lh a s b r o u g h t t h en e w i m p l e m e n t a t i o nm e t h o d w i t ht h ef e a t u r e so fp l a t f o r mi n d e p e n d e c c y ,e a s ye x t e n d i b i l i t y , g o o di n t e r a c t i v i t y a n ds t r o n gs e m a n t i c s ,x m lb e c o m e st h ef a c t u a ls t a n d a r do fd a t ae x c h a n g e ,x m l b a s e dd a t ae x c h a n g em o d e lc o u l de a s i l yi m p l e m e n tt h ed e s c r i p t i o no ft h ei s o m e r i c d a t a b a s e sa n dt h ee x c h a n g eb e t w e e nt h ed a t as o u r c e s ,t h e r e b yi tc o u l ds o l v et h e p r o b l e mo ft h ed e f i c i e n c yo ft h eo p t i m i z e df e d e r a t e dq u e r yt h a te x i s t si nt h ec u r r e n t i s o m e r i cd a t ai n t e g r a t i o n a tf i r s t ,t h et h e s i sd e s c r i b e sr e s e a r c hb a c k g r o u n da n dm e a n i n go fs u b j e c t ,a n d w h a tt od o t h e ni td i s c u s s e st h er e l e v a n tp r o b l e m so fx m l , t h eb a s i cc o n c e p t i o no f t h ex m ld a t a b a s ea n dr e l a t i o nd a t a b a s ea n dd a t ae x c h a n g e t h em a pb e t w e e nx m l a n dr e l a t i o nd a t a b a s ei se s p e c i a l l yd e s c r i b e d ,a n da n a l y s e st h et e c h n o l o g yo fd a t a e x c h a n g eb e t w e e nh e t e r o g e n e o u sb a s eo nx m l i ta l s of u l l yc a r r i e so nr e s e a r c hi nk e y t e c h n o l o g yi n c l u d i n gd i s p e l l i n gt h ed i f f e r e n tm o d eo fd a t a ,t h ec o n c u r r e n c yc o n t r o l a n dd a t ad i s t r i b u t i o n a tl a s tc o m b i n i n gt h es y s t e ma p p l i c a t i o n ,w ec h o o s et h e d e v e l o p i n gp l a t f o r ma n dm o d e ,a n di n t r o d u c et h ec h a r a c t e r i s t i co fb s ,t h e nt h e n 武汉理工大学硕士学位论文 s y s t e ms t r u c t u r eo ft h e d a t a b a s ea n dt h e s y s t e m a t i cf r a m e a r ed e s i g n e d w h i l e s t u d y i n gt h ed e s i g np l a no ft h ed a t a b a s e ,t h et h e s i sa n a l y s e st h em e t h o d sa c c e s s i n gt o t h ed a t a b a s eb a s e do nw e b ,a n dt h em e m o r ym e c h a n i s mo ft h ed a t a a n dt h em a i n f u n c t i o no ft h es y s t e mi sd e s c r i b e dt h r o u g hap r a c t i c a la p p l i c a t i o n k e yw o r d :o a s ,x m l ,h e t e r o g e n e o u sd a t a b s e ,r e l a t i o nd a t a b a s e i 武汉理工大学硕士学位论文 1 1 课题的题目及来源 第1 章绪论 课题的题目:基于x m l 异构数据库数据交换技术的安全性研究与实现 课题来源:湖北省某特种设备检验机构的办公自动化系统 1 2 课题研究的背景 1 2 1 办公自动化系统m 时 办公自动化系统( o f f i c e a u t o m a t i o n ,简称为o a ) ,是指利用计算机技术和 网络技术,使办公室部分工作逐步物化于各种现代化设备中,由办公室人员与 设备共同构成服务于某种目标的人机信息处理系统。办公自动化已经成为现代 企事业单位实现管理现代化的一个重要途径。 在管理模式方面,我国企事业的管理,已由传统的管理逐步转向数字、知 识、信息的管理,信息管理就是对业务流程中无序的信息进行系统化管理,实 现信息收集、处理、共享和再利用,以提高业务水平和效率;信息管理今后将 成为决定企事业竞争力的关键因素,而信息的创造、共享与再利用只有与特定 的业务流程密切联系,才能有效地发挥作用。通用而可行的模式是采用成熟、 稳定的大型数据库系统,统一进行信息分类和管理。 在平台方面,国内的办公自动化市场,呈现出百花争艳的状态,基于l o t u s n o t e s 和m i c r o s o f t e x c h a n g e s e r v e r 平台的各式各样的o a 产品占有大多数市场。 但因为市场价格相对较高,而且硬件支撑环境要求高,所以在实际应用环境中, 受到很多制约,于是很多企业需要根据企业业务流程和实际办公环境,定制办 公自动化系统。 在用户方面,大部分用户希望的办公自动化软件功能实用、操作简单,用 户能在短期内全部掌握其使用方法。 武汉理工大学硕士学位论文 1 2 2 数据库技术 不管是哪一代的o a 系统,都要有数据库的支持,数据库技术产生于2 0 世 纪6 0 年代末7 0 年代初,它的出现使得计算机应用进入了新的时期。数据库技 术聚集了数据处理最精华的思想,是管理信息最先迸的工具。 数据库管理系统( d b m s ) 嘲是位于用户与操作系统之间的一层数据管理软件。 d b m s 的基本目标是要提供一个可以方便地、有效地存取数据库信息的环境。在 这样的环境下,用户不必了解他的文件的存储细节,可以抽象地、逻辑地使用 数据,其一切繁琐的存储细节由d b m s 来完成。 设计数据库系统的目的是为了管理大量的信息。对数据的管理既涉及到信 息存储结构的定义,又涉及信息操作机制的提供。此外,数据库系统还必须提 供所存储信息的安全性保证,即使在系统崩溃或者有人企图越权访问时也应保 障信息的安全性。数据库系统有以下几个功能特性旧: ( 1 ) 数据独立性 数据独立性是数据库系统一个最重要的目标。包括数据的物理独立性和数 据的逻辑独立性,简单地讲就是数据独立于应用程序。数据处理的发展史就是 数据独立性不断进化的历史。独立性的实现是数据库管理系统通过改变映射关 系而完成的。 ( 2 ) 数据安全性 数据的安全性是指保护数据以防不合法的使用造成数据的泄密和破坏。使 每个用户只能按规定,对某些数据以某些方式进行使用和处理。数据库系统中 采用身份验证、子模式和存取控制等措施和策略来保证数据的安全性。 ( 3 ) 数据完整性 数据的完整性指数据的正确性、有效性和相容性。完整性检查将数据控制 在有效的范围内,或保证数据之间满足一定的关系。 ( 4 ) 数据一致性 表示客观世界同一事物状态的数据,不管出现在何时何处都是一致的、正 确的、完整的。所以数据库系统也应该具有这种一致性。 ( 5 ) 数据共享 数据是一种非常宝贵的资源,如何充分利用这些资源是数据处理一项很重 要的任务数据共享是数据库系统的主要功能特色之一。它体现在多个应用可 以使用同一数据文件、记录、数据项值,在同一时刻多个用户可以存取同一数 2 武汉理工大学硕士学位论文 据等方面。 ( 6 ) 控制冗余 数据库系统由于有子模式的概念,实现了数据共享、控制冗余就比较容易 解决。但是数据库中没有彻底消除冗余,因为有时保留一点冗余对提高系统效 率有好处,尤其在分布状态下,可以减少网上的传输时间。 ( 7 ) 集中管理 数据库系统要全面负责各文件的管理,不仅对文件的结构、数据的装入、 文件的各种操作要集中管理,而且对文件的内容、数据的类型、长度、大小、 安全、保密等都要检查。 ( 8 ) 并发控制 当多个用户的并发进程同时存取、修改数据库时,可能会发生相互干扰而 得到错误的结果或使得数据库的完整性遭到破坏。对这些同时发生的操作实行 的控制策略称为并发控制。 ( 9 ) 数据库恢复 在数据库系统运行中,很难做到不出故障。在数据遭到破坏时,如何尽快 地使它恢复正常,就是数据库系统故障恢复功能需要做的事。其中采取的策略 有建立副本、日志、检查点等。 ( 1 0 ) 数据字典 数据库系统中所包含的信息除了数据库本身外,还有很多非数据信息,一 般把这些信息集中保存在一个专门的地方,这就是数据字典。 1 2 3x m l 与数据交换关系旧 可扩展性标记语言( x m l ,e x t e n s i b l em a r k u pl a n g u a g e ) 主要由包括) n 儿、 d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 、x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 、 x l i n k s 、x p a t h 以及x p o i n t e r s 等一系列规范组成。l 具有很多特点及优越性: ( 1 ) 跨平台性,由于x m l 使用文本来保存数据,而不是使用二进制格式,因此 对于跨平台的数据交换是十分方便的;( 2 ) 灵活性,x m l 可以随意定义元素之间 的关系,因此可以定义非常复杂的数据结构。( 3 ) 自描述性,同时实现了数据 与表现形式的分离。( 4 ) 方便性,文件的内容和外观设计是完全分开的,外观 的改变对x 地文件本身并不能造成影响。在对信息进行检索时,也可以只对x m l 文件进行检索就可以得到想要的结果。这些特点决定了x m l 更适合于作为数据 3 武汉理工大学硕士学位论文 交换中的媒介,为异构系统之间进行数据交换提供了一种可行的实现途径。 在数据交换系统中,如果没有数据交换中间标准,相同的数据分析、处理 模块将在很多应用中被重复地撰写,代价是高昂的。瑚l 技术出现之前,由于没 有统一的交换标准,昂贵的数据交换代价使得数据源只能散乱孤立地存在,在 绝大多数的应用领域里都是如此。只有采用统一的数据交换格式,才能实现数 据的自动流转、处理等功能。) 【m l 技术的应用,启动了整个i n t e r n e t 环境下的 信息标准化的进程。从) ( m l 作为一种数据格式描述的元语言标准出现后,它就 不断地被应用到各种不同的数据交换领域中去。目前,各行业都在积极制定适 合于本行业的x m l 数据的规范,这样将使实现行业内的数据共享变得更加容易。 使用x m l 制定的应用领域交换标准的出现,将使得在各个应用领域中都形成了 交换的优化模式:星型交换模式,即每个系统都将其内部的数据转换成行业标 准的基于x m l 的数据格式用于系统间的交换。 星型交换模式可以通过数据交换平台来实现。在数据交换平台中建立统一 的数据交换模式,对各个已有或将有的应用系统包括办公自动化系统中的数据 进行抽取、处理和交换,实现数据交换与集成,并在此基础上可以将数据以统 一的格式在门户上对外发布,或者将数据传输到另一个系统中去再利用,从而 消除“信息孤岛”问题。 1 3 课题的提出及其研究意义 信息社会的到来使信息以及数据的处理处于越来越重要的地位,也使人们 的工作任务越来越繁重。计算机技术的发展和应用使得快速处理大量数据成为 可能,特别是数据库技术的出现和发展,为信息和数据的处理提供了强有力的 工具。 企业常常分阶段开发o a 系统,或者企业内部不同部门有各自的信息要求且 有特定的应用,每个部门根据自己应用的特征去选择一个适当的d b m s 支持自己 的应用。在系统进一步开发或者系统集成中,常常面临的一个突出问题就是一 个o a 系统中存在两种以上不同的数据库环境。因此,如何最大限度保护用户投 资,透明地跨越异构网络、计算机平台,实现异构数据库之间的连接、数据交 换和数据共享,无缝地联合使用异构信息源中的信息,已经成为o a 系统开发中 的关键。如果能实现结构不同的数据库的交互访问,不仅可以提高业务管理的 安全性、可靠性及工作效率,同时为管理者提供了快速的信息收集、传递和处 4 武汉理工大学硕士学位论文 理方法,方便了用户与管理人员之间的交流与合作。并且使得所有信息可自由 顺畅地在分散的各办公地点之间传递。这对o a 系统具有十分重要的意义,使得 o a 系统的功能更强大、实用 1 4 课题的主要工作 本论文在基于x m l 的异构数据库集成方面展开研究,主要是探讨和解决在 分布式、异构环境下的数据源的访问以及数据安全交换问题,并把研究的内容 运用到办公自动化系统中去。 全文共分为七章,各章节的具体内容如下: 第l 章绪论论述课题的研究背景和意义,介绍课题所要做的工作和对本 文其他部分的概述。 第2 章煳l 概述介绍x 札的相关问题,包括基本概念及其相关的一些技术。 第3 章数据交换的研究介绍数据交换的概念、必要性、交换标准,以及 在进行数据交换时实现数据集成要解决的相关问题。 第4 章基于x m l 与异构数据库数据交换的关键技术对课题涉及到的关键 技术进行了研究,包括x l l l 文档与关系数据库的关系,o t a c l e l o i 及s o ls e r v e r 2 0 0 0 等典型数据库对x d l 技术的支持,如何消除异构模式,异构数据源中并发 控制,数据分布和数据同步等问题,为系统的设计打下基础。; 第5 章基于) 眦异构数据库数据交换系统的设计首先分析了系统的应用, 开发平台的选择以及b s 结构的特点。然后设计数据库的体系结构,给出系统 的体系架构。在研究数据库的设计时,针对基于w e b 的数据库访问方法以及数 据库阆如何实现数据交换和数据的存储机制做了详细的分析和选择。 第6 章系统的实现结合实际应用描述系统的主要功能。 第7 章结论本文内容的总结和下一步的工作展望。 5 武汉理工大学硕士学位论文 2 1x m l 简介m 第2 章x m l 概述 6 0 年代末,i b m 进行文本文档描述的一项研究,提出了一种格式语言s g m l 随着s g m l 的应用,过于庞大的缺陷日益突显,1 9 8 9 年,w e b 的发明者一一欧洲 核子物理研究中心的研究人员提出了h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 语言。 h t m l 只使用s g m l 中极小的一部分标记,并且固定标记,不可扩展。h t m l 简单 的特性使其在网络方面得到了前所未有的应用。可是随着网络的发展,h t m l 过 于简单的弱点日益显现,不能够满足日益发展的w e b 应用需求。1 9 9 8 年的w e b 标准化组织w 3 c ( w o r l dw i d ew e b ) 制订了一种精简的s g 札版本,这就是 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,它去除了s g m l 中的一些非常复杂而又用 得很少的特性,使其更加精练、简洁,更易于理解和使用,从而更适合在网络 环境下使用。虽然h t m l 与x m l 都源于s g 札,但又有所不同:h t m l 侧重于显示 数据,而也侧重于描述数据。 x m l 保留了s g s l 的可扩张性、结构以及数据确认方面的主要优点,它的灵 活性允许表示各种各样的信息,而它以一种开放的自我描述的方式定义了数据 结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关 系。这样所组织的数据对于应用程序和用户都是友好的、可操作的。亿实际上 是s g m l 的个子集,它保持了对现有的面向s g m l 的系统的向下兼容性,与w e b 的结合也使得它们更便于被访问。 x m l 是一个开放式的标准,它包括三个相互联系的标准:x 肌,x s l 和x l l ( e x t e n s i b l el i n k i n gl a n g u a g e ,可扩展的链接语言) 。这三个标准相辅相成, 使x m l 语言在数据标记、显示风格和超文本链接方面功能强大,对数据交换十 分有利。 。 在n e t 领域中,x m l 是传输数据的默认格式,也是n e t 框架和w s - s e c u r i t y 众多功能的核心。因此,理解有关x 礼的知识至关重要。 6 武汉理工大学硕士学位论文 2 2x m l 相关技术啪 x m l 文档有格式良好和有效性约束两种性质。格式良好适合于所有的x l l l 文 档,即满足定标准中对格式的规定。而当x m l 文档满足一定的语义约束则称 该文档为有效的x m l 文档。为描述x m l 数据结构和约束,至今已提出多种x m l 数据模式语言。最早也是最成熟的是文档类型定义( d t d ) ,而将逐渐取代d t o 的是w 3 cx m ls c h e m a 。另外具有代表性的数据模式语言还有x d r 、s o x 、 s c h e m a t r o n 、d s d 。下面就常用的d t d 和s c h e m a 进行简单介绍。 ( 1 ) d t d ;x 地的语法是通过文档类型定义d 阳来描述的。o t i ) 描述了什么 是有效的标记,并进一步定义x m l 文档的结构,即定义页面的元素、元素的属 性以及元素和属性之问的关系。d t d 可以包含在它所描述的文档中,或者通过 u r l 与文档相链接。每个文档都要与其o t d 相对照。相同的d t d 可以被不同的 x m l 文档和网站共享。d t d 文件包含o t d 声明和文档类型声明两个部分,文档 类型声明出现在x m l 文档中,紧跟在x m l 声明之后,将x 札文档与d t d 关联 起来。 ( 2 ) y j i ls c h e m a :尽管d t d 规范了x m l 中标记的使用规则,但x m l 文档处 理的自动化却要求有种更为严格、更为全面的标准。关于运方面的需求,包 括:如何使一个应用程序的不同模块能够互相协调,以及对文档结构、属性、 数据类型等进行约束。于是w 3 c 提出了x 札s c h e m a ,它的新特征弥补了d t d 的 不足: 1 ) 一致性:使得对x m l 的定义不必再利用一种特定的形式化的语言,它用 x l 也语言规范来定义。 2 ) 丰富的数据类型:x m l 大纲支持的数据类型包括:数字型、布尔型、整 型和日期时间等等。而且它还支持由这些简单的类型生成更复杂的类型,并且 可以由用户自定义数据类型。 3 ) 属性分组:属性的应用范围是多种多样的。有的是所有元素都有的,有 的是专门为图形元素设定的。 4 ) 原型可以更新:通过特定的映射机制,还可以将不同的s c h e m a 进行转 换,以实现更高层次的数据交换。 5 ) 名域的支持;可充分利用儿的继承性和重用性。 7 武汉理工大学硕士学位论文 2 3x m l 文档的显示 x m l 是一组开放式的标准,它包括3 个相互联系的标准:( 1 ) x l i l ;( 2 ) x s l ( 可扩展的样式语言,e x t e n s i b es t y l e l a n g u a g e ) ;( 3 ) x l l ( 可扩展的链接 语言,e x t e n s i b l el i n k i n gl a n g u a g e ) 。这3 个标准相辅相成,使x m l 语言在 数据标记、显示风格和超文本链接方面功能强大,对数据交换十分便利,被称 为w e b 风格的e d i ( 电子数据交换) 。 x m l 强调内容描述与形式描述的分离,一方面可以使x m l 文件的编写者更集 中精力于数据本身,而不受显示方式的细节影响;另一方面可允许为相同的数 据定义不同的显示方式,从而适合于不同应用、不同媒体,使x m l 数据得到最 大程度的重用。x 札文档数据的显示形式是通过样式单定义的。c s s ( c a s c a d i n g s t y l es h e e t s ) 是x m l 使用的一种标准的级联样式单,x s l ( e x t e n s b i l es t y l e l a n g u a g e ) 则是可扩展的样式语言。由于x m l 允许用户创建任何所需的标记, 而通用浏览器却既无法预期用户标记的意义又无法为显示这些标记而提供规 则,因此用户必须为自己创建的x m l 文档编写样式单,而样式单可以实现共享。 浏览器对一个x m l 文档的处理过程是:首先去关联它所指定的样式单文件,如 果该样式单是一个x s l 文件,则按照规定对x m l 数据进行转换后再显示,x s l 本 身也是基于x 札语言的,可以将x m l 转化为h t m l 后再显示。如果该样式单是一 个c s s 文件,浏览器就会按照样式单的规定给每个标记赋予一组样式后再显示。 x s l 是专门为x m l 设计的样式语言。x s l 本身也是x 1 4 l 文档,完全遵照x m l 的语法,采用转换的方式,将一种格式的x m l 转换为另一种格式的x m l 。x s l 标 准的前半部一关于转换语法的描述得到了飞速的发展,并从x s l 中分离出来, 独立成为一种新的标准即:x s l t ( x s lt r a n s f o r m a t i o n ) 。 x s l t 转换必须由专门的称为x s l 处理器的软件来进行。任何x m l 文件必须 先经过解析器解析和整理,以便进一步利用。x s l 样式表和所要转换的y j 4 l 源代 码都属于x m l 文件,也都需要解析。因此,x s l 处理器在工作之前,须先通过 x m l 解析器将x s l 样式表和x m l 文件的结构分析清楚。转换前的) 珏也文件的结构 称为源树,转换后的x 儿文件的结构称为结果树。 x s l 处理器在x m l 解析器对x s l 样式表和要转换的x m l 文件解析完成之后, 就依照样式表的结构逻辑指示,对源树的各节点进行遍历,生成结构树,并同 浏览器在屏幕上显示或输出到文件保存。 8 武汉理工大学硕士学位论文 2 4x m l 应用编程接口 围绕x m l 出现的应用编程接口( a p i ,a p p l i c a t i o np r o g r a n l u i n gi n t e r f a c e ) 对于x m l 应用开发来说无疑是十分重要的。应用开发者可以使用这些标准的接 口来获得和设置埘l 文档中的元素、属性,数据内容等。在这些x m l 的应用编 程接口中,最重要的是w 3 c 制定的d o m 和s a x 。 ( 1 ) d o m ( d o c u m e n to b j e c tm o d e l ) :d o m 即文档对象模型,提供了一种可 以应用于不同环境和应用中的标准程序接口,可以用任何语言来实现d 伽接口。 利用对象把文档模型化,这些模型不仅描述了文档的结构,还定义了模型中的 对象的行为。在o o m 中用对象模型来描述文档的逻辑结构,对象模型要实现: 用来表示、操作文档的接口、接口的行为和属性、接口之间的关系及互操作。 在d o m 中,文档的逻辑结构类似一棵树。文档、文档中的根、元素、元素内容、 属性、属性值等都是以对象模型的形式表示的。d o m 中还包含注释、处理指令、 文档类型、实体、实体引用、名空间、事件、样式表等多种对象模型。利用d o m , 程序开发人员可以动态的创建文档,遍历文档结构,添加、修改、删除文档内 容,改变文档的显示方式等。 ( 2 ) s a x ( s i m p l e p if o rx m l ) :s a x 是一种“事件驱动”的x 地软件开 发包接口。s a x 用基于事件的方式来处理) 礓也文档,使用s a x 的过程有两步:首 先用户使用s a x 的a p i 来定义元素标记事件,然后启用解析器来解析x 札文档。 当解析器遍历) 嘶。文档时遇到用户定义过的元素标记事件时产生事件,该事件 将驱动应用调用响应的程序去处理该特定的元素。否则,解析器继续解析。基 于事件的方法使s a x 为应用开发者提供了处理特定元素的方法,而不必要求在 应用层次处理之前预先建好元素。处理过程实时进行。这对需要处理元素子集 或处理大规模x 札文档时特别有效,否则建立大量对象时会耗费大量内存。s a 】【 用于顺序读取文档,速度快,但不能回退,使用不方便,而d o h 是基于树的对 象模型,一次读取整个文档,面向对象,使用方便,但占用更多资源,不适合 用于较大的x m l 文档。 2 5 基于x m l 的数据交换格式的优点嘲 基于x m l 的数据交换格式具有如下突出的优点: 9 武汉理工大学硕士学位论文 ( 1 ) 易于扩展:因为x m l 的标记是用户定义的,所以从理论上讲,其类型 的数量可以是无限的。 ( 2 ) 结构性强:x m l 的文件结构嵌套可以复杂到任何程度,能表示面向对 象的等级层次。 ( 3 ) 交互性好:用户与应用进行交互时,使用x m l 可以非常方便地在本地 排序、过滤和进行其它的数据操作,不需与服务器进行交互,减轻了服务器的 负担。 ( 4 ) 语义性强:x m l 可以自行设计有意义的标记,便于异构系统之间的数 据交换和信息检索,实现机器与机器之间的信息交换。 ( 5 ) 可格式化:可扩展样式语言x s l 可以指定如何显示数据。由于数据和 显示是分离的,可以为同一数据定义不同的样式表,用于不同输出。 ( 6 ) 易于处理:y a t l 对格式的定义严格,具有层次结构,而且与厂商无关; 具有标准、统一、通用的解析器接口,避免了特定的文档格式的限制;对一个 x m l 对象的操作如遍历、查询、删除、添加、重建等,只要遵循经典的树操作便 可。 ( 7 ) 灵活性强:在符合d t d 规范的前提下,可以根据需要调整数据在文档 中的次序,而不影响文档的解析,若是标记的含义不够明确和充分,可自由注 释,而不会影响文档的解析。 ( 8 ) 转换方便:系统将来若要与外部另一使用不同d t d 定义的应用平台进 行数据交换,只要做一d t d ( 一 d t d 的映射即可( 通过x s l t ) ,x m l 数据至x m l 数 据的转换较传统的结构化转换更便捷得多。 ( 9 ) 目前所有的主流数据库管理系统都开始支持x 札,比如o r a c l e 8 以上, d b 2 7 0 以上,s q ls e r v e r 2 0 0 0 中,都支持x m l 文档到数据库的双向数据读写。 ( 1 0 ) 与平台无关:x m l 文档可无须任何更改直接移植到其它平台上。 武汉理工大学硕士学位论文 第3 章数据交换的研究 3 1 数据交换的概念n ” 数据交换是指通过使用特殊的设备如磁盘、网络等媒介在不同的硬件平台、 操作系统、应用软件之间的数据移动过程。数据交换是实现数据共享的一种技 术,因此通过数据交换,实现各系统间的数据共享、互联互通、业务协同是解 决目前“信息孤岛”现象的关键途径,这也是本文研究的主要内容之一。 3 2 数据交换的必要性m , 随着计算机技术的发展,在现代企业信息化的发展过程中积累了大量数据, 而且为了存储和管理这些数据,企业投入了大量的资金及人力,然而,由于实 施数据管理系统的阶段性、技术性,以及应用系统的不断升级等其它经济和人 为因素的影响,以至即使在一个单位或一个企业内采用的数据管理系统也大不 相同,从简单的文件数据库到复杂的网络数据库,日益积累它们构成了庞大的 异构数据源。尽管这些数据管理系统能够满足数据存储和管理要求,但是在许 多情况下,为完成一项工作可能需要访问分布在网络上不同位置的多个管理系 统中的数据。同时网络的发展使单一数据源逐渐从一个孤立节点发展成为不断 与网络交换信息或进行商务交易的实体,所需要的数据也从企业内部走向了企 业间。现在面对此种情况我们比以往任何时候都需要将数据进行发布和交换, 以满足信息交流的需求。然而这必然导致越来越多的应用需要访问分布在不同 位置的各种异构数据源,因此数据交换的出现为解决此问题提供了有力的技术 支持。 3 3 数据交换实现数据集成要解决的问题 在现代企业中,为了实现办公自动化,各部门根据自身的需求,基于各种 技术和数据库平台先后建立起了满足自己需要的办公自动化系统,但是各个系 统之间不能有效地实现信息共享和交互,形成了“信息孤岛”现象。针对此种 1 1 武汉理工大学硕士学位论文 情况,可以采用数据交换平台实现数据集成,最终实现在企业内部数据的共享, 达到办公真正的自动化“4 异构数据源集成是数据库领域的经典问题,并随着 x m l 技术的兴起再次成为了该领域研究的一个热点。在实现异构数据源的集成 时,存在着一系列关键的技术闯题,以下分别进行概述n ”: ( 1 ) 异构性:异构性是数据集成必须面临的首要问题,其主要表现在两个 方面:系统异构,数据源所依赖的应用系统、数据库管理系统乃至操作系统之 间的不同构成了系统异构;模式异构,数据源在存储模式上的不同。可能是结 构化的,也可能是非结构化的。需要注意的是,即便对最常用的结构化模式, 它们的模式结构可能也存在着差异。例如o r a c l e 所采用的数据类型与s q l s e r v e r 所采用的数据类型并不是完全一致的。 ( 2 ) 完整性:异构数据源数据集成的目的是为应用提供统一的访问支持。 为满足各种应用处理( 包括发布) 数据的条件,集成后的数据必须保证一定的 完整性,包括数据完整性和约束完整性两个方面:数据完整性是指完整提取数 据本身,一般来说,这一点较容易达到;约束完整性,约束是指数据与数据之 间的关联关系,是唯一表征数据间逻辑的特征。保证约束的完整性是良好的数 据发布和交换的前提,可以方便数据处理过程,提高效率。 ( 3 ) 语义冲突:信息资源之间存在着语义上的区别。这些语义上的不同可 能引起各种矛盾,从简单的命名语义冲突,到复杂的结构语义冲突。语义冲突 会带来数据集成结构的冗余,干扰数据的正确处理、发布和交换。因此如何尽 量减少语义冲突也是异构数据源数据集成的一个研究热点。 ( 4 ) 数据冗余:数据冗余是指对于同一个客观事物在数据库中存在两个或 两个以上完全相同的描述。由于应用系统没有从总体上规划设计,几乎所有应 用系统中都存在数据的重复和信息的冗余现象,但是有时适当的保留点冗余对 提高系统效率有好处,特别是在分布式状态下,可以减少网上的传输时间。 ( 5 ) 不一致性:不一致性是指多个应用系统之间由于数据的重复或冗余, 在实际使用过程中,必然造成数据信息更新的不同步,特别是在分布式状态下 会造成数据的不一致性。 ( 6 ) 数据不完整性;由于实际系统设计时存在的缺陷,以及其使用过程中 人为因素所造成的影响,可能出现有些数据属性的值丢失或不确定的情况,还 可能缺少必需的数据而造成数据不完整。 ( 7 ) 权限瓶颈:由于异构数据源的分布性,数据库资源可能归属不同的单 位,所以如何在访问异构数据源数据基础上原有数据库的权限不被侵犯,实现 对原有数据源访问权限的隔离和控制,就成为连接异构数据资源库必须解决的 武汉理工大学硕士学位论文 问题。 ( 8 ) 集成内容限定:多个异构数据源之间的数据集成有时候并不是要将所 有的数据进行集成,那么如何定义要集成的范围,就构成了数据集成内容的限 定问题。 3 4 数据进行交换的标准 在当今,信息技术是基于标准的,正如“没有规矩不成方圆”,如果没有标 准,那就很难进行通信。标准就是一种工具,通过它给比特流和字节指定准确 含义使通信畅通。例如:大多数计算机使用美国国家信息交换标准码a s c i i ,把 一个八位比特流一0 1 0 0 0 0 1 翻译成字母“a ”,另一标准可能翻译成一种颜色, 第三种标准可能翻译成一段音乐等。 对任意应用系统而言,它不可避免地需要根据多个交换描述标准提供数据 接口,而且应当为潜在的交换描述标准预留接口“”。因为随着应用系统的升级 或者自动化程度的提高,数据的一次转换流程将不局限于一个交换描述标准, 在很多情况下需要涉及两个或多个交换描述标准,而且所有通过数据界面获得 的数据必须保存入数据库以便应用程序进行处理。若为每两个存储格式构建转 换应用,是一项非常复杂的工作。 作为企业办公自动化系统之间数据交换的中间格式标准,最基本的一条就 是通用性,也就是使用该系统的企业能够识别这种中间格式,并能够转化为与 本企业相适应的数据格式,完成一次简单的数据交换,以满足自己的需求。随 着x 札技术的兴起,以及x m l 所具有的优越性,可以把x m l 文件作为数据交换 的标准,即把所有的非x m l 格式的要用于交换的信息转换成x m l 格式,用它作 为中间数据格式,需要交换数据的企业可以通过某种媒介获取x m l 格式的信息, 然后转化成自己能够识别的信息,这样就完成了一次数据交换。有两种方式可 以实现数据交换:一是数据交换对企业来说是不可见的,完全在后台运行,企 业只要给出自己所需要的数据格式,经过数据交换系统到达企业最终的数据格 式正是企业所需要的格式。另一种方式就是数据交换系统只负责将接收到的数 据转换成x 札的中间格式,然后企业在用户端安装相应的软件能够将已经转换 成的x m l 的中间格式的数据转换成自己所需要的数据格式,这样来完成数据交 换。同时有的行业只需要一个x m l 的子集就可以达到数据交换的要求,可以对 x m l 进行改造,使得它能够更好的适应特定的行业标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年栾城县事业单位联考招聘考试历年真题附答案
- 电商运营人员工作计划及销售策略
- 档案鉴定工作案例分析集
- 古县2025山西临汾古县事业单位招聘31人笔试历年参考题库典型考点附带答案详解(3卷合一)2套试卷
- 2025辽宁大唐国际葫芦岛热电有限责任公司招聘24人笔试历年典型考点题库附带答案详解2套试卷
- 2025广州市白云区人力资源和社会保障局招聘笔试历年难易错考点试卷带答案解析2套试卷
- 档案修复工具与设备的操作维护
- 电力行业电气检测人才选拔策略
- 电工工作总结报告
- 电商创业项目市场分析与发展策略
- 安装门头施工方案怎么写
- 海南自贸港课件
- 2023年-0036 楼宇自动化系统(BAS)
- 辽宁省大连市2025年-2026年小学六年级数学期末考试(上学期)试卷及答案
- 设备管理处罚管理办法
- 国家基层高血压防治管理指南培训试题与答案
- 2025无人环卫商业化前景、市场空间及行业竞争格局分析报告
- 工程维修管理知识培训课件
- 收费站冬季安全知识培训课件
- 地雷爆破课件
- 医院检验科主任年终工作总结报告
评论
0/150
提交评论