




已阅读5页,还剩70页未读, 继续免费阅读
(地图学与地理信息系统专业论文)基于oracle+xml+db技术的gml数据存储研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 g m l 是o g c ( o p e ng e o s p a t i a lc o n s o r t i u m ,开放式地理信息系 统协会) 制定的基于x m l 的地理信息的编码规范。由于g m l 平台独立、 为地理信息包括地理要素的空间与非空间特性信息的建模、传输和存 储提供了统一的框架,它的出现为空间数据的共享和互操作提供了很 好的解决方案,同时也给当前流行的w e b g i s 技术的发展开辟了新的 道路,g m l 正凸显出越来越多的优越性。而海量g m l 数据的出现,给 g i s 领域带来一个亟需解决的问题,即,如何有效地存取这些g m l 数 据。目前国内外学者都对此进行了大量的研究,也取得了不小的成果, 但大都处于试验阶段,未有一种公认的存储策略问世。本文结合x m l 数据库技术,基于o r a c l ex m ld b 技术,深入研究了一种g m l 的存储 策略,并结合o g c 的地理信息服务框架尝试提供实现g m l 存储的服务 模块。 由于g m l 是基于x m l 的地理信息编码规范,深入研究g m l 规范的 内容,并结合分析x m l 数据库技术,可以为g m l 数据库的开发提供理 论基础j 拓宽我们的设计思路。论文的第二、三章介绍了相关的理论 和技术。 由于目前对于g m l 存储尚没有提出明确的概念和体系结构,本文 在对相关技术深入分析的基础上,提出了基于o r a c l ex m ld b 技术的 g m l 空间数据存储方法,设计了g m l 数据库,分析了其可能具有的优 劣之处。这是论文第四章的内容。 _ 随后文章在o g c 的地理信息网络服务实现规范的基础上,构建 g m l 的应用服务模型,描述了一个基于本文g m l 数据存储策略的g m l 存储服务 最后,本文第六章对论文进行了研究总结,并对下一步的研究计 划进行了展望。 关键词:g m l ,x m l ,o r a c l ex m ld b ,x m l 数据库,w e b 服务,o w s a bs t r a c t g e o g r a p h i cm a r k u pl a n g u a g ep r o p o s e db yo p e ng e o s p a t i a l c o n s o r t i u m i sa ne n c o d i n gs p e c i f i c a t i o nb a s e do nx m l f o rg e o g r a p h i c i n f o r m a t i o n i ti s p l a t f o r m n e u t r a l a n dc a n p r o v i d e sa n u n i v e r s a l f r a m e w o r kf o rm o d e l i n g t r a n s p o r t i n ga n ds t o r i n gt h es p a t i a la n dt h e n o n s p a t i a lp r o p e r t i e so fg e o g r a p h i cf e a t u r e s s oi tc a no f f e ra l le f f i c i e n t r e s o l u t i o nf o rt h es h a d n ga n di n t e r o p e r a t i n go fs p a t i a ld a t a a n dg m l a l s ol e a d st o d a y sp r e v a l e n tw r e b g i st e c h n o l o g yt oab r a n d n e ww a y g m lh a sn o wb e e ns h o w i n gu sm o r ea n dm o r ea d v a n t a g e s h o w e v e lt h e e m e r g e n c eo ft r e m e n d o u sn u m b e ro fg m l d a t ab r i n g so n o n ep r o b l e mt o g i sf i e l d ,n a m e l y , h o wt os t o r i n gt h eg m ld a t a n o w a d a y s ,a l t h o u g h s c h o l a r sd o m e s t i ca n do v e r s e a sh a v ed o n eq u a n t i t a t i v er e s e a r c ho nt h i s , m a n y f r u i t st h e yh a v eg o ta r es t i l lo nt h es t a g eo fe x p e r i m e n t i n g t h a t st o s a y , t h e r e ss t i l ln op r o v e r b i a ls t o r a g es t r a t e g y i n t e g r a t i n gx m l d a t a b a s e t e c h n o l o g y , t h i sp a p e rd i dad e e pr e s e a r c ho ng m ls t o r a g es t r a t e g yb a s e d o no r a c l ex m ld b ,a n dt r i e dt oo f f e rt h ei m p l e m e n t e dg m ls t o r i n g s e r v i c em o d u l eu n d e ro g c so p e n g i sw r e bs e r v i c ef r a m e w o r k g m li sa l le n c o d i n gs p e c i f i c a t i o nf o rg e o g r a p h i ci n f o r m a t i o nb a s e d o nx m l s oad e e pl e a r n i n go fg m l s p e c i f i c a t i o na n dt h ea d v a n t a g eo f x m ld a t a b a s et e c h n o l o g yc a np r o v i d ea l la c a d e m i cf o u n d a t i o nf o rt h e d e v e l o p i n go fg m ld a t a b a s e c h a p t e r2a n d3i n t r o d u c e dr e l a t i v et h e o r y a n dt e c h n o l o g y p r e s e n tt h e r ea r en oe x p l i c i td e f i n i t i o n sa n da r c h i t e c t u r e so fg m l s t o r a g e t h i sp a p e ra d v a n c e do n em e t h o df o rg m ld a t ab a s e do r a c l e x m ld bt e c h n o l o g ya f t e rt h ea n a l y s i so fr e l a t i v et e c h n o l o g ya n d d e s i g n e dt h eg m l d a t a b a s e t h a t st h ec o n t e n to fc h a p t e r4 f o l l o w i n gi st h ec o n s t r u c t i o no fg m la p p l i c a t i o ns e r v i c em o d e l b a s e do nt h ei m p l e m e n t i n gs p e c i f i c a t i o nf o rg e o g r p h i ci n f o r m a t i o nw e b s e r v i c eo fo g c t h i sp a r ta l s od e s c r i b e dag m l s t o r i n gs e r v i c e i nt h ee n d ,c h a p t e r6s u m m a r i z e da l lt h ec o n t e n to ft h i sp a p e r , a n d a l s om a d eap r o s p e c tf o r t h en e x tr e s e a r c h i n gp l a n k e w o r d s :g m l x m l o r a c l ex m ld b x m ld a t a b a s e w e bs e r v i c e 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:墨叁童 日期:地垒翌年互月压日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:玺雄导师签名乡虽世日期:立僻年4 月压日 中南大学硕士学位论文第一章绪论 1 1 引言 第一章绪论 g i s ( g e o g r a p h i ci n f o r m a t i o ns y s t e m ) ,即地理信息系统,是采集,存储, 管理,检索,分析和描述整个或者部分地球表面和空间地理数据的空间信息系统, 就是用计算机技术去处理以各种手段采集来的地理信息,并将图形管理系统和数 据管理系统充分结合起来的信息技术。由此可见,其发展与计算机软硬件技术的 发展紧密相关。尤其是在当前i n t e r n e t 已成为人们生活主导的今天,利用地理 信息系统实现地理空间信息的全面共享,必将是g i s 发展的主流趋势和g i s 领域 的研究热点。 空间数据管理一直是地理信息系统的重要研究课题之一,它包括空间数据模 型研究和空间数据库研究两方面的内容。前者为空间数据的组织和空间数据库的 设计提供了基本方法,其研究对设计空间数据库和发展新一代g i s 起着举足轻重 的作用。由于g i s 的快速发展和其应用领域的不断拓展,涌现了大批的g i s 专用 软件和应用系统,产生并累积了海量空间数据。同时,不同g i s 软件采用不同的 数据格式对地理信息进行编码,形成多种彼此互异的私有数据格式,只能靠开发 另外的交换标准在不同的数据格式之间进行转换,往往造成信息的丢失。而且如 果某种数据格式不公开,就无法进行转化。这很大程度上限制了地理信息的互操 作性,从而,这种由数据模型的差异导致的空间数据共享困难成为了制约g i s 发展的瓶颈。各g i s 软件厂商和第三方软件厂商提出了空间数据转换的解决方 案,但是仍然不能很有效地解决互操作问题。 在这种情形下,为了使数据标准化,最大程度地实现数据集成和共享,o g c ( o p e ng e o s p a t i a lc o n s o r t i u m ,开放式地理信息协会) 开发了基于) ( m l 的地理 信息编码语言g m i ( g e o g r a p h i cm a r k u pl a n g u a g e ,地理标记语言) 。g m l 采用 了o p e n g i s 抽象规范的几何模型,并具有处理复杂属性信息的能力,它的出现为 g i s 空间数据建模、数据编码、传输和存储提供了统一的标准和框架。基于g m l , 可以比较容易地构建面向对象的数据模型,这种描述方法可以清楚地表示地理空 间特征的空间数据和非空间数据,简洁地描述地物之间的拓扑关系。同时,由于 g m l 基于) ( m l ,这样便于实现数据共享以及数据的传输,方便实现分布式g i s 系 统。 g m l 不仅可以作为一种有效的空间数据传输和交换工具,也是一种很好的空 间数据存储格式。如果仅使用g m l 表达、存储和管理空间数据,即所有g i s 厂商 中南大学硕士学位论文 第一章绪论 都使用g m l 作为其数据模型和文件格式,那么,就可以避免繁多的数据格式转化, 所有的g i s 数据都可以有效地集成、共享,从而解决了空间信息孤岛问题。目前, 已有些国家和地区停止对外提供私有格式的数据,改为提供g m l 格式的数据。此 外,g m l 还是连接o g c 其他标准和规范如网络要素服务w f s 和网络地图服务删s 的纽带,为w e b g i s 的发展开辟了崭新的道路。 随着g m l 越来越多的应用,如何有效地存储、管理、操纵g m l 空间数据成为 空间数据管理的关键问题之一。这要求我们研究出一种新型的、能够有效地存储 管理g m l 数据的空间数据库。它具有传统空间数据库的功能,但又区别于传统的 数据库,因为它是基于x m l 的文档格式。同时,也正由于g m l 是x m l 对空间信息 的编码,所以对g m l 空间数据的存储、查询等研究,基本上是结合传统空间数据 库技术,对x m l 数据进行存储、查询等的扩展。 1 2 课题研究的目的和意义 随着时代的发展,人们对空间信息共享的需求越来越多,然而空间信息要真 正实现共享,必须解决空间信息数据多格式、多数据库融合等瓶颈问题。由于地 理信息系统处理的数据对象是空间对象,有很强的时空特性,获取数据的手段也 复杂多样,这就形成多种格式的原始数据,再加上g i s 应用系统很长一段时间处 于以具体项目为中心的孤立发展状态中,很多g i s 软件都有自己的数据格式,且 互不兼容,因此形成一个个“信息孤岛 ,造成了人力、财力上的浪费,信息资 源不能得到有效的利用。 本文以g m l 空间数据存储技术的探讨为主题,就是希望能对g m l 数据库的发展 作出一定贡献,同时能对上述问题的解决开辟新的思路。目前,由于尚未出现比 较成熟的g m l 数据库产品,甚至对于g m l 数据库的构建也没有一个较完整的体系结 构。所以,本文提出当前比较流行的几种g m l 数据库的实现方案并进行深刻对比, 以扩展思路。在这些方法、策略的基础之上进行研究,为实现g m l 空间数据的存 储提出一种新的解决方案,并为进一步证明该方案的可行性提供试验平台。通过 实际操作的结果来验证本文所提出的基于o r a c l e x m l d b 技术的中粒度存储策略, 结合与g m l 息息相关的o g c 其他的规范和标准( w f s ,w m s 等) 来实现不同的地理信 息软件之间能够迅速快捷地获取不同来源的地理数据,并将它们集成起来进行分 析,实现各个系统之间真正意义上的互操作。 1 3 国内外研究现状 目前,信息共享已成为衡量现代信息社会发展程度的重要标准。而地理信息 2 中南大学硕士学位论文第一章绪论 互操作的产生则是信息共享的必然产物,地理信息系统的互操作则是2 1 世纪地理 信息系统研究领域的重要组成部分之一。我国的g i s 研究和应用则进入了有计划、 有组织、有目标的阶段,并且随着计算机和信息技术的迅速发发展,g i s 正朝着 专业化、大型化、社会化的方向发展。“大型化 体现在系统和数据规模两个方 面;“社会化则要求g i s 要面向整个社会,满足社会各界对有关地理信息的需 求,简言之就是“开放数据、“简化操作一、“面向服务 ,通过网络实现从数据 乃至系统之间的完全共享和互动。 g m l 基于x m l ,能够表示地理空间对象的空间数据和非空间数据。而x m l 是数据 描述的最好手段,更准确地说,x m l 是表达数据描述的语言。g m l 则是严格按照被 广泛采用的x m l 标准制定的,这就确保了g m l 数据可以在不同的平台下被广泛地免 费工具所浏览、编辑、转换。有了g m l ,我们才可以真正意义上谈论所谓开放的 地理信息,因为用g m l 编码的地理信息文件可以用任何文本编辑器查看和修改。 o c - c 在20 0 3 年2 月6 日推出g m l 3 o 规范,之前是2 0 0 2 年推出的2 1 2 版和2 0 0 1 年2 月2 0 日推出的2 o 版。其中g m l 3 0 版中的s c h e m a 集合组织具有了模块化特点,即 用户能够有选择地使用所需部分,简化和缩小了执行的尺寸,提供了面向w e b 的 应用。此外,3 0 版增加了对复杂的几何实体、拓扑、空间参照系统、元数据、 时间特征和动态数据等的支持,使其更加适合描述现实世界问题。 而在g m l 存储方面,虽然g m l 数据是基于x m l 的地理数据编码,但是由于 g m l 与x m l 之间仍存在根本差别,现有存储x m l 的技术方法不能直接用于g m l 文 档的存储。然而,在学术界,我们仍能从x m l 的数据库存储方法中得到启发,据 此对g m l 文档实现基于关系的或者面向对象的模型制定多种g m l 文档到数据库的 映射。国内外的在这方面的主要研究成果有:l a k s h m i ns r i p a d a 等在文献 1 中 应用空间数据库,根据特定的模式匹配规则,实现了从g m l 文档到空间数据库的 存储,并对存储和查询性能进行了分析,同时指出很多存储g m l 数据的方法都是 基于关系的或者面向对象的模型,基于关系模型进行存储包括两类:结构映射和 模型映射。b i k r a m ba h a d u r s hr e s t h a 在文献 2 中对) ( m l 数据库技术进行了研 究,并尝试将g m l 文档数据存入x m l 数据库,但由于g 札数据包含空间特性,没 有成功。r a n c o u r te t a l ( 2 0 0 1 ) 将g m l 与先前所定义的空间标准进行比较,得 出g m l 能有效的满足空间数据交换标准的要求的结论,并预测g m l 将在行业应 用中占据主导地位 3 。而在国内,谭玉敏等在文献 4 中给出了基于n e t 平台 在s q ls e r v e r 2 0 0 0 数据库中对g 儿文档进行存储和解析的程序实例,但是没有 给出程序的接口等。崔希民等( 2 0 0 3 ) 提出了g i s 数据集成和互操作的系统架构。 并在该架构中采用g l i t l 作为多源异构g i s 数据的统一描述格式,在数据层次上 实现g i s 数据的集成和互操作啼1 。张书亮等基于国家自然基金项目g m l 空间数 3 中南大学硕士学位论文第一章绪论 据存储索引机制研究”的研究基础,提出了g m l - - g i s 的概念阳1 ,构造了g m l - g i s 的技术体系框架,并分别对涉及g m l - g i s 的包括g m l 存储在内的几个核心技术提 出了相应的研究思路和方法。李俊等在文献 7 中通过简化模式的方法提出一种 将g m l 文档存储到空间数据库中的存储映射模型g 2 s d b ,定义边表,保留了g m l 文档的部分结构信息。这种存储方式有利于g m l 文档的重构,并有利于g m l 查询 汇总的路径表达式的处理,提高了查询操作的效率,但对g m l 文档的结构信息会 有所丢失。南京师范大学殷丽丽利用关系数据库的技术和面向对象的特性,根据 g m l 应用模式的特点将关系映射中的对象一关系映射方法进行了改进,提出一种 新的机遇模式的映射机制。由该机制生成对应于g m l 应用模式和数据库模式之间 的映射规范文件。该机制下,存储g m l 数据的时候,首先根据该规范文件和g m l 应用模式文件生成中间的映射文件,然后根据映射文件生成对应的数据库关系模 式,最后通过该映射文件将g m l 文档中的属性数据和几何数据一体化存储到对象 关系数据库中哺,。 纵观当前国内外在g m l 存储方面所取得的成果,它们对g m l 方向的研究乃至开 放式地理信息系统的研究无疑都作出了很大贡献。但是由于这些研究都还处于实 验阶段,尚未产生社会效益和经济效益,也并未出现一种比较权威的解决策略。 而且,由于对大多数实验都紧紧针对g m l 存储这一个“点 ,而没有结合g m l 其他 的诸如解析、索引等核心技术,都没有形成完整的应用技术体系结构。另一方面, 目前的g m l 存储研究也没有结合o c , c 中与g m l 紧密联系在一起的其他技术,如前面 提到的w f s ,删s 等等。随着g m l 应用的深入和广泛,g m l 应用技术间的互操作成为 g m l 应用中的突出问题。通过构建合理的g m l - - g i s 框架来实现不同g m l 应用研究技 术的集成,将不同的技术方法实现下的g m l 关键技术集成到一个框架中来。而这 将是未来g m l 技术发展的大趋势。 1 4 论文研究主要内容 随着各大g i s 厂商对g m l 规范的支持,及其在数据建模、传输等方面的广泛 应用,如何有效地管理g m l 格式的空间数据已成为亟待解决的问题之一。在研究 解决g m l 数据的存储问题之前我们首先必须全面了解g m l 规范以及g m l 文档等方 面内容,并考虑如何存储g m l 文档,只有对g m l 应用模式充分分析后才能确定 g m l 数据库的存储模型。为此,本文在简单研究了g m l 的组成、特征、建模等相 关内容之后,结合x m l 数据库技术和传统的空间数据库技术,对g m l 空间数据的 存储、索引等问题进行了深入研究,提出了基于o r a c l e x m l 数据库技术的中粒度 的g m l 空间数据存储策略。 4 中南大学硕士学位论文第一章绪论 本文共分五章,主要内容包括: 第一章绪论,综述了本文的研究背景、课题选择的意义和目的、关于本方向 的国内外研究现状以及本文的组织安排。 第二章g m l 空间数据存储基础原理,介绍了基于x m l 的g m l 规范,分析了当前 x m l 数据的主要存储管理模式以及空间数据的传统数据库管理方式。重点在于介 绍o r a c l e 所提供的x m l 数据库技术o r a c l e ) o i ld b ,并结合本源x m l 数据库的概 念、面向对象的空间数据模型以及g m l 空间数据的特点,选择合适的g m l 空间数据 的存储粒度,并提出了g m l 空间数据的存储模型。 第三章g m l 标准、空间数据g m l 化与g m l 解析,研究g m l 规范,编写程序实现g i s 私有数据格式s h a p e f i l e 到g m l 的转换,生成实验用到的g m l 实例文档,并介绍g m l 解析技术。 第四章g m l 空间数据存储实现,以o r a c l e 作为存储数据库,采用j a v a 语言开 发,实现了本文提出的基于o r a c l ex m ld b 的中粒度g m l 空间数据存储,包括数据 库设计和数据存储入库方面的内容,以及对该解决方案下的g m l 数据库的索引技 术的实现。 第五章本章将g m l 存储与o g c 提出的o w s 计划( o p e n g i sw e bs e r v i c e s ,开放式 地理信息系统服务框架) 的结合,在o g c 的地理信息网络服务实现规范的基础上, 构建g m l 的应用服务模型,描述一个基于o r a c l ex m ld b 技术的g m l 存储服务。 第六章总结与展望,总结了本文的主要研究内容和成果以及当前g m l 空间数 据管理的研究状况和存在问题,并展望了g m l 空间数据库今后的发展方向。 5 中南大学硕士学位论文 第二章g m l 空间数据存储基础 第二章g m l 数据存储基础 2 1g m l 的基础x m l 2 1 1x m l 简介 ) ( m l ,代表“可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是由w 3 c 提 出的用于w e b 上数据交换的通用标准。x m l 同h t m l 都是源于s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) ,是s g m l 的子集,但两者的出现又都针对不同的 问题:前者针对于数据本身内容的描述,着重数据是什么;后者针对数据的显示, 着重数据像什么。而x m l 最大的优势在于它将s g m l 的优势继承下来,同时又去除 了其复杂性,使之更加轻便,并且能够应用于网络。其中,) ( m l 一个最基本的特 点就是允许数据通过标签进行自我描述,换句话说,x m l 并不向用户提供预先定 义的标签,而是提供了一系列的规范,让用户遵循规范去创建适合自己领域的标 签。这些规范可以有效的保证用户用自定义标签书写的x m l 文档是合式( 即符合 x m l 规范) 的。具体而言,就是用一个d t d ( d o c u m e n tt y p ed i f i n a t i o n ) 文档或 者x m ls c h e m a 来限定用户自定义标签在文档中的出现位置,各个标签出现的先后 顺序,以及标签所代表元素的内容和属性方面的要求等等。符合具体的d t d 或者 x m ls c h e m a 的x m l 文档才是有效的。x m l 最核心的原则就是将数据的内容和表现形 式完全分离开来,这就使得对于同样的数据,可以通过应用合适的模式向用户提 供不同的显示方式而完全避免改变数据的内容。也就是说,x m l 文档并没有所谓 标准的显示方式。但是我们可以提供一种机制,控制用何种方式显示x m l ,x s l 样式单就起到这样的作用。x s l 样式单处理程序可以根据提供的x m l 文档源内容 和x s l 样式单,产生用户想要的x m l 显示。 总之,x m l 是简单,灵活,而又平台中立的。说它简单,是因为它是一种基于 文本的数据表示形式,你甚至可以用简单的记事本来创建自己的x m l 文档;而它 的灵活性也可以通过其允许用户在遵循一定规范的情况下随心的创建个性化标 签来表示自己的数据方面显示出来;它的另一个特点,跨平台性,即信息表示和 传输的软硬件平台无关性,更加使得x m l 在未来的网络应用中有着光明的前景。 2 1 2x m l 相关技术 与x m l 相关的技术有:d t d 和x m l s c h e m a ,x s l ( e x t e n s i b l e s t y l e s h e e t l a n g u a g e , 可扩展样式语言) ,x l i n k ( e x t e n s i b l e l i n k l a n g u a g e ,可扩展链接语言) 、x p a t h 、 6 中南大学硕士学位论文第二章g m l 空间数据存储基础 x p o i n t e r 和d o m ( d o c u m e n to b j e c tm o d e l ,文档对象模型) 等等。 ( 1 ) d t d 与x m l s c h e m a d t d ,即文档类型定义,分为外部d t d ( 在x m l 文件中调用另外已经编辑好的d t d ) 和内部d t d ( 毛e x m l 文件中直接设定d t d ) 两种,它可以看作是一类x m l 文档的模 板。它定义了文档的逻辑结构,规定了x m l 文档中所使用的元素,实体,元素的 属性,元素与实体之间的关系。它使得数据交流与共享得以正常进行,验证了数 据的有效性。但是,d t d 也有其局限性,例如,本身只是用来规范x m l 文档却并不 是x m l ,有自己的语法,所以在学习和使用时需要学习两套语法和具备两个不同 的解析工具;只支持比较少的数据类型;d t d 中的内容模型是不开放的,它不能 随意扩充内容,否则将无法被解析,等等。 x m ls c h e m a 的出现,可以说克服了d t d 的弊端,取代了d t d 的位置。它完全按 照x m l 的语法规则进行书写,这使得它可以根据x m l 的版本进行扩展。它不仅支持 多种不同的数据类型,还支持对象继承,因此,它也能支持其他外部的命名空间。 d t d 或x m l s c h e m a 用来规定x m l 文档的逻辑结构,定义x m l 文档中的元素,元素 的属性以及元素与元素属性之间的关系。d t d 或x m l s c h e m a 是x m l 的核心。与d t d 相比,x m l s c h e m a 不仅包括d t d 能实现的所有功能,还提供了一系列新的特色,大 大弥补了d t d 的不足。x m l s c h e m a 支持更丰富的数据类型,可以从数据结构和数据 类型两方面更严格地约束x m l 文档。与d t d 语言有其独立的语法形式不同, x m l s c h e m a 本身就是规范的x m l 文档,可以直接用x m l 工具进行分析。 ( 2 )x s l t x m l 的一个重要特征是把数据的内容与显示相分离,本身只存储数据的内容, 没有数据显示式样的信息。这样不同的用户可以根据自己的希望显示同一) ( m l 文 档的数据内容。x s l t 是关于x m l 文档如何显示的标准,用来补充x m l 文档的表现能 力。通过x s l 把x m l 文档中控制文本、图形、影像等显示的标准替换成相应的显示 风格,便于x m l 文档在浏览器中的显示x s l t 的控制显示风格的规则,可以出现在 ) 【1 i l l 文档中,也可以以独立的文件( 文件的扩展名为x s l ,即木x s l ) 出现,在x m l 文档中引用此文件 ( 3 ) x li n k 、x p a t h 、x p o i n t e r x li n k 、x p o i n t e r 是由x m ll i n k i n gw o r k i n gg r o u p 发展,属于x m l a c t i v i t y a r c h i t e c t u r ed o m a i n 。x p a t h 则由x s lw o r k i n gg r o u p 和x m ll i n k i n gw o r k i n g g r o u p 共同发展,同属于s t y l ea c t i v i t y ( u s e ri n t e r f a c ed o m a i n ) 和x m l a c t i v i t y ( a r c h i t e c t u r ed o m a i n ) 。x p a t h 或x p o i n t e r 用于定义x 儿文档链接 的位置,x l i n k 提供文档中链接位置上的实际链接。 x p a t h 是针对x m l 文档部分内容定义的语法,是一种能够在x m l 文档中寻找 7 中南大学硕士学位论文第二章g i v i l 空间数据存储基础 信息的语言。它通过x m l 文档中的元素和属性来进行导航,把x m l 文档作为带有 各种节点的树来查看。可以使用x p a t h 可以定位x m l 文档树的任意节点。它用路 径表达式在x m l 文档中选择节点或节点集。x p a t h 路径表达式就像计算机的文件 系统的路径表达式一样。 x p o i n t e r ,即x m l 的指针语言,它用于定义如何寻址一个文档的各个组成部 分。它提供了一种方式用于确定x m l 文档内部结构地址。x p o i n t e r 是对x p a t h 的扩展,它可以确定节点的位置和范围、通过字符串匹配查找信息、在u r i 引用 中使用寻址表达式作为段标识符。 x l i n k ,描述在资源中进行链接的语言,是关于x m l 文档中超链接模式的标准, 规定了x m l 文档资源之间的相互链接的标准关系。它提供了比h t m l 更加灵活的链 接机制,不仅支持h t m l 的单向链接,还支持多目的、多方向的链接。x l i n k 最灵 活的表现是外部扩展链接,如下图所示: 图2 - 1 外部扩展链接结构模型 ( 4 ) d o m 它是一个具有平台独立性和语言独立性的标准接口。通过该接口,应用程序 或脚本语言可以对文档对象的内容、结构和风格进行访问和更新,文档可以被进 一步处理,并且处理后的结果可以重新合并入原来的文档中,这对于发布在网络 上的需要互操作的任何信息文档都是很必要的。 2 2x m l 存储管理 2 2 1x m l 数据库 x m l 文档具有“可自描述一、“无限嵌套 、“树形结构 等特点,从某种意义上 8 中南大学硕士学位论文第二章g m l 空间数据存储基础 来讲,一个x m l 文档就相当于一个数据库或其中的一张表。然而x m l 作为数据交换 的标准,它更注重于统一数据格式,而没有提供完备的数据库特性,虽然它提供 了许多数据库所具备的东西如存储( x m l 文档) 、模式( d t d ,s c h e m a ) 、查询语言 ( x q u e r y ,x p a t h 等) 、编程接口( s a x ,d o m 等) ,但它缺少真正的数据库所应具备 的部分:高效的存储、索引、安全性、事务和数据的一致性、多用户访问、触发 器等。 那么什么是x m l 数据库昵? x m l 数据库可以定义为:( 1 ) 是一个x m l 文档及其部 分的集合,它被一个能够管理、控制这些文档集合的信息系统所维持:( 2 ) 它不单 单是一个存储结构化数据的仓库,应具有各种管理) ( m l 数据的能力,亦如关系数 据库所具有的数据独立性、完整性等,并提供存储、检索、更新x m l 文档及其元 素的机制。x m l 数据的存储管理主要有3 种:( 1 ) 文件系统方式,这是对煳l 数据最 传统也是最直接的存储方式;( 2 ) 传统数据库管理( x m l - e n a b l e dd a t a b a s e ,x e d ) 方式,即在已有数据库基础之上增加对于x m l 数据的支持而得到的数据库;( 3 ) 本源x m l 数据库( n a ti v ex m ld a t a b a s e ,n x d ) 方式,即内部数据模型基于x m l 数据 结构的数据库。 2 2 2 基于文件的管理方式 文件系统是最直接最简单的存储方式,该机制将x m l 存储为文本文件,以一个 文档就是一个文件的形式来组织。基于文件的x m l 系统简单并容易实现,无需使 用底层的数据库或者对象存储管理。同时,由于一个文件中直接存储了整个x m l 文档,多种文本编辑器和很多) 眦工具都可以直接访问这些数据,从任何程序设 计语言中访问数据是容易的,并且从所有的x m l 解析器中访问这些数据也是容易 的,都无需进行存储转换和重构查询结果。 x m l 文件管理系统的优点主要是简单、直观,易于实现,但它也存在明显的缺 点:首先,在以文件形式组织数据的情况下,当数据达到一定规模时,就会显得 比较混乱,没有一个统一的存储管理机制:其次,由于每次查询都要根据x m l 文档 构造一个x m l 文档树,处理速度比较慢,尤其当文档数据量较大时,对内存的要 求较高,不能满足复杂条件的查询,更谈不上查询的优化:最后,若要对瑚l 文档 中的数据进行更新操作,必须重新存储整个文件,这大大降低了系统效率。 所以文件管理方式只适合) ( m l 数据量小、查询更新等操作不是很复杂的情 况,它是x m l 数据管理的低级阶段,没有提供高级的数据库技术。随着) ( m l 数据量 的指数级增长,这就要求提供更加有效的数据管理能力和更快、更精确的查询功 能。此外,文件管理系统的存储、索引、查询技术低效,不提供事务、安全、恢 9 中南大学硕士学位论文 第二章g m l 空间数据存储基础 复等机制,这就无法保证数据的完整性和一致性,也不具备并发控制等功能。 2 2 3 基于传统数据库系统的管理方式一使能x m l 数据库 使能x m l 数据库】 川( x e d ,e x t e n s i b l e e n a b l e dd a t a b a s e ) 是在现有的关 系型数据库、面向对象数据库的基础上扩展了x m l 支持模块,而完成x m l 数据类型 和数据库数据类型间的格式转换和传输,此类x m l 数据库产品有o r a c l e 9 i ,s q l s e r v e r ,d b 2 等。x e d 是为存取“以数据为中心刀的x m l 文档而设计的,其存储粒 度可以是x m l 文档,也可以是x m l 数据。 x e d 存取x m l 数据的基本思想是:把整个x m l 文档作为关系数据库表中的一行记 录( 以基于关系数据库的x e d 为例说明) ,或将x m l 树型结构的数据拆散、重组后转 换成关系型表格数据存入关系数据库;在查询x m l 数据时,利用s q l 查询语言将关 系数据库内的表格数据提取出来,并还原转换成x m l 格式数据。这样,在原有关 系数据库的基础上,扩展了x m l 支持模块,从而实现对x m l 数据的统一管理。x e d 优点主要是:可以利用现有的关系数据库的成熟技术对x m l 数据进行存储、管理: 提供了其它数据形式的转换接口;包含了) ( m l 文档及其本身数据和数据库之间的 格式转换与传输。对于“以数据为中心 的x m l 文档,x e d 可以很方便地将其中的 数据抽取出来后存储在传统数据库中,但对于“以文档为中心 的x m l 文档则显 得力不从心。这主要表现在:首先,“以文档为中心 的x m l 数据是半结构化或 根本无结构,而关系数据库管理系统都是面向结构化数据的,这两者之间进行数 据的转换必然会导致一定信息的丢失,并且为了适应x m l 文档表示方式的随意性, 必定要产生大量的冗余数据,这大大破坏了关系数据库表结构的紧凑性,也浪费 了存储空间;其次,由于) ( m 【l 文档的结构多变,而结构上的每一次变化都可能引 起相应数据库中表结构的改变,这对现有数据库系统的性能将产生很大的影响, 也不符合关系数据库对结构化数据进行管理的特点;再次,在对x m l 数据进行增 删等操作时,同样会因为x m l 文档中数据的改变而引起相应表结构的变化,当遇 到大型且复杂文档或当用户需要查询x m l 数据时,在x m l 数据与数据库之间需要进 行反复地转换,数据库得重新组织这些数据,这将耗费相当多的处理时间,从而 导致数据处理的速度大幅度降低。此外,虽然可以将x m l 文档解析为表格数据后 存放到关系数据库表中,或直接将x m l 文档看作表中一个b l o b ,但这两种方法都 不能建立索引进行快速查询:并且分解x m l 文档通常会造成细节损失,如元素顺 序、处理指令、注释、空白等一些重要成份,这使得x m l 看起来并不像序列化的 表,表字段、记录的边界和x m l 文档边界不匹配。 1 0 中南大学硕士学位论文第二章g m l 空间数据存储基础 2 2 4 本源x m l 数据库 n x d ( n a t i v ex m ld a t a b a s e ,本源x m l 数据库) n n n 2 协】,是专为存储x j v l l 文档 而设计的数据库。r o n a ldb o u r r e t 在其”x m la n dd a t a b a s e s ”一文中,将本源x m l 数据库定义为:“本源x m l 数据库的逻辑模型建立在x m l 文档之上,而非文档中的 数据之上,并根据它来存取数据。该模型至少包括元素( e l e m e n t ) 、属性 ( a t t r i b u t e ) 、p c d a t a 和文档顺序,例女i x p a t h 的数据模型本源x m l 数据库的 最小存储单位是x m l 文档,。本源x m l 数据库具有一般数据库的特性,例如 支持事务,并发控制,查询语言,安全机制,二次开发接口等等,但是数据库内 部的存储模型是基于x m l 文档树型结构的。 采用本源x m l 数据库存储x m l 文档数据,具有x m l 使能数据库系统不可比拟的优 势,或者在同样的功能上可以比后者做的更好。首先,当要存储半结构化数据的 时候,与本源数据库相比,使能数据库就难以很好的解决这样的数据结构和数据 库模式之间的映射。另外,本源x m l 数据库在x m l 文档的重构速度上也很有优势。 当一个应用需要用到) ( m l 文档或者文档片段的时候,较之x m l 使能数据库,从本源 数据库中可以方便快捷地得到所需结果,因为本源数据库在存储x m l 文档的时候 是存储的整个文档而不是将其分解,所以它可以使得用户得到的结果x m l 文档与 存储之前的x m l 文档保持一致;而使能数据库由于其在对x m l 文档存储的时候采取 了分割处理,所以从中得到的结果x m l 文档则往往不能保持存储前的模样。 本源x m l 数据库的架构又依照其数据库内部存储机制的不同,分为基于文本的 和基于模型的。前者将x m l 文档存储为文本形式,如在文件系统中存储为文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年平板印刷工(印刷原理与工艺)技能资格知识考试题与答案
- 2025年全国《中小学教育管理》知识考试题库与答案
- 2024湖北省社区《网格员》高频考题汇编含答案
- 2024黑龙江省消防宣传月知识应知应会题库(含答案)
- 2024年全科医学科理论考试试题及答案
- 2025新版研学旅行指导师考试题库(含参考答案)
- (2025)交通安全知识竞赛题库及参考答案
- 具身智能机器人产业发展的策略及实施路径
- 数学人教三年级上册第七单元《 第4课时 长方形和正方形的周长》听评课记录
- 部编版语文八年级上册第四单元复习课听评课记录
- 社区警务团队管理制度
- 【乳品行业-乳制品员工培训教材】
- 应急消防疏散培训课件
- 设备检修维护管理制度
- 产房分娩安全管理制度
- 普通化学无机化合物
- 2024年度江西省二级造价工程师之土建建设工程计量与计价实务通关考试题库带答案解析
- 2025年福建省无人驾驶航空器操作控制职业技能大赛(航拍无人机驾驶员)试题(附答案)
- 职称评审委托合同协议
- T/CEMIA 023-2021半导体单晶硅生长用石英坩埚
- 弱视诊断及治疗
评论
0/150
提交评论