(计算机软件与理论专业论文)GML空间数据压缩技术研究.pdf_第1页
(计算机软件与理论专业论文)GML空间数据压缩技术研究.pdf_第2页
(计算机软件与理论专业论文)GML空间数据压缩技术研究.pdf_第3页
(计算机软件与理论专业论文)GML空间数据压缩技术研究.pdf_第4页
(计算机软件与理论专业论文)GML空间数据压缩技术研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)GML空间数据压缩技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

g m l 空间数据压缩技术研究 专业名称:计算机软件与理论申请者姓名:朱华指导老师:李岩教授 摘要 许多涉及海量空间数据共享、交换、集成和服务的w e b g i s 应用系统,如:空 间数据集成系统,空间信息共享服务等应用系统,它们以空间信息共享的g m l 数 据格式传输和处理。由于g m l 空间数据包括大量冗余的、结构化的空间矢量数据, g m l 数据的传输和存储的代价都非常高。尤其在移动g i s 领域,此问题尤为突出, 如何有效降低数据流量已成为一个迫切需要解决的问题,有效的办法就是对g i l 空间数据进行压缩。虽然,普通的文本压缩算法可以压缩g m l 空间数据,但这些 算法没有考虑6 m l 的结构特色;而专门针对x m l 的一些较为成熟的压缩系统也都没 有考虑g m l 独有的特点。 本文在x b w 变换n 3 和传统的文本数据压缩算法的基础上,分析并结合g m l 文档 的结构特点,给出了一种主要应用于g m l 空间数据交换和存档的高压缩率的专用 压缩技术:对解析后的g m l 数据,经过g b w 变换,再采用g z i p 或l z m a 压缩输 出。具体的实施技术路线简单介绍如下: 首先,在研究了g m l 3 0 规范,分析了g m l 空间数据的特征、g m l 模式及g m l 建模规则后,又进一步深入研究了g m l 文档解析方法d o m 、s a x 和v t d x l v l l 。 对三者比较后,选择开源码的v t d x l v l l 作为解析技术,设计了g m l 空间数据解 析引擎,它可高效的识别出g m l 中空间数据和结构数据结构。 然后,详细分析x b w 变换的原理及其作用,在此基础上改进和扩充为g b w 变换,并且用于g m l 空间数据压缩。g b w 变换主要解决了x b w 变换不支持字符 串和属性问题,并且加了字典替换和空间数据压缩、改进了其中的排序算法;从 逻辑角度而言,它很容易地将相同路径的数据相邻存放,从而提高压缩效率。 最后,在上述理论和方法研究的基础上,实现了本文提出的压缩方法。实验 从压缩率、压缩时间和解压缩时间三个因素,分别与目前开源的通用压缩算法对 比,实验证明了该压缩技术的优越性。 关键词:g m l 牢1 n - - 数据,x b w 变换,g b w 变换,字典替换,压缩 l i r e s e a r c ho nc o m p r e s sio nt e c h n oio g yo f g m l b a s e ds p a tiaid a t a m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :h u az h u s u p e r v i s o r :y a nl i a b s t r a c t t h e r ea r em a n yw e b g i ss y s t e m sw h i c hr e l a t et os p a t i a ld a t a ss h a r e e x c h a n g ea n ds e r v i c e a 1 lt h e s es y s t e m su s eg m l b a s e dd a t as t a n d a r dt ot r a n s m i t a n dt om a n a g eg e o s p a t i a ld a t a b e c a u s eg m l s p a t i a ld a t ac o n t a i n sm a n yr e d u n d a n c y a n ds t r u c t u r a lv e c t o rd a t a , t h ec o s to ft r a n s m i t t i n ga n dp r e s e r v i n gi st o oh i g h , p a r t i c u l a r l yi nm o b i l eg i sf i e l d h o wt or e d u c et h ed a t as i z ei st h ei m p e r a t i v ep r o b l e mt or e s o l v e c o m p r e s s i o ng m ls p a t i a ld a t ai so n ee f f e c t i v em e t h o d a l t h o u g hs o m eo r d i n a r yt e x t c o m p r e s s i o na l g o r i t h m sc a nc o m p r e s si t t h e s ea l g o r i t h m sd on o tc o n s i d e r i n gt h e s t r u c t u r et r a i to fg m l h o w e v e r t h e s ea i m i n ga tx m l c o m p r e s s i o ns y s t e m sh a v en o t c o n s i d e r i n gt h ep a r t i c u l a rc h a r a c t e r i s t i co fg m l a f t e ra n a l y z i n gt h es t r u c t u r et r a i to fg m l ,m i sp a p e rp r e s e n t sae x c l u s i v ea n d h i g l lc o m p r e s s i o nr a t em e t h o dw h i c hm a i n l yu s e di nt r a n s m i t t i n ga n dp r e s e r v i n g g m ls p a t i a ld a t ab a s e do nx b w 【1 。t r a n s f o r n la n do r d i n a r yt e x tc o m p r e s s i o n t h e m a i np r o c e s si sp a r s e st h eg m ld a t af i r s t ,t h e nu s e sg b wt ot r a n s f o i t ni t ,u s e sg z i p o rl z m aa l g o r i t h mt oc o m p r e s sa n do u t p u ti ta tl a s t s i m p l ei n t r o d u c t i o na sf o l l o w s : f i r s t l y ,t h eg m l ss p e c i f i c a t i o n ,c h a r a c t e r i s t i co fg m ls p a t i a ld a t a ,g m l s c h e m aa n dt h em o d e l i n gr u l e so fg m la r ea n a l y z e d a n dt h e na n a l y s e st h et h r e e p a r s em e t h o d so fg m l :d o m s a x ,v t d x m l a f t e rc o m p a r i n gt h e s em e t h o d s , t h i sp a p e ru t i l i z e st h eo p e n s o u r c ep a r s e :v t d - x m l ,o n eg m lp a r s i n ge n g i n e w h i c hc a ne f h c i e n c yp a r s et h es p a t i a ld a t aa n ds t r u c t u r ed a t ai ng m ld o c u m e n ti s d e s i g n e d s e c o n d l y t h ep r i n c i p l ea n df u n c t i o no fx b w t r a n s f o r i i li sa n a l y z e dv e r yd e t a i l e d , t h e np r e s e n t sg b wt r a n s f o r n lw h i c hi sb a s e do na n di m p r o v e df r o mx b wt r a n s f o r m , u s e dt oc o m p r e s sg m ls p a t i a ld a t a g b wt r a n s f c i r mm a i n l yr e s o l v e dt h ep r o b l e mo f x b wt r a n s f o r n lc a nn o ts u p p o r tc h a r a c t e rs t r i n ga n da t t r i b u t e i na d d i t i o n a lt ot h i s g b wt r a n s f o r ma d d d i c t i o n a r yr e p l a c e m e n ta n ds p a t i a l d a t ac o m p r e s s i o n , i m p r o v e m e n tt h es o r ta l g o r i t h m t h e ni tc a r ll o g i s t i es t o r et h es a r t l ep a t hd a t ai n a d j a c e n tr e g i o na n di m p r o v ec o m p r e s s i o nr a t i o a tl a s t ,t h ec o m p r e s s i o nm e t h o dp r e s e n t e di nt h i sp a p e ri si m p l e m e n t e db a s e do n t h er e s e a r c ha b o v e s o m er e l a t e de x p e r i m e n t sh a v ef i n i s h e da n dc o m p a r e dw i t ht h e i i i o p e n s o u r c ec o m p r e s s i o na l g o r i t h mi nt e r m so ft h et h r e ef a c t o r s :c o m p r e s s i o nr a t i o , c o m p r e s s i o nt i m ea n dd e c o m p r e s s i o nt i m e t h et e s tr e s u l t sp r o v et h ea d v a n t a g eo f t h i sp a p e r sm a h o d k e yw o r d s :g m ls p a t i a ld a t a ,x b wt r a n s f o r m ,g b wt r a n s f o r m ,d i c t i o n a r y r e p l a c e m e n t ,c o m p r e s s i o n i v 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到此声明的法律结果由本人承担。 论文作者签名:躺 抛义作有登铂:爪1 日期:卅年6 月丫日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:躺 日期:叫年二月午日 导师繇多皇少v 、 日期:w 7 年6 月日 g m l 空间数据压缩技术研究 第一章绪论 1 1 引言 地理信息系统( g e o g r a p h yi n f o r m a t i o ns y s t e m ,简称g i s ) 是以采集、存储、 管理、分析和描述整个或部分地球表面与空间和地理分布有关的数据的空间信 息系统【2 】o 它是二十世纪六十年代开始迅速发展起来的地理学研究技术,是一 门将现实世界要素的空间位置和人文经济信息的管理有机的集合在一体的,以 计算机技术为基础的交叉性、边缘性的新兴学科。目前,随着网络和分布式计 算技术的发展,地理信息系统已广泛地应用于地学、资源管理、土地规划、环 境监测、防灾减灾、电力、交通管理、城市规划、科研、教育和国防等领域, 在我国国民经济建设中发挥着越来越重要的作用。 由于g i s 的迅猛发展和应用领域的不断拓宽,市场上涌现了很多优秀的g i s 专用软件和应用系统,产生并积累了海量的空间数据。由于在g i s 发展初期, 无一定的工业标准可循,这些g i s 平台所采用的数据结构、数据组织方式和数 据在系统中的存储和表现形式都各不相同,产生了g i s 的“信息孤岛 的局面。 再加上技术成熟度,开发者认识空间数据的复杂性等原因,造成许多己建和在 建g i s 系统之间没有统一的标准,数据格式不兼容,限制了数据的共享,引起 数据重复采集和开发,降低了数据的利用率。这种由数据模型的差异导致的空 间数据共享困难已成为制约地理信息系统发展的瓶颈。为了使数据规范标准化, 最大程度地实现数据集成与共享,开放式地理信息系统协会( o p e n g i s c o n s o r t i u m ,简称o g c ) 制定的基于x m l 的地理标记语言g m l ( g e o m e t r y m a r k u pl a n g u a g e ) 【3 】。它的出现为g i s 空间数据建模、传输、存储提供了统一的 标准与框架,不仅可以作为一种有效的空间数据传输和交换工具,也是一种很 好的空间数据存储格式,为w e b g i s 技术的发展开辟了新的道路。 g m l 数据是基于x m l 编码的空间数据。在此,所谓空间数据也即地理数 据,而地理数据是各种地理特征和现象间关系的符号化表示,包括:空间位置、 属性特征及时域特征三部分。经过g m l 描述后空间数据变得非常大,为存储和 网络传输带来了沉重的负担。尤其在移动g i s 领域,各种移动终端通过无线网 g m l 空间数据压缩技术研究 络连接到i n t e r n e t 上的空间服务器【4 】。与有线网络通信相比,无线网络带宽窄, 传输速度慢,可靠性也远不如有线通信。当传输的矢量空间数据量比较大时, 移动环境下非常容易造成数据丢失,而且传送时间长,费用也高。所以,与一 般面向有线网络的城市空间信息系统相比,面向移动用户的城市空间信息服务 系统对传输数据量的要求更为严格【5 】。因此,非常有必要对g m l 空间数据进行 压缩研究,提高传输质量,降低传输代价,节约存储空间。 1 2 国内外研究现状 数据压缩技术在计算机技术的萌芽时期就已经被提上了议事日程,有关信息 如何被高效存储和传递的话题不断被军事科学家、数学家、电子学家讨论来、 讨论去。随着信息论的产生和发展,数据压缩也由热门话题演变成了真正的技 术。 信息论之父c e s h a n n o n 在1 9 4 8 年发表的论文“am a t h e m a t i c a l t h e o r yo fc o m m u n i c a t i o n ”中指出,任何信息都存在冗余,冗余大小与信息中 每个符号的出现概率或者说不确定性有关。s h a n n o n 借鉴了热力学的概念,把 信息中排除了冗余后的平均信息量称为信息熵,并给出了计算信息熵的数学表 达式。这篇伟大的论文后来被誉为信息论的开山之作,信息熵也奠定了所有数 据压缩算法的理论基础【6 】。 在1 9 5 2 年,第一个实用的编码方法是由d a h u f f m a n 在论文“am e t h o d f o rt h ec o n s t r u c t i o no fm i n i m u mr e d u n d a n c yc o d e s 中提出。h u f f m a n 编 码效率高,运算速度快,实现方式灵活,使数据压缩开始正式在商业程序中实 现,并被应用在许多技术领域。6 0 年代、7 0 年代乃至8 0 年代的早期,数据压 缩领域几乎一直被h u f f m a n 编码及其分支所垄断。今天,在许多知名的压缩工 具和压缩算法里都有h u f f m a n 编码的身影口1 。 科学家们一直没有放弃向信息熵极限挑战的理想。8 0 年代,数学家们从新 的角度入,遵循h u f f m a n 编码的主导思想,设计出另一种更为精确,更能接近 信息论中“熵”限的编码方法算术编码陋3 。之后,人们又将算术编码与j g c l e a r y 和i h w i t t e n 于1 9 8 4 年提出的部分匹配预测模型( p p m ) 相结 合,开发出了压缩效果近乎完美的算法。虽然,算法编码压缩效果最好,但它 2 g m l 空间数据压缩技术研究 最大的缺点是算法复杂,时间和空间复杂度均高,在通用压缩工具中很少使用 算术编码。 就在大多数人绞尽脑汁想改进h u f f m a n 或算术编码,以获得一种兼顾了运 行速度和压缩效果的“完美 编码的时候,聪明的犹太人j z i v 和a l e m p e l 独辟蹊径,完全脱离h u f f m a n 及算术编码的设计思路,创造出了一系列比 h u f f m a n 编码更有效,比算术编码更快捷的压缩算法,这一思路的编码方法称 作“词典 式编码。通常,人们用这两个犹太人姓氏的缩写,将这些算法统称 为l z 系列算法。l z 系列算法的发展历程大致是:z i v 和l e m p e l 于1 9 7 7 年 发表题为“au n i v e r s a la l g o r i t h mf o rs e q u e n t i a ld a t ac o m p r e s s i o n 3 的 论文,论文中描述的算法被后人称为l z 7 7 算法。1 9 7 8 年,二人又发表了该 论文的续篇“c o m p r e s s i o no fi n d i v i d u a ls e q u e n c e sv i av a r i a b l er a t e c o d i n g n 叫,描述了后来被命名为l z 7 8 的压缩算法。1 9 8 4 年, t a w e l c h 发表了名为“at e c h n i q u ef o rh i g hp e r f o r m a n c ed a t ac o m p r e s s i o n ”n 妇的论 文,描述的是l z 7 8 算法的一个变种,也就是后来非常有名的l z w 算法。1 9 9 0 年后,t c b e l l 等人又陆续提出了许多l z 系列算法的变体或改进版本, 包括l z s s ,l z m a 等。 l z 系列算法既没有高深的理论背景,也没有复杂的数学公式,它们只是用 一种极为巧妙的方式将字典技术应用于通用数据压缩领域。这种基于字典模型 的思路在表面上虽和s h a n n o n 、h u f f m a n 等人开创的统计学方法大相径庭,但 在效果上一样可以逼近信息熵的极限。今天,l z 系列算法几乎垄断了整个通用 无损数据压缩领域,我们熟悉的w i n z i p 、w i n r a r 、g z i p 等压缩工具,以及z i p 、 g i f 、p n g 等文件格式都是l z 系列算法的受益者。 从2 0 0 0 开始,针对x m l 压缩国内外都做了不少研究,尤其以国外居多,主 要有:x m i l l 1 2 1 ,x g i n d 13 1 ,x p r e s s 1 4 1 ,x c q t l5 1 ,q x t 1 6 1 等。这些x m l 压缩技 术还不够成熟,都只是在x m l 压缩领域尝试性研究。但通过分析这些压缩技术 可以找到一个共性:将x m l 文档的模式( 结构数据) 和数据分离,并且把相同 路径的数据在逻辑上的邻近存放,再集成了一些现有的通用数据压缩方法,能 达到更好的压缩效果。 目前,国内外对g m l 的研究也是刚刚起步不久,且主要关注于g m l 的空 g m l 空间数据压缩技术研究 间数据存储管理,空间数据的查询等。而针对g m l 的压缩研究较少,主要包 括有:g p r e s s t l 7 】是在典型x m l 压缩系统x m i l l 上的改进,它只是在x m i l l 的 基础上增加了对g m l 文件中空间坐标数据的特殊处理,进而压缩率比) a i l l 高出约2 0 ,但它的压缩时间比x m i l l 更长,压缩率也不是很高:於荔提出的 g s c t l 8 1 是在x s c t l 9 1 的基础上的改进,同样也继承了x s c 的压缩率低和压缩时间 长的缺点;文献 2 0 提出了多线程压缩传输技术,但此文的主要目的不是静态 压缩率,而是针对实时动态的传输效率。 1 3 本文研究的主要内容 g m l 的出现,为空间数据建模提供了统一的标准与框架。随着各大g i s 厂商对g m l 规范的支持,及其在数据建模、传输等方面的广泛应用,实现了 地理信息在不同领域、不同部门之间的语义共享,大量g m l 格式的空间数据 开始涌现。研究压缩效率和处理速度都比较好的g m l 压缩算法,不仅有重要 的理论意义,也有非常广泛的应用前景。 在分析和综合现有压缩技术和g m l 规范的基础上,本文尝试研发一种高 压缩率,主要应用于w e b g i s 和移动g i s 领域的数据交换和数据存档的g m l 压缩技术。它不是一种全新的数据压缩算法,而是在传统的数据压缩算法的基 础上,根据g m l 自身的特点而提出的一个专用于g m l 文件的高压缩比专用 压缩技术。 本文的主要研究内容包括:( 1 ) 分析g m l 规范中空间数据的特征、g m l 模式和g m l 空间数据建模规则;然后,利用开源x m l 解析器v t d x m l 2 1 1 , 设计并实现了一个的g m l 解析引擎,它可以用来解析g m l 模式及g m l 文档; ( 2 ) 分析当前g m l 压缩技术,并结合g m l 空间数据自身特点,提出g m l 空间 数据压缩算法;( 3 ) 实现一个g m l 文件压缩系统,并与目前通用的开源压缩算 法或工具作对比,包括压缩率,压缩时间和解压缩时间。 各章内容安排如下:第一章主要概述g m l 空间数据压缩技术的研究现状 以及选题的意义,论文组织;第二章首先介绍g m l 定义与规范,分析g m l 数 据模式和特征,并对g m l 的几种常用解析方式进行介绍和对比;第三章对数 据压缩理论与方法进行介绍,重点分析本文将要用到的通用压缩技术;另外, 4 g m l 空间数据压缩技术研究 还对空间数据的压缩方法进行归纳总结;第四章分析并详细说明g m l 空间数 据压缩框架的关键技术;第五章介绍所开发的系统以及相关实验,进行压缩效 果及性能分析,证明该压缩算法的有效性和优越性;第六章总结本文所做的工 作和尚未解决的问题,以及进一步开展的工作。 5 g m l 空间数据压缩技术研究 2 1g m l 简介 第二章g m l 技术体系 2 1 1g m l 的由来及目的 g m l ( g e o m e t r ym a r k u pl a n g u a g e ) 且1 地理标识语言,它是由开放式地理信息 系统协会o g c 于1 9 9 9 年提出的基于x m l 的地理信息传输和存储的编码规范。 g m l 以o g c 的简单特征模型( s i m p l ef e a t u r em o d e l ) 为基础,对地理实体的几 何属性和普通属性进行基于x m l 格式的编码,能够表示地理空间对象的空间 数据和非空间属性数据,一诞生就得到了许多公司的大力支持,如:o r a c l e 、 g a l d o s 、m a p l n f o 、c u b e w e r s 等。目前,越来越多的公司和研究机构开始采用 g m l 语言开发它们的地理空间信息应用。 2 0 0 0 年5 月,o g c 推出了基于x m ld t c 和r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k s ,资源描述框架) 的g m l l 0 版。2 0 0 1 年2 月,o g c 又推出了完全 基于x m ls c h e m a 的g m l 2 0 版。2 0 0 3 年2 月,g m l 3 0 版正式发布。目前, 最新版是2 0 0 4 年4 月发布的g m l 3 1 版。o g c 推出g m l 的目的如下蚴: 1 提供适用于i n t e m e t 环境的空间信息编码方式,用于数据传输和存储; 2 能够扩展,用以支持对空间信息的多样化需求,不管是用于对空间信息 单纯描述,还是进行更深层次的分析使用; 3 以一种可扩展和标准化的方式为基于w e b 的g i s 建立良好的基础; 4 允许对地理空间数据进行高效率编码; 5 提供了一种容易理解的空间信息和空间关联的编码方式; 6 实现空间和非空间数据的内容和表现形式的分离; 7 易于将空间信息和非空间信息进行整合; 8 易于将空间几何元素与其它空间或非空间元素连结起来; 9 提供一系列公共地理建模对象,使各自独立开发的应用系统间的互操作 成为可能。 g m l 作为基于x m l 的空间信息标准,它通过定义一系列的模式,为地理 信息提供基本的数据类型和标准的语法表达方式,支持网络环境下的空间数据 和属性数据能够在不同的系统之间自由移动,给用户提供一个开放的、用来定 义空间地理数据的框架。g m l 为网络时代的地理空间w e b 领域提供了一种“开 放式”的标准,它的出发点是空间数据编码,包括分布式空间数据的编码。 g m l 的这些特征,给地理信息的建模、存储、传输,以及异构空间数据的 6 g m l 空间数据压缩技术研究 共享与互操作等带来了新的解决方案。同时,g m l 数据是基于x m l 编码的空 间数据,它不但完全继承了x m l 数据冗余的特点,又包含空间数据海量的特 性,为存储和网络传输带来了沉重的负担。 2 1 2g m l 的特征 在g m l 出现以前就已经存在许多地理信息的编码标准,如:c o g f i ,m d i f f , s a i f ,d l g 和s d t s 等,g m l 与它们的本质区别在于g m l 是基于) ( m l ,是以x m l 技术为基础建立起来的地理信息编码规范,它具有x m l 具有的一切优点。g m l 也是用文本的形式来进行地理信息的表示。因此,比较简单、直观、易于理解、 易于编辑、易于检验,且易于转换。此外,由于g m l 是严格的按照x m l 标准制 定的,这就确保了g m l 数据可以被广泛的商业或者免费工具所浏览、编辑、转 换。只有这样,我们才可以真正的谈论开放的地理信息。可以说,g m l 规范的 发布为开放地理信息系统的发展铺平了道路。 g m l 作为地理标记语言,还有自身的一些特征2 幻: 1 支持地理特征的几何及属性编码 g m l 是基于o g c 的地理信息抽象模型基础之上的,对空间实体要素特征及其 属性的封装。它用地理实体来描述现实世界。地理要素( f e a t u r e ) 包括一系列 的属性和相应的几何信息,一般来说属性由名称、类型和属性值组成,几何信 息由基本的几何建模体如:点、线、多边形等组成。g m l 允许相当复杂的地理特 征,如要素间的嵌套。g m l 己经可以对很复杂的地理实体进行编码,如一个地 理实体可由很多的几何实体所构成。而一个复杂的几何实体又可由很多的点、 线、面( 多边形) 等几何类型所构成。 2 支持空间参考系统编码 空间多考系统s r s ( s p a t i a lr e f e r e n c es y s t e m ) 是地理信息系统数据处理的 基础。g m l 封装了空间地理参考系统、主要的投影关系等,确保了分布式处理 的扩展性和灵活性。g m l 可以使用空间坐标系,并且里面的地理空间数据有直 接的属性数据。 3 g m l 可实现地理数据的分布式存储 g m l 对地理数据的传输分发成为地理数据分布式存储的重要手段,主要的技 术工具是x l i n k 和x p o i n t e r 。传统g i s 软件由于使用各自的数据格式,相互之 间的转化非常麻烦。要么借助与第三方的工具软件,要么自己动手编写相应的 转化程序。如果涉及到多个系统需要相互共享数据,其难度真是不言而喻。所 以非常有必要使用一个可以被各个系统访问的中间数据格式,作为多系统交互 时的中介,g m l 就充当了一个这样的角色。在x l i n k 中,链接源点只链接到数 据库,数据库提供目标文档的指定g m l 元素。 7 g m l 空间数据压缩技术研究 4 g m l 可以用公共工具浏览和编辑 g m l 继承了x m l 的纯文档、封装的地理数据和地图表现分离,可以由文本编 辑器打开和编辑等特性。由于g m l 是x m l 文档,可以由许多m x l 解析器进行析 处理。 5 g m l 可以和非空间数据集成 传统的g s i 空间数据均是以二进制的形式存储的,而二进制数据与其他据 的集成是非常困难的,对于二进制数据结构,必须了解其文件结构和数据设计 才能对其进行修改。对许多旧系统来说,要改变数据结构就必须改变应程序, 这是非常繁重甚至是不可能完成的任务。而g m l 借助于x l i n k 和x p o i n t e r 技 术,是非常方便且容易进行地理空间数据和非空间数据的集成的。 2 2g m l 空间数据特征与模型 2 2 1g m l 空间数据特征 和传统的空间数据格式相比,g m l 空间数据具有以下特征乜羽: 1 g m l 数据遵循o g c 所制定的地理抽象模型,该模型已得到了大多数g i s 软件 厂商及第三方软件厂商的大力支持,其他格式数据在转换成g m l 时不会造成信息 的丢失; 2 g m l 用文本来表示地理信息,比较简单、直观,便于理解、编辑,使用一 般的文件编辑器和专用x m l 软件即可对之进行浏览和编辑,而不需依赖于任何g i s 软件; 3 g m l 模式定义了g m l 文档的内容和结构,通过g m l 模式可以在数据编辑及传 输时验证其规格是否有效,从而保证了g m l 空间数据的有效性; 4 传统的二进制文件必须在了解其数据结构后才能进行编辑修改,并且在修 改数据结构时,应用程序也必须修改,不易与其他系统的数据整合应用;而g m l 可通过x l i n k 和u r l 与其它数据链接,实现空间数据与非空间数据的有机集成; 5 g m l 数据的内容与表现分离,可将它转换成s v g 、v m l 等矢量数据格式,通 过任意浏览器即可显示,而不需要安装特别的图形插件; 6 g m l 数据是对地理信息的x m l 编码,各种x m l 技术如x m lp a r s e r 、x m ls c h e m a 、 x l i n k 、x p a t h 、x s l t 、x q u e r y 等扩展后都可应用于g m l : g m l 空间数据压缩技术研究 7 g m l 封装了地理信息要素的空间与非空间特性,空间特性包括几何信息、 拓扑信息等,非空间特性包括名字、类型、值等,同时通过要素间的嵌套,它允 许构建比较复杂的地理要素; 8 g m l 封装了空间地理坐标参考系统、主要的投影关系等,保证了分布式处 理的扩展性和灵活性。 g m l 的这些特征,给地理信息的建模、存储、传输,以及异构空间数据的共 享与互操作等带来了新的解决方案。 2 2 2g m l 空间数据模型 g m l 以o g c 的公共地理抽象模型为基础,定义了各种实体,如要素、几何和拓 扑等对象。g m l 中各个对象的层次结构如图2 2 1 所示: 图2 2 1g m l 类的层次结构 g m l 空间数据模型通过定义s c h e m a 实现,通常包含基本模式和应用模式两部 9 g m l 空间数据压缩技术研究 分。它是对真实地理世界现象的一个由抽象概念逐步具体建立数据模型的过程。 首先,o g c 定义一系列的抽象对象( 基本模式) 以g m l 词汇表描述地理空间;然后, 用户根据自己领域的特性构造g m l 应用模型;最后,数据生产者可以根据定义好 的数据模型生产出g m l 数据。 g m l 提供的基本模式是用户建模的元模式,用户可以根据需要引用必要的基 本模式建模,从而构造自己的应用模式。在g m l3 0 中共定义了2 8 个基本的模式, 其中最经常用到的是f e a t u r e x s d ,g e o m e t r y x s d ,t o p o l o g y x s d 等核心模式。 常用的基本模式与应用模式关系如图2 2 2 所示: 应用模式 广 i a d d s c h e m a i , 图2 2 2g m l 基本模式与应用模式之间关系 1 要素模式( f e a t u r e x s d ) 。要素模式为创建g m l 要素( f e a t u r e ) 和要素集合 ( f e a t u r e c o l l e c t i o n ) 提供了一个框架。一个g m l 数据集往往是一个g m l 要素集合。 要素模式定义了抽象和具体的要素元素及类型,它包括几何模式 ( g e o m e t r y x s d ) ,也就是说,f e a t u r e x s d 中定义的空间属性元素都是以g e o m e t r y 中定义的空间地物类型元素为基础的,通过 i n c l u d e ) 元素引入了几何模式,必 要时用同样的方法还可以引入时态模式中的定义和声明。所有的g m l 3 0 要素都有 可选属性:g m l :l o c a t i o n 和g m l :b o u n d e d b y 。g m l :l o c a t i o n 属性定义要素的范围, 位置或相对位置;g m l :b o u n d e d b y 属性定义了要素的边界形状,即整个要素实例 特征的边缘形状。g m l 3 0 要素的属性还包括g m l :i d ,g m l :b o u n d e d b y , g m l :e n v e l o p e ,g m l :l o c a t i o n ,g m l :p r i o r i t y l o c a t i o n 等等。g m l 3 0 要素集合是 能表现一个g m l 要素的要素实体的集合。所有g m l 3 0 要素集必须由 l o g m l 空间数据压缩技术研究 g m l :a b s t r a c t f e a t u r e c o l l e c t i o n t y p e 扩展而来的或受其约束的。要素集中的全 体成员由属性 和 来标志。 2 几何模式( g e o m e t r y x s d ) 。空间几何对象可以归纳为点、线、面、曲线、 多边形等几何类型。在g m l 3 0 中支持的几何类型包括:p o i n t ,l i n e s t r i n g , c u r v e ,c o m p o s i t e c u r v e ,0 r i e n t a b l e c u r v e ,s u r f a c e ,c o m p o s i t e s u r f a c e , o r i e n t a b l e s u r f a c e ,p o l y g o n ,s o l i d ,c o m p o s i t e s o l i d ,m u l t i p o n t i ,m u l t i c u v r e , m u l t i s u r f a c e ,m u l t i s o l i d ,m u l t i g e o m e t r y 。g m l 中所有的几何类型都是从抽象 类型g e o m e t r y 派生下来的。 g m l 3 0 中使用的几何模式有:g e o m e t r y b a s i c o d x s d ,g e o m e t r y b a s i c l d x s d , g e o m e t r y b a s i c 2 d x s d ,g e o m e t r y p r i m i t i v e s x s d ,g e o m e t r y a g g r e g a t e s x s d , g e o m e t r y c o m p l e x e s x s d 。正是g m l 对空间要素的广泛支持,为不同格式数据的统 一表达提供了基础。 3 拓扑模式( t o p o l o g y x s d ) 。空间拓扑是g m l3 o 新增加的内容,它定义了 描述地理要素之间关系的拓扑对象和属性,并通过 弓 用复合几何模式 g e o m e t r y c o m p l e x e s x s d 中的定义和声明。它使用拓扑对象n o d e 、e d g e 、f a c e 、 t o p o s o l i d 以及这些对象之间的关系描述来构建拓扑关系,拓扑对象通常用来表 达几何基元p o i n t 、c u r v e 、s u r f a c e 、s o l i d 。拓扑对象之间的连接关系主要有:边 的公共结点、面的公共边以及三维实体的公共面等。 2 3g m l 解析技术 解析g m l 是它应用的基础和前提,在g m l 应用程序中起着举足轻重的作 用。g m l 本身只是以纯文本对数据进行编码的一种格式,要想利用g m l ,或 者说利用g m l 文件中所编码的数据,必须先将数据从纯文本中提取出来。目 前有三种成熟的g m l 解析的技术:1 基于d o m 的解析,一个来自w 3 c 的成 熟标准;2 基于s a x 的解析,它是一个被广泛采用的x m la p i ;3 基于 v t d x m l 的解析,新兴的x m la f i 。 2 3 1 基于d o m 的解析 d o m 乜5 1 是一种供h t m l 和x m l 文档使用的应用程序编程接口。它定义了文档的逻 辑结构以及存取和维护文档的方法。实际上,d o m 就是以树为基础处理x m l 文件的 一套a p i 。它将一个x m l 文档看作一棵节点树,x m l 文档中的元素转换为d o m 文档 g m l 空问数据压缩技术研究 中的节点对象。d o m 的基本节点对象有5 个:1 d o c u m e n t 对象:树的最高节点, 是对整个文档操作的入口;2 e l e m e n t 和a t t r 对象:这些节点对象都是文档某一 局部的映射;3 t e x t 对象:e l e m e n t 和a t t r 对象的字节点,是元素或属性的文本 内容;4 n o d e l i s t 对象:可以对节点按指定的方式进行遍历。 d o m 树中的所有节点都是从n o d e 对象继承而来的。n o d e 对象定义了一些最基 本的属性和方法,利用这些方法可以实现对树的遍历,同时,根据属性还可以得 知节点的名称、取值并判断其类型。d o m 提供的a p i 与编程语言无关,所以对一 些d o m 标准中没有明确定义的接口,不同解析器的实现方法也有所差别。 d o m 处理x m l 的方式是以树为基础。利用d o m ,开发人员很容易的把x m l 文件 转换成树型进行一系列操作,比如遍历、增加、删除、修改文档内容,有良好的 导航能力。所以d o m 解析的优点就是基于d o m 解析的应用程序的编写比较简单。但 是,它在使用上却常常会受到系统资源的限制,尤其是内存。d o m 在解析时是将 整个文档载入内存中的,在内存中载入整个文档和构建完整树结构成本很高, 尤其是文档很大的时候,性能下降的很快。而且整个x m l 文档解析不能只做部分 解析,必须一次解析完。如果有很多已解析对象很少或不会用到,这将是一种浪 费。如果采用另一种解析方式,可以在使用少量内存的前提的条件下达到同样的 结果,这就是s a x 乜6 1 解析方式。 2 3 2 基于s a x 的解析 s a x 解析不像d o m 那样建立一个整个文档的树型表示,它采用回调机制,在读 取文档时激

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论