(计算机软件与理论专业论文)面向空间数据仓库的集成系统研究.pdf_第1页
(计算机软件与理论专业论文)面向空间数据仓库的集成系统研究.pdf_第2页
(计算机软件与理论专业论文)面向空间数据仓库的集成系统研究.pdf_第3页
(计算机软件与理论专业论文)面向空间数据仓库的集成系统研究.pdf_第4页
(计算机软件与理论专业论文)面向空间数据仓库的集成系统研究.pdf_第5页
已阅读5页,还剩141页未读 继续免费阅读

(计算机软件与理论专业论文)面向空间数据仓库的集成系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向空阿数据仓库的集成系统研究 摘要 目前,空间信息资源大多数放在基于特定的g i s 平台的应用系统各 自进行管理和维护,不同的系统之间采用异构的空间数据模型,使得空 间信息资源形成了信息的孤岛,难以实现共享。由于这些孤岛之间无法 进行交互、被更多的人重用,造成了资源的巨大浪费,长此以往,甚至 会成为数据的坟墓。如果能实现空间数据资源的共享,人们将能最大限 度地利用这些资源,对空间信息领域的发展产生巨大的推动作用。 随着数据仓库的出现,人们对数据的管理产生了新的理念。过去几 十年以来,异构、自治、分散的数据资源难以应用,导致用户与数据之 间的交互过程出现了严重的瓶颈,而数据仓库可有效地解决这问题。 它将异构数据源信息预先集成,并经过一系列的预处理重新组织到语义 一致的数据存储中,为用户提供了高性能的数据查询和分析能力。若将 这种理念引入到空间数据资源环境中,形成一个面向用户的空间数据仓 库结构化体系,空闷数据资源共享的问题将迎刃而解。 然而,空间数据的自身特征决定了其难以直接应用传统的数据仓库 的解决方案。因此,人们在传统的数据( 仓) 库之上封装了空问数据驱 动引擎的中间层来掩盖空间数据的差异,这种做法仅仅解决了在数据 面向空间数据仓库的集成系统研究 ( 仓) 库之内的空间数据存储与管理,但在整个体系结构环境中,空问 数据的集成过程才是至关重要的,在集成过程中需要考虑多源环境中的 空间数据模型异构问题、空间数据的参考系、尺度、精度,以及空问数 据的转换和清理等等一系列的问题,采用中间层仅是变通的秘宜之计。 然而,鼠前暂无理想的集成系统来完成这一项艰巨的任务。由此,本文 在深入探讨了传统的数据仓库集成技术与空间数据仓库环境的特征后, 创造性地提出了面向空间数据仓库的集成原型系统。这个系统在可视化 模型设计的基础上,产生集成过程的元数据标准描述,系统动态执行相 应的处理,从而实现以模型驱动的、面向用户控制的空间数据仓库集成 系统。同时,文章以广东省空间信息共享服务平台设计与实施为例,证 明了该技术方案的实用性、可行性、可操作性和重要的作用。 关键词:空间数据模型,空间数据仓库,空间数据仓库集成系统 i i 面向空间数据仓库的集j 垃系统研究 a b s t r a c t n o w a d a y s ,t h e r ea r ea ne m e r g e n c eo fs p a t i a ld a t as t o r ei ns e v e r a la n d h e t e r o g e n e o u s d b m s s ( d a t a b a s e m a n a g es y s t e m ) ,m o s t l y i ng i s s ( g e o g r a p h i c a li n f o r m a t i o ns y s t e m ) t h ed i v e r s i t yo fg i sa n dt h e i ro w n d a t am o d e l sm a k ei td i f f i c u l tt oa p p l ys p a t i a li n f o r m a t i o n s h a r i n g t h e r e f o r e m a n yo ft h es p a t i a li n f o r m a t i o nr e s o u r c ec a n tb eu s e d i ti s ah u g ew a s t e a n dd i s a d v a n t a g et ot h e d e v e l o p m e n to fs p a t i a l i n f o r m a t i o n t h en e e dt o s h a r et h e s er e s o u r c e si s b e c o m i n gn e c e s s a r yi ns p a t i a li n f o r m a t i o nf i e l d d a t aw a r e h o u s ei sa n o r i g i n a l i d e ai n o r g a n i z i n g d a t ai nt h el a t e s t t w e n t yy e a r s t h a tb e f o r e ,t h eh e t e r o g e n e o u s ,s e l f m a i n t a i n e da n dd i s t r i b u t e d d a t ar e s o u r c e sh a dl e dt oab o t t l e n e c kb e t w e e nt h e r e s o u r c e sa n dt h e u s e r s d a t aw a r e h o u s eh a sb e c o m ea n i m p o r t a n ts t r a t e g y t o i n t e g r a t e h e t e r o g e n e o u sd a t as o u r c ea n dt oe n a b l et h eh i g hp e r f o r m a n c eo fq u e r y i n g a n d a n a l y t i cp r o c e s s i n g w h e n i tc o m e st oa s p a t i a l i n f o r m a t i o n e n v i r o n m e n t ,t h e r e w i l lb ea na r c h i t e c t u r e o f s p a t i a l d a t aw a r e h o u s e ( s d w ) t h e p r o b l e m o fs h a r i n gs p a t i a li n f o r m a t i o nc a nb er e s o l v e de a s i l y i 面向守问数据仓库的集成系统研究 h o w e v e r ,i ti s h a r dt o a p p l y t h e s p a t i a l i n f o r m a t i o ni n t ot h ed a t a w a r e h o u s ea r c h i t e c t u r eb e c a u s eo ft h ef e a t u r eo f s p a t i a l d a t a a s p a t i a l d r i v e r l a y e r i s s e t u p i nt h ed a t aw a r h o u s eo rd b m s a l t h o u g ht h i s l a y e r m a n a g e ss p a t i a ld a t aw e l lw i t h i ni h ed a t aw a r e h o u s eo rd b m s ,i tc a nn o t w o r kt h o u g h o u tt h ea r c h i t e c t u r e ,i nm o l ed e t a i l ,t h e i n t e g r a t i o n o f s p a t i a l d a t ab e f o r ee n t e r i n gs d wi sa ni m p o r t a n ts t e pa n ds h o u l db et o k e nc a r e o f f o r e x a m p l e ,t h e d i f f e r e n c e so f s p a t i a l d a t am o d e l si nd i f f e r e n t s o u r c e s ,t h e m e t a d a t ai 1 1 f o r m a t i o ns u c h a sc o o r d i n a t er e f e r e n c e s y s t e m ,s c a l e ,p r e c i s i o n a n de t c ,a n dt h e s p a t i a l d a t at r a n s f o r m a t i o na n d c l e a n n i n gm e t h o d ss h o u l db ec o n s i d e r e di n t h i s s t e p y e t t h e r ei sn om o r e s p e c i a ls y s t e mt od ot h i sw o r k t h i s p a p e r w a si n t r o d u c e da p r o t o t y p e o f s p a t i a l i n f o r m a t i o n i n t e g r a t i o ns y s t e m f o rs d wb y c o m b i n i n g t h ei n f o r m a t i o n i n t e g r a t i o n t e c h n o l o g ya n ds p a t i a ld a t a i tp r o v i d e sam o d e lf r a m e w o r kf o rd e s i g n i n g t h e i n t e g r a t i o ns c e n a r i o sa n db u i l d sas t a n d a r dm e t a d a t at od e s c r i bi t t h e s y s t e ma c t so nt h em e t a d a t aa n dp r o f o r m st h et a s k w ew i l ls h o wh o wt h e s p e c i f i c i t i e so ft h es y s t e mc o n t r i b u t et ot h em o d e l d r i v e na n di n t e g r a t et h e s p a t i a ld a t a m e a n w h i l e ,i nt h ec a s eo fs p a t i a li np u b l i s h i n ga n ds e r v i n g p l a t f o r mf o r g u a n g d o n gp r o v i n c e “c l e a r i n g h o u s e ”,t h i s i n t e g r a t i o n 面向空问数据仓库的集成系统研究 s y s t e mp l a y s a n i m p o r t a n t e f f e c to i li ta n d p r o v i d e s t ob ef e a s i b l ea n d o p e r a b l e k e yw o r d s :s p a t i a l i n f o r m a t i o n ,s p a t i a l d a t a w a r e h o u s e ,i n t e g r a t i o n s y s t e mf o rs p a t i a ld a t aw a r e h o u s e 1 1 1 华南师范大学硕士学位论文答辩合格证明 学位申请人蔓塾延向本学位论文答辩委员会提交 题为匆塑童堑塑攀鱼鸯塑簦盛至垄霉堑的硕士论文, 经答辩委员会审议,本论文答辩合格,特此证明。 学位论文答辩委员会委员( 签名) 揣丝亟弋 委员: 塑墨兰 l 雄 论文指导老师( 签名) p, 冱亏 趁堑 f 辱黾弓日 ( 此框用于存档的学位论文贴学位论文答辩合格证明) 面向空间数据仓库的集成系统研究 1 绪论 1 1 空间数据仓库集成系统研究的范畴 空间数据仓库集成系统是将系统集成运用到空间数据库中,其本质 仍然是一个信息集成的过程,完全可借鉴信息集成系统中的理论、技术 和方法。 因此,空间数据仓库集成系统可被看成一个面向数据仓库的集成系 统。而数据仓库需要反映出各种应用所需的信息,它必须提供一个统一、 致的全局视图1 1 。然而,当把数据从一个环境转移到另一个环境时, 需要解决不一致和冗余问题,才能使数据仓库提供一个集成的、没有冲 突的全局数据视图。模式集成、数据集成,以及数据清理是解决这些 问题的理论基础3 1 ,空间数据仓库集成系统也将借助于这些理论和方法 构建集成系统的框架。 空问信息是空间数据仓库集成系统不得不考虑的研究对象。在空间 数据仓库集成系统中,由于空间信息自身的特征,将其看作类特殊的 信息做专门的处理。它与一般的信息处理的差异主要表现在空间信息有 相当部分数据是非结构化的、变长的、由关系复杂的拓扑关系组成等 面向窀间数据仓库的集成系统研究 并且强调空间坐标体系的一致性。因此,空间信息特殊的集成处理是空 间数据仓库集成系统重要的研究内容。 1 2 空间数据仓库集成系统的国内外研究现状 空问数据库仓库是以信息集成系统的理论、技术和方法为支撑而发 展应用。自从数据仓库这个概念提出以来,人们对信息集成产生了新的 理念,从早些时候的联邦技术集成,逐步转向对所分析的数据进行预先 存储的数据仓库集成,它标志着信息集成技术进入了一个新的发展阶段。 自从1 9 9 6 年,空间数据仓库的概念提出以来,已逐渐引起了人们的关注 美困和加拿大率先对空间数据仓库展开了研究。其中,表现最为突出的 是e s r i 公司,该公司是目前发表空间数据仓库论文最多的团体之一, 在9 6 9 8 年问发表了白皮书:s p a t i a ld a t aw a r e h o u s e ) ) 4 】、s p a t i a ld a t a w a r e h o u s i n g f o rh o s p i t a lo r g a n i z a t i o n s ) ) 。5 1 ,提出了空间数据仓库的需求, 并提出了e s r i 的空间数据仓库的体系结构以及基于数据仓库的数据模 型。此外,e s r i 公司举办了多次全球性用户大会,发表了若干篇有关空 间数据仓库的论文,并提供相关的产品:a r c s d e ( s p a t i a l d a t a b a s e e n g i n e ) 辅助用户应用其技术。 除此之外,空间数据的集成系统也已经渐渐出现了,文献t 6 | 提出了 个空间数据仓库的原型系统,该系统是通过虚拟视图的方式并采用 面向空间数据仓库的集成系统研究 g m l x m l 作为信息交换标准来实现的。s i t - s d 原型系统是一个从语 意方面考虑的集成系统,它采用了存在论( o n t o l o g y ) j 差行模式匹配,以联 邦方式为用户提供一个异构空间数据库的集成环境。文献8 提供了一个 基于空闯模式的集成工具原型系统,该原型系统通过把模式表达成通用 数据模型u s m 来进行模式集成,并采用图形用户接口( g u i ) 以交互 的方式通过用户设计模式和映射,为空间数据仓库提供了很好的模式集 成工具。f m e 公司的s p a t i a le t l 9 m 0 1 是一个用于面向空间信息的e t l 工具,它主要以格式转换的方式为数据集成生成格式统一的数据。目前 面向空间数据仓库的集成系统确实不多,而且不少还正在完善当中,但 是这些少量的系统为空间数据仓库集成系统的研究开启了良好的开端。 在我国,空间数据仓库技术仍处于新的研究领域,空间数据仓库的 应用实例还比较少。虽然,有不少学者也进行了有关的研究和分析,例 如:周炎坤等“大型空间数据仓库初探”1 1 1 1 、赵霈生等“空间数据仓库 的技术与实践”1 1 2 1 、邹逸江等“空间数据仓库的结构设计” 1 3 1 、杜明 义等“空间数据仓库技术与模型研究”【1 4 】、陈书磁等“浅论空间数据仓 库”i ”1 中都对空间数据仓库的体系结构进行了一些描述,又如韩鹏等在 “窄问数据仓库中元数据管理模型的研究”1 1 6 1 中,讨论了空间数据仓库 的元数据管理模型;张友水等在“空间数据仓库元数据及其实现”【1 7 6 面向卒问数据仓库的集成系统研究 中讨论了空间数据仓库中元数据的机制等。 从数据仓库技术角度而言,它主要分为数据预处理、o l a p 、数据挖 掘三个技术层面。国内大多数研究主要集中在对数据仓库应用层面上的 o l a p 和数据挖掘两个方面,如:李德仁院士等在“论空间数据挖掘和 知识发现”1 8 1 中讨论了对空间数据挖掘和知识发现而进行的总体概括 李一军等在“空间o l a p 技术研究”1 讨论了空阔o l a p 的模型、毛 克彪和徐铭杰等分别从不同角度在“基于空间数据仓库的空间数据挖掘 研究2 蝴和空间数据挖掘模型和方法研究【2 1 1 中讨论了基于空间数 据仓库的空间数据挖掘的模型结构,以及空问数据挖掘算法与应用;徐 铭杰和石磊等还进一步对处于中间层面的数据模型进行了研究,如:在 “空间多维数据模型及0lap 的设计与实现” 2 2 1 和“空间数据仓库中 维和度量的建模”1 中讨论了空间数据仓库中的维和度量扩充,以及空 间多维数据模型。遗憾的是,国内所有的研究都没有深入考虑空间数据 仓库的集成问题。 与此相反,传统的数据仓库集成已经进行了广泛研究。如前所述 数据仓库集成主要分为模式集成、数据集成和数据清理三大主题, a n d r e a 对这三个部分的发展历史做了全面地综述,不仅阐述了经典理 论在数据仓库集成研究中的作用,丽且既明了数据仓库集成仍以信息集 面向空间数据仓库的榘成系统研究 成理论作为基础而发展的趋势。在这种意义上,空间数据仓库集成如果 能借助于前人的这些研究,再对其中的关键技术进行针对性的扩展,将 大大缩短研究的进程。 模式集成技术经过了二十多年理论与实践的过程,模式集成从最早 期的一次性集成活动,发展到能支持动态变化数据源的集成活动,已经 成为相对成熟的技术。人们已对此提出了各种各样的方法,例如:基于 模型的方法2 引2 5 1 、基于元数据的方法2 鲥、面向对象的方法27 1 、基于集 成规则的方法 2 8 1 。此外,a i 技术也在模式集成中得以发展,基于语义的 描述语言、知识推理方法等也被应用到模式集成当中,例如文献 2 9 1 讨论 的术语系统b a c k ( 3 们,以及m o m i s 系统3 1 1 等。 数据集成是设计数据仓库的核心问题,其中:数据管理及从数据源 到全局模式之间的映射关系建模是数据集成的关键。目前,数据管理主 要存在物化视图3 2 3 3 1 d 4 3 5 1 与虚拟视图1 3 6 1 f 3 7 1 3 8 1 1 3 9 1 两种方式。而物化视 图是数据仓库的基础,视图维护m 1 是近几年研究的一个热点。然而,无 论那种方式都会遇到查询处理的问题 3 1 。映射方式决定了不同的查询处 理实现方式,目前,主要有g l o b a l a s v i e w t 4 1 i ( g a v ) 和 l o c a l l a s v i e w t 4 2 】【4 3 1 ( l a v ) 两种方式。另外,还有人提出了新的方式 如:g l o b a l 1 0 c a l a s v i e w 4 4 1 ( g l a v ) 、b o t h a s v i e w 1 4 5 1 1 4 1 ( b a v ) 。与前 面向空间数据仓库的集成系统研究 两者相比,它们均对查询处理的实现做出了不少改进。尽管如此,前两 种方式仍然是目前最常使用的方法。 数据清理i + i t ”1 也是数据仓库集成必须考虑的问题。以往,大多数研 究都集中在模式集成中,仅有少量的研究放在数据清理当中。随着数据 清理在数据仓库中所呈现出的重要性 4 8 1 1 4 9 1 1 5 0 1 ,人们开始渐渐地重视对 数据清理的研究。以往对数据清理的研究大部分集中在对重复实体的识 别和清除上5 0 儿5 1 1 5 2 儿5 3 1 54 1 ,或研究在模式匹配基础上进行数据清理 s s i s 6 直至今日,数据清理才被看成是一个复杂、统一的处理过程 5 0 1 1 5 4 , 包括了一系列的转换过程、特定的操作以及实现。所谓的e t l ( e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d i n g ) 过程主要就是用于完成这个复杂的 数据清理过程。目前,已经对e t l 工具进行了大量的研究和产品的丌发 在技术方面,市场上出现了不少的e t l 工具,包括了商业数据库扩展工 具,如:i b m 的d w c ( d a t aw a r e h o u s ec e n t e r ) 1 5 7 、o r a c l e 的o w b ( o r a c l e w a r e h o u s eb u i l d e r ) s s l 5 9 1 、m i r c o s o f t的d t s ( d a t at r a n s f o r m a t i o n s e r v i c e s ) 6 0 1 :e t l 制造商开发的产品,如:d a t a s t a g e x e 6 1 2 1 、 p o w e r c e n t e r 6 3 1 等。这些工具都实现基本的e t l 操作,从而成为数据仓 库的集成产品。在研究方面,人们已经对脏数据进行了较多的研究47 1 , 对其进行了分类49 1 ,针对不同的类型提出了各种管理数据质量的方法 面向空间数据仓库的集成系统研究 1 4 9 1 ,并讨沦了数据清理的所涉及各个方面的问题 6 4 | 1 6 5 l f 4 7 1 。同时,在文 献肺6 1 中还提出了数据清理过程的框架,并讨论了清理的优化技术。 a j a x 原型系统5 4 1 6 7 1 是在这个框架中建立起来的一个数据清理系统,提 供了映射转换、匹配转换、聚簇转换、合并转换四种类型的转换功能 并利用本体( o n t o l o g y ) 来完成自动转换过程。i b i s t 邸1 是一个使用g a v 方式的集成系统,除了实现基本的数据集成过程外,这个系统在集成过 程中还考虑了上述的数据质量问题。另一方面,目前研究逐渐开始强调 用户对集成系统的控制与交互能力。从应用实践中,人们逐渐感到用户 对设计集成过程的重要性,而集成的最终结果应该反映出用户最初的设 计意图。因此,具有交互性的智能控制系统开始出现,p o t t e r sw h e e l 6 ,7 0 是一个面向用户设计的数据清理工具,提供了一系列操作让用户逐步地 建立转换过程。系统根据所建立的转换过程进行集成,在提高了灵活性 的同时,又避免了复杂的编程。a r k t o si i t 7 1 l 【7 2 1 1 7 3 i 是一个面向数据仓库 集成工作流设计的e t l 系统,这个系统通过建立基于图形的概念模型从 逻辑上反映出模式、活动等e t l 场景中的要素,并且提供常用的转换模 板来帮助用户建立e t l 工作流,系统按照这个工作流的步骤依次执行 从而实现了用户对集成过程的控制。由此可见,数据清理领域是近年兴 起的研究领域,并且随着人们对数据仓库的青睐,不断得到人们的重视。 面向空间数据仓库的集成系统研究 1 3 空间数据仓库集成系统研究存在的问题 综上所述,借鉴数据仓库的集成技术,并结合空间信息集成理论是 空间数据仓库集成系统研究与实现的途径。然而,从研究现状来看,可 以发现空间数据仓库集成系统仍然处于起步的阶段,尽管己渐渐出现了 些空问数据仓库集成系统,但是许多数据仓库理沦与关键技术仍然没 有运用到空间数据仓库中,尤其在数据集成和数据清理的领域,空间数 据仓库显得相对薄弱。究其原因有两个,一方面数据仓库自身也处于发 展阶段,刚刚问世不久的数据仓库,其发展需要经过一个过程,许多技 术和理论仍然不成熟,需要不断的完善和发展:另一方面,空间信息的 复杂性增加了空间数据仓库集成过程的难度,在集成过程中不得不针对 这部分信息的特征做特别的处理,使得空问数据仓库集成的研究不可能 一一蹴而就,需要经历一个发展完善的阶段。此外,目前,对空问数据仓 库集成系统的研究仍然缺少一个完整的理论框架,导致了对空间数据仓 库的发展缺乏理论基础。 1 4 研究目标与内容 针对l 述的研究状况,本文主要以空问数据仓库集成系统为主题展 开讨论,并以数据仓库集成技术作为研究的切入点。在理论方面,论文 面向卒间数据仓库的集成系统研究 将以信息集成理论为基础指导空间数扼 仓库集成系统的相关问题,并利 用信息集成技术与空间信息特征的结合,构造出空间数据仓库集成系统 的概念化系统框架。在此基础上建立空间数据仓库集成模型,以实现用 户对集成过程的可视化设计,并支持空问数据特征描述,并引用标准的 集成元数据实现集成模型的描述。最后本文提出了集成原型系统的设计 充分发挥了集成模型的作用,实现由集成模型驱动的、面向用户设计的 空间数据仓库集成系统。以下是本文的结构安排: 本文的第二章讨论了空间数据模型,采用o g c 标准讨论空间数据模 型,并进一步说明采用g m l 构造空间数据的方法,最后分析空间数据 在集成系统中的主要特征。第三章将讨论空问数据仓库的有关内容,主 要对空间多维数据模型展开讨论,并分析了空间数据仓库的体系结构。 第四章借鉴了信息集成的相关理论分析了空间数据仓库集成的方法和基 础,并进一步引入集成系统的概念化框架,根据这个框架构造了系统实 现的元模型结构,为后面进一步实现提供了基本的要素。第五章将根据 这个框架设计了支持空间数据的集成模型,用以描述空阃数据仓库的集 成过程,并根据公共仓库元数据标准讨论模型的元数据映射。第六章将 讨论空间数据仓库集成原型系统的实现。 面向宅i l l j 数据仓库的集成系统研究 2 空间数据特征 2 1 空间信息概述 空间信息1 是一些与地球表面( 包括与地表非常接近的地区、亚地表、 海洋与大气圈) 空间位置数据相关联的信息。随着计算机技术的发展, 促使了空间信息的发展走向了数据化的道路。早在20 世纪50 年以前 瑞典气象学家用计算机制作了气候图,随后,t e r yc o p p o c k 利用计算机 分析了农业地理数据,那时人们就开始了实质性的g i s 基础研究。到了 6 0 年代中期,第一个真正的g i s 在加拿大诞生了,被誉为了加拿大 地理信息系统( cgis ) ,这个系统是r o g e rt o m l i n s o a 为了进行加拿 大土地详查工作而开发,其中一项最突出的贡献就是对一张地图采用了 数字形式的表达。尽管当时大量的工作还是手工操作,但人们已经开始 意识到了空间信息数字化的重要性。在60 年代后期和70 年代早期, 遥感的发展也刺激着空间信息的发展,当遥感图像处理技术已达到专业 化水平时,遥感技术与其它信息化技术的结合,使空问信息增加了对不 同类型的遥感数据源的综合。在70 年代和80 年代期间,软件工程的 提出,使得空问信息在软件工程模式中集成了通用的表达方法。特别是 1 尽管原理j :地理信息比卒间信息更贴近描述地表结构信息,但两者之问通常作为蚓义词 为了和土题褶一致,奉文主要采用空闭信息一谢。 面向空间数据仓库的集成系统研究 在70 年代后期,人们开始认识到空间信息系统应按通用的要求米建造 方可满足所有潜在应用的需求。进入90 年代,由于硬件的飞速发展及 相对成熟的数据库技术,改变了以往根据一个单独的硬件和软件环境中 添加数据模型的多少,以及相应功能的多少来衡量g i s 技术进步的传统 观念,开始流行按统一数据模式进行大规模软件集成的观点。由此,在 世界范围内形成了o p e n g i s 联盟,提出了可互操作的空间信息模型集。 尤其是90 年代的后期,电子通信网络的发展,以及w w w 、pc 的广 泛普及,缩小了空间信息应用的限制,使得数据、软件、用户不必在同 一时间、同一地点出现,而且能共同使用不同地点、不同硬件上的空问 信息资源。通过这个发展历史过程可以总结出空间信息发展的两个重要 方面 1 ) 尽管g i s 在多年来发生了重大的改变,然而二分法的概念始终不 变,即:空间信息存在两类数据:栅格、矢量数据,它们的选择 虽仍有争议,但它们已经成为了事物的两个方面,产生了空间信 原型的二分法1 。 2 ) 目前,正逐渐形成统一的互操作空间数据模型。 1 二分法把空间信息原型分为r 窄问信息域和离散实体两种类型。域模型通过一组窄问连续 的函数米描述,而离散实体则通过卒问几何对象来描述。 面向空间数据仓库的集成系统研究 2 2 空间数据模型 通过上一节的讨论可知,栅格与矢量数据仍然是目前空间信息组成 的两个方面。然而,在本文所讨论的空间数据仓库数据环境当中以矢量 数据为主,暂不讨论栅格数据的情况。 由于矢量数据是以空间实体的方式来描述空间事物,又被称为实体 模型。业界的应用,一商为了推动实体模型达到最有效的表达和处理能力 纷纷研制了各自的空间实体模型,形成了一种百家争鸣的局面,如 a r c l n f o 中典型的e 0 0 点、线、面矢量拓朴数据模型;m a p l n f o 采用了 混合模型等,这在发展的同时却又导致了空间数据无法进行共享与集成。 值得庆幸的是,o g c ( o p e ng e o s p a t i a lc o n s o r t i u m ) 经过了多年的努力 制定了一种空问信息编码标准一一g m l ( 地理标记语言,g e o g r a p h m a r k l a n g u a g e ) ,g m l 规定了统的空间数据模型和编码,这个标准已经渐 渐地被人们接受,并逐步发挥其重要的作用。本文将依掘o g c 的标准来 描述空间实体模型。 在实体建模中,关键是把空间信息抽象成明确、可识别和相关的实 体,它与面向对象的观点是一致的,故实体模型也被称为基于对象的模 型。与传统的数据模型相比,空间实体的主要特点在于空间实体( 又称 特征) 的属性呵分为不同的两类:空间属性和非空间属性。宅间属性主 面向空间数据仓库的集成系统研究 要是通过在空间坐标系中描述的几何体来表示,也被称为几何属性。在 此,空问( 地理) 坐标系是经纬度坐标系或其它的公认投影系统的基础 框架。在这统一的坐标系下,构造出各种不同的几何类型来对空间实体 的形状建模。通常,人们会选择一组基础的几何类型,图2 1 描述了有 关空间几何体的基本类型,这些几何类型主要有四类:点、线、面、几 何体。其中,点描述了一个零维对象1 的形状,如:城市的中心、或地 图中的房子被抽象成点。线描述了一维对象的形状,如:被忽略宽度或 等宽的河流、道路等都可以抽象为线,线通过线段表示,线段可由多条 连接直线或曲线来近似表示。面描述了二维对象的形状,如:行政边界、 居民地等都可以表示为面,面通过多边形来表示,多边形由闭合的线段 所组成。几何体则由上述类型的单纯复型一多点、多线、多面所组成, 从而可表达更复杂的空间对象。虽然,不同的软件系统还会定义更多或 不同的几何类型,但均由上述最基本的图形元素扩展而来。对于非几何 属性则与传统的属性( 如字母、数字等类型) 相一致。 确切地说是曲或二三维空间中其自身具有零维性质的对象,其它维娄悯 面向卒问数据仓库的集成系统研究 图2 - 1 空间几何对象模型( o g c 标准) 2 3g b l l 空间数据模型的编码 g m l 对空间数据共享与集成具有深远的意义,它是基于空间几何 对象模型的基础构建。在此,简要介绍如何采用g m l 对空间数据进行 编码,从而对空间数据模型有更加直观的认识。有关g m l 规范的详细 说明文档可参考文献【”1 。 g m l ( v 2 0 ) 把现实世界中的数据内容及其表现形式分离开来, 以x m l 的形式来表达地理数据内容1 ,并用地理特征( f e a t u r e s ) 来描述 地理属性数据。其中,地理特征由属性集合组成,它由名称、类型、属 性值的三元数组来描述,其当前数值反映了地理特征的现状。描述地理 为j jg m l 标准相对应,奉节中采用地理来代替卒间的术语 面向空间数据仓库的集成系统研究 特征通常需要对一些几何体( g e o m e t r j e s ) 进行描述,即前述的空间几何 对象模型中所描述的几何类型。g m l 可以对这些简单的几何体,以及由 其组合的复杂的,l 何实体进行编码描述。这些内容主要通过三个重要部 分( 采用x m l s c h e m a 的形式) 来定义:g e o m e t r y 部分提供了详细的基 本空间儿何组件定义,f e a t u r e 则定义了基本的地物对象一属性模型, x l i n k s 用于实现链接功能的x l i n k 属性。 然而,g m l 没有强制采用g m l 的用户使用固定的元素,而是提供 了一套基本的几何对象、公共的数据模型,以及创建和共享应用s c h e m a 的机制来进行扩充。所有g m l 的应用必须使用g m l 提供的几何地物 来表示地物对象的几何属性,但可以通过限制、扩展等机制来创建自己 的应用s c h e m a ,只需通过应用s c h e m a 就可以理解g m l 文档的内容。 例如,在图2 2 中描述了如何利用g m l 描述空间实体的具体实例 该图抽取了g m l 中最重要的部分。可见,g m l 能对空间数据模型进行 有效的编码描述。 面向空间数据仓库的集成系统研究 r 1 ”r 、“ “厂弋_ 7 ,、 唑竺卜文二= 二一卜爿。竺:卜爿二羔j 图2 - 2g m l 编码描述的应用实例 此外,g m l 3 0 版本在兼容2 0 版本的基础上还封装了空间地理参考 系统、拓扑关系、几何曲线和时间等信息,并提供了地理抽象模型封装 地理信息及其属性。因此,它能够表达更加丰富的信息,进一步扩大了 g m l 的使用范围。 2 4 空间信息的特征 从上述对空间数据模型的分析,可以看出空间信息是一类复杂的数 据,这种复杂性不仅表现在自身结构的点、线、面、体和多属性数据与 空间几何体关联之间的复杂程度,而且在应用中产生了各种类型的异构 空间数据( 见6 2 1 节的实用数据模型) 。除此之外,还具有以下的特征 1 ) 空间数据的层次 面向卒问数据仓库的集成系统研究 空间数据的层次特征主要体现为空间等级和实体类型的差异性,表 现为空间对象在空间上的可分解性,如:行政界线可别分解为国家、省 市、地市、县市和乡镇等多个层次等级;又如:道路、水系、植被和土 壤,它们分属不同类型的地物实体,故被划分在不同的数据层。空问数 据这种等级和类别层次特征,在空间多维数据模型最为常用。 2 ) 非结构化特征 数据的非结构化主要体现在空间数据的不定长性,如:线记录具有 不定长的点记录,多边形记录具有不定长的线记录,使得传统的结构化 模型和处理组件都不能直接操作空问数据。这种非结构化特征决定了必 须采用特殊的组件来处理空间数据。 3 ) 空间数据的元数据 在空间实体集合中,必定存在空间表达的尺度、精度,以及空间实 体所采用的空间参考系、范围等信息,它们对于数据的描述和处理都是 十分重要的。因此,元数据作为空间数据的描述数据,成为空间数据不 可分割的一部分。 上述空间信息的特征,为空间数据仓库的e t l 过程和数据预处 理过程带来了困难。然而,也说明了空间数据集成的可能性,但需 针对这些空间信息特征进行特殊的处理, 面向辛问数据仓库的集成系统研究 3 空间数据仓库 3 1 空间数据仓库概述 随着数据仓库技术的同趋成熟,从过去的自然演化式体系结构 慢慢演变成了体系结构化环境。如图3 1 所示,在体系结构化环境 中包含了四个层次的数据:操作层、原子数据仓库层、部门数据集 市层及个体层。其中,操作层的数据只包含数据生产部门的原始数 据,这些数据仅用于oltp 领域:数据仓库中存储的是不可更新、 集成的原始历史数据;数据集市层中的数据则是面向用户的、更高 层次的汇总数据;个体层则存储对单个用户分析的临时数据。 部f 图3 - 1 体系结构化环境0 7 5 1 面向空间数据仓库的集成系统研究 尽管从操作数据到最终用户数据,经历四个层次不同级别的数 据存储,产生了数据冗余。然而,它们是必须的( 至少是数据仓库 层) ,在蜘蛛网环境中没有经过处理的操作层数据是复杂且难以处 理,甚至无法使用。实践证明1 7 7 j ,体系结构化环境中的数据冗余比 蜘蛛网环境中的数据冗余更少。因此,体系结构化环境是一切应用 ( 如:决策支持系统) 的基础,而数据仓库就是结构中的支柱。对 于空间数据环境也处于同样的境遇,以下举出一个空间数据体系结 构化环境中的例子证明其共性所在。 图3 2 空闻数据仓库环境中的实例 面向空间数据仓库的集成系统研究 如图3 2 所示,在操作层中存储广州市各个区的城市交通线路 分布现状的空间数据,它们处于随时更新的状态:在空问数据仓库 中保存着该区的各个历史阶段的数据,反映了交通线路的演变过程。 通过对各区( 广卅市包括lo 个区) 交通线路的数据集成,可合并 成全市的交通线路不同历史阶段的数据;在集市环境中则可根据不 同部门的需求,提取有用信息。如:地铁管理部门,需提取地铁线 路历年建设进展的数据。虽然,这一层中的所有数据均源于空问数 据仓库,但它却更由针对性,有利于部门查询和应用:在个体层中 则包含了各个用户的暂时数据存储,如:在地铁线路历年数据中查 询2 0 0 5 年从a 点到b 点地铁所经线路的数据、比较03 年与04 年 问新增地铁线路的数据等,这些数据相比之下规模都很小。可见, 各种不同的应用可在这个体系结构化环境中产生。 3 2 空问数据仓库的空间多维数据模型 在传统的数据仓库技术中,常提到的设计方法是多维数据模型 它与其它数据库模型的区别,其核心是数据立方体。所谓的数据立 方体是以多维的角度对数据建模和观察,由大量的维和事实来定义, 其中事实表示了中心主题,维则是一个组织所要记录的实体。 通常,以概念分层,方体中的每个格对应着多维数据不同级别或 面向空间数据仓库的集成系统研究 类别的汇总。这种多维数据模型通常采用星型模式组织数据,形成 以事实为中心、各维分布于四周的高性能查询结构。文献( 7 6 7 5 】 讨论了有关多维数据模型设计更详细的内容。 把这种多维技术引入到空间信息当中,将产生能从多角度、多 时相、全方位观察空间数据的空问多维数据模型1 。显而易见,多维 度能对事物从各个角度进行描述。在空间信息环境中,如果能把同 一地区的建筑物分布、道路情况、水资源分布倩况各个方面组织成 维度,将能对这个地区进行多角度的观察,并利用维度分层的概念, 更能产生对地区不同级别、多尺度、多分辨率的观察效果。由于空 间数据仓库的数据具有时间特性而且是非易变的,需根据不同的时 间粒度,收集空间数据各个可靠的时间序列,或随着时间增加,所 形成的多时相空间数据,以便对一个地区进行不同时段的、长期的 观察。而全方位的空间数据更是空间数据仓库所具备的基本特点, 通过集成从不同数据源、不同地区的空间数据,可将其综合成对全 局描述的空间数据。可见在空间数据仓库技术支持下,空间多维数 据模型为空间信息的观察与分析带来了新的观念,是未来空间信息 技术发展的主流。 虽然,上述空间多维数据模型具有多种应用优势,却给技术带来 1 奉立:不代表任何空间多维数据模型设、才的碰点,舟关系型多雏空闻数据库中主要以星型模式 为例。 面向空间数据仓库的集成系统研究 ,实现难度。这由空间数据的特征造成,从2 4 节的分析可知,空 间数据是以非结构化的数据,这种非结构化特征限制了传统数据仓 库技术对空间数据的处理能力。:空间数据无论作为维度,还是作为 度量,空间数据通常需要泛化为非空间数据,才可对其定义,但却 已失去其精确的几何定义。为了解决这些问题,则定义了如下空间 多维数据模型: 定义3 1 :空间多维数据模型是一个三元组r = ( d ,m ,s ) ,由以下 各部分组成: d = 留。,d :,d 。 是一个维度集合,d i 称为维度,在这个集合 中取一个特殊的子集s d = 枷。,s d :,s d 。 d ,这个集合中的每一个 元素都是一个空间维度。该子集称为空间维度集合,并把集合中的 元素汜作s d 。= 矗f 。s f 。,s t 。 ,其中s f 。( 1 s ,s 历) 是空间维度上的一个 层次。 m = 如,m :,m 。 是度量集合,同样在该集合中取一个特殊的 子集s m 。如。,s m :,s m , c m ,其中册i ( 1 s fs ,) 是空间聚集的一个 度量,该度量具有空间属性,这个集合称为空间度量集合。 s = 怡,s ,芦,l 如:,s ,卢:x ,仁。,s ,芦。) 称为维度结构集合 k :,s ,声;1 1s i sn 定义了一个层次结构,以及层间聚合约束关系 面向窄问数据仓库的集成系统研究 q = f 。,l 。 定义了d ,的层次集合,s 表示了相邻层次州的聚合荚 系 b = 如。,z 。,妒。,】f 。1 c t i , l 。s l i t , 妒。,;k ,纸:,庐劬 ,定义了在维度 d 。的层次a 。中满足相邻聚合层次关系的两个层屯,毛之间的聚合函数 集合妒称为f 。s l 。的聚合约束。相应的,对于空间维度s d 。中的层 次集合,如果两个具有层间聚合关系的层次中,有一个或者两个具 有空间属性,则聚合函数集合为空间算子集合,其聚合约束具有空 间聚合操作。 记 在空间多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论