(森林经理学专业论文)森林资源空间矢量数据管理与服务.pdf_第1页
(森林经理学专业论文)森林资源空间矢量数据管理与服务.pdf_第2页
(森林经理学专业论文)森林资源空间矢量数据管理与服务.pdf_第3页
(森林经理学专业论文)森林资源空间矢量数据管理与服务.pdf_第4页
(森林经理学专业论文)森林资源空间矢量数据管理与服务.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(森林经理学专业论文)森林资源空间矢量数据管理与服务.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 为解决森林资源空间矢量数据的异构性、分散性和独立性,尤其是针对目前管理方 面存在的一些问题,本研究从分析问题的根结入手,并结合目前国内外的研究现状及先 进技术,研究了在保持不同系统中数据的完整性和一致性的基础上,如何自动的从多个 分布、异构、自治的数据源中集成数据,并且隐藏数据的这些差异,向用户提供统一、 透明的数据访问接口。提出了一个基于中介模式的、采用g m l 规范的、以w e bs e r v i c e 的方式提供服务的模块化、可扩展的五层架构的森林资源空间矢量数据管理与服务框架, 并设计开发了以框架为基础的原型系统。 论文首先总结了森林资源空间矢量数据的特点,目前森林资源数据管理和应用的研 究现状,以及目前管理存在的一些问题,并从异构空间数据管理与集成、空间数据格式 转换、数据服务技术三个方面分析了国内外对空间矢量数据管理的研究和相关先进技术 的利用,为服务框架的确立奠定了理论基础。 通过研究异构空间数据管理与集成的三类模式的优缺点,确定采用模块化和可扩展 性强的中介包装器模式作为数据集成模式;利用w e bs e r vi c e s 作为系统内部和外部服 务技术,并依据其技术和应用特点与中介包装器模式进行融合互补;使用g m l 规范和技 术作为数据传输格式及框架内通用数据格式标准;在此基础上设计了森林资源空间矢量 数据管理与服务平台的体系结构基于中介模式的、采用g m l 规范的、以w e bs e r v i c e 的方式提供服务的由数据层、中介层、子服务层、服务集成层和应用层组成的五层架构。 详细设计了森林资源空间矢量数据管理与服务框架的主要功能,重点包括包装器、 中介器、子服务模块和服务集成器等模块的结构、功能。 研究设计了森林资源空间矢量数据管理与服务框架的应用模式,并给出了基于c s 架构的传统应用模式、智能客户端应用模式及基于b s 架构的单层、多层应用模式等几 个应用模式的范例。 在森林资源空间矢量数据管理与服务框架的基础上,遵循系统设计原则,使用w e b s e r v i c e s 技术和g m l 技术设计并开发了森林资源空间矢量数据管理与服务原型系统。 论文将结合w e bs e r v i c e s 技术的中介包装模式的数据集成管理方法和g m l 应用模 式引入林业应用,为提高森林资源空间数据管理和服务水平的提高提供了技术参考。 关键词:异构空间数据集成,中介包装模式,w e b 服务,g m l a b s t r a c t t h e s ec h a r a c t e r si n c l u d i n gd a t ah a t e r o g e n c o u s ,d a t as e p a r a t i o na n dd a t ai n d e p e n d e n c eo f s p a t i a lv e c t o rd a t af o rf o r e s t r yr e s o u r c e sb r i n gf o r w a r da d i f f i c u l tf o rf o r e s u - ym a n a g e m e n t t o s o l v et h ep r o b l e mt h i ss t u d ya n a l y z e dt h er o o to ft h i sp r o b l e m , r e f e r e n c e dr e s e a r c h e sa n dh i 【g h t e c h n i q u ea r o u n dt h ew o r l d ,g a v eam e t h o do nh o w t oi n t e g r a t ed a t at h r o u g hd i f f e r e n td a t a $ 0 1 1 r c e sw h i c hm a i n t a i nt h ed a t ai n t e g r a l i t ya n dc o n s i s t e n c y , b e s i d e s ,c o n c e a lt h ed i f f e r e n c eo f t h e s ed a t a , p r o v i d ea nu n i f o r i na n dt r a n s p a r e n td a t aa c c e 船i n t e r f a c e t h es t u d yd e s i g n e da s c a l a b l ef i v el a y e r sm a n a g e m e n ta n ds e r v i c ef r a m e w o r kf o rf o r e s t r ys p a t i a lv e c t o rd a t 也w h i c h b a s e do nt h em e d i a t o rm o d e ,u s i n gg m lc r i t e r i o na n dw e bs e r v i c et o a f f o r di t ss e r v i c e t h ep a p e rf i r s ts u m m a r i z e dt h ec h a r a c t e r i s t i co ff o r e s t r ys p a t i a lv e c t o rd a t a , a n dt h e p r e s e n tr e s e a r c hs t a t u so fd a t am a n a g e m e n ta n da p p l i c a t i o nf o rf o r e s t r yr e s o u r c e s , a sw e l la s c u n 姐td e f i c i e n c y ,t h e na n a l y z e dm a n yc a s e so fs t u d i e so ns p a t i a lv e c t o rd a t am a n a g e m e n ta n d r e l a t i v e st e c h n i q u e sb o t hi nc h i n aa n di nf 0 1 c i 弘c o u n t r i e s ,i n c l u d i n gm a n a g e m e n ta n d i n t e g r a t i o no fh e t e r o g e n e o u ss p a t i a ld a t a , f o r m a tc o n v e r s i o no fs p a t i a ld a t a , d a t as e r v i c e t e c h n i q u e ,o nt h e s eb a s i s ,t h es e r v i c es t r u c t u r ew a sd e s i g n e d t h es t u d ya d o p t e dt h em e d i a t o r w r a p p e rm o d ea si n t e g r a t i o nm o d ef o ri t sm o d u l a r i z a t i o n a n di t sh i g hs c a l a b i l i t y ;p r o b e di n t ot h ew e bs e r v i c e st e c h n i q u e ,u s i n gi t ss e r v i c et e c h n o l o g y b o t hi n t e r i o ra n de x t e r i o rt oi n t e g r a t ew i t ht h em e d i a t o r w r a p p e rm o d e t h r o u g hs t u d yt h e g m lc r i t e r i o na n dt e c h n i q u e ,a d o p t e dg m la sac r i t e r i o no fd a t at r a n s m i s s i o nf o r m a ta n d c u r r e n c yd a t af o r m a ti nt h ef r a m e w o r k f u r t h e r m o r e ,as y s t e ms t r u c t u r eo fs p m i a lv e c t o rd a t a m a n a g e m e n ta n ds e r v i c ew a sd e s i g n e d ,w h i c hi n c l u d e sf i v el a y e r s :d a t al a y e r , m e d i a t o rl a y e r , s u b - s e r v i c el a y e r , s e r v i c el a y e ra n da p p l i c a t i o nl a y e r t h es t u d yg a v ed e t a i l e dd e s i g n i n go ft h ef u n c t i o no fs p a t i a lv e c t o rd a t am a n a g e m e n ta n d s e f 3 i c ef o rf o r e s t r yr e s o m s ,p u te m p h a s e so nt h es u u g t ea n dc h a r a c t e r i s t i co fm a p p e r , m e d i a t o r , s u b - s e r v i c em o d u l ea n ds e r v i c ei n t e g r a t i o nm o d u l e ,e t c t h i ss t u d yd e s i g n e dt h ea p p l i c a t i o nm o d u l eo fs p a t i a lv e c t o rd a t am a n a g e m e n ta n ds e r v i c e s u u c t u r e ,m o r e o v e r , g a v es o m ei n s t a n c e so ft h et r a d i t i o n a la p p l i c a t i o nm o d u l eb a s e do nc s s t r u c t u r e ,i n t e l l i g e n tc l i e n ta p p l i c a t i o nm o d u l e ,t h em o n o l a y c ra n dm u l t i l a y e ra p p l i c a t i o n i i m o d 山eb a s e d0 1t h e 3 ss t r u c t u r e o n t h e b a s i so f s p a t i a lv e c t o r d a t a m a n a g e m e n ta n ds e r v i c es t r u c t u r eo f f o r e s t r y i e 5 0 u r c 宅s , k e e pt ot h ep r i n c i p l eo fs y s t e md e s i g n i n g ,a c h i e v e dt oa c c o m p l i s ht h es y s t e ms l u c r l l e d e s i g n i n ga n df u n c t i o nm o d u l e t h i sp a p e ri n t e g r a t e dt h ed a t ai n t e g r a t i o nm a n a g e m e n tm e t h o do f m e d i a t o r w r a p p e rm o d e o fw e bs e r v i c e st e c h n i q u ea n dg m l a p p l i c a t i o nm o d e ,u s e di nf o r e s t r ya p p l i c a t i o n , t r i e st o m a k el i t t l ec o n t r i b u t i o nt of o r e s t r yd a t am a n a g e m e n t k e y w o r d s :i n t e g r a t i o no fh e t e r o g e n e o u ss p a t i a ld a t a , m e d i a t o r w r a p p e r , w e b s e r v i c e s g m l 图目录 图1 1 各种数据格式直接互相转换1 0 图1 2 各种数据格式仅与标准格式进行转换1 l 图1 3g m l 文件组成部分示意图1 3 图1 - 4w e bs e r v i c e 的工作流程2 1 图1 5 当前可以使用的w e us e r v i c e s 协议栈。2 2 图1 6 技术路线图2 7 图2 1 体系结构3 0 图2 2 包装器的结构3 2 图2 3 要素的拓扑属性、几何属性分开表示的组织模型3 4 图2 4 要素的几何属性嵌入拓扑属性的组织模型3 4 图2 5 中介器的结构 图2 - 6 相对传统的c s 应用模式 。3 5 图2 7 智能客户端模式“ 图2 8 单层b s 应用模式4 6 图2 - 9 多层w e b 应用模式4 7 图3 1 系统的总体结构图4 9 图3 2 本系统的g m l 文档的s c h e m a 5 2 图4 i 调用退耕还林格局数据服务显示图5 5 图4 - 2s v g 显示结果 图4 3 选择数据源5 6 图4 _ 4 填充元数据5 7 图4 5 选择元数据文件 图4 6 部署服务5 7 v i i i 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得本研究生培养单位或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意 学位论文作者签名:日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解中国林业科学研究院有关保留、使用学位论文的规定,中国林业科学研 究院有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅本人授权 中国林业科学研究院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名; 年月日 学位论文作者毕业联系方式 工作单位: 联系电话: 电子邮件: 通讯地址、邮编: 导师签名: 年月日 1 i 研究目的和意义 1 i i 研究背景 第一章绪论 森林是国民经济建设的重要物质资源,也是陆地生态系统的主体;森林资源数据是 国家资源与生态环境管理体系的重要基础数据。建国以来林业部门建立了一套完整的森 林资源调查体系,积累了大量数据。森林资源数据管理与应用是我国资源环境信息系统 建设的关键问题。在森林资源数据中,空间数据是极其重要的组成部分,是支撑国家林 业系统运行与发展的基础数据,现在被广泛应用于各级林业部门和科研单位,空间数据 服务对于林业经济的发展、资源环境的可持续利用都起着极其重要的作用,国内外对空 间数据管理的研究一直非常重视。在林业领域内,由于森林资源空间数据的特点和行业 应用的需求,森林资源空间数据管理历来是研究重点与难点;在信息技术领域内,结合 行业知识对空间数据管理技术的研究亦是热点。 空间数据主要包括矢量和栅格两种数据结构,本论文主要讨论森林资源空阃数据中 的矢量数据部分e 1 1 1 1 森林资源空间矢量数据的特点 首先总结一下森林资源空间矢量数据的特点: ( i ) 异构性 信息技术的飞速发展,从数据内容和数据形式等方面极大程度的丰富扩展了我国森 林资源空间数据,但也使得数据的异构性日益显著,主要体现在以下几个方面: 数据内容 森林资源空间矢量数据的数据内容丰富多样,从总体来讲,可以分为以下几类 2 : 基础地理数据基础地理数据是数字专题地图的必备内容之一,它可用于地图定 位和专题要素的定位。一般指背景图( 底图) 第一章绪论 标准管理单元数据林业的管理和统计单元有其独特的区划方法,而且常常会随 着国家行政区划的变化而变动,此类数据包括多时态、多尺度的行政区划图和林业管理 区划图。 森林资源专题空间数据与林业资源分布及其管理相关的自然和社会要素统称为 林业资源专题空间数据。主要包括:林相图、森林分布图、土壤分布图、立地条件图、 植被分布图、病虫害分布图、森林经营方案图等。 统计管理数据森林资源管理中有大量的基于各级空间管理单元的统计数据,如 病虫害发生防治数据、人财物数据、林业社会统计数据等。 o 数据结构 森林资源空间矢量数据的数据结构也是多种多样的,造成数据结构不一致的原因是 多方面的,一是由于缺乏完整森林资源数据体系标准,特别是在资源清查方面分类和编 码各地区不统一,造成数据结构不一致;二是由于中国幅员辽阔,南北森林差异很大, 造成林业资源调查及管理也表现出较强的区域相异性,从而造成数据结构不一致;三是 由于不同的时态、比例尺等因素,造成即使是同一地区同一类型数据的数据结构也可能 不一致 o 数据格式 由于使用的操作系统、g l s 软件等的不同,造成了森林资源空间矢量数据的存储格 式的多种多样,即使是在同一个数据生产单位内部,也经常存在两种或更多种格式的矢 量数据。 ( 2 ) 分散性 我国森林资源空间矢量数据不仅存在很强的异构性,而且由于地域、职能的不同分 散在不同的部门中,数据具有权属、地理的分布性。 ( 3 ) 独立性 目前我国林业数据大部分还处于独立管理的状态,即数据源之间并未根据其内在特 性建立纵向或横向的关联关系,从而导致了数据的孤立,成为“数据孤岛”。此外,数据 大多只是分门别类存放,但数据内部问关系并未作组织。 1 1 1 2 森林资源数据管理与应用的研究现状 2 第一章绪论 针对森林资源空间数据管理和应用的研究重点主要集中在两个方面,一是数据共享 管理系统,一是资源信息应用系统。前者主要研究数据的组织、管理、交换,后者主要 研究信息的采集、处理、分析、评价、预测和模拟等。两者的着重点不同,后者更注重 数据本身的应用,前者更注重数据服务的宏观质量,即数据整体对于综合应用的服务质 量和支撑能力。 无论是数据共享系统还是信息应用系统,整个系统的重点和基础都在于数据的管理, 并都对数据管理进行了大量的研究,目前研究人员主要针对数据表结构的异构、数据格 式的异构等问题进行了研究并提出了一些解决方案,这些解决方案主要集中在重新建立 数据标准( 如森林资源清查等) 、融合标准化数据结构不同的历史数据、转换统一数据格 式等方面。同时随着应用范围的扩大,数据的分散性问题也越来越突出,近年来分布式 数据管理技术研究受到了异常热烈的关注,从c o m d c o m 、c o r b a 到分布式数据库、w e b s e r v i c e s 技术和网格技术,都在林业领域进行了实践,其中w e bs e r v i c e s 技术和网格技 术是目前国际上比较先进和流行的技术,国内林业领域基本处于研究阶段,目前并未开 展大范围的实际应用。 1 1 1 2 森林资源空间矢量数据管理目前存在的问题 虽然森林资源空间数据管理一直被作为研究重点,并给出了一些解决方案。但是由 于技术手段等限制,还存在一些问题。 ( 1 ) 标准数据转换格式选取难 为解决数据格式等带来的异构性,过去和现在进行了积极的研究,也得出很多的应 对方案,但绝大多数方案都采取了数据格式转换的方法,一般都是指定某一应用最广、 使用最多或者其他目的的格式为“标准格式”( 暂称格式s ) ,然后将其它与此不同的格式 转换成统一的格式s ,为说明方便,本论文称这种方法为“统一格式法”。 传统的统一格式法在发展初期,选取的标准格式一般是使用最多、应用最广的现成 的商业数据格式一如m d b d b f 等,但由于历史原因,g l s 服务商各自为政各自建立了自 己的数据标准,采用这种商业数据格式不仅必须进行繁琐的数据转换,并且极易造成部 分数据信息损失。这一问题已经引起各有关方面的关注,并开始遵循开放的数据共享原 则着手建立统一的数据标准格式。 ( 2 ) 数据格式转换过程繁复、自动化程度低 第一章绪论 数据格式转换除标准格式的选取问题之外,还存在着转换过程繁复、自动化程度低 的问题。上面提到,g i s 服务商出于商业目的保护自己的数据标准,并为数据转换制造壁 垒,造成格式间转换异常繁琐。并且由于商业格式的“先天不足”,再加上技术手段的不 成熟造成的“后天不良”,不能实现自动智能的格式转换,大量数据的转换工作为科研人 员及各级林业部门工作者带来了巨大的压力。此外,森林资源空间矢量数据由于历史或 者地域原因造成的数据结构不一致,也是数据转换工作量巨大的重要原因。 ( 3 ) 针对应用的数据服务的在线性和实时性有待提高 随着数据共享需求的范围越来越广,深度越来越深,对数据的服务性能要求也就愈 来愈高。所谓数据的“服务性能”是指为共享需求能够提供的数据量、数据质量、数据 获取的速度、数据获取的方便度、获取的数据的后续更新服务度等。目前的数据服务性 能在数据获取的速度、数据获取的方便度以及获取的数据的后续更新服务度等方面有待 增强。 1 1 2 研究目的和意义 由于森林资源空间数据具有典型的异构性、分散性与独立性特点,导致大量数据资 源重复建设,缺乏共享服务,“信息孤岛”现象严重,因此开展森林资源异构空间数据的 管理与服务技术研究具有重要的科学价值和实际意义。本研究的最终目的即在于通过异 构数据集成和数据服务等手段,来消除“信息孤岛”问题。 丰富的数据种类、不同的数据结构和多样的数据格式即数据的异构性使数据的交换 与联合应用迎来了巨大的挑战,同时数据的分散性给跨部门应用造成了难题,而数据的 独立性更是综合应用难以跨越的障碍,森林资源空间矢量数据的异构、分散、独立等特 点使数据管理成为了一个非常复杂的问题。但这个复杂的问题是不容回避的,因为森林 资源空间矢量数据的共享和综合应用迫切需要解决数据的异构性、分散性和独立性;同 时在信息技术领域,“泛数据”研究时代已经到来,w e b 大背景下的各种空间数据管理问 题成为人们关注的热点 2 0 ,因此解决森林资源空间数据的异构性、分散性和独立性, 并建立森林资源空间矢量数据管理与服务框架是亟待研究的课题。 森林资源空间矢量数据管理与服务框架的研究目的在于:综合运用x m l 、g i l l 、w e b 服 务( w e bs e r v i c e s ) 等信息技术,遵循信息集成技术和森林资源管理的最新发展趋势, 探索适合我国现行管理体制和特点的森林资源空间矢量数据管理的相关前沿技术。 4 第一章绪论 通过研究结合信息技术建立多时态、多尺度、多专题、多来源、多格式、多标准的 森林资源空间数据管理模型及框架,使得处于异构环境、分布存放的各种森林资源空间 数据能够协r t 作,达到既互相独立,又能互操作、互相服务的目标,充分发挥森林资 源空间数据的作用,为森林资源信息不同角度的预测、分析、评价、决策等应用提供数 据服务。 建立森林资源空间矢量数据管理与服务技术框架就是针对数据管理部门以国家、 省、地市、县等各级森林资源空间矢量数据为对象,面向综合数据应用服务,利用空间 数据自身的专题、尺度、时间、地理区域等共有特性,建立一个统一关联集成数据的全 局逻辑组织模式;研究异构数据访问编码体系和通信标准,针对不同异构数据源提供不 同接e l ,利用w e bs e r v i c 6 s 和g m l 实现对异构数据的透明访问;自动处理包装异构空间 数据,每个数据源都以w e b 服务的形式提供数据访问、查询、获取等操作;用计算机语 言描述数据的语义,从而能够自动发现并调取数据。 森林资源空间矢量数据管理与服务框架的研究基于新兴的w e b 服务技术,将数据自 动封装服务化,改变过去事先”转换统一”的思想为”以不变应万变”。各种类型的数据库 系统和文件系统等各自联入网络( i n t e r n e t i n t r a n e t ) ,实行”自治”,为数据建立统一 访问接1 3 ,数据在被调用时才”就地处理” 3 ,动态地转化为开放的标准格式( 如 x m l g m l ) ,实现最大程度上的空间信息共享。这种数据管理方案,无须花费大量财力物 力人力针对单独的部门兴建众多的信息发布平台,只要将数据管理系统联入网络并发布 其元数据,便可以通过我们的服务平台进行数据发布。通过基于语义的数据描述和数据 字典,建立数据逻辑视图,使分散的数据服务的按需动态组合,而应用能够“点播数据”、 “各取所需” 4 】。如果结合g i s 处理服务,用户则可以将需要的空间处理服务和空间数 据服务集成为松散耦合式应用系统。 1 2 国外研究现状 国内外对空间数据管理及服务的研究一直非常重视,前辈学者和工作者对此进行了 大量的研究,研究的重点主要包括以下几个方面:异构空间数据管理与集成、空间数据 格式转换、数据服务技术。 , 5 第一章绪论 1 2 1 异构空间数据管理与集成 一直以来空间数据管理技术与计算机数据处理和数据库技术发展密切相关。进入9 0 年代以来,数据库理论发生了比较大的发展,从关系型数据库向对象关系型数据库、对 象型数据库发展;数据库管理从传统的集中式向分布式、多数据库系统管理、数据仓库 和联邦数据库发展 5 】。在数据处理和数据库领域也出现了需要异构多数据库互操作的要 求,我们很自然的将目光注意到数据处理和数据库领域新的理论和方法。在计算机数据 处理与数据库领域,存在着将原来的层次数据库、关系数据库、对象数据库等不同模型 的异构数据库进行综合应用的问题 6 】,由这些问题也引发了数据库领域对异构数据库系 统的研究和探讨。空间数据库的具体实现是建立在一定的数据库系统基础上的,因此, 异构空间数据库的管理也应该能够从异构多数据库系统的理论和方法中得到启发。 但由于空间数据尤其是矢量数据在数据结构定义方面受到数据所有者或不同标准的 影响,在存储格式上受到不同信息处理系统或管理系统的影响,造成其异构的程度和广 度都比一般的属性数据要更深远,因此异构空间数据的管理与集成技术较之其他数据的 管理与集成技术要更为复杂。 信息集成技术已经历了2 0 多年的发展过程,研究者已提出了很多信息集成的体系结 构和实现方案,起初这些方法所研究的主要集成对象是传统的异构数据库系统。但是随 着i n t e r n e t 的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其是在 w e b 上,有着极其丰富的数据来源,如何获取w e b 上的有用数据并加以综合利用,即构 建w e b 信息集成系统,也成为一个引起广泛关注的研究领域 1 0 - 1 2 】。 目前,针对异构空间数据的特点,异构空间数据集成管理主要采用直接法、集成视 图法 2 8 】和w r a p p e r m e d ia t o r 2 1 法: ( 1 ) 直接法利用数据仓库将空间信息实现物理集成,形成具有统一模式的信息源, 为用户提供空间信息,实现异构空间信息的共享。在数据仓库方法中,各数据源的数据 按照需要的全局模式从各数据源抽取并转换,存储在数据仓库中用户的查询就是对数 据仓库中的数据进行查询。 对于数据源数目不是很多的单个企业或者数据结构一致性较高的情况来说,该方法 十分有效。目前主要应用于银行、电信、商业、水利、电力、医药等数据结构一致性较 强的行业。该方法的缺点是数据源数目较多或出现跨企业应用时,数据抽取和转化太复 6 第一章绪论 杂,存在诸多不便 1 5 1 8 :且当异构信息源发生变化( 如增添或删除) 时,集成的信息 源中的数据和模式要进行相应的修改,会出现信息更新不及时、重复存储等情况,信息 源难以维护,所以实用性不高。 ( 2 ) 集成视图法仍保持空间信息源的分布自治,仅增加了一个虚拟的集成视图以及 这个视图与真实信息的映射关系;用户可以通过虚拟视图直接了解到需要的空间信息的 存储位置、存储方式等情况,然后从信息源获取需要的空间信息。例如联邦数据库技术, 联邦数据库是由一组相互协作的同时保持自治的多个成员数据库组成,这些成员数据库 系统可以不同程度的集成 2 0 】。在不改变不同来源的各空间数据库的前提下,将非均质 的空间数据库连成一体,形成联邦式的空间数据库管理体系,并且向用户提供统一的视 图。 这种方法不需要重复存储大量数据,并能保证共享的是最新信息,适合高度自治且 信息变化快的异构空间信息共享。但是当信息源发生频繁变化时,虚拟视图会变得难以 维护。目前许多具有海量异构数据的单位采取了这种方法,如“2 0 0 5 年由e p s r c 资助的 伦敦大学皇家学院和b ir k b e c k 学院联合进行的利用b o t ha sv i e w ( b a v ) 方法进行数据 集成的“a u t o m e d 颂目研究,法国的旨在研究网络自治异构信息集成的c a r a v e l 项目( e r i c s i m o n ) ,中科院资源环境数据交换与共享系统”等。 ( 3 ) w r a p p e r m e dia t o r 法:该方法并不将各数据源的数据集中存放,而是通过 w r a p p e r n e d i a t o r 结构满足上层集成应用的需求。概念上,这类系统和联邦数据库( 或 者多数据库) 很接近。它们支持建立于异构数据源之上的统一视图( 通过采用公共的数 据模型) 2 5 2 6 】。多数据库系统一般是基于客户服务器模型,并采用像c o r b a 或c o m 之类的中间件连接客户端和服务器端。而基于中介的系统则基于一种3 层的体系结构: 底层为带包装器( w r a p p e r ) 的数据库;中间层称为中介器( m e d i a t o r ) ,用于支持数据 库和应用之间查询与结果的交换;上层为应用用户接口层。这种系统的优点是模块化和 具有可扩展性。它们支持对来自不同数据源的查询结果的融合,而不是直接对各个数据 源的数据进行融合。此外,中介器采用半结构数据模型,便于模拟无结构或隐含结构的 数据源。这种方法的核心是中介模式( m e d i a t e ds c h e m a ) 3 0 。信息集成系统通过中 介模式将各数据源的数据集成起来,而数据仍存储在局部数据源中,通过各数据源的包 装器( w r a p p e r ) 对数据进行转换使之符合中介模式。用户的查询基于中介模式,不必知 道每个数据源的特点,中介器( m o d i a t o r ) 将基于中介模式的查询转换为基于各局部数 7 第一章绪论 据源的模式查询,它的查询执行引擎再通过各数据源的包装器将结果抽取出来,最后由 中介器将结果集成并返回给用户。 目前此种方法结合w e bs e r v i c e s 和p 2 p 技术的应用正逐步成为热点,如2 0 0 2 年瑞 典的乌普萨拉大学数据库实验室( u d b l ) 研究的集成异构分布教育数据的a m o si j 系统, 2 0 0 2 年美国的旨在研究生命科学数据管理的b i o f a s t 项目( z o el a c r o i x l o u i q a r a s c h i d ) 等。 近几年,国内外的研究人员对基于n e d i a t o r 1 | | r a p p e r 的数据集成系统进行了广泛的 研究,提出和研制开发了一些原型系统。下面对几个典型的系统进行简单介绍。 ( 1 ) y a t 6 0 :它是一个典型的基于m e dia t o r w r a p p e r 的数据集成系统。该系统 由b e l l 实验室和i n r i a 共同开发。y t 提供了一种基于规则的表达能力很强的框架结构, 能够将映射表示为一般的树变换。y a t 能够集成多种异构数据源( 从传统的关系数据库系 统到半结构化的w e b 存储) ( 2 ) i m 5 9 :美国a t & t 贝尔实验室研究开发的一个原型系统。i m 采用一种称为 c a r i n ( h o r n 规则与源于c l a s s i c 描述逻辑概念的结合) 的描述逻辑,这种逻辑是一阶 逻辑的一部分,i m 采用知识表示法来集成各种数据源。l m 的体系结构基于一个知识库, 这个知识库包含一个能够描述信息资源属性的域模型。域模型包含信息主题的描述,与 数据源物理特性有关的属性。数据被描述为w o ri dv i e w 之上的一个视图,所有查询视图 都是根据一组全局谓词描述的。 ( 3 ) t s i 洲i s 5 8 :美国s t a n f o r d 大学与i b m 联合开发的一个数据集成系统。该 系统采用了自描述的对象交换模型o e m ( o b j e c te x c h a n g em o d ei ) 。o e m 允许简单的 对象嵌套,信息并不用o e m 存储,o e m 用于处理逻辑查询,然后返回查询结果。o e m 采用 一种称为m s l ( m e d i a t o rs p e c i f i c a t i o nl a n g u a g e ) 的查询语言中介器和包装器用 m s l 描述,而且这些组件可以通过m s l 规格说明自动生成。t s i m m i s 需要较多的人工干预, 自动化集成程度低。在此系统的基础上,该大学数据库研究小组又开发出了半结构化数 据管理系统l o r e 。该系统采用了l o r e l 查询语言( 在原查询语言的基础上做了很大的改 进) 。 ( 4 ) o z o n e 5 7 :o z o n e 是s t a n f o r d 大学开发设计的一个集成模型。该模型通过 对面向对象数据库的o d m g ( o b j e c td a t a b a s em a n a g e m e n tg r o u p ) 模型进行扩展,来对 结构化和半结构化数据进行集成。o z o n e 系统特别适合处理异构数据,尤其是广泛应用于 w e b 上的数据。 第一章绪论 w r a p p e r m e d i a t o r 方法解决了数据的更新问题。但是,由于各个数据源的包装器是 要分别建立的,因此,w e b 数据源的包装器建立问题又给人们提出了新的挑战。 此外,这种框架结构还受到来自三个方面的挑战 5 4 】。第一个挑战是如何支持异构 数据源之间的互操作性( i n t e r o p e r a b ii t y ) 。信息集成必须在多至数百万的信息源上穿 梭进行,这些数据源的数据模型、模式、数据表现和查询接口各不相同。数据库界已经 对联邦式的数据系统做了多年的研究,然而,语义的相异性这个痛苦的问题依然存在。 由不同人设计的任何两个模式都不会是相同的。它们会有不同的单位( 例如工资,一种 以欧元计算,而另一种以美元计算) ,不同的语义解释( 也以工资为例,一种仅指档案工 资,而另一种是指包含了各种津贴的总收入) ,对于相同的事务还会有不同的名字( 对同 一个人,可能一种用的是笔名,而另一种用的是原名,例如鲁迅和周树人) 。能够在网络 标准上进行配置的语义相异性的解决方案依然是难以捉摸的。我们必须认真和集中地对 待这个问题,否则跨企业的信息综合只会停留在幻想上语义w e b 的上下文方面的研究 也存在着相同的问题。吸收相关领域的研究成果对解决这一问题是很重要的。 另一个挑战是如何模型化源数据内容和用户查询。目前广泛采用的技术有两种。l a v ( i o c a i - a s l ,i e w ) 方法利用全局谓词集合描述多个数据源内容视图和用户查询。当给定 某用户查询时,中间件系统通过综合不同的数据源视图决定如何回答查询。这种方法可 看作利用视图回答查询,目前已有一些研究成果,它亦可应用于数据仓库或查询优化等 领域。g a v ( g l o b a i - a s - v i e w ) 方法假设用户查询直接作用于定义在源数据关系上的全局 视图 3 卜3 4 。人们主要关注的是在这种情况下如何提供高效的查询处理。 第三个挑战是当数据源的查询能力受限时,如何处理查询和进行优化。例:a l f l a z o f l 。 g o f r l 数据源可以被看作是提供书的信息的数据库,但是,我们不能随便下载其上所有的 书籍信息。事实上,我们只能填写w e b 搜索表格查询数据源并返回结果。很少的组织会 允许外部实体来抽取自己运行系统中的所有数据,所以这些数据必须留在源端,在查询 的时候才会被访问。如何模型化和计算具受限查询能力的数据源,如何生成查询计划和 优化查询的研究工作正在展开 5 5 - 5 7 。 1 2 2 地理标记语言( g e o g r a p h ym a r k u pl a n g u a g e ,g m l ) 地理信息系统经过近四十年的发展,几乎在所有与空间信息相关的领域得到了广泛 应用,同时也积累了大量的空间数据但是,长期以来由于对地理世界的描述缺乏统一 9 第一章绪论 的标准,不同的g i s 软件厂商对同一地理实体或地理现象的描述不一致,而空间数据又 宿主于不同的g l s 软件平台、不同的数据模型等,导致不同格式的空间数据无法无损的 共享,形成一个个的“空间数据孤岛” 3 5 - 3 7 。目前空间数据共享迫切需求不同格式的 空间数据必须能够互相转换。但是如何转换呢? 由一种格式的数据直接转换成另一种格 式,也就是在没有作为中间媒介的标准格式的参与下,两种数据格式直接互相转换的情 况( 如图1 - 1 所示) ,每种格式转换到其他格式都需( n - 1 ) 种转换方法,总共需要n 幸( n 一1 ) 种方法;而在有标准格式作为中间媒介的参与下( 如图1 - 2 所示) ,每种格式仅需2 种转 换方法,共需2 n 种转换方法。在g i s 软件平台和数据模型如此纷杂的当今,同时考虑各 厂商在商业利益驱动下对于自己格式的保密性,这两种转换方式孰优孰劣一目了然。 1 0 图i - 1 各种数据格式直接互相转换 f i g l 一1d i r e c tt r a n s i t i o no fd i f f e r e n td a t af o r m a t 第一章绪论 图1 - 2 各种数据格式仅与标准格式进行转换 f i g l 一2t h et r a n s i t i o no f d i f f e r e n td a t af o r m a ta n ds t a n d a r df o r m a t 就此,要解决空问数据共享问题,关键是要解决g i s 数据建模标准问题。许多国家 对g i s 标准化的研究产生了诸多g l s 数据交换的标准规范:它们包括s d t s ( 美国) 、f e i v ( 法国) 、a l k ( 德国) 和s a i f ( 加拿大) 3 8 - 4 0 ;各g l s 软件厂商也提出了一些公开 的交换文件格式或商业空间数据交换标准来进行空间数据的转换:如e s r le 0 0 文件、 s h a p e r il e s 、m a d l n f o 的m i f m l d 和a u t o c a d 的d x f 。但这些标准规范由于缺少相应的 支持工具,而没有被广泛接受。 目前最具发展力的标准是地理标记语言( g e o g r a p h ym a r k u pl a n g u a g e ,g m l ) ,它是 由开放地理信息系统协会( o p e n g i sc o n s o r t i u m ,o g c ) 于1 9 9 9 年提出的,为g i s 空间 数据的建模、传输和存储提供了统一的框架。g m l 使用x m l 对地理数据进行编码,为开发 商和用户提供了一种开放的、中立于任何厂商的地理数据建模框架,使地理信息能够在 不同领域、不同部门进行语义共享 9 。由于g m l 建模具有易扩展性、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论