




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)面向空间数据集成的xml数据源wrapper技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 伴随着计算机技术、特别是网络技术的飞速发展,用户所能接触到的空间数 据量迅速增加,但由于与数据相关的应用平台、数据库产品以及通信协议等方面 的差异,使得各个数据源之间的互操作变得复杂、困难。如何帮助越来越多的用 户获取最为及时、最为准确的地理信息,实现地理数据的共享和交换,成为空间 数据集成领域研究的主要问题。 本文在分析了地理数据集成的相关问题、主要模式和发展方向的基础上,介 绍了一个空间数据集成系统的设计思想。该系统采用了以x m l 、g m l 作为数据 模型,以扩展的x q u e r y 语言作为查询语言的方法,构建面向空间数据的信息集 成系统。系统采用m e d i a t o r - w r a p p e r 的体系结构,能够集成关系型数据源、x m l 文件型数据源和基于因特网的w e bs e r v i c e 数据源。 作为系统的重要组成部分,x m l w r a p p e r 的处理成为影响集成系统查询性能 的重要因素。本文介绍了e a g e r 型x m l 解析器的设计和实现方法,并将延迟求 值技术的原理与x m l 处理相结合,描述了l a z y x m l 解析器的基本结构、x m l 文档在内存中的表示方法以及构造虚拟x q u e r y 对象模型的机制。 最后实现了x m l w r a p p e r 和w e bs e r v i c ew r a p p e r ,并集成在系统中,用来验 证数据集成框架和x m l 解析器的设计方案,并把研究的成果推向实际应用。 关键字:x m l 延迟处理、x q u e r y 数据模型、地理数据集成 。,。,。,。i 堡:型生冀王耋i l ;:堡。,。,。,。,。,。:。 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , e s p e c i a l l yt h ed e v e l o p m e n t o fn e t w o r k ,t h eu s c p 3e 强猫e 。s sm o r ea n dm o l ed a t a , w h i c hc a r lb er e g a r d e da s 戳 i m m e n s ep o t e n t i a li n f o r m a t i o ns e t 。t h ei n f o r m a t i o ni sa c c e s s i b l ev i am u l t i p l ed i v e r s e i n f o r m a t i o ns y s t e m s ,s u c ha st r a d i t i o n a lr e l a t i o n a ld a t a b a s es y s t e m s ,f i l es y s t e m sa n d w e bs e r v i c e s ,i n c l u d i n gs t r u c t u r e dd a t a , s e m i s t r u c t u r e dd a t aa n dn n ,s t r u c t u r e dd a t a 。 b e c a u s eo ft h e d i f f e r e n c ei na p p l i c a t i o np l a t f o r m s ,d a t a b a s em a n a g e m e n ts y s t e m p r o d u c t sa n dc o m m u n i c a t i o np r o t o c o l s 。i ti sh a r d 幻u s eh e t e r o g e n e o u si n f o r m a t i o n s y n t h e t i c a l l y h o wt oh e l pt h eu s e r st og e tt h el a t e s t ,a p p r o p r i a t ei n f o r m a t i o n ,a n dh o w t os h a r ea n de x c h a n g et h ed a t aa r e t h ec h a l l e n g e si ni n f o r m a t i o ni n t e g r a t i o nf i e l d + t h i sp a p e ra n a l y s e sk e yp r o b l e m s ,m a i nm e t h o d sa n dr e l a t e dd e v e l o p m e n ti n s p a t i a ld a t ai n t e g r a t i o n ,a n dd e s c r i b e sas p a t i a ld a t ai n t e g r a t i o ns y s t e m t h i ss y s t e m c h o o s e sx m l g m la st h ec o m m o nd a t am o d e l ,t a k e st h ee x t e n d e dx q u e r yl a n g u a g e a st h eq u e r yl a n g u a g e ,i ti sb a s e do nt h em e d i a t o r - w r a p p e ra r c h i t e c t u r e ,p r o v i d i n gt h e a c c e s st or e l a t i o n a ld b m s ,x m lf i l e sa n dw e bs e r v i c e s a sa ni m p o r t a n tp a r to ft h i si n t e g r a t i o ns y s t e m ,t h es p e e da n dq a m i 砉yo f p a r s i n g x m lf i l e sa r cs i g n i f i c a n tp e r f o r m a n c ec h a r a c t e r i s t i c s t h i sp a p e ri n t r o d u c e sad e s i g n a n di m p l e m e n t a t i o no fe a g e rx m l p a r s e r i ta l s od e s c r i b e st h ea p p r o a c ht oa g el a z y e v a l u a t i o nt e c h n o l o g yt ob u i l dal a z yx m l p a r s e r i td e s c r i b e st h eg e n e t i ca r c h i t e c t u r e o f l a z y x m l p a r s e r , t h e i n t e r n a ls t r u c t u r e i n t h e m e m o r y o f x m l f i l e s m i d t h e w a y t o b u i l dv i r t u a lx q u e r yo b j e c tm o d e l , f i n a l y , t h i sp a p e rp r o v i d e st h ei m p l e m e n t a t i o no ft h ex m lw r a p p e ra n dw e b s e r v i c ew r a p p e r , w h i c ha r ei n t e g r a t e di nt h es p a t i a ld a t ai n t e g r a t i o ns y s t e m ,t o v a l i d a t et h ec o r r e c t n e s so ft h es p a t i a ld a t ai n t e g r a t i o ns y s t e mf r a m e w o r ka n dt h e x m l w r a p p e ra r c h i t e c t u r e , a n df o r w a r d st h er e s u l t so f t h i sr e s e a r c ht ot h ea p p l i c a t i o n i np r a c t i c e k e y w o r d sx m ll a z yp r o c e s s i n g ;x q u e r yd a t am o d e l ;d a t ai n t e g r a t i o n 1 1 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其 它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 2 帕5 莎1 工 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的 全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 躲扭翩魏和吼一己 第1 章绪谂 1 1 姘究目的和意义 第1 章绪论 伴随着计算机技术、特别是网络技术的飞速发展,用户所能接触到的数据量 迅速增加,这就构成了个巨大的潜在信息霹。数据源的组成形式多种多样,包 爨袋绞瓣、关系数獯露黧瓣结毒毒讫数据,文磐系统臣及h t m l 、x m l 等半结稳 化数据,甚至是非结构化数据。但由于应用平台、数据库产品以及通信协议等方 面的差异,使得各个数据源之间的互操作变得复杂、困难,这就形成了“信息孤 岛”。“信息孤岛”不仅增加了维护数据的开销,而且可能会影响到决策的正确性。 翔褥帮韵越来越多豹冠户获取最为及瑟寸、最为缑镶嚣售息,实臻数攘共享和交换, 成为数据集成领域研究靛主要离题。 对于g i s 应用而言,地理信息的采集、存储和处理涉及到多个部门和组织机 构,每个部门都有自己的数据库服务器或者怒数据文件。由此导敬地理数据分属 予不翻的机构部门,它 f 的数据格式、语义期使用接口各有不同,面且它们更毅、 维护黪频率毽不一蒙,遮藏形成了一个匿大并登复杂懿异稳数攥环壤。邵霞秘簌 在数据之上的应用系统实现的功能大同小辩,但不同部门间的系统交互非常困 难,容易造成重复开发和资源浪费。而地理信息集成系统的目标就是屏蔽由多个 分布的、异构的数据源给数据共享带来的麓鼯,实现对领域内数据源的透明访问。 一令完整戆遣瑾慧惑簇袋系统要戆够撬袋对分毒楚、舅兹貔遗瑾售惠匏统一 接口,提供高效的空闻僚怠查询服务。一方蕊,数据集成平台掇供对底层数据源 的统一视图描述,使得处于不同环境、分布存放的各种专业和行业地理信息库能 够协阔工作,互相配合、互相补充。另一方顾,使得用户能够快运准确地定位、 获取并锭雳毽嚣j 所关心静窆阉售息。用户不必考虑数据模型的努兹往、数据演理 襄数攥合成等问题,只嚣装指定链稍想要救数据,丽不必赭述怎祥获取这些数蕹。 同时,数据集成系统还需要提供针对集成数据视图的管理、模式更新、全局查询 处理镣功能,完成从实际数据到集成视图的转换。 北京工业大学王学硕士论文 1 2 研究现状与发展趋势 1 2 。1 国内外研究现状 目前,在数据集成领域融经有一些公司推出了较为成熟的系统方案或产品, 下面对几个具有代表性的系统进行简要介绍。 l 。璐d b 2i n f o r m a t i o ni n t e g r a t i o n 在数据集成方面,国m 公司的d b 2 一直郜箍予氆界领先遣彼。2 0 0 0 年,l 蟊m 在d b 2 中集成d a t aj o i n e r 组件,提供对数据联邦( d a t af e d e r a t i o n ) 的支持。从 2 0 0 1 年到2 0 0 4 年,m m 逐渐拓宽d b 2 数据联邦的功能,将x m l 、w e b 服务和 全文检索等先进技术部分的应用其中【2 1 捌。目前d b 2i n f o r m a t i o ni n t e g r a t o r 已经 缆够犍关系数据库、x m l 文档、文本文档、图像、视频剪辑、薪闻、w e b 内容、 瞧子郯件移三维数撂等集成在售息共享平台上,并能够帮助客户即时访翘、篱理 和分析存储于企娃平台主匏各类信惑。 图1 - 1i b md b 2 信息集成框架o 。1 如网l - 1 所示,i b md b 2i n f o r m a t i o ni n t e g r a t o r 信息集成框架有助于客户实 肘访闽、操 乍和集成各种不同的分布式数据0 2 0 1 。该软件主要包括: 珏 醚d b 2i n f o r m a t i o ni n t e g r a t o rv 8 。1 - 2 一 第1 章绪论 i b md b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n tv 8 2 d b 2i n f o r m a t i o ni n t e g r a t o r 能够联邦、搜索、高速缓存、转换和复制数据, 适合于主数据源为关系数据、另外还添加了x m l 、w e b 服务或其它内容的项目。 d b 2i n f o r m a t i o ni n t e g r a t o r 构建在d b 2 通用数据库之上,其服务对象是熟悉关系 数据库应用程序开发的用户。用户可以通过联邦数据服务器使用s q l 应用程序 或s q l 生成工具( 比如集成开发环境、报告生成和分析工具等) 访问和操作各 种不同的分布式数据。在d b 2 中使用到了以下的关键技术来提高集成性能: 代理的搜索体系结构。在查询中不创建或维护中心索引,而是生成若干 扩展搜索代理,将完整的查询语句转换成针对目标数据源的查询语句。 而目标查询访问仍旧是通过标准s q la p i 完成的。 查询重写。在分布式查询优化中,查询重写阶段将用户撰写的原始查询 转换为语义相同的形式,以改善性能。重写器能够识别底层数据源,并 可设置对于某个特定数据源的可用性。 下沉分析( p u s h d o w na n a l y s i s ) 。查询不仅仅被分解到各个物理数据 源上,在查询处理中还要确定每个后端服务器计算查询结果的时间,并 估算在d b 2i n f o r m a t i o ni n t e g r a t o r 系统上需要进行多少补偿性处理。 联邦高速缓存。系统提供给管理员管理跨关系数据库集成视图的高速缓 存功能。优化器可以自动将查询发送到高速缓存,以便满足某些查询。 d b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t 提供以内容为中心的应用程序的联邦 访问,它的服务对象是需要在大量“内容源”( c o n t e n ts o u r c e s ) 中搜索和访问文 本及非文本信息的应用程序开发人员。 d b 2i n f o r m a t i o ni n t e g r a t o r 能够使客户把各种不同的分布式数据和内容源抽 象成公共数据模型,并使客户将它们当作单一源进行访问和操作。 2 b e al i q u i dd a t af o rw e b l o g i c8 1 b e a 系统公司发布的“l i q u i d d a t af o r w e b l o g i e8 1 ”,借助应用视图实时地 集成异构数据源,如关系数据库、x m l 文件、w e b 服务以及组装和定制应用等, 实现了信息的可视化。 图1 2 展示了l i q u i dd a t a 软件的体系结构”】。l i q u i dd a t a 服务器作为 北京工业大学工学硕士论文 w e b l o g i c 服务器运行( l i q u i dd a t a 部署为w e b l o g i c 服务器上的j 2 e e 组件) 。 在查询执行时刻,客户端应用向l i q u i dd a t a 服务器发出请求,执行预先存储在 查询队列中的或是其它实时的查询语句。查询处理器将一条x q u e r y 查询请求翻 译成分布的、优化的查询计划( 在查询编译时刻) 。这一过程包括解析、分析、 分解和优化以便确定查询语句使用到的下层数据源集合,然后生成目标查询序 列。最后,l i q u i d d a t a 服务器把从各个下层数据源返回的查询结果组合构造成单 一的x m l 结果,并返回给客户端应用。 图1 - 2l i q u i dd a t a 系统结构 l i q u i dd a t a 使用x q u e r y 语言针对集成后的x m ls c h e m a 模型进行查询,该 集成后的模型包含了企业不同的数据源。通常情况下,集成的虚拟数据库视图模 型是由数据工程师预先定义的。 l i q u i dd a t a 查询处理器在设计的时候就考虑到执行多源查询的效率问题。 l i q u i d d a t a 采用到的关键处理技术包括分布查询处理技术和高效的连接操作等。 s q l 下沉。当要获取关系型数据的时候,l i q u i dd a t a 尽量将查询处理“下 沉”( p u s h d o w n ) 到底层的关系数据库管理系统中,使得各关系数据库 管理系统有机会优化与自己系统相关的那一部分数据查询。同时,每个 数据源返回的中间结果集的大小也可以控制在一个有限的范围内。 第1 章绪论 并行的数据源请求:l i q u i dd a t a 查询引擎使用并行处理机制来减少函数 型数据源的查询处理时间,如远程w e b 服务调用等。l i q u i dd a t a 服务器 包含了一个请求控制器,由请求控制器负责控制若干个独立的异步函数 调用线程池。这样就减少了引擎的等待时间,提高了查询性能。服务器 力图生成能够并行处理的查询计划,同时针对一个查询计划尽可能地构 造并行的调用序列。 查询结果缓冲。l i q u i dd a t a 可以设定若干个基础查询,基础查询的返回 结果都会被保存在缓冲数据库当中,并以查询参数作为索引。这一策略 对于那些经常被使用到的、结果比较稳定的查询来说是有效的。 l i q u i d d a t a f o r w e b l o g i c 使得集成来自分布式系统的数据变得简单易行,从 而使开发人员能够无需通过复杂的数据结构、关系或语法即可访问和共享业务实 体。l i q u i dd a t af o rw e b l o g i e 是充分利用了x m l 标准和w e b l o g i cs e r v e r 等产品 安全、群集和管理特性的一种企业级数据集成解决方案。 3 地理信息集成系统 在地理信息集成方面,研究工作也取得了众多成果。美国南加利福尼亚大学 c r a i g 领导的小组,他们的g e o s p a t i a ld a t ai n t e g r a t i o n 项目偏重于处理从网上获得 的数据:北京大学的一个研究小组搭建了p k u a p p l i c a t i o n si n t e g r a t i o ns y s t e m 的 框架,主要是结合w e bs e r v i c e s 技术和g m l 技术,集成数据和应用。地理信息 集成产品也陆续的投入实践。例如i n t e r g r a p h 公司的g e o m e d i a ,该产品能够将多 个异构数据源集成为单一的g i s 环境,以便用户浏览、分析和更新。g e o m e d i a 的数据服务技术支持绝大部分的地理信息存储相关标准,并提供一整套包括属性 查询、图层显示和空间分析的工具。还有中国科学院地理信息产业发展中心开发 的s u p e r m a p ,该产品基于开放的地理信息服务( g e o g r a p h i ci n f o r m a t i o ns e r v i c e s ) 标准提供g i s 基础软件平台,包括组件式g i s 开发平台、网络g i s 开发平台、 嵌入式g i s 开发平台,并在交通管理、城市规划和空间分析等领域得到了广泛应 用。 北京工业大学1 二学硕十论文 1 2 2 地理数据集成的发展趋势 随着网络技术的飞速发展,用户通过i n t e m e t 快速、准确地获取和共享地理 信息已经是大势所趋。地理数据集成的相关研究呈现出以下的发展趋势 3 4 j : 1 网络化。 数据的分布式特征及项目需求的多元化,使得集成应用涉及到的部门、内容 越来越多,这就要求系统在集成中能快速存取物理上分布于各个节点的数据;同 时,各类网络硬件的建设也为空间数据集成提供了新的发展条件。 2 集成规范、标准的研究。 计算机技术、网络技术、x m l 技术的发展只是为地理数据集成提供了可能 性,而集成的真正实现与数据自身特征是分不开的。目前,有关空间数据表达、 组织、抽象层次、转换和传输等问题的规范,仍旧在研究阶段。基于认知科学、 地学的集成机理、集成规则标准、普遍意义的集成方法等仍将是数据集成研究的 主流。 3 数据集成系统和相关学科研究的融合。 地理数据集成系统不再是以单一的数据聚合为目标,它的发展和相关学科的 发展相辅相成。以和数据挖掘的结合为例,集成系统中可能会使用到或者总结出 诸多知识规则,如何将这些知识规则转化成用户可操作的专家系统成为有实用价 值的研究方向。 1 3 课题来源与内容 按照国务院提出的政务信息化带动企业和社会信息化的策略,作为国家电子 政务示范工程的组成部分,北京市正在组织实施北京市电子政务试点示范工程, 建立政务专网,计划为发展跨部门、跨地域的电子政府应用系统提供安全平台和 应用支撑平台,服务于各个单位之间的协同办公、信息共享与信息交换。 本课题“面向空间数据集成的统一数据查询语言的研究”作为自然科学基金 项目,研究目的在于设计和实现地理信息集成系统的数据查询语言和支撑环境, 并进一步将其技术核心应用于通用数据集成、应用集成软件。 第1 章绪论 本人的工作包括: 1 1 分析和研究x m l 、x q u e r y 以及x q u e r y 数据模型; 2 ) 参与面向空间数据的信息集成系统的研究和整体设计; 3 ) 设计并实现了该信息集成系统中的x m l w r a p p e r : 4 1 设计并实现了该信息集成系统中的w e bs e r v i c ew r a p p e r : 本文的组织结构如下所示: 第一章,简要介绍数据集成、空间数据集成的研究耳的、意义,研究现状和 发展趋势,以及课题的相关情况。 第二章,阐述面向空间数据的信息集成系统的设计思想及系统架构。 第三章,介绍x q u e r y 数据模型的基本内容和设计接口。 第四章,讲述面向空间数据的信息集成系统中x m lw r a p p e r 的设计思想, 包括e a g e r 型和l a z y 型x m l 解析器的设计方案。 第五章,讲述面向空间数据的信息集成系统中x m l w r a p p e r 的实现方法。 第六章,讲述面向空间数据的信息集成系统中w e bs e r v i c ew r a p p e r 的设计 思想和实现方法。 最后,对工作做出了总结。 北京工业大学工学硕士论文 2 1 系统设计思想 第2 章系统设计方案 2 1 1 空间数据集成的主要问题 空间数据集成的研究重点和传统的数据集成问题相一致3 1 3 3 】,包括以下几 方面: 1 异构性。异构性是地理数据集成系统必须解决的首要问题。地理数据的来源 多种多样,可能是结构化的关系数据库,也可能是半结构化的x m l 文件, 还可能是w e bs e r v i c e s 的调用结果或者其它类型的电子表格等;即便都采用 关系数据库作为存储模式,各个厂家的数据库管理系统产品也存在着差异。 例如o r a c l e 和s q ls e r v e r 的数据类型就不是完全一致的。 2 集成性。异构数据源数据集成的目的是为应用提供统一的访问支持,所以要 选择适当的数据模式作为统一模型。用户的综合信息查询将是对集成后的数 据模式进行的( 用户看到的既可以是物理数据,也可以是逻辑视图) ,而不必 再到各个子系统中分别进行查询和处理。 3 语义冲突。信息资源之间存在着语义上的区别,这些语义上的不同成为潜在 的数据矛盾。从简单的名字语义冲突( 不同的名字代表相同的概念) ,到复杂 的结构语义冲突( 不同的模型表达同样的信息) 。语义冲突会干扰数据的处理、 发布和交换,并带来数据集成结果的冗余。所以尽量减少语义冲突也是数据 集成的一个研究重点。 4 约束。在数据集成的过程中,除了单个数据源本身的约束信息以外,多个数 据源的数据之间可能存在着某种联系。例如,保存在不同机构数据库中的关 于同一地区的位置信息描述,就可能存在一定的逻辑联系。这种逻辑联系附 加到集成结果中就称为附加约束。 5 性能。信息集成系统提供的综合查询服务对传统数据集成方法提出了更高的 第2 犟聚统设诗方案 标准。为了能在用户可以忍受的时间内返回鸯询结果,这就对系统的体系结 构、查询语言的优化、查询引擎的效率和数据转换方法等提出了更多要求。 除此之辩,遗瑾信惑集藏还会遭到数摇菠溪投蔽、安全控翻簿蠲遂。事实上, 这些问题相互联系、相互制约,只有用综合的、联系的观点看特这些问题,才可 能解决。 2 1 2 地理数据集成的主要模式分析 要实瑷遮瑾痿患醵共享,盛须麟决雾稳数据源窝异憨数据之阗豹众多差黪。 目前,多源地理数据集成的主要模式有以下三种2 7 8 】: 1 格式转换模式。 为了蘩成不强类型浆数螽,籍爨蠢豹、其它爨式戆数豢经:j 霪专门懿鼗撵转换 程序,变换为新的、符合集成要求的数据类型,并移植到新的数据仓库中来。许 多g i s 软件为了实现和其它系统的数据交换,制订了明码的交换格式。例如 a r c i n f o 懿e 0 0 榜式、a r c v i e w 兹s h a p e 格式、m a p i n f o 静m i f 褥式等。数据转换 模式的缺点显而易见,由于不同数据格式描述空间对象时采用的标准不同,因而 转换后的数据不能完全准确的表达原有数据的信息,还可能造成部分的信息丢 失。镶蟊m a p i n f o 熬t a b 文件转换弱a r c l l n f o 静c o v e r a g e 莸会丢失线形、颜氇 等与显示相关的属性,而且a r c i n f o 采用了拓扑数据结构,m a p i n f o 则是非拓扑 的数据结构,转换后还需要额外进行拓扑重建等处理工作。 格式转换模式( 瑟傻弼单一的数攥仓库) 集藏愿惩比较篱攀,集成系统有统 一的数据模型,不用考廉分布数据的转化和统一。但是,它存在一系列的问题: 首先,构建这样一个集中式蚊系统需爨很长的开发周期,要求鸯赢性能鲍主枫设 备作为硬件支持,实现代价较高;其次,系统的扩展和维护滋较溺难;雨且一个 集成系统将无法共享另一个集成系统的模块。 2 。数据要搽传摸式。 g i s 互操作是指在舜构数据库和分布计算的情况下,g i s 掰户在相互理辫的 基础上,能逶明的获取所需的信息。该模式是由o p e n g i sc o n s o r t i u m ( o g c ) 制 定数麓范,放瑟馕雩导一个系统支持不闲戆空闫数撼揍式残为可戆。o g c 援藏基 北京工业大学工学硕士论文 于o m g 的c o r b a 、m i c r o s o f t 的o l e c o m 以及s q l 等,为实现不同平台间服 务器和客户端之间数据请求和服务提供了统一的协议。o g c 标准将g i s 带入了 开放的时代,但它主要是针对那些采用了o p e n g i s 协议的空间数据服务系统和 空间数据客户系统,对于非o p e n g i s 标准的系统还缺处理规范。 数据互操作模式在应用中也存在一定局限性:首先,为真正实现各种格式数 据之间的互操作,需要每种格式数据的宿主软件都按照统一的规范实现数据访问 接口,这在短时期内还不能完全实现:其次,集成系统访问物理数据源时是通过 数据服务器实现的,这个数据服务器实际上就是被访问数据格式的宿主软件,也 就是说,用户必须同时拥有这两个g i s 软件,并且同时运行才能完成数据互操作 过程。 3 直接数据访问模式。 直接数据访问指在一个g i s 系统中实现对其它软件数据格式的直接访问,用 户可以使用单个g i s 系统存取多种数据格式。该模式不需要改变原始数据的存储 和管理方式,而是在异构数据源( 数据层) 和应用程序( 应用层) 之间提供中间 层3 2 ,如图2 一l 所示,向下协调各数据源,向上为访问集成数据的应用提供统一 的数据模式和数据访问接口。 数据管理模块 s d m s ls d m s 2s d f s i 空间数据库1空间数据库2空间数据文件 图2 - 1 直接数据访问模式 目前使用直接数据访问模式实现多源数据集成的系统主要有两个,即 i n t e r g r a p h 公司推出的g e o m e d i a 系列软件和中国科学院地理信息产业发展中心 研制的s u p e r m a p 。g e o m e d i a 实现了对大多数g i s c a d 软件数据格式的直接访 问,包括m g e 、a r c i n f o 、f r a m e 、o r a c l es p a t i a l 、s q ls e r v e r 、a c c e s sm d b 等。 第2 章系统设计方案 s u p e r m a p2 0 则提供了存取s q l s e r v e r 、o r a c l es p a t i a l 、e s r is d e 、a c c e s sm d b 、 s u p e r m a ps d b 等的能力,在以后的版本中将逐步支持对a r c i n f oc o v e r a g e 、 a u t o c a dd w g 、m i c r o s t a t i o nd g n 、a r c v i e w 等数据格式的直接访问。 直接数据访问提供了一种更为经济实用的多源数据集成模式,它利用空间数 据引擎的方法实现多元数据的无缝集成,即在一个软件系统中实现对多数据源的 直接访问、存取和空间分析。但这一模式的实现必须是以对被集成数据源的数据 格式充分了解为基础的。 总之,以上三种地理数据集成模式各有各的优点,但也都有一定的局限性。 开发人员应充分考虑到系统的需求进行模式选择。 2 1 3 系统设计分析 1 选择m e d i a t o r - w r a p p e r 的体系结构 基于上一节的分析,我们选择使用直接数据访问模式构建面向空间数据的信 息集成系统。在数据集成系统的体系结构选择上,考虑到成本、工作量、可行性 以及系统维护、更新的灵活性等因素,我们采用了m e d i a t o r - w r a p p e r 的体系结构。 首先,由于各个数据源类型不同,更新和维护的频率不一样,使得用数据仓 库集成信息的方法难于开发和维护。而如果是从基于w e b 的应用中获得的数据, 那么集成系统将无法预先知道w e b 数据源所能提供的全部数据。所以本系统选 择了基于需求( o n d e m a n d ) 的m e d i a t o r - w r a p p e r 技术来获取数据:集成系统不 预先存储任何数据,而是针对应用请求,动态地从数据源获取信息。 其次,m e d i a t o r 作为整个系统的查询处理核心,它将应用需求分解为一系列 以物理数据源为目标的查询请求。分解后的查询序列要和底层数据源的查询能力 相一致。例如,当底层数据源为x m l 文件时,就需要m e d i a t o r 和x m lw r a p p e r 共同完成数据处理的需求;而当底层数据源是s q l 数据库管理系统时,m e d i a t o r 就可以将查询条件直接发送给关系型数据w r a p p e r ,以便将数据处理需求直接翻 译成相应的s q l 语句,提高查询效率。这样的处理方法,使得从物理数据源取 得的数据集更小、更易传输,而且数据源本身的优化能力和数据处理能力也能够 满足原有查询的要求。 北京工业大学工学硕士论文 再次,m e d i a t o r - w r a p p e r 的结构增加了系统更新、维护的灵活性。因为不改 变物理数据源的存储和操作,所以当有新的数据源加入到集成系统时,只需要为 其开发相应的w r a p p e r 就足够了。由w r a p p e r 完成从物理数据向统一数据模型的 映射。而m e d i a t o r 则无需改动,仍旧使用原有的数据操作接口即可。 总之,m e d i a o t r - w r a p p e r 的体系结构是数据集成系统较为成熟的策略。 2 选择x m l g m l 作为统一数据模型。 在数据集成系统中,一个关键问题是提供公共数据模型以屏蔽不同数据源的 差异。公共数据模型必须能够方便的描述多种不同的数据源结构,好的公共数据 模型是实现数据源异构性统一化、分散性集中化的基础。 x m l 1 l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展的标记语言) 是由w 3 c 组织 发布的关于数据表示、存储和交换的标准。作为s g m l ( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ) 规范的一个简化子集,它继承了s g m l 的灵活性和强大功能, 并更为简便易用。基于x m l 良好的规范性和可扩展性,它在办公自动化系统、 w e b 服务系统和电子商务处理系统等领域中的作用越来越重要。 选择x m l 作为统一数据模型的主要优势包括 8 , 2 9 1 : ( 1 )一致性。x m l 用层次的、树型的结构来表示信息,这样的结构具有 简单、标准、易于理解和处理的先天优势。x m l 同时是一种用于设计 标记语言的原语言,用户可以根据自己的需要创建自己的标记语言体 系。与关系数据库相比,使用 v i l 不仅能够描述结构化数据信息,还 可以对半结构化甚至是非结构化数据进行标记。这为系统集成更广泛的 数据源提供了基础。目前已有很多市场化的工具,能够将数据库的内容 用x m l 的形式发布。 ( 2 )自描述性。x m l 是用成对出现的标签来定义内容信息的,而标签的 名称和意义可以预先定义。用户可以通过使用文档类型说明( d t d ) , 或是后期由w 3 c 正式发布的x m ls c h e m a 标准为专门领域的信息制定 相关的x m l 存储标准,而且d t d 和x m l s c h e m a 都可以被机器所理解。 当异构数据源的标签语义发生冲突的时候,还可以使用w 3 c 的x s l t ( e x t e n s i b l es t y l e s h e e tl a n g u a g et r a n s l a t i o n ,可扩展样式单语言) 完成 语义之间的转换映射。通过在集成系统中添加元数据管理的部分,x m l l2 一 第2 章系统设计方案 还可以解决数据实体的冲突问题。例如,元数据可以为集成的x m l 数 据赋予时问戳或是数据质量等级的标签,这样的辅助信息有助于处理异 构数据源之间的数据冲突。 ( 3 )灵活性。因为x m l 能够穿越防火墙,所以x m l 更适用于跨平台、 跨网络的数据传输。而x m l 相关技术,如x m ls c h e m a 、x q u e r y ( x m l q u e r yl a n g u a g e ,x m l 查询语言) 、x p a t h ( x m lp a t hl a n g u a g e ,x m l 路径语言) 、x l i n k ( x m l l i n k i n g l a n g u a g e ,x m l 链接语言) 、x p o i n t e r ( x m l p o i n t e r l a n g u a g e ,x m l 指针语言) 和x s l t 的发展,使得x m l 在数据交换、智能搜索、w e b 服务等领域产生了重大的影响。 g m l t 5 ,3 5 。7 1 ( g e o g r a p h ym a r k u pl a n g u a g e ,地理标记语言) 是由o p e n g i s c o n s o r t i u m ( o g c ) 公布的基于x m l 的空间信息编码标准。g m l 是用x m l 语 法撰写的x m ls c h e m a ,用于创建、传输和存储几何信息。g m l 提供各种各样 的对象用于描述地理因素,包括特征、坐标参照系、几何对象、拓扑结构、时间、 度量标准和广义的取值等。g m l 为x m l 在g i s 中的应用提供了良好的规范化 标准,并得到了行业内众多公司的支持,如o r a c l e 、m a p l n f o 、c u b e w e r x 等。 在数据集成系统中,选择x m l g m l 作为异构数据源的统一数据模型,为 集成后数据的查询、发布和交换提供了便利。 3 选择扩展的x q u e r y 作为查询语言。 x q u e r y t 2 1 是由w 3 c 提出的以x m l 作为抽象数据模型的查询语言规范。这 种查询语言具有以下的特征:能从一个或者多个x m l 型数据对象( 可以是x m l 文件,也可以是由关系数据源包装而来的x m l 对象) 中抽取特定数据,并能对 结果进行排序、过滤;支持多种数据类型;查询的输入和输出皆为x m l 形式, 即具有封闭性;支持用户自定义函数。x q u e r y 的这些特性使其非常适合承担异 构数据集成系统中查询分解和结果重构的任务。 x q u e r y 结合了x p a t h 、x q l 、x m l q l 等查询规范的特征,支持路径表达 式、序列表达式、算术表达式、比较表达式、逻辑表达式、元素构造器和f l w o r ( f o r - l e t w h e r e o r d e r b y r e t u r n ) 表达式等。 x q u e r y 数据模型口】把x m l 文档定义为包含不同类型节点( 文档、元素、属 性、文本、处理指令、命名空间和注释) 的有序节点树。该数据模型能够完全反 1 1 北京工业大学工学硕士论文 应出x m l 原始文档包含的所有内容和数据,并能够完成基于树对象的信息获取、 定位、遍历和序列化等操作。 为了满足集成的要求,本系统对标准的x q u e r y 进行了扩展,包括对数据模 型的扩展和对查询语言的扩展。使用扩展的x q u e r y 语言可以对各种类型x m l 数据源进行查询,无论这些数据是x m l 文件,还是由关系数据包装成的x m l 视图。 2 2 系统架构 2 2 1 系统简介 本系统采用了以x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展的标记语言) 、 g m l ( g e o g r a p h ym a r k u pl a n g u a g e ,地理标记语言) 作为数据模型,以扩展的 x q u e r y ( x m lq u e r yl a n g u a g e ,x m l 查询语言) 语言作为查询语言的方法,构 建面向空间数据的信息集成系统。 图2 - 2m e d i a t o r - w r a p p e r 结构 本系统采用m e d i a t o r - w r a p p e r 的体系结构哪,1 3 ,”,3 叭,如图2 2 所示。m e d i a t o r 是查询处理的核心,负责查询的分解和执行。m e d i a t o r 向上提供一个统一的、虚 拟的集成数据库视图( g l o b a lv i e w ) ,该视图是由w r a p p e r 提供的局部视图组合 而来的,客户的x q u e r y 查询也是建立在这个虚拟的数据库视图上的。系统有多 个w r a p p e r 负责对各个物理数据源进行包装,例如关系型的d b m s 或者是w e b 服务。每个w r a p p e r 为m e d i a t o r 提供一个局部的x m l g m l 视图( l o c a l v i e w ) , 并对外提供x m l s c h e m a 描述该数据源的数据内容和数据查询能力。 2 2 2 体系结构 面向空间数据的信息集成系统体系结构如图2 - 3 所示。本系统由客户端查询 接口、元数据查询模块、元数据更新模块、x q u e r y 引擎、各种数据源w r a p p e r 和元数据服务器组成。 图2 - 3 系统结构图 客户端查询接口负责用户和系统的交互工作。它通过图形化的用户接口,帮 助用户撰写x q u e r y 语句查询系统集成后的相关数据信息,并将查询结果以用户 可理解的方式返回。 x q u e r y 引擎 15 , 2 3 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中国联合网络通信有限公司北京市分公司校园招聘40个岗位笔试题库历年考点版附带答案详解
- 2025中国五矿集团有限公司所属单位岗位合集笔试题库历年考点版附带答案详解
- 2025年网络安全行业网络攻防技术与网络安全威胁防范研究报告
- 2025年绿色科技行业低碳技术创新与环保产业链研究报告
- 2025年数字支付行业人脸识别支付安全性研究报告
- 2025江苏常州市机关事务管理局下属事业单位招聘幼儿教师2人笔试参考题库附答案解析
- 2025年安徽职业技术大学招聘41人笔试模拟试题及答案解析
- 2025年9月贵州黔东南州施秉县公益性岗位招聘6人笔试模拟试题及答案解析
- 2025广西柳州市社会福利医院编外聘用人员招聘19人笔试备考题库及答案解析
- 2025年口腔医学口腔溃疡诊疗方案设计模拟测试卷答案及解析
- Hytera海能达HM780 说明书
- 2025年衢州编外考试试题及答案
- 2025-2026学年苏少版(2024)小学美术一年级上册教学计划及进度表
- 水务局面试真题及答案解析:水利行业招聘面试实战
- 邮政储蓄网点一点一策实施方案
- 2025年飞行服务站无人机培训行业现状分析报告
- 2025年中医理疗师考试题库及答案
- 强迫性障碍护理查房
- 物业对中介管理办法
- 骨科病人饮食护理课件
- 2025年财政知识竞赛考试题库及答案(共50题)
评论
0/150
提交评论