已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)面向数据集成的空间数据源wrapper技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着计算机技术,特别是i n t e m e t 技术的迅猛发展,在各行各业都逐步实现了 数据、信息的计算机化管理。但是这些信息和数据是独立的,相互隔离的。传统 的数据库集成方法现在已经远远不能适应人们从不同系统获取数据的需求。数据 集成系统支持访问网络上不同位置的异构数据源,数据集成系统不仅能集成传统 的数据库中的结构化数据,而且还可以集成在w e b 上应用日益广泛的半结构化 数据。异构数据集成系统的研究也成为当前数据集成研究的一个热点。 基于x m l x q u e r y 的数据集成系统是一个异构数据集成系统,能够集成关系 数据库、x m l 文档等不同数据源。系统采用m e d i a t o r - w r a p p e r 方式集成异构数据, 使用x q u e r y 作为公共的查询语言,x m l 作为统一的查询查询和数据交换的模型。 系统包括三个主要的部分:m e d i a t o r 、w r a p p e r 和名字服务器。系统使用这种方 式具有可扩展性的优势,当系统增加新的数据源时,需要构造对应数据源的 w r a p p e r ,数据源的数据可以是半结构化或者结构化的,如关系型数据库,x m l 文档等等。 m e d i a t o r 舜j 用户输入的x q u e r y 语句进行查询预处理和查询执行,并从名字服 务器获得关于数据源的信息,从w r a p p e r 管理器得到相应的w r a p p e r 。w r a p p e r 与 各种数据源进行交互,提供查询的接口,对各种数据源的进行包装,为m e d i a t o r 提供一个虚拟的x m l 视图,屏蔽数据源的差别,实现数据访问的透明性和位置 的透明性。 开放g i s 联盟( o p e n g i sc o n s o r t i u m ) 制定了符合地理空间数据组织特点的 x m l 扩展集地理标识语言( g e o g r a p h ym a r k u pl a n g u a g e ,g m l ) ,成为地理空 间数据交换标准。利用g m l 提供的基本模型来组织空间数据,可以实现空间数 据和非空间数据的无缝连接,支持x q u e r y 语言的综合查询。 本文研究了面向数据集成的空间数据源w a p p e r 技术,通过包装a r c s d e 和 o r a c l es p a t i a l 等不同类型的关系型空间数据源,实现关系数据模型至t j g m l 视图的 映射;并基于这种映射将x q u e r y 查询语言转换到s q l i 吾 言,取得查询结果并把查 询结果根据映射规则组织成x m l 视图返回给m e d i a t o r ,实现多源分布空间数据查 询。 摘要 关键字:x m l ;x q u e r y ;g m l :数撵集戚 a b s t r a c t w i t ht h e h i 曲一s p e e dd e v e l o p m e n t o f c o m p u t e r a n d i n t e m e t ,c o m p u t e r m a n a g e m e n t sf o rd a t aa n di n f o r m a t i o na p p l yt om a n yf i e l d s b u tt h ed a t aa n d i n f o r m a t i o ni ss e p a r a t e d w ec a na c c e s s h e t e r o g e n e o u sd a t as o u r c e i nd i f f e r e n t p o s i t i o no fi n t e r n e tb yd a t ai n t e g r a t i o ns y s t e m t h ed a t as o u r c e si n c l u d en o to n l y s t r u c t u r e dd a t ai nt r a d i t i o n a ld a t a b a s e ,b u ta l s os e m i s t r u c t u r e dd a t aw i d e l yu s e do n w e b h e t e r o g e n e o u sd a t ai n t e g r a t i o nb e c o m e st h eh o ts p o to f r e s e a r c h x m l x q u e r y - b a s e dd a t ai n t e g r a t i o ns y s t e mi sah e t e r o g e n e o u sd a t ai n t e g r a t i o n s y s t e m ,w h i c hc a l li n t e g r a t ed i f f e r e n td a t as o u r c e ,s u c ha sr e l a t i o n a ld a t a b a s e ,x m l d o c u m e n ta n ds oo n t h es y s t e mi n t e g r a t e sh e t e r o g e n e o u sd a t ai nm e d i a t o r w r a p p e r w a y , u s e sx q u e r ya su n i v e r s a lq u e r yl a n g u a g ea n dx m l a si t sa b s t r a c td a t am o d e l t h es y s t e mi n c l u d e st h r e em a i np a r t s :m e d i a t o r 、w r a p p e ra n dn a m es e r v e r t h es y s t e m n e e dg e n e r a t et h ew r a p p e ro f d a t a s o u r c ew h e nt h es y s t e ma d dn e wd a t as o u r c e t h e d a t ac a nb es t r u c t u r e dd a t ao rs e m i s t r u c t u r e dd a t a t h ef u n c t i o n so f m e d i a t o ra l ea sf o l l o w s : q u e r yp r e t r e a t m e n ta n dq u e r ye x e c u t i o n g e td a t as o u r c ei n f o r m a t i o nf r o mn a m es e r v e ra n dg e n e r a t ec o r r e s p o n d i n g w r a p p e r t h ef u n c t i o n so f w r a p p e ra r ef o l l o w s : i n t e r a c tw i md a t as o u r c ea n de n c a p s u l a t ed a t as o u r c e , s p r o v i d eav i r t u a lx m lv i e wf o rm e d i a t o r o p e ng sc o n s o r t i u mm a k ex m ls u p e r s e tw h i c ha c c o r dw i t hs p a t i a ld a t af e a t u r e g m li tb e c o m e sd a t ae x c h a n g es t a n d a r do fs p a t i a ld a t a i tc a no r g a n i z es p a t i a l d a t au s i n gb a s em o d e lo fg m l ,i m p l e m e n ts e a m l e s si n t e g r a t i o no fs p a t i a ld a t aa n d g e n e r i cd a t aa n ds u p p o r tc o m p o s i t i v eq u e r yo f x q u e r y t h i sp a p e rm a k e sar e s e a r c ho nw r a p p e ro fs p a t i a ld a t as o u r c ef o rd a t a i n t e g r a t i o ns y s t e m t h ew r a p p e re n c a p s u l a t ed i f f e r e n ts p a t i a ld a t as o u r c es u c ha s i i i a r c s d ea n do r a c l es p a t i a l 。i m p l e m e n tm a p p i n gf r o mr e l a t i o nm o d u l et ox m l m o d u l e t r a n s l a t i n gt h ex q u e r yq u e r y 穗t os q lq u e r yb a s e dm a p p i n ga n do r g a n i z e s r e s u l ts e t w ei m p l e m e n tq u e r ys p a t i a ld a t af r o mm u l t i p l ed i s t r i b u t e dd a t as o u r c ei n t h i sw a y k e y w o r d s :x m l ,x q u e r y , g m l ,d a t ai n t e g r a t i o n i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:勉盥亟 日期:z 塑皇:! 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 躲趣亟盥导师签名:熟逾车嗍坐丛, 第1 章绪论 1 1 数据集成概述 第1 章绪论 随着计算机技术,特别是i n t e m e t 技术的迅猛发展,在各行各业都逐步实现了 业务、信息的计算机化管理。企业内部每个部门根据自身的需要构建各种信息服 务和管理系统。但是这些信息系统是独立的,相互隔离的,各自有着不同的处理 对象、操作方法和专用客户端,当需要在不同环节之间进行数据交流和部门协同 时会发生困难。传统的数据库集成方法现在已经远远不能适应人们从不同系统获 取数据的需求,因此迫切需要一种新的数据集成系统。这种系统不仅能集成传统 的数据库中的结构化数据,而且还可以集成在w e b 上应用日益广泛的半结构化 数据和非结构化数据。在这种背景下,异构数据集成系统受到越来越多人的重视, 这方面的研究也成为当前数据集成研究的一个热点。 异构数据不仅指不同的数据库系统之间的数据是异构的,如o r a c l e 和s q l s e r v e r 数据库:而且还包括不同结构的数据之间的异构,如结构化的s q l s e r v e r 数据库数据和半结构化的x m l 数据。数据集成是对各种异构数据提供统一的表 示、存储和管理,这些功能在异构数据集成系统中实现。数据集成屏蔽了各种异 构数据间的差异,通过异构数据集成系统进行统一操作。因此集成后的异构数据 对用户来说是透明的、统一的和无差异的。 当前,实现异构数据集成一般有两种方法。 第一种就是将原有的数据移植到新的数据管理系统中来,为了集成不同类型 的数据,必须将一些非传统的数据类型转化成新的数据类型。许多关系数据库供 应商提供了类似的功能。这种集成方式的缺点是随着数据管理系统的升级,原来 数据的相关应用软件,或是被废弃或是重新开发,以适应新的数据管理系统。因 此,通常移植到一个新系统不是一个实际的解决方案。 第二种方法是利用中间件集成异构数据库,该方法并不需要改变原始数据的 存储和管理方式。中间件位于异构数据库系统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据库系统,向上为访问集成数据的应用提供统一数据模式, 和数据访问的通用接口。各数据库的应用仍然完成它们的任务,中间件系统则主 1 北京工业大学工学硕士学位论文 要集中为异构数据源提供一个高层次检索服务。当前,中间件系统模式是实现异 构数据集成较理想的解决方案。 当选用了中间件作为异构数据源集成的解决方案后,必须为中间件系统选择 一种全局的数据模式。负责集成的中间件系统必须提供一种全局数据模式来统一 异构的源数据模式。过去,异构数据源的集成系统,例如多数据库系统( 如c i m s 中的多数据库系统) 或联合数据库系统通常采用关系或对象的数据模式作为全局 模式。然而,它们并不能满足网络时代的i n t r a n e t i n t e r n e t 应用所提出的高标准。 一般来说,异构数据集成的全局模式必须满足: ( 1 ) 能够描述各种数据格式,无论其是结构化的还是半结构化的,无论其 是否支持所有的查询语言还是简单的文本查询。 ( 2 ) 易于发布和进行数据交换,集成后的数据可以方便的以多种格式发布 和便于应用交换数据。 随着x m l 及其相关技术和应用的发展,x m l 不仅成为了应用间交换数据 的一种标准,也是i n t e r n e t 重要的信息交换标准和表示的技术之一。x m l 的产生 给不同的信息格式的统一带来了深刻的影响。x m l 提供了一种信息交换模式, 这种格式是可编辑,易解析,并且可以表示为任何类型的结构或半结构化信息。 现在很多的异构集成系统都使用x m l 作为统一的数据模型。 1 2 数据集成系统的研究现状 国外对数据集成的研究较早,t s i m m i s 、i n f o r m a t i o n m a n i f o l d 、或i n f o s l e u t h 等系统都对不同的数据源提供了一种统一的集成存取。在接下来的这一节中将对 这几个数据集成系统进行简单的介绍。 1 2 1t s i m m i s t s i m m i s ( t h es t a n f o r d - i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 是由斯 坦福大学与i b m 联合开发的一个信息集成系统,其目的是提供异构数据源的快 速集成开发工具,异构数据源包括结构化和半结构化的数据,它提供了一个框架 和一组工具以帮助用户开展他们的集成活动,其体系结构如图卜l 。 m s lo r l o r e l 图卜1t s i m m i s 体系结构图1 f i g u r e1 - 1t s i m m i sa r c h i t e c t u r ed i a g r a m t s i m m i s 中最重要的是两类组件:包装器( w r a p p e r ) 和中间件( m e d i a t o r ) 。如 图卜1 所示,在某种程度上,中间件是数据源中数据的一个视图,中间件负责全 局查询处理和优化,但其中没有数据,中间件处理用户的查询,从包装器或其他中 间件获取信息,通过集成不同数据源的数据,获取需要的数据并整合,然后把结果 数据提供给用户或者其他的中间件。每一个数据源之上都有一个包装器,负责封 装数据源,将该数据源的特定数据对象逻辑地转换成一个通用的数据模型,并将 以通用模型提出的查询转换为本地可以执行的操作。中间件和包装器都可以通过 对其功能的高水平的描述自动地或半自动地生成。 t s i m m i s 在系统中的不同层次是这样实现的: 采用一种基于逻辑的视图定义语言m s , ( m e d i a t o rs p e c i f i c a t i o nl a n g u a g e ) 定 义中间件和包装器,m s l 可查询中间件和包装器。m s l 对中间件和包装器的 定义实际上是一组逻辑规则。用户的查询可以用m s l 表达或者一种半结构 化查询语言l o r e l 表达。 在中间件层次,一每一个用户的查询模式需要一个中间件,在中间件的m s l 定义 规则中预先嵌入了处理该中间件对应查询模式所需要的“知识”,当中间件 接收到用户的查询请求,利用这些“知识”为全局查询选择数据源,并通过规 则扩展将其分解为一系列子查询,并将这些子查询分派到合适的包装器执 北京工业大学工学硕士学位论文 行。 在包装器层次,m s l 对包装器的定义是一组规则,描述了包装器可接受的查询 及其返回的对象。包装器接收中间件分派的子查询,如果该子查询与包装器 相匹配,那么与该包装器相关联的操作即被执行,以提供针对底层数据源的 本地查询,从包装器返回的结果再被从数据源的格式转换成系统通用的格 式。 采用一种简单的自描述( 或标签) 模型作为系统的通用模型,叫做对象交换模 型( o b j e c te x c h a n g em o d e l o e m ) 。该模型最基本的思想是所有的对象及他们 的子类都具有一个描述其意义的标签。o e m 模型在结构和数据的组织上具 有很强的灵活性,有利于表示半结构化数据。 开发了一个基于w e b 的图形浏览工具m o b ,负责提交t s i m m i s 的查 询以及查询的结果,用户利用m o b i e 可以对查询返回的o e m 对象进行浏览。 1 2 2i n f o r m a t i o nm a n i f o l d i m ( i n f o r m a t i o n m a n i f o l d ) 是开展于a t & t 贝尔实验室的项目。i m 对数据源 采用说明性描述,利用运算法则为数据源生成可执行的查询规划。i m 己被应用于 集成1 0 0 多个不同的w w w 数据源。其体系结构如图卜2 。 e 困 困e 困 图卜2i n f o r m a t i o n m a n i f o l d 体系结构“1 f i g u r e1 - 2i n f o r m a t i o n m a n i f o l da r c h i t e c t u r e 第1 章绪论 i m 的体系结构是基于一个知识库( k n o w l e d g e b a s e ) 。这个知识库中定义了 全局概念模型w o r l d v i e w 来能够描述数据源属性。w o r l d v i e w 的描述采用 了一种称作c a r i n 的描述逻辑,这种逻辑是一阶逻辑的部分。 w o r l d v i e w 上的视图来描述数据源,数据源描述就是s o u r c ed e s c r i p t i o n s , 它包含数据源信息主题的描述、与数据源物理特性有关的属性描述以及数 据源查询能力的描述等。用户基于w o r l d e w 提出查询,查询的表达可以 采用与w d r l d v i e w 相适应的逻辑语言。 查询规划生成器( q u e r yp l a ng e n e r a t o r ) 参照s o u r c ed e s c r i p f i o n s 、利用查询 处理运算法则为给定的查询选定有用的数据源并生成查询规划,并将查询 规划送往执行引擎( e x e c u t i o ne n g i n e ) ,由执行引擎负责协调子查询的执行 并将结果数据返回用户使用。 1 2 3i n f o s l e u t h i n f o s l e u t h 是m c c ( m i e m e l e c t r o n i c s a n dc o m p u t e rt e c h n o l o g yc o r p o r a t i o n ) 的 一项科研项目,采用了多a g e n t 的体系结构。该体系结构由一组可以互相通信的 a g e n t 构成,每一个a g e n t 负责系统某一方面的功能,a g e n t 之间可以通过 k q m l ( k n o w l e d g eq u e r ym a n i p u l a t i o nl a n g u a g e ) 进行通信。具体如图卜3 。 t e x tr e s o u r c e 图卜3i n f o s l e u t h 体系结构 f i g u r e1 - 3l n f o s l e u t ha r c h i t e c t u r e i n f o s l e u t h 的结构由下面的a g e n t 组成: 本体a g e n t ( o n t o l o g ya g e n t ) 中存有这些本体的信息,并能够响应以 k i f ( k n o w l e d g ei n t e r - c h a n g ef o r m a t ) 形式提出的关于本体信息的查询。系 回司 _ b 京工业大学工学硕士学位论文 统串存在多个不同鳃奉体,一部分在数据源阖共事,提供菜耱“全局”壤 念视图,一部分只与某一特定的数据源关联。 用户通:过用户a g e n t ( u s e ra g e n t ) 与系统交互。用户a g e n t 利用本体信息 帮勤嗣户褥造查诲并显示查诲绪聚。j a v aa p p l e t s 实现了臻户a g e n t ,提供 了图形和基于表格的用户界面,遮种方式通过w e b 浏览器就可以访问。 代理a g e n t f b r o k e ra g e n t ) 负责接收秘保存系统巾各a g e n t 对其地址和功 能静声明。基于这黧声明信息,代理a g e n t 可黻为需要菜一特定服务静 a g e n t 与提供这一服务的a g e n t 提供一种“匹配”服务,而且这种“匹配” 是语义级豹。 任务规划与执霉亍a g e n t ( t a s kp l a n n i n g & e x e c u t i o na g e n t ) 负责接收用户查 询并将结果信息返回用户a g e n t 。当接收到个查询,任务规划与执行 a g e n t 蓑惫自代理a g e n t 查谗零钵a g e n t 豹位爨,之嚣淘本搭a g e n t 奎谗 适合绘定查询的本体。基于该查询所处领域的本体,执行a g e n t 向代理 a g e n t 搬询当前合适的资源a g e n t 。这里代理a g e n t 对同一焱询在不同时 阋返羁瓣资源a g e n t 疆戆会套殛不嗣,取决予资滚瓣可矮绩滋。然嚣执行 a g e n t 利用代理a g e n t 返回的信息将查询分解并派往适合的资源a g e n t 。 每个资源a g e n t ( r e s o u r c ea g e n t ) 对应一个数据源,提供从本体概念到本 逸援念及零语、孤众鼹奎逮语言翻零蘧查运诿富静浃瓣,终焱游麸逶矮夔 查询语言( 如k q m l k i f ) 翻译成本地可以理解的语言,并将磷询的结果翻 译成通用的格式传送焓执行a g e n t 2 6 1 。 1 2 4 数据集成系统的比较 t s i m m i s 使耀的m e d i a t o r - w r a p p e r 方式比较常见,在m e d i a t o r 巾定义统一 的视图,能够魄较精确遣定义信息提供的信息,僵缺点是每增加一个数据源,都 哪能要重新定义m e d i a t o r 中的视图定义。i n f o r m a t i o nm a n i f o l d 可以方便地添加 数据源,只要必溪数撂源生成s o u r c ed e s c r i p t i o n s ,蕊凭震改变查询处理算法。 俺楚i m 没有t s i m m i s 那样盼包装器,予查询是直接良数据源的本地形式描述 的,这样就限制了i m 对更为强大的查询功能的支持。i n f o s l e u t h 能够灵活的添加 爨有本缝基治粒数摆源。资源a g e n t 在按入系统和离开系统时都会良代理a g e n t 6 。 做出声明,一个数据源只需要建立对应的资源a g e n t ,就可以方便地集成入系统。 1 3 基于x m l x q u e r y 的数据集成方案 在全面考虑了当今的各种数据集成方案后,基于x m l x q u e r y 的数据集成系 统采用m e d i a t o r - w r a p p e r 的方式集成异构数据。这种方式具有模块化的优点,支 持对不同查询结果的融合,而不是直接对各个数据源的数据进行融合。当系统增 加新的数据源时,需要构造对应数据源的w r a p p e r ,数据源的数据可以是半结构 化或者结构化的。 w 3 c 提出的x q u e r y 查询语言使用x m l 作为抽象数据模型。鉴于x m l 和 x q u e r y 语言的通用性,基于x m l x q u e r y 的数据集成系统采用x m l 作为公共数 据模型,采用x q u e r y 作为查询语言来集成不同的数据源。 数据集成系统包括三个主要的部分:m e d i a t o r 、w r a p p e r 和名字服务器。用 户从客户端输x x q u e r y 语n 句,语句由m e d i a l o r 进行查询预处理和查询执行。 m e d i a t o r j k 名字服务器获得关于数据源的信息,并调用自身的w r a p p e r 管理器得 到相应的w r a p p e r ,w r a p p e r 与各种数据源进行交互,负责对各种数据源的包装, 为m e d i a t o r 提供一个虚拟的讧l 视图,屏蔽数据源的差别,实现数据访问的透明 性和位置的透明性。数据源类型包括关系数据源,x m l 文档,w e b ) j 艮务等。m e d i a t o r 再向用户提供了一个更高层的x m l 视图。系统体系结构图见图1 4 。 r = 1 1 e n t l 图1 4 系统体系结构图 f i g u r e1 - 4s y s t e ma r c h i t e c t u r ed i a g r a m 北京工业大学工学硕士学位论文 这个数蠢集藏方案静特熹楚: 使用x m l 作为抽象数据模型统一了备种数据源的数据模式; 除了可以集成d b m s 管理的数据外,还可以集成非数据库管理系统的数据 眈翔x m l 文档,w e b 鞭务; 采用x q u e r y 用统一的方式查询x m l 视图提高了系统的可扩展性。 ,霹关系对象型空闫数据源 w r a p p e r 封装不同类型的数据源,其中关系型数据源是非常重要的一种类型。 空霾数摇是怼察麓事锈豹接象接透,毙懿建筑秘,道爨,零域等等。空闽数据使 用空间数据模溅描述了它们的空间特征。窳间数据具有特定的精度和拓扑关系, 如连通性,近邻性等。空间数据还具有属饿,这使得空间数据具有嫩间关系和对 象獾述夔秀重瞧。 开放g i s 联盟( o p e ng se o n s o r t i u m ) $ i j 定了符合地理空间数据组织特点的 x m l 扩展集地理标识诺言( g e o g r a p h y m a r k u pl a n g u a g e ,g m l ) ,成为地理空间 数器交换拣壤。翻趸g m l 撬供夔基本搂爨来组织空阕羧摇,可蔽实璇空阗数据 和非空间数据的无缝连接,支持x q u e r y 谮言的综合焱询。 本课题主隳研究关系对象模型的空间数据源怎样参与数据集成,空间数据源 镪摆a r c s d e 黢o r a e l e s p a t i a l 类鍪。逶遥攘述关系穰登与x m l 裁露鹣浃袈关系, 并基于这种映射关系将x q u e r y 查询语言转换到s q l 谮言,查询关系数据源,取 褥数据并把查询结果组织成x m l 视图,完成系统的w r a p p e r 对关悉对象型的空 趣黢摇源豹封装并实嚣多添空蠲数据套镲。 1 5 课题来源 本谋题得到j e 京市自然科学基金( 4 0 5 2 0 0 6 ) 的资璇,研究通道使雳统一静 态询语言和数据模型实现异构数据的集成。 6 本章小缝 本章分析了数据集成系统的基本概念和研究现状,并在此基础上提出了基于 第1 章绪论 x m l x q u e r y 的数据集成系统,以及本课题的研究内容:面向数据集成的空间数 据源w r a p p e r 技术的研究。 第2 章统一的数据模型 2 1x m l 简介 第2 章统一的数据模型 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,称作可扩展标记语言。是一种可以用于 w e b 上的标准的、可扩展的数据格式描述语言。它是由s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ,标准化通用标记语言1 发展而来,是s g m l 的一个 简化子集,它以一种开放的自我描述方式定义数据结构,在描述数据内容的同时 能突出对结构的描述,从而体现出数据之间的关系。 x m l 可以描述各种各样结构的信息,用它表示的数据信息可以很方便地被 不同的数据使用者使用。x m l 能够描述结构化和半结构化的数据,具有较为强 大的描述数据和管理数据的能力,利用x m l 可较好的实现异构数据源共享。同 时,x m l 具有跨平台特性和可扩展性,使得基于x m l 异构数据源之间的数据 共享具有很强的独立性和灵活性,这是以前各种类似的技术所无法比拟的。因此 越来越多的数据集成系统使用x m l 作为统一的数据模型。 2 2x q u e r y 技术 随着用x m l 存储、交换和表述信息的应用日益增多,人们对其研究也越来 越深入,如何从x m l 数据源中准确有效地查询所需信息,也就变得越来越重要。 许多有关x m l 的查询语言,如x q l 、x m l q l 、q u i l t ,x m l g l 、x p a t h 、y a t l 、 l o r e l 等纷纷问世,这些查询语言和工具对促进x m l 的推广和应用产生了积极 的作用。目前已有的查询语言多半是有极强的针对性,往往对某种数据类型的查 询十分有效,但对另一种数据类型的查询却无能为力。正是在这种情势下,w 3 c 于2 0 0 1 年2 月1 5 日公布了一种有别于其他任何查询语言的全新的x m l 查询语 言q u e r y 的最新草案。这种全新的查询语言适用于各种类型的x m l 数据源 的查询,是一种功能极强的查询工具。x q u e r y 具有上述很多语言的优点,如 x q u e r y 吸收了x q l 语言的路径表达式,x m lq l 语言的变量绑定机制,此外 x q u e r y 还根据s q l 的s e l e c 卜劬m w b e r e 模式定义了f l w r ( f o r l l e t ) 一w h e r e 北京工业大学工学硕士学位论文 t e t 哪表达式。 x q u e r y 主要由以下几种表达式组成: 路径表达式( p a t he x p r e s s i o n s ) : 元素构建表达式( e l e m e n tc o n s t r u c t o r s ) ; f l w r 表达式( f l w r e x p r e s s i o n s ) ; 带运算符和函数的表达式( e x p r e s s i o n si n v o l v i n go p e r a t o r s a n d f u n c t i o n s ) ; 条件表达式( c o n d i t i o ne x p r e s s i o n s ) ; 量化表达式( q u a n t i f i e de x p r e s s i o n s ) ; 数据类型的测试和修改表达式3 2 1 ( e x p r e s s i o n st h a tt e s t o rm o d i f y d a t a t y p e s ) 。 鉴于x m l 和x q u e r y 语言的通用性,新型的数据集成系统趋于采用x m l 作为 公共数据模型,采用x q u e r y 作为查询语言来集成不同的数据源。 2 3o p e n g i s 规范 o p e n g i s 是由o g c ( o p e ng i sc o n s o r t i u m ) 组织制定的开放地理数据互操 作规范。它是一个全面的用于对地理数据和地理处理资源进行分布式访问的软件 框架规范。o p e n g i s 规范为所有的软件开发者提供了一个详细的公共接口模板, 以便开发出来的软件能与其他软件开发者开发出来的软件互用。o p e n g i s 规范的 目标是使应用软件开发者能在单一环境和单一工作流程中处理网上的所有地理 数据和使用地理数据处理功能。为了实现上述目标,o p e n g i s 制定了二类规范: 抽象规范和一系列在不同分布式计算平台上实现的实现规范。抽象规范的目的是 开发和建立一个概念模型,为实现规范的制定奠定基础;实现规范是实现工业标 准和应用程序接口的技术规范。 2 4g m l 概述 2 0 0 0 年,o g c 在其已创建的公共地理模型( o g c 抽象规范) 基础上,通过封 装地理信息及其属性,制定了符合地理空间数据组织特点的x m l 扩展集一地 理标识语言( g e o g r a p h ym a r k u pl a n g u a g e ,g m l ) 。至2 0 0 3 年2 月,g m l 已经升 1 2 第2 章统一的数据模型 级至3 0 ,并已经成为事实上的网络地理空间数据交换标准。 g m l 是对空间信息的x m l 编码,可以用来对空间数据进行建模、传输和 保存。g m l 模型是基于o p e n g l s 的抽象规范,o g c 推出g m l 有下边的作用: 提供一种适用于i n t e m e t 环境的空间信息编码方式,用于数据传输和数 据存储: 扩展性好,以支持对空间信息的多样化需求; 提供了一种易于理解的空间信息和空间关系的编码方式,包括对o g c 的简 单要素模型中所定义的空间信息和空间关系; 能够容易的整合空间信息和非空间信息。 具有模块化特点。g m l3 0 定义了用于数据校验的全部基本模式( s c h e m a ) , 本文称之为基本s c h e m a 。用户能够选择适合的结构和结构组件,设计应用 模式来校验自己的g m l 数据。 2 4 1g m l 要素模型 g m l 要素是指一个有意义的空间对象,比如一条路,一条河等等。要素模 式用f e a t u r e x s d 来定义,为g m l 要素和要素集合的创建提供了框架。g m l 中 的要素常用x m l 元素来表示,这个元素的模式一般由a b s t r a c t f e a t u r e t y p e 派生 而来,a b s t r a c t f e a t u r e t y p e 的模式定义是这样的: d e p r e c a t e d d e p r e c a t e di ng 几v e r s i o n3 0 北京工业人学工学醐上学位论文 献上瑟翡定义可醣看窭,掰寿靛要素帮有可选择瓣g m l :l o c a t i o n 秘 g m l :b o u n d e d b y 属性,f i d 属性在g m l 2 0 中使用,在g m l 3 0 中已疑不用。 g m l 要索集合怒g m l 要索实体的集合,它由g m l : a b s t r a e t f e a t u r e c o l l e c t i o n t y p e 扩展或受茭终泰。要素祭合中懿戒爨蠢成员磊往 和 来标志,它们都有相应的s c h e m a 。 2 4 2g m l t , 莓模墼 最早的g m 啪范中定义几何模型的文档只有g e o m 拍x s d ,g m l 3 0 定义的文 搂有:g e o m e t r y b a s i e o d i d 。x s d 、g e o m e t r y b a s i c 2 d x s d 、g e o m e t r y p r i m i t i v e s 。x s d 、 g e o m e t r y a g g r e g a t e s x s d 和g e o m e t r y c o m p l e x e s x s d 。 g e o m e t r y b a s i c o d l d x s d 、g e o m e t r y b a s i c 2 d x s d 和g e o m e t r y a g g r e g a t e s ,x s d 中一 部分与g m l 2 0 蔑容,g e o m e t r y p r i m i t i v e s x s d 巍g e o m e t r y c o m p l e x e s 。x s d 定义了 新的元素和类溅【3 】。 图2 - 1 表示了g m l 3 0 中几何模型类型层次。 图2 - 1 几何模型类型层次科 f i g u r e2 - 1h i b e r a r c h yo f g e o m e t r ym o d e l 自定义的具体几何类型秘几谤属性炎擞必须是a b s t r a e t g e o m e t r y t y p e 的子类 第2 覃统一的数据模型 型( 直接或间接) ,用户定义的几何予类型都有基本几何类型的元素和属性,但 可以扩展这些基本类型适应应用要求。 g m l 3 0 的基础s c h e m a 是一套基础类,包括若干s c h e m a 文件,通过它们用 户可以自己定义应用s c h e m a ,用户定义的应用s c h e m a 可以定义自己的类型以 区分地物类型,在开发应用s c h e m a 时,要注意以下几点: 1 应用s c h e m a 的目标命名空间不能与c m l 基础s c h e m a 的目标命名空间 ( h t t p :w w w o p e n g i s g m l 即g m l ) 相同, 2 应用s c h e m a 必须以i m p o r t 方式引入f e a t u r e x s d ,同时也可以引入其他需 要的s c h e m a 。 3 应用s c h e m a 不能改变g m l 基础s c h e m a 中元素的名称和定义。 g m l 是一个开放的框架结构,通过对基本s c h e m a 的继承和扩展,可以用 自己定义的s c h e m a 来对地理实体数据进行编码,完成数据对象的建模。 2 5 本章小结 本章介绍了讧l 作为数据集成的数据模型的优势,以及查询x m l 的最新语 言x q u e r y 。g m l 作为x m l 的扩展集,能够提供的基本模型来组织空间数据,可 以实现空间数据和非空间数据的无缝连接,支持x q u e r y 语言的综合查询。 3 m e d i a 。c o r 介绍 第3 章w r a p p e r 的解决方案 基于x m l x q u e r y 的数据集成系统采用m e d i a t o r - w r a p p e r 的方式集成异构 数据。m e d i a t o r 楚一个臻慧集成模块,动戆是完戏囊谗颓照理耪查询藐行, m e d i a t o r 分析用户输入的x q u e r y 语句,从名字服务器获得数据源的元数据信息, 戗括数据源的定位,用户名和密码等,幽m e d i a t o r 中的w r a p p e r 管理器得到 w r a p p e r ,絮暴管理器中没裔这耱w r a p p e r ,蕤穆造出w r a p p e r ;否翔使曩构造鲑 的w r a p p e r 。m e d i a t o r 一共有六个部分组成。这六个部分是语法分析,查询分解, 规范化,静态类型检查,翻译为函数式x m l 查询语吉,执行函数式x m l 查询 语言( 整屠饕称f x q l ) 。鬣淘3 一l 。 m e d i a t o r 鹜3 1m e d i a t o r 黔结药 f i g u r e3 - 1s t m e t u r eo f m e d i a t o r 语法分析处理用户输入的x q u e r y 登询,生成x q u e r y 语法树。接着对x q u e r y 语法树进彳亍囊询分孵,然鼷艘范让,缛劐x q u e r y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生产成本控制培训课件
- 身体按摩手法培训课件
- 手术室的耗材管理
- 社保卡使用培训
- 2026届山西省怀仁县第八中学化学高一第一学期期中达标检测试题含解析
- 浙教版2023小学信息技术四年级上册 第11课《有序的世界》教学设计及反思
- 中国髓鞘少突胶质细胞糖蛋白抗体相关疾病诊断与治疗指南解读2025
- 角的度量(教学设计)-2024-2025学年人教版数学四年级上册
- 浙教版八年级信息技术上册 第八课《网络旅行》教学设计
- 中国中医药出版社教学设计-2023-2024学年中职中职专业课化工技术类67 生物与化工大类
- 【7上英WY】合肥市庐阳中学2023-2024学年七年级上学期期中英语试卷
- 中国血脂管理指南(基层版2024年)解读
- 创新方法TRIZ理论课件第8章技术矛盾和矛盾矩阵-两份资料
- 【医院管理分享】:4C服务模式构建和谐医患关系-武汉大学中南医院实践
- GB/T 4008-2024锰硅合金
- 在线网课知慧《美国史(东北师大)》单元测试考核答案
- 医学检验技术职业生涯发展报告
- 护理职业规划大赛
- 急性酒精中毒护理课件
- 2024年云南省公路交通机电工程专业知识模拟试题(100题)含答案
- 营养强化食品中叶酸稳定性的评价方法
评论
0/150
提交评论