(计算机软件与理论专业论文)siigrid中异构数据库模式集成的研究与实现.pdf_第1页
(计算机软件与理论专业论文)siigrid中异构数据库模式集成的研究与实现.pdf_第2页
(计算机软件与理论专业论文)siigrid中异构数据库模式集成的研究与实现.pdf_第3页
(计算机软件与理论专业论文)siigrid中异构数据库模式集成的研究与实现.pdf_第4页
(计算机软件与理论专业论文)siigrid中异构数据库模式集成的研究与实现.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 科技的进步带动了人类社会飞速发展,同时给国家政府部门的工作提出了 快捷、高效的要求,发展电子政务已是大势所趋。但是目前的电子政务系统在 面临着很多问题,其中一个主要的难题就是信息源异构。数据的按部门或按功 能进行组织和管理,导致了数据资源与服务的分片,形成了一个个“信息孤岛”。 越来越多的应用和决策需求需要将各种数据资源集成起来,进行全局、统一和 高效的访问。为了彻底的消除信息孤岛,实现信息共享,必须对原有的系统进 行有效集成。 本文在实现社保信息网格s g 棚( s g r i d ,s o c i a lh s u f 舭h l f b 肋a l i o n g r i d ) 的过程中,发现社保信息领域环境下的数据资源同样具有分布、异构和 自治的特点,现有的技术难以满足对系统全局管理、统一访问的需求,要将数 据以服务的形式进行封装和发布,从而实现对网格数据资源的透明访问。这就 迫切需要一种方法有效地实现现有该系统中信息源的集成。 对此,首要解决的就是这些数据源之间产生的模式冲突。本文引入本体的 概念,借助了语义网的理念,实现了对各异构数据源元数据的规范统一,根据 社保信息领域原有系统的特点,构造了模式映射方法和查询分解算法来解决系 统中的语义冲突问题。 本文基于s g f i d 的网格框架,研究了模式集成的方法,采用原语操作实现 全局模式和异构数据源模式的映射,设计自己的查询分解算法,真实地构架并 实现了网格环境下的模式集成。实现的原型表明,该模式集成方法有效地解决 了s g r i d 中的异构问题。 关键字:网格;s i i g ri d ;异构数据库;数据集成;模式集成 山东大学硕士学位论文 a b s t r a c t w i t ht h ea d v e n to fi n f o 加a t i o nn e t w o r ke r a ,t h en a t i o n a lg o v e t 伽e n t h a sp u tf o r 船r dm o r er a p i da i l de f f i c i e n td e m a r i d s d e v e l o p i n g e g o v e 瑚e n tw i l ls u r l yb e c o m e st h et r e n d h o w e v e r , t h e r ea r em a n y p r o b l e m si nc u r r e n te g o v e r n m e n ts y s t e m s , o n eo f 曲i c hi st h ep r o b l e m o f h e t e r o g e n e o u s i n f o 珊a t i o ns o u r c e s i n f o r m a t i o n i n t e g r a t i o n t e c l l i l o l o g yr e s e a r c h e si n t e g r a t i o np r o b l e m sa m o n gh e t e r o g e n e o u sd a t aa n d i tw i l li n t e g r a t et h ei s 0 1 a t ed a t at op r o v i d eal l i i i f i e dv i 趼f o rt h e u s e r s , s ot h a tt h eu s e r sc a ng e tw h a tt h e yn e e df r o mg i g a n t i cd a t a r e s o u r c e s 【l i l et od i s t r i b u t i o n ,h e t e r o g e n e i t ya n da u t o n o m yo ft h ed a t as o u r c e s i nt h ed o m a i no fs o c i a li n s u r a n c e ,t h ee x i s t i n gt e c h n 0 1 0 9 i e si s d i f f i c u l tt om e e tc u r r e n ta n df u t u r er e q u i r e m e n t so f9 1 0 b a lm a n a g e m e n t a n ds i n 9 1 e p o i n ta c c e s so ft h es y s t e m t h ep r o j e c ti se n c a p s u l a t e da n d p u b l i s h e da sw e bs e r v i c e s ,a n di m p l e m e n t st h et r a l l s p a r e n ta c c e s st ot h e g r i dd a t as o u r c e s i ti sn e c e s s a r yt op r o d u c eak i n do fm e t h o dt o e f f e c t i v e l yi m p l e m e n tt h ei n t e g r a t i o no fi n f o r m a t i o ns o u r c e si nc u r r e n t s y s t e m t h ef i r s tp r o b l 锄t ob es 0 1 v e di st h es c h e m ac o n f l i c t i o n 锄o n gd a t a s o u r c e s t h ep a p e ru s et h ec o n c e p to fo n t o l o g y , i m p l e m e n tf o m a lu n i o n o fm e t ad a t ai nh e t e r o g e n e o u sd a t as o l i r c e s i ta l s oc r e a t e st h em e t h o d s o fs c h e m am a p p i n ga n dt h ea l g o r i t h m so fq u e r yd e c o m p o s i t i o nt os o l v e t h ep r o b l e mo fs e m a n t i cc o n f l i c t i o ni nt h es y s t e m t h ep a p e rr e s e a r c h e st h em e t h o d so fs c h 锄ai n t e g r a t i o nb a s e do nt h e g r i da r c h i t e c t u r eo fs i i g r i da n du s e sa t 锄i co p e r a t i o n st oi m p l 钿e n t t h em a p p i n g sb e t w e e ng l o b a ls c h e m aa n dl o c a ls c h 伽a i tp r e s e n t st h e a l g o r i t l l m so fq u e r yd e c o m p o s i t i o na n di m p l e m e n t st h es c h e m ai n t e g r a t i o n i ng r i de n v i r o n m e n t t h ep r o t o t y p es u g g e s t st h em e t h o de f f e c t i v e l y i i i 山东大学硕士学位论文 s 0 1 v e st h eh e t e r o g e n e o u sp r o b l e mi ns i i g r i d k e y w o r d 8 :g r i d :s i | g r i d ;h e t e r o g e n e o u sd a t a b a s e :d a t ai n t e g r a t i o n s c h e m ain t e g r a tio n 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: 杨宜聘 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 钔j 椭 论文作者签名:! 坌兰= 堕导师签名: 山东大学硕士学位论文 1 1 课题的研究背景 第1 章绪论 人类社会进入2 l 世纪以来,信息网络化正在延伸到社会的每一个角落,这 种趋势己成为一种不可抗拒的时代潮流。信息网络时代的到来给国家政府部门 的工作提出了快捷、高效的要求。网络对于政府来讲不仅是一种高效的通信手 段,而且是一座沟通政府与社会各界的桥梁。从全球范围来看,推动政府部门 办公网络化、自动化、电子化,实现信息共享,提供个性化信息服务,己是大 势所趋闭p 】。当前,在世界各国积极倡导的“信息高速公路”的五个应用领域中, “电子政务”被列为第一位。我国的电子政务起步较晚,自1 9 9 9 年启动作为电子 政务重要组成部分的“政府上网工程”以来,全国各级政府部门在c 卸n 舢证强和 中国公众多媒体信息网上建立了正式的网站,为公众提供相关的信息和政务服 务,效果良好,为实现上述目标做出了积极贡献f 4 】。 但是,由于电子政务系统本身发展的阶段性、政府传统的管理观念和机构 设置,以及历史地理等原因,我国目前的电子政务系统在面向公众的信息共享 和信息服务方面存在很多问题,比较突出的一个就是现在的政府各部门中并存 有多个应用系统,这些应用系统可能分布于不同的网络节点、基于不同的操作 系统、使用不同数据库管理系统,且各子系统封闭运行,自成一体,形成所谓 的“信息孤岛”,给各级政府的信息资源共享带来极大的困难p 】。 信息源异构是进行电子政务系统信息集成时面临的主要难题【6 l 。当前,电 子政务系统中各种类型的数据库系统同时并存,有f 唧r o ,p 砌。墨a c c 嚣s 等桌 面型数据库管理系统,也有o r a c l e ,s q ls e r v e r s y b a 之类的大中型数据库系 统,不仅不同的数据库系统之间的数据是异构的,不同结构的数据之间同样存 在异构【_ ”。如何在异构数据环境中集成、访问这些数据呢? 首要关键的问题是研 究异构数据之间的集成问题,只有将这些孤立的数据都集成起来,并且提供给 用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西,这就是 山东大学硕士学位论文 数据集成技术。 数据集成【8 】是对各种异构数据提供统一的表示、存储和管理,这些功能在 异构信息集成系统中实现。数据集成屏蔽了各种异构数据间的差异,通过异构 信息集成系统进行统一操作。因此集成后的异构数据对用户来说是统一的和无 差异的。 网格【9 l 是继传统互联网、w 曲之后的第三个大浪潮,可以称之为第三代互联 网应用。随着科学计算中的数据呈现爆炸式增长,网格由以科学计算为主,逐 渐跨入了分布式海量数据处理领域,出现了网格数据库。越来越多的已经存在 的、自治的,分布式、异构的以数据库为存储形式的数据资源需要作为逻辑上 单一的数据源来展现,从而达到支持虚拟组织用户在共享资源上进行协同工作 的目的。 模式集成【”1 是人们最早采用的数据集成方法,其基本思想是,在构建集成 系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明 地访问各数据源的数据。全局模式描述了数据源共享数据的结构、语义及操作 等。用户直接在全局模式的基础上提交请求,由数据集成系统处理这些请求, 转换成各个数据源在本地数据视图基础上能够执行的请求。模式集成方法的特 点是直接为用户提供透明的数据访问方法。 在社保信息领域( 以山东省为例) ,各市所使用的社保信息系统为各自独立 的基于异构数据源的自治系统,独立处理本地市的事务没有问题,但是涉及跨 地市的业务,如人员调动、异地业务处理、全局数据统计查询等处理起来就非 常繁琐,需大量手工操作,有时甚至需要人员携带传输数据,效率较低,可靠 性差。在此背景下,s g f i d ( s o c i a lh l s l l r 舭c ei f i f o 册a l i o n 础d ) 是网格技术在 社会保险信息领域内的一个应用实现,成功完成了社保信息网格的原型系统, 构架了基于该领域的网格平台,设计了此网格环境下的模式集成框架,通过映 射表、原语操作、查询分解算法解决了模式冲突问题,并给出了较好的用户界 面。本文介绍了该项目中对异构数据库( 目前使用了m y s q l 、s q l s e r v 盯、 h s q l ) 的模式集成方法,并给出了较为通用的形式化描述方法。 2 山东大学硕士学位论文 1 2 国内外研究现状 1 2 1 研究现状 模式集成是人们最早采用的数据集成方法,其基本思想【1 1 】是,在构建集成 系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明 地访问各数据源的数据。全局模式描述了数据源共享数据的结构、语义及操作 等。用户直接在全局模式的基础上提交请求,由数据集成系统处理这些请求, 转换成各个数据源在本地数据视图基础上能够执行的请求。 模式集成方法的特点是直接为用户提供透明的数据访问方法。由于用户使 用的全局模式是虚拟的数据源视图,模式集成方法也称作虚拟视图集成方法。 模式集成要解决两个基本问题:构建全局模式与数据源数据视图间的映射 关系:处理用户在全局模式基础上的查询请求。 模式集成过程需要将原来异构的数据模式作适当的转换,消除数据源间的 异构性,映射成全局模式【1 2 1 。全局模式与数据源数据视图间映射的构建方法有 两种【1 3 1 ;全局视图法( g l o b a l 髂、,i e w ,也有称作百o b a l 伽打i c ) 和局部视图法 ( l o c a l 器v i e w ,也有称作s o u r o e - c 仃i c ) 。全局视图法1 1 4 】中的全局模式是在数据 源数据视图基础上建立的,它由一系列元素组成,每个元素对应一个数据源, 表示相应数据源的数据结构和操作;局部视图法【15 】则是首先构建全局模式,数 据源的数据视图则是在全局模式基础上定义,由全局模式按一定的规则推理得 到。用户在全局模式基础上查询请求需要被映射成各个数据源能够执行的查询 请求,这一过程有很多算法,其中基于局部视图法的映射算法比较复杂,而基 于全局视图法的映射算法则要简单许多。 要完成数据集成这一任务,迫切地需要一个跨越不同管理域,实现信息共 享的平台。不难想象,这一平台往往要跨越多个不同类型的网络环境,因此, 网格是一个理想的选择。当前有很多基于网格环境的软件,例如a o b 吣、l e 西o n 、 s n 邛l e 等,但是他们的作用只是一个工具包,并不能屏蔽网格环境中信息的分 布和异构性,因此需要一个支持数据集成的网格框架。 目前网格环境中关于数据集成的研究项目有: 1 、o g s a - d a i 【1 6 】。该项目是由英国数据库工作组kd 积i b 豁e 协kf o r c e ) 山东大学硕士学位论文 发起,并与全球网格论坛数据访问和集成服务工作组( d a 士a b 邵ea c c e 鲳锄d h n e g r 撕o ns e r v i c e sw o 幽gg f o u p ,d a j s w g ) 1 7 1 紧密合作的一个网格数据访问 项目。 o g s a - d a i 采用v 儿( e x t e n s i b l e m a r k u p l 锄g u a g e ) 文档的形式提交访问, 用户把数据库访问命令嵌入到帆文档中,返回的结果也是一个咀文档, 用户可以从其中抽取出所用的结果。o g s a d a i 的目标是提供一个访问数据库 资源的符合o g s a ( o p e ng r i ds e i c 豁加c h i t e c t u r e ) 规范的统一接口;可以得到 可能分布在不同的异构数据库环境的数据的信息;定位可能分布或者复制在很 多不同类型数据库的数据,而这些数据的位置并不用预先知道;提供一个访问 分布在不同数据库上的数据的统一视图;整合来自不同来源的数据以获得需要 的信息。当前此项目实现了访问接口的统一,并支持一定程度的异构数据库的 整合。目前0 g s a - d a l 只能实现用相同的接口访问不同的关系型数据库 s q l3 2 小o x ,d b 28 ,0 r a c l e9 ) ,对这些数据库可以支持用相同的帆文 档形式访问,并以相同的。文档格式返回结果给用户。 0 g s a d a i 的优点在于它的结构良好,虽然它现阶段还没有能提供复杂的 功能( 比如跨数据库的分布式查询) ,但它提供了构造这些复杂服务的定义良好 的、接口符合0 g s a 规范的基本服务。在这些基本服务之上可以方便的进行二 次开发,形成高级的功能或者扩展出面对特定应用领域的功能。由于 o g s a - d m 的优点,己经有不少基于其上的项目出现,例如面向天文应用的 a s 仃0 g 甜,面向生物应用的b i o 百r d ,b i o s i m g f i d ,g 吼e g 耐等等。 2 、s p i 城r e 。这是欧洲数据网格项目但u r o p 啪d a 协g 删p r o j e 哪的第二个工 作包m ,0 r kp a c k a g e2 ) 。欧洲数据网格项目于2 0 0 0 年1 2 月2 9 日正式立项,由 欧盟提供9 8 0 万欧元资金,项目完成期限为3 年。欧洲数据网格主要针对c e r n 的高能物理应用,解决海量数据的分解存储和处理问题,同时将之扩展到其他 应用,和很多网格项目一样,欧洲数据网格也是基于g l o b 惦,在其基础上扩展 数据网格所特有的中间件代码。在欧洲数据网格中,构造数据网格的任务划分 成为1 2 个工作包w p m r k p a c k a g e ) ,而s p i m r e 二就属于w p 2 ,s p i m r e 的目 标是提供网格中关系数据库的存取方法,是设计成在存取模式是简单的时候可 以提供快速和易于使用的访问接口。这些简单的访问模式包括一个或者少数几 4 山东大学硕士学位论文 个表的查找、插入、更新和删除。它包括一个服务器端模块和一个客户端模块, 服务器端模块通过j d b c ( j a v ad a t a b 撇c o 衄e c t i v i t y ) 和关系型数据库连接,客 户通过客户端定义好的接口和服务端通信存取数据库。客户端和服务器端的通 信是通过使用w 曲s e i c 髂技术通过基于s o a p ( s i m p l e0 b j e c ta c c e 豁p r o 的l , 简单对象访问协议) 的 c ( r e m o t ep r o c e d u 豫c a l l ,远程过程调用) 进行的。但 现阶段s p i 砸r e 只能提供基本的数据库存取功能,在运行复杂的数据库命令时 可能会出现问题,例如要消耗大量系统资料的多连接查询。s p i t f i r e 还很不完善, 只是提供了一个“瘦”中间层。 3 、e l d a s 。e l d a s 但n 钯i p r i s el e v e ld a 土aa c c e s ss e n ,i c e s ) 是由英国国家电子科 学中心( n 撕o n a le s c i c ec e i i t r e ) 资助的一个项目,基于j 2 e e 可以允许多个客 户连接多个数据库。e l d 嬲符合w 曲s e i c 髂规范,也提供符合o g s i ( o p 髓g 甜 s e r v i c 器h l 仔勰仃u c t i l r e l 的网格数据访问服务。与上面两个项目相比,e l d 嬲提供 的接口较多,除了可以用其设计的j a v a 接口访问数据库,还可以通过标准的 w 曲s e n ,i c 髓和g r i ds e r v i c e 接口访问数据库。e l d 觞支持访问分布在不同机构 上的关系型数据库和沮。数据库,但现阶段e l d 鹪仅支持 勾s q l 。与前两个 项目相同e l d 够也不支持跨数据库的多表联合查询。 4 、s r b 。美国圣地亚哥超级计算机中心( s 肌d i e g os u p e r i i l p u t e rc 锄t e r ) 的s i m ( s t o r a g er e l l r c eb r o k 旬1 8 1 提供了一套在分布环境下统一访问异构存 储系统上的数据的中间件系统,包括文件系统、数据库、文档系统等,为上层 应用和用户提供透明的数据服务,s r b 采用了集中式的元数据目录m c a t ( m e t a h l = f b 咖撕o nc a t a l o g ) 服务广域的数据访问和管理,最初并不支持网格环境下使 用,为了支持数据网格的特点,已经进行了改进,正在进行分布设计和实现, 对多域管理环境进行支持,主要以对文件的访问为主。 5 、p 0 0 l - r a i ,。欧洲原子核研究组织的p 0 0 l r a i ( p o o lr e l a t i o n a l a b s 昀c t i o nl a y 神项目1 明可以为多个关系数据库提供面向关系的抽象层并且提 供一种非商业化的数据库访问方法,其主要缺点是不支持多数据库的并行查 询。 6 、0 g s a _ d q p 。英国e s d 锄c e 的o g s a - d q p 【”l 口1 1 项目实现了对基于网格 数据库的分布式查询,并且能够通过将连接操作分布在网格的多个节点上来提 山东大学硕士学位论文 高网格的并行处理能力,其主要缺点是应用限定于a o b 吣平台。 7 、d i s c o v e r yl i i l l 【。m 的d i s c o v e f ) rn n k 阎实现了对于包括关系数据库在 内的多种数据源的数据集成,但是该项目限定于生命科学领域不直接支持其他 领域。 8 、蹦锣。美国i o w a 大学的u d t y 项目瞄1 实现了利用) m 几文件进行数据库连 接对外则提供j d b c 驱动,其主要缺点是无法处理跨越多数据库的多表查询。 在国内方面,国防科技大学开发的g r i d d a e i l 数据网格系统能够集成广域网环 境下异构的各种存储资源,例如l i n u xw 缸d o w s 等单机文件系统、n f s 等网络 文件系统以及数据库系统等,并将它们统一组织起来,通过系统提供的数据访 问和管理服务屏蔽底层存储资源异构性和多个管理域,为用户提供直观、一体 化的文件视图、方便规范的访问和操作方法。此外还有中科院的织女星网格项 目脚l 口习浙江大学的d a r t g 砌闭项目等等。 综上所述,目前国内外的相关研究,主要集中在访问接口和集成领域【1 3 】, 即如何设计一套统一的接口和让用户可以通过数据库无关的方式来综合使用 存储在不同数据库的数据;并且在这个方面已经实现了很多基本功能,但对一 些实用中非常重要的高级功能( 比如跨数据库的连接查询) 都没有实现。所以本 文的研究重点在于如何在这些已有实现的基本功能之上提供现实应用所需的 高级功能。 1 2 2 模式集成难点 模式集成发展到今天,也有近三十年的历史了,但始终没有较大的技术突 破,其难点可以归纳为以下主要方面: 1 、异构性【2 7 l 田l :被集成的数据源通常是独立开发的,数据模型异构,给 集成带来很大困难。这些异构性主要表现在:数据语义、相同语义数据的表达 形式、数据源的使用环境等。 2 、分布性:数据源是异地分布的,依赖网络传输数据,这就存在网络传输 的性能和安全性等问题。 3 、自治性:各个数据源有很强的自治性,它们可以在不通知集成系统的前 提下改变自身的结构和数据,给数据集成系统的一致性提出挑战。 6 山东大学硕士学位论文 为了解决这些难题,人们尝试了很多方法但还没有完全解决数据集成中的 一些难题,这也是人们一直关注数据集成研究的原因。 1 3 课题的研究目标 从前面的介绍可以看出,信息网络时代的到来给国家政府部门的工作提出 了快捷、高效的要求,发展电子政务已是大势所趋。但是目前的电子政务系统 在面临着很多问题,其中一个主要的难题就是信息源异构问题,信息集成技术 就是研究异构数据之间的集成问题,它将这些孤立的数据都集成起来,并且提 供给用户一个统一的视图,使用户有可能从巨大的数据资源中获取所需的东 西。 尽管目前在国内外已经有很多的数据集成方法和系统被提出,但是作为各 种信息源的一个集成平台,总是难于考虑到集成中的方方面面。在对多异构分 布自治的信息源的集成中,首要解决的就是这些数据源之间产生的模式冲突。 另外,目前大多数的研究均停留在理论层面,还没有比较好的成型的系统或原 型。 本课题以社保信息领域( 以山东省为例) 为背景下,以s g r i d ( s o c i a i h l s l l r 趾c eh l f o f i l l 撕o ng 耐) 为网格架构,设计了此网格环境下的模式集成框架, 通过映射表、原语操作、查询分解算法解决了模式冲突问题,并给出了较好的 用户界面。最终实现了一个模式集成的网格应用原型系统。 1 4 本文的研究内容和主要工作 本课题以社保信息领域( 以山东省为例) 为背景下,以s g f i d ( s o c i a l h l s u r 趾c eh l f b 咖撕o ng r i d ) 为网格架构,研究网格环境下的模式集成理论方法, 模式集成框架构建、模式映射生产和查询分解算法,实现网格数据库环境下的 模式集成。 为了实现这一目标,本文结合o g s a 和语义网技术幽】p “,在s g f i d 这个网 格模型基础上,它遵循并且扩展了o g s i 规定的标准接口,针对该标准不支持语 义的缺陷,s g r i d 力口入了本体、元数据、本体一数据库映射等相关机制,成为了 一个真正意义上的语义网格。本文提出了一种新的利用本体整合分布式异构数 山东大学硕士学位论文 据库资源的机制,并且实现了相应的查询构造算法。该机制利用本体概念和数 据库词汇的映射以及本体概念层次和数据库模式的映射成功地解决了分布、自 治、异构等问题。 本文的主要工作: l 、设计了社保信息网格环境下的模式集成框架; 2 、通过设计使用映射表、原语操作和查询分解算法,解决了模式冲突问题, 实现了一个模式集成的网格应用原型系统; 3 、利用网格和w e b 服务技术,最大程度地保留了现有系统,并且设计并给 出了较好的管理用户操作界面,提高了用户使用的方便性。 1 5 本文的结构 本文第二章介绍了s g r i d 基本框架和体系结构,介绍全局服务器、各地网 格节点、本体服务器、u d d i 、p o r t a l 等各系统部分构成,并详细描述其功能, 说明系统在各组成部分的配合下如何实现运作流程。 第三章介绍了系统模式集成的框架。为解决模式冲突问题,本文设计使用 了映射表、原语操作和查询分解算法。本章将从理论层面对系统设计进行详细 说明。 第四章介绍了s g f i d 的实现。先介绍整个系统的搭建,之后详细介绍其中 模式集成的具体解决办法,重点说明查询分解算法。 第三、四章是全文的重点。 第五章对全文进行小结,并对今后的工作提出一些设想。 山东大学硕士学位论文 2 1 概述 第2 章s i i g r i d 基本框架和体系结构 s g 耐( 社保信息网格) 项目为山东省科技攻关项目,其具体内容是基于 山东省已有的社会保险信息平台,借助山东大学校园网和山东省高性能计算中 心搭建信息网格软件环境,开发社会保险信息网格服务中间件,将省内各个地 市、县的劳动社会保障系统的网络资源和信息资源有效的组织起来,统一部署 信息网格节点系统软件,构建具有山东省特色的信息网格平台,最终组建统一 社会保障和市民服务系统网格,将现有的社会保障系统,养老金系统,医疗保 险系统和公积金系统等连接起来,组成统一的社会保障和市民服务平台,覆盖 全省1 7 个地市,共计1 8 0 余个社保机构( 综合单位、省直) 和2 3 4 0 个基层单位, 总的信息存储容量为1 0 0 t b 以上,可以让全省上千万参保人员享受到信息网格 带来的巨大便利。 系统核心问题是建立、管理和使用开放环境下、动态、跨组织的资源共享 规则。在网格基础框架( g 脚i l l 矗船t n l c t l l r e ) 中,这种共享规则通过一系列网 格协议来表述,这些协议定义了跨组织,跨平台的网格单元之间的互操作规则, 使各种类型资源能够在开放、异构的环境下动态整合成适应不同应用需求的虚 拟组织。对于s g r i d 来说,其主要功能主要包括三个方面: 1 、统一的数据资源访问接口。针对地理上分布的独立、异构的数据库资源, 网格为它们定义了包括数据库元信息获取在内的统一的资源层访问元语。异构 的数据库系统可以通过一致的服务接口进行封装,抽象成对等的网格数据库资 源。除了为原有的d b m s 提供网格接口外,数据库资源层的设计还引入了新的 机制,以支持网格动态的海量数据传输、数据互联等应用需求。 2 、基于语义的资源( 服务) 注册与发现机制。资源发现的本质是将用户需 求与资源的特征参数进行匹配,在多个候选资源中筛选可用对象p ”。对于数据 库资源而言,数据库资源语义是数据库资源发现过程中的一个重要的资源特 征,用户希望能够根据资源语义信息来鉴别网格上数据库资源是否符合自己的 9 山东大学硕士学位论文 兴趣要求或者是否达到预期的性能。 3 、动态数据整合支持。这实际上是s g f i d 的核心功能,数据库资源的整 合是在多个分散独立的数据库模式基础上,形成统一的数据视图,支持用户通 过单一的访问入口对分散的数据进行集中操纵。各分布式数据库模式与全局模 式之间需要建立映射,在这一映射的基础上网格完成查询的分解和分发,并且 对得到的结果进行综合。 2 2s i i g r i d 基本框架 2 2 1 框架图 本系统框架如下: 用户 2 2 2 系统各部分的组成 图2 - ls i i g r i d 系统框架 l 、全局服务器:系统的中心节点。其中,规则库是业务规则库和查询分解 规则库的统称。业务规则库包括全局业务的工作流信息,为用户访问系统提供 基本业务参数,向业务处理器提供业务分解规则:查询分解规则库提供全局查 询分解规则。业务处理器负责业务的查询分解,结果处理器负责对各网格节点 返回查询结果的汇总。 山东大学硕士学位论文 2 、各地网格节点:系统中各地已经存在本地数据库,使用w r a p p 豇实现对 本地数据库的封装,通过全局模式和本地模式间的映射完成对异构数据库的统 一访问。整个节点以统一的w e bs e 九,i c e 形式对外发布。同时,w r 印p e r 的使用 确保了数据的独立性和安全性。 3 、本体服务器:存储全局本体,负责为全局的元数据提供标准,同时用于 直接消除命名冲突等造成的模式冲突。由全局管理员负责创建并维护,并对其 它网格节点提供本体查询服务。 4 、u d d i ( 服务注册中心) 【3 2 l :对所有网格节点的w 曲s e i c e 提供注册、 注销、查询服务。每个本地网格节点并入系统时,需要在此登记注册,离开时 需要注销,当长时间没有相应时,u d d i 负责注销。查询功能体现为,由业务 处理器根据服务名称和要求返回服务接口。 5 、p o r t a l 【3 3 】:系统对外的门户,用户通过p o r t a l 访问网格。p o n a l 为系统提 供个性化设置、单一登陆,从不同数据源分别获取数据,并且将返回信息放在 网页之中组合而成的呈现平台。当不同等级的使用者使用将获得不同的信息内 容。 其中,l 一4 都是网格节点,它们对外展现w 曲s e n ,i 。全局管理员负责规 则库和全局本体库的维护,每个网格节点( 如济南节点) 都由本地管理员负责 局部本体库和映射表的维护。 2 2 3 系统运作流程 1 、用户通过p o r t a l 访问网格系统,对系统提出业务请求,业务处理器根据 用户的业务选择,从规则库读取业务参数,返回给用户,供用户填写具体业务 需求。 2 、用户依据p 0 r t a l 的参数提示,向全局服务器提出详细业务请求,业务处 理器根据业务规则和查询分解规则,对全局业务进行分解,分解后的子查询, 通过查询u d d i 获取网格服务节点相应信息,进而实现对网格节点相应w 曲 s e i c e 的访问。同时业务处理器制定相应结果处理规则并等候返回结果。 3 、各网格节点接收并实现业务处理器子查询的业务请求,将结果以s o a p 消息的形式返回结果处理器。 山东大学硕士学位论文 4 、结果处理器依据业务处理器提出的结果处理规则,对各节点的返回结果 进行综合处理,将最终结果通过p o r t a l 返回给用户。 2 3 本章小节 本章介绍了s g r i d 的基本框架,介绍了各组成部分的作用原理,展示了其 体系结构,说明了各部分的功能及系统运作的具体流程。 山东大学硕士学位论文 3 1 概述 第3 章s i i g r i d 中的模式集成设计 为了对系统进行模式集成,需要做两个基本工作:模式映射和查询分解。 模式映射( s c h e mm a p p i n g ) 是异构数据库系统中全局模式与局部模式、 局部模式与本地模式之间联系的集合。下面给出集成的框架,系统将通过相关 原语操作构造一系列模式映射表,从而完成模式映射。之后通过查询分解算法 通过模式映射表对全局任务分解,进而实现完整的模式集成。 3 2 模式集成架构 从数据的角度出发,系统的模式集成架构如图3 1 所示。 图3 1s g i i d 模式集成架构 用户通过p o r t a l ,感觉自己看到的是统一的全局数据库( 全局模式) ,只需 关心业务即可,其它细节都是透明的。以全局模式展现的业务,首先由业务处 理器根据业务规则划分为服务,进而按照查询分解规则分解为提交给各个网格 节点的服务请求。 山东大学硕士学位论文 各个服务请求在网格节点对相应的w 曲s e n ,i c e 进行服务请求,此时服务请 求面对的是局部模式。局部模式通过映射表的转换,与本地数据库( 本地模式) 对应起来。 3 3 映射表的定义 系统对数据库和映射关系给出如下描述叫,关于模式有: - t a b l e s 表示模式中的表结构,含 表名和属性名 _ ( t s ,f s ,t d ,f d t a b l e j o i n s 表示模式中两个表之间的连接 - s c h e 岫表示模式,由表和表之间的连接关系组 成 关于映射有: - t a b l e m a p p i n g s 表到表的映射( 1 :1 或1 :n ) - f i e l d m a p p i n g s 属性到属性的映 射 _ d a t a m a p p i n g s 数据到数据的映射,如计量 单位的转换 定义3 1 :全局一本地模式映射表m 叩p i n g t a b l e 定义为 m a p p i n 盯曲l e = 1 曲l 舐i a p p i n g suf i e l n 蜘p p i n g s ud a t a m a p p i n 擎 为便于编程实现,在后面算法中,m 印p i i l g t a b l e 的元素均写作 ,对应本地 模式眈= ,此时全局模式一个表的信息在本地模式中 的一个表中有可能无法完全表示。 解决策略:考察t l 、t 2 在集成中的语义,对其结构进行改变,即对t l 、 t 2 的结构补充缺失属性去除多余属性。在t 2 的语义无法覆盖t 1 的语义时, 在其模式中添加其它表,组成表序列q 2 ,t 3 ,t k ,最终使得此序列组合成的 概念完全覆盖t 1 的语义( 使用t 曲l e m a p p i n g s 原语操作) 。 山东大学硕士学位论文 需要说明的是,由于表结构冲突现象大量存在,且一次模式映射的建立为 单向映射,所以此过程比较繁琐。 3 5 3 属性冲突 属性冲突又分如下几种情况:属性结构冲突、属性类型冲突、属性长度冲 突。 定义3 4 ;若描述同一含义的属性p 在t l 和亿中有不同的结构,则t 1 p 和t 2 p 间存在属性结构冲突。 例如:模式s 1 中p e r s o n 表中,使用n a m e 表示人的姓名,而模式s 2 中p e o p l e 表中,使用f i r s t m e 和l a s t n a m e 共同表示人的姓名,则p e r s 和p e o p l e 之 间发生了属性结构冲突。 解决策略:增加或删除t 1 或t 2 的相应字段,使其属性结构达到一致。可 使用a d d f i e l d 或d e l f i e l d 原语操作。 定义3 5 :f l ,f 2 分别是t 1 ,1 2 的属性,两者描述同一特征但是属性类型 不同,则存在属性类型冲突。 例如:模式s l 中学生身高属性f 1 的计量单位为米,而模式s 2 中学生身高 属性f 2 的计量单位为英寸,则两者间存在属性类型冲突。 解决策略:从策略库查找两者间的对应关系,发现冲突,进行标记,为后 面的数据冲突做准备。由于数据冲突解决了数据不一致问题,所以此冲突无需 直接处理。 定义3 6 :描述同一特征的属性具有不同的数据长度。 解决策略:理论上,此冲突的解决方法为统一定义为最大者的长度,不过 后面数据冲突解决了数据精度不一致问题,所以此冲突无需直接处理。需要做 好标记,为后续工作做准备。 在建立全局模式时尽可能保持属性1 n 的高度抽象性,如果初始建立不当, 需要后续修改,使得1 n 和本地模式的属性呈l :1 或者l :n 的形式。其中, 一对多时,1 n 和本地模式中多个属性的运算表达式呈对应关系。 山东大学硕士学位论文 3 5 4 语义冲突 定义3 7 :d 1 是t l 的一个字段f 1 的数据项,d 2 是t 2 的一个字段f 2 的数 据项,两者表示相同实体,但是量纲不同,则t 1 f l 和t 2 f 2 存在量纲冲突。 例如:表示人员身高的单位,可能有“米”和“厘米”的差异。 解决策略:单纯的量纲之间一般只是比例关系,较负责的比如温度的摄氏 华氏转换也仅是简单函数关系。解决办法就是使用这个函数映射,采用 a d a t a m a p p i n g 。如a d d d a l a 脚p i n g 订1 f 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论