(计算机软件与理论专业论文)面向服务的异构数据集成.pdf_第1页
(计算机软件与理论专业论文)面向服务的异构数据集成.pdf_第2页
(计算机软件与理论专业论文)面向服务的异构数据集成.pdf_第3页
(计算机软件与理论专业论文)面向服务的异构数据集成.pdf_第4页
(计算机软件与理论专业论文)面向服务的异构数据集成.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)面向服务的异构数据集成.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着网络的发展和网络应用程序功能的增强,许多分布式应用的数据层所包 含的数据资源的特点发生了很大的变化,从单一、集中、静态到异构、分布、动 态,增加了应用开发的难度。这些新的网络应用面临的一个难题是:怎样共享多 个分布的异构的数据资源,传统的联邦数据库或者分布式数据库管理系统并不能 很好解决这个问题。面向服务的体系结构( s o a ) 是一种新型的系统设计架构, 它可以根据需求对网络中松散耦合的粗粒度应用组件进行分布式部署、组合和使 用,允许采用不同技术实现的、封装了业务功能的服务组件进行互操作。本文参 考s o a 架构的思想提出了面向服务的异构数据集成,把数据集成系统的功能模 块封装为服务组件,服务之间的互操作遵循统一的标准,使得不管用何种技术实 现的数据服务都可以互相调用,也可以把几个服务组合起来实现复杂的数据集成 任务。面向服务的异构数据集成的目标就是在不改变数据资源原有结构的前提下 封装多个分布的异构的数据资源从而提供一个统一的数据服务接口,应用程序可 以根据实际的需求调用组合这些服务以制定数据集成任务,从而构建一个灵活应 变的数据层。 本文针对分布式异构数据集成的特点和目标,分析了有关服务和数据集成的 国内外研究成果之后,提出了一个用于在逻辑视图层上描述数据资源的结构和语 义等信息的数据模型,并设计了一个可以动态扩展的面向服务的异构数据集成方 案,实现了对异构数据的有效集成。本文首先介绍了与研究内容相关的知识,包 括:o g s ad 越、本体、w 曲s e r v i c e 、分布式数据的特点和g a v 、l a v 这两种 数据模式的映射方法;然后分析各种数据模型的特点,提出了基于本体的数据模 型,该模型描述了数据所代表的概念及相互关系,可以对多种类型的数据资源建 模,满足新式应用的需求;接着在基于本体的数据模型的基础上提出了一个面向 服务的异构数据集成架构,对各个服务组件的功能和实现原理进行详细描述,其 中数据访问服务封装了数据资源以暴露给集成系统,这样仅完成了对数据访问方 式的统一,即服务调用者无需了解数据资源的类型、不用考虑该使用哪种数据库 连接中间件,统一采用调用服务的方式访问数据,但是仍然需要知道数据服务的 地址和需要访问的数据资源的数据模式,本文为了让应用程序在访问数据资源时 山东大学硕士学位论文 无需掌握每个数据资源的数据模式,建立了描述数据资源的本体服务,在数据模 式( 用本体中的类、属性表示的) 之间建立联系,访问数据时通过本体服务就可 以获得数据资源的数据内容。 最后介绍了面向服务的异构数据集成在实际项目中的应用情况,总结了本文 工作在实际应用和理论研究方面的创新之处,总而言之,面向服务的异构数据集 成可以根据应用需求灵活配置服务组件,将数据资源有效地集成起来,隐藏了数 据资源的细节,提供了对分布式异构数据资源的透明访问服务。 关键词:数据集成,异构,面向服务,o g s a - d a i i i 山东大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n dw e b a p p l i c a t i o n ,d a t ar e s o u r c e sa c c e s s e db y m a n yd i s t r i b u t e da p p l i c a t i o n sc h a n g e dal o t , f r o mo n e - t y p e ,c e n t r a l i z e d ,s t a t i ct 0 h e t e r o g e n e o u s ,d i s t r i b u t e d , a n dd y n a m i c f o rt h e s en e ww e ba p p l i c a t i o n s ,h o wt o s h a r ed a t ar e s o u r c e si sah a r dp r o b l e mo fs o f t w a r e ,b e c a u s et r a d i t i o n a lf e d e r a t e d d a t a b a s ea n dd i s t r i b u t e dd a t a b a s em a n a g es y s t e ma r en o ta b l et os o l v et h i sp r o b l e m s e r v i c eo r i e n t e da r c h i t e c t u r e ( s o a ) i san e ws y s t e m d e s i g na r c h i t e c t u r e ,i td e p l o y s , i n t e g r a t ea n du s el o o s ec o u p l e dl a r g ee l e m e n ta p p l i c a t i o nc o m p o n e n t si ni n t e m e t , b u s i n e s sp r o c e s s e sa r ep a c k a g e da ss e r v i c e sw h i c ha r ei m p l e m e n t e du s i n gd i f f e r e n t t e c h n o l o g i e sa n dc a nc o m m u n i c a t ew i t he a c ho t h e r i nt h i sp a p e rw ep r o p o s es e r v i c e o r i e n t e dh e t e r o g e n e o u sd a t ai n t e g r a t i o nr e f e r e n c i n gi d e a so fs o a ,f i r s t , w ed i v i d e d a t ai n t e g r a t i o ns y s t e mi n t od i f f e r e n tf u n c t i o nc o m p o n e n t s ,a n dt h e ne n c a p s u l a t et h e s e c o m p o n e n t si n t o s e r v i c e sw h i c hh a v eas t a n d a r df o ri n t e r o p e r a t i o n ,s om e yc a n r e q u e s te a c ho t h e rn om a t t e rw h a tl a n g u a g ea n dt e c h n o l o g yt h e ya r ei m p l e m e n t e d u s i n g ,a tl a s t ,w ec o u l di n t e g r a t es e v e r a ls e r v i c e st oc r e a t ead a mi n t e g r a t i o nt a s k t h e g o a lo fs e r v i c eo r i e n t e dh e t e r o g e n e o u sd a t ai n t e g r a t i o ni st op r o v i d eau n i f i e dd a t a a c c e s si n t e r f a c ea n dt h e r ei s1 1 0n e e dt oc h a n g eo r i g i n a ld a t ar e s o u r c e s s t r u c t u r e ,d a t a u s e r sc o u l dc r e a t ed a t ai n t e g r a t i o nt a s ku s i n gt h e s ei n t e r f a c e sa c c o r d i n ga p p l i c a t i o n r e q u i r e m e n t s i nt h i sp a p e rw es t u d yr e s e a r c hr e s u l t sf r o mh o m ea n da b o a r di nt h ef i l e do f s e r v i c ea n dd a t ai n t e g r a t i o n ,a n di n t r o d u c eac o n c e p td a t am o d e lw h i c hc a nd e s c r i b e t h es t r u c t u r ea n ds e m a n t i ci n f o r m a t i o no fd a t ar e s o u r c e s ,t h e nd e s i g nad y n a m i c a l l y e x t e n s i v ed a t ai n t e g r a t i o na r c h i t e c t u r ew h i c hi ss e r v i c eo r i e n t e da n da b l et or e a l i z e d a t ai n t e g r a t i o ne f f e c t i v e l y f i r s t ,w ei n t r o d u c eo g s a _ d a i ,o n t o l o g y , w e bs e r v i c e , c h a r a c t e r i s t i c so fd i s t r i b u t e dd a t aa n dm a p p i n gm e t h o d so fd a t as c h e m e ( g a va n d l a v ) ;s e c o n d l y , w ea n a l y z es e v e r a ld a t am o d e l s ,t h e np r o p o s ead a t am o d e lw h i c hi s n a m e d o n t o l o g yb a s e dd a t am o d e l ,a n dc a nd e s c r i b eo b j e c t sa n dt h e i rr e l a t i o n si n i i i 山东大学硕士学位论文 o u rr e a lw o r l d w ec a l lc r e a t ed a t am o d e lf o rm a n yk i n d so fd a t ar e s o u r c e s ,a n dt h i s m o d e lc a nm e e tt h er e q u i r e m e n t so fm a n yk i n d so fn e w a p p l i c a t i o n s b a s e du p o n o n t o l o g yb a s e dd a t am o d e lw ei n t r o d u c eas e r v i c eo r i e n t e dh e t e r o g e n e o u sd a t a i n t e g r a t i o na r c h i t e c t u r e ,a n dd e s c r i b es e v e r a lm a i ns e r v i c e s ,w h i c hi n c l u d ed a t aa c c e s s s e r v i c e ( d a s ) ,o n t o l o g ys e r v i c e ( o s ) ,d a t ai n t e g r a t i o ns e r v i c e ( d i s ) a n ds oo n d a s e n c a p s u l a t e sd a t ar e s o u r c e s ,w h i c ha r ea v a i l a b l et od i s d a su n i f i e st h em e t h o d so f d a t aa c c e s s ,s od i sc o u l da c c e s sd a t aw i t h o u tk n o w i n gt h et y p e so fd a t ar e s o u r c e s ,b u t w es t i l ln e e dt h ea d d r e s s e so fd a s sa n dd a t as c h e m e so fd a t ar e s o u r c e s i no r d e rt o s i m p l i f yt h ep r o c e s so fd a t aa c c e s sf o re n d - u s e r , w ee m p l o yo n t o l o g yt e c h n i q u e st o d e s c r i b es e m a n t i ci n f o r m a t i o no fd a t ar e s o u r c e s ,t h er e l a t i o n sb e t w e e n s c h e m e s d e s c r i b e du s i n go b j e c to n t o l o g ym o d e l ,a n ds o ,u s e r sc o u l da c c e s sd a t a 谢t hk n o w i n g a n yd e t a i lo ft h ed a t ar e s o u r c e s w ea r ea b l et oc o n f i g u r et h es e r v i c e so fo u rs y s t e mt om e e tu s e r s n e w r e q u i r e m e n t s ,a n dp r o v i d eat r a n s p a r e n ta c c e s st oa l ld a t ar e s o u r c e s ,w h i c ha r e c o n c e a l e da n di n t e g r a t e d i nt h ee n d , w ei n t r o d u c eh o ww eh a v ea p p l i e ds e r v i c e o r i e n t e dd a t ai n t e g r a t i o nt os d m s p ( s h a n d o n gm a n u f a c t u r es e r v i c ep l a t f o r m ) ,a n d s u m m a r i z et h ei n n o v a t i o n si nt h e o r ya n dp r a c t i c ea s p e c t s k e yw o r d s :d a t ai n t e g r a t i o n ,h e t e r o g e n e o u s ,s e r v i c e - o r i e n t e d ,o g s a - d a i 1 v 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:碑日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印_ 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:哗 期:圣竖龌:耸岁 山东大学硕士学位论文 1 1 研究背景 1 1 1 数据集成背景知识 第一章绪论 现在计算机网络已经成为人们生活工作中非常重要的组成部分,除了信息展 示和查询外,它还是一个功能强大、服务类型丰富的服务系统。不过在它发展的 初期,人们通过网络仅仅可以传输文件和浏览简单的超文本信息。后来,随着硬 件的更新换代、网速的提高和各种网络技术的成熟,网络提供了更多种类的有效 实用的服务,网络应用更加普及,涉及的应用领域也越来越广泛。计算机网络的 飞速发展推动了计算机各个领域的技术创新和发展,受到需要访问多个数据库的 分布式应用需求的推动,数据库技术的研究热点也扩展到分布式环境中,从而出 现了数据库的集成,例如,数据仓库、分布式数据库管理系统( d d b m s ) 【1 2 】 和联邦数据库( f d b ) 【1 1 1 8 】,针对不同的需求解决了分布在不同网络节点上 的多数据库的统一管理和访问问题。数据仓库通过存储来自多个数据库的数据, 向用户提供数据分析等功能;d d b m s 首先根据全局数据模式和分片方案对数据 进行分片,并建立全局视图和每个局部数据库的映射关系,然后把数据按照预先 设计好的方案存储到分布在网络中的不同计算机节点上的数据库中;f d b 则是 集成已经存在的多个数据库,通过定义数据库之间数据模式的映射关系实现数据 的集成。 数据集成是指组合来自不同数据资源的数据,屏蔽数据资源的多种差异,对 外提供一个统一的数据访问接口【3 】。在多数据库联邦数据库之后,为了提高数 据集成系统的动态扩展能力、减轻集成服务器的存储和管理等负担,出现了基于 中介( m e d i a t o r ) 【1 】的数据集成系统,中介只存储规范的或者通用的数据模型、全 局数据模式与局部数据模式的映射关系,而不存储实际的数据,需要解决的两个 关键问题是全局数据模式和局部数据模式的映射方法【1 5 】【1 6 】和基于视图的查询 处理算法【6 】【7 】【8 】【9 】。在数据集成问题的研究初期,需要集成的数据资源仅是各 种类型的数据库,然而,随着网络和信息化的发展,在网络中分布的数据资源的 山东大学硕士学位论文 种类增多,为不同应用建立的数据资源由于缺乏统一的标准,它们之间的差异也 越来越大。例如,除了数据库这类数据资源外,网络中还存在着各种格式的电子 文档、各种类型的数据文件等。根据有关数据内容的结构、语义等信息描述的精 确程度和表示方式,我们可以把数据资源分为三类:第一种是结构化数据,其信 息的类型、格式等属性是固定的,如产品名称、重量等属性信息,可以查询和更 新这些信息,例如,关系型数据库、面向对象数据库、知识库等各种类型的数据 库,这些数据源中描述数据的元数据信息以数据字典的形式存储,在知识库中, 数据的语义信息和规则的表示是知识库的关键组成部分;第二种是非结构化数 据,该类数据资源没有单独存储和管理数据的结构信息,只用某种格式存储数据 内容,结构和语义等信息都是隐含在程序代码中的,因此这类数据都很难直接根 据数据的内容进行查询等操作,例如,各种电子文档、音频、视频数据;第三类 数据资源是介于以上两种之间的半结构化数据,是一种自描述性数据,这一类数 据资源的数据内容和结构等描述信息是一并出现的,虽然有一定的结构,但却是 不严格的、多变的和不完整的,数据本身存在一定的自述性、动态可变性和一定 的层次性,x m l 是一种半结构化的数据表示方式。所谓半结构化是相对于完全 结构化的传统数据库的数据而言,半结构化是w 曲数据的最大特点。网络中数 据资源的分布性、动态性、数据类型的异构性增加了资源共享的困难度,异构数 据集成就是要集成网络中这三类数据资源,实现数据资源的动态共享,统一数据 的访问方式,使得数据使用者可以透明地访问多种类型的数据资源,而不必关心 有关数据资源的具体信息。 1 1 2 应用背景 制造业是国民经济的支柱产业,是一个国家经济综合实力的重要体现。大力 发展制造业,“以信息化带动工业化、以工业化促进信息化,走新型工业化道路 的指导方针,必然要求我们加快信息技术在工业界的应用。为此,我们国家专门 设立了先进制造技术等领域研究课题,推进制造业信息化技术的发展。s d m s p ( s h a n d o n gm a n u f a c t u r es e r v i c ep l a t f o r m ) 山东省制造业信息化公共服务平台是 山东省自主创新重大科技专项( 2 0 0 6 g g l1 0 4 0 4 5 ) ,由山东省科技厅组织建设, 提供一个基于网络的制造服务环境,它集合山东制造业信息化技术服务联盟所提 2 山东大学硕士学位论文 供的服务资源,开展面向中小企业的专业化、集成化服务,以优质低价服务降低 企业经营成本,促进制造业信息化工程深入实施,提升区域创新能力。该项目需 要完成山东省制造业信息化公共服务平台环境建设,上联制造业信息化技术服务 联盟,下联生产力促进中心、创业服务中心等中介服务机构的形式开展服务;依 托联盟拥有的多学科专家和服务资源,提供面向汽车制造及零配件、装备制造、 家电等不同产业链的个性化服务内容;依托地市生产力促进中心和高新技术创业 服务中心等中介服务机构,联系企业,开拓服务需求:制定相应的业务开展办法 和奖惩措施,调动中介服务机构的积极性和主动性,推动业务的顺利开展;更重 要的是在平台建设中,形成针对区域和产业特色的运营机制和运行规范,并同时 完成若干平台支撑关键技术和制造业服务关键技术研究。 i 用户界面,用户工作区 圜圜圜囡圈圈圈 i 集成l i 集戒 l 集成| i 建模l | y 。| i 叭皿l l 越伍l 更 撑 互z 台 图1 is d m s p 架构图 s d m s p 是一个开放的可扩展的服务平台,服务提供者可以把自己的空闲资 源以服务的方式发布到平台上,在平台各种工具的辅助下,服务调用者就可以通 过组合自己订购的服务完成指定的任务。平台分为三个层次:最底层是资源封装 层,对网络中各种共享资源进行标准化封装;平台中间层为基础服务,包括数据 集成、用户权限管理、服务注册、网络监控和信息服务等基础服务;顶层为p o r t a l 用户界面,根据不同的业务需求对底层的服务进行界面级的集成。符合平台服务 交互标准的服务都可以加入到平台中,通过服务化的方式集成各种制造资源,平 台呈现给用户的是界面可进行个性配置的p o r t a l 门户,平台用户登录后就可以使 用各种服务、共享这些资源。 山东大学硕士学位论文 在支撑s d m s p 平台的基础服务中,数据集成服务负责对数据资源进行统一 的管理,通过屏蔽不同数据资源的差异性为平台中的其他服务提供统一的数据访 问接口,对数据资源拥有者而言,他们只需要提供数据资源的服务接口,而不必 修改数据资源,因此不会影响原有应用程序对该资源的访问方式。平台的有些业 务应用需要访问多个分布的异构的数据资源,这些应用是以服务组件的方式提供 给用户的,因此平台需要这些服务组件具有这样的特点:具有良好的动态扩展性, 而且最好独立于具体应用实例需要访问的数据资源,显而易见,通过数据集成服 务就可以实现应用服务组件和具体的数据资源的分离,让业务应用可以透明地访 问数据资源。在平台中,各种数据资源的加入可以是动态的,其拥有者具有上线 离开等各种决定权,而且数据资源也是异构的:它们的存储类型不同,有的存储 在各种类型的数据库系统中,有的保存在各种文档中,所以数据的访问自然不同; 即使只考虑数据库类型的数据资源时,也会有诸如对同一概念理解不一致导致的 种种异构性,例如,简单的命名和表结构的不同,还有数据本身内容和语义的不 一致等等;封装数据资源的接口所用的编程语言也可能不同。因此,业务应用要 透明地共享这些异构数据资源,需要数据集成服务来屏蔽数据资源的异构性。 1 2 相关研究 数据集成的研究始于2 0 世纪7 0 年代中期,至今已经有3 0 多年了,从开始 的多数据库的集成到现在的多种异构数据资源的集成,数据集成的范围和影响随 着网络、人工智能等相关领域的发展进步而不断扩大,同时也形成了数据集成的 理论体系【1 0 3 1 【4 】。在数据集成的研究领域中,最早出现的技术是多数据库系 统 5 】和联邦数据库系统,其重点在于连接硬件设备异构的计算机系统,解决了 一定程度的结构和语法异构,实现了地理位置、数据模式等的透明性,目前,有 关分布的大规模数据库集成的研究工作聚焦在自适应和在线集成技术上 1 7 】。随 着网络的兴起、多种类型数据资源的广泛使用,出现了分布式数据库系统【4 2 】和 多种异构数据集成技术,前者主要解决了分布式数据库的统一管理和访问问题, 提高了数据访问速度、安全性以及存储容量,后者的目标是屏蔽多种类型的数据 资源的差异,提供一个可以透明地访问这些数据资源的统一的数据访问接口,比 较有代表的技术有:w r a p p e r m e d i a t o r 体系结构、中间件技术【4 l 】。语义w e b 1 4 、 4 山东大学硕士学位论文 本体论的发展和知识理论技术的运用推动了数据集成中语义异构问题的研究,随 之出现了很多基于本体【1 3 】、逻辑【4 3 】的异构数据集成试验系统。 异构数据集成研究的是如何集成分布在网络中的异构数据资源为用户提供 一个统一的数据访问接口,而网格是把地理位置上分散的资源集成起来的一种网 络基础设施,网格中的服务都遵循统一的标准因而具有互操作性,从而实现资源 共享和分工协作的目标,在网格上,人们不仅能共享信息资源,而且能共享计算 资源、存储资源、仪器设备等各种可以通过网络使用的资源。通过以上两个概念 的定义可以看出,两者有相似之处,数据集成可以利用网格这种新的网络基础设 施实现更广泛的数据资源的集成。在网格的研究领域中,数据网格是以分布在网 格中的数据资源为研究对象的,它为各种应用提供了一个高性能、大容量、高速 传输的并行分布广域计算平台,其应用领域主要包括高能物理和粒子物理、生物 医学研究、航空航天、数字地球、大型武器模拟、大型数据库和数据仓库。在数 据网格研究领域,美国和欧洲处于领先地位,他们的研究范围和规模都比较大, 并且已经推出了一些试验系统,其中最著名的是以欧洲数据网格项目、美国的国 际虚拟数据网格实验室i v d g l 和p p d g 项目,而最著名的数据网格系统工具是 g l o b u s 中的数据网格支撑模块和s d s c 的s i m 系统。 g t o b u s 系统主要由美国a r g o n n e 国家实验室和南加州大学联合研制。它借鉴 了因特网和u n i x 的开发路线,不是构造一个完整的系统,而只是构造一套底层 的开发工具,采用模块化设计方式,可升级或替换,是一个中间件系统。g l o b u s 系统最初是面向计算网格的,后来由于数据网格应用的需求迫切,g l o b u s 系统 在原有的基础上增加了数据网格的功能,对数据的高速传输、数据复制、数据复 制的选择、元数据管理等进行了研究和实现,成为数据网格应用的开发平台。 美国圣地亚哥超级计算中心s d s c 的s r b 存储资源代理系统是用途较广的数据 网格软件之一。s r b 为用户提供了一个访问文件系统、档案系统、数据库系统等 多种异构存储系统的统一接口,屏蔽了存储系统异构的特性。它支持广域网环境 下多种数据源的访问,提供了复制、复制数据的访问、文件的汇集、分布文件的 逻辑集合等功能。目前,s r b 系统已经被几十多个单位使用,包括英国的国家网 格、美国的联邦数据库等。 目前,有关数据库网格的研究和实践还处于起步阶段典型的工作有d a i s 工 山东大学硕士学位论文 作组制定的网格环境下访问数据库的协议和中间件,如o g s a - d a i , o g s a - w e b d b ( o g s aw e bd a t a b a s e ) ,o g s a d q p ( o g s ad i s t r i b u t e dq u e r y p r o c e s s i n g ) 等。相关的工作有m y g r i d ,p o l a r * ,g d i s ( g r i dd a t ai n t e g r a t i o n s y s t e m ) ,p o q s e c ( p a r a ll e lo b j e c tq u e r ys y s t e mf o re x p e n s i v ec o m p u t a t i o n s ) , c o d i m s - g ( c o n f i g u r a b l ed a t ai n t e g r a t i o nm i d d l e w a r e f o r t h eg r i d ) , p a l a d i n ( p a t t e r n b a s e da p p r o a c h t o l a r g e s c a l ed y n a m i c i n f o r m a t i o n i n t e g r a t i o n ) ,d a r t g r i d ,s d g ( s c i e n t i f i cd a t ag r i d ) 等。o g s a - d a i 能无缝地 实现数据库与网格的集成,包括关系数据库和x m l 数据库等;o g s a - w e b d b 基于 o g s a d a i 提供访问与集成w e b 数据库能力;o g s a - d q p 是基于o g s a - d a i ,面向并行 处理的查询处理机制;p o l a r * 是支持特定领域的科学网格,也是基于o g s a 体系结 构,并预知数据资源:c o d i m s g 是中间件查询系统,主要基于吞吐率动态协调查 询处理节点;m y g r i d 是英国e s c i e n c e 核心项目的代表,为生命科学研究提供了一 套中间件软件,其基于英国o g s a d a i 开发的o g s a - d q p 实现数据库的访问和集成; g d i s 采用o g s a - d q p ,o g s a - d a i 和g l o b u st o o l k i t3 中间件,并基于服务框架实现 x m l 数据集成。p o q s e c 透明地实现科学数据查询和数据分析,其数据包装为原始 数据格式,而不是s o l 数据库数据,但提供类似s q l 的查询处理机制;p a l a d i n 基于 图匹配引擎实现数据集成。d a r t g r i d 是针对中医药应用构建的数据库网格环境, 实现数据库的服务化访问和数据的分布查询,主要工作在语义层;s d g 是面向科 研数据处理构建的数据网格,其基于j d b c 实现与数据库的连接,并提供统一的访 问接口实现异构数据集成。 1 3 本文研究内容 应对新的网络环境下的应用需求,为了集成多种异构数据资源以实现透明访 问这些资源的目标,本文在项目开发的实践经验的基础上,提出了一种在逻辑视 图层上的数据资源概念表示模型,利用本体在语义表达方面的优势,增强了模型 对于数据的语义关系的表示能力;在分析服务平台中各种应用的需求和数据资源 的特点,并研究了面向服务架构的理论和实现方式后,提出了异构数据集成的服 务架构,这种面向服务的异构数据集成具有很好的扩展性,可以很方便的应用到 6 山东大学硕士学位论文 新的系统中。 1 4 本文组织结构 本文要阐述的课题是面向服务的异构数据集成,在下面的第二章首先给出该 课题所需的一些基础知识的介绍,主要包括网格环境中的数据访问和集成服务 ( o g s a - d a i ) ,描述概念之间语义关系的本体理论,异构数据的特点分析,在 数据集成中使用的数据模式映射方法以及系统实现用到的x m l 和w e bs e r v i c e 技 术;第三章首先介绍了常用的数据模型,然后提出了可以为大多数数据资源建模 的基于本体的数据模型,并讲述了异构数据资源表示中的关键问题;第四章给出 了异构数据集成的服务架构,重点介绍了几个关键服务的功能和原理;最后在第 五章介绍面向服务的数据集成在s d m s p 项目中的使用情况,总结本文的要点并 展望以后的工作计划。 本论文的研究来源于山东省自主创新重大科技专项“山东省制造业信息化 服务平台( 2 0 0 6 g g l l 0 4 0 4 5 ) 、国家8 6 3 计划课题“制造网格与制造资源协同管 理技术研究( 2 0 0 3 a a 4 1 4 3 1 0 ) 等科研项目工作。 7 山东大学硕士学位论文 第二章相关知识介绍 o g s ad a j 【2 】开放网格服务架构数据访问和集成( o p e nc - r i ds e r v i c e s a r c h i t e c t u r e ,d a t a a c c e s sa n di n t e g r a t i o n ) ,它是一种可以让各种数据资源( 例如, 关系或x m l 数据库) 通过w e bs e r v i c e s 访问的中间件( 如图2 1 ) ,支持数据的查 询、更新、转换和传送,可以部署到g l o b u st o o l k i t 和a x i s 上使用。支持d b 2 、 o r a c l e 、x i n d i c e 、m y s q l 等数据库管理系统。网格数据库是对现有数据库的网格 化,基于开放网格服务体系结构提供网格数据库服务,使网格用户或其他网格服 务可通过网格数据库服务访问网格中的各种异构数据库,从而达到数据资源的高 度共享和协同处理,对数据资源的访问更加透明、高效、可靠,网格数据处理的 能力更强,满足虚拟组织的数据处理需求。 r o l a t 0 n a l c l a t a b a 軎e m l d 日t a b a s e i n d x d 产l i e 图2 1 用户通过o g s a _ d a i ( 作为w e bs e r v i c e ) 访问各种数据资源 o g s ad a i 项目致力于建造通过网格访问和集成来自不同的孤立数据源的 数据的中间件。这个项目是由u k d a t a b a s e t a s k f o r c e 提出构想,并紧密地和全 球网格论坛数据访问和集成服务工作组( g g fd a i s 2 w g ) 以及g l o b u s 团队一 起工作。总体上,o g s ad m 与d a i s 相符合,它也努力成为d a i s 网格数据 库服务推荐标准的第一个参考实现。o g s ad a i 的目标是通过网格进行数据访 问和集成提供统一的服务接口。通过o g s ad a i 的接口,不同的、异构的数据 源和资源被视为逻辑上的单一资源。它还允许这些资源在o g s a 的框架内进行 集成。o g s ad a d 网格服务提供基本的操作来完成复杂的操作,比如数据联盟、 8 山东大学硕士学位论文 在虚拟组织进行分布式查询,但是它隐藏了如数据库驱动、数据格式和从客户端 的传输机制等技术细节。图2 2 简单描述了通过使用两个o g s ad a i 和w o r l d l o w 集成两个数据库的情形和流程。图2 3 中用户通过一个虚拟的数据库和 o g s a _ d q p ( d i s t r i b u t e dq u e r yp r o c e s s i n g ) 透明地访问两个数据库。 w o r k t l o w 叫气岩 w o 咄f l o w 1 - o g s t i 弱 d b l d b 2 | ! s 嘴,w 溺e x p o s et o ,hd 。e g l i v s e rf r o m - h m 舳f o r mk 一 1”。 。i j o i n 惨 d e l i v e r s q l q u e r y纠 l d b 2 ) 图2 2 使用o g s a d a i 进行数据集成的一种隋形 图2 3 使用o g s a d a i 和o g s a _ d q p 进行分布式查询 d a i s 工作组于2 0 0 2 年2 月的g g f 4 会议上成立,它寻求促进与o g s a 相 适应的网格数据库服务的标准,初衷是提供对现有的、自主管理的数据库的一致 访问,而不寻求开发一个新的数据存贮系统,更准确的说,是要使这些系统在网 9 山东大学硕士学位论文 格框架内更易于单独地或共同地使用,同时将支持更广范围的数据资源的访问和 集成,例如:文件系统、来自仪器和设备的数据流。目前使用o g s ad a i 的项 目有:a s t r o g r i d 、b i o g r i d 、b i o s i m g r i d 、b r i d g e s 、f i r s t d i g 、g e n e g r i d 、o d d 2 g - e n e s 、 o ( 谘a 2 、w 曲d b 等。 2 2x m l 和、e bs e r v i c e x m l 是w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 于1 9 9 8 年定义发布的s g m l 的 一个简化子集【2 6 】。它是一种标准化了的可以在w e b 上表示结构化信息的文本格 式。x m l 具有良好的可伸缩性和灵活性,不仅提供对资源内容的表示,同时也 提供资源所具有的结构信息,适合于表示各种信息,因而被广泛接受,目前已经 被应用于多领域中。 x m l 已成为数据表示的一个开放标准,它的这些特征有利于不同系统之间 的信息交流,因而在异构系统的数据交换和集成中发挥了重要的作用【3 l 】 3 2 】 【3 3 。应用到异构数据集成方面 2 7 】【2 8 】【2 9 ,x m l 具有以下特征和优势: 1 x m l 直接用于i n t e m e t ,它的主要设计目标是在w e b 上保存和传递信息。 2 x m l 是可扩展的,用户可以根据需要定义自己的标记。 3 x m l 支持以全球统一的标准来定义描述数据。 4 x m l 的自描述性质能够很好地表现许多复杂的数据关系,使得基于x m l 的应用程序可以在x m l 文件中准确高效的搜索相关的数据内容【3 0 】。 w e bs e r v i c e 3 4 是一套标准,它描述了一个面向服务的、基于组件的应用体 系结构【3 5 】。它使用开放的标准协议,将各种组织、应用程序、服务及数据链接 起来,实现跨平台数据和服务的共享。w e bs e r v i c e 技术基于w e bs e r v i c e 标准, 从技术方面讲,一个w e bs e r v i c e 是可以被u r i 识别的应用软件,其接口和绑定 能被x m l 描述和发现,并可与其他基于x m l 消息的应用程序交互;从功能角 度讲,w e bs e r v i c e 是一种新型的w e b 应用程序,具有自包含、自描述以及模块 化的特点,可以通过w e b 发布、查找和调用。w e bs e r v i c e 是i n t e m e t 分布式计 算环境中提供基础功能的编程模块( 网络组件) ,w e bs e r v i c e 具有的开放通讯标 准和强调互操作的特点,已经使其成为异构系统集成的支撑技术和主要手段。 1 0 山东大学硕士学位论文 s o a p ( s i m p l eo b j e c t a c c e s sp r o t o c 0 1 ) ,简单对象访问协议,由w 3 c 组织 于2 0 0 0 首次推出。u d d i ( u n i v e r s a d e s c r i p t i o n ,d i s c o v e r ya n di n t e g r a t i o n ) ,统一 描述、发现和集成协议,最初由u d d i o r g 开发,后来被递交给o a s i s 组织一起 合作开发,于2 0 0 0 年产生了第一个版本。w s d l ( w e bs e r v i c ed e s c r i p t i o n l a n g u a g e ) ,w e b 服务描述语言,2 0 0 1 年由w 3 c 推出第一版。上述三个基于x m l 技术的国际规范的推出是w e bs e r v i c e 技术历史上具有里程碑意义的事件,也正 是在这些规范提出之后w e bs e r v i c e 技术才正式获得了业界的一致认可,而这三 个规范也成为了w 曲s e r v i c e 技术基本框架的一部分,通常将这三个规范称为 w 曲s e r v i c e 技术的第一代标准。 虽然w 曲s e r v i c e 技术在概念上很简单,但是在实际实现的时候研究者们发 现了很多问题( 譬如安全问题) ,w e bs e r v i c e 这个理论上的简单模型一旦进入实 践就开始迅速成长为一个复杂的实体。为了解决w e bs e r v i c e 基础模型所没有注 意到的问题,相关组织进行了第二代w 曲s e r v i c e 规范的研究和标准化工作,而 这些规范的提出则是由w 曲s e r v i c e 技术进入实用领域之后所产生的实际需求促 使的,是w e bs e r v i c e 技术开始由理论进入实践的一个标志。这些第一代协议的 补充协议有时被称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论