(管理科学与工程专业论文)基于web+service的自适应异构数据集成系统的研究.pdf_第1页
(管理科学与工程专业论文)基于web+service的自适应异构数据集成系统的研究.pdf_第2页
(管理科学与工程专业论文)基于web+service的自适应异构数据集成系统的研究.pdf_第3页
(管理科学与工程专业论文)基于web+service的自适应异构数据集成系统的研究.pdf_第4页
(管理科学与工程专业论文)基于web+service的自适应异构数据集成系统的研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(管理科学与工程专业论文)基于web+service的自适应异构数据集成系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘1要 随着i n t e r a c t 的飞速发展,企业陆续建立了具有不同功能的信息管理系统。这 些系统各自独立运行,形成信息孤岛,企业迫切需要对其中大量的异构数据,进 行统一的处理。建立异构数据集成系统是解决这些问题行之有效的办法,因此, 异构数据集成系统的研究、设计与构建已经成为当前业界以及学术界研究的热点。 对异构数据集成的研究从上个世纪七十年代发展至今,人们逐渐把注意力集 中在语义异构和集成的灵活性上。本文利用w e b 服务和x m l 技术成功地建立了 一个自适应异构数据集成平台,一定程度上实现了异构数据集成系统构建的自动 化,并针对现代企业异构数据集成系统建设中的语义异构和缺乏灵活性等问题提 出了新的应对解决方案,可以方便的对集成系统中的数据源进行添加、删除和修 改。本论文主要研究内容如下: 1 分析和总结了集成过程中需要解决的问题,在研究以往异构数据集成原理、 方法的基础上,提出了相应解决方案。 2 在研究了大量的语义匹配相关领域的传统方法和前沿技术的基础上,提出 了一种综合的语义匹配方案,并结合传统方法与前沿技术,将数据集成中的概念 相似度划分为语义相似度、描述相似度和实例相似度三个分量,三种相似度最终 合成为词汇的概念相似度,提高了匹配的准确率。 3 研究了集成过程中相关数据源及数据模式的特点及查询分解方法,利用 x m ls c h e m a 表示数据模式,w e bs e r v i c e 技术实现系统间的互操作,设计出自适 应功能模块,实现了异构数据集成系统中,全局数据模式随局部数据模式变化的 自动或半自动调整。 4 结合实际应用项目,设计出自适应异构数据集成平台的总体框架,给出系 统主要模块的界面和功能,实现了基于w c bs e r v i c e 的自适应异构数据集成研究的 应用。 关键词:语义匹配;自适应异构数据集成系统;w e bs e r v i c e ;x m l 茎苎塑里 r e s e a r c ho f a d a p t i v eh e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e mb a s e d o nw e bs e r v i c e a b s t r a c t b e c a u s eo ft h ef a s td e v e l o p m e n to fi n t e r a c ta n dt h ee x t e m i v ea p p l i c a t i o no f i n f o r m a t i o nt e c h n i q u et oe a c h k i n do ff i e l d s ,m a n ye n t e r p r i s e sh a v ec o n t i n u 0 1 i s l y d e v e l o p e dt h e i ro w ni n f o r m a t i o nm a n a g e m e n ts y s t e m s w h i c hh a v eh e t e r o g e n e o u s f u n c t i o n s t h e s es y s t e m su s u a l l yw o r k e dr e s p e c t i v e l ya n di n d e p e n d e n t l yw h i c hw e r e c a l l e d i n f o r m a t i o ni s o l a t e di s l a n d s ,s oe n t e r p r i s e s n e e dt o i n t e g r a t e t h e s e h e t e r o g e n e o u sd a t ai nh e t e r o g e n e o u se x i s t i n gs y s t e m s ,a n dp r o c e s st h e mt o g e t h e r ,i n o r d e rt os u p p o r tt h ee n t e r p r i s e s d e c i s i o n s d e v e l o p i n gah e t e r o g e n e o u sd a t ai n t e g r a t i o n s y s t e mi sav a l i dw a y t or e s o l v et h e s ep r o b l e m s , t h e r e f o r e ,t h er e s e a r c h , d e s i g na n d d e v e l o p m e n to fi n t e g r a t i o ns y s t e mo fh e t e r o g e n e o u sd a t ah a v eb e e nt h ec o n c e n t r a t e d r e s e a r c hp o i n to fc t a t e n ti n d u s t r ya n da c a d e m i cf i e l d s t h er e s e a r c ho nt h ei n t e g r a t i o no f h e t e r o g e n e o u sd a t ah a sd e v e l o p e ds i n c et h e7 0 s i nt h el a s tc e n t u r y ,n o wp e o p l e g r a d u a l l yc o n c e n t r a t et h e i ra t t e n t i o nt ot h es e m a n t i ch e t e r o g e n e o u sa n d t h ee x t e m i b i l i t y 0 ft h ei n t e g r a t i o n t h i sp a p e ru s e sw e bs e r v i c ea n dt h ex m lt e c h n i q u et od e v e l o pa i n t e g r a t e dp l a t f o r mo fh e t e r o g e n e o u sd a t aw h i c hh a sa d a p t a b i l i t ys u c c e s s f u l l y ,t h i s p l a t f o r mh a sc a r r i e do u tt h ea u t o m a t i o no ft h ed e v e l o p m e n to fi n t e g r a t i o ns y s t e mo f h e t e r o g e n e o u sd a t ai nac e r t a i ne x t e n t i n a l l u s i o nt os e m a n t i ch e t e r o g e n e i t ya n d u n s l d l l f u lc t c i nt h ed e v e l o p i n go fi n t e g r a t i o ns y s t e mo fh e t e r o g e n e o u sd a t ai nm o d e r n e n t e r p r i s e s ,t h i sp a p e rp u t sf o r w a r dan e wa p p l i e ds o l u t i o n , w h i c hc a ni n c r e a s e ,d e l e t eo r m o d i f yd a t as o u r c ei ni n t e g r a t e ds y s t e m s w h a tt h i sp a p e rm a i n l ys t u d i e sa r es h o w n a s f o l l o w s : 1 a n a l y s i sa n ds b m l l l a r i z e t h ep r o b l e mw h i c hn e e d st o b er e s o l v e di nt h e i n t e g r a t e dp r o c e s s p u tf o r w a r dc o r r e s p o n d i n gs o l u t i o n st ot h o s ep r o b l e m st h r o u g h s t u d y i n gh e t e r o g e n e o u sd a t ai n t e g r a t i o np r i n c i p l e s ,m e t h o d s 英文摘要 2 o nt h eb a s eo f s t u d y i n gag r e a td e a lo f t r a d i t i o n a lm e t h o da n dr e l a t e dt e c h n i q u e o f l a n g u a g em a t c h i n g ,t h i sp a p e rp u tf o r w a r dak i n do f i n t e g r a t i v es e m a n t i cm a t c h i n g p r o j e c t , a n db yc o m b i n i n gt r a d i t i o n a lm e t h o d sa n da d v a n c e dt e c h n i q u e s ,t h i sp a p e r d i v i & sc o n c e p ts i m i l a r i t yi nd a t ai n t e g r a t i o nt ot h r e ew e i g h t s :h a t t i e s i m i l a r i t y , d e s c r i p t i o ns i m i l a r i t y a n di n s t a n c e s i m i l a r i t y ,t h r e e k i n d so f s i m i l a r i t y w i l lb e s y n t h e s i z e dt ot h ec o n c e p ts i m i l a r i t yo ft h ev o c a b u l a r y , a n dt h i sr a i s e dt h ea c c u r a c yf o r m a t c h i n ge f f e c t i v e l y 3 r e s e a r c ht h ec h a r a c t e r i s t i co fr e l a t e dd a t as o u r c ea n dd a t as c h e m aa n dq u e r y d e c o m p o s i t i o nm e t h o di ni n t e g r a t i o np r o c e s s u s ex m l s c h e m at oe x p r e s sd a t as c h e m a , 啪w 曲s e r v i c et e c h n i q u et oc a r r yo u tt h eo p e r a t i o nb e t w e e ne a c ho t h e r , d e s i g n f u n c t i o nm o d u l ew i t ha d a p t a b i l i t y ,c a r r yo u tt h ea u t o m a t i co rs e m i a u t o m a t i cc h a n g eo f o o b a jd a t a s c h e m aw h e nl o c a ld a t as e h m e s c h a n g e i n i n t e g r a t e ds y s t e m o f h e t e r o g e n e o u sd a t a 4 c o m b i n e dw i t ha na p p l i c a t i o np r o j e c t ,d e s i g nt h ef r a m eo ft h ei n t e g r e t e d p l a t f o r mo fh e t e r o g e n e o u sd a t aw i t ha d a p t a b i l i t y ,p r e s e n ts o m ei n t e r f a c e sa n df u n c t i o n s o f t h em a i nm o d u l e s ,r e a l i z et h ea p p l i c a t i o no f t h er e s e a r c ho na d a p t i v eh e t e r o g e n e o u s d a t ai n t e g r a t i o nb a s e do nw e bs e r v i c e k e y w o r d :s e m a n t i cm a t c h i n g ;a d a p t i v eh e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e m ; w e bs e r v i c e ;x m l 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文:基王监垒曼刨璺曼数自适廑昱控錾握塞成丕蕴鳇班究:。 除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体 已经公开发表或未公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名:妻h 无沙声弓月力日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密口( 请在以上方框内打“”) 论文作者签名:辫瓦 导师签名: 日期。砷年弓月矽日 基于w e bs e r v i c e 的自适应异构数据集成系统的研究 第1 章绪论 1 。1 研究背景 当今时代,是信息化的时代,谁能更好地组织、管理信息,谁就能取得先机 击败竞争对手。在市场竞争愈演愈烈的情况下,企业信息化的要求越来越迫切, 其中一个很重要的方面就是企业数据的管理。随着计算机技术和网络技术的迅速 发展,企业在信息化建设过程中,构建了许多信息系统来管理企业数据由于业 务和职能的不同,及各部门的建设管理和信息化的阶段性、技术性和人为等因素 的影响,这些系统大多相互隔离,形成所谓的“信息孤岛”。企业内部的数据带有 明显的分布性、自制性和异构性( q z 台、应用、数据格式、语义异构) 。然而许多 情况下,企业已经不满足于系统仅仅能提供局部业务环节的业务数据,而是越来 越需要实现分布在网络不同位置上的多个业务之闯的信息共享,以提高企业的运 作效率,因此,为了保证对企业内部信息进行共享、维护和管理,必需寻找一种 对分布数据进行统一操作的方法。 异构数据集成系统为企业解决多平台、多应用、多结构、多语义数据的集成 问题提供了一条解决途径。通过这样一个集成系统,可以把企业内部的各种相关 数据资源进行整合,为企业的决策提供支持。因此,异构数据集成系统受到越来 越多人的重视,这一方面的研究已经成为又一热点。 本论文研究开发的基于w e bs e r v i c e 的自适应异构数据集成平台就是在这种背 景下产生的。该平台一定程度上解决了异构数据集成系统构建困难、建成后难以 修改的问题,实现了异构数据集成系统的半自动化构建及数据源的灵活修改,从 而协助企业完成对现有信息系统的统一管理,并满足企业将来发展的需要。使用 该平台可以方便地构建具有更广泛的通用性、更良好的适应性、更强的扩展性的 异构数据集成系统。 1 2 国内外研究现状 在孤立的数据组织方式下,数据资源为某个特定的应用系统而组织,数据被 各个应用系统所独享,数据与数据之间彼此隔离,互不匹配,互不共享,这些数 第1 章绪论 据资源无法直接集成。为了实现对各个应用系统数据的统一操作,异构数据集成 系统诞生了。 数据集成技术的研究始于上世纪七十年代中期,至今已有三十多年了【1 1 。从一 开始的多数据库集成发展到现在的异构数据源集成,数据集成的范围和作用都在 不断扩大。a m i t ps h e t h 提出数据集成的发展可大约分为三个阶段来看: 7 0 年代8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库系统, 重点在于使有着不同软硬件设备的计算机系统进行互连和通信,解决了一定程度 上的语法和结构异构,实现了地理分布、数据模式等的透明性,主要的产品有 u n i s q l m o a n i s q l ) ,m e r m a i n ,d a t a j o i n e r ( i b v o ,o m n i c o n n e c t ( s y b a s e ) 。 8 0 年代中期- - 9 0 年代中期:随着网络的出现、i n t e m e t 的发展以及多种类型的 数据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出现了一些支持 多种类型的异构数据集成的技术,如m e t a d a t a ,m e d i a t o r 、中间件等,主要的系统 有t s i m m i s ,g a r l i c ,s i m s ,h e r m e s ,i n f o s l e u t h 等 3 , 4 1 。 9 0 年代中期现在:这个阶段比较关注数据集成过程中的语义异构的解决问 题,更多的运用知识领域的有关技术如本体等,主要有信息的智能集成、数字化 图书馆等【5 j 。 构建异构数据集成系统是一个十分复杂的过程,且涉及到众多知识领域。在 异构分布的数据环境中,如何共享、维护、操作数据源,很多计算机厂商都给出 了自己的解决方案,虽然其技术相似,但缺乏一致的、通用的方法旧。对异构数据 集成系统中数据异构性的解决,集成系统的扩展性等方面的问题都没有明确的、 公认的最佳解决方案。 1 3 研究意义 本论文的研究成果对于提高异构数据集成系统的实用性、稳定性、有效性和 扩展性具有实际意义。对于异构数据集成系统的自适应性的研究、设计与实现, 可以缩短集成系统的开发周期,降低系统的开发成本,提高系统的可靠性和利用 率,为各部门、机构和企业内部的数据共享提供有力的支持。 针对异构数据集成系统中语义的匹配和异构数据源的添加等问题,设计了自 基于w e bs e r v i c e 的自适应异构数据集成系统的研究 适应异构数据集成平台,较好的解决了异构数据集成系统构建困难及系统可扩展 性差的问题。无论是对企业内部现有系统的统一规划,还是对企业未来业务的发 展,它都是快速、可靠的信息化支持工具。对它的研究具有如下意义: 1 对解决数据异构性的意义 数据的平台异构、应用异构、数据结构异构问题可以通过w e bs e r v i c e 结合 x m l 技术很好地得到解决。对于数据的语义异构,本文在对语义匹配方法进行深 入研究的基础上,采用综合语义相似度的计算策略识别出概念的相似性,然后通 过建立映射的方法较好的解决了异构数据集成中的语义异构性问题。 2 对提高异构数据集成系统扩展性的意义 w e bs e r v i c e 技术的运用,使数据源灵活修改成为可能。数据源的变化,通过 修改相应的w e bs e r v i c e ,结合语义匹配功能对数据源映射信息的修改,使集成系 统具有了较强的可扩展性。 1 4 主要工作 本文主要研究异构数据集成系统的构建方法和其性能的优化问题,侧重于如 何方便、快速的建立一个更稳定、更具适应性的异构数据集成系统,并使其能够 在与异构数据集成系统相关联的子系统数据源发生变化时,做出相应调整以保持 整个集成系统的可用性。在阅读大量文献资料的基础上,结合国内外相关研究成 果,提出了异构数据集成系统的自适应改进方案,采用x m ls c h e m a 表示异构数 据源的数据模式;利用w e bs e r v i c e 技术解决异构系统问的互操作,实现对数据源 的实际操作;运用本体等相关技术解决语义的异构。研究主要围绕以下几点展开: 1 异构数据集成过程需要解决的问题 2 关系数据模式与x m l 模式的映射及x m l 模式与本体语义的映射 3 异构数据集成过程中相同语义概念的识别 4 自适应异构数据集成模型的设计 5 自适应异构数据集成平台的实现 第2 章异构数据集成方法概述 第2 章异构数据集成方法概述 信息集成、模式集成、数据集成这三个概念相互联系,但又有所区别,不同 的概念所研究的侧重点不同。 信息集成是一个广义的概念,它包含很多分支,例如信息抽取、数据清洗、 模式集成和数据集成等。 模式集成是把两个或者多个模式集成为一个模式,主要用于( 数据) 模式设 计。有待集成的模式可能是由不同的数据模型表示的,集成过程中,一般先把它 们用公共模型表示,然后识别它们之间存在的各种冲突并加以处理,最后合并成 新的模式。这一过程既可手动完成,也可机器辅助完成【l 】 数据集成是屏蔽各种异构数据间的差异,对各种异构数据提供统一的操作, 使集成后的异构数据对用户来说是统一的和无差异的。狭义上来说,在讨论数据 集成中,并不考虑模式集成等其它问题,并假设全局模式已经存在( 可能由模式 集成而来,可能根据特定的应用需求设计,可能根据数据视图定义推导) :而从广 义上来讲,模式集成是数据集成系统构建过程中的一个重要步骤。 2 1 异构数据集成 异构数据集成是对各种异构数据提供统一的表示和管理,屏蔽各种异构数据 间的差异,使用户通过异构数据集成系统进行统一的操作。 2 1 1 异构数据 异构数据是一个含义丰富的概念,不仅指不同的数据库系统之间的数据是异 构的,如o r a c l e 数据库和s q ls e r v e r 数据库分别存放的数据;而且还包括不同结 构的数据之间的异构,如结构化的s q ls e r v e r 数据库数据和半结构化的x m l 数 据。具体来说数据的异构大致可分为四类:结构异构、语法异构、系统异构和语 义异构吲。 1 结构异构是由于各个系统使用不同的数据模型。从这一角度,异构数据可 以分为三类:结构化数据、半结构化数据和非结构化数据。 结构化数据:结构化数据一般具有稳定的数据模型,典型的结构化数据就是 基于w e bs e r v i c e 的自适应异构数据集成系统的研究 存储在各种数据库系统中的关系数据,通常用标准的关系模型来描述,数据以属 性的方式表现,有具体的数据类型,如数字、字符等。 非结构化数据:非结构化数据没有统一的数据模式,不能用结构化的数据模 型来描述,也没有统一的操作方式。典型的非结构化数据就是文件系统中的各种 文件数据,如w o r d 文档文件、电子邮件文件、电子表格文件、图像文件等【3 1 。 半结构化数据;就是介于完全结构化数据( 如关系数据库、面向对象数据库中 的数据) 和完全无结构化数据( 如声音、图像文件等) 之间的数据,它可以方便地表 示不规则、不完整、不断变化的数据。x m l 是典型代表,它是自描述的,数据的 结构和内容混在一起,没有明显的区分。 2 语法异构是由于不同的语言表示和数据表示。 3 系统异构包括硬件和操作系统的不同,例如:硬件、系统软件( 如操作系 统) 和通信系统之间的差异。 4 语义异构包括语义相等、语义相关和语义不相关等。前三种异构利用x m l 和w e bs e r v i c e 可以得到很好的解决,而数据集成发展至今,人们越来越关注语义 异构的解决问题。 不同数据源的设计者对于现实世界的事物的看待角度不会完全一样,这样就 会产生语义异构。语义异构主要分为以下几种情况: ( 1 ) 不同的信息源使用多种术语( 词汇) 表示同一概念; ( 2 ) 同一概念在不同的信息源中表达不同的含义; ( 3 ) 各信息源使用不同的结构来表示相同( 或相似) 的信息; ( 4 ) 各信息源中的概念之问存在着各种联系,但因为各信息源的分布自治性, 这种隐含的联系不能体现出来。 本体( o n t o l o g y ) 理论的提出为解决语义异构提供了新的思想。o n t o l o g y 是一 种能在语义和知识层次上描述信息系统的概念模型建模工具,它能用来描述概念 及概念之间的关系,并能通过概念之间的关系来描述概念的语义。较之已有模型, o n t o l o g y 对概念的定义更加严格、精确,可以较好的解决语义冲突问题 6 1 。所以在 迸行相关领域的异构数据集成时,可以首先在领域专家的帮助下建立相关领域的 第2 章异构数据集成方法概述 o n t o l o g y ,然后参照已建立o n t o l o g y ,把各异构数据源的数据模式按规定的格式( 比 如x m ls c h e m a ) 存储在元数据的数据字典中。一旦用户提交一个查询请求,查询 服务模块就可以按照o n t o l o g y 把查询请求转换成规定的格式,在o n t o l o g y 的帮助 下从元数据的数据字典匹配出符合条件的数据源,再从相应的数据源中取出数据。 2 1 2 异构数据集成系统的特点 异构数据集成系统的特点是具有分布性、自治性和异构性。 1 分布性:当前有很多的计算机都连接在某种类型的网络上,通过组合这些 分布在不同地点的应用程序和数据源,它们就能通过网络进行通信。 2 自治性:每个数据源都可以独立地被用户或应用程序访问,而不受其它系 统的限制。 3 异构性:异构数据集成系统需要解决不同数据源的多种异构问题。多年来 研究人员和开发入员一直在为此而努力。 2 1 3 异构数据集成系统的体系结构 随着计算机技术的不断发展,异构数据集成的体系结构经历了如下三个发展 阶段 2 , 4 , 7 1 : 1 单个的联邦系统 单个的联邦系统将所有数据源统一到一个单一的集成系统中。这个方法比较 简单,集成系统有统一的数据模式,不用考虑分布式数据的转换和统一。但是, 也存在一系列问题:构造这样一个集中式的系统需要很长的开发时间,要求高性 能的主机设备,实现代价较高;系统的扩展和维护会涉及到整个系统,而且一个 集成系统无法共享另一个集成系统模块。 2 基于组件的分布式集成系统 基于组件的分布式集成系统用分布式的对象模型。例如:利用微软分布式组 件对象模型( d c o m ) ,c o r b a 或s u n 的r m i 构建集成系统。这种方法避免了单个 联邦系统带来的开发代价大,代码难以重用的问题,利用网络计算环境可以有效 地实现复杂的大规模集成。但是,d c o m ,c o r b a 或r m i 要求服务客户端与系 统提供的服务本身之间必须进行紧密耦合,即要求一个同类基本结构。这样的系 基于w e bs e r v i c e 的自适应异构数据集成系统的研究 统往往十分脆弱,如果一端的执行机制发生变化,那么另一端便会崩溃。 3 基于w e bs e r v i c e s 的集成系统 基于w e bs e r v i c e s 的集成系统是在w e bs e r v i c e s 的框架下,使用一组w e b s e r v i c e s 协议,构建集成系统。它对每一个数据源都创建一个w e bs e r v i c e s ,然后 向服务中心注册。当提交一个全局查询时,集成系统将其分解为针对各数据源的 查询,调用相应w e bs e r v i c e ,然后通过网络协议从这些数据源中获取数据。这个 方法克服了上述两种方法的缺陷,具有完好封装、松散耦合、规范协议和高度可 集成能力等特征 2 1 4 自适应异构数据集成 随着企业的不断发展,为了充分的利用企业现有资源,为高层综合决策提供 支持,建立集成系统势在必行。一个良好的集成系统不仅要满足现有的应用需要, 还应该具有良好的可扩展性。企业将来的应用系统应当可以方便的添加到集成系 统中来,自适应异构数据集成的研究正是为了这一目的。 所谓“自适应异构数据集成”,就是可以在异构的局部数据模式发生变化时, 自动或半自动完成全局模式的调整,使系统能够继续稳定的运行。本文针对集成 系统构建困难、构建完成后不易修改的难题,对分布式计算和语义识别等相关技 术进行深入研究,提出了自适应异构数据集成模型,可自动或半自动的完成异构 数据集成系统的构建和修改 2 2 异构数据集成方法概述 数据集成技术的研究始于七十年代中期,至今已有三十多年了。从一开始的 多数据库集成发展到现在的异构数据源集成,数据集成的范围和作用都在不断扩 大,出现的技术主要有联邦数据库法、数据仓库法、m e d i a t o r ( 中介法) 这几种。 2 2 1 联邦数据库系统 联邦数据库是数据库集成的最简单结构。它的构成方式是将所有组件数据库 进行一对一的连接,这种方式的数据集成是一个n 维问题。如果存在n 个数据库, 则每个数据库都需要与其它n - 1 个数据库实现互操作,耶如果你有n 个不同的系 第2 章异构数据集成方法概述 统或数据源需要集成,你就需要建立n 斟1 ) 个不同的数据交互接口( 接近n 的二次 方) ,开发者就必须编写n 1 ) 段代码来支持两者之间的查询访问。对于大的公司, n 可能上百位,则n 的二次方则会超过1 0 0 ,0 0 0 这看起来是个不可能的问题,所 以联邦数据库集成系统适合于自治数据库的数量比较小的情况。联邦数据库系统 的体系结构如图2 1 所示: 根据对联邦数据库的控制及操作方式,可以将联邦数据库分为松耦合联邦数 据库和紧耦合联邦数据库。 图2 1 联邦数据库体系结构 f i g 2 1t h e a r c h i t e c t u r eo f f e d e r a t e dd a t a b a s e s 松耦合联邦数据库没有全局数据模式存在,用户必须通过特定的多数据库操 作语言及自己对联邦的定义、维护来实现数据运营,这样联邦数据库中的各数据 库就更具有自治性。 紧耦合联邦数据库拥有全局数据模式和全局数据库管理员,由管理员负责创 建和维护全局数据模式,并向用户提供统一的数据操纵接口,由于全局模式要解 决逻辑上的异构,就需要领域专家决定数据库模式间的对应关系,所以不易增加 删除系统中的数据库。根据全局模式的数量可以将紧耦合联邦数据库分为单联邦 数据库和多联邦数据库。单联邦数据库只有一个全局模式存在,而多联邦数据库 则可以为不同用户群建立多个全局模式。 基于w e bs o r v i c e 的自适应异构数据集成系统的研究 这种方法的优点是容易实现,尤其是在集成的数据源种类和个数限定的情况 下,而缺点则是工作量极大,扩展性差。通过以上的分析,联邦数据库系统只适 用于数据库数量不多的小范围内的数据集成,对于网络上越来越多的、不断动态 变化的、半结构化的数据源,采用联邦数据库系统不是理想的解决方案。 2 2 2 数据仓库法 数据仓库集成异构数据源的策略是将来自几个异构数据源的数据副本,按照 一个集中、统一的视图要求,进行预处理、转换,以符合数据仓库的模式,并存 储到数据仓库中。这样,对于使用者来说感觉就像在使用一个普通的数据库一样。 数据仓库的集成模式如图2 2 所示。 l+ 查询结果 图2 , 2 数据仓库集成模式 f i g 2 2s c h e m ao f t h ed a t aw a r e h o u s ei n t e g r a t i o n 一旦数据存储于数据仓库,用户使用查询就像是在原来单一的数据源中查询 一样。另一方面,数据仓库可能会禁止用户去更新数据,因为,用户对数据仓库 中数据的更新将不会反应到原来的数据源中,这就会造成数据源和数据仓库中数 据不一致的问题。 目前,进行数据仓库中数据构建的方式有以下三种; 第2 章异构数据集成方法概述 1 数据仓库周期性的从原数据源中重新构建数据。最常使用的方式是在每天 午夜( 那时系统可能需要关机,并且不是用户使用数据仓库的高峰期) 或者是更长周 期的午夜时刻进行数据重建。这种方式的主要缺陷是需要将数据仓库关闭,而事 实上数据的重建可能需要很长的时间。对于某些应用来说,过长的宕机时间会使 很多数据过时。 2 ,数据仓库周期性的从原数据源中更新数据( 采用增量更新的模式,也即是, 每次数据仓库更新上次更新以后修改的数据) 。这种方式只会影响到数据仓库中少 量的数据,这样即使是在数据仓库的容量很大的时候,数据更新的时间也不会很 久。该方式主要的缺点是用于计算数据仓库中数据更新的算法( 增量更新算法) ,相 对于从原始数据开始构建数据仓库的算法要复杂的多。 3 数据仓库即时更新异构数据源的数据变化。当一个或多个数据源中的数据 发生变化的时候,立刻更新数据仓库中相应的数据。由于这种方法需要数据仓库 和数据源之间频繁的通信,所以这种方式只适用于小型的、数据更新量小的数据 仓库中。然而,这种方式的研究和一个成功的数据仓库的实现有着广泛的应用, 如自动股票交易系统。 总之,数据仓库模式的异构数据库数据共享集成的优点是便于进行联机分析 和数据挖掘,缺点是数据重复存储、难以及时更新。 2 2 3m e d i a t o r ( 中介法) m e d i a t o r 实际上是一种软件组件,通过提供所有异构数据源的虚拟视图进行集 成。数据源可以是数据库、遗留系统( 1 e g a c ys y s t e m ) 、w e b 数据源等。这种集成方 式与数据仓库中使用物化方法集成数据源的方式相似,但它不存储任何实际数据。 系统提供给用户一个全局模式( 也称为m e d i a t e d 模式) ,用户针对全局模式提交查询 而不必知道数据源的位置、模式和访问方法,系统将用户查询翻译成一个或多个 对数据源的查询。然后将数据源的查询结构进行综合处理,并将它返回给用户。 中介系统中的数据源是完全自治的,可以容易地增a n 删除数据源。图2 3 展示一 个m e d i a t o r 集成两个异构数据源的系统结构,典型的数据集成将不仅仅有两个异 构的数据源。 基于w e bs e r v i c e 的自适应异构数据集成系统的研究 lf 查询 结果 结果 苗苗 图2 3m e d i a t o r 异构数据源集成系统结构 f i g 2 3t h ea r c h i t e c t u r eo f m e d i a t o r d a t ai n t e g r a t i o ns y s t e m 采用这种模式进行多数据源集成的著名系统有:由s t a n d f o r d 大学研制开发的 t s i m m i s ,i b m a l m a d e n 研究中心的g a r l i c 系统,美国c a l i f o r n i a 大学的m i x 等。 这种模式需要解决的关键问题是如何构建全局视图与局部视图的映射关系,以使 得用户感觉不到要查询的数据来自多个数据源。 2 3 几种数据集成方法的比较 在2 2 节中我们介绍了目前几种主流的数据集成模型,分别是:联邦数据库, m e d i a t o r 和数据仓库,其中联邦数据库和m e d i a t o r 属于虚拟数据库法,数据仓库 又称物化法。几种数据集成方法,除松散耦合的联邦数据库法外,都需建立虚拟 的或物理的全局数据模式,所以在比较之前先介绍一下模式集成的方法。 2 3 1 模式集成的方法 模式集成就是将几个模式集成为一个模式,局部模式与全局模式之间通过某 种映射联系起来,其体系架构如图2 4 : 第2 章异构数据集成方法概述 图2 4 模式集成架构图 f 蟾2 4a r c h i t e c t u r eo f s c h e m ai n t e g r a t i o n 数据集成的模式集成形式化描述如下【1 9 l : 一个数据集成系统i 是一个三元组q ,s ,m ) ,其中 g 是全局模式 s 是源模式 1 1 1 是g 和s 之间的映射 g 和s 之间的映射存着不同的方法: 1 以全局模式为中心的方法( g a 、,g l o b a l 解v i e w ) 。全局视图法中的全局 模式是在数据源数据视图基础上建立的,它由一系列元素组成,每个元素对应数 据源的一个查询,表示相应数据源的数据结构和操作。 假设有三个数据源s 1 ,s 2 和s 3 ,每个数据源都存着有关车辆的数据: s i : v e h i c l e n o :s t r i n g ,v e h i c l e t y p e :s t r i n g ,c o m p a n y n o :s t r i n g s 2 : c o m p a n y n o :s t r i n g c o m p a n y n a m e :s t r i n g s 3 : v e h i c l e n u m :s t r i n g m o b i l e n o :s t r i n g 数据源s l ,s 3 存放着车辆的基本信息,s 2 存放着有关公司的信息。其中s i 的v e h i e l e n o 和s 3 的v e h i c l e n u m 有着相同的语义。所以,我们可以把中介模式定 义为: c a t a l o g : v e h i c l e n o :s t r i n g , v e h i c l e t y p e :s t r i n g ,c o m p a n y n o :s t r i n g , 基于w e bs e r v i c e 的自适应异构数据集成系统的研究 c o m p a n y n a m e :s t r i n g ,m o b i l e n o :s t r i n g 在g a v 中,使用下列映射规则来集成各数据源的数据。 c r e a t ev i e wc a t a l o g8 s s e l e c tv e h i e l e n o ,v e h i c l e t y p e ,c o m p a n y n of r o ms l u n i o n s e l e c tc o m p a n y n o c o m p a n y n a m ef r o ms 2 u n i o n s e l e c tv 出c l e n u ma sv e h i c l e n o m o b i l e n of r o ms 3 o a v 的缺点是缺乏扩展性,如果有新的数据源需要集成,则需要修改视图定 义。系统c a m o t ,s i m s ,t s i m m i s ,i b i s ,p i c s e l 等都是采用g a v 方法,采用 这种方法的质量依赖于我们将数据源映射到全局模式的好坏程度,当数据源改变 或有新的数据源增加时,全局模式就需要进行改动。 2 以数据源为中心的方法( l a v ,l o c a la sv i e w ) 。局部视图法先构建全局模 式,数据源的数据视图则是在全局模式基础上定义,由全局模式按一定的规则推 理得到。 在l a v 中,对于每个数据源s ,都有一个视图来描述该数据源对应于中介视 图的关系。 c r e a t ev i e wc a t a l o g la s s e l e c tv e h i c l e n o ,v e h i e l e t y p e ,c o m p a n y n of r o ms 1 c r e a t ev i e wc a t a l o 鲒a s s e l e c tc o m p a n y n o ,c o m p a n y n a m ef r o ms 2 c r e a t ev i e wc a t a l 0 9 3 罄 s e l e c tv e h i c l e n u m v e h i c l e n o ,m o b i l e n of r o ms 3 定义这些规则比较容易,而且当有新的数据源加入时,可以比较容易地扩展 整个l a v 数据集成而不用影响其它的映射规则。l a v 主要的缺点是可能产生不完 全的查询结果。 系统i n f o r m a t i o nm a n i f o l d ,d w q ,p i e s e l 等都是采用l a v 方法,采用这种 方法的质量依赖于我们特征化数据源的好坏程度,l a v 方法还具有高度的模块化 程度和良好的可扩展性( 如果设计的全局模式比较好,那么当数据源改变时,只会 第2 章异构数据集成方法概述 影响到它的定义,而对整个集成系统没有影响) 。但查询过程需要进行推理,即查 询重组比较复杂。 简单地说g a v 方法是通过局部模式来定义全局模式,l a v 方法是通过全局模 式来定义局部模式。综上所述,g a v 与l a v 两种集成方式的关系如下: 1 联系: ( 1 ) 当全局模式发生变化时,g a v 和l a v 都需要重新定义模式之间的联系, 有人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论