(模式识别与智能系统专业论文)信息集成中异构冲突消解技术的研究与实现.pdf_第1页
(模式识别与智能系统专业论文)信息集成中异构冲突消解技术的研究与实现.pdf_第2页
(模式识别与智能系统专业论文)信息集成中异构冲突消解技术的研究与实现.pdf_第3页
(模式识别与智能系统专业论文)信息集成中异构冲突消解技术的研究与实现.pdf_第4页
(模式识别与智能系统专业论文)信息集成中异构冲突消解技术的研究与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 捅要 随着信息技术,特别是i n t e m e t 技术的发展,各行各业的信息化建设都有了 突飞猛进的发展。信息化建设越来越深入人心,人们也有了越来越高的要求。 目前,一个普遍存在的问题就是信息难于共享。这是由于在信息化建设的早期, 没有一个统一的规划和标准,各个信息管理系统单独建立,使得系统在数据的 描述方式、存储方式、访问方式上各不相同,差异性很大。 这种差异性给单位内部以及单位与单位之间的信息交流带来了很大的困 难。消除信息孤岛,实现信息共享,已经成为各行业信息化建设中迫切需要解 决的问题。解决信息孤岛问题就需要对已有信息进行集成,为用户提供一个一 致的数据界面和方便的共享平台。异构数据库复制技术作为实现信息集成的一 种重要技术,也越来越多地获得了人们的重视。 本文在对信息集成技术和异构数据库复制技术的研究现状和发展趋势进行 深入的调研和总结的基础上,对“基于s q l 重现法”异构数据库复制技术进行 了改进和优化 首先,分析和研究了分散于集成系统中的各种异构性的表现形式,着重针 对其中一些典型的异构冲突讨论了各自的消解策略。然后,为了提高模式映射 的自动化程度,提出了基于属性空间的模式匹配算法。该算法将“属性空间” 的概念引入到模式映射中来,并详细介绍了其建模过程、算法设计以及具体实 现。此外,给出了一个异构冲突管理器的框架设计,对分散于系统中的各种异 构冲突进行集中管理,讨论了该框架基于a o p 技术的具体实现。 最后,总结了本文的研究内容,指出了其中存在的不足和问题,提出了对 未来的展望和今后的工作重点。 关键词信息集成;异构数据库复制;异构冲突;模式映射 a bs t r a c t w i t ht h eg r e a td e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , e s p e c i a l l yi n t e m e l , t h e r ei s o b v i o u si m p r o v e m e n to ft h ea p p l i c a t i o ni nm a n yf i e l d s m o s to ft h ec o m p a n i e s , s c h o o l sa n dd e o a r t m e n t sd e v e l o p e dt h e i rm a n a g e m e n ti n f o r m a t i o ns y s t e m s ,w h i e l a m a k 船w o r k i n gm o i ec o n v e n i e n ta n de f f i c i e n tt op e o p l e b e c a u s eo ft h es l a o n g r e q u i r e m e n t , i n f o r m a t i o nt e c h n o l o g ya c c e p t e db ym o l ea n dm o i r ep e o p l e a tt h es a m e t i m e ,t h e yp r e f e rm o r ee x c e l l e n ta p p l i c a t i o n s i n d e e d , t h e r e 黜s o m ed i s a d v a n t a g e si nt h ea p p l i c a t i o n ag e n e r a ld i 佑c u l t yi st h e i n f o r m a t i o nc a nn o tb es h a r e dw e l l a tt h eb e g i n m go ft h ed e v e l o p m e n to ft h e a p p l i c a t i o no fi n f o r m a t i o nt e e l a n o l o g y , t l a e r ei sn ou n i f o r md a t as t a n d a r d s ot h e r ea l al o to f d i f f e r e n ti nt h ed e s e r i o t i o n , s t o r a g e , a c c e s sa n ds oo n t h e d i f f e r e n c e sb r o u g h tg r e a td i t t i e u l t yt ot h ei n f o r m a t i o ns h a t i n gi n s i d ea n d o u t s i d e p e o p l e 黜e a g e rt oc l e a ru pt h e s e i n f o r m a t i o ni s l a n d s ”i n f o r m a t i o n i n t e g r a t i o nt e c h n o l o g yc a l li i l a k et h ei n f o r m a t i o ni a t e g r a t e aa n dp r o v i d eai m i f o l m i n t e r f a c ef o rt h eu s e 璐a so n eo ft h es o l u t i o n so fi n f o r m a t i o n i n t e g r a t i o n , h e t e r o g e n e o u sd a t a b a , r e p l i c a t i o nt e c h n o l o g yg o tm o l ea t t e n t i o n a f t e rd e e pr e s e a r e l aa n ds y n t h e s i z ee x i s t e di n f o r m a t i o ni n t e g r a t i o nt e e l a n o l o g ya n d h e t e r o g e n e o u s d a t a b a s e r e p f i e a t i o nt e c h n o l o g y , t h er e p l i c a t i o n m e t h o dc a l l e d h e t e r o g e n e o u sd a t a b a s er e p l i c a t i o nm e t h o db a s e d0 1 1 “s q lr e g e n e r a t i o n i s o p t i m i z e da n dp e r f e e t 缸 i tt a k e st h eh e t e r o g e n c i f i e sa st h em o s ti m p o r t a n tp r o b l e m s , a n dd i s c u s s e dt h e r e s o l u t i o n st o w a r dt h e s et y p i c a lh e t e r o g e n e o u sc o n f l i c t s i no r d e rt oi m p r o v et h e a u t o m a t i ca b i l i t y , t h e a t t r i b u t es p a c e i sb r o u g h ti n t ot h es c h e m am a p p i n ga n dt h e f l c h c l l l am a r , p i n ga r i t l a m e t i eb a s e do ni ti sp r o p o s e d ad e t a i l e dd e s c r i p t i o no ft h e m o d e le s t a b l i s h i n g , a r i t l a m e t i ed e s i g na n dr e a l i z a t i o ni sg i v 饥f u r t h e rm o r e ,a h e t e r o g e n e o u s e o n t t i e tm a n a g e m e n tm o d u l ef l a m e w o r kw h i c hm a n a g e sv a r i o u s c o n f l i c t st h a td i s p e r s e di nt h es y s t e mi sp r o v i d e d , a n dt h er e a l i z a t i o nb a s e d0 1 1a o pi s d i s e u s s e d m 北京工业大学工学硕士学位论文 f i n a l l y , t h er e s e a r c h e s i nt h ep a p e ra r es u m m a r i z e da n dt h ef u t u r ew o r k sa r c p r e s e n t e d k e yw o r d s i n f o r m a t i o ni n t e g r a t i o n ;h e t e r o g e n e o u sd a t a b a s er e p l i c a t i o n ; h e t e r o g e n e o u sc o n f l i c t ;s c h e m am a p p i n g 一 独创性声明 本人声明所里交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 z 加7 f z r 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 导师签名:雏日期:迎 第1 章绪论 1 1 课题研究背景 第1 章绪论 近些年来,由于因特网的迅猛发展,网络环境和分布式系统日益普及,各企 业、政府、机关、学校都纷纷建立自己的内部信息管理系统。这些系统被分散在 各个网络节点中,建立在不同操作系统、不同平台之上,管理方式各异。他们之 间往往是相互独立的。 另一方面,对于企业来说,今天的商业环境已经进入电子商务随需应变的时 代,激烈的市场要求企业能够更为快速地响应外部市场的变化。企业不得不尽快 着手考虑如何应对“信息爆炸”。如果能够有效的利用这些企业内外的信息,就 能将其转换成有价值的资产,在商业领域赢得竞争优势。而对于政府、机关、学 校来说,在信息化程度日渐提高的今天,通过传统的电子邮件、磁盘介质等方式 进行信息交换已经远远不能满足要求,他们同样面临着信息交流与共享困难的问 题。如果企事业单位不能真正解决信息孤岛问题,信息化建设就很难成功,信息 化也就很难真正发挥其应有的作用。 为了消除信息孤岛,实现信息共享,迫切地需要建立一种公共的集成环境, 对用户提供一个统一的、透明的访问界面,信息集成的研究因此而起。 1 2 研究现状 1 2 1 信息集成概述 广义的信息集成包括很多的层次和方面,如运行和支撑环境的集成,数据的 集成,功能的集成,应用的集成以及人和组织的集成等多个层次。而本课题的研 究致力于数据层面的集成。本文中下面所提到的“信息集成”,在没有特别说明 的情况下,均指数据层的集成。 数据层的信息集成是指在不同应用系统之间实现数据的共享i l 】o 这些应用系 统分布在网络环境下异构计算机系统中,它们所管理和操作的数据格式和存储方 式各异。实现信息集成就是要实现数据的转换( 不同数据格式和存储方式之间的 转换) 、数据源的统一( 同一个数据仅有一个数据入口) 、数据一致性的维护、异 构环境下不同应用系统之间的数据传送。信息集成的理想目标是五个“正确”的实 现,即:在正确的时间,将正确的信息以正确的方式传送给正确的人( 或机器) , 以做出正确的决策或操作。信息集成屏蔽了各种异构数据间的差异,通过异构信 息集成系统进行统一操作。因此集成后的异构信息对用户来说是统一的,无差异 的【2 l 。 北京工业大学工学硕士学位论文 1 2 2 信息集成研究现状 1 2 2 1 信息集成体系结构的研究现状 对于信息集成系统的研究,已经经历了二十多年的发展历史。研究者提出了 许多信息集成的体系结构 3 1 。这些体系结构可以分为以下几种类型: ( 1 ) 基于联邦 1 9 8 5 年,d e n n i sh e i m b i g n e r 等提出了联邦信息集成系统。该系统将运行在 不同服务器上的多个独立数据源统一到一个逻辑上单一的集成系统中。这些服务 器之间无共享资源,通过l a n 连接起来,其体系结构如图1 - 1 所示: 图! - 1 联邦信息集成体系结构 f i g u r e1 - 1f e d e r a t e d a r c h i t e c t u r ef o r i n f o r m a t i o n 这种结构比较简单,集成系统有统一的数据模式,数据被水平地划分到不同 的服务器上,不用考虑不同数据源之间数据的转化和统一【4 】。但是,它存在着以 下问题:首先,无论是d b a 还是应用开发人员都必须严格区分本地数据和远程 数据;其次,构建这样一个系统需要很长的开发周期,需要有高性能的主机设备, 系统实现代价较高;再次,集成系统的扩展和维护代价较大,且不同集成系统之 间无法实现共享;最后,当系统规模较大时,系统性能会下降。因此,随着信息 系统的不断增长,联邦信息集成系统的应用受到一定的限制。 ( 2 ) 基于数据仓库 基于数据仓库的信息集成方法也成为物化方法( m a t e r i a l i z e d ) 。数据仓库的 第1 章绪论 概念是d e v l i n 和m u r p h y 于1 9 8 8 年首次提出的,1 9 9 3 年w m i 锄h i n r f l o n 系统 地阐述了数据仓库的思想、理论。数据仓库是一个面向主题的、集成的、随时间 变化、非易失性的数据集合,数据仓库体系结构如图l - 2 所示: 数据薄效据采集羲掘存储与管理前靖工具 圈i 2 基于数据仓库信息集成体系结构 f i g u r ei - 2d a m w a r e h o m eb a s e di n f o r m a t i o ni n t e g r a t e d a r c h i t e , m a 来自不同数据源中的数据经过抽取、转换、清洗等操作加载到数据仓库中, 终端用户使用o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 或数据挖掘工具对数据仓库 中的数据进行分析处理,获取自己想要的信息,主要用于为企业各级管理人员从 业务系统中获取决策支持提供服务。 基于数据仓库的信息集成系统在客户端与数据源之间增加了一个数据仓库 层,该层对数据进行高度的集中,存储来自各个数据源的数据。系统提供了对这 个数据仓库的查询机制,能够方便的对这些数据进行有效的处理。该方法也存在 一定的问题和局限,当信息源的数据发生变化时,数据仓库中的数据也要做相应 的修改。因此,这种间接访问方式的最大缺点是数据更新不及时,数据重复存储。 这种方法通常需要一些新的技术,如有效的数据加载和增量更新维护等【5 】。 ( 3 ) 基于中介器,包装器 基于中介器,包装器的信息集成方法也称为虚拟方法( v m u a l ) ,该方法在文 献【6 ,7 】及其他很多文献中都有详细的介绍。基于中介器包装器的信息集成体系 结构如图1 3 所示: 北京工业大学工学硕l :学位论文 由 图1 - 3 基于中介器胞装器信息集成体系结构 f i g u r e1 - 3m e d i a t o r p a r a p p c rb a s e di n f o r m a t i o ni n t e g r a t e d 该方法使用了与数据仓库完全不同的结构。数据仍保存在各数据源上,集成 系统仅提供一个虚拟的集成视图( 即全局模式) 和对该集成视图查询的处理机制。 系统能自动地将用户对全局模式的查询请求转换成对各异构数据源的查询1 8 】。 虚拟方法依赖于两类软件组件:包装器( w r a p p e r s ) 和中介器( m e d i a t o r s ) 。 包装器包装数据源,把底层的数据对象转换为统一的数据模型。用户的查询基于 中介模式,不必知道每个数据源的特点。中介器将基于中介模式的查询转换为基 于各局部数据源的模式查询。它的查询执行引擎再通过各数据源的包装器将结果 抽取出来,最后由中介器将结果集成并返回给用户。 由于该方法不需要重复存储大量数据,并能保证查询到最新的数据,因此比 较适合于高度自治、集成数量多且更新变化快的异构信息源集成。该方法中的技 术涉及到更多的查询上的代数操作,因此查询功能的实现较为复杂。 1 2 2 2 信息集成相关研究成果 从信息集成的实现方案上来看,不论是在学术界还是产业界,都已经有了一 些研究成果。 学术界内,国外开展信息集成的研究较早,开发出了一些比较著名的信息集 成原型系统。在国内,近几年信息集成的研究在高校和科研机构才逐渐成为研究 热点,也出现了一些成形的原型系统。下面是国内外学术界一些较有成效的信息 集成研究成果。 第l 章绪论 ( 1 ) i n f o b u s 9 i n f o b u s ( i n f o r m a t i o nb u s ) 是斯坦福大学开发的数字图书馆项目的研究成果之 一。它提供了一个能够支持异构的、自治盼构建间互操作的基础结构,这一结构 很像可以支持分散硬件部件间的计算机硬件总线结构。该总线型的基础结构就称 作i n f o b u s ,其体系结构如图1 4 所示: 图i - 4i n f o r b u s 体系结构1 9 1 f i g u r ei - 4i n f o r b 峭a b j t e c t i 鹏即 i n f o b u s 采用了基于c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ) 的 体系结构,支持用户界面( i n t e r f a c e ) 、信息源( i n f o r m a t i o ns o u r c e ,i s ) 和信息 处理服务( i n f o r m a t i o n p r o c a s s i n g s e r v i c e ,i p s ) 的即插即用。 ( 2 ) p e g a s u s 1 哪 p e g a s u s 是惠普实验室数据技术部开发的多数据库系统,它能够提供对本地 和外部自治数据库的访问。p e g a s u s 的系统结构包括3 层:智能信息访问层、协 作信息管理层和局部数据访问层。它采用输入模式来表示一个外部数据库。从本 地模式到输入模式的翻译以及外部模式的输入都采用h o s q l 语言的视图机制实 现。 t s i m m i s t t h es t a n f o r d 一i mm a n a g e ro fm u l t i p l ei n f o r m m f i o ns o u w 燃) l o r e 是由斯坦福大学与m m 联合开发的一个信息集成系统,其目的是为异构信息源 ( 包括结构化和半结构化的) 的快速集成开发所需工具。它采用了包装器技术和 中间件技术。其中l o r e 系统已进入商业化运作中 ( 4 ) 蹦【9 1 2 1 北京i = 业大学工学硕士学位论文 i m ( i n f o r m a t i o nm a n i f o l d ) 是开展于a t & t 贝尔实验室的项目。i m 对信息源采 用说明性描述,利用运算法则为给定查询去除一组信息源,生成可执行的查询规 划。i m 己被应用于集成1 0 0 多个不同的w w w 信息源。 ( 5 ) i n f o s l e u m 凹 i n f o s l e u t h 是m c c ( m i c r o e l e e t r o n i e sa n dc o m p u t e rt e c h n o l o g yc o r p o r a t i o n ) 的 一项科研项目,采用了多a g e n t 的体系结构。该体系结构由一组可以互相通信的 a g e n t 构成,每一个a g e n t 负责系统某一方面的功能,a g e n t 之间可以通过 k q m l ( k n o w l e d g eq u e r ym a n i p u l a t i o nt a n g u a g e ) 进行通信。 ( 6 ) o m n i l i n k t l 3 1 o m n i l i n k 是暨南大学信息网络工程研究中心开发的异构数据库信息集成中 间件系统。该中间件系统向信息系统的开发人员提供统一的跌射数据库,使其在 开发新应用系统时可以通过单一的标准界面来集成多个异构数据库中的数据。 ( 7 ) p a n o r a m a t ”i p a n o r a m a 系统是华中科技大学研制的一个能集成多种数据库系统、文件系统 以及w e b 数据源的扩展型多数据库信息集成系统。它使用基于) 0 m 。的集成数据 模型( d m ) 作为其公共数据模型,并提供了x i d m 模型与关系模型、面向对 象模型、h t m l x m l 文档以及半结构化数据之间的映射。使用p a n o s q l 语言作 为p a n o r a m a 系统的查询语言,该语言对s q l 进行了定的扩展,以支持全局模 式的定义、全局模式与局部模式的映射以及全局模式的操作。该系统提供了一种 多自治域的层次互操作模型,在局域范围内,使用c p r b a 作为基础通信平台, 屏蔽了环境的分布性和异构性;在广域范围内,使用x m l 和s o a p 构建p a n o r a m a 系统的w e b 扩展,用于将远程数据源集成到p a n o r a m a ,并以w e bs e r v i c e s 的方 式向远程用户提供p a n o r a m a 系统的服务。 在产业界,由于近些年来各企事业单位对于信息集成的需求十分旺盛,国内 外各大软件开发公司及信息服务公司纷纷推出了自己的信息集成中间件产品以 及企业级信息集成解决方案。 ( 1 ) i b m w e b s p h e r e 1 1 4 1 i b m 的w e b s p h c mi f ( i n f o r m a t i o ni n t e g r a t o r ) 是i b m 实验室在d b 2d a t aj o i n e r 和r e l a t i o n a lc o n n e c t 的基础上,经过多年研发而推出的信息集成产品。作为信息 集成中间件,h 采用了包装器技术,允许应用访问和集成关系型数据库、x m l 、 文档中的图形、l o t u s n o t e s 中的电子邮件、m i c r o s o f t e x c e l 中的电子表格等很多 结构化以及非结构化的数据源。i b m 在w e b s p h e r ei i 的基础上,提供了一系列的 企业整合解决方案,帮助企业根据其自己的需求选择合适的整合方案( 如图1 5 ) 。 第1 章绪论 图1 - 5i b m 信息集成解决方案1 1 4 1 f i g u r e1 - 5i b mi n f o r m a t i o ni n t e g r a t e ds o l u t i o n t l 4 1 ( 2 ) b e a l i q u i dd a t a 1 5 】 l i q u i dd a t a 是b e a 公司开发的数据集成平台,是一个基于x m l 的实时数 据集成解决方案,和b e aw e b l o g i ci n t e g r a t i o n ( w l d 结合,可提供完整的企业应 用集成方案( 如图1 - 6 ) 。 图1 - 6b e a 信息集成解决方案i 习 f i g u r e1 - 6b e a i n f o r m a t i o ni n t e g r a t e ds o l u t i o n ! l 习 l i q u i dd a t a 为各种操作系统中的数据提供了实时和安全访问方式,而无需修 改现有的系统和应用。l i q u i dd a t a 采用可视化工具描述异种环境下分布数据的访 北京工业大学工学硕上学位论文 问逻辑,具有很好的可重用性和灵活性。对于开发人员,l i q u i dd a t a 提供了简单 的、类似s q l 的标准接口x q u e r y 。另一方面,l i q u i dd a t a 能够按需集成共享数 据,如分布在多个操作系统和数据源的客户资料,按照应用和用户的需要进行裁 剪。 ( 3 ) 东方通t o n g i n t e g r a t o r t l 6 l 东方通科技是我国本土的中间件技术、产品和解决方案提供商,提供了拥有 完全自主知识产权的以中间件为基础的信息集成解决方案,包括数据集成、服务 集成和应用集成。其中,中间件产品t o n g i n t e g r a t o r 基于j 觚,a 的构件式集成开 发环境,适用于包含多数据源、多应用及多中间件环境的应用集成。该产品发布 于2 0 0 3 年,为国家8 6 3 计划项目产品。 综上所述,在迫切的市场需求的拉动下,对于信息集成原型的研究和产品的 开发都呈现越来越热的趋势。这些信息集成系统侧重于信息集成不同的层面和方 面,一定程度上解决了企事业单位信息共享困难的问题。 但是信息集成是一项很艰巨的工作,信息量的增加和信息源的多样性结合在 一起,检索有用信息的工作变得非常复杂。上述信息集成系统仍然存在各种各样 的问题,信息集成的解决方案还不够成熟。尤其是在企业级应用上,仍然存在操 作复杂、性能低下、可用性不强等问题,对于各企事业单位信息集成的需求还远 远不能达到。此外,层出不穷的新的技术也给信息集成带来了源源不断的挑战。 在信息集成领域,仍然需要更加深入的研究,提出更加优化的方案。 1 3 主要的研究内容与创新点 本课题来源于北京市教育委员会项目“异构数据库信息集成复制技术的研究 与应用”( 心舵0 0 5 l o 0 0 5 0 1 1 ) 。该项目的主要研究工作是充分分析目前的信息集 成技术发展的现状,提出并实现适合于异构环境,与d b m s 无关的,具有普适 性的“基于s q l 重现法”复制机制。并且从“数字校园”的实际应用出发,整 合出一套有特色的异构数据库复制技术在信息集成中的应用架构。 “基于s q l 重现法”是一种异构数据库复制机制,本课题采用了这种异构 数据库复制技术实现信息的集成。由于历史的原因,各个集成对象,也就是已经 建立的信息系统,他们的设计思想不同,解决方案各异,表现为这些信息系统所 依赖的数据库在采用的数据库产品、数据模式结构、信息标准等方面差异性很大。 对于信息集成过程中的种种异构性如何能够更好的解决,成为信息是否能够被有 效集成的关键。 本课题着重围绕信息集成中的这些异构性进行了深入的研究,针对一些典型 第1 章绪论 的异构冲突提出了解决方案。主要的研究内容有: ( 1 ) 对目前信息集成技术以及异构数据库复制技术的现状及发展趋势进行 了分析,对各种解决方案进行了比较和总结。 ( 2 ) 在“基于s q l 重现法异构数据库复制”简单原型实现的基础上,针对 原型中尚未解决的异构数据库复制过程巾的各种异构冲突进行了深入的研究,提 出或改进了各种异构冲突的具体解决方法。并且提出了冲突解决流程,设计并实 现了异构数据库复制冲突消解框架。 ( 3 ) 针对其中“数据模式异构”这一复杂且繁琐的问题,进行了数学抽象 和建模。设计并实现了“基于属性空间的模式匹配算法”,以半自动化的方式替 代了传统的完全手工进行模式映射。对“属性”的选取、量化,以及映射决策进 行了探讨和试验。 本课题的创新点有: ( 1 ) 基于属性空间的模式匹配算法的设计与实现。将数据挖掘领域常用的 “属性空间”概念引入到异构数据库复制的模式映射中来,进行半自动模式匹配。 根据实际需求可给出提示信息或直接得到映射结果,降低了入工寻找映射的复杂 性和繁琐性。 ( 2 ) 基于a o v ( a s p e e to r i e n t e dp r o g r a m m i n g ) 的冲突管理框架的设计与实现。 给出了冲突管理框架,将异构数据库复制中分散于各个环节的异构冲突统一进行 检测、归类、协调、消解。 1 4 本文的组织 本文共分为五章,文章的结构安排如下: 第l 章为“绪论”,阐明了本课题的研究背景。概述了研究课题的国内外现 状,介绍了课题的研究内容与创新点,说明了文章的组织结构。 第2 章为“面向信息集成的异构数据库复制技术”。简要介绍了异构数据库 复制技术的基本概念、分类和关键技术,总结了该技术的发展现状,阐述了“基 于s q l 重现法”异构数据库复制技术的设计思想、工作原理、关键技术的实现 以及特点。 第3 章为“异构冲突消解策略”。详细阐述了异构性产生的原因,对异构性 的各种表现形式进行了分析和总结,并通过研究给出了系统针对典型异构冲突的 消解策略。 第4 章为“基于属性空间的模式匹配算法”。针对数据模式冲突的模式映射 北京t 业大学工学硕士学位论文 研究现状进行了总结。详细阐述了模式匹配算法的数学抽象与建模,介绍了该算 法的理论基础与具体实现。 第5 章为“异构冲突管理器的设计与实现”。从系统的整体结构,引出了其 中异构冲突管理器的框架设计。针对其中的冲突检测器,详细介绍了采用a o p 技术的设计思想以及具体实现。 最后为本文的结论。对目前的课题研究内容及成果做出了总结,并对未来的 工作进行了展望。 第2 章面向信息集成的异构数据库复制技术 第2 章面向信息集成的异构数据库复制技术 2 1 引言 如绪论所述,在信息集成体系结构方面,除了联邦方法由于种种不足已经不 适用于目前的信息集成需求外,目前普遍采用的两种信息集成方法是:物化方法 和虚拟方法。 在现有的信息管理系统中,企业的关键数据通常以关系表的形式存储在关系 数据库中。针对这种异构数据库的信息集成通常有两种方式:一种是联邦访问, 即通过数据联合进行分布式数据访问。这种方式对应于基于中介器、包装器的信 息集成体系结构,即虚拟方法。另外一种是合并数据访问,即将数据移动到对应 用程序更有效或更一致的位置( 例如全局数据库) 。这种方式对应于基于数据仓 库的信息集成体系结构。即物化方法( 如图2 1 ) 。合并数据访问中数据的移动是 通过异构数据库复制技术实现的。 子系统1子系统2 子系统3 图2 1 异构数据库复制信息集成框架 f i g u r e2 - 1h e t e r o g e n e o u sd a l 曲a r e p l i c a t ei n f o r m a t i o ni n t e g r a t e df r a m e w o r k 2 2 异构数据库复制技术概述 2 2 1 基本概念 2 2 1 1 数据库复制 数据库复制是分布式环境中经常用到的一项关键技术。数据库复制是把数据 从源数据库“同步”到目标数据库的过程1 7 ,堋。 数据库复制的流程描述如下:在源数据库获得复制对象的内容或变化情况, 北京工业大学t 学硕 = 学位论文 然后把它们传送到目标数据库,并修改那里的副本,保持源数据库和目标数据库 数据的一致性。通过把同一数据复制为多个副本存放到不同数据库中,可以有效 地降低网络开销和缩短响应时间,从而提高整个系统的可用性和可靠性。 数据库复制的应用非常广泛,如高可用性系统、负载分担、嵌入式系统、移 动办公、电子商务等等。在这些领域中,数据库复制都发挥着重要的作用。 2 2 1 2 异构数据库 异构数据库也是数据库领域研究的重斛1 9 , 2 0 l 。 所谓“异构的( h e t e r o g e n e o u s ) ”,是指不同种类的,异质的,由不同成分或 部分组成的。在异构数据库领域,通常的观点认为,从数据管理的角度出发有两 种异构形式:平台( p l a t f o r m ) 异构和语义( s e m a n t i c ) 异构【2 “。平台异构包括主 机、设备、操作系统、等方面。这里的语义异构是广义的语义异构概念,包括了 除平台异构之外的各种异构形式。 2 2 1 3 异构数据库复制 异构数据库复制是数据库复制技术和异构数据库技术的结合,在文献【2 l , 2 2 ,2 3 ,2 4 ,2 5 ,2 6 ,2 7 中都有所涉及。 在异构数据库复制技术中,复制的源数据库和目标数据库是异构的。这种异 构性给数据库复制技术带来了更多的难题和挑战。本文将在第三章重点介绍异构 数据库复制中的各种异构冲突及其解决方案。 2 2 2 复制的分类 2 2 2 1 按照复制的实时性 数据库复制可以分为同步复制和异步复制。 同步复制又称急切( e a g e r ) 复制 2 1 q ,要求所有副本的修改都在一个全局事 务中完成。同步复制需要在可靠性、并发控制、数据加锁等方面进行深入的研究 和全面的设计,比较复杂。 目前同步复制的协议和方法有很多,但是这些方法都存在条件苛刻并且实现 困难的缺陷,导致了在实际应用中有着很大的局限性。针对同步复制的实用性差 的弱点,普遍的解决办法是在只要求数据松散一致性的场合使用异步复制来代替 四】。异步复制把对不同副本的修改分散在多个事务中,可以克服和改善上述缺陷, 在实践中得到更广泛的应用州。 第2 章面向信息集成的异构数据库复制技术 2 2 2 2 按照复制的自治性 从自治性的角度来看,复制还可以分为主从式( m a s t e r s l a v e 或 p r i m a r y s e c o n d a r y ) 和对等式( p e e r - t o - p e e r ) 。 主从式复制也叫单向复制,指的是两个复制结点之间只从主节点向从结点进 行复制。主结点也叫源结点,保存复制对象;从结点也叫目标结点,保存复制对 象的副本。源结点中数据对象具有可读可写的特性,目标结点中的数据对象只具 有可读的特性。修改数据对象需要在源结点上进行,从而预防了更新冲突的发生 【3 l 】。 早期的数据库复制基本上都是主从式的。这种复制方式比较简单,在数据仓 库、w e b 网站等领域都有大量应用。另外一个典型应用是数据迁移,即将原有数 据一次性整体复制到目标数据库,而原有数据弃用。 随着分布式应用的逐渐增多,以及近年来对于移动环境研究的兴起,对等式 复制开始得到更多的关注。对等式复制也称双向复制,多版本复制( m u l t i - c o p y ) 。 对等复制的节点没有主从之分,复制可以在两个相反的方向进行。对等复制的各 个结点都是可读可写的。对等复制比主从复制更加复杂,实现难度也较大,但其 应用范围更加广泛一些,在移动环境、动态环境等场合下大多采用这种复制方式。 2 2 3 关键技术 在异构数据库复制过程中,涉及的组件和环节比较多,复制的实现也比较复 杂,下面将从复制的流程出发,介绍异构数据库复制过程中的关键技术。 异构数据库复制流程可以这样描述:在源数据库获得复制对象的数据或者变 化情况,然后把它们从源数据库传送到目标数据库,按照一定的映射关系进行数 据转储,使目标数据库的副本得到相应的修改。最终使得目标数据库的数据与源 数据库的数据能够保持一致。 如图2 - 2 所示,异构数据库复制流程由以下三个环节组成:变化捕获、复制 图2 - 2 异构数据库复制流程 f i g u 2 - 2h e t e r o g e n e o u sd a t a b a s er e p l i c a t i o nf l o w 北京工业大学t 学颂j :学位论文 更新、数据转储。而冲突检测与消解严格来说并不属于异构数据库复制环节,但 它是异构数据库复制技术中非常重要的一个关键技术,也是本文研究的重点,所 以也在这里进行详细介绍。 2 2 3 1 变化捕获 变化捕获是指从源数据库获得数据更新情况的过程。 该环节涉及到异构数据库复制的更新方式。更新方式一词用来表示数据库复 制更新副本所使用的传输数据的形式,它决定着单次的数据传输量。更新方式有 以下三种: ( 1 ) 完整拷贝( 剐lc o p y ) 方式。不管复制对象有没有改变,以及哪些数据项 发生了改变,都将它的全部内容传输给相应节点。这种方式下的传输数据为全部 数据项的内容,传输量等于复制对象的大小。 ( 2 ) 增量修改( i n c r e m e n t a lu p d a t e ) 方式,也称标量( s c a l a b l e ) 方式。这种方式 的传输数据是复制对象的全部变化序列。传输量为复制对象的变化部分的大小。 ( 3 ) 净变化( n e tc h a n g e ) 方式。更新的数据是一个复制周期的始末两个时刻 复制对象的净变化值。与增量复制相比,不包括复制周期内的变化轨迹。 变化捕获环节是异构数据库复制的基础,它对其它环节影响很大,其实现方 式决定了其它环节的实现方式。当前的异构数据库复制技术中主要采用的变化捕 获方式有:基于快照法、基于触发器法、基于日志法、基于a p i 法、影子表法和 控制表变化法【3 们。 2 2 3 2 复制更新 复制更新是将全部数据或者变化数据从源数据库传输到目标数据库的过程。 该环节涉及到异构数据库复制的选时方式和数据传送方式。 选时方式是指刷新副本该在什么时候执行,它决定着副本的更新频率。选时 方式有以下三种: ( 1 ) 固定间隔( f i x e di n t e r v a l ) 方式。即每隔一个固定的时间段去定期更新 副本。这种方式易于调度,效率也较高。间隔时间的长短可根据对数据一致性要 求的强弱程度和系统性能设定。 ( 2 ) 请求响应( r e s p o n s eo nd e m a n d ) 方式。根据用户输入的请求更新命令 或者程序设定的条件来更新副本。这种方式是基于事件驱动的。 ( 3 ) 立即响应( r e s p o n s ei m m e d i a t e l y ) 方式。源数据库对象一旦发生变化, 第2 章面向信息集成的异构数据库复制技术 就立即复制更新到目标数据库。这种方式能保证或接近达到数据的紧密一致性。 从复制的实时性来看,固定间隔方式和请求响应方式都属于异步复制,立即 响应方式属于同步复制。 数据传送方式可以有以下三种【蚓: ( 1 ) 推式( p u s h ) 传送( 如图2 - 3 ) 。由源节点承担数据传送任务,主动发 送给目标节点。由于推式传送将数据传输的任务分配到了各个源节点,所以效率 较高。 图2 - 3 推式传送模型 f i g u r e2 - 3p u s ht r a n s m i s s i o nm o d e l ( 2 ) 拉式( p u l l ) 传送( 如图2 - 4 ) 。由目标节点向源节点申请抽取数据。 该方式优点是易于调度。 图2 4 拉式传送模型 f i g u r e2 - 4p u l lt r a n s m i s s i o nm o d e l ( 3 ) 推拉结合( p u s h - p u l l ) 传送( 如图2 - 5 ) 。数据传送任务由第三方节点 承担。第三方节点将数据从源节点拉出,之后推送到目标节点。该方式适用于节 点数较多的情况。 2 2 3 3 冲突的检测与消解 冲突的检测与消解是指对分散于复制过程中各个环节的各种冲突进行检测, 北京工业大学工学硕士学位论文 ! 第三方节点 i - _ _ _ _ _ - - :源节点目标节点; 一 图2 - 5 推拉结合传送模型 f i g u r e2 - 5p u s h - p u l lt r a n s m i s s i o nm o d e l 根据预先定义好的规则进行冲突的消解。这里的冲突分为复制冲突和异构冲突两 个方面。 ( 1 ) 复制冲突【3 2 】 与数据库复制技术相关的冲突称为复制冲突,是指在同一复制间隔内,多个 站点对同一个数据迸行了修改。当复制更新时,各个副本要收敛于一致,而产生 的冲突。这类冲突的直接产生原因是复制的异步性。 其中典型的有:更新冲突( 同一复制对象的多个副本在一个更新间隔内被修 改) 、主键冲突( 同一复制间隔内,不同节点向同一表中插入具有相同主键的记 录) 、删除冲突( 某一节点修改了其他节点在同一复制间隔内删除的记录) 等冲 突表现形式。 复制冲突的解决方案在数据库复制技术中已经得到了比较深入的研究,可以 通过分组法【3 3 1 、优先级法髀1 等方法事先避免,也可以通过标志位法f 3 5 】、时问印 法 3 4 1 等方法在冲突发生时进行仲裁解决 ( 2 ) 异构冲突 与异构数据库技术相关的冲突称为异构冲突,包括数据模式冲突、数据类型 冲突、数据实例冲突等冲突表现形式。这些冲突分散于异构数据库复制的各个环 节,其产生的直接原因是数据库的异构性。 本文着重讨论的是异构冲突。如无特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论