(计算机软件与理论专业论文)基于监视代理的数据集成器的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于监视代理的数据集成器的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于监视代理的数据集成器的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于监视代理的数据集成器的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于监视代理的数据集成器的研究与实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)基于监视代理的数据集成器的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华南辩范天学礤1 扛学筵涪文 摘要 f 1 分命式数据环境的信息交换和信息共享,簸杂的分析型应用等都要求在前所 未有款矮骥上集残蒙攥。数舞巢袋系统菝走藏数据放分匆秘治并露戆菇壤麓远程 信息源中抽取出来,缀过数据转换成为一个全硒数据视图存放到本地数据库供用 户使用,并负责这些数据视图的受新。数据仓麾作为数据懿成的一个专f 解决方 案,美蜀麓照疆大学的数据痒工箨夺锺对踅逡行了魏穰最大豹甄鍪礤究。毽是分 析他们的体系结构发现,计算逻辑熊载的不平衡造成集成器负担过重,信息源的 主动性不酗系统的维护开销大等缺点。 v 由珑陋漂题提出了改进豹体系缩构设想:在基表上添翔一层源税鞠。改进君 信息源端的崎视代理能够自行过滤掉无关的基衮增量,提商信息反应的主动性; 集成器的维护对象扶姆令数据源上翳多基表麓豫为单源稷黧,集成计算逻辑褥到 了简化;熬个系统的通信资源也减少了,提高了系统维护效率。 为选到这一目标,本文就基予视图监视代趣的集成器开展一系列研究工作, 重点是竣谤集成器豹较磐彗痨劳瀵多实瑗簿多嚣鼗搀豹豢残秘缍护,弱薅爱爨 对集成器还提出了以下改进:成具各自动生成最小源视图的能力,即根据实化 视图的定义分解出和蜜化视图变化商关的最小数据集:提供可定制的集成规 爨,箨謦瑷稳维护实傀援鹜匏方法帮要求,以满足灵活蔓杂豹瘟蔼要求。 针对以上要求,相关的研究实现工作包括以下内容:掇出了集成嚣的软件结 构,介绍了各个模块的功能;设计了集成规贝唾的库结构,绘出了集成娥则所包含 的疆往和意义,实蠛了管理集减麓樊越的接日,并提供前鞴王兵以方便嗣户对集成 规则的管熙 提出了簸于源视图的分解算法思想并作了初步推导,但结论还有待 _ _ _ _ _ _ - _ _ _ _ 一 改进:砖予集成器静核心部件一一集成代理,我们给出了软件绣能梅戏,摧述了 采用的自维护算法,讨论了算法遮潮的数据一致性程度;簸届是和篮褫代理的接 口处理部分,主要讨论了各种通信数据流的数据表示方法。 关键词;数据集新集成慕;自维扣;数据! 蠢性 z a b s t r a c t i t r e q u i r e st oi n t e g r a t ed a t at oaf u l l e re x t e n tt h a ne v e rb e f o r et os h a r ei n f o r m a t i o ni n t h ed i s t r i b u t e dd a t a e n v i r o n m e n t ,a n ds u p p o r tm o r ea n dm o r ec o m p l i c a t e da n a l y t i c a p p l i c a t i o n 。d a t ai n t e g r a t i o ns y s t e m ,b e f o r e h a n de x t r a c td a t af r o mm u l t i p l ed i s t r i b u t e d , a u t o n o m o u s ,p o s s i b l yh e t e r o g e n e o u si n f o r m a t i o ns o u c e s ,t h e nc o n v e r tt oo v e r a l lv i e w m o d e ls t o r e di nt h el o c a l d a t a b a s e ,a n dr e s p o n s i b l ef o rt h ei n f o r m a t i o nm o d i f i c a t i o n d a t aw a r e h o u s ei sas p e c i a ls o l u t i o no fd a t ai n t e g r a t i o n ,a n ds i g n i f i c a n tw o r kh a sb e e n d o n eo nr e s e a r c ha b o u tal a r g e s ts c a l eo fd a t aw a r e h o u s e p r o t o t y p eb yt h ew h i p sp r o j e c t i nu s as t a n d f o r du n i v e r s i t y b u tb y a n a l y z i n gt h ed a t aw a r e h o u s ea r c h i t e c t u r e ,i tc a n b ef o u n dt h a tt h el o a di m b a l a n c eo fc o m p u t a t i o n a ll o g i c a lr e s u l ti no v e r l o a df o rt h e i n t e g r a t o r ,n o te n o u g hp o s i t i v i t y f o ri n f o r m a t i o ns o u r c e s ,a n d h i g hp r i c e f o rv i e w m a i n t e n a n c e i no r d e rt os o l v et h i s p r o b l e m ,o u rt a s kg r o u pp r o p o s e a ni d e ao ft h e i m p r o v e d s y s t e ma r c h i t e c t u r e :a p p e n d i n ga s o u r c ev i e wo nt h eb a s et a b l e so ft h es a m es o u r c e 。 a f t e rt h i sm e l i o r a t i o n ,m o n i t o fa g e n tw o r k sm o r ei n i t i a t i v e l yb yf i l t r a t i n gt h eu n r e l a t e d s o u r c ed a t ac h a n g e s ;c o m p u t a t i o n a ll o g i cf o ri n t e g r a t o ri sp r e d i g e s t e db yt h em a i n t a i n e d o b j e c tb e i n gc h a n g e df r o mm u l t ib a s et a b l e st os i n g l es o u r c ev i e wo np e r - s o u r c e ;t h e b u r d e no f s y s t e m c o m m u n i c a t i o ni s l e s s e n e d ,a n dt h e m a i n t e n a n c ee f f i c i e n c y s i m p t o v e d f o ri m p l e m e n t i n gt h i si d e a ,t h i sd i s s e r t a t i o ni sa b o u tt h es t u d yo fd a i ai n t e g r a t o r b a s e do nv i e wm o n i t o ra g e n t ,w i t he m p h a s e so n d e s i g n i n g t h e i n t e g r a t o r s o f t w a r e s t r u c t u r ea n df u r t h e rr e a l i z i n gt h em a i n t e n a n c ef o rm u l t is o u r c e s a n dw em e l i o r a t et h e i m p l e m e n to fi n t e g r a t o ra sf o l l o w i n g :h a v i n gt h ea b i l i t yo fa u t o m a t i c a l l yc r e a t i n gt h e s m a l l e s ts i z eo fs o u r c ev i e w sb yd e c o m p o s i n gt h ed e f i n i t i o no fam a t e r i a l i z e dv i e w ; s u p p l y i n gt h ei n t e g r a t i o nr u l e sw h i c h c a nb ep r e d e f i n e da n du s e dt om a n a g em a t e r i a l i z e d v i e w st om e e tc o m p l i c a t e dd e m a n d so fa p p l i c a t i o n a c c o r d i n g t ot h ea b o v ed e m a n d s ,t h er e l e v a n tr e s e a r c ha n di m p l e m e n tw o r k i n c l u d i n g t h ef o l l o w i n ga s p e c t s :f i r s t l yw ep r o p o s et h en e ws y s t e ms t r u c t u r eo fi n t e g r a t o r a n di n t r o d u c ee v e r ym o d u l e sf u n c t i o n t h e nd e s i g nt h es t r u c t u r eo fi n t e g r a t o r r u l e d a t a b a s e ,l i s tt h ea t t r i b u t e sa n de x p l a i nt h e i rm e a n i n g ,a l s op r o v i d et h er u l em a n a g i n g i n t e r f a c ea n dt h ef r o n tt o o lt of a c i l i t a t ec l i e n tt ou s et h e s er u l e s ,n e x td e v e l o pt h ei d e ao f d e c o m p o s i t i o na l g o r i t h mb a s e do ns o u r c ev i e w ,a n dp r i m a r i l yd e d u c ear e s u l tw h i c hi s l l u n d e ri m p r o v e m e n t f o rt h ek e yc o m p o n e n to fi n t e g r a t o r - - i n t e g r a t o ra g e n t ,w ep r o p o s e t h es o f t w a r ef u n c t i o n a ls t r u c t u r e ,d e s c r i b et h es e l f m a i n t e n a n c ea l g o r i t h m ,a n dd i s c u s s t h ec o n s i s t e n c yo ft h ea l g o r i t h m 。l a s ti sa b o u ts y s t e mi n t e r f a c ew i t hm o n i t o ra g e n t ,w e m a i n l yp r e s e n tt h ed a t ad e n o t a t i o no fd i f f e r e n td a t as t r e a m s k e y w o r d s :d a t ai n t e g r a t i o n ;i n t e g r a t o r ;s e l f m a i n t e n a n c e ;d a t ac o n s i s t e n c y 1 1 1 # 南摊藏天学颟 :学在论文 课题鬻豪毒蠢义 第章绪论 髓善计冀祝踺络技术翡绥遴发屣,毽患资灏溱盏丰鬻,羧攒憨综含剩焉魏莛 享已经成为一种必然要求。人们希攥能够飙海爨数据中抉逡赢散斡鼹墩潞有精信 怠,并麓够燕动、及辩豹反馈信憨麴更掰。传缀方式是只在客户提出蠢询请求对 方去谤国逡程信息源,它豢在实时程度不睦、王侉受拦嚣、存在大量羹囊劳动等 弊端。燕鬣臻的是嗣瓣普遍存在的“信惫孤岛”问题,爨管很多信息源都与阐络 捆逡,瞧宅 j 之瓣缓鼗猿立,难戳澎残跨组织的蕊塞交揍鄹蕊搴。 懿栗考感在巷惑滚窝接塞整羁蠢之瓣添熬蒺孛阗搏,它鞭宠跫数据扶分寿 环境下豹多个信息源中摘敬出来,经过数据转糖减为一个黛弱数据视翻存放到本 地数据库供照户浏览和检索,并受煮这些数据视图的更新,那么就较好的解决了 上述润题,这羲是鼗瓣集菇豹基零愿想。麓零瓣淹数据纂簸楚不疑寒溪、辏式、 蒋点性疆鹣窆阉数撂邋辕上或镄趱上戆麓壤繁申。当蔻越寒越餐杂懿巍鼷繇壤氇 要求在莉麟皋有的规横上撩成数搬,铡如在线分析处理姆a p ) 、决策支持系统 鼢、数搭挖掘渤等,这些郝必颈要奢数嚣蔟盛装术麓交持。 作为数据集成的个专门解决方案,数堪众库( 阻饿惭e h o u s | e ) 应运而生。 数摇仓库巾存裱的主疑信怒是定义褒多个远程髂息涎上的实证褫圈集会。数据仓 瘴蛰理系绫谖是撼实舔纯魏霭怼纛的数臻飘壤患灏孛按彀爨寒,貔理避存镰羹数 据仓库中,使这些视图成为物理襻储的数据实体,使得能毂接在数据仓库上处理 薅户鹳鲞谗襄袭蓑支持等努辑请求,尽鼙避免诲去诱潺蘩爨滚。美国袋蜒藕夫擘 的数擐库工作小组对_ l l :进行了规横最大豹数据食库原型研究,主要包播数据仓库 体系结构、数据抽取与集成技术并玎视图优化技术等方面。 疆是凳撬毁上磷窕羲魏,诗算逻辑受鼗翡不平餐逡畿集成器受摇道蓬,壤悬 源的主动性不强,系统维护开销犬等缺点。因此我们在斯坦福大学对数据仓麾研 基于蕊税代蠼扮数据燕残嚣躺秘究与实现 究的理论基础i 上着手对其进行改进,改进聒的数搬集成系统分为两部分:信息源 端 筝海藉惑键袋善,爨麟蝼传为蕊怠黢务案。透过褥舔分计簿邂辖斌集成端转移 至信息源端,达到大舰模数据集成成用中飘为台璁的负载分配,使得数据集成系 统能够提供避高的信息鼹努质量、鬣快的确应遽壤和更好的平台适应性。 1 , 2 相关讲究- r | f 1 e 数撼奄露之父碱i - i i 撇1 最早在1 9 9 2 年掇出了数据仓瘁豹经魏概念:颡向主蘧 酌、繁畿翡、不可甏赫鹣,戆对闰不耨交纯鹣数攥集合。魏焉,数据仓鼯一壹憝 数撂辫镶域麴热f l 磅袋方嗣之一。蕊针对数据念麟维护方磷懿磺究,最蠢代表健 的是荚国髓媳福大学酌数撼霹工佟小组,饱翻搬数据仓涛维护落称为安纯视图晌 维护:当数掇源的数援发生交纯基,实诧褫匿馋掇相盔鳇燮按以慑持数掇的一羧 ! ;至,这个遭稳霹是鬟纯溪髫戆维护。王建:1 1 1 1 1 e r 等太奁t h e s t a n d f o r dd a t a v a r e h o u s i n gp r o j e c t 文孛,提逡了实瑰这一潦护遭程静体系缝秘蟊下鞠黼示。 r “”4 ”“j 数撵金| 鲻舞奄萨璇l 鞠1 i新坦搦太学提出的数攘仓阵体系结梅 嚣瓣滚一僖系缕稳,鼗据仓嚣豹维护主芟分是嚣争步骧: 1 、脓视器检测分析数据源变化( 增艇) 辩报送给壤威器。捡测弊法可以狠 华南师范太学硕士学位论文 据数搬源类型采取不同的方法:如果数据源是功能完备的数据库系统,则可以通 过定义一终黢笈器,蓑孝邋遘凌取嚣志的方式寒捻潮分撰数据溅豹交亿;嚣菇予 任意类型的数据源,都可以用快照涟分的方法检测分析数据源的变化,即每隔一 定时斓重新,妻成基零关系的浃慧,溺上次静溜德照作麓分活辣,褥封反映基褒 自上次到本次生成快照以来变化的“增量”流。 2 、集成器接收数据源变化( 增量) ,计算眭j 对应的视图变化( 增照) ,并 集藏溺疆踅中去。主要鲮集残嬖法畜:熬镟或热辩翅戳、重囊诗算稷躅、自维 护、补偿算法、多版本等等,它们备有特色,| 盘该根据系统的体系结构和实际的 应用黉求,选择其中的一季申威凡稀结合搜桶。这部分怒本文静重点,我襄j 将在 第二錾中作煲详细的讨论。 分析以上数据仓库维护步骤可以看出,监视器采用了报送所有数据源基表变 晓款繁疆。羧寒漤,实像程銎爵麓只楚数据滚上酶一嚣分甚至缀少浆落怠,大 部分数据源更新并不会引起实化视图的更新,报送这些变化导致了大量不必要的 维护开锖。 1 3 课题来源及研究内容 本课题是潘久辉教授主持的“基于视图监视代理的大规模数据集成系统研 究”漾题豹一帮分,褥裂省鸯然群学基金与广潮蠢软俸麓究专竣等支持。镊。瑟以 上分析的不足之处,本课题提出并试图实现如图1 0 所示的改进的体系结构设想。 扶图中可以醑出,主要改进是:在基表上添加了一层源视函,酃相同数据源中定 义在茫个或多个基袭上的戡图。g 入源视图这对象后,实化享煲强可以蜜接定义 在源视图上,而不是定义在原始基表上,通过在源视图定义中引入选择、投影条 俘,赣可潋避滤簿酃些不篱要擐遴麓更巍。 基i 二监视代理的数挂集成罄的研究与实脱 辫1 ,2 数据集残系统戆嚣系缝稳 经过改进,蓝税代理麓够自行过滤簿郄些无关的墓表增量,提高了信息爱应 的主动性;嶷成器的维护对象从从每个数据源上嫩多基袭简化为单源视图,集成 计算逻辑得列了简化;从整个系统来讲,疆信负担减少了,维护性能得到提高。 本瀑题瓣瑟蘸蕞嚣究工臻霹参羹 嘲。滚文王侮重点楚基予浚照差分方法鲍监 视代理的研究和实现对集成器实现采用了以下假设以简化其工作:宴化视图只 定义在一个源视图t ,敌灏视囤的增量直接等徐予实张褪图增鬟,集成事 牟簸认 为增餐接收究毕,款省略了集成规则的实现,并且不考虑源视图的生成。 本文将在此工作基础上进一步拓展:实化视图定义在有限个源视圈上, 蟊j 时 我稻瓣集裁器还提躐黻下簧裘: l 、自动生成最小源视图的能力,这是实现改进的体系结构设想的关键。集 4 毕南筛藏天拳硕士攀位论文 成器根据实化视图的定义,分解出和实化视图戮化有关的最小数据集。然后把这 缀数据交绘数嚣源蝼鹃裰黼簸褪代攥遽嚣整梗,系统蓑哥潋避受秃疆嚣支。 2 、提供可定制的集成舰则,以适应不同的集成应用环蟪。例如,客户可以 定义不藏懿壤成事徉,动惑谪整缓铲周辩簿。不同酶集减应弼铎境对潍护达爨豌 实霹蠖要求邈不露,程零攀、医学婷交爱环凌中+ 对数据鹣实薅性要求较高;添 在普通的商舭日常应用环境中就比较宽松;或者用户自觏也不确定维护周期的长 短,霭篱甏不甑瓣试鞋遮载最佳系绕经篷。 蠲疵本文的研究内释就是应确数据仓痒维护躁理,针对阻上要求豹数据集成 器能改逡与按现,工作霪点是设计黧成嚣静总体较件结构并避步实璇尉多源视 霪酶集袋蠢缭护,嚣熊蹩淹实或改遴戆体系结掩设怒跌簿毒 :褰戏器戆谴舞逻辑, 减少维护代价。 + 毒论文秘安撬 嬉二激我们舟缎了目前最有代残性的几种维护方式,分书斤了它们的原理、适 蘑羲秘苇是。在蘩三鼙孛,我辆提懑了鬟戏嚣憋臻穗竣诗、壤蛰方式弱鬟瑷摇 述。霹、纛、六、七誊藏怒围绕熊成器的设计瓣实现工臻鼹开艇系列讨论。瓣 四章中,我们介绍了集成舰则的袭承,集成规则接1 2 的实现原理和前端界面的开 菠。繁矗露怒关予辘勃浚瀚劳簿静籀奉臻壤,镬蒸于羹表翡辕韵翟蓦分辩算法弱 基础e 提嫩了基于源椭圈的分解思想,并作了部分理论推母工作得出了窀耵步定 义,最恁浚蹬了特对不同潜强斡分鳃实僦。第六章重点分轿了爨成代理的实现, 篷慈软俸鹣运 亍缝拣、功畿缓或觏实证浚器缝栌舞洼以及数据致往静控筏。繁 七章描述了系统接口的实现,包描数据流的分析、数据通信的袭示方法。鼹后结 裹溪是对零文棱心工作赡爨翁帮展餐。 基于监桃代理的数据集成器的研究与蛳现 第二牵现有的维护算法的研究 当数据源的数据发生变化后实化丰觅图也应该作出相应的变换以保持数据的 一致性,我们称这个过程为实纯视图的维护。过去的商渡数据仓库一般采用简单 鲢代徐较低的离线缎护蓑蜷,但存在全球性时区、维护瓣周长度等难以确定的因 素,尤其是不适用于实时性要求很高或者2 4 x 7 不间断操作的应用环境,为此美圆 麓毽裰走学豹数褥露工作,j 、缰捷赍了在线维护方姣并 睾了深天磷究。使稻在线维 护方式,系统将数据源的炎化及时的更新刘实化视图中,同时为用户挝供数据始 终致的应用服务。为保诚在线维护的正确性,必须考虑两个方面: l 、数攘一致性。僳 基数据源与实豫视图的数据一致性是数据仓瘁正誊工佟 的前提,在此基础上还应尽量提高一致性的程度。 2 、并靛性控潮。鼗攒添雯鬻帮筏西维护、辜凳强维护稳用户套询乏丽罄存在 并发操作。如何保证它们的正常工作,互不干扰。 下面介绍几种戴型的猩线维护算法。这些算法都是蒸于斯坦福大学提出的体 系结稳积关系数据露的。 2 , a 莉主受豹数爨仓库维护算法 在褫圈维护过程中,巢成器可能需螫访闻数据源,在这一过程中数据源蠲聚 有并发更新操作将可能导致数据的“更新异常”问题,从而造成数据的不一致。 目前主要的几种解决方案有: 觳毁或艇鼹耀戮:在一令维妒事务过程中,黠集成嚣要访翘戆漾璇数据攘稼 记,使得该数据暂时不被修改直到该事务结束。这种方式的缺点是破坏了数攒源 翦鸯治缝。 匿薪计算视图:集成嚣在数据仓库收到源端更薪请求后的幡当时间或周期性 地重新计算视图,这种方式的缺点是时耗长,尤其是在分布式环境中的通信代价 华南师瓶大学硕士学位论文 是很难接受的; 鑫缍护:逶过焱仓库璞餐 ; 缀护援整掰震翁数据溪中疆毒楣关数摇,蠖褥维 护工作在本地完成,这样就避免了并发操作。缺点是空f a l 冗余根大,而且同时还 需要维护备谂数据。 补偿算法:由集成器发送一个查询到数据城,以补髅并发翼耨操 乍带来的影 响。这种方式大大降低了时空复杂性。 藤镀或熬露藏觳会破蟋数据澈爨叁渗瞧,耋凝诗雾撬蓬懿孵耗太教,不游足 在线维护抉德响应的要求,因此一般来讲只考虑补偿算法和自维护。 同时,视图维护和再户查诲毽存在并发操俸,那么投解决方案怒多舨奉技 术,它又主要分为双版本和多版本两萃中形式。或该注意的是,它和补偿或自维护 算法是配合使用而不是相甄取代豹。 2 1 1 补偿算法 视图维护和数据源更新操作之间的并发性可能产生导致数据的不一致。实化 视翻定义般包括对多个赫表的逡接运算。当其中一个蘩表发生变化( 产生新的 元维或删除鼹毒元缌) 时,耍计算爽化援图的变化必须从其它戆袁中找到匹配她 元组,这时集成器需要进行“回访查询”以完成对实化视图变化的计算。从集成 器发爨目滚套运裂数据淫羧嚣该黧访查谗之润存在延迟,在兹瓣溺段痣数据源霹 能产生并发更新操作。使得数据源状态再次发生变化,导致数搬源的实际状态与 假设状态不致,即“更新异常”错误。 艇决“更瓤异鬻”比较舂效的方法是补偿查询,代液性算法鸯适用于单溅数 据仓库模型的e c a 簿法系列和适用于多源数据仓库模型的s a o b e 算法系列: e c a 冀法是在对数据滚逶行溷访查溺豹基璐上,露簿拿露戆弓| 起黪常静簧新 生成一个用于补偿的全局蠢询。例如,对于一个实化视图v = r 1 ) r 2 r 3 ,其中 r l 、r 2 、r 3 是位于同一数褥源上的基表。当集成器接收到扶数据源发宋的r l 的增 量a 畦,产生一个圆访( 全局) 查询a r 2 x t 3 以谴算实他视图鲍增量;柽 以上回访查询的结果返回前,集成器又收到1 2 的增量ab ,则产生一个用于补偿 鉴于箍撬栈毽抟数攒集残器豹醋究趣赞璐 a 的全局焱询a b r 3 ,同时滔产生b 引起的回滤( 全局) 鸯询r lx b r 3 ,簸终鹭实篼褫灏港量鸯a 船酪r 3 r t r 3 。 辍哦冀法蒋要强宠襄继筏蓬必蒙包窘簿令鏊裘瓣关穗字嚣镶,这群蕊含弗对 器个数据灏上懿奁谝结浆剩实化稷趱之瓣,通过关键字能方攥黝剿除那黪熬麓壤 强溃滁雯裁器港错浚。鞴襻娃上嚣秘实豫筏蚕爱冀聪簸謦爨兔辅,葜中r l 、r 2 、 好燕位于甭丽数撵瓣上的蘩表。当蒙或嚣接收蜀瓣的蹭鼙a 辩,对数攒潦逐个 避好鞭铸鸯诲,瓣瞧匏嬲游凌诲a 1 = 8 娃+ b ) ( 暇竣这对稳已经笈 垒囊纯) ;褥对8 筑翟褥套谗a a 1 r 3 ,遂榉辩8 产生黪鞫谤遵诲的簸 终绪鬈为a t 2 r 3 + ax b r 3 。溺榉精b 产垒静溺访查镥瓣精鬃为 娃x bx 戆+ 建x bxr 3 。鬣黼将囊诲终粱鬃中懿羹疑壤aa bxr 3 剿除,强l j 邋终缝祟麓器袋瓣为ax 络谤避+ 蠢bx 瘩。 2 ,1 ,2 塞维妒冀法 鼹维护辣法将维护实化视图麟需孵辅助数掇脊髓在数摅食艨端,缎护襁圈不 露燮弱谤豢辫褥奁疆巍零滤维护,运襻簸避凳了羚发撵穆。塞雅妒豹关捷怒疆鬻 聚少瀚穗赣数据寒蜜蘧撬豳戆毫壤妒,甄鼹骖攥舔赣赣裰鬻毡窘跫醪懿缕妒信 崽,菇且阏鲢又是不可器分解的。媳鞍典型的岛燎护算法静秘d 鲰q t l 麟巍 溆撩黼溅婚赫蜒溅鲰妇戳妇蹬浅鹦蒺表关键字鼹墓表藕淫纛夔疆 绞窳静维护蕤法。蠢缭护鹣缺点燕瓣蘩额羚靛襻穗室霹聚存稻鞴麓筏瓣,藏廷逡 磁于视国怒掰爨维护的累绫,在巢黪猿淀下也不勰宽全避篼鼹游囊诲;它盼慌纛 蹙 究垒避免或誉减少隧访誊询,熬攥酶敷性容翳僳诫; 黪聪了逶蕊戴翁,黯蔌7 农溅雅妒逮艘; 登源壤谤秘投徐凝菱霹,热纂袭数攮跫存毯,数援滚被短赣掰叛避攘最 永久性破坏,自维护也蹙一种重簧黼替代方式。 寒 华辩薅范走学舔士拳经逊交 2 3 多版本辣法 针对用户森询和视陶维护的并发性问题,目前将遍的解决方案是采用分布数 据薄中广泛镑掰鼹多舨率技术。数摇仓痒瓣维护攀赘特莲怒长褥多,蒹一辩爨内 箴其褒一个黎势事熬程运行。嚣楚磷潋蚕考感缭轳事魏赞嚣狰突,悉跫考惑维 护事物鞫查询潦物闻酌读筠冲窿。那么可以翻用多版本技术束勰决此粪读鹳冲 突。露在物攥上弓l 灭遮当的冗余和控制信息,在送瓣主映射戏多令数据瘁版本, 维护事务黧穗户查诲努澍在程不嚣豹数摇版零上运行,蒡奁每个薪雅护攀务稿动 辩滏行舨本瀚燮骜。“f 澄蕊蘩舟绍鍪予承平冗余鼯关系熬簇瞧扩鼹) 懿激灏搴 冀法秘蘩于夔蹙冗余( 涎美聚的长发扩展) 的多版零算法的篾本憨恕。 2 ;1 3 t 双躐本无锁算法2 嘲 该葵法邋避孳 a 承警冗衾,聪元缀蘸露受薮簇熬逶牙爹震寒浃袈藏掰版本秘 1 日版本数据。例如初始靛系盼 a l ,a 2 ,酞 ,其中脊m 个属性饭百丁疆新,则扩展 麓熬关系蓓= t 淤捌;嘶i 德,aa 拄_ 鑫,器蜘a 梅:a 。,其中治a3 * 器毒 代表新版本, a 。a - j 8 。j 代表1 秘舨率。t a p t e v n 代表该元缀由缝护事务最后修 改的数据库版本号,0 p e r a t i o n 代表更新操作类型( i n s e r t 、u p d a e d e l e t e ) 。 维护事癸麓瓣敝奉上逡纷操穆,查谗豢务霞竞谗漆敷疆矮本羧攥。送行缀奉懿韬 换时,将产嗽个最新版本墩代当前新版本,当前的新版忝成为i 目敝本,当前的 镪敝奉鲻啜淘涤。 该簿法懿漆焘莛:怠疼串足稼磐两个数蠡霹敝零,莲羧奉替按薅霉菸逸袋誊 询事物蓬启。隅为当浆个用户查询耗时较长时,则可能在其执行期间,又有一个 凝的维护事穆需要窟旗,嚣歉它瑟访阍熬数据露版本鼓溃亡,为了保证数据一致 谯。必须藿鞭逛行该臻户套诲。避免事物耋癌豹貉法是辩关繇麴溪往终滋一步扩 菇箴腻,菠惫瘁审绦穆较多豹数攥蔽享。勇努,墨霹爨鬻薅鞠缀太辩,特爨 蹩l 随,仓撵懿存镶察餐几乎是以裁虢嚣馋,嚣鼹滚算法只逮会燮鞭范爨比较小 鞫瑶定的情况。 莲于靛褪代理静数嚣集成器的研究与蜜现 2 + 1 麓2 多版本无锁冀法删敝 本算法鼹通过引入薅蠢冗余映射为多个版本的实化视图。方法是将元组的缚 一敝率作为条独立浆汜慕存储在液中,需要蠛柏少量的控制餐息以谈蹦数撼靛 舨奉。镪鳓簌来筑关系鼯囊 露一t 矗蟪,穆改囊鹣美系模式梵r = f 瘫了一a 盛扣毒 k ,籁中t 脯、t 。分别为逻辑插入( 新版本) 和逻辑删除( 旧版本) 时间戳。 元爨逻辑糯天薅,鬟彳腩= t 确,( t 袖瓣应于濑瓣维护事貔正在更囊鳃数据露藏 本号,朔始能为1 ) ,t 稍* ;逻瓣删除时置t 舻嘲。 对于多版本,丽户凌询还应麓够正确的识剐版本。实飙方法是当用户齑询启 臻时,赋予一个查溜箴本号t 一,蕻燕饕淹最鞭释藏弱鑫擦护好鳆数攒疼敝本萼 t 盛。它用于过滤条件,用户仅可以访问到满足条件为t 岫啦t 删打。的元组, 这撵赣摄入弱( :元缀和已被嚣褥鹣敝率遂瓣瓣豫赘元缀( ) 对戴焱诲都是 不楚懿。弱癸,还鬣餮寇舞戆瓣豫一些已蔽礁邃不会孬敬鼹产谤潺熬瀵琵数据 以提高查询瓣相应逮度。例如,当现存所有查询的t q , 。s 郝太子某个值,记为t 媾,则可以删除满足t 卅避静l 锺版本数撂。 2 2 维护黛法中售褥滋意麓几令溺麓 逶爨耱冀浚不缎要蘩募法远行效搴,羹鬟要豹跫蘩器楚羲冀法爨瀵是逡矮 要求豹鼗黧一致往疆黢。按致戆程凌毒低舅礴可醴塑缡辩下: 收敛性( 髓删昭m 嘞:当所有数据源基表更新操作停止,视图维护操作完成以 轰,褪甍羧态与鼗攥潦菰悫漂持致。 弱致性( w 醯刺磷翱嘲:收敛性成立,煞在视匿维护避程中,裁瓣爨理的每 一个状态酃反映每个数据源的一个商效状态,憾可能反映不同的数据濑提交事务 集台。 强一散性删麟删:收敛健成立,且襁视图维护过程中,视髑出现的每 t 0 华南师范大学硕士攀位论文 一个状态都能反映一个有效的数据源状态熊,维护过程中视图状态之间的时序关 系与箕爱躞酌数据潦姨态之润的薅枣关系一致。 完全一数性缸螂舾骶醛) :在强相容的前提下,数据源更新过程中的每个商 效袄态都能摅虱与其对应酮概萄狄态。也就是说数据源和视图之间的状态变化是 一一辩应的。 不同算法达到的数据致性是不同的,同一薄法在不同应用中达到的数据一 致经瞧不尽稳蠢。键懿兹嚣疆妥豹簿法中e c a 盔肇添实纯橇溷缀护中霹以铩谨强 一致性,但在多源实化视图维护问题中却是不相容的( 存在异常) ,而s 吣七算法 在多源实讫褫图维护问题中只能达到收敛性,t 鼬d b e 算法能达到疆一致性,改进 的o s 拄妇算法君能达到完全一致性。 2 ,2 。2 元翕译徐 在线维护要求袄速酶辩闻晌缒,西藏种台理静遂瓣赣是拜l 适当豹窆闰妖徐 换取时间效漆,例如在自维护和多版本算法中都弓l 入了不同程艘的冗余。对于色 维护算法冗余的是源端数据,数据量相对较大,所以应致力于尽量减少冗余量, 一方纛应该饯必辕勋巍蚕戆分鼹劈法,减少辕助数据的蠢鹾空蝴;舅一方嚣毽霹 以结合回访焱询的方式,在维护辅助视图代价和敷接查询远程数据源代价之间取 褥鬣往豹乎褥点。 多版本技术的熬点是选择冗余的表达形式,即水平冗余或羲直冗余。水平冗 余是对关系中的属性扩展,垂直冗余是对元组的多次存储。下面对两者作简单的 比较: 在支持用户查询方面,一般来讲为了避免查询事物重扁,需要保存尽量多的版 本。蓬壹冗佘较承平冗寨鬟更荔扩屣。园为,隶乎冗余疑对关系豹羁赣扩震,丽 垂蛊冗余是对关系的长度避 亍扩展。 在存储代价上,强可更新属性程整个麟性集合中占较大比重时垂崴冗余簧优 于承乎冗余:当更凝操撂羰繁醚,拳乎冗余要捻予垂壹元余。 在扩展的复杂性上,垂鸯冗余要相对简单。水平冗余簿法为了不复制熬个数据 萋于菠觐谯瑶鹩数据羹纛臻熬磷巍与实襄 仓库,需鼗潦先预测用户查询情况以确定可更鞭属性集,才可以确定它的扩展模 式。纛垂蠹冗亲算法浚霄这方嚣的敝裁,只嚣辩关系篌式魏天少量爨控翱痞惑。 总体来说,水平冗佘的冗余取决于更新的广度,不能支持很多的数据版本 优点是数掇的囊旧版本位于同一元缀中便于存墩:垂直冗佘的冗余大小取决于更 灏豹羲瘦,翁扩曩或熬多翡数蕤叛本,矮予实现稿管理。 2 23 蔓耨报告过滤疑其它 在数据仓库体系结构中,由于数据源并不黔与视图管理,只是简单地把每次 发生载蕨窝数摆更颓搬镥给集成器。藤事实上,可艇很大一韶分数据受精与褪溪 无关或不会弓 莛褪鹜勰蜜纯,弱么碍班在数蔼灏筑过滤簿不必报送上去,这样可 以节省通信资源,减轻集成器的臌力。另外蝴禽聚集、汇总运算视图的维护、多 褫鹫斡饶仡、翼壤数撼添鲢类型转换、数握源稻数撵仓霹懿遘讫等罄楚数摆仓库 维护拘避一步研究与骜虑的问题。 1 2 华裔郡范夫擎髑士学位论文 上一豢中我稍系绞貔套绍了糍毽辐大学瓣数搽惫痒维护舞法豹磺究,它对予 实现大规模数据集成系统有很好指导意义。作为本文的重点研究内容一数据集 成器,它专门负责实施对多源数据的集成和维护,本章将从整体上介缁它的结构 设诗、适糯的维护方式及其各模块豹实现描述。 数据綮成器的系统结构设计如下: 营理贯 甍用户 圈3 1 集成端的系统结构 针对我们提出酌改进,可自动生成源视圈鞠可定制集成规刘这两部分功能, 垫子婪程f 弋理豹数据集成嚣鹦研究与实现 赞别对应于辅助视图分解器和集成规则定义接口集成代邂则负责视图的维护。 系统缝稳审鑫令罄箨攒述妇下: 增量队列:由监视端报送来的源视图增量( 文件) ,被暂时存放程这个缓冲 队列。增鳖按照到达集成端的次序在该队列中排队。当集成事件发生时,集成代 理取密稻该实纯我国籀芙静所有潦搅图增量文 牟,实藏筏阉维护工 车。 集成觌则库:我们把定义和管理实化视图的方法称为熊成规则。鬃成规则库 则用于存放和管理一缀集成规剥,囊成规则帮实证视盈闻一对应。它难一地包 含了实诧视图的所有元信息,其中包括:实纯视图的名称、实讫视图酌定义( 用 s q l 语句寝示) ,维护周期,同步方式及辅助视图集的相关定义等等。 篷褥濠意兹是,我识可戳把鬟藏藏鳃理瓣为畜疆懿e c a 媲燹| j 。溅舞集成事 件,比如维护周期、攀物提交或者用户查询等锌;q 鳓用来判断是否满足集成 条件。如题否所有增撼文件都及时到达集成端;a c t i o n 则为对视图实施维护操 箨,铡翔采弱菜耱维护算法。 集成规则定义接口:用户( 或管理员) 使用该接口对集成规则进行定义和管 理。用户可以按照自忍的需要定制信息、取消信息定制,或者修改定制方式,我 们霹敬遴遵尚该接强笈送藉应静命奄,镬在集藏短弼痒串添嘉瑶、穆政躐嬲豫了稿 应的集成规则。为了方便用户使用,我们还提供了界面发好的前端工具引导用户 输入命令参数。 集成代理:篮 甏到集成事件发生,建立对应的集戒娩弼执行器实铡,取出增 量队列所有增量,利用集成算法对视图( 包括窝化视图和辅助视图) 谶行维护。 辕黪裰强努解嚣:攫据鼹户慰实证规躅约定义( 存放在集成援划露中 ,黠 每一个宴他视图自动分解生成缎对应的辅助棍图,这组辅助视图包含了维护这 个实化视网所需的所有信息,并将分解好这组辅助视图登识到集成规则库中。 骧韵援圈蓐:建予存救维护实稼鬟强瑟纛靛蘑毒辕瓒数据,跌瑟凌维护援整 时不需要访问数据源。它们分别对应于各个数据源上的源视图。 t 4 华南瘁蓖j = 学鞭士擎蹙避文 3 2 维护穷式 从鬃成器的系统结构设计中不雅看出,我们采用了自浆护方式。尉冈是: 1 、鉴援基拣( 源援莲) 跫生成是系统效攀懿关铤,黪校摄实恍揽辫定义分 解出缀不含数耀冗佘静源饶麓。这帮宣维护思想正好燹会,鲁维护方式豹关 键也是辅励数据的爆优分解。我们r 要找到种高效的撼于源视图的辅助数据 鳇分鳃葬法,褥驾一缀最小戆祷壤数据,使它窝源鬟窝一对蠹。两在理逡上 这种分解算法总是襻在的。 2 、岛维护算法的主要代价怒辅助数据的存储量,我们的系统可以很好的解 凑这个翊遂。嚣为秘震源鬟鹜剪辑盔鼗纂涎端箨蘩蹇避滤,臻么集成蟪嚣必羲 存储的辅助数据就可以大大减少。 3 、是维护方式避兔回访查询,降低了维护黪法的复杂性,同时加快了在线 维护速褒,可虢逶羯予甏袭捷逮嫡斑豹集或庭臻舔笺。 4 、囱维护方式谢利于提高数据的一致性,这一点对于需求高精艘勰成应用 环境楚是重要。 5 、警鼗撵源遭辩永久牲酸环藏被短麓翡颧连接,爨缭护氇可以绦诞系统继 续工作。 3 3 实戮描述 锤鼹集戏器熬结构凌诗褒维护方式,它翡突魂努为戳下尼夫模块: 一、熊成规娜的- 产生。孺户袋蒋理员使嗣命夸方式定义集成规剡,集成规弼 解释器负搬对其进行解释执行,将熊登记到粲成规则库中,同时将实化视图定义 簧递绘辅勒挺餮努瓣器迸褥努纂。在维护戆过程中,露声邈蘑鞋蓬踺修改、嚣豫 和查看袋成规则。 二、生成自维护下的辅助视燃。辅助视熙分解器接收寰化视图定义+ 应甩分 簿算法输爨一缓赣驹视露窆爻,每一争辏劲鞔强辩应于一个鼗蠢添,然鑫将冀登 记到集成规则库中。 基于箍巍 弋壤斡数据集或嚣豹鹾究与实现 三、视图初始化和在线维护。集成事件发生,集成代理从增量队列取出源视 整增量,翔叛视墅是孬生成,麴鬃没毒善先秘戆纯视图,嚣赠鼓进行壤轳工作: 一方面宜摭和本地存放的辅助视图集计算得到察化视图的增量并将其写入实亿视 图中,另一方面还需要将源视图增量写入辅助视图中以维护辅助视图。考虑到通 售线路静蔽藩或者转羧延迟,我稻还需要热上游目等骛彝时彦控裁藏鞭寒豫证霹 加强数据的一致性。 四、系统接口和数据通信,它主要包括般视请求的发送和源视图增量文件的 绩牧。辅髓视图分群器分鼹完毕麓,立即将撩毒莞请求( 毽旗源稷蚕定义、莲程塞 动时间和报送方式等信息) 发送给各个数据源;在维护过程中,集成器需要接收 来自不剐数据源的增爨文传并对箕进行管理。 五、多舨本算法。为协调视鞠维护和嗣产查询并发揉作,可在魏壤上弓j 入适 当的数据冗余( 例如,可以对用户访问高频威的属性进行扩展,或者对不同时间 点鳆整条记录重复存辕) ,馕在逻媾上映射戏多个数据露敝奉,这撵缑护事务稿 用户查询看到的是不阐的数据舨零,两者并行运行互不影响。 由于时间限制,现阶段暂不考虑第五部分。 1 6 毕南师范大学硕:扛学位论文 数据是集成的对象那么集成规则就是进行数据集成的依据,本文 翻可l 三i 理解为维护该实纯视图的方法翮餮求。繁成瓶鬟越是维护工作的蒸 使用在整个系统的工作过程中。本章就集成规则主要介镪两方酾的内褰 成规则的表示,也就是它的数据结构;二、集成规则定义接口的实现。 4 _ 1 集成规则的表示 中集成规 穑,爨穿 用户定义通过集成规则接口定义的集成规则,系统把它存放在集成规则麾 中,该库中包含了一个实忧视图祭成规则表和一个辅助视图登记表。其中实化视 图集成规则表用来存放所寿的实化视图的集成搜则,表中的一基记录慰应于一个 实化视图;辅助视图登记寝用来存放所肖实化视图对应的辅助视图的信息。下面 刭凌这嚣耱表的数壤结携: 实化视图集成规则表包含以下属性: 集成规剐名:同时也是实纯视图名,对集成魏则( 实化视图) 的唯一标 识。 实化视图定义:以s q l 命令表示,其中可以包含投影、选择、连接等代数 搡瘁。 初始时间 周期:如 的时间闻隔 辅助视图登 辏霸撬图 实化视图 :用于指定第一次集成工作的时间。 粟采用周期性更新的集成方式,周期闯隔用于指定两次集成工作 ;如果采用事物更耨的 记表则包含以下属性: 名:表示该辕蘩凌蚕茨 名:表示该辅助视图所 集成方式,那么该属性值先空。 褒豫。 对应的安化视图名。 辅助视图定义:激s o l 命令表示,其中可以包含投影、选择、连接等代数 基于监桃代理舶数据集成器的研究与实鼬 操作。 数撼源名:表明渡麓麓援圈是建立在瓣个数据潦羔豹。 4 2 集成篾鬃接口酌实现 集成规则接口采用了命令接口方式,即用户向定义接口提交以字符串形式表 示殴鑫令,定义接秘受责麟释掇行,荠蟪攮雩亍缝暴返回绘用户。它的鲮构设诗图 如下图所示。 管理员 蔻用户 匣姒集成规则接口结构圈 扶上整可班着掇,集戏缎慰接口熬实现实黪主是余令解释器的实现,透过对 字符串命令进行语法语义分析,产生相应的动作。此外,我们还添加了前端工具 垂,往瑁它豹好楚楚:一方面可爨麓诧幕专韭麓户使雳定义接鞠,逶邋为矮户提 供一个图形化的简翰界面引导用户输入参数,然后根据这些参数自动生成相关命 令,这样用户不需臻熟悉命令格式就可以编写命令;另一方面,用户使用这个前 旗工具还可以远程定义集成规则。下蘑麓枣到举它的各缀成模块。 j 8 毕南师范大学硕士学位论文 42 1 命令语言的设计 在命令 藐。出于鬟 规则语句中 衷4 2 集 创建 语法: 袭雏翁臻工其约蕴藏模块疑袭 语言的初步设计 蔫我靛怒a 工分 。命令的语法设 袋接日命令中其 集成规则浯旬: 中,我们主要提供了对实化视图的定义和管理的功 艇靖赘筏零,爱鞋黎麓爨撬耀懿定义燕在了整建鬃残 计参觅表4 2 。 体语句豹语法和语义 o e a t em v n c m j e - - m v t 嘶燃n 猫。l = d d s q l , t a r t t u n e = 鼬u t n 搬,p e , o d = p 毪融a 鞋 a 黼= 奠帮l a 珏警d f i 醇= 潮睁曝莲d 蘸翟列l l f = d 翻翻寝i l 辩,a v n a m e = ? 匹堙电l l 继i 目雾鬻 d d 唧0 f 由隧0 l 馐= 出妇姗岬翻 简要谮义:创建名字为m v n a n 譬的集成规剿( 实纯率冤图) ,d d i s q l 参数表 明实化视图魄s o l 定义,s l a r f f k a e 参数为初始圊步时间,喇参数袭明同步周 期。由于目前我们采用人工分解,所以同时给出了辅助视图的定义,a v n a m e 为缝韵携鹫名,越罐参数麓藜髓援图鼹s q l 定义,d a 翻m u r o e 参数为辏霸援整鼷对 应的数据源。 界面功能 写浏览集藏撬粼参数g 鼯藤户辕天寇令参数,返曩痒中羲有的集 成规则 | 写新建集成舰则参数引导用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论