




已阅读5页,还剩110页未读, 继续免费阅读
(计算机应用技术专业论文)web信息集成系统及查询优化方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
擒要 獭鞋嫠蕊褰臻答爨逢鸯w e b 羧黎簿粼譬一箨垒灏麓寿法。毫撬攥了一令瓣瓣豫b 上 岿巾数据源姻、统一瓣鞠遗嘲瓣镑鲻爨攒,箕童鬻鞫标撼寰持对w e b 上秘辫个数据游懿蠹璃, 薅蹩耀声熬豢遽髯黎t 辜交霹w e b 蕊惑集壤系蕊熬霹爨蕊凝帮嫠燕趋势避姆了滚焱黪龠辫辫 搽避霪绕骥巾翡凡个哭懿投浓,数梭遵麓熬x m l 懿公热散撼壤熬,摄悉数据豫拣搬谗簸礴 辘鸯叟藏饔靛鳃蜜逮撬露鬟麓,鬻轻携俸饕惠鬟髓孛夔癸嚣鸯学瑶淡爱萋予a 塞麟 懿套瓷嚣穗 攘零垮黜个寅蕊避褥丁辩究,零交懿妻黉礤巍蕊爨妇下; 1 ) 零攀莓竞综食矜瓣? w e b 毽蕊襄舞l 系拣浆臻究糕凝帮袭麟势;辩僖慧懿藤毂两释 斋潦:翱稼胄涟鞫蠼撤蠢漆鞭融寥鼗嚣辩懿藏萘髓耘m e x t t a t e 。r w r a p p e r 撩藏蒸蠛秧了静辑裙巍 鞍,戴蛰舞瓣w e b 稼崽集盛粼鲢囊诲处爨避嚣翘特悫浚秘了一争灏谗鼹纯器,该貔 嚣其瓣 寰辩系统逡簿渤蒜鸯游撬毽豁辘囊,霹蒜蠢簸祷懿系绫熬豢诲凝麟疆融。 ( 2 箍穗? 一静瓣彝x m l 的公蘩数攥蔽型x c d m ,泼篷鼙蛰辩墨骞数攀缮鞠键教攥渫骥 塑( o e m 褰在褰遮蒯l 裒狡鞋襻菠熬漩麓,褥蠛馘翡毒赫瓣鳢擒专x 鲥b 滔蒜戆箍焚 祷靛糖缝赍,辫替宠了镄掰辩黎代数黔六麓鼹激撩终。x c d m 巍玲考露了x m l 漤潍袋这熟 嚣漆疆t 霹鞲为臻产撼爨雾蔽键蘩,不键霹鞋漆拳w e b 上支爨& x m l 袋暴辩拳缝鞠 毫鼗嚣, 避w 鞋实辫冀缝辫撰搂攫乏精豹跤辫+ x c d m 可爨黧醐装耱嚣浆撂昀 棼鹚。缀糕述半镳 撬窝薏箍鞫鼗零,襄褥套冀黎篱辏蘩携霓纛瀑瓣,突囊逶会爨受鬻醣蕊惠黎蕊蒸黢书靛公 共数摆模粼。 羚攮懿鼙蒸予遮终冀法罄爹数撰嚣逮骚蚕谗穗张逡蘧懿寅涟竣袋冬梵摇蘧建薅瑟方 法、交叉簿乎鞍变爨嚣吊。谈爨法邈麓予嶷斌慕镜串熟谢鲶泶横戏懿数攒游。戮 稚褥滚铸瓣 法与羧撂溪辩终囊耩惑罄驻蟪蹬会蒸采,蘧囊谶襞键鸯壤溪令羚莰避露,纂羚羧勰臻数攘 骤麓瓷遵掇壤能力划静躞索嫩瓣,繁:除羧利粥滚一输莰抟鳍鬻律淹盛藏浅德愚,袋掰建镩 冀法寻援爨键簿麓敬鼹簿。搜嚣漕萃莰霹稻予蠢瀑囊褥攘囊空窝。簿释遵麓予攫套攘豢窆勰。 弱鼹运甍入了n 唾洳钟龉秘默黔袅梅瓣逢抟嚣涤溺帮激溆潺麈撩鞠酸煮,荫敲懿濑蘧了诗辩 艇姆,疆舞了系绞转惫遵羧攀。 蟹撩溺嵇赫濑雾a 辨黼镲终械蕊秘e 黼强一斡波避耱持磷贰强俄攀鸯葵涤。盛w e b 接蕊嶷盛黎缭巍警魁捺彳# 壤蕊慕统鬟壤静蕊澍,麓蕞绽巾多令瓣熊部势( a g 键女乏阏妇褥瀵稽 嚣演海露瓣礴变穗簿强了越潦憨多瓣蘸褫,瀵谂转褥装礴,热慕谯鬻煞褥谬信惠慕蕊审萼 式 学舄橇馥,搜褥每个a g e n t 谶j 建攀薄游调是蹙辫枯为。粼糖学娥鹣蛲盛菸黼蘩拣。举章疆究麟 予镞建攀蕊鹣多矗辨撼系褒谂佟菰裁,褥窭一赞辫豁稔铎攥受凇e m ,滚溪蘩瀵涟鼹袋翼潆 摘要 协调机制支持多a g e n t 之间的协作及协作过程中的学习,并针对m a c m 模型提出了一种改进 的分布式强化学习算法。该算法不仅保留了分布式强化学习算法的优点,即减少了联合q 值 表的存储空间,降低学习对系统资源的要求。同时还能确保以较快的速度收敛到最优解。 ( 5 ) 提出了一种基于a g e n t 的查询优化系统模型在该系统中,a g e n t 采用了典型的慎思 型体系结构,即b d i 模型。a g e n t 具有信念库,目标库并在此基础上进行学习和推理,以支持 信息集成系统的动态查询优化和规划的执行,提高系统的查询效率。在基于a g e n t 的查询优化 系统模型中,利用a g e n t 的学习能力可以根据数据源的负载变化来动态选择参与查询的数据 源,详细探讨了一种基于强化学习的数据源选择优化算法,并指出了其不足之处以及未来的 研究方向。 关键词:w e b 信息集成系统,信息a g e n t ,公共数据模型,查询优化,强化学习 i i a b s t r a c t w e bi n f o r m a t i o ni n t e g r a t i o ns y s 艳m ( w i b ) p r o v i d e san o v e lm e h t o df o rm a n a g e m e n to fw e b d a t a i tp r o v i d e sa u n i f i e d ,t r a n s p a r e n ti n t e r f a c ef o ru s e r sw h o w a n tt oa c e $ sm u l t i p l es o u r c e so nt h e w e b t h ep r i m a r ya i mo fw t l si st oh e l p 辩f s # f f e c t i v e l ya n de f f i c i e n t l yq u e r y i n gh e t e r o g e n e o u s a n dd i s t r i b u t e dd a t a s o u r c e s c u r r e n t l y , w i i s h a sb e e na ni m p o r t a n tr e s e a r c hd i r e c t i o n t h i s d i s s e r t a t i o nm a i n l yf o c u s e so ns o n s bk e y p r o b l e m s i nw i i s :o 翻g 擞锵d a t a m o d e l 。q u e r to p t i m i z a t i o n , c o o p e r a t i o n a n d l e a r n i n g t oe n h a n c e p e r f o r m a n c e o fw i l s t h em a i nc o n t r i b u t i o n so ft h i s d i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) f i r s t l y , t h ec u r r e n ta p p r o a c h e so f i n f o r m a t i o ni n t e g r a t i o na r es u m m a r i z e da n dc l a s s i f i e d t w o i n t e g r a t i o np a r a d i g m s ( m a t e r i a l i z e da n dv i r t u a d 辫c o m p a r e d 。t h e nw em a k eao v e r v i e w - o n 穗露 d e v e l o p m e n t o fi n f o r m a t i o n i n t e g r a t i o ns y s t e m s 。e g m u l t - d a t a b a s e s y s t e m s ,m e d i a t o r w r a p p e r i n t e g r a t i o ns y s t e m s 。f e d e r a t e dd a t a b a s es y s t e m sa n di n f o r m a t i o na g e n ts y s t e m s 。f i n a l l y , a 自e “q u e r y o p t i m i z e ri sd e s i g n e db a s e d0 1 1t h ea n a l y s i st h eq u e r yp r o c e s s e sa n do p t i m i z a t i o ni nt h ew i i s ,t h i s o p t i m i z e rc 锻s u p p o r td y n a m i eq 轴e 搿t r p t i m i z a t i o na n de n h a n c et h ep e r f o r m a t i o n o fs y s t e m s e f f i e e i e n t l y ( 2 ) an e w d a t am o d e lc a l l e dx c q mi sp r e s e n t e db a s e d 蕊t w os e m i s t r u c t u r e dd a t am o d e l0 e m a n do l m 。i nw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ,i t sag e n e r a lm e t h o d op r o v i d ea ne f f i c i e n t c o m m o nd a t am o d e l ( c d m ) i no r d e rt o i n t e g r a t em u l t i - d a t as o u r c e w i t hd i f f e r e n td a t am o d e l x c d 獬c o m b i n a t e st h ec h a r a c t e r i s t i c so f x m l 崩氇d i r e c t e dc o n n e c t e dg r a p h i cs 矗 u e t u r eo f o l 瓢。i t c a ne x p r e s sx m l d o c u m e n t s f l e x i b l y a n dc a r l p r o v i d e v i e wi nd i f f e r e n tl e v e lf o ru s e r sa n d a p p l i c a t i o n s a l s ot w oo t h e r 磷峨a l g e b r ao p a r a l i o ni sc o m p l e m e n t e db e s i d e 程弑磷峨a l g e b r a 。 x c d mi sa c c o r d e dw i t ht h er u l e so f c d m 3 ) a n m 掣孵e dm e t h o d 船s o l v em h l | i i o 遗q u e r yo p t i m i z a t i o ni n w i i sb a s e do ng ai s p r o p o s e d t h i sd i s s e r t a t i o n a c c o r d i n gt om u l t i - j o i nq u e r ye x p r e s s i o n s ,e n c o d em e t h o d ,c r o s s o v e r o p e r a t o ra n dm u t a t i o no p e r a t o r 瓣i n t r o d u c e d 。i nw l l 警m a n yd a t as o u r c e sh a v el i m i t e dq u e r y c a p a c i t yw h i c h c a nb ee x p r e s s e db yb i n dp a a e r n s oo u rm e t h o di sp a r t i t i o n e di n t ot w o p h a s e s ,i nt h e 蕊搜基a s 搴t h es e a r c hs p a c eo fg a 拳矗鞋b e 糟d 荦db yt h eb i n dp a t t e r no fd a t as o u t t e sa n di nt h e s e c o n dp h a s e ,o ae x p l o i t st h er e s u l to f 曲a s eia sh e u r i s t i c sa n ds e e k st h eo p t i m a lq u e r ye x e c u t i o n p l a n t h i sm e t h o dc a nb eu s e dn o to n l yf o rs e a r c hs p a c eo fl e f t - d e e pb u ta l s of o rh y b r i ds e a r c h s p a c e s t h ee x p e r i m e n tr e s u l t ss h o w t h a to u r a l g o r i t h mi sm o r ee f f i c i e n t l yw h i l e t h e r ea r em a n yd a m 浆 a b s t r a c t s o u r c e si n t e g r a t e di nw i i s ( 4 ) an e wc o o p e r a t i o nm o d e lc a l l e dm a c m i sp r e s e n t da n db a s e do nt h i sm o d e l ,a l li m p r o v e d d i s t r i b u t e dr e i n f o r c e m e n tl e a r n i n ga l g o r i t h mi sa l s op r o p o s e d n o w m a n y e f f o r t sh a v eb e e ng i v e nt o d e v e l o p i n gw i i si n t oi n t e l l i g e n tc o o p e r a t i v ei n f o r m a t i o ns y s t e m si no r d e rt of u l f i l lc o m p l e xt a s k r e q u e s t e bb yu s e r s h e n c e ,m u c hr e s e a r c hi sf o c u s e do ne f f i c i e n tc o o p e r a t i o na m o n gt h ec o m p o n e n t s ( a g e n t ) o fw i i s a c c o r d i n gt ot h e o r ya n a y l s i s ,e a c ha g e n tc a nh a r m o n i z ei t so w na c t i o n sw i t h o t h e r s t h r o u g hl e a r n i n g w h e n l e a r n i n g m e c h a n i s mi si n t r o d u c e di n t o i n t e l l i g e n tc o o p e r a t i v e i n f o r m a t i o ns y s t e m s m u l t i a g e n tc o o p e r a t i o nb a s e do nr e i n f o r c e m e n tl e a r n i n gi ss t u d i e di nt h i s d i s s e r t a t i o nm a c m p r o v i d e saf l e x i b l em e c h a n i s m t os u p p o r tl e a r n i n gi nm u l t i a g e n ts y s t e m sa n d o u rn e wa l g o r i t h mn o to n l yc a nr e d u c et h es t o r es p a c eo fq - t a b l eb u ta l s oc a l lc o v e r g et oo p t i m a l e q u i l i b r i u mr a p i d l y ( 5 ) w ec o m b i n et h ed i s t r i b u t e d a r t i f i c i a l i n t e l l i g e n c ew i t hd i s t r i b u t e dd a t a b a s es y s t e ma n d p r e s e n t a na g e n t b a s e dq u e r yo p t i m i z a t i o ns y s t e mm o d e l i nt h i sm o d e l ,w e a d o p t d e l i b e r a t i v ea g e n t s b a s e do nb d i e a c hs o u r c ea g e n tp o s s e s s e st h e c a p a c i t yo fl e a r n i n ga n dr e a s o n i n gb a s e do ni t sb e l i e f a n dg o a l ,a n dm u l t ia g e n t si n t e r a c tw i t he a c ho t h e rt os u p p o at h ed y n a m i cq u e r yo p t i m i z a t i o na n d p l a ne x e c u t i o n t h u s ,t h ep e r f o r m a n c eo ft h ew h o l es y s t e mc a nb ei m p r o v e de f f i c i e n t l y a l s o ,w e s t u d yt h ep r o c e s so fm u l t i - a g e n tr e i n f o r c e m e n tl e a r n i n gi ns e l e c t i n gs o u r c e sw i t hl i g h t e rl o a dt o a n s w e rq u r i e ss u b m i r e db yu s e r s ,w ep o i n to u tt h ed r a w b a c k si nt h ee x i s t i n ga l g o r i t h ma n dt h e f u t u r et a s kw em u s t p e r f o r m k e yw o r d s :w e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ,i n f o r m a t i o na g e n t ,c o m m o nd a t am o d e l ,q u e r y o p t i m i z a t i o n ,r e i n f o r c e m e n tl e a r n i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得或其它教育机构的学位 或证书而使用过的材料。与羲一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者躲却淑丽签字吼蟛年月弓日 学位论文版权使用授权书 本学位论文作者完全了解虫国堂苤翅王! | ( 当重返2 有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅和借阅。本人授权虫国堂苤期刊( 毖盘题2 直王盘查社可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、索引或扫描等复制手段保 存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者执劳、f 凇而 签字日期:a 呜年g 月弓日 学位论文作者毕业后去向 工作单位: 通信地址; 导师签名 签字日期:年月日 电话 邮编 图表目录 图2 1 数据仓库体系结构7 图2 2 基于c o r b a 的多数据库系统体系结构8 图2 , 3 联邦数据库的系统体系结构9 图2 4m e d i a t o r w r a p p e r 系统体系结构11 图2 5 信息集成系统分类图1 2 图2 6l n f o s | e u t h 系统体系结构1 4 图2 7s i m s 中d m 与s m 匹配示意图1 6 图2 8 信息集成系统的三层四级结构1 7 图2 9w e b 信息集成系统中的查询处理过程18 图2 10 查询优化器的体系结构模型2l 图3 1o e m 数据的图形表示2 5 表3 ,1o e m 与x m l 对比3 0 图3 2x c d m 模型有向图3 8 图3 3 关系型数据3 9 图3 4 关系型数据的x c d m 模型结构3 9 图3 5o o 模型的x c d m 模型结构4 0 表4 1 三个数据源的s c h e m a 和约束模式4 9 图4 1 三个代价不同的p q e p f l o r e s c u e ta 1 9 9 4 9 图4 2 连接操作树的编码方式5 4 图4 3 交叉操作5 5 圈4 4 变异操作5 7 表4 , 2 三种算法性能对比6 1 图4 5 实验结果( a ) 1 0 次运行最优解比值( b ) 运行时间对比6 1 图5 1r l 学习机制6 7 图5 2a h c 学习框架结构6 8 图5 3 规划一学习协调机制7 3 图5 42 - a g e n t 协作示意图7 5 表5 1 联合q 值表7 5 表5 2 单a g e n t 的q 值表7 6 合肥工业大学博士学位论文 图5 5a g e n t 强化学习模型7 6 表5 3 实验参数设置7 9 图5 6 实验奖励值设置7 9 图5 7 实验一的运行结果8 0 图5 8 实验二的运行结果、8 1 表5 4 试验结果对比8 l 图6 1 数据源a g e n t 的体系结构8 7 x 1 1 研究背景 第一章绪论 w w w 的迅速发展,使其成为全球信息传递与共享的日益重要和最具潜力的 资源,如何管理w w w 上的大量信息,以满足用户不断增长的高质量的信息要求? w w w 作为一种新的环境资源,为新技术的产生开辟了新的领域,同时也为传统 技术( 如数据库、人工智能等) 的研究提出了新方向 m e n g x f0 1 】。针对这种状况, w e b 信息集成系统的概念应运而生。 从广义来说,信息系统集成的定义女n t z h a n g w m e ta 1 0 2 1 :信息系统集成指 为实现某一目标而形成的一组信息单位的有机集合,而系统本身又可作为一个信 息单位参与多次组合,这种组合的过程可以概括地称为信息系统集成。信息集成 系统是网络和计算机技术发展地必然趋势,它一般遵守o s i 模型的7 层体系结构, 数据集成则是数据层的最高目标,也是信息系统集成的核心和难点。因此,本文 研究的w e b 信息集成系统主要是指i n t e r a c t 上多个异构数据源的集成和联合使用。 同时,w e b 信息集成系统是w e b 数据管理中最现实的问题。随着计算机网络 和w w w 的迅速发展,对存储在不同数据管理系统中以及w e b 数据源中的信息提 供统一访问的要求也在不断增长,解决这一问题需要集成不同的数据源系统,对 用户提供一个统一的和透明的访问界面。传统数据库中的数据具有严格的存储格 式,数据的各种操作遵循严格的规范,可以称为严格结构化数据:而w e b 上大量 的数据缺乏统一的固定的模式,数据往往不规则而且经常变动 g a o m e ta 1 0 2 1 ,称 为半结构化数据( s e m i - s t r u c t u r e dd a t a ) 。半结构化数据是界于严格结构化数据和完 全无结构数据之间的数据,通常具有如下特点: 1 半结构化数据通常没有预先定义好的模式,而是先有数据,后有模式或模式 隐含在数据中; 2 半结构化数据的模式是描述型而非说明型的,即模式描述的是数据的结构信 息,而不是对数据结构进行强制性的约束。数据也可以不遵守模式; 合肥工业大学博士学位论文 3 结构不规则,个数据集合可能由异构的元素组成并且数据类型不固定,对 不同的对象,相同的属性值可以具有不同的数据类型。 w e b 信息集成系统除了要集成传统的异构数据库,还要集成w e b 上的新数据 源,如何在i n t e m e t i n t r a n e t 上实现异构信息源的联合使用,使w e b 上诸多信息源 中的信息构成一个为用户可用的整体,是目前亟待解决的问题。其中的关键技术 有以下几个方面: 1 如何用一种统一的数据模式描述每个数据源中的数据( n 0 中间模式的说明 和重新生成) ,屏蔽它们的平台、系统环境、内部数据结构等方面的异构性。 包括选取何种公共数据模型及其到各局部数据模型之间的映射: 2 如何利用数据源的数据完备性来生成有效的查询规划,文献 f l o r e s c u e ta 1 9 7 1 幂1 j 用概率来描述数据源的数据完备性以及多个数据源之间的信息重叠, 并给出了选择参与查询的数据源的优化算法; 3 查询执行引擎的功能可能会受到网络环境以及各成员数据源自治性的影 响。如何实现一个高效的查询执行引擎: 4 如何根据数据源的查询处理能力生成有效的查询执行规划。在执行用户查 询语句的时候需要考虑各数据源对局部数据访问模式的限制和特有的抽 取数据的演算能力,根据数据源的实际查询处理能力分配查询任务,减少 网络数据传输; 5 w e b 信息集成系统中查询优化的主要目的是选择最少数目的数据源参与查 询以及向这些数据源传送最小查询任务。如何将查询优化技术与分布式人 工智能的研究成果相结合,在查询优化过程中利用多a g e n t 的协作与学习 选择参与查询的数据源,提高系统的查询效率: 6 包装程序( w r a p p e r ) 的建立以及不同数据源之间的对象匹配,在w e b 信息集 成系统中,相同的对象在不同数据源中可以如何不同的表示方法,如何判 断不同表示方法是否对应同一对象也是查询技术研究的关键问题。 本文的研究内容主要围绕其中的几个关键技术,如构建面向x m l 的公共数据 模型,根据数据源查询处理能力来生成有效的查询执行规划,智能协作信息系统 中的协作与学习以及基于a g e n t 的查询优化机制等几个方面进行展开的,并对此 进行了深入的研究。 2 第一辈绪论 1 2 研究内容 w e b 馈息嶷裁系缝麴囊要嚣拣歪囊持辩w e 摹上翁多个倍惠滚( 又琢鼗攥涎,魏 不鲻豹w e b 懿焱,传绞效瓣簿,文释系统簿) 黪鸯溜,滚怒瑷户黪涛溺鬻求。其牵 许多关键阏遂类数予异鞠多毽据瘁集袋系统,不藏之楚在予w e b 倍感集或系绫还 螫绥瑟l 骚皴下凡个f a n m e n g x fe 1 1 : l ,震嚣囊或弱信息源翦数基建海蠢的: 2 描述数摇潆镑键的冗数据较少: 3 售想源藏魔自派。 w e b 僚惠巢袋楚强楚w e b 数掇管毽投术翡一个研究热点,十扶广义数撵痒理解 豹趣疫寒谶,w e b 怒一个数据露,窀惫缝提美糍臻戆蒜爨斡集台,窥义w e b 数 据蛰瑾建立在广义数据痒理勰翡基旗上,它是揍在w e b 环境下,对复杂傣怠懿鸯 效缀织粒熊戚,方便嚣缕磺熬壤怠蠢询积黢毒。 本文戮究鹊主黉内霉龟捂麴下凡令方毽 : 1 对w e b 信惠集成系统的研究蠛状嬲发鹰趋势遵行综合分辨 2 对w e b 信慧集裁系统中翡数攘摸黧再构设避行霹 巍; 3 爨缩合数攒源蜜谗处理藏力遂嚣合理静蠢询趣划粒缆亿避行硒究; 4 对菸棰关联域避幸亍了磷究,鲡智髓秘律信息系统中斡协作与学习,蓬予 a g e n t 辫查询谯纯辘镧以及疆讫学习在套邂往亿中的愈霆。 1 3 论文组织 论文愚在安徽省自然辩学纂龛疑动琐疆“基予智熊我理豹集成一分柱式网络 嶷蔽”项双编号:0 0 0 4 3 1 1 5 ) 的基础上,辩w e b 臻息集成系缝中鲍萋予关键润题 佟了深入搽讨,并对w e b 倍息絮戏系统与键能代理技术鞠结合产嫩豹信息a g e n t 、 智能协佟馈患系统| 三 及基予a g e n t 查谗优忧技术避 亍了磷究。为基金项鲤提供稚 笑蘧论依捺。 全文共分七章。悫密安接躲下; 合肥工业大学博士学位论文 第一章为绪论,介绍本文的研究背景和研究现状,指出w e b 信息集成系统中 的若干关键问题并将其作为本文的研究重点。 第二章简单介绍了w e b 信息集成系统的研究现状和发展趋势,从多数据库系 统,到基于m e d i a t o r w r a p p e r 的集成系统以及信息a g e n t 系统,信息a g e n t 系统是 信息集成技术与分布式人工智能领域中的a g e n t 技术相结合而产生的,利用a g e n t 的自主性,学习推理能力,交互性构建智能信息系统,以满足用户的信息需求。 此外,对w e b 信息集成系统中的查询处理过程做了简单分析,在此基础上,设计 了一个具有动态优化能力的查询优化器模型。 第三章提出一种面向x m l 的公共数据模型。考虑到x m l 已经成为目前信息 表示和交互的标准,且x m l 是完全面向数据内容的自描述语言,可以描述线性表、 树、图等数据结构,易于实现公共数据模型到数据源数据模型的转换,因此我们 采用面向x m l 语言定义的公共数据模型,不仅能够灵活地表示x m l 文档,还可 以轻易实现该模型与其他数据模型之间的转换。 第四章主要研究w e b 信息集成系统中的多连接查询优化问题。由于集成的信 息源较多,查询规划空间会异常庞大,常用的解决方法是使用随机算法如模拟退 火法,迭代规划法以及两阶段优化法等局部最优方法,很可能陷入局部最优点而 不能找到全局最优点,并且随着查询规模的增大,找到最优解或近似最优解的时 间也会无限延长。此外w e b 信息集成系统中,信息源的查询处理能力各不相同, 因此我们将查询优化分成两个阶段进行,首先结合信息源查询处理能力划分搜索 空间,在其基础上采用遗传算法搜索最优解并合并结果。同时还引入了n e i g h b o r 结构以解决传统遗传算法局部收敛速度慢的缺点,有效地缩短了计算时间,提高 了系统的查询效率。 第五章主要研究采用了a g e n t 技术的智能协作信息系统。在智能协作信息系 统中,通过多个组件( a g e n t ) 之间的协作,协调和协商可以完成单个a g e n t 所不能 完成的复杂任务。本文对智能协作信息系统中的协作与学习问题进行了理论研究, 提出了协作模型m a c m 及一种改进的分布式强化学习算法,两者相结合使得系统 即使在有多个n a s h 均衡点存在的情况下,也能以较快的速度收敛到一个最优解。 第六章主要研究基于a g e n t 的查询优化机制,并给出了基于a g e n t 的查询优 化系统模型,在该系统中,a g e n t 采用了典型的慎思型体系结构,即b d i 模型。 a g e n t 具有信念库,目标库并在此基础上进行学习和推理,以支持分布式系统的动 态查询优化和规划的执行,提高系统的查询效率。同时还研究了学习在查询优化 4 第一章绪论 中的作用,以强化学习为例,详细讨论了一种基于强化学习的信息源选择优化算 法,并指出该算法的不足之处以及未来的研究方向。 第七章对全文进行总结,并对今后的研究方向作了展望。 5 第二章w e b 信息集成系统的研究现状 摘要:w e b 信息集成系统作为智能协作倍息系统中的核心闷惩,为w e b 数据管理提供了一种 全新的方法。本章介绍了w e b 信息集成系统的发展概况以及在集成系统引入a g e n t 技术而形 成的信息a g e n t 系统。此外在深入分 舜信惠集蕊系统中豢诲处理过程静萋襁上,设计了一个 w e b 信息集成系统查询优化器,该优化器具有支持系统进行动态袭询优化的能力,以提高系 统的奄诲媛露。 2 。 弓l 言 w e b 信息集成系统是解决莓前普遍存程的“傣惑孤岛”闯题的重要方法,繇 谓“信息孤岛”,即w e b 上每个子系统之间是独立的、不能有效地进行信息交换 和共享。爵w e b 髂惠集成系统免全羯应爝帮焉户撬供了统一,透髓访淹一缱已存 在的自治、分布和异构数据源的方法,集成的数据源包括备种类型的d b m s ( 关系 型,蟊向对象蝥等簿) ,宅予鑫器 串,h t m l 文樯教放普逶文粹等结桷往、拳结梅 乞 和非结构化信息。i n t e r n e t i n t r a n e t 网络互联技术实现了系统问的信息传输,接口与 实或褶分离,并通过类型接口实现了存取稻定位透麓往懿c o r b a 等努布式对象 技术,解决了平台的异构性问题,提高了异构分布式系统的互操作性,程一定程 度主诞遗了w e b 僚慧集成系统豹笈震。 2 2 信怠集成方法 信恳集成系统将多个分散的,异构的,领域糨关的数据源集成在一麓,为用 户提供一个统一的访问界黼,支持用户在全局模式上对集成的多个数据源进行全 局雀询,藏应用系统具有多层体系结构,根据中闽层的实现方法不同,依息集成 系统可以划分为物化( m a t e r i a l i z e d ) 集成系统和虚拟( v i r t u a l ) 熊成系统两种。 数据仓库是物化( m a 姆 a i i z e d ) 集成系统的一个典型例予。w h i n m o n 给数据 仓麾所下的定义为 z h o u z q & j i a n g t 0 0 1 :“数据仓库是疆向主题的、集成的、稳 定的、不同时间的数据集含,用予支持经臀管理中的决策制定过獠”。数据仓库逐 6 第二章w e b 信息集成系统的研究现状 台规模不大但瓣求查询效率较离,且数据源数据更新不频繁的情况。外部数据源 的数据定期通过e t l 工具进行提取、转换:并装载到数据仓库中,参见图2 1 。全局 查询由数据仓库的d b m s 在本地完成。为了适应w e b 应用环境需要,文献 h e z y 0 2 提出了一种w e b 数据仓霹的层次体系结构,每个w e b 结点是一个数据仓库和 一个鸯询处理部件,上级结点不保存篡所有予结点的全部数据。查询处理部件采 用了异步迭代悫询方法,该方法充分利用流水线并行技术,不同层次结点以流水 线方式运行,辨行完成查询的处理,裔效的掇商了w e b 数据仓库的焱询效率。可 以说,文献【h e z y0 2 1 提出w e b 数据仓库的层次体系结构采纳了虚拟( v i r t u a l ) 集成 系统中的一些方法。 d w d b m s i 涵 数据 夕刨 数据库瓤l 一查询和分lj 船占、 | 辑王菇 t t 、 : 叠询l。i :一 躺2 1 数据仓库体系结构 在用户只需获得即时的薇询结果,且数据源中的数据频繁更新,或数据源仅 绞提供了有限懿谤阕方法激及全是模式经拳变动静壤爨下,袭壤集艘系统( v i i s ) 显然比数据仓库( d w ) 袋有效的多。v i i s 基予个中间模式,数据仍保留在局部数 撂漯孛,瘸户在孛凌攘式土撼交豹查谗语句,不霉螯了解每个数据滋豹特点,中 间层的查询执行引擎随接与数据源或数据的包装程膊( w r a p p e r ) 交互,将基于中间 模式弱查询分解重事奄戏对多个局部数据源约巍接套询,著奁数据源处执行套询语 句,中间层对查询结果进行念并返回给用户。因此,虚拟方法更适用于数撼源数 强多、各蜀部数摆源豹叁治性缀毫虽髑部数擐经常交纯的w e b 巧境。与d w 糖比, v i i s 嶷有如下优点l i v e s0 2 1 : l + v i i s 能够集成有限谤| 蠢模式豹数据滚。 2 v i i s 支持用户的实时访问,并可以针对不同的用户提供不同的中间模式。 尽管具有如上优点,去除数据冗余以及解决不葡数据源之间的语义蕊配是 v i i s 巾两个执行代价较高的操作,此外动态变化的w e b 环境下,如何生成有效的 查询规划,掇高查询效率是v i i s 必须考虑的主要问鼷,为诧可以将虚拟方法和物 7 合肥工业大学博士学位论文 化方法作一个折中,在虚拟集成系统中,系统选择频繁提交的查询在中间层建立 物化视图,考虑到数据源访问的不确定性和网络传输代价,系统尽可能利用中间 层视图,而不是访问数据源来回答查询,以达到提高查询效率,缩短查询响应时 间的目的,我们主要针对虚拟信息集成系统进行研究。 2 3 信息集成系统的发展 近几十年来,许多研究人员针对多信息源的集成和交互提出了多种解决方案 【l i ue ta l9 8 。由早期的多数据库系统,到基于m e d i a t o r w r a p p e r 的集成系统以及 信息a g e n t 系统,本节对首先这些方案进行简单介绍,着重研究基于 m e d i a t o r w r a p p e r 集成系统以及信息a g e n t 系统,并分析了多数据库系统与 m e d i a t o r w r a p p e r 信息集成系统的不同之处。 2 3 1 多数据库系统 早期的多数据源集成主要是指异构多数据库之间的集成,有两种集成方式。 第一种方式是多数据库语言系统,它提供了统一的多数据库操作语言和公共接口 以访问成员数据库,各成员数据库高度自治,该方案没有解决语义异构和实现存 取定位透明,用户必须指明所要访问的数据库,数据库之间的约束或依赖关系也 必须由用户或应用程序定义和维护,适合少量数据库的集成。第二种方式是模式 集成系统,它提供了一个全局模式,使得用户可以透明访问各成员数据库,各成 员数据库保持较高的自治性。模式集成适合于集成大量数据库或者要求高的存取 透明度。 多数据库应用层 多数据l 全局管理子层 库系统 二二二二= 层 l 局部管理子层 局部系统层 图2 2 基于c o r b a 的多数据库系统体系结构 由华中科技大学计算机科学与技术学院研制的基于c o r b a x m l 的多数据库 第二章w e b 信息集成系统的研究现状 原型系统p a n o r a m a l u z d e ta 1 0 2 】可以有效集成o r a c l e ,s y b a s e 和d m 2 等数据库, 其体系结构如图所示。它采用了4 级模式结构: 局部模式:由数据库的数据模型来表示; 输出模式:将局部模式转换成公共数据模型得到输出模式; 全局模式:集成多个输出模式以产生全局模式以及数据分布的映射信息; 用户外模式:为一个用户或一个应用定义的模式,主要用来存放不能由输 出模式导出的附加信息。 多数据库原型系统p a n o r a m a 的体系结构类似m e d i a t o r w r a p p e r 集成系统,是 一种扩展的多数据库集成系统,不仅可以集成各种异构的数据库管理系统,还可 以集成w e b 上的一些文件系统。此外该系统支持常用的查询,修改等操作以及基 本的事务处理命令。 2 3 2 联邦数据库系统 联邦数据库的体系结构如图2 3 所示,它具有以下特点 s u n z h & c h e n m s9 7 】: 由在不同结点上松散耦合分布的异构成员数据库构成;没有全局模式;成员数据 库可自由地加入或退出联邦:单个成员结点有权拒绝或允许其它成员结点对它的 访问:联邦数据模式由本地库数据模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省吕梁市第一中学2025-2026学年高一上学期基础过关(一)物理试题(无答案)
- 2024-2025学年江西省赣州市高二(下)期末物理试卷(含答案)
- 边防军人知识培训课件
- 机器学习算法在健康保险精算模型中的优化-洞察及研究
- 国产高导热材料在监视器箱散热系统中的替代路径
- 含氟硼酸酯类化合物生物代谢路径与食品安全风险评估的关联性研究
- 反射式筒灯与智能建筑光环境协同控制的算法优化路径
- 反光织带与智能穿戴设备的柔性集成技术瓶颈突破
- 双碳目标下刮板系统余热回收与能源梯级利用技术突破
- 半导体级副门锁芯片在电磁脉冲环境下的自毁保护机制
- 道路工程施工团队职责分工
- 《人工智能:AIGC基础与应用》高职全套教学课件
- 工程造价信息化管理中的问题与发展趋势
- 燃气管道工程竣工资料
- 室性心动过速护理查房
- 2025届上海市(春秋考)高考英语考纲词汇对照表清单
- 教务处精细化常规管理
- 培训课件:医患沟通技巧
- 广东省四校2024-2025学年高三上学期期末联考英语试题(无答案)
- 《解剖学》课程标准
- 2025年新劳动合同范本
评论
0/150
提交评论