(信号与信息处理专业论文)基于数据服务匹配的数据集成方法研究与实现.pdf_第1页
(信号与信息处理专业论文)基于数据服务匹配的数据集成方法研究与实现.pdf_第2页
(信号与信息处理专业论文)基于数据服务匹配的数据集成方法研究与实现.pdf_第3页
(信号与信息处理专业论文)基于数据服务匹配的数据集成方法研究与实现.pdf_第4页
(信号与信息处理专业论文)基于数据服务匹配的数据集成方法研究与实现.pdf_第5页
已阅读5页,还剩113页未读 继续免费阅读

(信号与信息处理专业论文)基于数据服务匹配的数据集成方法研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博十学位论文 摘要 摘要 充分利用各种分散、异构的数据资料,建立数据集成应用系统,为管理决策 服务,已成为当前信息化发展的一个新课题。构建数据集成系统的基本目标是, 在不影响现有应用系统运行的情况下,集成这些可能是高度分布、异构或分立运 行的应用系统所产生的数据,并为用户或高级应用提供透明、一致的信息服务和 统一的数据应用入1 2 。然而,在数据资源快速增长和高速演化的网络应用环境下, 实现这一目标是一个困难而且复杂的任务。 本文在充分研究已有数据集成方法和相关技术的基础上,结合有关工程实 践,围绕数据集成这一应用主题,展开了较为系统深入的工作。本文中重点研究 了能适应复杂网络环境,且具有良好性能和可伸缩性的数据集成方法。论文的主 要研究工作和创新成果如下: 1 t 提出一种数据集成处理说明语言d i s l ,并以d i s l 为基础实现了一个异构数 据集成平台。d i s l 语言的主要成份都可对应到图元,能从一个高度抽象的 层次来表达数据抽取、加工变换和合成等数据处理语义。借助该平台,可针 对局域网范围内一个或多个数据源,以图形化方式,辅助构造可解释执行的 数据集成处理说明包d i s l - m e d i a t o r ,实现局部异构数据集成。 该数据集成平台,已被集成到本文“基于数据服务概念的数据集成系统” 中,作为实现该系统在数据源端服务组件的内核。此外,该平台目前也已通 过山西省电力公司验收,并在太原、阳泉等几家电力企业投入了业务试运行。 还以“企业数据集成平台系统( 简称e d i s ) ”为名称进行了软件著作登记( 登 记号:2 0 0 5 s r l 2 5 0 7 ,著作权号0 4 4 0 0 8 ) 。 2 提出了一种采用多层结构组织d w 数据的设计方案,能有效提高d w 系统对 需求变化的适应能力。该方案除了一般d w 都有的分析数据层外,还附加引 入规范后的业务数据层。业务数据层本身还可按业务数据特点进一步分层组 织,并采用规范、无冗余的结构设计;分析数据层则按数据分析的主题进行 组织,也可按数据浓缩度或粒度大小进一步分层,并可引入适度的冗余技术 以提高查询性能。 3 对移动a g e n t 平台a g l e t s 进行了面向分布数据收集方面的功能扩展,并将扩 展的a g l e t s 平台集成到本文基于数据服务概念的数据集成系统中,作为系统 i 中国科学技术大学博士学位论文 摘要 下层获取各数据服务单元执行结果的支持平台。有关实验测试结果表明,移 动a g e n t 可显著提高系统在获取分布数据环节的性能、灵活性和可靠性。 4 研究了描述逻辑f d l ) 有关技术及其推理算法,优化改进了d l - 推理机中计算 本体概念层次结构树的算法。该算法可以充分利用d l 知识库的显式知识, 从而可减少大量的实际推理计算,有效提高算法性能。同时借助改进后的算 法,还可更方便计算层次结构树中指定概念的超类概念集、子概念集、等价 概念集、不相交概念集和实例集。 5 设计了一种具有智能化特点的、基于数据服务单元( d s c e l l ) 的匹配检索算 法。该算法的实现融合了基于逻辑的语义匹配技术和基于内容的语法相似匹 配技术。算法的有效性测试结果表明,该算法能很好工作,能有效解决数据 服务匹配检索中两概念子集的匹配判定问题。 6 提出了一种基于数据服务匹配的数据集成新方法:该方法将能提供数据资源 的各个网络节点,以d s c e l l 作为基本单位向数据服务中心注册,由此实现 分散数据服务的主动发布和集中管理。然后以数据服务注册库为中心,并融 合应用适竖受曼旦、o w l 和旦l 推理等智能化技术,匹配检索已注册的数据 服务单元,实现动态的数据集成查询处理。该方法能充分利用数据的形式语 义和基于本体的概念进行知识推理。 基于该方法,本文设计了一个相对完整的数据集成原型系统,完成主要 的算法设计、调试和部分模块实现,并针对目标系统的核心组件“数据服务 匹配器”进行实验测试和分析。结果表明,基于该方法设计的系统能有效、 可靠工作,能以透明、一致的方式实现分布异构数据集成,并且能很好兼顾 系统灵活性和性能。 关键词:数据集成数据服务匹配语义w e bd l 推理o w l 数据仓库 移动a g e n t d i s l - m e d i a t o r n 中国科学技术大学博十学位论文a b s t r a c t a b s t r a c t b u i l d i n gt h ed a t ai n t e g r a t i o ns y s t e m ( d i s ) ,w h i c hc a l lp r o v i d es u p p o r tf o rd a t a a n a l y s i sa n dm a n a g e m e n t sd e c i s i o n sb ym a k i n gf u l l yu s eo fd i s p e r s i v eh e t e r o g e n e o u s d a t a ,h a sb e c o m ean e wr e s e a r c ht o p i ct o d a y t h eg o a lo fad i si st oi n t e g r a t ed a t a f r o mv a r i o u sd i s t r i b u t e dh e t e r o g e n e o u sd a t as o u r c e sw i t h o u ta f f e c t i n gt h eo p e r a t i o no f t h o s ed a t a p r o d u c i n ga p p l i c a t i o n s h o v i e v e r , t h ed e s i g ao fd i si sad i f f i c u l ta n d c o m p l e xt a s k ,e s p e c i a l l yi nq u i c ke v o l v i n gn e t w o r ke n v i r o n m e n tw i t hd a t ai n c r e a s i n g r a p i d l y , a f t e rw e l ls t u d y i n gt h ee x i s t i n ga p p r o a c h e sa n dt e c h n i q u e so fd a t ai n t e g r a t i o n , c o m b i n e dw i ms o m eo u re n g i n e e n n g e x p e r i m e n t s a ni n t e n s i v e a n ds y s t e m r e s e a r c h i n go fd a t ai n t e g r a t i o ni sm a d et od e v e l o pad i sw h i c hc a na d a p tt oc o m p l e x n e t w o r ke n v i r o n m e n t ,a n dw i t hg o o dp e r f o r m a n c ea n ds c a l a b i l i t y t h em a i nc o n t e n t s a n dc o n t r i b u t i o n so f t h et h e s i sa r el i s t e dh e r e : 1 as p e c i f i c a t i o nl a n g u a g ef o rd a t ai n t e g f a t i o n ( d i s l ) i sp u tf o r w a r d ,a n da h e t e r o g e n e o u s d a t a i n t e g r a t i o np l a t f o r m b a s e do n d i s l ( d i s l p l a t f o r m ) i s d e v e l o p e d b ym a p p i n ge v e r yi t sc o m p o n e n t st oac o r r e s p o n dm e t a g r a p h i c a l u n i t , t h ed i s lc a l ls u p p o r tt h ed e f i n i t i o no ft h ei n t e g r a t i o np r o c e s ss e m a n t i c s s u c ha s d a t ae x t r a c t i o n ,d a t ac o n v e r s i o na n dd a t am e r g i n g ,a tah i g hl e v e lo fa b s t r a c t i o n t h ed i s l ,p l a t f o r mc a nb eu s e dt o a u x i l i a r yc o n s t r u c td 1 s l - m e d i a t o r si na g r a p h i c a lm o d e ad i s l m e d i a t o r , w h i c hi sar o u n d e dd i s lp r o g r a mp a c k a g e u s e dt od e f i n et h es e m a n t i c so fas p e c i f i cp r o c e s sf o ri n t e g r a t i n gd a t af r o mo n eo r m o r ed a t as o u r c e si nt h es a m el o c a ln e t w o r k ,c a nb ee x e c u t e di n t e r p r e t i v e l yb ya n e x e c u t i n ge n g i n e t h ed i s l p l a t f o r mh a sb e e ni n t e g r a t e di n t oag e n e r a ld i sb a s e do nd a t a s e r v i c ec o n c e p t ,i nw h i c ht h ec o r et e c h n i q u e so fd i s l p l a t f o r ma r eu s e dt oh e l p i m p l e m e n ts o m ei m p o r t a n tc o m p o n e n t s a td a t as o u r c es i d e a tp r e s e n t ,t h i s d i s l p l a t f o r mh a sb e e nc h e c k e d a n d a c c e p t e db yt h ee l e c t r i cp o w e rc o r p o r a t i o n o fs h a n x i ( s x - e p c ) ,a n dh a v i n gb e e nt e s t r u n n i n gi ns e v e r a ls u b c o r p o r a t i o no f s x e p c ,s u c ha st a i y u a n - e p c ,y a n q u a n e p c b e s i d e s ,t h ed i s l - p l a t f o r mh a s a l s ob e e np u b l i s h e da san a t i o n a ls o f t w a r ec o p y w r i t e fr e g i s t e rn o :2 0 0 5 s r l 2 5 0 7 c o p y w r i t en o :0 4 4 0 0 8 ) 中国科学技术大学博七学位论文a b s t r a c t 2 p r o p o s e das c h e m eo fm u l t i l a y e ro r g a n i z i n gs t r u c t u r ef o rd a t a i nad a t a w a r e h o u s e ( d w ) i na d d i t i o nt oa n a l y s i s d a t al a y e r ,w h i c he x i s t i n gi na n ydw , t h i ss c h e m ei n t r o d u c e s a n e w d a t a l a y e ro fn o r m a l i z e db u s i n e s s - d a t a t h e b u s i n e s s - d a t al a y e r ,i nw h i c ht h ed a t as c h e m a sa r ed e s i g n e di nan o r m a l i z e da n d n o n r e d u n d a n ts t y l e ,c a nh ef u r t h e rd i v i d e di n t os e v e r a ls u b l a y e r s w h i l et h e a n a l y s i s d a t al a y e r , i nw h i c ht h ed a t aa r eo r g a n i z e di na n a l y s i ss u b j e c t ,m a ya l s o b ef u a h e rd i v i d e di n t os e v e r a ls u b l a y e r sa c c o r d i n gt ot h ed a t ag r a n u l a r i t ys i z e , a n di sa l l o w e dt ol e a d i ns o m er e d u n d a n td a t as c h e m a sf o ri m p r o v i n gt h ed a t a q u e r yp e r f o r m a n c e ,b yt h ew a y , t h i ss c h e m ec a ne f f e c t i v e l ya m e l i o r a t et h e a d a p t i v ec a p a b i l i t yo fd w t os u i tv a r i a b l en e e d s 3 f u n c t i o n a l l ye x t e n d e dam o b i l ea g e n tp l a t f o r m ,a g l e t s ,t oh e l pi m p l e m e n tt h e c o l l e c t i o no fs c a t t e r i n gd a t a t h ee x t e n d e d - a g l e t sh a sn o ws u c c e s s f u l l yb e e n i n t e g r a t e di n t oad i sb a s e do nd a t as e r v i c ec o n c e p t ,i nw h i c ht h ee x t e n d e d - a g l e t s i su s e dt oc o l l e c tt h er e s u l t s e t so fa l ld a t as e r v i c ec e l l s ( d s - c e l l s 、e x e c u t e di n d i f f e r e n tn e t w o r kn o d e s s o m et e s tr e s u l t ss h o wt h a tt h em o b i l ea g e n tc a l l s i g n i f i c a n t l yi m p r o v et h ep e r f o r m a n c ei nc o l l e c t i n gd i s p e r s i v ed a t as e c t i o n 4 b a s e do i lt h er e s e a r c h e so nd e s c r i p t i o nl o g i c s ( d l ) a n dd lr e a s o n i n ga l g o r i t h m , a l lo p t i m i z i n ga n di m p r o v i n ga l g o r i t h mf o rc o m p u t i n gt h ec o n c e p ta r c h i t e c t u r e t r e eo fo n t o l o g i e si sd e s c r i b e d t h i sa l g o r i t h mc a nm a k ef u l l yu s eo ft h ee x p l i c i t k n o w l e d g et o l dd l k n o w l e d g eb a s et od e c r e a s eag r e a td e a lo ft h et i m e so f r e a s o n - c o m p u t i n gc a l l s b e s i d e s ,t h i sa l g o r i t h mm a ya l s oh e l pc o m p u t et h e s u p e r c o n c e p t s ,s u b c o n c e p t s ,e q u i v a l e n c e c o n c e p t s ,d i s j o i n t 。c o n c e p t s a n d i n s t a n c e sf o ras p e c i f i e dc o n c e p ti nc o n c e p ta r c h i t e c t u r et r e em o r ec o n v e n i e n t l y 5 ,a ni n t e l l i g e n td a t as e r v i c em a t c ha l g o r i t h mf o rr e t r i e v i n gt h ed s - c e l l s ,i s p r e s e n t e d t h i sa l g o r i t h me m p l o y s ah y b r i d a p p r o a c h t h a tc o m p l e m e n t s l o g i c b a s e dc o n c e p tr e l a t i o nc o m p u t i n gw i t hs y n t a c t i cs i m i l a r i t ym a t c h i n go f c o n c e p t s t h ee x p e r i m e n t a lt e s t ss h o wt h a tt h i sa l g o r i t h mc a n w o r kw e l l ,a n dc a n e f f e c t i v e l yg i v eag o o d s o l u t i o nt o t h ep r o b l e ma b o u tt h em a t c h - j u d g e m e n t b e t w e e nt w oc o n c e p ts e t s 6 an e wm e t h o df o rc o n s t r u c t i n gd i sb a s e do nd a t as e r v i c ec o n c e p ti sp r o p o s e d n 中国科学技术大学博士学位论文 a b s t r a c t t h i sa p p r o a c hi sa b l et oi m p l e m e n tac e n t r a l i z e dm a n a g e m e n to fd i s t r i b u t e dd a t a b yi s s u e - r e g i s t e r i n ga l ld s c e l l s ,w h i c ha r ec o m ef r o md i f f e r e n tn e t w o r kn o d e s t h a tc a np r o v i d ed a t ar e s o u r c e s ,i nd a t as e r v i c ec e n t e r b ye f f e c t i v e l yi n t e r f u s i o n t h et e c h n i q u e so fs e m a n t i cw e b ,o w l ,a n dd e s c r i p t i o nl o g i c ,t h i sm e t h o dc a n 、】v o r kw i t h i n t e n s i v e l ye x p l o i t i n g t h ed a t af o r m a ls e m a n t i c sa n dr e a s o n i n g k n o w l e d g eb a s e do n t o l o g yc o n c e p t st or e t r i e v et h em a t c h e dd s c e i l si nt h ed a t a s e r v i c er e g i s t e rl i b r a r y i nt h i sw a y , ad y n a m i c a l l yd a t aq u e r yp r o c e s s i n gi s i m p l e m e n t e d b a s e do nt h i sm e t h o d ,w eh a v ed e v e l o p e dar e l a t i v ei n t e g r i t yd a t ai n t e g r a t i o n p r o t o t y p es y s t e m ,c o m p l e t e di t sm a j o ra l g o r i t h md e s i g n i n g ,d e b u g g i n ga n ds o m e m o d u l ei m p l e m e n t a t i o n ,t h ee x p e r i m e n t a lr e s u l t so fm e a s u r i n gr e l i a b i l i t ya n d p e r f o r m a n c eo fd a t as e r v i c em a t c h e lw h i c hi s ac o r ec o m p o n e n to ft h et a r g e t s y s t e m ,s h o wt h a tt h es y s t e m c a nw o r kr e l i a b l yw i t hah i g hf l e x i b i l i t ya n d p e r f o r m a n c ea sw e l l ,a n dc a ns u p p o r td i s t r i b u t e dh e t e r o g e n e o u sd a t ai n t e g r a t i o n i n a nu n i f o r m ,t r a n s p a r e n c ym o d e k e yw o r d s :d a t ai n t e g r a t i o n ,d a t as e r v i c em a t c h i n g ,s e m a n t i cw e b ,d l r e a s o n i n g , o w l ,d a t aw a r e h o u s e ,m o b i l ea g e n t ,d i s l - m e d i a t o r , i 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均己在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签 c 叼 中国科学技术人学博十学何论文第1 章绪论 第1 章绪论 1 1 数据集成技术及其应用背景 近年来,随着信息技术高速推进,大型信息管理系统和数据监控采集系统 也有很大发展。但是由于各方面的原因,这些系统往往是在缺乏全局信息规划 前提下:分别独立丌发和设计的。系统分饰、异构己成为现有应用环境的基本 特征。信息异构不仅体现在地理分布和软硬件平台系统的不同,而且体现为不 同的数据存取技术和不同的数据模式一一既可能有传统的关系数据库、面向对 象数掘库等结构化数据源,有e x c e l 电子表格、x l d l 文档和网页等以文档组织的 半结构化数据,可能还有无结构的数据资源。即便在相同的数据模式下,仍可 能存在结构和语义方面的异构川。 这种各系统分别孤立运行的现象,被形象称为“信息孤岛”。它已经严重 阻碍了信息化建设的整体进程,需要对各种现有分散的数据资源进行整合,实现 全局、统一和高效的访问。如何充分利用各种分布、异构的数据资源,建立数 据集成应用系统,为管理决策服务,已成为当前信息化发展的新方向。构建数 据集成应用的基本目标是:在不影响现有应用运行的情况下,集成这些应用所 产生的数据,并为用户建立一个一致且方便的数据使用入口,使用户不必再去 直接面对各类异构、操纵繁杂的应用系统。 数据集成是对各种异构数据的统一表示、存储和管理。集成后的异构数据 对用户来说是统一的,并可通过集成系统进行一致的透明访问l ”。然而,在不断 演化的异构环境中实现数据集成目标是很困难的。数据集成技术研究始于2 0 世 纪八十年代中期,至今己有二十多年的历史。从早期简单的多数据库集成发展 到现在的大型数据集成,集成的范围和作用在不断扩大,性能也在不断提高。 1 2 数据集成的研究现状 1 2 1 一些早期的数据集成方法研究 传统上,解决数据集成问题常采用“点对点”和“完全集成”两类方案。 “点对点”的数掘集成方案本质上是一个非通用的数掘集成解决方案,当 中国科学技术人学博十学位论文 第1 章绪论 一个新的数据源需要被集成和存取时,通常需要建立一个新的包装器集和一组 专门的数据存取应用。对需要在一组异构数据源系统中维护或保持数据一致性 的应用场合,点对点集成方案是无法实现的。 完全集成系统能解决许多一致性和完整性问题,将异构数据合并到一个公 共视图下。但不幸的是,在包含大量快速演化数据源的应用环境下,这种方法 常不具有可伸缩性。有几个典型早期数据集成系统,如多数据库系统【3 a i 、联邦 数据库系统【5 】和多数据库语言系统【4 】,采用了这种方法,它们通常需要进行大量 模式集成。 1 2 1 1 具有全局模式的多数据库系统 这类系统简称m d b s ( m u l f id a t a b a s es y s t e m ) ,能实现不同模型、或同模型 下具有不同设计模式的多数据库完全集成,维护着一个共享的全局模式,为各 成份数据库提供一致、均匀的视图和统一的数据存取【引。所有的数据共享、数据 交换,都是通过这个全局模式进行。这相当于在各参与集成的成份数据库之上, 形成_ 二个均一的、面向用户的数据层。 m d b s 实现采用自底向上的设计方式,每个数据源有相对的自治性,有自己 的数据模式。m d b s 的主要缺陷是:1 ) 全局模式无法自动生成,需人工理解和 定义全局模式与各数据源模式之间的映射关系,并解决诸如语义、结构方面的 异构问题。2 ) 不适应演化多变的集成环境,任何新数掘源加入或原有数据源修 改都会导致全局模式的大量调整。 1 2 1 2 联邦数据库系统 联邦数据库系统f d b s ( f e d e r a t e dd a t a b a s es y s t e m ) 1 5j ,是多数据库的松散 耦合,通常没有统全局模式。其集成的程度取决于各数掘源间耦合的程度。 在一个松散耦合的f d b s 中,各成份d b 都有一个由本地管理员创建的输出 模式,各成份d b 的用户也是f d b s 的用户,但不同成份d b 用户使用的联邦模 式( 本地数据模式+ 其它成份d b 向其丌放的输出模式) 往往是不同的。 f d b s 一般都有一个联邦数据字典,包含各成份的输出模式,以及各成份可 供其它用户共享的权限定义信息,包括有关统计信息等。f d b s 的主要优点和局 限性是,1 ) 松散耦合的f d b s 允许用户创建自己的视图和联邦输入模式,能较 好适应有动态变化的成份数据源。但也带来了重复工作问题一一各用户可能查 询同样的目标数据而创建同样的视图,同时这种重复也会增大全局联邦数掘字 典的负荷。2 ) 通常有庞大的联邦数据字典。 中国科学技术人学博十学位论文 第1 章绪论 1 213 多数据库语言系统 相比于m d b s 和f d b s ,多数据库语言系统( m d b m l s ,m u l t i d a t a b a s e m a n i p u l a t i o nl a n g u a g es y s t e m ) h l 中参与集成的各成份数据源间,具有更松散的 耦合和更高程度的自治,完全没有或不维护公共数据模式( 但有公共数据模型) 。 专用的多数据库语言提供了统一的用户接口,其实现的基本方法是:1 ) 系统维 护一个公共的数据模型,被用来表达各成份数据源之间的数据交换;2 ) 提供一 种基于公共数据模型的通用多库语言:用户对任一个成份数据源的查询,都可 以基于通用多库语言来表达和提出:3 ) 系统提供了一个多库语言查询处理 f 擎。 4 ) 用户基于多库语言。提出的查询,经查询引擎处理后,通常会被分解为多个子 查询,子查询然后再被映射到某成份d b 的本地查询。各子查询结果返回后,经 查询处理引擎整合后,返回给用户。 现有的一些数据集成方法。如用基于公共数据模型x d m 的查询语言x q u e r y 来表达用户查询,就可看作是一种多库语言方案,这里多库语言为x q u e r y 。 m d b l s 的主要缺陷是,虽然用户不必掌握各成份数据源的本地查询语言, 但必须在很高程度上掌握关于各成份数据源的知识。为了发出一个查询,用户, 必须对各成份数据源都有一个广泛的了解,必须自己解决它们之问的语义冲突。 缺乏位置和分向的透明性是其最大的缺陷。 1 2 2 一些比较现代的数据集成方法研究 1 2 2 1 数据中介器( d a t am e d i a t o r ) 方法 数据中介器【”8 l 是集成异构数据的一种较现代的方法。一个数据中介器 ( m e d i a t o r ) 是一个软件模块组件,能为它的客户应用提供或实现针对异构数据源 的一致的、集成的数据存取。数掘中介器必须捕获所有基于多数据源的数据集 成过程语义,包括集成过程涉及的有关操作、数据变换、潜在冲突解决等。在 一个中介器系统中,一个应用可以基于局地语言和模式发出一个查询,查询将 被透明地变换到用其它语言和模式表达的帽关查询。 图1 1 给出了一个具有三层结构的数据中介器系统体系结构图。它由数据源 层( 由参与集成的异构数据源构成) 、数据集成层或中介器层( 从数据层抽取和集 成数据,并向应用层提供一致的、集成的数掂) 和客户应用层等三个层次构成。 中国科学技术人学博十学位论文第1 章绪论 数据中介器是一种相对轻量级的数据集成方法。大多数已有的方法如 m d b s ,需要对各成份数据源进行完全集成,必须在集成过程中,统一解决所有 参与集成数据源中存在的潜在冲突( 包括结构和语义冲突) ,这不仅是一个耗时、 易出错的过程,且集成新数 据源或改变集成语义也往往 是件很困难的事。而基于中 介器的数据集成,各成份数 据通常只有数据的部分子集 参与集成,只需解决该子集 中潜在的冲突。当有新数据 源加入或有数据源被修改 时,只需对现有的集成定义 做相对很少的修改。 另外,在数据中介器系 统中,往往没有一个单独的 圈i i 一个典型的中介器系统体系结构圈 全局模式。数据中介器系统通常只是由多个数据中介器一一每个执行一个特定 的集成过程一一松散地耦合在一起,每个成份数据源或遗留系统通常可借助于 一个包装器提供标准接口。因此,改变一个中介器系统的集成语义也是一个轻 而易举的事情。下面,本文将简要介绍几个基于中介器的系统或产品。 ( 1 ) t s i m m i s t s i m m i s 是较早出现的、相对原始的中介器系统,源于t s i m m i s 工程 6 】。 它使用自己的数掘模型一一对象交换模型( t h eo b j e c te x c h a n g em o d e l ,o e m ) 来 执行其集成过程。基于包装器机制束映射数据源到o e m 和映射用户查询到特定 数据源的查询,能很好支持对各种遗留系统的集成。t s i m m i s 提供一个包装器 说明语言w s l ( a w r a p p e rs p e c i f i c a t i o n l a n g u a g e ) 来辅助自动生成包装器。然 而,这种自动生成的包装器功能非常有限。 t s i m m i s 的中介器用来从多个包装器或其他中介器集成数据。系统也提供了 一个中介器说明语- 言( m s l ) ,来自动产生简单的中介器。但其功能是受限制 的一一仅能提供多数据源视图,m s l 本质上可视为一种基于o e m 数据模型的 视图定义语言,不能定义诸如集合操作、更新数据源等复杂的集成语义,也没 有提供解决数据语义或结构异构的设施机制。 ( 2 ) i n f o r m i a i n f o r m i a 中介器【7 】是一个典型的、具有传统三层体系结构的中介器实现原 4 中国科学技术人学博十学位论文第1 章绪论 型系统。对于不能提供标准接口的数据源,必须提供或实现一个包装器,以提 供各局地数据源模式到i n f o r m i a 数据模型( o d m g2 o ) 的映射和变换。 i n f o r m i a 本质上也可视为一个受限的多数据库语言系统,提供了一个功 能较强但受限的通用多库编码语言。所有关于集成过程语义的信息和知识,包 括数据源信息和映射过程等,都需要预先用这个通用编程语言进行编码,然后 再对编码进行静态编译处理。因此,一旦数据源或集成语义发生变换,必须重 新编译有关编码。 ( 3 ) 中介器自动生成语言 i n f o r m i a 不支持在高的抽象层次上定义集成语义。在现有中介器系统的 基础上,本文提出一种支持异构数据集成的定义说明语言( t h es p e c i f i c a t i o n l a n g u a g ef o rd a t ai n t e g r a t i o n ,d i s l ) 1 9 1 , 该语言能从一个高度抽象的层次来表达 中介器的数据集成语义,能以一种较直观的方式,辅助中介器对象的自动生成。 1 2 2 2 数据仓库方法 数据仓库( d a t aw a r e h o u s e ,d w ) 是一种典型的集中式数据集成技术【2 j ,用于支 持组织的数据分析和管理决策。业界公认的数据仓库之父w h i n n m o n 给数据仓 库的下了一个这样的定义:“数据仓库是面向主题的、集成的、随时间变化的、 稳定的数据集合”。 数据仓库是面向主题的。在操作型系统中,应用的功能和数据是围绕着业务 活动来组织的:而数掘仓库坏境中,数据是围绕主题或组织关心的一些指标 来组织的,以满足决策支持系统( d e c i s i o ns u p p o r t i n gs y s t e m ,d s s ) 分析处理 的需要: 、 数据仓库中的数据是随时间变化的、集成一致的。数据仓库中同时维护着历 史和当前数据,其数据量是一个不断递增积累的过程。数掘仓库系统通常借 助一种称为e t l ( e x t r a c t t r a n s f o r m l o a d ) 的工具,定时( 如每只或每月1 次) 从操作数掘源中加载数。当数据从操作型环境被迁移到数据仓库环境时,数 据就被集成。这早集成包括了两个方面的含义:1 ) 原先在各操作型环境中 不一致的相关数据,被修j 下转换为一致;2 ) 来自各操作型环境的数据,经 转换一致后,按d s s 处理要求,被合并或整合。 数据仓库是稳定的。数据被导入到数据仓库后,就很少变动( 更改) ,通常 是只读的 数据仓库是支持管理决策的过程。数据仓库的最终目的,不是用来支持业务 上的r 常操作,而是用来支持战略性的管理决策。数据仓库可以让组织高层 中国科学技术人学博十学位论文 第1 章绪论 人员更好地了解有用的数据资源,从过去和现在的数据中看出未来的趋势和 运作各环节对这种趋势的影响,因此,能更好地进行决策分析,提升组织的 竞争能力。 数据仓库本质上是一个为满足管理决策数据分析需要而设计的特殊关系数 据库,维护着集成的、一致的和物化的视图信息。在数据仓库中存储了大量或 甚至是海量的历史数据,其数据模式是组织中高层管理用户的统一入1 2 1 全局模 式或统一视图。为适应大量数据的只读查询和大量的汇总操作,其模式的逻辑 结构设计与一般操作数据库稍有不同。因数据仓库的全局数据模式或统一数据 视图对应的数据已生成并实际存储在数据仓库中,数据仓库方法也常被称为物 化的数据集成方法。 作为当前数据集成的一种重要方法,数据仓库技术的主要优点是,因为已 事先将各分布异构的操作数据源中的数据,通过e t l 方式定时迁移转储到仓库 中,且数据在转储过程中己进行了清洁和一致性处理,用户查询的回答结果集 基本上已按预设的查询类型整理好并存储在仓库中,因此,具有响应快、效率 高的特点。其主要缺点是,不能灵活适应查询需求的变化。另外。把所有潜在 有用的数据都集中存储,随着数据的不断增加。对系统资源和维护的要求也会 日益加大,以致难以承受。 1 2 2 3 虚拟数据集成方法 与数据仓库方法不同的是,在虚拟法中。被集成的源数据始终驻留原地。 虚拟方法的前身是联邦数据集成,但般都有一个虚拟的公共数据模型。用户 查询通过虚拟的公共数据模型接口提出,并被分解为针对各相关数据源的若干 子查询,各子查询结果返回到一集中处理点进行连接整合,生成最终查询结果。 虚拟法的一个典型应用是建立虚拟数据集成( v i r t u a ld a t ai n t e g r a t i o n ,v d i ) 的系统 1 0 】。v d i 是一种虚拟的、多源松散耦合的、以查询驱动的数据集成方法, 具有灵活性好、适应性强的特点。但因每次查询都要重新扶各相关数据源抽取 数据、都要重新计算,因而往往性能低、响应慢。另外,采用传统的关系模型 或0 0 模型表达集成系统的虚拟模式,抽象层次低,也进一步限制了虚拟法的应 用。 1 3 未来数据集成系统发展的趋势和方向 出现于上世纪8 0 年代术期的d w 技术是传统数掘库技术发展并走向成熟的 6 中国科学技术人学博十学位论文第1 章绪论 自然结果。由于它的简单实用性,从其出现到技术成型不过短短2 3 年时间, 发展非常迅速,并很快成为上世纪9 0 年代主流数掘集成技术。但随着信息技术 的发展,d w 技术在灵活性、适应性等方面的局限性体现得越来越明显,同时, 也面临数据爆炸所带来的越束越大压力。出现于上世纪9 0 年代末期的虚拟数据 集成( v d i ) 技术,由于其灵活性好、适应性强等特点,受到了业界广泛的关注, 并得到了很大程度的应用。直到几年以前( 2 0 0 3 2 0 0 5 年) ,v d i 技术能否取 代传统的d w 技术还一直是业界争论的一个焦点1 1 0 i 。但实际上,由于系统性能、 伸缩性等关键问题没能得到很好解决,基于v d i 技术构建数据集成系统不仅风 险大,而且实用性差,始终没能大规模应用起来。近年来,国内外已有不少知 名研究者倾向于认同这一观点:基于虚拟法的v d i 技术与基于物化法的d w 技 术,不是谁取代谁的问题,而是如何互相融合,取长补短的问题。 ( 1 ) v d i 技术与d w 技术融合 每次查询都要重新计算和从分布的、非本地数据源抽取数锯,是造成v d i 性能差的一个重要原因。文献【1 0 】提及了应用d w 工具e t l ( e x t r a c t t r a n s f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论