(计算机软件与理论专业论文)数据仓库物化视图一致性维护研究.pdf_第1页
(计算机软件与理论专业论文)数据仓库物化视图一致性维护研究.pdf_第2页
(计算机软件与理论专业论文)数据仓库物化视图一致性维护研究.pdf_第3页
(计算机软件与理论专业论文)数据仓库物化视图一致性维护研究.pdf_第4页
(计算机软件与理论专业论文)数据仓库物化视图一致性维护研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 数据仓库是计算机信息化不断发展的产物,它将大量用于事务处理的数据库 数据进行清理、抽取和转换,并按决策主题的需要重新进行组织,以达到快速有 效支持决策的目标。物化视图的联机一致性维护技术是数据仓库联机维护技术研 究中的一个热门问题。 在数据仓库物化视图研究领域应用较多的是对物化视图的一致性维护问题, 并且大部分研究都是基于视图定义在关系表主键的假设基础上而进行的,其中应 用较为成熟的是e c a k 锣算法和e c a k 盯补偿算法,这两种算法在查询时直接 利用源数据库关系,避免了查询时数据库与数据视图的不一致性。 但是e c a k e y 算法只在视图定义带有源关键字并且更新查询的发出与接收 的顺序保持一致时算法才成立,由于数据仓库物化视图应用的复杂化,网络环境 下更新操作的频繁性和顺序上的不确定性,即由于业务分布、介质及网络通信等 方面的原因,数据仓库收到的查询计算结果,和它向各数据源发出的计算查询顺 序并不一定一致,从而引起更新维护后数据的不一致,这导致了e c a k e y 算法 和e c a - k 锣补偿算法应用面的狭窄,并逐渐显现出其弊端。并且算法e c a r 采用对物化视图完全备份的方式进行,增加了维护与数据写回的开销。 为了解决以上问题,本文分析了e c a - k 斜算法的应用示例,并在此基础上 提出了关系数据表的扩展模式,在扩展模式上提出了物化视图更新算法 e 冲a l l s i o n ( 包括源数据库端的e 冲雒s i o n d b 算法和数据仓库端的e 冲锄s i o n - d w 算法) ,算法的基本思想是将普通数据表定义进行模式上的扩展,用扩展字段记 录更新操作进行的顺序与操作的类型,并根据一定的规则对源数据库的操作进行 判断,然后对数据仓库物化视图端进行必要的修改操作,源数据库端和数据仓库 山东大学硕士学位论文 端采用查询通知和反馈确认的方式进行,从而保证了视图维护事务的数据一致 性。在介绍了算法思想之后给出了扩展模式下更新算法e 冲锄s i 彻的应用示例, 证明了算法的正确性。 最后讨论了物化视图自维护方面的问题,给出了物化视图自维护的概念, 讨论了物化视图自维护的特点,分析了物化视图自维护的判断依据,简单提出了 物化视图自维护算法的基本思想,并给出了物化视图进行简单自维护的条件和物 化视图向自维护方向的简单扩充。 关键词:物化视图:一致性维护;数据表扩展模式:物化视图自维护。 i i 山东大学硕士学位论文 a b s t r a c t d a t aw 撕h o u s ei s t l l ep r o d u c to fc o n l p u t e fi n f 0 肌靠0 n d e v e l o p m e n t ,i t h 锄d l e sai a 唱en 硼曲e ro fd a t aw h i c ha r eu s e di nd a t a b 豁ea f 瞄琏h lt l l ed a :t a w 打e h o u s e ,s o m ec l e a i l m g ,咖绷i o n 锄dc o n v e r s i o no ft 量l ed a t ea r ed o n et 0a c h i e v e t l l e9 0 a lo fr a p i d 锄de 腩c t i v ed e c i s i o n m a k i n g s u p p o n 0 l i l - l i l l ec o n s i s t e n c y m a i n t a i l l i i 坞o fm a t e r i a l i z e dv i e wi sak e yt e d m o l o g yi nt l l ed a t aw 缸e h o u s ea r e a m o s tr e s e a r c h 骼o ft l l i sa p p l i c 靠0 na u r e aa r ea b o u tc 0 n s i s t e n 锣m a i n t 锄c e s , 锄dal o to fr e s e 孤c h e sa r eb 嬲e do nt l l e 、,i e wd e f i n i t i o n 诵t 1 1m ek 锣o fr e l a t i o n a l t a b l e s 础1o ft l l e mm ee c a - l 哂,a 1 9 0 r i m ma i l dm e e c a k e yc 0 i n p e n s 撕0 na l g o r i 血m a r em a t i j r e l yu s e d t h 锣鹏ed i r e c ts o u r c ed a t a b 弱e 雏血e i rr e l a _ l i o n si n q u i r 3 一n l u sh 嬲 a v o i d e dn o n u i l i f 0 n 血锣o fd a t av i e w b u te c a - k e ya l g o r i t h lw o r k s o n l yi l lt l l ec o n d i t i o nw h e nv i e wd e f i l l i t i o nh 嬲 m es o u r c ek e ) rw o r d s 跚d l er e n e 、v a li 1 1 q u i 巧sh 嬲t 量l es 锄es e q u e n c e 、) l ,i 血吐l e r e c e i v eo r d e r 舡ar e s u l t0 ft l l ed a t aw 打e h o u s e sc o m p l e xa p p l i c a 士i o n ,a n d 行e q u e m u p d a 五n g 趾du n c e r t a i l ls e q u e n c eu n d e rm en e t 锄v i r e m e n t ,a l s o 豁也ef e 嬲0 n so f b u s i n e s sd i s t i r b u 矗0 n 、m e d i a 狃dn e tc o m m u c a t i o n ,t h er e s u l tt l l a td a _ t a w a r e h o u s e r e c e i v e sa r eu s u a l l y1 1 0 tt l l es 锄e 谢lt h e i r i i l q u e 哆s e q u 肌c e ,w l l i c hm a l 【e sm e 印p l i c 撕0 no fe c a - k e ) r 趾de c a k e yc o n 】p e r i s 而o na l g o r i t l l mg e tn 姗w e ra 1 1 d n 撇w e r 锄dm e i rf a u l t sa p p e r 蓼a d u a l l y t h ec o s to f 删n t a i l e n c e 锄dd 织1w r i t i n g b a c kg r o w sr a p i m yb e c a u s et l l ew 可t 量l a tm ea l g o r i l ml l s e dt 0d 0 幻t a lc o p y t 0r e s o l v e 血o s ep r o b l e m s ,w e 锄a l y z es o m ee x 锄p l e so fe c a k 锣a l g o r i 血mi n t 量l i sp a p e r 肌dp r o p o s e 锄e ) 【t e n d e dm o d eo f r e l 撕0 n a ld a 协t a b l e t l l 饥,w e 谢u 百v ea n e wa 1 9 0 r i 妇t 0u p d a t em a t e r i a l i z e d e wc a l l e d e 坤a 1 1 s i o nw h i c hi n c l u d e s e 冲a l l s i o n d ba l g o 枷1 l i l0 ns o u r c e 妇a b 嬲e 锄de 冲锄s i o n d wa l g o r i t l l m0 nd a t a 唧e h o u s e h 1e 坤锄s i o na 1 9 0 r i t h 皿w ef i r s t 嘲饥d 血e 仃a d i 石o n a lt a b l ei i lt l l em o d e 觚dt h 饥r e c o r dt 量l es e q u e n c e 锄d 秒p eo fo p e 嘶n g u s i l l gm e 蝴l d e df i e l d a r e rm a t , w ed os o m en e c e s s a 巧m o d i f i c 撕0 ni nt l l em a t e r i a h z e d e wo fd a :t a 、a re _ h o u s e0 n 血eb a s i so f j u d 西n g 1 eo p e r a t i n go nt h es o u r c ed a t a b a s eb ys e v e r a lr u l e s ho r d e rt o i i i l l i 东大学硕士学位论文 g u a r a i l 够t h ec o n s i s t e n 锣o ft h e e wm a i n t a i l e n c e 仃a 1 1 s a c t i o n ,w e 璐e l ew a yo f q u e 拶n o t i f i c 撕o n 锄dr e s p o n s ec o n f i m 撕0 ni nt 1 1 ed a l a b 嬲e 锄dd a t a 唧e h o u s e f 0 1 1 0 谢n gi n 仃0 d u c i n gm es o u lo ft l l ee 冲a n s i o na l g o r i t t l 鸭w e 、) l ,i l ls h o ws o m e e x a n l p l e sa n dp r 0 v e 血ec o n e c 缸l e 豁o fi t a tl a s t ,w ed i s c u s sm es e l fm a i m e n a n c eo fm a t 嘶a l i z e d e wh l “ss e c t i o n ,w b n o t0 n l y 西v ei tad e f i n i t i o nb u ta l s 0a n a l y z ei t sp r o p e r t i e sa n d 血er u l e so f ju 姆n g a n d m e nw e 百v et 量l es i m p l ei d e a 锄ds 0 m ec o n d i t i o n so fm a t 丽a l i z e d e w ss e l f m a i n t e n a i l c ea i l di m p r o v et h em 缸e r i a l i z e d e wt 0s e l f 删n t 朗锄c es i m p l y k e y w o r d s :m a t e r i a i i 殆dv i e w ;c o n s i s t e n c ym 撕n t e n 柚c e ;e x p 粕s i 蚴m o d eo f r e l a t i o nt a b l e :s e l fm a i n t e n a n c eo fm a t e l i a l i z e dv i e w i v 原创l 生声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:妻匆以 日 石m 论文作者签名:堑里! ! 三 日 矽矽午歹 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 糍:纽聊躲刎 山东大学硕士学位论文 1 1 研究背景与研究现状 第一章引言 传统的面向操作的企业数据库由于数据质量差、数据访问效率低和数据可靠 性低,已不能满足形势发展需要,数据仓库技术正是在人们对信息的需求,从简 单的数据收集型转向分析加工型的历史背景下应运而生的。数据仓库是市场激烈 竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按 决策主题的需要重新进行组织,以达到有效决策支持的目标。它的提出是以关系 数据库、并行处理和分布式计算技术的飞速发展为技术基础的。数据仓库一出现 就以其巨大的应用价值和可操作的技术方案得到了国内外商业界、企业界和学术 界的高度重视。数据仓库技术是公认的有利于信息综合利用的最佳解决方案,它 不仅能从容解决信息技术人员面临的问题,同时也为商业用户提供了很好的商业 契机。数据仓库已成为现代部门决策支持系统建立的重要技术手段。在这种情况 下,如何对数据仓库进行及时、有效的维护,便成为当前急需解决的问题。 物化视图维护作为数据仓库维护技术中的一个关键技术,其研究已成为数据 仓库研究的一个重要组成部分。在国外,相应的研究已得到a f s ( a n d e r s o n f a c u l 锣s c h o l 神基金、s t 锄f o r d 大学、r o m el a b o r a t o r i e s 、d i 西t a le q u i p m e n t 公 司以及m m 等公司的赞助。国内方面,主要有华中科技大学在进行一些算法和 产品开发方面的研究,并得到国防科技预研项目的支持。所以我们选题的数据仓 库物化视图的联机一致性算法的研究,既有理论上的意义,也有工程上的需要。 它对于我们在数据仓库领域与国际上主流技术接轨,从而保证我们在新一代数据 仓库产品技术的掌握方面有着十分重要的意义。 已有的维护策略主要分为两种:定时维护与联机维护。所谓的定时维护是指, 维护是在事务提交之后在给定的时间点上进行的,它把已有的更新信息写在一个 更新事务中发给目标节点。大多数当前的数据仓库产品,主要采用这种方法。它 们对视图的维护都采用“业务空闲时间作业,即在不进行查询的时间进行维护, 如证券公司利用夜晚或假期没有市场交易时间对数据仓库进行刷新维护。这种策 略的优点是维护与查询分开,降低了通信量,避免了与查询的冲突,维护不成功 山东大学硕士学位论文 事务回滚时所引起的代价也小,只需放弃本地的更新即可,与其它节点无关。但 是这种方法的缺点是,不能保证数据仓库和物化视图的数据实时性,当前数据仓 库反应的只是最后一次更新后数据的状态,一些实时性强的查询事务可能从中得 到非预期的错误结果,并且当一个更新事务提交到数据仓库时,它并不知道是否 能够成功提交,要等到更新信息传播到其它节点之后才能知道是否存在数据冲 突,而这时的事务回滚代价较大。当事务间有值依赖时,还会引起级联回滚。 另一维护策略是联机增量式维护。它是指对数据仓库的查询和更新操作 同时在线进行,每个维护操作包含在执行事务中,并且要同步传播到目标节点上, 与事务提交时所有的维护一起提交,以保证维护的实时进行。这种方法简单地保 证了事务的并行性,它的事务执行可看作是目标数据库中事务执行的简单扩展, 但是它的缺点是通信开销大,需要不断的在物化视图、数据仓库、数据源之间进 行通信,事务的平均响应时间较长。另外,联机维护方法在事务回滚时,要通知 每个目标节点放弃维护,增加了事务回滚的代价。这种维护策略主要是用在对数 据的即时性要求高的地方,如紧急决策方面,或通讯质量要求较高的部门进行。 1 2 论文的研究内容与研究意义 由1 1 节可知,数据仓库因其的广泛应用及其巨大的商业应用价值,得到了越 来越多的关注,这得益于物化视图在数据仓库上的应用,即其在联机事务处理和决 策辅助中的及时性和时效性,这种查询和决策往往需要有高效率的系统响应和信 息回馈,然而,数据仓库是存储供查询和决策分析用的大量复杂集成化信息仓库, 其数据来源于对上一级数据库或外部数据源进行的抽取、转化、传输和上载。而 由于数据仓库存储的数据往往分布在数据仓库的各个空间和角落,仅在查询时动 态的提取和交叉运算往往不能达到用户的这种实时性的要求,因此为了减少系统 的响应时间,有效地提高了数据仓库查询的性能,对部分视图进行物化是构筑数 据仓库的一个重要策略。那么为了为使物化视图与源数据保持一致,当源数据库 发生变化时,如何使数据仓库以及物化视图及时地反映源的变化,即物化视图维 护问题,是数据仓库众多热点技术中的一个重要分支,具有重要的现实意义。 本文首先介绍了数据仓库的详细定义和特征,介绍了数据仓库的研究热点与 发展方向,介绍了数据仓库物化视图的基本思想,分析了物化视图维护的经典算法 2 l ii 东大学硕士学位论文 并指出了其中存在的问题,在深入分析问题原因的基础上对算法做了改进,提出一 种关系数据表的扩展模式,并在此基础上对物化视图维护算法做了改进,其中主要 的研究工作如下: 1 给出了关系数据表的扩展模式,使得物化视图在该模式下的维护工作变得 更易于进行。 2 提出了物化视图在扩展模式下的改进算法e 冲a 1 1 s i o n ,其中算法分为数据 仓库端和数据源端两部分,并且两部分采用版本维护技术和相呼应答确认的方式 进行,以此保证维护算法的准确性。 3 对算法的正确性进行了简单证明,通过对应用示例的运行过程进行跟踪, 得出了算法的正确性结论。 4 最后提出了物化视图自维护方面的问题,介绍了物化视图自维护的基本概 念和特征,给出自维护算法的基本思想,并就自维护的条件进行了总结。 1 3 本文的组织结构 本文是按照下面的结构组织的: 第二章介绍了数据仓库的概念和特征,说明了数据仓库的组成和使用情况,介 绍了数据仓库模型,列举了物化视图维护技术的研究现状,最后介绍了数据仓库的 发展方向。 第三章给出了单源视图的定义,视图的收敛级别,数据仓库的查询模式以及 数据维护时用到的消息类型,介绍了单源视图维护算法的基本思想并给出经典的 e c a - k 盯和e c a ,改进算法及其应用示例。 第四章介绍了多源物化视图的概念,介绍了多源与单源物化视图的相同点和 不同之处,给出了多源物化视图维护算法中用到的函数定义,算法的基本思想和 s 乜- 0 b e 算法以及应用示例。 第五章前半部分分析了e c a k e y 算法和s t r o b e 算法的不足之处,提出了一 种基于关系表扩展模式的物化视图维护算法,给出了扩展模式的定义,并给出一 个应用例子来说明算法的正确性。 第五章后半部分讨论了物化视图自维护方面的问题,给出了物化视图自维护 的概念,讨论了物化视图自维护的特点,分析了物化视图自维护的判断依据,提 山东大学硕士学位论文 出了物化视图自维护算法的思想,并给出了物化视图进行简单自维护的条件和物 化视图向自维护方向的简单扩充。 第六章对本文的工作做了一个总结,指出本文的不足,并对下一步的研究工 作进行展望。 4 山东大学硕士学位论文 第二章数据仓库模型与物化视图研究概述 2 1 数据仓库的概念和特征 一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身 相对稳定的数据集合,它用于对管理决策过程的支持。按其关键技术部份分为数 据的抽取、存储与管理以及数据的表现三个基本方面。根据数据仓库的定义,数 据仓库拥有一下几个特点: 1 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通 常与多个操作型信息系统相关。 2 集成性。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源 数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信 息。 3 相对稳定性。操作型数据库中的数据通常实时更新,数据根据需要及时 发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的 加载、更新。 4 能够反映历史信息的变化。操作型数据库主要关心当前某一个时间段内 的数据,而数据仓库中的数据通常包含历史信息,系统地记录了企业从过去某一 时点( 如开始应用数据仓库的时间) 到目前的各个阶段的信息,通过这些信息,可 以对企业的发展历程和未来趋势做出定量分析和预测。 由此可以看出,数据仓库主要从历史的角度描述系统结构和状态的变化,它 采用能够反映时间维特征的数据结构,将基于多个同质或异质事务数据库和外部 信息作为数据源,经过提炼、加工、汇总和归一化处理,生成符合数据语义规范 山东大学硕士学位论文 要求的数据集合,以满足企业多种复杂的信息需求和预测分析。企业数据仓库的 建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态 的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经 营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组, 并及时提供给相应的管理决策人员,是数据仓库的根本任务。 2 2 数据仓库的组成和使用 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、o l a p 服 务器以及前端工具与应用四个部分。如图2 1 所示: 懒 f 簸黝 f 纛翻; 【凝燃i , 斡 哕 一霸援鬻一瓣獬栩碱麓啪瓣彝和。嚣一+ 一霸援鬻一瓣獬努黛与嚣麓- o u 归瓣彝鬻。;一。:翼茗。 图2 1 数据仓库的组成 1 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和 外部信息。内部信息包括存放于企业操作型数据库中( 通常存放在) b m s 中) 的各种业务数据和办公自动化( o a ) 系统包含的各类文档数据。外部信息包括 各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。 2 数据的存储与管理 是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、 清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构, 同时组织存储数据仓库元数据( 具体包括数据仓库的数据字典、记录系统定义、 数据转换规则、数据加载频率以及业务规则等信息) 。按照数据的覆盖范围,数 宝瓣鼍要忠 山东大学硕+ 学位论文 据仓库存储可以分为企业级数据仓库和部门级数据仓库( 通常称为“数据集市 , d a t a m a r t ) 。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。 这些功能与目前的d b m s 基本一致。 3 o l a p 服务器 对需要分析的数据按照多维数据模型进行再次重组,以支持用户多角度、多 层次的分析,发现数据趋势。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 。 r o l a p 基本数据和聚合数据均存放在) b m s 之中:m o l a p 基本数据和聚合 数据均存放于多维数据库中;而h o l a p 是r o l a p 与m o l a p 的综合,基本数 据存放于r d b m s 之中,聚合数据存放于多维数据库中。 4 前端工具与应用 前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具 以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对 o l a p 服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对o l a p 服 务器。 5 集线器与车轮状结构的企业级数据仓库 数据仓库和数据集市已广泛地应用到多个领域中。几乎每个行业的商务管理 人员都使用经收集、集成、预处理和存储在数据仓库与数据集市中的数据,进行 数据分析和决策。在许多公司,数据仓库已成为企业管理的“计划执行评估一 闭环反馈系统的一部分。数据仓库已广泛运用在电信、金融服务、消费物品和零 售批发部门,以及诸如基于需求的产品生产。通常,数据仓库使用时间越长,它 进化得越好,该进化反复进行。开始,数据仓库主要用于产生报告和回答预先定 义的查询,渐渐地,它用于分析汇总的和细节的数据,结果以报告和图表的形式 提供。然后,数据仓库用于决策支持,进行多维分析和复杂的切片和切块操作。 最后,数据仓库可能用于知识发现,并使用数据挖掘工具进行决策。在这种意义 下,数据仓库工具可以分为存取与检索工具,数据库报表工具,数据分析工具和 数据挖掘工具。商业用户需要一种手段,知道数据仓库里有什么( 通过元数据) , 如何访问数据仓库的内容,如何使用数据分析工具分析这些内容和如何提供分析 结果。有三种数据仓库应用:信息处理、分析处理和数据挖掘。 6 信息处理支持查询和基本的统计分析,并使用交叉表、数据表、图表或图进 7 山东大学硕士学位论文 行报告。数据仓库信息处理的当前趋势是构造低成本的基于w r e b 的存取工具, 然后与w 曲浏览器集成在一起。 7 分析处理支持基本的o l a p 操作,包括切片与切块、下钻、上卷和翻转。一 般地,它在汇总的和细节的历史数据上操作。与信息处理相比,联机分析处理的 主要优势是它支持数据仓库的多维分析。 8 数据挖掘支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行 分类和预测,并用可视化工具提供挖掘结果。 2 3 数据仓库的发展方向 数据仓库市场和现存的很多信息系统已经有了成熟的技术。虽然现在的数据 仓库为人们带来了诸多的便利,但是,在不久的将来数据仓库会是什么样子,将 来数据仓库发展趋势是什么,现在数据仓库的辉煌是得利于与之同时出现的数据 转换、元数据管理、对称多处理硬件和数据库、最终用户使用的多维分析工具。 人们预测数据仓库的新技术将可能是以下几方面: 1 面向关键业务的数据仓库 数据仓库初期被认为是决策支持系统,但是随着数据仓库的发展,最终数据 仓库将与操作系统结合在一起来提高性能,使整个企业受益。用面向关键业务来 描述数据仓库始于1 9 9 5 年,那时,数据仓库还和生产控制系统、定单系统交织 在一起。当数据仓库真正成为可操作的,并且数据仓库中的数据在为主要业务提 供决策数据时,一系列新的问题产生了:数据仓库中的数据是否安全,是否完全 得到备份,一旦硬件出现事故,要花多长时间来恢复,数据是否完整地及时地得 到转换,我们看到的是否是最新的数据,这些问题对于数据仓库的管理者来讲并 不是能轻易回答的。早期数据仓库的用户已经在可靠性、安全性和分布的数据仓 库等方面提出过强烈需求,并进行了初步的尝试。他们在管理系统中的投资已不 再是从成本或安全预算中得到,而是把高效的管理视为体现商务价值的本质因 素。在下一代数据仓库中,以下技术将成为数据仓库成功与否的关键:数据转换、 最终用户的分析工具、数据复制( 特别是不同平台间的数据复制将使数据复制的 问题得到彻底解决,并且可以使每一用户看到统一的及时的信息) 。系统管理特 别是对安全性的侧重将使数据仓库成为真正可信赖的数据仓库。智能化的数据传 山东大学硕士学位论文 输将加速数据仓库的成功建立,因为这些智能化的传输工具知道数据的目的地, 并且可以自动把数据与目的环境相匹配。 2 主动的数据仓库 大多数当前的数据仓库是等待分析人员分析或者等待最终用户提问,而下一 代的数据仓库将不会再有这种等待,它们会主动地、不断地向自己提问,一旦找 出合适的答案,它们会向适当的用户发送结果。一些志愿尝试新一代数据仓库的 用户已经体会到,这种智能型的主动数据仓库能使数据仓库不仅是有用的,更是 至关重要的。 3 面向对象的数据仓库 在开发数据仓库的过程中,面向对象技术是很有用的工具。在数据仓库上的 大量投资将会从关键业务应用中得到回报,而这些关键业务应用将是系统应用产 生的进程叠加、生成、加强以及相互作用。与此同时,数据仓库也得到了加强, 能够更好地支持图像、声音、文本等对象。在数据仓库中支持多种新对象,加上 快速开发、强化信息组织等能力将使面向对象技术更完善。 4 动态查询优化 在数据仓库应用中当用户的查询不返回结果或极大地占用系统资源时,用户 不得不把这些查询中断。动态查询优化将解决用户这一烦恼。通过智能查询优化 器对数据结果分布统计,它将在访问数据之前智能地选择最好执行查询的方法, 从而使用户快速得到需要的信息。 2 4 数据仓库物化视图维护技术的研究现状 现存的有关于数据仓库物化视图课题研究领域主要有以下几个不同的技术 解决方案: 1 联机补偿维护技术 在传统数据库环境下,视图管理器和视图定义是由系统控制的。但在数据仓 库环境下,由于其数据仓库的视图定义与源数据库是相分离的,所以仓库不能主 动地捕获源数据库的变化,而只能通过源数据库端与数据仓库端的信息交换。需 要由源数据库通知数据仓库,然后数据仓库根据视图定义为源数据库返回需要的 查询操作,再有源数据库发回查询结果。所以当对数据仓库进行即时联机维护时, 9 山东大学硕士学位论文 考虑到信息交换的延迟,维护中的数据仓库物化视图可能会产生不规则数据现 象。解决方法之一是在数据仓库中对各源数据库进行逐个备份,以避免延迟的产 生,但显然这种解决方法因其代价过高而并不可取。为此,s t 肌f o r d 大学的 y u e z h u g e 等人提出了数据补偿伫9 3 03 1 3 刁的思想,其基本思想是当发送数据源的 查询还未返回就又收到了新的更新消息时,仓库将记录这些更新事件,并在以后 发送一个补偿查询来消除其不一致性,其缺点是增加了系统的通信负荷,且当维 护失败时,补偿所引起的事务回滚代价过高。文【3 3 】在补偿思想的基础上,引入 应答机制和版本控制来协调数据库和数据仓库之间的更新操作,以达到保证数据 一致的目的。 2 版本控制技术 现有数据仓库产品中,由于对数据仓库的维护是以定时进行的,所以数据的 维护与读取在某种程度上是不相互妨碍的,但在联机维护环境下,他们之间的数 据冲突是不可避免的。为了提高查询的效率,系统可能要保留部分汇总视图,如 何存取这种视图数据,以保证其一致性,是物化视图维护的另一问题。版本控制 技术即利用版本控制的办法,对不同的数据标以不同的版本号,在逻辑上把要维 护的与查询的数据进行分离,以避免死锁等待的产生,保证了数据的一致性。版 本控制技术为解决物化视图的联机维护和一致性问题提供了一条新径。其缺点是 版本维护的成本高,查询等待时间过长。文 3 4 】【3 5 】 3 6 】 3 7 】【3 8 】分别提出了相应 的多版本算法以避免读取的死锁,以保证数据的一致性。文【3 9 】在一种三层数据 仓库体系结构下,引入了“数据仓库基库的概念,同时结合版本控制来解决数 据仓库的联机维护问题及其下查的一致性,但是其算法健壮性不足。文【3 3 】正是 在利用补偿技术的基础上,结合了版本控制及应答机制的思想,提出算法m v c a 的。文 4 0 】讨论了并行实时数据库的多版本并发控制问题,提出相应协议。由于 具有逻辑隔离数据的优点,如何充分运用版本控制来维护数据将是个可不断探索 的专题。 3 快照维护技术 快照思想由m e a d i b a 和b g “n d s a v 【4 1 1 于1 9 8 0 首先提出,并被成功运用 于m m 的酣系统中【4 2 1 。数据仓库的快照维护指的是按照数据和数据库对象在 特定时刻当前状态,对其进行分发和维护的过程。快照维护不要求系统连续监视 山东大学硕士学位论文 对数据的修改,因为对于数据库源已发生的修改不会被递增地送往数据仓库中。 由于快照维护采用的是对整个数据集中进行一次更新,因此它的更新时间较长。 与其他类型的维护技术相比,快照维护的效率略低。但是在下面的环境下,采用 快照维护有一定的优点:大部分数据库为静态且无需频繁更改;更新的数据量小; 站点时常断开连接,并且容许较长的等待时间;文本或文件系统的维护【2 3 】等。 由于快照维护监视的是数据库对象的特定状态,当快照数据量过大,或需要通过 较慢的网络进行传输时,可选择对快照进行压缩【2 4 1 ,但这可能会增加生成及应 用快照的时间,同时压缩会使数据失真。文 2 5 】【2 6 】讨论了聚集算子或多视图依 赖时的更新策略,以减少更新时间。 4 事务管理技术 数据库系统的根本任务是执行各个事务,事务是维护数据一致的单位。由于 数据仓库环境中存在着全局事务和局部事务,如何保证全局事务的串行执行,从 而保证数据仓库视图数据的一致性和事务完整性是更新维护的一个关键问题。 y b r e i t b 射和a s i l b e r s c h a t z 【2 7 1 已经证明,当局部事务存在时,为了保证全局可 串行性,全局事务的子事务在各个站点应该具有相同的串行化顺序。为此人们提 出了很多的并发控制技术,其中最基本为时间戳技术伫8 】【2 9 1 和锁技术3 0 】【3 1 1 。但是 由于各局部数据库的自治性,统一的系统时间很难确定,同时因为时差的客观存 在,时间戳的方法有其先天的不足。另一个基本技术是加锁管理,它可确保没有 两个或两个以上的用户在同一时间对同一数据进行更新,但由于数据仓库中数据 是增量式的,所以加锁管理的后果之一是它消耗了相当的资源,即使数据不被更 新时也是一样。文【3 2 】【3 3 】讨论了外连接情况下维护全局视图的方法。由于仓库 事务依赖的复杂性,以及各事务的紧急程度不同,事务控制技术的研究还需要大 量的工作。 5 视图自维护技术 数据仓库是存储供查询和决策分析用的集成化信息仓库,其信息来源于不同 地点的数据库或其他信息源。它们可能是远程的、已归档的、或存取代价很高的 虚拟数据源【3 4 1 ( 如中介) ,甚至来自于已下线的站点。视图自维护技术【3 5 1 研究的 是如何保证这类残缺数据源的维护一致性问题。可以看出,研究视图自维护技术 的目的,是保证当数据源与目标通信不畅、或出现意外时数据仓库视图的自适应 l 【i 东大学硕士学位论文 策略,特别适用于军事领域。引入辅助表3 6 1 是其一个最为保守的方法。文【3 7 】 给出了一类自适应维护视图的充要条件,本文在第四章部分也对视图自维护技术 进行了讨论。 山东大学硕士学位论文 第三章单数据源的物化视图维护 3 1 单数据源物化视图 3 1 1 单数据源视图描述 设数据仓厍视图定义如下: 定义3 1 v = n p r o j ( o c o i l d ( 吒眨) ) 其中,1 吃,;l 为视图定义所涉及到的数据库关系,6 ,n 为对应关系上的选 择、投影操作,c o n d 和p r o j 为布尔关系表达式和需要的的属性列,v 为视图 名称。我们说,如果v 的定义中涉及到的所有的关系,i 吒,;l 都来自于同一 个数据源d b ,则称视图v 为单数据源视图。假定源数据库收到如下顺序的修改 操作:d 1d 2 ,d 。执行修改操作后其数据库的状态分别为q ,d 2 ,d ,视 图状态为:v 【d 1 】,v d :】,v 【d :记对应的数据仓库的状态为:彬,睨, 仓库视图状态为v 【彬】,v 【】,v 【】,其中v 为如定义3 1 的数据仓库物 化视图定义。 3 1 2 视图收敛级别与数据维护消息类型 下面给出视图的收敛级别( 一致性) 定义【2 9 】: 定义3 2 当数据源的事务操作与数据仓库的物化视图维护工作都完成时,物化视 图与数据源的状态相一致,即v 【耽】= v 【d ,】时,则称此视图一致性级别为可 收敛的: 定义3 3 除了满足可收敛之外,数据仓库的每一个状态都反映了各个数据源的一 个有效状态,而且在每个数据源中又都存在一个本地串行化调度以达到该有效状 态,即对v 形,jq ,使得v 【形】= v 【q 】,则称此视图维护级别为弱收敛; 定义3 4 数据仓库的每一状态都反映了数据源执行全局串行调度达到的合法状 态,并且数据仓库的状态变化顺序与数据源执行全局串行调度的操作顺序一致, 1 3 山东大学硕士学位论文 即对v 形,形,当形 表示在视图表达式v 中用元组u 代替u 所在的基表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论