




已阅读5页,还剩100页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库中实视图的选择与维护技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
鎏塑盒鏖土塞望雪墼鎏兰皇丝鎏垫垄墼型 窑 一 摘要 数据仓库是随着企业竞争对于决策信息的需求以及计算机技术的飞速发 展而产生的。数据仓库的结构设计是数据仓库研究和开发的核心问题之一。 数据仓库是多个分布的、异质的、自治的数据源的集成信息库,数据仓 库中的信息以视图的形式存储,叫实视图。它通过物理上的预先存储,加快 了用户的查询响应时间。实视图的使用和研究大大提高了数据仓库的性能。 本文主要研究以下几个方面的内容: ( 1 ) 实视图的选择是数据仓库开发中的重要问题。数据仓库存储实视图 主要为o l a p 查询,用户查询响应时间是首要考虑的问题,本文提出查询代 价视图选择问题,为解决该问题,给出了视图选择代价图及其构造方法。同 时给出了查询代价视图选择问题的代价模型和实视图选择的过程。 ( 2 ) 基于给出的代价模型,采用贪心算法动态实现实视图的选择。原有 的贪心算法解决实视图选择问题时,需要人为的确定实视图的个数k ,很难 达到满意的结果,从而影响o l a p 的分析质量。本文使用贪心算法动态的确 定k 值,采用满足查询代价给定的限制下,使维护代价最小的选择原则。 ( 3 ) 本文提出了使用随机算法解决实视图选择问题。首先给出了遗传方 法解决查询代价视图选择问题的算法( g av s p ) ,提出对查询代价视图选择 问题的遗传算法表示方法,针对给定的视图选择代价图,将其转换为遗传算 法中的二进制编码,以及对应的遗传操作,同时定义了适应度函数。 r 茬g av s p 算法中,随着遗传进程的发展,产生合法解会变得越来越困 难,哳艮多解都被排除在外了,加长了产生解的时间,增大了产生解的难度。 因此,本文提出一种改进算法( s a g av s p ) ,将模拟退火思想和遗传算法综 合在一起,来解决查询代价视图选择问题。改进的算法中利用遗传规则产生 选择实视图的方案,利用模拟退火的思想判断是否接受该方案,这样进一步 扩展解的选取空间,保持解的多样性,降低产生解的难度,从而去找到近似 最优解。 为了测试实视图选择算法的功能和效率,进行了实验模拟,证明了所采 用的方法给出了实视图选择的近似解,同时也表明对查询代价视图选择问题, g av s p 算法优于贪心算法,s a g av s p 的算法优于g av 卵算法。随机 算法用于实视图的选择将成为数据仓库开发中有价值的工具一 ( 4 ) 实视图的维护有重新计算和增量维护两种方法。本殳采用增量维护 的方法,但在增量计算中,同一个视图采用不同的方法,其增量的计算量是 不同的,导致的视图维护代价也不同,因此提出最小增量维护的思想和策略, 给出实视图和增量表达式的定义以及最小增量维护的算法。在数据量极大的 数据仓库中,这种方法降低了实视图的维护代价,提高了数据仓库的处理效 哈尔溟工程大学博士学位论文 :茬。 ( 5 ) 本文利用实视图技术来优化查询。在分析传统优化查询方法的基础 上,对其进行改进和扩展,给出了使用实视图进行优化查询的方法和策略, 以有效提高查询处理速度。 ( 6 ) 本文通过分析数据仓库体系模型的特点,结合c r g c c i m s 工程, 提出在c i m s 环境下数据仓库的体系结构,并给出c r g c c i m s 的数据仓库 的建模及总体结构,以为实视图技术的进一步研究提供个应用环境。 关键词:数据仓库:o l a p :算法;实视图选择;实视图维护 茎鎏垒鏖圭塞堡里墼鎏堑皇篁丝垫垄盟翌蜜 : a b s t r a c t w i t ht h en e e d so fd e c i s i o n s u p p o r ti n f o r m a t i o no fe n t e r p r i s ea n dt h ef a s t d e v e l o p m e n to f c o m p u t e r t e c h n o l o g i e s ,d a t aw a r e h o u s et e c l i l o l o g yc o m e o u t t h e a r c h i t e c t u r ed e s i g no fd a t aw a r e h o u s ei so n eo ft h ec o r er e s e a r c hp r o b l e m si n s t u d y i n ga n d e v o l u t i o no fd a t aw a r e h o u s e t h ed a t aw a r e h o u s ei sa r e p o s i t o r yo f i n f o r m a t i o n c o l l e c t e df r o mm u l t i p l e , p o s s i b l yh e t e r o g e n e o u s ,a u t o n o m o u s ,d i s t r i b u t e d d a t a b a s e s t h ei n f o r m a t i o n s t o r e da t 血ed a t aw a r e h o u s ei si nf o r mo fv i e w s , r e f e f r e dt oa sm a t e r i a l i z e d v i e w s t h e q u e r yr e s p o n d i n g t i m ec a nb e s p e e d e db yp r e - s t o r i n g t h e p e r f o r m a n c eo ft h ed a t aw a r e h o u s eh a sb e e ni m p r o v e db yu s i n ga n ds t u d y i n g m a t e r i a l i z e dv i e w s t h ef o l l o w i n ga s p e c t sa r ef o c u s e di nt h ed i s s e r t a t i o n : f 1 1t h es e l e c t i o no ft h em a t e r i a l i z e dv i e w si so n eo ft h em o s ti m p o r t a n t d e c i s i o n si nd e s i g n i n gad a t aw a r e h o u s e m a t e r i a l i z e dv i e w sa r es t o r e di nt h e d a t aw a r e h o u s ef o rt h ep u r p o s eo fe f f i c i e n t l y i m p l e m e n t i n go n l i n ea n a l y t i c a l p r o c e s s i n gq u e r i e s t h ef i r s ti s s u ef o rt h eu s e rt oc o n s i d e ri sq u e r yr e s d o n s et i m e s o ,t h eq u e r yc o s tv i e ws e l e c t i o np r o b l e mi sp r o p o s e d i no r d e rt os o l v ei t ,t h e v i e ws e l e c t i o nc o s tg r a p ha n di t sc o n s t r u c t i o nm e t h o da r ep u tf o r w a r d i nt h e m e a n t i m e ,t h ec o s tm o d e lo ft h eq u e r yc o s tv i e ws e l e c t i o np r o b l e ma n dt h e p r o c e s so f m a t e r i a l i z e dv i e w s s e l e c t i o na r ep r e s e n t e d f 2 1c o n c e r n i n gt ot h ea b o v ec o s tm o d e l ,t h em e t h o da n ds t r a t e g yb a s e do n g r e e d ya l g o r i t h mf o rs e l e c t i n gm a t e r i a l i z e dv i e w sd y n a m i c a l l yi sp r o p o s e d t h e n u m b e ro fm a t e r i a l i z e d v i e w si sc o n f i r m e d a r t i f i c i a l l y i n o r i g i n a lg r e e d y a l g o r i t h m t h eh y p o t h e t i c a lv a l b eo f k w i l ln o tg e ta s a t i s f i e dr e s u l ta n da f f e c t t h ee m c i e n c yo fo l a pt h ev a l u eo f “k ”i sa r t a l n e dd y n a m i c a l l ya c c o r d i n gt ot h e m i n i m i z i n g m a i n t e n a n c ec o s tu n d e rg i v e nq u e r yc o s ti nt h ed i s s e r t a t i o n f 3 1t h em e t h o d sf o r s e l e c t i n g m a t e r i a l i z e dv i e w s b yu s i n g r a n d o m a l g o r i t h m sa r ep r e s e n t e d f i r s t ,t h eg e n e t i ca l g o r i t h mi sa p p l i e d t ot h em a t e r i a l i z e d v i e w ss e l e c t i o np r o b l e m ( g a, ,_vsp)hence t h er e p r e s e n t a t i o no ft h es o l u t i o ni s p r e s e n t e d t h es o l u t i o no fp r o b l e ms h o u l db ec o n v e r t e di n t oab i n a r ys t r i n gi n t e r m so fg i v e nv i e ws e l e c t i o nc o s tg r a p h g e n e t i co p e r a t i o ni sp r e s e n t e d ,a n d f i t n e s sf u n c t i o ni sd e f i n e d w i t ht h e d e v e l o p m e n to fg e n e t i cp r o c e s s ,t h el e g a l s o l u t i o n p r o d u c e d b e c o m em o r ea n dm o r ed i f f i c u l t ,s oal o to fs o l u t i o n sa r ee l i m i n a t e da n d p r o d u c i n g t i m eo f t h es o l u t i o n si sl e n g t h e n e d ,w h i c ha d d s d i f f i c u l t yt ot h es o l u t i o n i ug av s pa l g o r i t h m t h e r e f o r e ,i m p r o v e da l g o r i t h m ( s a g av s p ) h a sb e e n p r e s e n t e d ,w h i c hi st h ec o m b i n a t i o no fs i m u l a t e da n n e a l i n ga l g o r i t h ma n dg e n e t i c a l g o r i t h mf o rt h ep u r p o s eo fs o l v i n gt h eq u e r yc o s tv i e ws e l e c t i o np r o b l e m b y 哈尔滨工程大学博士学位论文 1 _ - i _ m e a n so fi n h e r i tr u l e s t h ed e s i g n so fs e l e c t i n gm a t e r i a l i z e dv i e w sa r ep r o d u c e d a n dc a nb e a c c e p t e d o rn o tb ys i m u l a t e d a n n e a l i n ga l g o r i t h m i n i m p r o v e d a l g o r i t h m t h e r e f o r e ,t h es p a c eo ft h es o l u t i o n s i s e x p a n d e df u r t h e r ,a n dt h e v a r i e t yo f t h es o l u t i o n si sk e p t ,t h ed i f f i c u l t yi np r o d u c i n gs o l u t i o ni sd e c r e a s e ds o t h a tn e a r o p t i m a ls o l u t i o n sc a nb ef o u n d e a s i l y i no r d e rt ot e s tt h ef u n c t i o na n d e f f i c i e n c yo ft h ea l g o r i t h m so fm a t e r i a l i z e d v i e w s s e l e c t i o n ,e x p e r i m e n ts i m u l a t i o ni sa d o p t e d t h ee x p e r i m e n t ss h o wt h a tt h e g i v e nm e t h o d s c a r lp r o v i d en e a r - o p t i m a ls o l u t i o n si nl i m i t e dt i m e t h er e s u l t sa l s o s h o wt h a tt ot h eq u e r yc o s tv i e ws e l e c t i o np r o b l e m ,t h eg av s pa l g o r i t h mi s b e t t e rt h a nt h eg r e e d ya l g o r i t h m ,a n dt h ei m p r o v e da l g o r i t h m ( s a g av s p ) i s b e t t e rt h a ng a _ v s p a l g o r i t h m r a n d o m i z e da l g o r i t t u n sw i l lb e c o m ei n v a l u a b l e t o o l sf o rd a t aw a r e h o u s ee v o l u t i o n ( 4 ) t h e r ea r et w om e t h o d sf o rm a t e r i a l i z e dv i e w sm a i n t e n a n c ei nd a t a w a r e h o u s e ,w h i c h a r e r e c o m p u t i n g v i e w sa n di n c r e m e n t a lm a i n t e n a n c e i n c r e m e n t a lm a i t e n e n c et e c h n i q u e sa r ea d o p t e di nt h ed i s s e r t a t i o n t h ea m o u n to f i n c r e m e n t a ld a t ai sd i f i e r e n tt ot h es a m ev i e ww h i c ha d o p t sd i f f e r e n tm e t h o d s t h i si n c u r sd i f f e r e n tm a i n t e n a n c ec o s t t h ei d e aa n ds t r a t e g y o fm i n i m i z i n g i n c r e m e n t a lm a i n t e n a n c ei s p r e s e n t e d t h em a t e r i a l i z e dv i e wd e f i n i t i o n sa n d m a i n t e n a n c ee x p r e s s , a sw e l la sa l g o r i t h ma r eg i v e n t h em a i n t e n a n c ec o s to f m a t e r i a l i z e dv i e w si sd e c r e a s e db yt h ea l g o r i t h ma n de f f i c i e n c yo f p r o c e s s i n gi s i m p r o v e di nd a t aw a r e h o u s e a sw e l l , ( 5 ) t h ci s s u ei no p t i m i z i n gq u e r i e su s i n gm a t e r i a l i z e dv i e w si ss t u d i e d 0 n t h eb a s i so f a n a l y z i n g t h ef o r m e rr e s e a r c h r e s u l t s ,t h et r a d i t i o n a l q u e r i e s p r o c e s s i n ga p p r o a c h e s h a v eb e e ne x t e n d e d a i r j m p r o v e d t h em e t h o da n d s t r a t e g yo no p t i m i z i n gq u e r i e su s i n gm a t e r i a l i z e dv i e w si sp r e s e n t e d t h eq u e r i e s p r o c e s s i n gs p e e d i si m p r o v e d ( 6 ) b ya n a l y z i n ga r c h i t e c t u r eo ft h ed a t aw a r e h o u s e ,an e wa r c h i t e c t u r eo f t h ed a t aw a r e h o u s ei nc i m s a c c o r d i n g t oc r g c c i m s a p p l i c a t i o nd e m o n s t r a t i o n e n g i n e e r i n gi sg i v e na l s o i na d d i t i o n , i t sm o d e la n ds t r u c t u r eo ft h ed a t a w a r e h o u s ei nc r g c c i m sa r ep r e s e n t e dt op r o v i d ea n a p p l i c a t i v ee n v i r o n m e n t t or e s e a r c hm a t e r i a l i z e dv i e w s k o y w o r d :d a t a w a r e h o u s e ; o n l i n e a n a l y t i c a l p r o c e s s i n g ;a l g o r i t h m ; m a t e r i a l i z e dv i e w s e l e c t i o n ;m a t e r i a l i z e dv i e wm a i n t e n a n c e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 日期:扣弘年月矽日 第1 章绪论 1 1 概述 第1 章绪论 在前场激烈竞争的今天,高回报的机会时刻在变化,任何一个企业决策 者和高层管理者必须要能有效的从收集和捕获到的数据中获得信息,用于决 策分析,使企业获得最大效益。 数据库系统作为数据管理手段,主要用于事务处理。在这些数掘库中已 存放了大量的日常业务数据,信息系统的用户已经不满足于用计算机仅仅去 管理日常的生产数据他们更需要的是信息支持决策制定过程的信息, 也就是说,他们需要从大量的业务数据中探索业务活动的规律性及市场的运 作趋势,并从中得到参与市场竞争所必需的决策。这种需求既要求联机服务, 又涉及大量用于决策的数据。而传统的数据库系统已无法满足这科t 需求。这 具体体现在以下几个方面: ( 1 ) 数据集成困难。辅助决策信息不仅嚣要整个企业内部各黝 的数 据,还需要企业外部、竞争对手等处的相关数据。这些数据来源于不同数据 源,没有统一的时间基准,抽取算法、抽取级别也各不相同,在定义、组织 方式上也不相同。虽然大多数的企业中已经有了成功的m i s 系统、c m i s 系 统、或是有了大量卓有成效的过程控制系统,其中的数据体系对应着一项项 业务处理和一个个控制环节,它们能完善地支持其原有的工作。但当从企业 级的角度去审视,并想进一步分析处理时,这些数据又往往过于分散,数量 越来越大,难以集成。这些数据适合原有的工作任务,但不适合现在的要求。 要支持企业级的决策,就是需要从“洪水般的数据”中进行面向企业级的工 作任务进行重组,对分散在多个事务处理应用中的相关数据进行集成,以向 分析人员提供统一的数据视图。 ( 2 ) 历史数据问题。事务处理一般是需要当前数据,在数据库中存储的 只是短期数据。但对决策分析而言,历史数据是极其重要的,许多分析方法 必须以大量的历史数据为依据,以便于分析和比较,找出变化的趋势。 ( 3 ) 综合数据问题。数据库中大量的是事务性的、操作用的数据这些 细节数据会严重影响决策分析的效率。因此分析前要对这些细节数据进行不 同程度的综合、概括、总结。提取有用的信息。丽传统数据库不具备这种综 合能力。 ( 4 ) 访问效率问题。在事务处理环境中,用户的行为特点是数据的存取 操作频率离而每次操作处理的时间短,困此,系统可以允许按分时方式使用 哈尔滨工程大学博士学位论文 系统资源,l 司时保持较短的响应时间。而在分析处理环境中,用户的行为模 式与此完全不同,某个决策支持应用程序可能需要连续运行几个小时,从而 消耗大量的系统资源。将具有如此不同处理特性的两种应用放在同一个环境 中运行显然是不适当的。 进入八十年代以后,新的客户机月务器技术和并行可扩展体系结构数据 库技术得到了迅猛发展,企业大型联机事务处理技术走向成熟,解决了企业 耍时业务交易的应用需求。同时,也使得企业的运作上升到一个电子化、信 息化的环境。总之,企业竞争对于决策信息的需求以及相关技术的成熟晟终 孕育了数据仓库技术。数据仓库技术是国际上正在兴起的用于分布的、自 治的、异构的信息源中检索和集成数据,它已成为计算机应用领域中的 新课题。 “数据仓库( d a t aw a r e h o u s e d w ) ”这一术语最初是由b a r r yd e v l i n 使用, 但9 0 年代初期,公认的数据仓库之父,美国著名工程学家w , t t i m n o n 将 其作了详细的介绍和定义如下:“数据仓库是支持管理决策过程的、面向主题 的、集成的、稳定的、随时间不断变化的数据集合”“。 ( 1 ) 面向主题的( s u b j e c to f i e n t e d ) :主题是一个抽象的概念,是在较高 层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。传统的 数据库是面向应用进行数据组织的。如一个商场的信息管理系统按业务需求 分销售、采购、库存、人事等子系统。而面向主题的数据组织方式是根据分 析要求将数据组织成一个完备的分析领域,即主题域。还以商场为例,它包 含的主题有:商品、供应商、顾客等。 ( 2 ) 集成的( i n t e g r a t e d ) :数据仓库中的数据是从原有的分散的数据库 数据中抽取出来的,因此在数据进入数据仓库之前,必须经过加工与集成。 首先要统一数据源中所有不一致,然后进行数据综合和计算。 ( 3 ) 稳定的( n o n v o l a t i l e ) :传统数据库中数据保留较短的一段时间, 主要用于日常的事务处理。在数据仓库中的数据主要供决策人员分析之用, 它反映的是一段相当长的时间内的历史数据内容因此是稳定的、不可更新 的。 ( 4 ) 随时间变化的( t i m e v a r i a n t ) :数据仓库随时间变化不断增加新的数 据,删去旧的数据,同时它包含大量的跟时间有关的综合数据。这些数据要 随时间的变化不断地进行重新综合。在分析数据时,时间特性是很重要的。 数据仓库中的数据都和一个特定的时间点或时间段相关。 ( 5 ) 支持管理决策的( m a n a g e m e n t sd e c i s i o n ) :“管理( m a n a g e m e n t ) ” 表明一个很重要的事实就是在数据仓库中的数据主要用于分析,这样管理大 量的数据,简化数据库的图表,提高分析性能是最重要的。“决策( d e c i s i o n ) ” 就是数据仓库中的数据用于高层领导对企业的事务做出决策。 数据仓库还有一些其他的定义“,如:它是一种体系结构;它是一种语 义一致的数据仓储,以满足不同的数据存储、文档报告的需求;它是一个不 断发展的过程,把多个异质的原始数据融合在一起用以支持结构式即席查询、 分析报告和决策支持。 对数据仓库的定义是多种多样的,但一点是一致的:数据仓库技术是一 个企业决策支持解决系统的必不可少的部分。 数据仓库不同于我们已经建好的操作型数据库系统,后者以多种方 式支持联机事务处理o l t p ( o nl i n et r a n s a c t i o np r o c e s s i n g ) ,而数据仓库有 以下特征:。 ( 1 ) 面向主题:它可以根据最终用户的观点组织和提供数据。 ( 2 ) 管理大量信息:数据仓库要在不同的粒度层次上提供概括和聚集机 制来对巨大的数据容量进行分类和管理,要管理所有的历史数据和当前数据, 信息量远远大于一般数据库。 ( 3 ) 信息存储在多个存储介质上:因为要管理大量信息,因此数据仓库 的数据要存在多个介质上。 ( 4 ) 跨越数据库模式的多个版本:数据仓库存储和管理了大量的历史数 据,他们在不同时间的数据库模式的不同版本中,因此要处理来自不同数据 库的信息。 ( 5 ) 信息的概括和聚集:数据仓库主要用于决策分析,它要将信息进行 概括和聚集,以人们可以理解的方式提供出来。 ( 6 ) 许多数据源中将信息集成并使之关联:由于要管理历史数据,并且 涉及到多个应用程序和多个数据库,所以要数据仓库收集和组织不同来源的 数据。 数据仓库从多个分布的、自治的、异质的数据源获取原始数据,经过加 工处理,存放在数据仓库中,再通过数据仓库的访问工具,向数据仓库的用 户提供统一、协调和集成的信息环境,支持企业全局的决策过程和深入综合 分析。它解决了把分析型数据从事务处理环境中提取出来,按照决策支持系 统( d s s ) 处理的需要进行重新组织,建立单独的分析环境,近年来国外新 兴了门软件技术,称之为联机分析处理o l a p ( o nl i n ea n a l y t i c a l p r o c e s s i n g ) ,它专门设计用于支持复杂的分析操作,侧重对决策人员和高层 管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大量数据的 复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以 便他们准确掌握企业的经营状况,了解市场需求,制定正确方案以提高分析 和决策的效率和有效性。o l a p 能完成:给出数据仓库中数据的多维逻辑视 图;通常包含交互式查询和对数据的分析;提供分析的建模功能;生成概括 数据和聚集;支持功能模型以进行预测、趋势分析和统计分析:检索并显示 二维或三维表格、图表和图形中的数据;即席地响应查询;具有多维数据存 储引擎。 传统的数据库系统是面向以事务处理为主的o l t p 的应用,主要用于企 业的日常事务处理工作,它不能满足d s s 的分析要求。而数据仓库j 下是面向 哈尔滨工程大学博士学位论文 以分析为主的o l a p 应用,用于支持复杂的分析操作,它可以快速、灵活地 进行大数据量的复杂查询。 建立数据仓库可以给企业带来很多益处: ( 1 ) 分析查询处理的过程简化了。另外在数据仓库中可建立其他结构左 进一步提高查询效率,如建立索引和汇总。许多分析可以通过存取汇总的数 据而非细节数据来提高效率。 ( 2 ) 数据仓库保持不同的数据源的历史记录。通过保持这些数据,企业 目前的活动可以和以前作比较,还可以预测未来企业的情况。 数据仓库关键是选取、过滤、集成相关信息用于查询。当用户发出 查询请求时,传统的方法是首先确定要访问的数据源,然后对每个数据 源生成子查询;其次,从数据源收集查询结果,合并返回给用户。这种 传送不仅很复杂,而且很耗时,尤其数据源很多、且是异地数据源的情 况下。相对这种传统的“被动”方法,数据仓库被认为是主动的( a c t i v e ) 方法,它直接访问数据仓库中存储的集成信息,这些信息以实视图 ( m a t e r i a l i z e dv i e w ) 的形式存在,当有查询请求时,可以直接在数据仓 库中访问实视图,无需存取源关系,实视图通过物理上预先存储查询所 需的数据,大大提高了查询速度。因此数据仓库适合于“: ( 1 ) 需要经常复杂查询的用户: ( 2 ) 需要快速、但不一定是最新信息的查询用户: ( 3 ) 本地运行的应用需要高性能的用户。 数据仓库不适合于: ( 1 ) 用户的查询是非预期的、不断变化的: ( 2 ) 用户需要最近的、实时的信息。 数据仓库主要为决策支持服务,它为董事长、经理和分析人员提供 所需的信息。这些用户可以利用数据仓库来制定一系列的策略和计划, 从更好的管理顾客间的关系到改变竞争的基本方式都给企业带来无限的 商机。使用数据仓库技术使得数据处理的9 0 的工作是在数据仓库中完 成的,从而提高了效率。 一旦建立了数据仓库,管理和维护也是一个挑战。我们提出新技术、研 究新方法使数据仓库的设计和维护更有效。 1 2 数据仓库国内外研究现状 自9 0 年代初w h i n m o n 给出数据仓库的定义,数据仓库技术就成为研 究的热点- 许多专家开始研究数据仓库及其关键技术。很多大型企业利用已 有数据跟踪市场需求、预测企业发展趋势,也利用数据仓库的先进技术,研 究和实现数据仓库的方案。 4 第1 章绪论 i 珂外,世界著名的数据库专家a s i l b e r s c h a t z ,m ,s l o n e b r a k e r 和斯坦福大 学的j u l l m a n 等发表了一份权威性报告,题目是数据库研究:面向2 1 世 纪的机遇与成就,讨论了数据仓库的问题,引起广泛的反响。世界上的大公 - 司都投入了巨资和重要力量去研究和行发,并有一些相关解决方案和产品。 如s v b a s e 公司、i n f o r m i x 公司、i b m 公司和o r a c l e 公司川都推出了自己的 数据仓库产品和方案。 在吲内,中国银行省、市两级金融管理信息系统示范系统( f m i s ) ,率先 引进和应用了数据仓库、联机分析处理、多维数据库等先进理论与技术,在 统一灼基础系统网络上,建立起实用的数据仓库原型 2 2 1 。上海庄臣有限公司 受国外成功案例的启发也建立了数据仓库系统。p l a t i n u m t e c h n o l o g y 为中 圜国际航空公司计划处建立一个完全实际运行的数据仓库系统,并在该数据 仓库的基础上建立面向最终用户的基于决策支持的统计分析应用系统。 工业界大都考虑数据仓库的实现问题,学术界一般考虑数据仓库的关键 技术的实现。作为一个新兴的研究领域,数据仓库和联机分析处理发展很快, 许多大学和公司都正在这个领域进行着广泛而深入的研究,如探讨数掘仓库 的建立、维护等方面,研究实视图的技术等。斯坦福大学正在进行一个名为 “w h p s ”的科研项目,提出了一个基本的数据仓库模型和一些高效的算法。 i b m a l m a d e n 和微软在进行一个称为“q u e s t ”的项目,主要研究多维数据 库。威斯康辛大学和a t & t 也在研究实视图、o l a p 数据组织等方面的问题。 对数据仓库的研究方兴未艾,目翁研究分成以下儿个方面: ( 1 ) 数据仓库模型和设计:数据仓库中主要有关系模型和多维模型。 ( 2 ) 数据仓库的体系结构:要求数据仓库能提供高效的存储、恢复和大 量数据的管理。 ( 3 ) 数据集成:数据仓库中的数据来自多种业务数据源,这些数据可能 以不同的方式存在不同的数据库中,在进入数据仓库之前要进行格式转换、 消除数据冲突、运算、综合、统计等工作。 ( 4 ) 操作问题:采用并行处理技术提高性能;扩展传统的操作使之能满 足应用的要求。 ( 5 ) 优化问题:不论是数据库还是数掘仓库优化问题始终是重要研究内 容,包括查询的优化,索引的建立等。 ( 6 ) 多维数据分析:多维数据是决策需要的类重要数据,它不同于传 统的关系数据库,对其研究主要集中在建模和计算等方面。 ( 7 ) 实视图技术:实视图是数据仓库针对o l a p 查询对原始数据进行 预处理,提供了预先生成供数据仓库查询的数据,这样复杂查询可以直接在 数据仓库中进行,无需存取原始数据源,从而提高了系统的性能。因此实视 图技术是数据仓库中重要研究内容。包括实视图的维护、实视图盼选择、利 用实视图优化查询等。 下面我们主要阐述和本文研究相关的实视图技术及研究现状。 哈尔滨:程大学博士学位论文 传统上,视图是数据库中一个或多个基本表导f f j 的表,其已录没有存储 在数据库中,而是在需要时根据视图定义计算出来。而实视 强( m a t e r i a l i z e d v i e w ) 是物理上存储视图定义的数据,在数据仓库中,它是一张实实在在的表。 数据仓库可以简单看成系列异质复制的关系表和需要周期性进行维护的实 视图。对于大规模的数据集,分析用户希望能够迅速得到查询结果。在查询 频率很高,而且视图很复杂的情况下,每次对查询重瓤汁算视网是不可能的。 一个很有效的方法就是利用数据仓库中存放的大量的实视罔,在用户进行查 f 玎处理时,无须实施计算复杂视图,而是利用这些实视图就可以快速得到查 询结果,比普通的查询修改方法快的多。目前,实视图技术的研究是数据仓 库研究的一个热点问题。实视图技术已经在实视图的维护、实视图的选择、 利用实视图进行查询优化等方面得到广泛的应用。 1 2 1 实视图维护的研究现状 数据仓库中存放大量的实视图,以使用户快速得到查询结果,供o l _ a p 分析之用。但当远程基本数据源发生变化时,为了保持和基本关系的一致性, 数据仓库中的实视图也要相应更新,这就是实视图维护问题。对于实视图维 护许多研究者提出了实视图维护的算法【m 1 4 0 1 4 1 1 4 2 】r 4 3 1 4 4 1 4 5 1 。a g u 口t a 等介绍了实视图的概念、为什么使用实视图等问题,给出实视图维护问题的 分类。根据用户视图维护的大量信息、视图维护算法所能处理的更新类型、 描述视图的语言、维护算法针对数据库的实例是全部还是部分进行分类,并 对不同的分类给出实视图维护的技术和应用【4 0 1 。后来a g u p t a 等又进步讨 论了视图重新定义后实视图维护的技术和应用 4 6 1 。t o kw a n g 等人利用版本号 对视图维护给出一个算法,解决了从数据源的信息在传送的过程中丢失或延 迟的情况下,怎样正确维护视图问题1 4 ”。j o h nw t l e e 等利用两种方法( 附 加视图和摘要表技术) 的综合进行实视图的维护,并应用于金融数据仓库系 统中f 4 ”。 对实视图维护问题的一种解决方法就是对每次当原始数据发生改变时, 在数据仓库端对实视图频繁的重新计算。这种方法会导致很大的额外存储和 维护代价。而且这种作法有时也是不可能的,因为数据仓库的空间是有限的。 因此,近几年对实视图维护采用增量维护的方法比较多。所谓的视图的增量 维护即是当数据源中的数据发生变化时报告给集成器,集成器计算相应的变 化,然后将这些变化通告给数据仓库。在这个方向上,斯坦福大学的研究小 组走在最前面。 斯坦福大学的y z h u g e 最先提出一种基于一个数据源的视图维护方法: e c a 方法1 ( e a g e rc o m p e n s a t i n ga l g o r i t h m ) 。这种方法基于f i f o 模型,针对 原始数据的变化构造“补偿请求”查询原始数据,并将查询结果反映在实视 图中。这个算法通过补偿查询( c o m p e n s a t i n gq u e r i e s ) 解决有冲突的修改异 6 第1 章绪论 常问题,并假定信息传到视图的顺序和从数据源发出的顺序相同。 后来,y z h u g e 打破了e c a 算法中单数据源的限制,提出了s t r o b e 算法 m 1 。该算法基于多数据源环境视图一致性维护。在这里讨论了数据仓库的三 个基本事务i :s i n g l eu p d a t e t r a n s a c t i o n s 、s o u r c e l o c a l t r a n s a c t i o n s 、g l o b a l t r a n s a c t i o n s ) 处理方案。定义了数据仓库一致性的四个标准。同时列算法作 了两个假设:假设数据仓库中的视图d 关系投影、选择和连接操作所定义的; 假设所有基本关系的关键字都包含予视图中。除了对实视图的定义限制外, 还要求实视图更新时必须保证信息源是静止的。 列于多数据源的视图维护算法,a g r a w a l 等人提出了s w e e p 算法【4 “。 和s t r o b e 算法相比,它刑视图的定义更灵活,它不要求基本关系的关键字必 须保存在视图中。另外,它不要求视图更新时系统是静止的。 这些视图维护技术都需要存取基本关系以维护实视图。但在数据仓库中, 存取基本关系也很难,因为这些关系是来自分布的、不同数据源的,有时当 时不能 ) 了问数据源,有时对数据源的通讯代价很高。基于这些原因,不通过 存取源关系,在数据仓库端就可以维护视图,即视图的白维护问题成为重要 的研究问题。一个简单的方法是将所有数据源数据复制到数据仓库i f l ,但这 样会导致大量的额外存储空间和费用,因此,确定最小量的相关数据存储是 数据仓库研究的一个重要方面。a a u p t a 等使用主属性信息决定视图对于某 一类的修改的自维护能力。r h u l l 等通过降低选择条件和目标并把结果存 在数据仓库中来考虑视图的自维护岭引。后来,斯坦福大学的d q u a s s 等扩展 了文献【5 副的结果,给出算法去选定附加视图,将其存放在数据仓库c p 维护s p j ( s e l e c t i o n - - p r o j e c t - j o i n ) 视图,这些视图和附加视图都是可自维护的,将关键 字和参照完整性约束考虑进去来进一步减少附加视图中元组的数目 5 引
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行走美国82课件
- 教育行业数字化营销与招生策略:招生团队绩效管理优化
- 广东省佛山市重点达标名校2026届中考语文全真模拟试卷含解析
- 《中国成人失眠共病阻塞性睡眠呼吸暂停诊治指南》解读
- 天津市蓟州区重点中学2026届初中语文毕业考试模拟冲刺卷含解析
- 2026届江苏省南通市崇川区启秀中学中考英语适应性模拟试题含答案
- 湖北省鄂州市五校2026届中考联考语文试卷含解析
- 2025年郑州新密市法院书记员招聘笔试题库及答案解析
- 2026届湖北省襄樊市中考语文全真模拟试卷含解析
- 家乡片那树林我的家乡作文10篇
- 学校心理健康教育合作协议书
- 2024-2030年中国军用滑环行业市场发展趋势与前景展望战略分析报告
- 部编版高中语文必修上第六单元任务群教学设计
- 线上线下教学衔接北师大版数学三年级下册口算脱式计算、应用题复习、期中、期末检测试卷(含部分答案解析)
- 人教版七年级上册英语UNIT 4 My Favourite Subject单元测试卷
- 光明乳销售合同范本
- (正式版)JTT 1497-2024 公路桥梁塔柱施工平台及通道安全技术要求
- ISO15614-1 2017 金属材料焊接工艺规程及评定(中文版)
- 企业项目规划书样本
- 产科营养门诊工作总结
- 中药资源与开发利用
评论
0/150
提交评论