




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)数据仓库中多维数据物化视图的选择.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着信息时代的来临,企业面临大量数据,如何快速从中提取信息、制定市场 策略,以便对市场做出及时灵活的反应,成为企业在市场竞争中立于不败之地的关 键。联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 正是用户获得决策支持的 主要手段。 o l a p 必须支持各种可能的查询,相当一部分查询可能要涉及大量的数据,并需 要对数据进行选择、投影、连接等处理,这是一个非常耗时的过程,然而一个决策 支持系统要求它的查询能够被快速响应。解决这一矛盾通常采用的一个有效的方法 是:数据仓库针对o l a p 可能的查询对原始数据进行选择、投影、连接等预处理,建 立物化视图( m a t e r i a l i z e dv i e w ) 。但是,物化视图也带来了大量存储空间和视图维 护的开销,必须在缩短响应时间和资源限制二者之间进行权衡,选择出恰当的物化 视图集合。因此,物化视图的选择问题作为设计、构建数据仓库的关键问题之一, 成为当前数据仓库领域的一个研究热点。此外,物化视图的相关研究还包括用物化 视图改写查询、物化视图的维护以及物化视图的动态调整等。 本文主要针对基于关系数据库的o l a p 系统中的多维数据物化视图的选择和动态 调整问题进行研究,在提出一个更为合理的视图增益模型之后,分别提出基于m 、r p p 的物化视图选择算法_ v s m f 算法,调整物化视图集使之满足空间约束的算法一 m v s c a 算法,物化视图实时调整算法- r m m v 算法以及基于m v p p 的物化视图动态调整 算法一洲f 算法。 v s m f 算法以m v p p 为视图搜索空间,综合考虑了物化视图影响系统查询性能和维 护性能的各种因素,使系统得到较好的查询性能和较低的维护开销。m v s c a 算法根据 视图的单位空间增益对物化视图集进行调整,使得其满足给定的空间约束。r m m v 算 法对物化视图集进行实时调整,避免了视图的重复计算和对视图大小的估算,提高 了物化视图选择的效率和准确性,使系统在运行过程中能及时反映查询分布趋势、 维持较好的查询响应性能。d m m f 算法从m v p p 的角度讨论物化视图集的动态调整,其 综合了批量调整算法和实时调整算法的优点,同时避免了二者的缺陷。从实验结果 和比较分析可以看出,以上算法具有一定的优越性。 关键字:数据仓库;物化视图;视图选择 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n f o r m a t i o ns o c i e t y ,e n t e r p r i s e sf a c el a r g e q u a n t i t i e so fd a t a i no r d e rt or e a c tt ot h em a r k e tf l e x i b l yi nt i m e ,h o w t oe x t r a c tt h ei n f o r m a t i o na n de s t a b l i s ht h em a r k e ts t r a t e g yf r o mt h e s ed a t a h a sb e c o m et h ek e yf o rb u s i n e s se n t e r p r i s e st ob ei na ni m p r e g n a b l ep o s i t i o n i nt h em a r k e tc o m p e t i t i o no ft h ei n f o r m a t i o na g e o n l i n ea n a l y t i c a l p r o c e s s i n g ( o l a p ) i st h em a i nw a yf o ru s e rt oo b t a i nd e c i s i o ns u p p o r t d e c i s i o ns u p p o r t i n ga p p li c a t i o n si n v o l v ec o m p l e xq u e r i e so nd a t a w a r e h o u s e s ,w h i c hc o n t a i nl a r g ea m o u n t so fd a t aa n dl o t s o fc o m p l e x o p e r a t i o n ss u c ha ss e l e c t ,p r o j e c t ,j o i na n ds oo n t h o s ea r et i m e c o n s u m i n g p r o c e s s e s s i n c et h ed e c i s i o ns u p p o r ts y s t e mr e q u i r e si t sq u e r ys h o u l db e r e s p o n d e dq u i c k l y ,ag o o dp h y s i c a ld e s i g no ft h ed a t aw a r e h o u s ei sc r i t i c a l t h ed a t aw a r e h o u s es y s t e mp r e t r e a t st h eb a si cd a t at ot h o s eq u e r i e sw h ic h a r ep o s s i b l ya p p e a r e d ,t h e ns t o r e st h er e s u l t sw h i c hc a l l e dm a t e r i a l i z e d v i e w s o n eo ft h em o s ti m p o r t a n td e c i s i o n si nd e s i g n i n gad a t aw a r e h o u s ei s t h es e l e c t i o no fm a t e r i a li z e dv i e w st ob em a i n t a i n e da tt h ed a t aw a r e h o u s e t h eg o a li st os e l e c ta na p p r o p r i a t es e to fv i e w ss ot h a tt h es u mc o s to f p r o c e s s i n gs e to fq u e r i e sa n dm a i n t a i n i n gt h em a t e r i a l i z e dv i e si sm i n i m i z e d i tb e c o m e so n eo ft h eh o t s p o t so fs t u d yi nt h ed o m a i no fd a t aw a r e h o u s e b e s i d e s ,a l l i e ds t u d i e so fm a t e r i a l i z e dv i e w si n c l u d eq u e r i e sr e w r i t t e n u s i n gm a t e r i a l i z e dv i e w s ,t h em a i n t e n a n c eo fm a t e r i a l i z e dv i e w s ,t h ed y n a m i c m o d u l a t i o no fm a t e r i a l i z e dv i e w sa n ds oo n i nt h i sp a p e r ,w ef o c u so nt h es e l e c t i o na n dd y n a m i cm o d u l a t i o no f m a t e r i a l i z e dv i e w si no l a ps y s t e mw h i c hb a s eo nt h er e l a t i o n a ld a t a b a s e a m o r es u i t a b l eb e n e f i tm o d e li sp r o p o s e df i r s t t h e nf o u ra l g o r i t h m sa r e p r o p o s e d t h e ya r ev s 师( v i e w ss e l e c t i o nb a s e o nm u l t i f a c t o r ) ,m v s c a ( m o d u l a t i o no fv i e w su n d e rs p a c ec o n s t r a i n ta l g o r i t h m ) ,嗍v ( r e a l t i m e m o d u l a t i o no fm a t e r i a li z e dv i e w s ) a n dd h 吁( d y n a m i cm o d u l a t i o nb a s eo n m u lti - f a c t o r ) t h ea l g o r i t h mv s m fc a ng a i nag o o dp e r f o r m a n c eo fq u e r ya n dm a i n t e n a n c e b yu s i n gm v p pa si t ss e a r c hs p a c ea n dc o n s i d e r i n g a llf a c t o r sw h i c hm a ya f f e c t t h ep e r f o r m a n c eo ft h es y s t e m t h ea l g o r it h mm v s c am o d u l a t e st h em a t e r i a li z e d v i e w st om e e tt h es p a c ec o n s t r a i n ta c c o r d i n gt ot h eb e n e f i to fv i e w si nu n i t s p a c e i no r d e rt om a i n t a i nt h es y s t e mr e s p o n s i v e n e s s ,t h ea l g o r i t h mi 矾i v i sp r o p o s e d ,w h i c hc a na v o i dr e c a l c u l a t i n gt h er e s u l t sa n de s t i m a t i n gt h e s i z eo ft h eq u e r i e s c o n s i d e r i n gt h em a t t e rf r o mm v p p ,w ep r o p o s et h ed y n a m i c m o d u l a t i o na l g o r i t h md v i fw h i c hh a sa l lt h ee x c e l l e n c eo fb a t c hm o d u l a t e a l g o r i t h ma n dr e a l t i m em o d u l a t ea l g o r i t h m a l lt h ee x p e r i m e n t sa n da n a l y s i s i n d i c a t et h a tt h ea l g o r i t h m sp r o p o s e di nt h i sp a p e ra r ee f f e c t i v e k e yw o r d :d a t aw a r e h o u s e ;m a t e r i a l i z e dv i e w ;v i e ws e l e c t i o n 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。本人在论文写 作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。本人依法享有 和承担由此论文产生的权利和责任。 声明人( 签名) :硝。弓由 刁月2 口日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并 向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非 赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编 入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文 在解密后适用本规定。 本学位论文属于 1 保密( ) ,在年解密后适用本授权书。 2 不保密( 4 ) ( 请在以上相应括号内打“4 ) 作者 导师 日期 日期 年罗月切e t 年,月7 * 日 第一章绪论 1 1 引言 第一章绪论 计算机用于数据处理并为决策提供信息。早在2 0 世纪7 0 年代,人们就认识到, 为了进行决策支持将特殊的经过预处理的数据放在不同的平台上具有明显的益处, 这种方法使用户可以轻松地访问所需要的数据,同时改善了系统的响应时间,并且 能够增强数据的完整性和安全性。决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 是第一个使用此方法的应用系统,终端用户计算的出现使其它许多应用系统得益于 经过特殊准备和储备的数据。 2 0 世纪9 0 年代,许多组织发展了数据仓库技术以便向用户提供决策支持数据。 一种是e t l 工具,它帮助数据仓库从操作型数据库或其它数据源中抽取数据,并对这 些数据进行清洗、转换等操作,最后将数据加载到数据仓库中。依靠这种工具,许 多服务器软件可以用于数据存储;多维数据库、l o t u sn o t e s 服务器和基于网络的 服务器都加入了关系数据库的行列。而增强的数据访问工具使终端用户存取、分析、 显示信息变得更为容易。 随着技术的进步,商业压力和机遇促使经营者的兴趣转移到数据仓库上。混乱 而高速的环境使决策的周期变得更短,因此需要依靠信息技术支持决策。许多组织 越来越将注意力集中到客户身上,他们已经认识到,包含大量客户信息的数据库能 提供生产商业优势的信息。另外,在许多组织中,用户及时获得决策支持信息的唯 一办法是自己进行分析,因为组织规模的减小降低了雇佣信息系统人员为他们工作 的可能性。数据仓库作为数据和应用程序之间的纽带,彻底改变了决策支持的本质。 数据仓库将分析型数据从操作型数据库中提取出来,按照d s s 的需要重新组织、存储, 从而,将分析型处理及其数据与操作型处理及其数据分离开来,提高分析和决策的 效率和有效性。数据仓库为几乎所有的d s s 数据提供了一个单一的集中化的数据 源,最终的结果是现在能够更快地创建决策支持系统,并且能够使用一个大的,好 数据仓库中多维物化视图的选择 的输入信息源。 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 是使用数据仓库进行 决策支持的核心,是使用者对大规模企业数据直接获取,能动地进行信息分析的过 程。o l a p 可用于面向阵列的应用程序,如市场分析和金融预测等,是分析者进行计 划和做出决策的工具。在所有o l a p 的相关定义中,最为人们熟知的是f a s m i ( f a s t a n a l y s i so fs h a r e dm u l t i d i m e n s i o n a li n f o r m a t i o n ) ,即“共享多维信息的快速 分析环境”。显然,o l a p 系统的用户期望每个操作都能得到快速的响应。然而,在o l a p 上的各种粒度的多维数据分析,通常需要访问大量的数据,并且涉及复杂的连接和 聚合操作,因此如何缩短查询响应时间、提高o l a p 的查询效率变得十分关键。一个 常用且有效的办法是预先对某些查询的中间结果或最终结果进行计算并保存起来, 这些保存起来的计算结果即存储了实际数据的视图物化视图。当执行查询时, 利用这些已物化的视图来响应查询,而不需要每次都从原始数据计算,从而大大缩短 查询响应时间。然而,物化全部的视图是不现实的,因为这需要相当庞大的时间和空 间上的开销,并且当数据更新时还要保持数据的一致性,需要增加大量的物化视图维 护开销。因此,设计决策支持系统的一个重要问题就是在给定的存储空间限制下, 选择哪些视图进行物化,使得o l a p 系统能得到最优的性能。 1 2 国内外研究概况 利用物化视图来提高决策支持查询处理效率的想法,近年来正逐渐被决策支持 系统所采用。最近的t p c r 基准测试和实际的用户经验表明,正确使用物化视图可 以使查询处理时间缩短几个数量级。而要有效发挥物化视图的作用,必须解决好以 下三个问题1 : 1 物化视图的选择:决定物化哪些视图,如何存储和索引这些视图,以及如何 在o l a p 系统的使用过程中对物化视图进行动态调整。 2 物化视图的维护:当基表发生变化,如何有效刷新物化视图,保持数据的一 致性。 3 物化视图的使用:使用查询重写等技术,选择合适的物化视图响应查询,提 2 第一章绪论 高查询效率。 1 2 1 物化视图的选择 物化视图的选择问题可形式化地描述为h :给定一个存储模式r ,视图集合v , 约束集合c 以及一组查询集合q ,在c 的约束下,从v 从选出一组视图集m 加以物化,使 得执行查询集合q 的总开销最小。 物化视图的选择问题一直是数据仓库研究的热点之一,目前已有许多相关的算 法,从不同角度对之进行了研究。 1 9 9 6 年,d r j i mg r a y 等人提出了数据立方模型和数据立方计算阳1 的概念,从此, o l a p 服务器开始用数据立方体来组织多维数据集。基于数据立方的视图选择算法也 应运而生,它的特点是约束条件很强,更容易实现。g u p t a 把数据立方体中的索引和 视图选择结合起来考虑n 们。后来g u p t a 又介绍了视图选择问题的一个理论上的框架, 提出了一些算法和启发机制n 1 12 1 。h a r i n a r a y a n 等人提出一种多项式贪婪算法 b p u s n 羽,它用数据立方格来表示视图间的依赖关系,以单位空间收益作为判断的依 据,按照单位空间收益的降序来选择视图。a m i ts h u k l a 等人提出了一种既简单又 快速的选择方法p b s n u ,同样用数据立方格来表示视图间的依赖关系,依照聚合视图 大小的升序来进行视图选择。j o s e p h 等人将遗传算法的获取最优解的能力应用于最 优物化视图集的选取n 乳1 6 1 ,并在降低算法复杂度方面进行了研究。此外,还有c o h e n 等人提出的基于单位空间上查询频率的算法f p u s n7 1 。以上这些算法都是在给定预计 存储空间大小的限制下,选择一组物化视图,最小化系统查询响应时间。然而,在 实际应用中,仅仅从视图所占空间大小这一限制条件着眼是不够的。随着数据存储 技术的飞速发展,物化视图的维护等其他方面的开销已逐渐代替存储空间,成为限 制数据仓库不能无话所有视图的主要因素。 基于上述考虑,文献 1 8 提出了以物化视图总维护时间为约束条件的贪心算法 i t g a 。文献 1 9 则结合与或图,贪心算法以及斛启发式算法探讨该问题的求解方法。 文献 2 0 提出的代价模型考虑了使用不同视图维护策略而产生的最小维护代价,然 而,在该代价模型中,没有考虑这些视图的查询代价。 r o s s 、s t r i v a s t a v a 和s u d a r s h a n ,b a r a lis 、p a r a b o s c h i 和t e n i e n t e 等, t h e o d o r a t o s 和s e l l s 等,h a r i n a r a y a n 和r a j a r a m a n 等,y a n g 、k a r l a p a l e r m 和l i 等提 数据仓库中多维物化视图的选择 出了几种视图选择的框架和启发式算法口1 1 ,优化查询响应时间和视图维护时间。 文献 2 6 基于根据查询之间的依赖关系构造的网络框架他4 1 提出了一种结合遗传算法 和模拟退火算法的混合算法。在这些算法都使用穷举法进行搜索视图。其中,y a n g 和k a r l a p a l e m 提出构造m v p p ( m u l t i - v i e wp r o c e s s i n gp l a n ) 作为视图选择的搜索 空间以获得最优解瞵1 ;文献 2 7 在m v p p 的基础上,应用遗传算法求解;以上算法, 都同时考虑了查询代价和维护代价,但都将目光集中在获取最小代价的多查询最优 化,而忽略了物化视图维护策略的优化对这个问题的影响。 n a h aa r y o u s r i 和k h a l i lm d l m e d 同时考虑多查询优化和视图维护优化这两个 问题,提出了i r v s a 算法和i m d v s a 算法嘲1 ,但这两个算法都忽略存储空间的约束。此 外,i m d v s a 算法从物化视图的维护代价着眼,且只考虑使用增量更新策略的情况: 而i r v s a 算法虽然同时考虑两种维护策略,但其与b p u s 算法主要缺陷相同:首先,其 每一步选择都要重新计算所有待选择视图的增益,算法的计算开销大;其次,其每 一步选择的视图都将作为将来要物化的视图,没有考虑每选择出一个新的视图后, 已选视图的增益将出现衰减,而这一变化可能会导致其应该从已选视图中删除。 1 2 2 物化视图的动态调整 由于数据仓库的时变性,特别是决策支持系统中存在较大成分的即席访问,使 得系统的查询分布情况难以预测,导致最初选择出来的物化视图集在系统运行过程 中逐渐失去时效性。因此,需要及时发现查询模式的变化,选择适当的时机对物化 视图进行动态调整,以确保系统的查询响应时间能满足用户的要求,使系统性能保 持最优。物化视图的动态调整涉及两个问题:如何选择进行物化视图动态调整的最 佳时机以及如何调整。 文献 2 9 ,3 0 都采用定期对物化视图集进行动态调整的策略,文献 3 1 通过对 样本空间内查询代价的数学期望和方差进行分析,判断用户查询分部情况的变化, 选择调整物化视图的时机,进行调整。这些方法都需要一定的统计周期,无法及时 地反映查询分布的变化。对此,f p u s 算法采用了实时调整的策略n 引,能及时地按照 查询的变化或即席访问对物化视图集进行针对性的调整,但这样的策略,在每次查 4 第一章绪论 询之后,都要对所有物化视图进行物化效益的比较,运行开销大,尤其对于查询密 度很高的情况下不适用。此外,采用实时调整的策略可能导致部分视图出现频繁的 “抖动 ,使得物化视图集缺乏稳定性,也将使很多经过优化的查询方案和优化路径 不能重复利用,反而在一定程度上增加了查询开销,从而使该算法失去真正的实用价 值。 1 2 3 物化视图的维护 由于数据仓库中的数据是来源于其它独立的操作型数据库,当这些数据库中的 数据发生变化时,数据仓库中的数据也会随着改变。因此,由数据仓库中的基表预 计算得到的物化视图也必须与原始数据的变化保持同步,以保证数据的一致性。这 种同步更新物化视图的操作即物化视图的维护。 目前已有的物化视图维护方法主要有以下几种: 1 重新计算:直接访问基表,重新计算视图,实现对物化视图的维护。这种方 法简单、直接,是当前许多现行商用数据仓库普遍采用的方法,但是其维护代价过 大,并且使得数据仓库长时间处于不可访问的状态,在某些应用中是不可容忍的。 2 增量维护口筋:通过访问底层数据的增量和物化视图的定义,计算物化视图的 增量,然后修改相应的物化视图。该方法效率高、维护代价小,尤其当基表更新的 比例较小时,增量更新比重新计算的性能更好。目前有许多增量维护算法致力于提 高增量维护的效率,文献 3 2 ,3 3 是用于集中式环境下的增量维护。文献 3 4 1 采用 增量表达式,并使用算法查找最优增量表达式来降低更新时间。文献 3 5 3 9 都提出 了各自的物化视图的增量维护算法。 3 通过添加辅助的视图来减少物化视图维护的复杂性和减小维护的代价旧1 ; 4 自维护技术h ,通过添加辅助关系使得对物化视图的维护不需要对底层数据 源进行访问。 此外,就广义的物化视图的维护而言,对物化视图的动态调整也属于物化视图 维护的一种,这是对物化视图集本身为适应新的查询分布情况的维护。 数据仓库中多维物化视图的选择 1 3 本文的内容和结构 本文简述数据仓库和联机分析处理的基本概念:在一种具有普遍意义的多维数 据模型基础上描述o l a p 和物化视图的概念;介绍物化视图选择、动态调整以及维护 的现状,并分析其特点和不足之处。本文重点描述物化视图及m v p p 的概念和理论, 提出新的基于m v p p 的物化视图选择算法_ v s m f 算法,按照空间约束调整结果集的 算法州s c a 算法,物化视图实时调整算法叫删v 算法以及基于m v p p 的物化视图 动态调整算法d 删f 算法,并用分析和实验说明了其优缺点和效率。 本文的组织结构是这样的:第一章为绪论,简述决策支持系统、数据仓库以及 联机分析处理的产生和发展,分析当前国内外对物化视图的研究情况;第二章描述 数据仓库基本概念、特点、体系结构以及概念模型,讨论设计数据仓库需要涉及的 几个方面,最后简要介绍了一些数据仓库相关的关键技术;第三章介绍o l a p 与物化 视图的概念、用途以及研究方向,为下文详细讨论物化视图的选择和动态调整问题 做准备;第四章给出物化视图选择问题的相关概念定义以及问题描述,引入m v p p 的 概念,并基于此提出新的物化视图选择算法,同时介绍两个典型的物化视图选择算 法,与本文提出的算法进行比较、分析;第五章对物化视图的动态调整进行分析, 提出物化视图实时调整算法和基于m v p p 的物化视图动态调整算法;第六章是本文的 结论。 6 第二章数据仓库概述 第二章数据仓库概述 众所周知,如何有效地管理公司和企业在运营过程中产生的大量数据和信息一 直是i t 人员面临的重要问题。2 0 世纪7 0 年代出现的关系型数据库技术凭借其简单清 晰性和s q l 语言提供的强大的查询能力成为解决这一问题的强有力的工具。然而,从 2 0 世纪8 0 年代中期开始,随着市场竞争的加剧,信息系统用户已经不满足于仅仅用 计算机去管理日复一日的运营数据,他们更需要的是对大量的业务数据( 包括历史 业务数据) 进行分析,以探索业务活动的规律和市场的运作趋势,帮助企业为市场 竞争做出重要的决策。这一需求引发了数据仓库思想的萌芽,为数据仓库概念的提 出和发展打下了基础。1 9 9 2 年,被称为“数据仓库之父”的w i l l j a mh i n m o n 在其 著作建立数据仓库一书中,首次比较系统地给出了数据仓库的定义“数据 仓库是面向主题的、集成的、时变的、稳定的数据集合,主要用于支持经营管理中 的决策制定过程 。 数据仓库从2 0 世纪9 0 年代中后期开始盛行起来。数据仓库作为数据库的高端扩 展,成为一大热点。当企业积累了大量的业务数据之后,要充分利用这些资源,根 据它们做出决策,所依赖的基础技术就是数据仓库。i b m 所推崇的商业智能( b i ) , 其核心技术就是数据仓库v i s u a lw a r e h o u s e 。微软的s o ls e r v e r 7 o 绑定了o l a p 服务 器,将数据仓库的功能集成到数据库中,并建立了数据仓库联盟。o r a c l e 公司也有 自己的o r a c l ee x p r e s s 系列o l a p 产品来提供决策支持。s y b a s e 把数据仓库作为主要 技术方向之一,其核心产品s y b a s ei q 备受瞩目,国内数家企业都利用它建立了数据 仓库。 从数据仓库出现早期到现在,数据仓库在数据处理过程中的角色和目的已经发 生了非常巨大的变化,而且如今还在不断的演变。数据仓库不再只是支持用户查询 和报表的数据库系统,它被看作是一个全新的信息与知识的来源心1 ,为整个企业或 组织、有特定需求的用户,以及数据分析师们所使用。 7 数据仓库中多维物化视图的选择 2 1 数据仓库的特点 随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在 总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义, 即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修 改的数据集合”。根据上述定义,数据仓库有以下四个特点: ( 1 ) 面向主题。数据仓库中的数据是针对特定的客观分析领域组织的。这些特 定的客观分析领域称为主题( s u b j e c t ) 。主题是进行数据归类的标准,是一个抽象的 概念,是指用户使用数据仓库进行决策时所关心的重点方面,如质量、销售及成本 等。一个主题通常与多个操作型信息系统相关。数据仓库不是泛泛的、无序的数据 集合,而是为了支持高效的按主题的分析而组织起来的特定的数据集合。 ( 2 ) 集成性。集成性是数据仓库最重要的特性。数据仓库中的数据是从原有的 分散的数据库中按一定的主题和规则抽取出来的。而数据仓库的每个主题所对应的 数据来源于不同的分散数据库,它们之间可能存在许多重复和不一致,且联机事务 处理系统的数据都与不同的应用逻辑相关联,相互之间存在更加复杂的异构性。因 此,在数据进入数据仓库之前,必须经过转换,重新格式化,重新排列以及汇总等 操作,这就是集成。 ( 3 ) 非易失性。在操作型环境中,对数据可以进行不同和反复的插入、修改和 删除等操作,这些操作可以来自一个系统,也可以来自不同的系统。而数据仓库是 为数据分析而设计的,它保存的是大量经过集成、加工后的综合性历史数据,而不 是联机数据,因此其数据是已经固定下来的数据,那么在数据仓库中往往需要存储 一年、两年甚至更长时间的数据。为在其上开发的d s s 或e i s 2 等提供服务,以满足比 较、预测之用,数据仓库一般为只读数据库,不进行一般意义上的数据更新,只需 要做定期的加载、刷新。 ( 4 ) 与时间相关。数据仓库与时间相关的含义是指时间元素( 如年、月、日等) 明确的包含在数据中,使得随时间变化的趋势可以用于分析研究,但是数据仓库中 数据本身并不随时间变化。数据仓库随时间不断增加新的数据,不断将当前最新的 操作型数据统一集成到数据仓库中,并对当前的新数据和历史数据进行重新组织, 第二章数据仓库概述 加工成面向主题的不同粒度的数据,用于趋势分析。这些数据一旦集成,除非删除, 一般不再进行更新操作。为了适应d s s 进行趋势分析,数据仓库内的数据时限远远 长于事务性系统中的数据时限。 2 2 数据仓库的体系结构 与关系数据库不同的是,数据仓库至今并没有严格的数学理论基础,它更偏向 于工程。典型的数据仓库系统是由数据仓库的建立,包括建立在数据仓库上的查询、 分析处理、数据展示的联机分析处理技术和数据挖掘技术等一整套技术,因而可以 根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的分析与展现等关 键技术。整个数据仓库系统是一个包含四个层次的体系结构如图2 一l 所示。 数据源是数据仓库系统的基础,是为数据仓库提供最底层数据的业务型数据库 和其他外部数据源,如文档、w e b 文档等。最常见的数据源是关系数据库。2 0 世纪7 0 年代兴起的关系型数据库模型,因其严密的数学基础,简单的逻辑结构和处理方便 等特点,被大多数企业所接受,几十年来为企业积累了大量的原始数据。也正是这 种“数据丰富,知识贫乏 的状态促使了数据仓库的出现和发展。x m l 也是一种时兴 的数据格式,随着网络技术的发展和应用的普及,x m l 数据源也必将成为数据仓库的 一种重要的数据源。 数据存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对 数据进行抽取( e x t r a c t ) 、清洗( c l e a n ) ,转换( t r a n s f o r m ) ,并有效集成 ( i n t e g r a t i n g ) ,按照主题进行重新组织,最终确定数据仓库的物理存储结构,将数 据加载( l o a d ) 到数据仓库中,同时组织存储数据仓库元数据。此外,还要对数据 仓库进行周期性的刷新( r e f r e s h ) 。按照数据的覆盖范围,数据仓库存储可以分为 企业级数据仓库和部门级数据仓库( 通常称为“数据集市”,d a t am a r t ) 。一个或 多个数据仓库服务器将管理这些数据仓库和数据集市。数据仓库的管理包括数据的 安全、归档、备份、维护、恢复等工作。这些功能与目前的d b m s 基本一致。 联机分析处理对分析需要的数据进行有效集成,按多维模型予以组织,以便进 行多角度、多层次的分析,并发现趋势。一般的,联机分析处理在汇总级数据或细 9 数据仓库中多维物化视图的选择 节级历史数据上操作。与传统的o l t p 比较,联机分析处理的主要优势是它支持数据 仓库的多维分析。 前端工具主要包括各种查询和报告工具、数据分析工具、数据挖掘工具以及各 种基于数据仓库或数据集市的应用开发工具。其中数据分析工具和报表工具主要针 对o l a p 服务器,数据挖掘工具主要针对数据仓库。 图2 - 1 数据仓库体系结构图 回国扫枢弓 + 一数据源卜数据储存与管理:+ - o l a p 卜前端工具 ii i 2 3 数据仓库的概念模型设计 2 3 1 多维数据模型相关概念 多维数据模型( m u l t i d i m e n s i o n a lm o d e l ) 是面向分析应用而提出来的一种直观 的数据仓库概念模型,是一种借助于多维空间的数据结构表达形式,可以直接地表 达分析目标。目前,多维数据模型已经广泛地应用于各种o l a p 的前端工具、数据库 设计以及查询引擎。多维视图数据模型中有以下定义: 1 事实( f a c t ) :事实是制定决策过程中,决策者所感兴趣的概念。其对应于 企业中动态发生的事件,如销售额、预算等。在数据仓库中,事实在核心表中实现 l o 第二章数据仓库概述 并存储了所有的数值型数据。 2 维( d i m e n s i o n ) :维是人们观察数据的特定角度,是考虑问题时的一类属性。 属性的集合构成一个维( 如时间维、机构维等) 。在多维数据模型中,数据是按维 来表示的,例如产品、时间、地域和顾客等。维决定决策过程中事实实例可能的聚 合( a g g r e g a t e ) 方式。通常,时间是决策支持数据仓库中一个至关重要的维。 3 维层次( d i m e n s i o nl e v e l ) :同一个维度还可以存在细节程度不同的各个描 述方面,例如时间维,我们可以从日、星期、月、季度、年等跟细节的角度来描述, 这些不同的细节层次就是维的层次性。一个维通常有多个层次,这也正是联机分析 处理为满足用户从多角度观察数据、从不同粒度观察数据所需要的。维的层次也叫 维的属性。比如地点维的层次可能有市、省、国家,那么地点维的属性集合就是( 市、 省、国家) 。一个维可以对应离散属性( d i s c r e t ea t t r i b u t e ) ,如“地域”维,其 所对应的维属性都是离散的,如“国家”,“城市”等;维也可以对应连续属性 ( c o n t i n u o u sa t t r i b u t e ) ,如轧制速度可以作为分析的一个维,其取值为实数。 4 维空间( d i m e n s i o ns p a c e ) :设在一个分析应用中,用户所关心的分析角度 ( 维) 构成一个维空间,记作:s = d 。,d 。,d 。) 。 5 度量( m e a s u r e ) :度量是事实的数值属性,表示了与维相关的业务行为和业 务表现,是作为分析目标的数值型数据,例如:销售额、预算、投资等,每一个这 样的数值度量的取值都取决于一组“维 ,这些维决定了度量的上下文。例如,与 销售额有关的维可能包括这笔销售发生的城市、日期以及所售的产品。通常我们认 为所有这些维在一起唯一确定了度量的取值。由此,多维数据模型将度量看成是由 这些维组成的多维空间内的一个值,每个维都拥有一些属性用于描述这个维,例如, 产品维可能包括如下4 个属性:种类、行业、生产日期和平均利润率。这些维属性之 间可能存在着层次关系,如上例中的种类和行业间就存在层次关系。 o l a p 基于多维数据模型的主要分析操作有旋转( p i v o t ) 、上卷( r o l l u p ) 、下 钻( d r i l l - d o 啊m ) 、切块( d i c e ) 、切片( s l i c e ) 。 1 旋转:旋转即变换维的方向,在数据立方的多维报表中重新安排维的放置( 如 行列互换) ,通过旋转得到不同视角的数据。 2 上卷下钻:在当前数据对象基础上再追加一个维作聚合操作,或是由在具有 数据仓库中多维物化视图的选择 层次关系的属性中从底层属性切换到上层属性作聚合操作称为上卷,随着上卷的进 行,看到的数据细节越来越少:下钻操作刚好与之相反,在当前数据对象基础上减 少个维,或是从具有层次关系的属性中从上层属性切换到底层属性作聚合操作, 以获知当前数据在该维上的构成,随着下钻的进行,看到的数据细节逐渐增加。 3 切块切片:进行聚合操作时,在现有分析的基础上,限定某一维( 或多维) 上 的成员的取值范围,这样的操作称为切块。常见的是按一维、二维和三维分片,例 如,在“城市、产品、时间三维方体中对城市维作分片,选定某一城市,可得到 该城市中各产品历年的销售情况。特别的,在现有分析的基础上,指定一个维的当 前维属性的一个具体的属性值的操作称为切片。 此外,o l a f ) 基于多维数据模型的操作还有世系回溯( l i n e a g et r a c i n g ) “引:给定 一条概要数据纪录,寻找生成这条概要记录的所有相关的原始数据记录的操作称为 世系回溯操作。例如,给定2 0 0 4 年利润总额,世系回溯操作返回2 0 0 4 年1 月至l j l 2 月每 月( 假设该数据仓库中粒度单位为月) 的利润。 2 3 2 多维数据模型的物理实现 星型模型、星座模型和雪花模型是多维数据模型与关系数据库相结合的三种建 模方法。其中,星座模型是星型模型的直接扩展。 先解释两个概念:维表和事实表。前面提到,维是人们观察数据的特定角度, 维是有层次的。每个维都有一个表与之联系,该表成为维表。一个维表d ;( i n ) 是 由一系列的属性组成,存在唯一的主键d l i d ( 编号) 。通常,多维数据模型围绕中心 主题组织。该主题用事实表表示。事实表包括事实的名称( 即度量属性名称) 及相 关维表的关键字,可形式化表示如下:事实表f t 由各维主键 d l _ i d ,d 2 _ i d ,d _ i d ) 和度量属性( m 1 ,m 2 ,儿 组成。即事实表为f t = d l i d ,d 2 - i d ,d _ i d , m ,m 。,h l ) ,其中n 表示数据仓库维表的个数,m 表示事实( 度量属性) 的个数。 1 星型模型( s t a rs c h e m a ) :星型模型的中心是一个单一对象,即事实表。事 实表中的每个元组包含一个或几个度量值和一组指针,有多少个维就有多少个指针。 事实表通过这些指针连接到多张维表,每个维对应于一张维表。这些指针分别指向 第二章数据仓库概述 相应维表中取值对应于该元组“坐标 的那条记录,这种指针在关系模型中通常使 用外键( f o r e i g nk e y ) 来实现。星型模型反映了用户需要分析的业务,例如生产、订 购和销售等。图2 - 2 给出了星型模型的一个例子。 图2 - 2 星型模型 2 星座模型( f a c tc o n s t e l l a t i o ns c h e m a ) :星座模型是星型模型的直接扩展。 为了表示多个事实之间的关系,通过共享维,将多个星型模型连接在一起形成的模 型即星座模型。共享维是指两个或多个事实共同拥有的维,其对每个拥有它的事实 都具有相同的意义。图2 - 3 给出了星座模型的一个例子,其中销售、采购和库存这 三个事实表通过它们的共享维( 产品维) 连接到一起,形成一个关于购、销、存的 星座模型。 图2 - 3 星座模型 数据仓库中多维物化视图的选择 3 雪花模型( s n o w f l a k es c h e m a ) :星型模型没有显式的支持属性间的层次关 系,而雪花模型在星型模型的基础上作了改进,通过对维表进行范式化,在某些或 全部的维上形成层次,使维的层次关系得以显式的支持。图2 - 4 给出了雪花模型的 一个例子。可以看出,雪花模型更清楚地表达了维的层次结构,使模型更加容易理 解和使用,而且在很大程度上节省了存储空间,但存在使数据模型变得十分繁琐的 可能。总之,雪花模型对维表进行范式化,使得维表的维护工作更容易;然而,星 型模型中维表的非范式化结构使浏览这些维表变得更容易。 图2 - 4 雪花模型 2 4 数据仓库中其它的关键技术 数据仓库的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓 库设计四个方面。除了前一节中已经介绍的数据仓库设计以外,其余三个环节也都 包含许多关键技术。 1 数据清洗( d a t ac l e a n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年新教材高中数学 第3章 圆锥曲线的方程 3.1 椭圆 3.1.1 椭圆及其标准方程说课稿 新人教A版选择性必修第一册
- 2025大学生综合保险合同范本
- 2025私人租房合同范本自由交易版
- 2025年个体门面租赁合同简易版范本
- 第五节 同一直线上二力的合成说课稿-2025-2026学年初中物理北师大版北京2024八年级全一册-北师大版北京2024
- 2025《合同法》变革风暴
- 第11课 目录和封底的制作教学设计-2023-2024学年小学信息技术(信息科技)四年级上册粤教粤科版
- 2025年度土地使用权入股种植树木合同书
- 2025官方的个人购房合同
- 铜陵事业单位笔试真题2025
- 2025年领导干部任前廉政法规知识考试题库(含答案)
- 2025年四川基层法律服务工作者执业核准考试仿真试题及答案一
- GB/T 1220-1992不锈钢棒
- GB/T 1094.1-2013电力变压器第1部分:总则
- 水工监测工竞赛试试题库
- 2023年安仁县林业系统事业单位招聘笔试题库及答案解析
- 精选急腹症影像学表现资料课件
- 角膜 角膜炎课件
- 《卫生政策学》第三章 政策问题确认
- 水利水库工程项目划分表及说明书
- 雨污水检查井施工方案
评论
0/150
提交评论