(计算机应用技术专业论文)数据仓库中基于访问频率的动态物化视图的研究.pdf_第1页
(计算机应用技术专业论文)数据仓库中基于访问频率的动态物化视图的研究.pdf_第2页
(计算机应用技术专业论文)数据仓库中基于访问频率的动态物化视图的研究.pdf_第3页
(计算机应用技术专业论文)数据仓库中基于访问频率的动态物化视图的研究.pdf_第4页
(计算机应用技术专业论文)数据仓库中基于访问频率的动态物化视图的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库中基于访问频率的动态物化视图的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 数据仓库中基于访问频率的动态物化视图的研究 摘要 数据仓库的在线分析处理( o l a p ,o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 和在 线数据挖掘( o l d m ,o n l i n ea n a l y t i c a lm i n i n g ) 通常要对大量的数据进行运 算,以精简的结果来回答用户的查询。数据仓库系统的这一特点使得物化视图技 术在数据仓库中尤为重要。物化视图是经过数据预处理而生成的表,这些表物理 地存储在数据仓库中,通过对其简单运算或简单查找回答用户查询,从而能够在 很大程度上提高数据仓库的查询响应速度。由于物化视图占用存储空间、需要进 行更新维护,所以物化所有的查询对应的视图是不现实的,必须考虑选出哪些视 图进行物化,这就是物化视图选择问题( m v s ,m a t e r i a l i z e dv i e w ss e l e c t i o n ) 。 尽管对于m v s 问题已经有大量的研究,然而现有研究还达不到工业中所要求 的稳定性、健壮性,数据仓库的商业产品对物化视图自动选择支持不够理想。现 有支持物化视图自动选择的数据仓库产品采用的是静态物化视图选择方案,这种 方案违背了o l a p 和决策支持系统( d s s ,d e c i s i o ns u p p o r ts y s t e m ) 的动态本 质。而数据仓库未来的发展对物化视图选择的效率、易用性、有效性和自适应性 提出了更高的要求。 本文提出了一种基于视图访问频率的动态物化视图方案,该方案能够克服静 态物化视图选择方案的缺点,它具有自适应、高效、易操作的特点,能解决大规 模的m v s 问题。 方案根据视图不同的访问需求特征,在不同阶段、以不同的方式物化视图, 从而降低了整个m r s 问题的复杂度,提高了给定存储空间的物化视图的有效性。 系统调用多项式时间的改进的贪心算法,自动选出初始物化视图,填充部分物化 视图存储空间,通过对m r s 本阶段的子问题规模进行控制,提高本阶段的执行效 率。方案认为视图的访问频率反映了用户的查询趋势,因此构造了以视图访问频 率为主要因素的收益模型,并以此模型计算的收益值作为物化视图的调整标准, 对物化视图集动态物化和调整。这样物化视图集能够随着用户查询趋势的改变而 改变,具有自适应性。方案把物化视图分为两种:永久物化视图和临时物化视图, 山东大学硕士学位论文 只有临时物化视图才可以被调整,从而避免了具有较高稳定访问频率的物化视图 被删除。物化视图预警线( p w l ,p r i o rw a r n i n gl i n e ) 的引入,可以提前发现 物化视图存储空间即将被填满的状态,提前进行物化视图调整前的准备,从而提 高系统响应查询的效率。本文提出了动态物化选择及调整的核心算法,采用 t p c h 基准数据模式、用i g b 的数据构造和填充了o r a c l e 数据仓库,以此为基 础进行实验查询和分析对比,实验验证了收益模型和动态物化调整算法的有效 性。 本文提出了动态物化视图方案具有自适应、高效、易操作的特点,但要将其 完全应用于数据仓库中,还需要考虑与其它机制的协调,以及一些集成的细节, 这也是下一步要研究的内容。 关键词:数据仓库,物化视图选择,动态,自适应 一些查盔堂堡主堂垡笙苎 b a s e do na c c e s s i n gf r e q u e n c yd y n a m i cm a t e r i a l i z a t i o n v i e w si nd a t aw a r e h o u s e s a b s t r a c t i nd a t aw a r e h o u s ee n v i r o n m e n t , 0 l a p ( o n - l i n ea n a l y t i c a l p r o c e s s i n g ) a n d o l d m ( o n 。l i n ea n a l y t i c a lm i n i n g ) u s u a l l yu s ec o n c i s er e s u l t s ,w h i c ha r ec o m p u t e d f r o mh u g eb a s ed a t a , t o a n s w e rq u e r i e sc o m m i t t e db yu s e r s b e c a u s eo ft h i s p o i n t , m a t e r i a l i z e dv i e w sa r co fu n p r e c e d e n t e di m p o r t a n c ei nd a t aw a r e h o u s e s i nd a t a w a r e h o u s e s ,m a t e r i a l i z e dv i e w sa r eu s e dt op r e c o m p u t ea n ds t o r ea g g r e g a t e dd a t a s u c ha ss u m sa n da v e r a g e s ,f r o mw h i c ha n s w e r st oq u e r i e sa r em a d et h r o u g hs i m p l e s e a r c ho r s i m p l ec o m p u t a t i o n ,c o n s e q u e n t l ym a t e r i a l i z e dv i e w sc a l lr e m a r k a b l y s p e e d u pt h er e s p o n s et oq u e r i e sc o m m i t t e d h o w e v e r ,m a t e r i a l i z e dv i e w sn e e ds p a c e t os t o r ea n dn e e db e i n gm a i n t a i n e d a sar e s u l tm a t e r i a l i z i n ga l lv i e w si su n p r a c t i c a l t h e r em u s tb es o m es t r a t e g yt os e l e c to u tw h a ts h o u l db em a t e r i a l i z e d ,w h i c hi sc a l l e d m v s ( m a t e r i a l i z e dv i e w ss e l e c t i o n ) t h e r eh a v e b e e nal o to fs t u d i e sw h i c hf o c u so nm v s ,w h e r e a st h e yc a nn o tm e e t t h es t a b i l i t ya n dt h er o b u s tc h a r a c t e r ,w h i c hc o u n tag r e a td e a li nt h ep r a c t i c eo f i n d u s t r y t h ec u r r e n td a t aw a r e h o u s ep r o d u c t sc a nn o ts o u n d l ys u p p o r tm a t e r i a l i z e d v i e w sa u t o s e l e c t i o n :w h a tt h e ya d o p ta r es t a t i ca p p r o a c h e sw h i c hg r e a t l yd i s o b e y d y n a m i cn a t u r eo fo l a pa n dd s s h o w e v e r , t h ef u t u r eo fd a t aw a r e h o u s ed e m a n d s m v sm o r eo ni t se f f i c i e n c y ,t r a c t a b i l i t y ,v a l i d i t ya n da d a p t a b l e t h i sd i s s e r t a t i o np u t sf o r s v a r dad y n a m i cm a t e r i a l i z a t i o nv i e w sa p p r o a c hw h i c h i sb a s e do nv i e w sa c c e s s i n gf r e q u e n c i e s c o m p a r e dt ot r a d i t i o n a ls t a t i cm v s a p p r o a c h ,t h ed y n a m i ca p p r o a c hd e s c r i b e dh e r ei sm o r ea d a p t a b l e ,m o r ee f f i c i e n ta n d m o r et r a c t a b l e i ti sa b l et os o l v el a r g e s c a l em v s p r o b l e m t h ea p p r o a c hm a t e r i a l i z ev i e w si nd i f f e r e n t p h a s e sa n di n d i f f e r e n tw a y a c c o r d i n gt ot h e i rd i f f e r e n ta c c e s s i n gr e q u i r e m e n t s ,w h i c hr e d u c e st h ec o m p l e x i t yo f a w h o l em v sp r o b l e m ,m e a n w h i l e ,t h ee f f e c t i v i t yo fm a t e r i a l i z e d 、,i e w so fag i v e n 山东大学硕士学位论文 s t o r es p a c ei si m p r o v e d a ni m p r o v e dg r e e d ya l g o d t h r n ,w h i c hi sp o l y n o m i a lt i m e ,i s i - f i nt os e l e c ti n i t i a lm a t e r i a l i z e dv i e w sa u t o m a t i c a l l y t h er a n g eo ft h i ss u b - p r o b l e m c a nb ec o n t r o l l e dt oa c c e p t a b l er u n n i n gt i m e i nt h ea p p r o a c h ,t h ef r e q u e n c i e so f v i e w sb e i n ga c c e s s i n ga r et a k e ni n t oa c c o u n ta sa l li m p o r t a n tf a c t o r , w h i c hr e f l e c t s q u e r yt r e n do fu s e r s b a s e do nt h ev i e w sa c c e s s i n gf r e q u e n c y ,ab e n e f i tm o d e li s c o n s t r u c t e d ,t h r o u g hw h i c ht h ea d j u s t i n gs t a n d a r di sf i g u r e do u t a c c o r d i n gt o t h e s t a n d a r d ,m a t e r i a l i z e dv i e w ss e ti sa d j u s t e d t os u i tt h e c h a n g e dq u e r yt r e n d m a t e r i a l i z e dv i e w sa r em a d ead i f f e r e n c eb e t w e e np e r m a n e n to n e sa n dt e m p o r a r y o n e s ,o n l yt h e l a t t e rc a l lb ea 由u s t e dd u r i n gq u e r yp r o c e s s i n g ,w h i c ha v o i d st h e m a t e r i a l i z e dv i e w sw i t hs t e a d yu s e r sa c c e s s i n gf r e q u e n c i e sa r ed e l e t e d p ,l ( p r i o r w a r n i n gl i n e ) i si n t r o d u c e d t om a r kt h es t a t u so fo c c u p i e ds t o r es p a c eb y m a t e r i a l i z e dv i e w s i f t h eo c c u p i e ds p a c er e a c h e sp w l ,m e a s u r e sa r et a k e nt op r e p a r e f o rc o m i n ga d j u s t i n g ,w h i c hc a ni m p r o v et h ee f f i c i e n c yi nq u e r yp r o c e s s i n g t h e d i s s e r t a t i o np r o d u c e sap r i m a r ya l g o r i t h m ,w h i c hd y n a m i c a l l ym a t e r i a l i z ea n da d j u s t v i e w s i no r a c l ed a t aw a r e h o u s ee n v i r o n m e n t ,t h ea l g o r i t h mi st e s t e du s i n g1g bd a t a w h i c hg e n e r a t eb yt p c hb e n c h m a r k t h ee x p e r i m e n t ss h o wt h a td y n a m i c a l l y m a t e r i a l i z i n ga n da d j u s t i n ga l g o r i t h mo u t p e r f o r m ss t a t i cv i e ws e l e c t i o n t h i sa p p r o a c hg e t st h ea d a p t a b i l i t y ,h i 曲e f f i c i e n c ya n dt r a c t a b i l i t y ,b u ti fb e i n g i n t e g r a t e di n t od a t aw a r e h o u s e ,f u r t h e rw o r ks h o u l db cd o n eo nc o o p e r a t i o nw o r k w i t ho t h e r p a r t s k e y w o r d s :m a t e r i a l i z e dv i e w ss e l e c t i o n ( m v s ) ,d a t aw a r e h o u s e ,d y n a m i c , a d a p t a b l e 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名: :垄捆受陛 日期: 迎! 红蝴查9 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保 留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本 学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:荟辊导师签名:么缉日 期:j 翌坠蛐 山东大学硕士学位论文 1 1 数据仓库产生的背景 第一章引言 应用和技术的发展总是互相推动互相促进的。数据仓库跟之前的数据库一样 都是在应用的需求之下产生的。 在过去的二十年里,企业广泛地采用以关系数据库为主的传统数据库系统, 主要进行操作型的事务处理,以维持企业日常的运转,并在这个过程中积累了数 据。到了二十世纪末,信息技术得到了极大的发展,电子化、数字化在企业日常 运转中得到广泛应用。从而为企业提供了大量的数据,数据量加倍的时间越来越 短。一方面业务数据占用了大量的存储空间,增加了对数据进行管理和维护的难 度。但对于企业日常运转起到的作用却很少。另一方面,用户发现尽管数据很多, 但很难在原有的数据库中找到能够为他们的决策提供翔实和可靠依据的综合信 息。在经济全球化条件下的激烈的市场竞争中,企业用户为了保持在市场竞争中 的优势,迫切需要对其自身的经营管理情况、客户情况、市场情况以及相关行业 态势的情况进行分析。并据此做出有利的决策,这种决策需要通过对大量业务数 据进行分析刁能得到。针对这种情况,人们设想建立一种数据中心。把原有的多 个传统数据库中的数据抽取到数据中心,让数据中心专门用于数据分析,为企业 决策提供支持和服务。这样使得这些历史业务数据的存在也变得空前的有意义。 这就是数据仓库最初的思想。 二十世纪九十年代初,被誉为“数据仓库之父”的w - h i n m o n 在出版的 b u i l d i n gt h ed a t aw a r e h o u s e 中,给出了被认为迄今最具权威性的数据仓库 的定义:数据仓库是个面向主题的、集成的、相对稳定的、反映历史变化的、 用于支持管理决策的数据集合。尽管在概念提出之初,象其他有创造性的新技术 一样,受到了排斥和嘲讽,但人们发现,它不是一个纯粹的理论,而是一个活生 生的现实,它达到了前所未有的活跃和强大,切切实实带来了效率,发挥了作用 【5 】。数据仓库得到了业界的重视,迅速发展,成为上个世纪九十年代信息系统 体系结构新的技术焦点。 山东大学硕士学位论文 1 2 数据仓库研究应用状况 数据仓库概念的提出引起了学术界、工业界广泛的兴趣,很多研究中心如 s t a n f o r d 大学。i b ma l m a d e n 等研究中心纷纷立项从事数据仓库技术的研究。国 际上很多国际学术会议如超大型数据库( v l d b ) 、数据工程国际会议( d a t a e n g i n e e r i n g ) 等都出现了专门针对与研究数据仓库、联机分析处理、数据挖掘的 论文。各大商业公司如i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 、 s a s 等,纷纷推出自己的数据仓库解决方案。国内针对数据仓库的研究也迅速增 多了。知名高校大都有数据仓库方向的研究。随着国内企业应用数据仓库的增加, 涌现了一批数据仓库的专家、工程师。网络上也有了更多的数据仓库文章。并有 了数据仓库专家、爱好者们建立的进行数据仓库交流的论坛,其中的内容包含了 商业智能的方方面面,有大量的上至业界发展方向,下至底层技术的文档。这一 切体现出国内数据仓库研究已经掀起了热潮。 在国外,数据仓库的概念一经出现,就首先被应用于金融、电信、保险等主要传 统数据处理密集型行业。国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立。据权威机构 调查,全球5 0 0 强中的百分之八十五以上的企业已经建成或正在建立自己的数据 仓库系统。i d c 在1 9 9 6 年的一次对2 0 世纪9 0 年代前期进于亍的6 2 个数据仓库项 目的调查结果表明:进行数据仓库项目开发的公司平均在2 - 3 年的时间内获得了 平均为3 2 1 的投资回报率 9 。国外的数据仓库技术已经日臻成熟。 国内数据仓库应用比国外晚。且前在国内数据仓库的应用主要是金融、电 信、保险三大行业,它们都已经完成或者正在进行数据仓库系统的建设工作。在 国内,从数据的规模、i t 人员技术的积累、市场竞争的加剧等客观情况看,构 建分析型应用的时机和条件确实已经具备。不同的国家有不同的经济模式、企业 运作模式,所以我们不可能完全照搬国外的数据仓库应用模式。所以,在中国, 数据仓库这个行业刚刚发展了几年的时间,应该来说还不够成熟,处在发展阶段。 1 3 课题的产生背景 数据仓库中数据的大量积累、用户数量的增加、查询的复杂化,对数据仓库 性能提出了很高要求。虽然数据仓库没有0 l t p 那么苛刻的响应时间要求( 通常 少于3 秒) ,然而如果响应时间过长也是用户不能接收的。数据仓库性能的提高 2 生查查兰堡主堂垡笙苎 是一个重要的问题,随着数据仓库更加广泛地应用,它必将得到更多的关注。所 以,我们就选择了这个点,研究数据仓库中提高效率的关键技术之一:物化视图。 物化视图技术是数据仓库性能保障的关键技术之一,前人对此也做了大量的 研究,提出了众多的物化视图选择方法和方案。但从各大厂商提供的数据仓库产 品以及目前技术人员在物化视图方面的工程实践来看,物化视图应用方面仍然有 待于改进。因此t 本文综合地考察了现有的物化视图理论,探索更加具备可实现 性的物化视图方法。 1 4 本文的工作 本文的工作主要是围绕数据仓库中物化视图选择展开。主要研究内容如下: 1 研究了现有的m v s 理论,在此基础之上,结合物化视图选择的应用现状, 提出物化视图的发展方向。 2 :提出基于视图访问频率的动态物化视图方案。该方案根据视图不同的访 问需求特征,在不同阶段、以不同的方式物化视图,从而降低了整个m v s 问题的 o 复杂度,提高了给定存储空间的物化视图的有效性。 j 帮 3 系统调用多项式时间的改进贪,心算法自动选出初始物化视图,用来填充 部分物化视图存储空间。对本阶段可以通过参数k 进行控制。 4 方案认为各视图的访问频率反映了用户的查询趋势,因此构造了以视图 访问频率为主要因素的收益模型,并以此模型计算的收益值作为物化视图的调整 标准,对物化视图集动态调整,使物化视图集适应查询需求。 j 针对用户提交的查询通常会有常用查询及a d - h o c 查询两种,方案将物化 视图集分为永久物化视图集和临时物化视图集,分别对应两类查询。并且只有临 时物化视图集中的物化视图才可能被调整。从而提高了物化视图的有效性,而且 避免了具有较高稳定访问频率的物化视图被误删除。 6 本文提出了动态物化选择及调整的核,t l , 算法,采用t p c - h 基准数据模式、 用i g b 的数据构造和填充了o r a c l e 数据仓库,以此为基础进行实验查询和分析 对比,实验验证了收益模型和动态物化调整算法的有效性。 山东大学硕士学位论文 7 物化视图预警线( p w l ,p r i o rw a r n i n gl i n e ) 的引入,可以提前发现物 化视图存储空间即将被填满的状态,提前进行物化视图调整前的准备,从而提高 系统相应查询的效率。 1 5 本文的组织 第二章先介绍了数据仓库的定义特点、体系结构。概要地介绍了数据仓库中 用来提高效率的技术。 第三章研究了数据仓库物化视图的相关问题。探讨了m v s 问题的形式化描 述,以及m v s 的设计目标。通过分析现有物化视图选择研究以及当前物化视图应 用的现状,提出了物化视图选择的发展方向。 第四章重点介绍动态物化视图方案。首先分析了静态物化方案的缺点,针对 这些缺点,提出了基于用户访问频率的动态物化方案。详细介绍了方案的功能、 结构、流程以及物化调整算法,分析了动态物化方案的关键问题。通过实验验证 了动态物化调整算法的良好效果。 第五章对本文的工作进行了总结与展望。 山东大学硕士学位论文 第二章数据仓库及提高性能技术 2 1 数据仓库的定义和特点 象数据库技术的发展一样,数据仓库的产生和兴起是因为企业界的需要。在 企业之间竞争日趋激烈的社会中,企业领导者们迫切需要观察和分析它的各个部 门、各个事务系统的数据或者来自企业外部的以各种形式存放的资料,以对整个 企业的现状以及未来、甚至整个行业的现状和未来有很好的把握。 在过去的几十年时间里,大部分企业都建立了用来管理日常业务的计算机系 统,例如生产管理、销售管理、客户管理等。这些系统通常被称做事务管理系统。 由于这些系统通常是根据需求在不同的时期,采用不同的技术开发,所以它们中 的数据不能够通用。这些原有的业务系统很难进行综合的数据分析,给企业领导 者综合信息。数据仓库诞生正是为了解决这个问题。 根据数据仓库的权威定义,数据仓库具有面向主题的、集成的、稳定的、随 时问变化的、面向决策支持的特点。 面向主题的:数据仓库中的数据面向主题,与传统数据库面向应用相对应。 主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领 域。这与事务处理系统中的数据组织方式是不同的。在事务处理系统中,相同的 数据根据不同部门的需求有不同的组织方式。 集成的:所谓集成就是把来自不同数据源的数据整合,重新组织。数据库的 设计是面向应用的,不同的应用可能会选用不同数据库公司的数据库产品,不同 的业务系统也可能由不同的软件开发商提供,这使得各个业务数据库中的数据存 在不一致现象。而数据仓库在从各个业务数据库系统中抽取数据时,不论数据来 源于哪个数据库,都必须按照数据仓库中的统一定义进行重新组织。因此,数据 仓库中的信息不是从各个业务数据库中简单抽取出来的,而是经过系统地加工、 汇总和整理,保证了数据仓库中的企业的信息是一致的。 稳定的:数据仓库里存储的是大量的综合型历史数据,而不是日常事务处理 产生的数据,数据在数据仓库中往往存储很长时间,以满足决策支持系统的比较、 预测。数据经加工和集成进入数据仓库后是极少或根本不修改的,数据仓库只做 定期的刷新。 山东大学硕士学位论文 时间相关的:数据仓库存储数据以支持综合数据分析以及趋势预测。所以它 存储的是不同时间的历史数据,而且随着数据仓库的刷新和数据的追加,其内容 也是变化的。所以必须包含时间项来表明数据的历史阶段。而且数据分析通常都 会关注时间项,考虑某个时间点或某个时间段的情况,通过这些信息可以对企业 的发展历程和未来趋势作出定量分析和预测。 面向决策支持的:传统数据库主要是为了支持事务处理,而数据仓库的目的 是为了支持数据分析。这也是二者所有区别的起源。数据仓库是面向决策层的, 利用本身强大的数据存储和数据分析的功能,为决策层宏观上制定企业发展方向 等提供信息。 数据仓库的概念定义是非常重要的,它规定了数据仓库所具有的几个基本特 性,这几个特征不仅是数据仓库的设计指导思想,也是对数据仓库设计结果进行 检验的重要依据。 另外再看一下数据仓库从功能上的定义:数据仓库是一种信息环境,它能够 提供对企业综合而且完整的概括,使决策所需要的当前数据和历史数据都方便易 得,无需妨碍操作性系统,也能使支持决策的处理成为可能,使企业的信息保持 一致,提供了一个灵活的、交互的战略信息来源 8 。 由上面定义和特点可以看出,数据仓库独立于业务数据库系统,但又同业务 数据库系统息息相关,数据仓库中的数据是从各个业务数据库中抽取出来的,是 对数据的“再组织”,目的是支持决策分析。 2 2 数据仓库的体系结构 首先要说明本文中所讲的“数据仓库系统”即是指由数据仓库、o l a p 、数据 挖掘和决策分析支持所构成的数据仓库的应用系统,而不单单指数据仓库本身。 数据仓库是由硬件和软件组成的,它与传统数据库不同,数据仓库具有工程 性。一个典型的数据仓库的组成如图所示: 山东大学硕士学位论文 ;数据准备“ 图2 1 数据仓库的体系结构 左边是数据源部分,接着数据准备部分:中间是数据存储部分,在这里进行 数据的存储和管理;右边是信息表现部分,通过这一部分让人们使用数据仓库中 的信息。 2 2 1 数据源 数据源主要分为四个类别: 生产数据,主要是来自于企业的操作型系统。生产数据通常具有多样性,需 要将它们转换、整合成数据仓库中的有用数据。 内部数据,是企业内部使用的文档资料,例如以文档形式保存的客户信息。 内部数据增加了数据转换和整合的复杂性。 存档数据,操作型系统定期的存档的历史数据。 外部数据,是来自于企业外部的信息。它所起到的作用是内部数据无法代替 的。 2 2 2 数据准备部分 数据准备部分是为了将从操作型系统及其他数据源来的数据进行进入数据 仓库的准备工作。数据准备过程好坏决定了数据仓库中数据的质量。它主要由三 个主要的工作程序组成:数据抽取( e x t r a c t ) 、数据转换( t r a n s f o r m ) 、数据 一l 圈习习 乏 山东大学硕士学位论文 加载( l o a d ) 。对应的产品工具为e t l 数据抽取工具。但由于多数据源数据格式 的复杂性,往往需要自己开发程序解决。 2 2 3 数据存储部分 数据存储部分的功能是对数据进行存储和管理。是否能以恰当的方式组织管 理数据,能否为前端提供灵活、快速、有效的响应,是整个数据仓库系统成败的 关键。数据仓库中数据的存储和管理仍然依靠数据库技术来实现,但组织管理方 式有别于传统数据库的特性。 2 2 4 信息表现部分 信息表现是数据仓库的门面,用户通过信息表现部分来使用数据仓库系统。 它包含了多种表现信息的方式:特别报表、复杂查询、多维分析、统计分析和数 据挖掘等。信息表现要以直观、可视化的方式将信息展现给用户,使用户能够容 易理解其含义。 2 3 提高性能的技术 提高数据仓库的性能是数据仓库的物理设计目标之一。数据仓库中提高效率 的方法有多种,它们通常是结合使用的。 2 3 1 优化存储 物理层面的数据优化跟数据仓库的性能有很大的关系。所以在进行物理数据 存储时,一定要采用优化技术。通常遵循以下原则: a ) 设定合适的块大小。在数据仓库中经常会处理大量的行,所以块的大小 要比传统数掘库的大。 b ) 设置合适的块使用参数。在数据仓库中,因为有很少的更新操作,所以 块的空闲率可以设置得越小越好。块的使用率可以设置的相对比较大。 c ) 为了减少行销,为数据仓库对象分配较大的初始扩展区。 d ) 将文件分成多个部分存储在多个物理设备上,这样可以使i o 操作并发 进行,提高访问性能。 e ) 使用r a i d 技术,提高性能与容错能力。 山东大学硕士学位论文 2 3 2 物化视图 物化视图技术是数据仓库中常用的提高查询性能的重要的技术之。 物化视图,也称为实化视图,就是一些经过简单的数据预处理,譬如,联 接、投影、分组等,生成的存储在数据仓库中的实实在在的表。也就是说,物化 视图是提前对数据仓库中的数据进行连接、计算,把可能用到的查询结果先保存 起来。通过这样的预计算,对数据仓库的大部分查询就可以直接通过对物化视图 的查询或简单计算得到结果。而且在物化视图上可以进一步使用索引等提高查询 效率的手段,从而可以大大降低数据仓库的查询响应时间。 由于数据仓库查询要从海量数据里面得到精简的汇总结果,物化视图对于提 高数据仓库的性能非常重要,所以在数据仓库设计过程中,物化视图不是可有可 无的补充,它是数据仓库中的物理结构中的一部分。 关于物化视图问题大致可以分为三个子问题:物化视图选择、物化视图维护 和用物化视图进行查询优化。这三个子问题当中还包括一些具体的相关问题,如 视图大小评估 3 0 ,3 2 1 、计算视图的依赖性 2 9 】、视图存储的有效结构 2 7 ,3 1 。 物化视图维护通常指的是物化视图的数据一致性维护。当底层数据变化了, 数据仓库中的基表以及物化视图也要进行更新,保证能为查询提供最新信息。常 用的物化视图维护策略是增量更新,是将源数据改变的部分( ”d e l t a ”) 按照物化 视图的定义重新进行计算,更新到物化视图 3 3 。但有的情况下也采用完全更新, 完全更新是将整个物化视图重新计算。在物化视图维护方面还有自维护技术的研 究。这是通过添加辅助视图的方式来进行物化视图的维护。在这种维护方式过程 中,不需要访问数据源中的基关系 3 4 1 。具体的数据仓库工程可以跟据数据源的 类型、用来计算物化视图的聚集函数来选择更新策略。 查询优化即考虑如何将提交的查询转换为对物化视图的查询,并尽可能的提 高效率。 关于物化视图选择,在第三章将进行详细的介绍。 2 3 3 索引技术 索引技术是有效的提高检索性能的机制,它是数据仓库中又一提高查询效率 的重要技术。由于数据仓库的特点:数据是稳定的,也就是说数据仓库很少有更 山东大学硕士学位论文 新和删除的操作,所以数据仓库非常适合建立索引。可靠的索引策略会带来巨大 的收益,必须花费足够的时间分析每个表,选择合适的索引策略。常用到的索引 有b t r e e 索引和位图索引。b t r e e 索引适合用于可选择性比较好的列。而位图 索引适合于低可选择性的数据。有的r d b m s 还提供了簇索引,这种机制将数据 段和索引段结合起来,一次读操作既得到索引段也得到数据段,因而能极大地提 高效率。 索引的建立通常遵循以下原则: a ) 要考虑索引对加载效率的影响。可以在加载时删掉索引,待加载完成再 建立索引。 b ) 对大表的索引。大表不宜建立多个索引。 c ) 必要的时候,将少量经常需要访问的数据都包含在索引中。 d ) 经常用作查询的列作为索引列。 e ) 分阶段建立索引。通过监视系统性能确定要建立索引的表跟列。 在事实表上建立索引遵循的原则有: a ) 在全部的主键要建立b t r e e 索引。 b ) 建立组合索引。在组合键中,经常用于查询的列作为组合中级别高的键。 c ) 包括指标的列也有建立索引的可能性。 d ) 位图索引不适用于事实表,因为事实表中基本没有低选择性的列。 在维度表上建立索引遵循的原则有: a ) 单一主键上建立唯一的b t r e e 索引。 b ) 在查询经常用到的列上建立位图索引。 c ) 在经常被一起访问到的列上建立索引,维度表中层次比较高的列在多列 索引中有较高位置。 d ) 在经常用于连接的列上建立单独的索引。 2 3 4 数据分区 数据分区是为了将数据仓库中的大表和它的索引分成可管理的几个部分。从 而使得它们的维护和操作简单迅速。分区包括水平和垂直分区。在数据仓库中经 常做基于日期的水平分区。在建立适当的分区之后,查询只需访问必要的分区而 山东大学硕士学位论文 不是整个表:对分区可以进行并行查询和维护:更加易于加载数据及管理。分区 技术是数据仓库中有效的存储管理技术。 2 3 5 并行处理 并行技术是将一个复杂处理的过程分成小的部分,然后并行执行这些部分从 而提高性能。并行处理技术和数据分区联合使用,它们一起提供了提高性能的巨 大潜力。 2 4 本章小结 本章首先介绍了数据仓库的定义特点、体系结构。针对于大量的数据对数据 仓库性能的挑战,讨论了包括物化视图在内的,用来提高数据仓库效率的技术。 山东大学硕士学位论文 第三章数据仓库中物化视图选择的问题 数据仓库中的物化视图选择问题( 州s ) 已被证明是一个n p h a r d 问题 2 2 , 其算法的复杂度会随着维数量的增加指数上升。前人对此提出了很多解决方案及 算法。然而已有物化视图选择的研究并没有为工程的实际应用提供很大帮助,现 有研究跟工业中所要求的稳定性、健壮性有一定的距离,因而数据仓库的商业产 品对物化视图自动选择支持不够好。基于此,本文对物化视图选择问题进行研究, 并考察了现有的数据仓库物化视图选择理论,探寻更具可实现性的物化视图选择 方案。 3 1 物化视图选择问题 在数据仓库的物理设计过程中,选择要物化的视图是很重要的。设计者希望 获得好的查询性能,同时获得低的维护代价,然而它们是矛盾的。物化视图的选 择问题要尽可能地考虑各种对整个系统有利的、不利的因素,找出最好的符合物 化视图设计目标的方案。 3 1 1 考虑的因素 很显然,物化视图的数量越多,使用物化视图能够回答的查询就越多,从而 越有利于缩短系统响应查询的时间,提高效率。然而物化视图选择还要考虑很多 负面因素。 首先物化视图需要占用存储空间,物化视图技术属于一种空间换时间的技 术。物化很多的视图,对于存储空间的要求可能是难以接受的。对于有n 个维的 数据立方体,假设每个维只有一个级,其所有的视图个数为2 n ,全部物化的大 小可能为所有基表的几倍,甚至几十倍。 其次,当物化视图的源数据发生变化时,建立在其上的物化视图需要维护, 以保持数据的一致性。对于数据量巨大的数据仓库来说,维护物化视图是不小的 开销。在存储设备日益降价的时代,维护代价更是物化选择要考虑的首要不利因 素。 山东大学硕士学位论文 基于以上两点,物化视图并不是越多越好,物化所有的视图更是不可行的。 不但会占用大量的存储空间,而且会有很大的维护开销。但是,如果不采用任何 物化措施,那么查询响应时间会很长,也不可取。通常的做法是通过一定的算法, 选择出部分的视图进行物化,来寻求一种效率跟开销之间的平衡。在可以接受的 开销内,达到最好的性能。 如图一所示,为物化视图数目与使用磁盘空间、视图维护以及查询响应时间的关 系。 n l i n o n 帅如口o f 、i c w s2 n u 。“p 1 5 r 肆h th 印:r u 。i 华t t 弦 ” 图3 - 1 、物化视图数目与磁盘空间、视图维护以及查询响应时间的关系幽 在物化选择中通常考虑的因素有用户访问频率、基关系的更新频率、查询代 价、视图维护代价、系统的存储空间限制。通常考虑被物化的视图是那些具有很 高的用户访问频率的视图或被普遍用来计算其他视图的视图。 3 1 2 基于数据立方的物化视图选择 数据仓库通常是由多个面向不同主题的数据立方构成的,大部分查询都会 针对某一主题来做查询,只访问一个数据立方,所以我们现在考虑数据立方的视 图物化问题。 对于一个大规模的数据立方,预计算整个数据立方是不可行的,因为计算 整个数据立方不但耗费时间相当长,而且占用的存储空间也是非常大的。所以也 是在特定的约束下,选择数据立方部分最有价值的视图进行物化, 尽可能地缩 短在给定数据立方上的查询的响应时间。 山东大学硕士学位论文 数据立方体是描述大量聚集视图的有效方法。在数据立方体中,视图属性可 以划分为两类,一类是维属性,另一类是度量属性。维属性是视图的分组属性, 度量属性的值是聚集函数的运算结果。 这里我们以t p c h 提供的典型的商业数据模式为例 1 5 1 , 模式中有三个 维:p a r t ,s u p p l i e r ,c u s t o m e r 。一个度量:s a l e s 。他们的关系是:s u p p l i e r 以价 格s a l e s 将p a r t 提供给c u s t o m e r 。数据立方体( p a r t ,s u p p l i e r ,c u s t o m e r ) 如图 3 2 所示。 按照分组属性的不同,该数据集上共有2 3 = 8 种组合,分别是( p a r t , s u p p l i e r ,c u s t o m e r ) ,( p a r t s u p p l i e r ) ,( p a r t ,c u s t o m e r ) ,( s u p p l i e r , c u s t o m e r ) ,( p a r t ) ,( s u p p l i e r ) ,c u s t o m e r ) ,( n o n e ) 。每一种组合都 对应着一个不同的s q l 查询。例如( p a r t ,c u s t o m e r ) 的s a l e s 可以通过以下s q l 查询输出: s e l e c tp a r t ,c u s t o m e r ,s u m ( s a l e s ) f r o mc u b e g r o u pb y p a r t ,c u s t o m e r 对数据立方的每一个查询,都对应于一个视图。选择数据立方的部分进行 物化相当于选择相应的视图进行物化。 这8 个组合对应了8 个可能的视图查询: 1 p a r t ,s u p p l i e r ,c u s t o m e r ( 6 0 0 万行) 2 p a r t ,c u s t o m e r ( 6 0 0 万行) 3 p a r t ,s u p p l i e r ( 8 0 万行) 4 s u p p l i e r ,c u s t o m e r ( 6 0 0 万行) 5 p a r t ( 2 0 万行) 6 s u p p l i e r ( 2 万行) 7 ,c u s t o m e r ( 1 0 万行) 8 n o n e 山东大学硕士

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论