(管理科学与工程专业论文)olap系统的查询性能研究.pdf_第1页
(管理科学与工程专业论文)olap系统的查询性能研究.pdf_第2页
(管理科学与工程专业论文)olap系统的查询性能研究.pdf_第3页
(管理科学与工程专业论文)olap系统的查询性能研究.pdf_第4页
(管理科学与工程专业论文)olap系统的查询性能研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(管理科学与工程专业论文)olap系统的查询性能研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库和联机分析处理( o l a p ) 技术已经广泛地应用于各行各业中,很好 地满足了领导层的决策需要。如何提高数据仓库环境下的查询效率是当前数据仓 库研究的一个核心问题。利用索引技术是提高查询性能重要的方法之一。目前, 在对利用索引提高查询性能的研究中,没有对影响查询性能的因素进行全面考 察,因此提出的索引建立策略有很大的盲目性。 本文对影响数据仓库查询性能的因素进行了较全面的分析与研究,将因素归 结为两类,一类因素是由数据的组织特征和用户的查询需求特征决定的,另一类 因素是索引类型。不同的数据组织特征和用户查询需求以及不同的索引策略决定 了查询性能优劣,合理的索引设计必须要建立在对各种查询的分析和预测以及数 据组织的特点上。本文通过实验分析和研究,综合考虑在这两类因素影响下获得 最佳查询性能的索引策略,通过在o r a c l e9 i 环境下对两类因素组合进行的查询 性能实验,探讨了数据组织特征以及用户的查询需求和索引类型选择之间的关 系。实验结果表明位图索引很适合建立在事实表外键上以及具有低基数度的维度 表非主属性列上,b 树索引适合建立在维度表主键上。对于查询中经常出现的维 度表非主属性列,在事实表上建立基于其的位图连接索引是个很好的选择。此外, 对事实表越大、查询越复杂的数据仓库环境而言,位图索引改善查询性能的作用 越显著。根据实验结果提出了一套数据仓库中的索引设计策略,并将此策略应用 到行政许可审批0 l a p 系统的索引设计中。实践证明,合理的索引策略能有效提高 数据仓库系统的查询效率,从而使系统的及时响应性得到了明显的改进和提高。 本文提出的数据仓库索引设计策略具有较普遍的指导意义,对其它0 l a p 系统查询 性能的改善起到了很好的借鉴作用。 关键词:数据仓库;联机分析处理;索引技术;查询性能;行政许可审批 a b s t r a c t n o w a d a y s d a t aw a r e h o u s ea n do l a pt e c h n i q u eh a v eb e e nw i d e l yu s e dm v a r i o u sb u s i n e s se n t e r p r i s e s ;i tm e e t st h er e q u i r e m e n to fd e c i s i o no fi c a d e r sw e l l h o wt oi m p r o v et h ei n q u i r ye f f i c i e n c yi nd a t aw a r e h o u s ee n v i r o n m e n ti so n eo ft h e c o r ep r o b l e m so fc u r r e n ts t u d i e so fd a t aw a r e h o u s e m a k i n gu s eo ft h ei n d e x t e c h n o l o g yi so n eo f t h ei m p o r t a n tm e t h o d st oi m p r o v eq u e r yp e r f o r m a n c e a tp r e s e n t , i nt h er e s e a r c ho fm a k eu s eo fi n d e x ,f a c t o r sw h i c ha f f e c tq u e r yp e r f o r m a n c ea r en o t b ee x a m i n e dr o u n d l y , s ot h ei n d e xb u i l dt a c t i c sh a v ev e r yb i gb l i n d n e s s f a c t o r st h a ta f f e c tq u e r yp e r f o r m a n c ea r ea n a l y z e dr o u n d l yi nt h i sp a p e r 弧e f a c t o r sa r ed i v i d e di n t ot w ok i n d s :o n ek i n do ff a c t o r si sd e c i d e db yd a t ao r g a n i z a t i o n c h a r a c t e r i s t i ca n du s e r s i n q u 埘n e e d s ,t h eo t h e rk i n do ff a c t o r si st h et y p eo fi n d e x d i f f e r e n td a t ao r g a n i z a t i o nc h a r a c t e r i s t i ca n du s e r s i n q u i r yn e e d sa n dd i f f e r e n ti n d e x t a c t i c sd e t e r m i n e sa d v a n t a g ea n dd i s a d v a n t a g eo fp e r f o r m a n c e 珏er a t i o n a li n d e x d e s i g nm u s tb u i l d o nt h e a n a l y s i sa n d f o r e c a s to fv a r i o u s i n q u i r i e sa n dt h e c o n s i d e r a t i o no fd a t ao r g a n i z a t i o nc h a r a c t e r i s t i c t h i sp a p e rc o n s i d e r st h eb e s ti n d e x t a c t i c st h a tu n d e rt h ee f f e c to ft w ok i n d so ff a c t o r st h r o u g he x p e r i m e n ta n a l y s i sa n d r e s e a r c h v i at h eq u e r ye x p e r i m e n to fs o r t sf a c t o r su n d e ro r a c l e9 ie n v i r o n m e n t ,t h e r e l a t i o n s h i pb e t w e e nd a t ao r g a n i z a t i o nc h a r a c t e r i s t i ca n du s e r s i n q u i r yn e e d sa n dt h e c h o i c eo fi n d e xi sd i s c u s s e d 强er e s u l ts h o w sb i t m a pi n d e xi s f i tt ob u i l d0 nt h e f o r e i g nk e yo ff a c tt a b l ea n dn o n - p r i m a r ya t t r i b u t ec o l u m n st h a th a v el o wc r e a t i v i t yo f d i m e n s i o nt a b i e s bt r e ei n d e xi s f i tt ob u i 磁i nt l l ep r i m a r yk e yo fd i m e n s i o nt a b l e g i v e nt h ec o l u m nt h a to f t e na p p e a r si nq u e r y , i ti sag o o dc h o i c et ob u i l db i t m a p , j o i n i n d e xo ni t b e s i d e s ,t h eb i g g e rt h ef a c tt a b l e ,t h em o r ec o m p l i c a t e dq u e r y , t h em o r e n o t a b l ee f f e c to fi m p r o v e sq u e r yp e r f o r m a n c eb yb i t m a p i n d e x a c c o r d i n gt ot h e r e s u l to fe x p e r i m e n t , as e to fi n d e xd e s i g nt a c t i c s i nd a t aw a r e h o u s ei sp r e s e n t e d 。 f u r t h e r m o r e ,t h ei n d e xd e s i g nt a c t i c si sa p p l i e dt ot h ei n d e xd e s i g no fa d m i n i s t r a t i o n p e r m i ta p p r o v a lo l a ps y s t e m p r a c t i c eh a st e s t i f i e d ,t h ep r o p e ri n d e xh a si m p r o v e d s y s t e m a t i ci n q u i r ye f f i c i e n c y i tc a ni m p r o v et i m e l yr e s p o n s i b i l i t yo ft h es y s t e m t h e i n d e xd e s i g nt a c t i c so fd a t aw a r e h o u s et h a tb ep r e s e n t e di nt h ep a p e rh a v em o r e c o m m o ng u i d i n gs i g n i f i c a n c e 码 si sag o o du s ef o rr e f e r e n c eo f t h ei m p r o v e m e n to f q u e r yp e r f o r m a n c eo fo t h e ro l a ps y s t e m s k e y w o r d s :d a t aw a r e h o u s e ;o l a p ;i n d e x ;q u e r yp e r f o r m a n c e ;a d m i n i s t r a t i o n p e r m i t a p p r o v a l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得云洼王业盔堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 学位论文作者签名: 璁7 莹签字日期:妒声瑚f 日 、 学位论文版权使用授权书 本学位论文作者完全了解云洼王些太堂有关保留、使用学位论文的规定。 特授权丞洼王些太堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:孑唆往 签字日期: 唧年) ,月1 日 导师签名: 签字日期: ,月卯日 彤1 年 孔 1 学位论文的主要创新点 一、对影响数据仓库查询性能的因素进行了较全面的分析与研究 实验分析了影响数据仓库查询性能的因素,综合考虑索引的选择 和用户的查询特征以及数据组织方式对数据仓库查询性能的影响。克 服了以往建立索引的盲目性,研究结果对在数据仓库环境下有效建立 索引有积极的指导作用。 二、提出数据仓库中建立索引的策略 提出了一套数据仓库中的建立索引策略,该策略综合考虑了数据 仓库环境中的查询特征和数据组织特征,给出了在各种情况下事实表 和维度表的索引建立方案。对o l a p 系统查询性能的提高起到了很好 的借鉴作用。 第一章绪论 1 1 课题研究背景和意义 第一章绪论 1 9 9 3 年,关系型数据库之父e f c o d d 提出了联机分析处理系统( o nl i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) 。当时,e f c o d d 认为传统的o l t p 已经无法 有效地支持数据的分析和处理,不能满足终端用户对数据库查询分析的需要,因 此他提出利用数据仓库技术对0 l t p 数据库中的数据进行再加工,形成一个综合 的、面向分析的环境,从而支持决策者利用o l a p 技术从多个角度、多个侧面对 数据进行更深入的分析,帮助其探究数据间的联系,掌握其中的规律【l 】。 数据仓库中的查询经常需要访问上百万条记录,执行多表连接和聚集计算, 因此查询响应时间对整个系统性能的改善尤为重要。另外,由于数据仓库中的数 据一般只是被追加而不被删除,因此,随着时间的推移,数据仓库中的数据会迅 速增长,而且作为决策分析的系统,数据仓库中的数据不仅包含了详细数据、综 合数据,有的还包括了用于支持预测性的数据挖掘的外部数据。飞速膨胀的数据 量对数据仓库的性能提出了巨大挑战,而o l a p 作为数据仓库的主要应用之一, 对查询性能有着非常高的要求【2 】。因此,如何提高数据仓库环境下的查询效率成 为当前数据仓库研究的核心问题之一【3 】。本论文就是在这种背景下,主要就数据 仓库的查询性能,尤其是利用索引技术提高查询效率这一问题进行了一些探讨和 研究实践。 关于利用索引技术提高数据仓库的查询性能问题,前人已经总结出了一些索 引的建立准则,但在实际运用中,使用这些准则还远远不够,还需要考虑更多影 响查询性能的因素,并分析因素之间的关系。为此,本课题分析研究了影响查询 性能的因素,影响查询性能的因素可以归结为两方面,一方面是由系统的数据组 织特点和用户的查询需求决定的,属于不可抗因素,例如,事实表的大小、用户 查询的复杂程度等。另一方面因素是索引的类型,虽然利用索引可以改善查询性 能,但在不同的数据组织特点和不同的查询复杂度下,索引对其改善查询性能的 效果是不同的。因此我们要将索引类型和数据的组织特点以及用户的查询特点结 合起来考虑,探讨在各种情况下建立何种索引对查询改善最有效果。课题的实验 数据来源于作者参与开发的天津市质量技术监督局行政许可审批o l a p 系统,作 者通过实验研究了在不同事实表大小、不同查询复杂度和不同基数度下建立各种 索引对查询性能的影响,根据实验结果提出了一套数据仓库中建立索引的策略, 结合行政许可审批的数据特点,将此策略运用到行政许可审批o l a p 系统的索引 第一章绪论 建立中。实践证明,建立恰当的索引提高了系统的查询效率,使得系统的及时响 应性得到了改进和提高。这对其他o l a p 系统提高查询性能也是一个很好的借 鉴。 1 2 课题的主要研究内容及技术路线 1 2 1 课题的主要研究内容 作者在攻读硕士学位期间参与了天津市质量技术监督局行政许可审批 o l a p 系统的研究与开发工作,并主要承担了对数据仓库查询性能的研究任务。 数据仓库查询性能的提高有多方面的策略,撇开影响查询性能的硬件方面因素、 访问数据库的软件因素等,作者主要研究索引对查询性能的影响。 作者考虑了影响数据仓库查询性能的因素,将因素分为两类:一类因素是由 数据的组织特点和用户的查询需求决定的,例如,系统中事实表的大小、不同基 数度的数据列和用户查询的复杂程度,这些因素都是不可更改的因素。另一类因 素是索引的类型,虽然有关数据库的书籍几乎都说索引可以提高查询性能,但是 索引提高查询性能的前提是索引要建立在适当的环境中【4 】,在不同的查询需求、 不同的数据组织特点下建立不同的索引对查询性能会有不同的效果。因此,本文 主要研究在不同的查询需求以及数据组织特点下,应该建立何种索引来提高查询 性能。 1 2 2 课题的研究思路 在研究数据仓库中索引对查询性能的影响时,研究思路如图卜l 所示: 第一章绪论 分析对查询性能有影响的因素 数据组织特点和查询特点 设计实验方案 索引类型 在o r a c l e 9 i 中进行实验 针对结果提出运用索引提 高查询性能的策略 应用到行政许可审批 o l a p 系统的索引设计中 图卜1课题的研究思路 作者首先从影响查询性能的因素着手,分析研究了影响查询性能的两大类因 素,一部分因素是由系统本身的数据组织特点和用户的查询需求决定的,例如, 系统中事实表的大小、不同基数度的数据列和用户查询的复杂程度,这些因素都 是不可更改的因素。另一部分因素是索引的类型,不同的索引在不同因素下对查 询性能会有不同的效果,即查询需求和数据的组织特点影响到了索引的选择,作 者将这两类因素结合起来考虑,在o r a c l e9 i 环境下进行了实验,分别讨论了索 引类型对查询性能的影响和事实表大小之间的关系、索引类型对查询性能的影响 和查询复杂之间的关系、索引在不同基数度数据列下对查询性能的影响以及建立 基于维度表非主键属性列上的位图连接索引对查询性能的影响,根据实验结果提 出了一套在数据仓库环境中建立索引的方案,并在行政许可审批o l a p 系统中 进行了应用。 第二章数据仓库理论和o l a p 技术综述 第二章数据仓库理论和o l a p 技术综述 2 1 数据仓库的基本理论 2 1 1 数据仓库的产生背景和应用现状 在数据库应用的早期,计算机系统所处理的是手工业务自动化的问题,属于 联机事务处理系统( 0 乙1 1 p ) ,然而随着市场竞争的加剧,用户发现单靠拥有联机 事务处理已经不足以获得市场竞争的优势,他们需要能支持决策的信息去帮助管 理决策。这种决策需要对大量的业务数据包括历史数据进行分析,是一种基于业 务数据的决策分析,称之联机分析处理( o l a p ) 【5 】。人们自然而然地想到将传 统的数据库应用到这种分析中来,然而,在实际操作中却发现,传统的数据库并 不能很好地满足决策分析的要求。因为传统的数据库技术面向以日常事务处理为 主的应用,是一种操作型处理,而事务处理和分析处理具有极不相同的性质,两 者对数据和系统性能都有着不同的要求。 1 系统响应时间的问题 联机事务处理系统强调的是数据更新处理性能,用户对系统和数据库的要求 是数据存取频率要高,响应时间要快。但在联机分析处理中,用户的要求却发生 了很大的变化。有的决策问题非常复杂,经常要涉及到数据库2 5 以上的行,导 致系统长时间的运行。因此,同一个数据库在理论上很难做到两全。 2 对策数据需求的问题 在进行决策分析时,企业需要有全面的数据,这些数据不仅包含企业内部各 部门的数据,而且还包含了企业外部的数据。但在传统的o l t p 系统中,只存储 了本部门的事务处理数据,这样,在决策分析时,就会影响到决策的正确和全面, 但如果将内外部数据全交给决策分析程序处理,就会大大增加决策分析系统的负 担,增加系统的响应时间,降低系统的运行效率。 3 对决策数据操作的问题 传统的o l t p 系统虽然也可以提供一些查询分析的功能,但是一般只是以标 准的固定报表方式为用户提供信息,缺乏灵活性,使用户对数据的访问受到很大 限制。决策分析人员需要能对数据进行各种灵活的操作,希望数据操作的结果能 以多种方式展现出来,传统的o l t p 系统很难满足这种需求。 正是由于系统响应、决策数据的需求和操作等问题的影响,使企业无法利用 现有的0 l t p 系统去解决决策分析的问题。为此,人们设想专门为业务的统计分析 第二章数据仓库理论和o l a p 技术综述 建立一个数据中心,它的数据来自联机事务处理系统、异构的外部数据源和脱机 的历史业务数据,可以不受传统事务处理的约束,能够高效率处理决策分析问题, 这个数据中心就叫做数据仓库 0 3 。这个概念在9 0 年代初被提出来。数据仓库将决 策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转 换成集成、统一的信息提供给决策者,从而实现有效的辅助决策。如果说传统的 数据系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话, 那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据, 经过加工转换成有规律信息之后,再供管理人员进行分析使用。目前,数据仓库 技术己在国内证券、银行、税务、保险、商业、保健等领域进行了应用,取得了 明显的经济效益,在市场竞争中显示了强劲的活力。数据仓库技术正受到企业界、 学术界和政府部门的广泛关注,有着广泛的应用前景。 2 1 2 数据仓库及其特点 自从数据仓库概念出现以来,对于什么是数据仓库,不同的学者从不同的角 度为数据仓库下了不同的定义。其中w h i r 皿o n 在1 9 9 3 年所写的论著 b u i l d i n g t h ed a t aw a r e h o u s e 一书中首先系统地阐述了关于数据仓库的思想、理论,对 数据仓库的定义最具权威性。他将数据仓库定义为;“一个面向主题的、集成的、 随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”【7 】。 从w h i n m o n 关于数据仓库的定义中可以发现,数据仓库具有这样一些重 要的特性:面向主题性、数据集成性、数据的时变性和数据的非易失性罔。 1 面向主题性 与传统数据库面向事务处理应用进行数据组织的特点相对应,数据仓库中的 数据是面向主题进行组织的,面向主题性表示了数据仓库中数据组织的基本原 则。主题是一个抽象的概念,是要在较高层次上将企业信息系统中的数据进行综 合、分类并加以分析利用。比如在行政许可审批应用中,领导者最为关心的就是 办理事项,很多决策问题都是围绕着办理事项来进行的,因此办理事项就是一个 主题。在主题的划分中,必须保证主题的独立性。即每个主题都要有独立的内涵 和界线。另外,还要保证主题的完备性,即应该保证在对主题进行分析时所需要 的数据都可以在此主题内找到。 2 数据集成性 数据仓库中存储的数据是从原来分散的各个子系统中提取出来的,但这些系 统的数据库之间是相互独立,并且往往是异构的,数据也有可能存在不一致和重 复的地方。另外,原有数据库系统记录的是每一项业务处理的流水帐,这些数据 不适合于分析处理。因此,在数据进入数据仓库之前,必须要对它们进行一系列 第二章数据仓库理论和o l a p 技术综述 的数据预处理,即数据的抽取、筛选、清理、综合等工作,以保证数据仓库内的 信息是关于整个企业的一致的全局信息,这样,才能依靠准确、全面的数据指导 企业做出科学的决策。 3 数据的时变性 保存在数据仓库中的数据是长时间以来各种业务数据的集合,是经过抽取后 的面向主题的数据。尽管这些数据并不像业务数据库那样要反映业务处理的实时 状况,但是数据也不能长期不变,否则如果依据l o 年前的数据进行决策分析的话, 那决策的后果将是十分可怕的。因此,这些数据要随时间的变化而定期更新,隔 一段固定时间间隔后,将那些变化的数据追加到数据仓库中去。 数据仓库中数据的时变性,不仅反映在数据的追加方面,还反映在数据的删 除上。数据仓库中数据的存储期限是有限的,当数据超过数据仓库的存储期限或 对分析无用时,就将这些数据从数据仓库中删除。 此外,数据仓库数据的时变性还表现在概括数据的变化上。数据仓库中包含 有大量的综合数据,这些综合数据中很多数据都与时间有关,这些数据要随时间 的变化不断地进行重新综合。 4 数据的非易失性 数据的非易失性是指数据仓库中的数据不进行更新处理,由于数据仓库的数 据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,因此,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,不像业务系统中数据库中 的数据那样,要经常进行修改、添加和删除,通常只需要定期的加载、刷新。数 据的非易失性可以使不同的用户在不同时间查询分析相同问题时得到一致的结 果。 2 1 3 数据仓库中数据的存储方式 数据仓库中的数据在存储方式上,既可以选择采用多维数据库来存储,也可 以选择采用关系数据库存储。 1 多维数据库存储方式 多维数据库以多维的方式存储、表现数据,可以直观地表达出现实世界中的 多对多关系。例如,要在系统中存在两类行政许可审批事项( 认证认可和计量) 以及不同承办机构( 和平区县局、河东区县局、河西区县局) 的办理事项情况, 如果用关系数据库存储这些数据,如表2 1 所示: 第二章数据仓库理论和o l a p 技术综述 表2 一l 关系数据库存储数据的方式 行政许可审批事项类别 承办机构准予许可数 认证认可和平区县局 9 8 2 认证认可河东区县局 9 1 2 认证认可河西区县局 8 9 4 计量和平区县局 7 2 1 计量河东区县局7 3 8 计量河西区县局 7 8 1 若用多维数据库存储这些数据,如表2 2 所示: 表2 - 2 多维数据库存储数据的方式 和平区县局河东区县局河西区县局 认证认可 9 8 29 1 28 9 4 计量7 2 1 7 3 87 8 1 可以看到,关系数据库中数据是作为行和列以关系的形式来存储的,而多维 数据库则采用二维表格的方式来表达数据的关系,比起关系表达式所表达的关系 更加清晰明了,而且占用的存储空间也更少。另外,在关系数据库中,如果要得 到认证认可类别事项的准予许可总数,只能逐条记录检索,找到满足条件的记录 后将数据相加;而在多维数据库中,数据可以直接按行或列累加,统计速度远远 超过关系数据库。 2 关系数据库存储方式 数据仓库中的数据采用关系数据库存储时是用关系模型的表来逻辑上表现 多维结构的。这些表分为两类:一类是事实表,用来存储事实的度量值以及各个 维度的码值;另一类是维表,对每一维至少使用一个表来存放维的层次结构、维 成员等维的描述信息。事实表通过每一个维的主键与维表联系在一起,构成“星 型模式”。通过将事实表和每一个维表连接起来,在一次查询中,即可获得查询 对象的事实值。对于层次复杂的维来说,如果仅用一个维表来描述,会带来过多 的冗余数据。为解决由于数据的冗余而造成的存储空间浪费,可以使用多个维表 来描述复杂的维关系,这种星型结构的扩展称为“雪花模式”。在采用此种方式 构建多维数据集时,必须通过维表和事实表的连接来实现,如果对每一个维都进 行一次连接的话,性能就成为了此方案的一个关键问题,特别是当事实表增加, 维数变大时,性能的问题显得尤为突出,因此数据仓库中常常采用各种索引技术 第二章数据仓库理论和o l a p 技术综述 来提高系统的性能。索引技术将在下面的章节中重点讨论。 3 两种存储方式的比较 在实际应用中,是采用多维数据库还是关系数据库来存储数据是必然会遇到 的问题,两种数据存储方式均有各自的特点,下面从查询性能、分析能力等方面 对二者做一比较,如表2 3 所示: 表2 3 多维数据库和关系数据库存储方式的比较 多维数据库关系数据库 查询性能查询速度快 响应时间较长 数据加载性能 加载时间长加载时间短 分析能力精度较高 一般 维度变化的适应性适应性较差适应性强 从上表的对比分析中可以看出,采用多维数据库和关系数据库存储数据有各 自的优缺点,究竟应用哪种方式要根据具体的情况而定。正是由于两种数据组织 方式各有千秋,因此人们希望能有个综合两者优点的数据存储方式,这就是近 年来出现的混合o l a p ( h o l a p ) 。在这种数据组织方式中,基本事实表中的细 节数据存放于关系数据库中,聚合数据存放在多维数据库中。这样,既拥有了处 理大规模数据的能力,同时又可以提供很快的响应速度。这种数据存储方式的缺 点是过于复杂。 2 1 4 数据仓库的开发过程 数据仓库的开发应用和其他生物一样有其特有的、完整的生命周期,按照生 命周期法可以将数据仓库开发应用的全过程分为:数据仓库的规划分析、数据仓 库的设计实施和数据仓库的使用维护三个阶段,这三个阶段是一个不断循环、完 善和提高的过程。因为一般情况下数据仓库系统不可能在一个循环过程中完成, 最初往往是设计出一个原型交付用户使用,在用户使用过程中,通过用户使用的 反馈以及对原型开发应用经验的积累对数据仓库提出改进建议,在一次次的循环 开发中,使数据仓库得到提高。这种开发方法就是所谓的螺旋式周期性开发方法, 它在数据仓库的开发应用中占有重要的地位p “。 1 数据仓库的规划分析 这一阶段主要的工作内容包括: ( 1 ) 确定数据仓库的开发需求。在需求定义阶段,重点是用户需要哪些信 第二章数据仓库理论和o l a p 技术综述 息,由于建立数据仓库和建立操作性系统在很多方面存在着不同,所以在这一阶 段,要寻求一种新的方法来对需求进行收集,传统的适合操作性系统的收集需求 方法将不再适于数据仓库系统。 ( 2 ) 主题的选取。在数据仓库原型建立阶段,可以考虑实施管理者目前最 迫切需求、最关心,能够在较短时间内发生效益的决策主题。 ( 3 ) 技术准备工作。 对数据仓库系统未来的数据量进行估算,根据估算选择建立数据仓库的软硬 件资源,包括开发平台、d b m s 、网络通信、开发工具等。 ( 4 ) 建立数据仓库的逻辑模型。由于目前数据仓库一般都建立在关系数据 库基础上,因此,数据仓库设计过程中所采用的逻辑模型主要是关系模型,利用 关系模型可以创建星型和雪花型模型,在逻辑模型的设计阶段还要确定粒度层次 划分;确定数据分割策略等。 2 数据仓库的实施阶段 主要工作内容包括: ( 1 ) 设计数据仓库的体系结构。 ( 2 ) 建立数据仓库的物理模型。数据仓库的物理设计主要要解决数据的存 储结构、索引策略、存储策略、存储分配优化等问题。 ( 3 ) 数据转换程序的实现。为数据仓库的每一个目标列确认数据抽取、转 换和加载的规则,从源系统中抽取数据、清理数据、一致性格式化数据并装载在 数据仓库中。 ( 4 ) 前端分析展示工具的确定。使用优化查询工具、统计分析工具、o l a p 工具等来实现决策支持。 3 数据仓库使用维护阶段 这一阶段主要的工作内容包括:对数据仓库的用户进行培训、指导,将数据 仓库投入实际运行,在应用中,根据用户的使用反馈将现有业务系统的缺陷和不 足进行调整和修改。 整个数据仓库的开发过程如图2 一l 所示: 第二章数据仓库理论和o l a p 技术综述 确定开发需 求 选取主题 规划分析阶段 建立逻辑 模型 数据仓库的螺旋 式开发过程 使用维护阶段 数据仓库维 塑卜厮 用户培训 开发前端展 示工具 图2 - 1 数据仓库的开发过程 2 1 5 数据仓库的多维数据模型 设计体系 结构 实施阶段i 建立鍪理模 数据抽取 转换与加 载 维度建模是数据仓库实施中的重要一环,在数据仓库的设计中起着重要的作 用 3 2 】。维度建模把视觉焦点集中在业务需求上,是一种构造需求分析的商业维 度和指标的逻辑设计技术。这种模型已经被证明在查询和分析方面有着很高的性 能【9 】。 数据仓库中的数据可以分为两部分:一部分是决策者最终要分析的事实,一 般为数值型的数据,这部分数据称为“度量”。另一部分数据是描述度量的数 据,称之为“维度”。维度代表了决策者对数据考察的角度。 多维数据模型是一个逻辑概念,主要解决如何对大量数据进行快速查询和多 角度展示,以便得出有利于管理决策的信息和知识【1 0 1 。多维数据模型的实现有 多种途径,可以使用关系数据库系统中的关系表来表示,其中,维度用称为维表 的关系表来表示,度量值用称为事实表的关系表来表示。根据维度属性表示方法 的不同,可以得到两种多维数据模型星型模型和雪花模型【3 3 1 。 1 星型模型 星型模型是维度建模最常用的一种模型,它通过使用一个包含主题的事实表 和多个拥有描述信息的维度表来支持决策查询。其结构示意图如图2 2 所示: 1 0 第二章数据仓库理论和o l a p 技术综述 图2 - 2 星型模型示意图 在星型模型中,位于中心的是事实表,事实表四周围绕的是维度表,维度表 用来描述数据仓库事实表中的数据。每一个维度表通过主键和事实表中的外键相 连,从而构成星型模型。维度表在查询中扮演了约束和过滤的角色,能够减少事 实表中的扫描数据量,缩小访问范围以提高查询性能【3 5 】。 2 雪花模型 对于复杂的多维数据模型来说,星型模型并不是十分理想的选择,因为当维 度属性具有复杂结构时,仅仅用一张维度表来表示会带来过多的冗余数据。因此, 这时,可以对星型模型中的维度表进行规范化处理,用多张表来表示这个层次复 杂的维度属性。这样,就形成了雪花模型。 雪花模型的结构示意图如图2 3 所示: 图2 - 3 雪花模型示意图 可见,在雪花模型中,每一个维度表被分解成多个表,这些表通过分类键与 原来的维度表连接起来,而不是和事实表连接。而在星型模型中,每个维度表都 通过主键与事实表直接连接。这是星型模型和雪花模型的主要区别。 3 星型模型和雪花模型的特征比较 第二章数据仓库理论和o l a p 技术综述 星型模型和雪花模型在查询效率、数据存储空间以及更新和维护方面均有不 同的特征,总结成表2 4 。 表2 - 4 星型模型和雪花模型的特征比较 星型模型雪花模型 优点便于用户理解一定程度上减少存储空间 提高查询效率 规范化结构容易更新和维护 缺点业务发生变化时,维的变较复杂,用户不容易理解 动复杂、耗时表增多,表之间的连接复杂,使 数据冗余量大得查询性能下降 4 e - r 建模与维度建模的对比 对于o l l p 系统,采用的是( 实体一关系) e r 建模技术对其进行数据建模的。 一般来说,o l t p 系统具有如下的特征: ( 1 ) o l t p 系统一般捕捉事件或者交易的细节信息 ( 2 ) 一个o l t p 系统是通向微观交易的窗口 ( 3 ) o l t p 系统反映业务所必需的细节信息 ( 4 ) o l t p 系统仅适用于回答交易层面上的问题 在o l t p 系统中,数据致性、非冗余性和高效的数据存储是最重要的。而e r 建模的最高境界就是去除数据中的一切冗余,确保数据一致以及表达微观的 关系【3 4 1 。这对事务处理来说是非常有益的,具有数据存储冗余度低、数据组织 结构性好、反映业务主题能力强等优点。正是如此,e r 建模被广泛地应用于 o l t p 系统的数据建模中。 在e r 模型中,为了消除冗余,要根据需要对关系进行一定程度的分解,分 解带来的代价是数据库中包含了许多表,表之间的关系多且复杂。在这样的数据 模式中,虽然提高了数据存储的效率,但是,查询时的跨表操作较多导致了查询 效率的降低。而且,在e r 模型中数据模式非常复杂,不容易被用户理解。在数 据仓库环境中,主要从事联机分析处理( o l a p ) ,数据仓库的特点和o l t p 系统 有着很大的不同,表现在: ( 1 ) 数据仓库需要回答全局问题 ( 2 ) 数据仓库反映了商业趋势 ( 3 ) 数据仓库关注决策人员如何管理业务问题 ( 4 ) 数据仓库需要通过几个商业维度来衡量业务情况 ( 5 ) 数据仓库环境中,一般不再进行插入、更新等操作 第二章数据仓库理论和o l a p 技术综述 因此,如果数据仓库建模仍然采用e 一r 模型来设计,显然不能适应应用的 需要。此时,维度模型取代了b r 模型成为数据仓库建模的主要方法。 表2 5 列出了e r 建模和维度建模的主要特点。 表2 - 5h l 建模和维度建模的特点比较 特点h i 建模维度建模 目标去除数据冗余表达全局关系 捕捉焦点交易细节信息全局整体问题 数据特征增、删、改操作频繁一般只用来查询 2 20 l a p 技术概述 2 2 10 l a p 基本概念 传统的联机事务处理系统,作为数据管理手段,主要用于事务处理,极大地 提高了工作效率,然而随着市场竞争的加剧,用户的需求已经超过了这种基础的 分析,主要表现在; 1 对多维分析的需要 传统的o l t p 系统一般仅仅提供了简单的一维查询,例如政府行政许可审批 中“在市行政许可大厅办理认证认可的件数”此类问题,但是领导者往往要了解 更深层次的信息,如:特种设备事项在最近3 个月中办理了多少,该类事项在不 同的承办机构不同的月份办理了多少? 哪些类型的企业办理该类事项最多? 和 上3 个月相比情况如何? 等问题。可见,决策者需要对多个维度,如承办机构、 时间等进行复杂的分析。因此为了进行有效的分析,必须要有一个能够表示数据 多维视图的环境,并且该环境要能够通过简单的、灵活的信息访问来为分析处理 提供基础,使决策者能够沿着任何多的维度在任何聚集水平上对数据进行分析。 2 快速的访问和强大的计算能力 决策者提出的复杂问题查询,一般都会涉及到大量的数据检索、计算和汇总。 在o l t p 中,每个查询都可能转换成一些复杂的s q l 语句,每个s q l 语句可能 会包括浏览整张表格、多表联合、聚集、分组和排列等操作,严重地影响了系统 的反应时间。 3 一些其它分析方法的局限性 传统的o l t p 系统可以为用户提供报表输出,但这些报表一般都是固定的、 第二章数据仓库理论和o l a p 技术综述 预先设计好的报表,在这些报表中,无法通过交换行和列来旋转结果,而将行列 旋转重新观察结果是很多决策者希望做的事情,另外在这些报表中,无法下钻到 维度的较低层次,查询细节;也无法上钻到维度的更高层次进行概括。 总之,当用户需要进行复杂的计算和操作的多维分析时,很显然,传统的 o l t p 系统并不能胜任这个任务,我们需要的是为繁重的分析量身定做的一些不 同的产品。在数据仓库中需要的就是o l a pt 具。 表2 6 列出了o l t p 数据库和o l a p 数据仓库的不同特征。 表2 6 0 l t p 和o l a p 的比较 对比内容 o u p 数据库数据仓库及o l a p 数据类型操作型数据分析型数据 数据内容 当前值历史的、存档的、归纳的数据 数据组织方式面向应用 面向主题 更新操作增、删、改频繁 增、删、改少,只添加数据 使用频率高 中到低 数据访问量 每个事务只访问少量记录有的事务可能要访问大量记录 响应时间快速相应,以秒为单位计量 以秒、分钟、甚至小时为单位计 量 o l a p 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的【1 1 】。根据 o l a p 委员会的定义,o l a p 是使分析人员、管理人员或执行人员能够从多种角 度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性 的信息进行快速、一致、交互地存取,允许管理决策人员对数据进行深入观察和 分析的一类软件技术。o l a p 的目的是满足决策支持或多维环境中特定的查询和 报表需求,它的技术核心是“维”的概念,因此o l a p 也可以说是多维数据分析 工具的集合,是数据仓库中大容量数据得以有效利用的重要保障。 下面是o l a p 中的一些基本概念 1 维 维是人们观察数据的特定角度。例如,在行政许可审批中,给定某一个事项, 领导者想知道该事项在各承办机构各时间内的办理情况;对于某一个承办机构, 想知道哪个事项在哪段时间内的办理情况;在某一时间,想知道哪个承办机构哪 类事项的办理情况。在这里,时间、承办机构、事项都是维。 2 维层次 一个维可以存在细节程度不同的多个描述方面,这多个描述方面称为维的层 第二章数据仓库理论和o l a p 技术综述 次。例如,时间维就是一个典型的层次结构维,因为时间可以从年、季度、月、 日等不同层次来描述。 3 维成员 维成员是维的一个取值,如果维包含多个层次,那么维成员就是不同维层次 取值的组合。如时间维包含了年、季度、月、日四个层次,那么“2 0 0 6 年第一季 度3 月1 8 日”就构成了时间维的一个维成员。这里要说明的是,维成员并不是要 在每一个层次上都取值。例如“2 0 0 6 年第二季度”也是时间维的一个维成员。 4 度量 度量有时候也称为事实,是希望分析的那些数据,如在行政许可审批分析中 的接件数、受理数、准予许可数、不准予许可数等。度量是多维数据集的核心, 是最终用户在数据仓库应用中所需要查看的数据。 5 多维数据集 多维数据集是o l a p 的核心,也叫立方体或超立方。多维数据集可以用一 个多维数组( 维1 ,维2 ,维n ,度量) 来表示。例如,时间,承办机构和事项 的多维数据集可以表示为:( 时间,承办机构,事项,准予许可数) 。 2 2 20 l a p 中的多维操作 0 l a p 中的多维分析操作主要包括切片、旋转、上卷下钻等。通过各种分析操 作可以使最终用户从多角度去观察数据,深入了解包含在数据中的内涵和潜在关 系从而辅助决策。 1 切片( s l i c e ) 在多维分析过程中,如果对多维数据集的某一个维选定一个维成员,这种选 择操作,就称为切片。也就是说对于多维数据集( 维1 ,维2 ,维i ,维 n ,度量) 多维数据集,若对维i 选定了某个成员,那么( 维1 ,维2 ,维i 成 员,维n ,度量) 就是该多维数据集在维i 上的一个切片,通过切片操作可以 降低多维数据集的维度,使人们将注意力集中在较少的维上即管理中所感兴趣的 因素上对数据进行观察分析。 2 切块( d i c e ) 如果在多维数据集上,对两个及两个以上的维选定维成员,这种选择操作, 称为切块。即在( 维l ,维2 ,维i ,维k ,维n ,度量) 多维数据集 上,对维i ,维k 选定了维成员,那么( 维1 ,维2 ,维i 成员, 维k 成员,维n ,度量) 就是该多维数据集在维i ,维k 上的一个切块。 当i = k 时,切块操作就成了切片操作。 第二章数据仓库理论和o l a p 技术综述 3 旋转( r o t a t e ) 旋转操作可以将多维数据集中的不同维进行交换显示,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论