




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 一个通用的o l a p 服务系统的设计与实现 o l a p ( 联机分析处理) 是建立在数据仓库基础上的一种支持多维分析的决策支持工具, 是应人们对数据进行深层次分析的要求而产生的。国外主流的数据库厂商都提供了自己的数 据仓库o l a p 解决方案和产品,这一领域的研究也方兴未艾。本文通过对数据仓库和o l a p 理论的研究,设计和实现了一个通用的o l a p 服务系统,并提出了改进意见。 本文首先回顾了o l a p 领域当前的研究情况;接着介绍了o l a p 立方体的存储和聚集技术; 而后重点论述了我们设计的个通用的o l a p 服务系统的各模块的具体实现,包括o l a p 建模 和管理工具、语义对象的设计、o i a p 应用服务器和前端工具等:摄后是总结和对未来工作 的展望。 关键词; 数据仓库 物理模式 联机分析处理 语义对象 2 数据立方体分析模式 应用服务器 东南大学硕士学位论文 d e s i g n a n dr e a l i z a t i o nf o rau n i v e r s a l o l a ps e r v i c e s y s t e m o l a f ( o n l i n ea n a l y s i ss e r v i c e ) i sad s st o o l sb a s e do nd a t aw a r e h o u s ew h i c hc a r ls u p p o r t m u t i d i m e n s i o n a la n a l y s i s t ti sp r o d u c e dw i t ht h ed e m a n df o rf u r t h e rd a t aa n a l y s i s m a n yd a t a w a r e h o u s e o l a pp r o d u c t sa n ds o l u t i o n sa r e p r o v i d e d a n dr e s e a r c hi nt h i sf i e l di si nt h e a s c e n d a n t t h i sp a p e r f i r s t l yl o o k sb a c ko nt h er e s e a r c hs 拓【t t l si nt h ef i e l d so f o l a p , t h e ni n t r o d u c e st h e s t o r a g ea n d q g g r e g a t i o nt e c h n o l o g i e sf o ro l a pc u b e s ,i nt h ef o l l o w i n g ,i te m p h a s i z e st h e r e a l i z a t i o no fau n i v e r s a lo l a ps e r v i c e s y s t e mw ed e s i g n e d t h i so l a ps e r v i c es y s t e m i n c l u d e ss e v e r a lk e ym o d u l e ss u c ho l a p m o d e l i n gt o o l s ,o l a fa p p l i c a t i o ns e r v e r , s e m a n t i c o b j e c t sd e s i g n e ra n d c l i e n tt o o l s a tl a s tt h i sp a p e r g i v e sas u m m a r y a n ds o m ea d v i c e k e yw o r d s : d a t aw a r e h o u s e a n a l y t i c a ls c h e m a a p p l i c a t i o n s e r v e r 0 l a p p h y s i c a ls c h e m a 3 d a t ac u b e s e m a n t i co b j e c t 东南大学硕士学位论文 引言 在当今日益激烈的竞争环境下,企业要生存、发展,就必须具有能对不断变化的商业环境进 行分析、预测井作出快速反应的能力。要做到这一点,企业的决策分析人员能否及时地从大 量的原始数据中提取更多、更准确、更有效的信息是关键。企业传统的业务系统中所使用的 对数据库进行查询、增删、修改操作和报表功能的联机事务处理系统( o l t p ,o n l i n e t r a n s a c t i o np r o c e s s i n g ) 功能有限不能满足人们对数据作深层次分析的要求,数据仓库 与0 l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,在线分析处理) 技术便应运而生了。业界公认的数 据仓库之父w i t i n m o n 给数据仓库定义为:”数据仓库就是面向主题的、集成的、非易失的、 随时间不断变化的数据集合,用于支持管理决策的制定过程。”0 l a p 系统是一种支持多维 分析的决策支持工具,侧重对决策人员和高层管理人员的决策支持可以应分折人员要求快 速、灵活地进行大数据量的复杂分析处理。并以一种直观易懂的形式将查询结果提供给决簸 人员。o i a p 通常建立在数据仓库之上,是数据仓库上最重要的应用。世界上几个大的o l a p 系统供应商都提供了比较成熟的产品,如o r a c l e 、s a s 、i b m 、h y p e r i o n 、m i c r o s o f t 等,都有 各自的数据仓库o l a p 解决方案和产品。由于国内企业的信息化建设起步较晚,很多企业对 于决策分析需求都是通过开发一些功能单一的专用程序来完成。虽然国内有很多大学和研究 机构从事数据仓库和o l k p 技术的研究,但到目前为止,国内基本上没有成熟的o l a p 产品和 解决方案,随着信息化建设的深入,国内企事业单位对数据仓库和o l a p 的需求越来越迫切。 而国外的产品由于语言、习惯和价格等因素,不一定适合国内的企业,如有的产品功能强大 但难以使用,有的产品通用性不强。一种o l a p 产品的成功与否,不仅仅取决于o l a p 技术本 身,更取决于它与数据仓库系统的集成度,也取决于第三方软件厂商对它的接受和利用程度。 个好的o l a p 服务系统的体系结构必须具有足够的通用性和可扩展性,它应该能方 便的与大型数据仓库系统集成,而不依赖于某个具体的d b m s ,同时对客户端的第三方软件 尤其是决策支持软件提供友好的接口。在这样的背景下,我们设计了一个通用的、可扩展的、 开放的o l a p 服务系统。论文首先讨论了数据仓库和o l a p 的概念以及特点,随后探讨了 o l a p 立方体的存储和聚集技术,着重介绍了o l a p 服务系统的设计与实现,最后是总结和 展望。 4 东南大学硕士学位论文 第一章数据仓库与o l a p 概述 i i 数据仓库技术的产生 数据库系统作为数据管理的手段,从它的诞生开始,就主要用于事务处理。经过数十年 的发展,在这些数据库中己积累了大量的日常业务数据。传统的业务系统般是直接建立在 这种事务处理环境上的。随着各行各业对计算机应用需求的多样化、深入化,需要从大量事 务数据中归纳出业务活动的规律性及其发展趋势。从本世纪7 0 年代起。为满足管理决策的 需要,人们在管理信息系统的基础上,发展了以数据分析和建模定量分析为基础的决策支持 系统( d s s ,d e c i s i o n s u p p o r ts y s t e m ) 。而数据库技术也一直力图使自己能胜任从事务处 理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,由于事务处理和 分析处理具有不同的性质,直接使用事务处理环境来支持决策是行不通的。事务处理环境不 适合分析处理应用的原因主要有以下几条: 1 事务型处理和分析型处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高两每次操作处理的时 间短,丽在分析型环境中,某个d s s 应用程序可能需要连续处理几个小时,从而消耗大 量的系统资源,因此将两种不同处理性能的应用放在同一环境中是不适当的。 2 数据集成问题 全面正确的数据是有效的分析和决策的首要前提,而当前绝大多数企业内数据的真 正状况是分散的、非集成的,造成数据分散的原因有很多,主要有事务处理应用分散、 蜘蛛网问题、数据不一致问题、外部数据和非结构化问题。 3 历史数据问题 事务处理一般只需要当前数据,在数据库中一般也只存储短期的数据,且不同数据 的保有期限也不一样。但对于决策分析而言,历史数据是相当重要的,没有对历史数据 的详尽分析,是难以把握企业的发展趋势的。d s s 对数据在空间和时间的广度上都有了 更高的要求,而事务处理环境难以满足这些要求。 4 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,分析型处理并不对这些细节 数据进行分析,这主要有两个原因;一是细节数据数超太大,会严重影响分析的效率; 二是太多的细节数据不利于分析人员将注意力集中于有用的信息上。因此,在分析前, 往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力。根据 规范化理论,这种综合还往往因为是一种数据冗余而被加以限制。 为了提高分析和决策的效率和有效性,就要把分析型处理及其数据与操作型处理及其数 据相分离,把分析型数据从事务处理环境中提取出来,然后按照分析处理的需要进行重新组 织,建立单独豹分析处理环境。而数据仓库技术正是为了构建这种新的分析处理环境而出现 的一种数据存贮和组织技术。 5 东南大学顿士学位论文 1 2 数据仓库的特征 关于数据仓库的定义有很多,数据仓库除了传统d b m s 的共享性、完整性、数据独立 性外,还有自己的一些特征,可概括为如下四个方面: 1 数据仓库是面向主题的 传统的数据库是面向应用设计的,它的数据只是为处理具体应用两组织在一起的。 应用是客观世界既定的东西,它对于数据内容的划分未必适用于各种动态分析。而主 题是一个在较高层次将数据归类的标准,每一个主题对应一个客观领域,基于主题组 织的数据都被划分为各自独立的领域,每个领域都有自己的逻辑内容而互不交叉,面 向应用经常会随着各种经营环境的变化而发生变化,而面向主题则比较稳定。 2 数据仓库是集成的 数据仓库是一致的数据集合,在数据仓库中,使用一致的命名规定、度量、物理属 性和语义来统一来自异构数据源的业务数据。在数据仓库中存储的数据需要以一种单一 的、可以由企业分析人员接受的格式存储。这种统一性允许数据来自不同的企业和不同 的部门,例如公司以前保存的数据、各种报表中的数据、i n t e m e t 上的数据等。 3 数据仓库是随时间变化的 事务系统的数据库通常只包含最近的数据,一般不超过一年,不同时刻的查询一般 会的到不同的查询结果。数据仓库中的数据则保存了一段比较长的时间的数据,一般是 5 到1 0 年。数据仓库按照每曰、每周或者每月的频率从操作型数据库中导入数据,随 着时间的变化,数据以更高的综合层次被不断综合,以适应分析的要求。 4 数据仓库是稳定的 数据被导入到数据仓库中后,一般不允许进行修改、插入或者删除之类的操作。数 据仓库存储的数据包含当前的数据和历史的数据。在一定的时间间隔以后,当前的数据 需要按一定的规则转换综合成历史数据,年代久远的对分析处理不再有用的数据需要从 数据仓库中删除。因此,数据仓库在一定时间间隔内是稳定的。因为数据仓库在加载之 后不再修改,所以对数据仓库的设计可以通过索引、预聚集和数据库的正规化来优化查 询性能。 1 3 0 l a p 介绍 1 3 1o l t p 与o l a p 早在上个世纪六十年代,人们为了收集、存储和处理大量的业务数据而开发了数据库 管理系统( d b m s ) 。在过去的几十年中,数据库系统得到了迅速的发展和广泛应用。这些 系统成为联机事务处理( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) ,它是为在机构的全部业务事 务发生时进行记录而设计的数据处理系统,旨在处理同时输入的成百上千的事务。 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 的概念最早由关系数据库之父 e e c o d d 于1 9 9 3 年提出的。当时。c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户 对数据库查询分析的要求。s q l 对大数据库的筒单查询也不能满足用户分析的需求。用户 的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者 提出的需求。因此,c o d d 提出了多维数据库和多维分析的概念,即o l a p 。 6 东南大学硕士学位论文 o l a p 最终的数据来源与0 l a p 一样,均来自底层的数据库系统,但二者面对的用户群不 同,数据内容的特点也不同。两者的区别概述如下: 1 面向用户不同:o l t p 面对的时操作人员和低层管理人员,进行日常事务的处理和查询操 作,而o l a p 面对的是决策人员和高层管理人员,用于数据分析决策支持。 2 数据的内容不同:o l t p 系统管理当前的数据,这种数据太琐碎,难以用于决策,而0 l a p 系统管理大量历史数据,提供汇总和聚集机制,适于决策分析。 3 数据库设计不同:通常,0 l t p 系统采用实体关系( e r ) 模型和面向应用的数据库 设计,而o l a p 系统通常采用星型或雪花模型和面向主题的数据库设计。 4 视图不同:o l t p 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不 同组织的数据。0 l a p 系统常常跨越不同的数据库模式,处理来自不同组织的信息,存储 集成的数据。 5 访问模式不同:0 l t p 系统的访问主要由短的原子事务组成。这种系统需要并行控制可恢 复机制。而对0 l a p 系统的访问大部分是只读操作,尽管查询可能很复杂。 o l a p 的特点可以用五个关键字来代表:f a s ta n a l y s i s o fs h a r e dm u l t i d i m e n t i o n a l i n f o r m a t i o n ( f a s m i ,共享多维信息的快速分析) 。这也是设计人员或管理人员用来判断一个 o l a p 设计是否成功的准则。 f a s t :系统响应用户的时间要相当快捷,要达到这个目标,数据库的模式应该朝着更广 泛的技术发展。包括特殊的数据存储格式,预先计算和硬件配置等。 a n a l y s i s :系统应能处理与应用有关的任何逻辑分析和统计分析,。用户无需编程就可 以定义新的专门计算。将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在 o l a p 平台上进行数据分析。也可以连接到其他外部分析工具上,同时应提供灵活开放的报 表处理功能,以保存分析结果。 s h a r e d :这意味着系统要能够符合数据保密的安全要求,即使多个用户同时使用,也 能够根据用户所属的安全级别,让他们只能看到他们应该看到的信息。 m u l t i d i m e n s i o n a l :o l a p 的显著待征就是它能提供数据的多维视图系统必须提供对数 据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。 i n f o r m a t i o n :不论数据量有多大,也不管数据存储在何处,0l ap 系统应能及时获得 信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空 间、0lap 产品的性能及与数据仓库的结合度等。 o l a p 的一个重要特点是多维数据分手厅,o l a p 技术中比较典型的应用是对多维数据的 切片和切块、钻取、旋转等操作,使用户从不同角度和不同层次提取和分析数据,还能利用 分析过程对数据进行深入分析和加工。 1 3 2o l a p 的分类及比较 o l a p 可按存储方式和特点分为四种方式:d o l a p 、r o l a p 、m o l a p 和h o l a p 。 1 d o i l a p d o l a p ( d e s k t o p o l a p ) 是将o l a p 分析要用到的数据,传输并存储到用户的客户端, 这样用户的访问将不受网络瓶颈的制约,但操作的安全性和数据的安全性难以保障,并存在 7 东南大学硕士学位论文 管理和维护客户端数据的问题。一般只用在小型的项目中。 2 m o l a p m o l a p ( m u l t i d i m e n t i o n0 l a p ) 是将按照主题定义的0 l a p 分析所用到的数据,生成并 存储为多维数据库的形式,形成“超立方体”的结构。生成的多维立方体己经计算生成了一 些汇总值,当用户发出分析请求时,从多维立方体中取得数据,而不是从数据仓库中取数据。 这种方式对用户的相应速度较快,但由于多维立方体通常是稀疏的,存储的利用率很低,造 成存储空间的浪费。因此多维立方体中,不可能存储大量的细节数据,综台数据较多,分析 的粒度比较粗。 3 r o l a p r o l a p ( r e l a t i o n a lo l a f ) 以关系型结构存储和表示多维数据,而不生成多维立方体, 只是存储数据模型和数据仓库数据之间的映射关系,真正的数据物理存储在数据仓库中。在 进行多维分析时,o l a f 服务器根据定义的模型和映射关系。从数据仓库中取得数据,进行 实时分析。由于数据仓库中保存了大量的细节数据和描述性的数据,因而数据集比较大,且 响应用户的分析请求是要进行大量的关系表之间的连接操作,这就增加了对用户的响应时 间,但数据只存储一次,相对于m o l a p ,节省了空间,且分析可以得到较细节的数据,即 分析的粒度可以比较细。 4 h o l a p h o l a f ( h y b r i do l a f ) 综合了m o l a p 和r o l a p 的优点,得到了折中的解决方案。 对一些用户经常用到的维度和度量值( 通常是一些聚集数据) ,保存维为多维数据库,而与 这些维度和度量值相关的详细数据,仍然以关系型数据的形式保存在数据仓库中。这样既解 决了o l a f 分析的速度问题和存储问题,也解决了对详细数据的分析问题。 1 3 3o l a f 的系统框架 目前在一些主要的0 l a p 系统供应商提供的数据仓库o l a f 解决方案中,通常采用了三 层或多层c s 结构,并能扩展成多层b s 结构。图l l 是一个具有代表性的0 l a p 系统框架, 该体系结构大体可以分为数据仓库层,0 l a p 服务层,前端工具层,目前常见的0 l a p 系统的 框架结构都是对该框架的扩充。我们把这种提供0 l a p 分析的系统称为0 l a p 服务系统。 8 东南大学硕士学位论文 1 4 主流的o l a p 解决方案简介 在过去的十年当中,0 l a p 技术有了很大的发展,市场上的各种0 l a p 产品层出不穷。 许多0 l a p 产品供应商都提出了各自的0 l a p 解决方案,并发布了相应的产品。 1 4 1s a s 的0 l a p 解决方案 s a s 的o l a p 解决方案包括多维数据库服务器m d d bs e r v e r 和前端表现工具,支持几 乎所有地操作系统平台,支持o l e 。对于r o l a p 分析,只是在s a s m e t a b a s e 中建立模型, 不生成m d d b ,对于m o l a p 和h o l a p ,需要生成m d b 。m d d bs e r v e r 提供了g u i s , i t 人员可以迅速地建立、维护和优化一个m d d b 。s a sm d d bs e w e r 具有以下特点:能 自动决定哪些计算值,是自动生成,还是在用户提出请求时动态生成: m d d b 生成地过 程,l o g 对每一步都有详细的描述,如数据的存储和生成方式等;只存储非空的数据和 其数据汇总,并压缩存储稀疏数据;可将多个m d d b 联合,并对要联合的m d d b 个数没 有限制:提供p r o x ym d d b 机制,对一个己生成的m d d b ,可以增量更新: s a s 的前端表现工具e i s ,提供了一个免编程的开发环境,不仅使用简单,而且开发容 易。提供的主要功能有:数据敏感钻入:啪1 a t i f 分析:多维数据浏览和分析;异 常数据报告( e x c e p t i o nr e p o r t i n g ) ;关键成功因子的图表显示及重叠表( g r o u p e db a rc h a r t s ) : e i s 包含一系列业务报表对象,提供用于动态显示和交互式分析的多种表现方式,可帮 助用户自定义o l a p 应用,如方差分析和异常数据报告,关键成功因子等可自定义o l a p 应用,并将生成的报表、分析等,引入其他应用程序。 s a s 提供的前端表现工具还有s a s e n t e r p r i s eg u i d e ,w e be i s ,也可通过支持o l e d b 的第三方表现工具,如e x c e l ,将o l a p 分析结果呈现给用户。s a s 还提供了丰富的产品供 用户选择主要有前端开发工具s a s a f 、报表工具e n t e r p r i s er e p o r t e r 、图形表现工具 s a s g r a p h 、地理信息表现工具s a s g i s 、数据挖掘工具等等。 1 4 2o r a c l e 的o u 心解决方案 o r a c l e 的企业级o l a p 解决方案o r a c l ee x p r e s s ,不仅可以帮助用户使用数据仓库中的 所有数据,还能超越数据仓库的范围,集成来自其他系统的数据。这些系统可能是关系数据 库或外部的文件系统。o r a c l ee x p r e s ss e r v e r 是一个先进的计算引擎和数据高速缓存,不仅 支持多维数据模型,而且具有分析、预测、建模、以及对数据进行假设分析( w h a t - - i f ) 的 能力。 e x p r e s ss e r v e r 能够存储和管理多维数组,或通过一种只需要很少,甚至不需要索引 的复杂的多维高速缓存方案,提供直接面向关系数据的分析。o r a c l e e x p r e s s w e b a g e n t 帮助 最终用户在公司i n t r a n e t 和w e b 上,执行具有重要商业意义的多维数据即席分析,能与任何 一个w e b 服务器协同工作。o r a c l ee x p r e s sw e ba g e n td e v e l o p e r st o o l k i t 允许开发人员建立 复杂的o l a pw e b 站点。o r a c l ee x p r e s so b j e c t s 是最早出现的用于建立客户机朋r 务器上 o l a p 应用的面向对象的可视化开发环境,提供了图形化建模和假设分析功能,同时,通过 使用标准的o l e 技术,对第三方软件开放。o r a c l e e x p r e s s a n a l y z e r 是通用的、面向最终用 9 东南大学硕士学位论文 户的报告和分析工具,它采用面向对象技术,在o r a c l e e x p r e s s a n a l y z e r 中能运行任何o r a c l e e x p r e s so b j e c t s 应用。o r a c l ed i s c o v e r e r 3 0 是一个即席查询工具,是为不具有编程经验和数 据库知识的最终用户而设计的。o r a c l ef i n a n c i a la n a l y z e 是用于财务报告、分析、预算编制 和规划的分布式应用,通过对中央数据强大的分析工具的集成,帮助公司满足其重要的财务 目标。 在2 0 0 2 年5 月发布的o r a c l e 9 ir 2 中,包括了对e x p r e s s 技术的提升,它第一次集成了 m o l a p 技术一一a n a l y t i cw o r k , s p a c e ( a w ) 。该版本关键的功能是,m o l a pa w 数据能够 使用标准s q l 语句进行无缝查询。因此,非o l a p 工具,包括o r a c l e 自己的d i s c o v e r e r 产 品( d i s c o v e r e r 以前一直都不支持e x p r e s s ) ,都能很好的利用这一优越的高性能和高计算能 力的m o l a p 。o r a e l e 9 i r 2 还可以使用s o l 语句在数据库中连结( j o i n ) 多维数据和关系数 据。所以一个简单的查询返回结果的数据可以来自两个环境,并且不需要数据的传输。该功 能意味着大量的基于o r a c l e 关系型的应用可以很方便的移植到功能强大的m o l a p 引擎。 1 4 3m i c r o s o f t 的o l a p 解决方案 m i c r o s o f t 的o l a p 解决方案是随s q l2 0 0 0 一起发布豹a n a l y s i ss e r v i c e 。分析服务由 服务器和客户端( 中间层:m i d d l et i e r ) 软件组件组成。在服务器端,分析服务器( a n a l y s i s s e r v e r ) 作为m i c r o s o f tw i n d o w sn t 圆服务来进行运作,并提供核心的计算功能。在分析服务 器中,对管理功能的编程访问是通过称为决策支持模型( d e c i s i o ns u p p o r to b j e c t s :d s o ) 的 对象模型来实现的。分析管理器( a n a l y s i sm a m a g e r ) 是一个用于o l a p 服务的内置的管理 用户界面,它也是在d s o 的基础上开发的,且提供了丰富的用户界面而无需编程。分析管 理器可以在一台独立于分析服务器的计算机上执行,它允许数据库管理员设计o l a p 数据 模型、存取r d b m s 仓库中的信息、设计总和,以及给o l a p 数据仓库装入数据等等。o l a p 元数据定义被存储在专用库( p r i v a t er e p o s i t o r y ) 中,但是使用一个简单的实用工具,o l a p 元 数据可以导入到采用o l a p 开放信息模型( o p e ni n f o r m a t i o nm o d e l :o i m ) 的m i c r o s o f t r e p o s i t o r y 中。 在客户端,分析服务包含一个称为微软数据透视表服务( m i c r o s o f tp i v o t t a b l es e r v i c e ) 的 组件。数据透视表服务是将o l a p 客户端应用连接到提供分析服务的服务器上的一个工具。 客户端应用程序通过o l ed b 2 0 接口或a d 0 2 0 对象模型来连接数据透视表服务,透视表 服务通过专门的协议与分析服务器通信,并把o l a p 数据返回给客户端。 微软的分析服务提供了灵活的数据存储模型和分布式处理韵能力,通过分区不仅可以调 整多维数据集的大小,也可以把多维数据集分布在多个服务器上,以便并行处理。服务器端 和客户端都提供了高速缓存,阻便加快查询的响应速度。 l o 东南大学硕士学位论文 第二章o l a p 数据的存储与聚集 o l a p 数据的存储主要有r o l a p 和m o l a p 两种方式。r o l a p 基于关系模式来存储 数据,通常使用星型模式或雪花模式来组织数据,将维的信息和事实信息分别存在维表和事 实表中,通过维表和事实表之间的连接操作来完成o l a p 查询。r o l a p 可以使用比较成熟 的关系数据库的理论和技术,缺点是查询处理的性能相对较差。m o l a p 采用多维数组的方 式存储数据,查询性能高,用户响应时间短。关于r o l a p 数据存储的研究已经比较多,因 此我们主要讨论m o l a p 的数据存储和聚集算法。 实际的多维数组通常都是稀疏的,为了减少存储空间的浪费,可采用超立方体的方法 存储或对多维数组进行压缩,下面介绍几种多维数组存储和聚集的方法。 2 1 多维数据的超立方体存储 在这种存储方式中,一些维作为“稠密维”( d e n s e d i m e n s i o n ) ,这些维构成数据存储的 多维体,其他维被称为“稀疏维“( s p a r s ed i m e n s i o n ) 我们可以将这些稀疏维存储在数据 库表结构中,该表中只记录那些组合存在的数据,并有一个索引指向相应韵“多维体”。我 们用个例子来说明这种存储结构,如图2 1 。 该例子包含六个维的数据: 销售方式:6 个成员 产品:1 5 0 0 个成员 销售地区:1 0 0 个成员 圈2 - 1多维模型示意图 东南大学硕士学位论文 时间:1 7 成员 项目:8 个成员 统计:6 成员 在例子中“时间”、“项目”和“统计”是“稠密维”,它们构成了“立方体”;其他的三 维是“稀疏维”( 见图2 - 2 、图2 3 ) 。 时间 1 月 桃 产衄 统计投 项目 霉5 辑密雌示意蝈 图2 - 2 稠密维示意图图2 - 3 稀疏维示意图 这种多维体是以多维数组方式记录各度量的具体值。相应各维有一定的记录维及维层次 的元数据结构。 2 1 1 聚集c u b e 聚集是o l a p 分析经常用到的操作,为提高分析的效率,通常对多维数组进行预先的 聚集,并采用一定的方法保存这些聚集值。以下以聚集函数s u m 为例,举例说明。 351224 633 732687l 24 242333457 32i535282 42l3347l4 23361851l 4527l9334 24223l9l 3 543l32196 p s l0 l2345678 038 91 11 31 72 3 2 6 2 9 l1 01 8 2 l2 93 95 05 76 2 6 9 21 22 4 2 9 4 05 36 77 88 81 0 2 31 52 93 55 16 78 69 91 1 71 3 3 41 93 54 26 18 01 0 31 2 31 4 21 6 l 52 14 0 5 07 59 51 2 61 5 l1 7 l1 9 l 62 54 9 6 l 9 31 1 41 5 41 8 22 0 52 2 9 72 75 5 6 91 0 31 2 71 6 82 0 5 2 2 92 5 6 83 2 6 48 l1 1 61 4 31 8 62 2 42 5 72 9 0 图2 4 = 维数据立方体数组a 图2 - - 5a 的前缀和c u b ep s 1 、前缀和( p r e f i xs u i ) 前缀和方法是对数据立方体a 中的各个数据预先进行累加计算,并将累加的结果存储 1 2 东南大学硕士学位论文 到与数组a ( 图2 4 ) 同样大小的前缀和数组p s 中。其计算公式如公式2 - - 1 所示,对二 维数据立方体a 进行前缀和聚集计算的结果如图2 5 所示。在用户提出查询对,根据p s 数组即可很快的查出结果,奁询效率较高。但是在数据更新时,其维护费用非常大,如果数 据立方体a 中某一处的数据进行了修改,则数组p s 在该处后面的所有数据都要重新计算修 改。 p s x t ,x :,妇】- 0 【o ,o ,o 】:一k ,x :,如d = 芝芝芝爿【j l ,i :,i 。】式2 - - 1 = o 。l 曲0 t 0 2 、相对前缀和( r e l a t i v ep r e f i xs u m ) 为了减少前缀和方法的数据更新维护费用,采用相对前缀和方法,即将数据立方体分成 若干方块,在每一个方块中分别计算其前缀和,从而避免前缀和方法中的串联更新。 本方法使用相对前缀和数组r p 、相对重叠( r e l a t i v eo v e r l a y ) 数组r o 和块前缀( b l o c k p r e f i x ) 数组b p 三个数据结构,其计算公式分别如式2 2 、式2 3 和式2 4 所示。 j r p k ,:,h 】:肼o h ,a :,锄】:一k ,x :,为d :壹囊兰爿【f j ,丘,b 式2 2 l 却i = 0 20 。 y = m o k l ,a 2 ,1 :彳k 1 ,x 2 , v b p = s u m ( a o ,0 ,o 】:a a 1 1 ,d 2 1 , h d :囊壹 t 吨= 4 2 兰 ”d :窆参a a - 1 4 【j l , z 0 ;o0 。o i a 式2 - - 4 式中:b ,a 2 ,) 是该块框( b l o c kb o x ) 中最小索引的单元,g 1 ,吐,妇) 是该块框 ( b l o c k b o x ) 中分块的重叠框( o v e r l a y b o x ) 最大索引的单元,郎每个方块的分割处, 是每个重叠框单元的累计聚集函数值、p 知是块框单元的累计聚集函数值。 以前面的二维数组a 为例,数组r p 的计算结果如图2 3 所示,数组r o 是图2 4 中 的未作底纹的部分、数组b p 是图2 4 中作了底纹的部分。 州io 1 23 456 7 8 o389248691 2 _ 11 01 82 1b1 82 971 21 9 21 22 42 91 12 4 3 8l l2 1 3 5 _ _ 一 33 5 65 81 32 1 01 2 471 l 1 381 4 2 3 91 82 3 - _ 一 591 6 2 11 42 l 3 81 42 4 3 0 一 6491 1781 7361 0 。一 76 1 51 9 91 32 3 1 21 62 3 _ 一 81 12 43 11 01 72 9 1 3 2 6 3 9 图2 6 数组r p 的计算结果图2 7 数组r o 、b p 的计算结果 对其中的每一个单元的聚集函数值采用相应的p 如、f 椰与t i p 元数之和,即: p s x 。,x :,】- + + 艘b ,x 2 ,却】 例如对图2 4 中的 单元的计算为6 7 + 2 l + 3 6 + 1 8 = 1 4 2 ,正好是数组p s 4 1 1 7 1 单元。 3 、有效空间相对前缀和s l i p s ( s p a c e - e f f i c i e n tr e l a t i v ep r e f i xs u m ) 查塑查堂堡主兰垡丝苎 有效空间相对前缀和方法与前面的相对前缀和方法相类似,只不过它没有额外利用相对 前缀和方法中的数组r o 和b p ,而是将这些数组中的信息都保存在同一个数组s r p 中。其 计算如公式2 5 所示。以数组a 为倒,其计算结果如图2 5 所示。 艘p k ,x :,x 。】= 瓤m 0 【f l ,:,0 】:a x 。,x :,劫d 式2 - - 5 其中:如果x i = a i 则乒0 否则如果嘶+ 1 而巩+ 女则l f a , + 1 。为每个子块的单元个 数,a 同前。 01 2 345678 35l224633 732687l24 24233345 7 32l53 5 2 82 42l3 34714 2336l 8 5 l1 45 2 7l9334 2422 3l9l3 543l32l96 s r po1234567 8 03561 1262 33 6 173 51 881 53 42 6 29 71 12 91 12 15 571 8 31 51 42 05 11 63 59 91 83 4 4 4 2 31 0372 4l4 56592 441 65 22 6 62 52 43 69 32 l6 11 8 22 34 7 72 4 61 03 42 313 8781 32 36 94 21 01 9 图2 - 1= 维数据立方体数组a图2 - 8 数组s r p 的计算结果 2 1 2 创建和查询聚集c u b e 的算法 1 、创建i d c ( i t e r a t i v ed a t ac u b e ) 聚集c a h e 可通过创建迭代数据立方体i d c ( i t e r a t i v ed a t ac u b e ) ,依次根据维使用 维预集聚技术来创建。 一l a 1 c j ,c 2 ,白】= q 而 趣与,c 2 ,c d 】 k 曲 a 2 h ,c 2 , - i 胁- i山- 1 a d c l ,c 2 ,勺】= 口l 士盯2 n 如- - 盘d , c j 一 毛,如,”,b k l = o k z = o b - - - 0 口h 是由第i 维采用的预集聚技术 所决定 创建i d c 的算法如下: i n p u t :o r i g i n a ld a t ac u b ea o n e - d i m e n s i o n a lt e c h n i q u e s 1 ,e2 ,0 d o u t p u t :p r e - a g g r e g a t e dd a t ac u b ea d a o = a ; f o re a c hd i m e n s i o n6id o f o re a c hc l 0 ,1 ,i h - 1 ,c i j 0 ,1 ,n ;一】- 1j , c h i 0 ,1 ,m + 广1 ) ,c d 0 ,1 ,n d 一1 d o 1 4 c 趣 , 吼 , 口 窆g 厶忡 = 白 ctc 4 b向 口 窆 i | d c 东南大学硕士学位论文 ( a i c l ,c 1 1 ,0 ,c i + 1 ,c d 】,a i c l ,c i 州i 1c i + 1 ,o d 】, i c o n s t r u c t ( a i ,i 【c l9 - , c i 1 ,0 ,c i + 1 ,c d , a i 1 e l ,c l _ i ,1 ,c i + l ,”,c d ,a i i c t ,c 1 1 ,n f u n c t i o noi c o n s t r u e t i n p u t :a r r a ybw i t hnv a l u e sb 【o 】,b 1 】,b 【n - 1 】 o u t p u t :c o r r e s p o n d i n gp r e - a g g r e g a t e da r r a yb i f o r j = 0 t on - 1d o b j 脚= 口“。口【明; k f f i o a i c :,c i 1 ,n ,一1 ,c i + 】,c d ) = 1 ,c i “,c d 】) ; r e t u r n ( b i ( 0 】,b i 1 】,, b i 【n 1 1 ) ; 下面以一维和二维的情况加以说明: 1 ) 一维情况 原数组as r p s 数组p s 数组 3 l5 f 1 | 2 1 2 f 4 1 6 13 f 33 l5 1 6 1 1 , 1 2 f 6 z 3 i 。1 63 l8 m , 1 3 | 1 7 | 2 3 2 6 | 2 9 | 其中:对于s r p s , a o , o 盖l ,8l ,i = i ,。2 ,产口f i ,43 产l ( 0 k 3 ) ,a4 , 4 = l ,口5 ;a5 ,i “6 k _ l ( 0 k 6 ) ,a j = 0 ( j ,k 为其余值) 2 ) 二维情况 35i22463 7 326 8,l2 423334s 32l53528 42 l 33 4 7l 2336l8 51 45271933 2 4223191 32 3561 i262 33 7 351 881 5 3 42 2461 1362 l5 3231 1382 18 42 3l o372 4l 2361 4i9勰i 4571 8l1 03 i3 246l o342 3i 1 351 99 3561 126 2 3 3 73s1 881 53 42 971 l2 9l l2 1钻7 1 51 42 05 l 1 63 59 91 8 4 23l o3 72 4 i 6592 4d1 65 22 2 5 2 4拍9 32 l6 11 8 22 3 2461 0342 31 869 原数据立方体a a l :用s r p s 进行行处理a 2 :用s r p s 进行列处理 对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全培训联系方式填写课件
- 安全培训职责划分课件
- 2025年南平市供电服务有限公司招聘52人考前自测高频考点模拟试题及答案详解(新)
- 2025湖南红花园投资开发有限公司招聘10人模拟试卷及1套完整答案详解
- 2025湖北恩施州来凤县星熠文化科技有限责任公司招聘8人考前自测高频考点模拟试题及完整答案详解
- 2025广东佛山市三水海江昇平建设工程有限公司第一批招聘企业工作人员拟聘用人员(第一批)模拟试卷及完整答案详解
- 安全培训考核表课件
- 2025年合肥综合性国家科学中心大健康研究院招聘4人模拟试卷及答案详解(名校卷)
- 安全培训考核管理平台课件
- 2025年江西农商联合银行金融科技人才招聘25人考前自测高频考点模拟试题参考答案详解
- 粉红丝带课件
- 看守所干警日常管理制度
- 2025年共青团员必背的100个重点知识汇编
- 【《离心泵叶轮的水力设计过程案例综述》2200字】
- 胃手术并发症及处理
- 2025年新闻宣传、新闻采编专业及理论知识考试题(附含答案)
- 2025至2030 中国热成型钢(PHS)行业现状调查与前景策略研究报告
- 执法监督培训课件
- 股权投资基金培训课件
- 千川投手培训课件
- 2025年中国注塑机熔胶筒螺杆市场调查研究报告
评论
0/150
提交评论