




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于关系型数据库olap策略的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于关系型数据库o l a p 策略的研究与实现 摘要 联机事务处理( o l t p ) 已不能满足终端用户对数据库查询 分析的需要,s q i 对大数据库进行的简单查询也不能满足用户 分析的需求。用户的决策分析需要对关系数据库进行大量计算 才能得到结果,而查询的结果并不能满足决策者提出的需求。 因此提出了多维数据库和多维分析的概念,即联机分析处理 ( o n l i n ea n a l y t i c a lp r o c e s s ) ,它是使分析人员、管理人员 或执行人员能够从多种角度,对从原始数据中转化出来的、能 够真正为用户所理解的并真实反映企业维特性的信息进行快 速、一致、交互地存取,从而获得对数据的更深入了解的一类 软件技术。r o l a p 是o l a p 实现方式中最普遍的一种,r o l a p 的实现基本遵从三层客户服务器结构,数据仓库的数据模型 在定义完毕后,来自不同数据源的数据将装入数据仓库中。接 着,系统将根据数据模型需要运行相应的综合程序来综合数 据,并创建索引优化存取时间。最终用户的多维分析请求通过 r o l a p 引擎被动态地翻译为s q l 请求,然后由关系数据库来处 理s q l 请求,最后查询结果经r o l a p 引擎处理后生成多维数据 立方体返回给用户。 本文将r o l a p 技术与传统的报表制作功能集成起来,能够 从对关系型数据库的检索处理中,连续实现多维数据分析和报 表制作处理。多维结构是决策支持的支柱,也是o l a p 的核心。 本文研究如何由用户分析驱动,利用s q l 语句和r o l a p 引擎动 态生成多立方结构,并且结合o l a p 引擎实现多维计算,蛆满 足用户报表及多维分析需求。 关键字:数据仓库,联机分析处理,r o l a p ,数据模型,多维 立方体。 基于关系型数据库o l a p 策略的研究与实现 a b s t r a c t o n l i n ct r a n s a c t i o np r o c e s s ( o l t p ) h a sb e e nin c a p a b l eo f m e e t i n g t h en e e d sw h i c ht e r m i n a lc o n s u m e r sh a v ea b o u t q u e r y i n g a n d a n a l y z i n go fd a t a b a g e ,a n d i th a sa l s on o tb e e ns a t i s f i e d c o n s u m e r st h a ts q l q u e r i e sl a r g ed a t a b a s e d e c i s i o na n a l y s i so f c o n s u m e r r e q u i r e s al a r g en u m b e ro fc a l c u l a t i o no nt h e b i g d a t a b a s e ,w h i c hc a ng e tt h er e s u l t ,a n dt h er e s u l to fq u e 删n gc a n n o tm e e tt h en e e d so fd e c i s i o n m a k c ry e t s ot h ec o n c e p t so f m u l t i d i m e n s i o n a ld a t a b a s ea n dm u l t i d i m e n s i o n a la n a l y s i sa r ep u t f o r w a r d ,v i z o n l i n ea n a l y t i c a lp r o c e s s ,i t g i v e sa n a l y s t , m a n a g e r , o re x e c u t o rt h ea b i l i t yo fi n f o r m a t i o na c c e s sw h i c hi s r a p i d ,a c c o r d a n ta n di n t e r a c t i v ef r o mm u l t ip o i n to fv i e w t h e i n f o r m a t i o nc o m e sf r o mo r i g i n a ld a t a a n dc a nb ec a t c ho nb y c o n s u m e ra n d r e a l l yr e f l e c t st h ec h a r a c t e r o f e n t e r p r i s ed i m e n s i o n s oo l a pi so n ek i n do fs o f t w a r et e c h n o l o g yw h i c hc a r lm a k e t h e mk n o wb e r e ro fd a t a r o l a pi sc o m m o no n eo fr e a l i z a t i o n m o d eo fo l a pa n dt h er e a l i z a t i o no fr o l a pi sb a s i c a l l yo b e y e d t r i t i e rc l i e n t s e r v e rs t r u c t u r e a f t e rt h ed a t am o d e lo fd a t a w a r e h o u s ei sd e f i n e d t h ed a t aw h i c hc o m e sf r o ma l lk i n do f d i f f e r e n td a t as o u r c ew i l lb ec a g e di n t od a t aw a r e h o u s e a n dt h e n s y s t e mw i l lr u nt h ec o r r e s p o n d i n gp r o g r a mt oi n t e g r a t et h ed a t a b a s e do nt h ed a t am o d e la n de r e a t ei n d e x e st oo p t i m i z et h ea c c e s s t i m e t h er e q u i r e m e n to fm u l t i d i m e n s i o n a la n a l y s i so ft e r m i n a l c o n s u m e r sw i l lb ed y n a m i c a l l yt r a n s l a t e dt os q l r e q u i r e m e n tb y r o l a pe n g i n e t h e nr e l a t i o n a ld a t a b a s ew i l lh a n d l et h es q l r e q u i r e m e n t i nt h ee n dt h er e q u e s t i n gr e s u l tw h i c h i sh a n d l e db y r o l a pe n g i n ew i l lb es e n tt oc o n s u m e ra sm u l t i d i m e n s i o n a l c u b e t h ea r t i c l ea d d r e s s e so n e w a y t o i n t e g r a t e t h er o l a p t e c h n o l o g ya n dt r a d i t i o n a lr e p o r tf o l - mf u n c t i o n ,a n dt h ew a yc a n m a n a g e t h es e a r c h e so ft h er e l a t i o n a ld a t a b a s et or e a l i z e m u l t i d i m e n s i o n a ld a t aa n a l y s i sa n dt od e a lw i mt h ee x e c u t i o no f 基于关系型数据库o l a p 策略的研究与实现 r e p o r tf o r mc o n t i n u o u s l y t h em u l t i d i m e n s i o n a ls t r u c t u r ei st h e s t a n c h i o no fd e c i s i o ns u p p o r ts y s t e ma n di sa l s o0 l a pc o r e t h e a r t i c l es t u d i e sh o wt od y n a m i c a l l yc r e a t em u l t i c u b es t r u c t u r e u s i n gs q ll a n g u a g e a n dr o l a p e n g i n e a n dt or e a l i z e m u l t i d i m e n s i o n a lc a l c u l a t i o nc o m b i n e dw i t h0 l a p e n g i n ea n d t o s a t i s f yt h er e p o r tf o r r f la n d m u l t i d i m e n s i o n a la n a l y s i sr e q u i r e m e n t o fc o n s l l m e 】fb 、,d r i v eo f u s e r sa n a l y s i s k e y w o r d :d a t aw 甜e h o n s e ,0 l a p , r o l a p d a t am o d e l , m u l t i c u b e i i i 基于关系型数据库o l a p 策略的研究与实现 0 前言 数据仓库技术及o l a p 技术是近些年来盯界比较引人注 意的技术,如何将这两项技术运用于传统信息管理系统,解决 传统信息系统中众所周知的弊端,成为主要研究课题。本文在 对r o l a p 实现方法探讨分析的基础上,利用数据仓库和 o l a p 思想,进行了系统设计、实践开发,实现了对跨行业、 异构的数据采集、汇总及报表生成功能的通用报表分析工具, 经过实际应用证明,该工具具备了一定的通用性和实用性。 在第一章中简单介绍了作为o l a p 基础的数据仓库的概 念,数据仓库的演变以及o l a p 与数据仓库对数据处理的异 同点。 第二章介绍了o l a p 的概念,理论及产生背景,核心定义, 两类实现方法以及与d m 的关系和发展趋势,其中重点介绍 了两类实现方法,为后续的r o l a p 作铺垫。 接下来的第三章详细地讨论了r o l a p 的理论及应用范围 包括数据模型、分析方法、索引机制、层次结构、虚拟维等, 并与m o “垤进行比较,简单介绍了实现方法,最后阐述了 r o l a p 的局限性。 第四章分四部分,包括物理数据存储、多维处理和计算、 多维查看以及索引机制,结合m o l a p 详细地讨论这两种实现 方法的优缺点,最终定位于r o l a p 的实现方法的讨论上。 第五章介绍通用报表分析工具的项目背景,及经营计划与 统计分析项目简介,对此项目进行分析说明,以及采用相应的 解决方案。 第六章结合项目,详细介绍了如何采用数据仓库思想组 织、管理各行业数据,如何采用r o l a p 思想,满足企业级统 计报表与经营分折的需要,及如何实现通用报表分析工具。这 章的最后,总结了该工具的适用范围、优缺点以及需要改进的 方面。 最后是一点感想和展望。 基于关系型数据库o l a p 策略的研究与实现 1 数据仓库概述 数据仓库( d a t aw a r e h o u s e ,简写为d w ) 及联机分析处理 ( o n l i n ea n a l y a e a lp r o c e s s i n g , 简写为o l a p ) 技术是近年来数据 库技术领域的一个研究重点和热点。数据仓库是联机分析处理 技术的基础:联机分析处理以多维分析为基础,满足了在管理 和决策过程中对数据进行多层面、多角度的分析处理的要求。 1 1 数据仓库概念 1 9 9 3 年,w = i l l i 锄h i n m o n 编写了本具有里程碑意义的 书“b u i l d i n gt h e d a t a w a r e h o u s e h n m o n ”,在这本书中,他定 义数据仓库为“一个面向主题的、集成的、随时间变化的非易 失性数据的集合”,用于支持管理层的决策过程。 数据仓库中的数据面向主题,与传统数据库面向应用相对 应。主题是一个在较高层次上将数据归类的标准,每一个主题 对应一个宏观的分析领域:数据仓库的集成特性是指在数据进 入数据仓库之前,必须经过数据加工和集成,这是建立数据仓 库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原 始数据结构做一个从面向应用向面向主题的转变;数据仓库的 稳定性是指数据仓库反映的是历史数据的内,而不是日常事务 处理产生的数据,数据经加工和集成进入数据仓库后是极少或 根本不修改的;数据仓库是不同时间的数据集合,它要求数据 仓库中的数据保存时限能满足进行决策分析的需要,而且数据 仓库中的数据都要标明该数据的历史时期。 数据仓库将大量用于事物处理的传统数据库数据进行清 理、抽取和转换,并按决策主题的需要进行重新组织。数据仓 库的逻辑结构可分为近期基本数据层、历史数据层和综合数据 层( 其中综合数据是为决策服务的) 。数据仓库的物理结构一 般采用星型结构的关系数据库。星型结构由事实表和维表组 成,多个维表之间形成多维数据结构。星型结构的数据体现了 空间的多维立方体这种高度集中的数据为各种不同决策需求 基于关系型数据库o l a p 策略的研究与实现 提供了有用的分析基础。 1 2 从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中 心,进行事务处理、批处理、决策分析等各种数据处理工作, 主要的划分为两大类:操作型处理和分析型处理( 或信息型处 理) 。操作型处理也叫事务处理,是指对数据库联机的日常操 作,通常是对一个或一组纪录的查询和修改,主要为企业的特 定应用服务的,注重响应时间,数据的安全性和完整性;分析 型处理则用于管理人员的决策分析,经常要访问大量的历史数 据。而传统数据库系统优于企业的日常事务处理工作,而难于 实现对数据分析处理要求,已经无法满足数据处理多样化的要 求。 近年来,随着数据库技术的应用和发展,人们尝试对d b 中的数据进行再加工,形成一个综合的,面向分析的环境,以 更好支持决策分析,从而形成了数据仓库技术( d a m w a r e h o u s i n g ,简称d w ) 。作为决策支持系统( d e c i s i o n m a k i n g s u p p o r ts y s t e m ,简称d s s ) ,数据仓库系统包括: 数据仓库技术: 联机分析处理技术( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,简 称o l a p ) ; 数据挖掘技术( d a t am i n i n g ,简称d m ) ; 数据仓库弥补了原有的数据库的缺点,将原来的以单一数 据库为中心的数据环境发展为一种新环境:体系化环境。如图 1 1 所示: 基于关系型数据库o l a p 策略的研究与实现 图1 1 数据仓库体系化环境 1 30 l a p 与数据仓库 随着数据仓库的发展,o l a p 也得到了迅猛的发展。多维 模式和数据立方体( d a t ac u b e ) 是数据仓库和联机分析处理技 术的核心概念,数据仓库侧重于存储和管理面向决策主体的数 据:而o l a pl l j 倾t j 重于数据仓库中的数据分析,并将其转换 成辅助决策信息。0 l a p 的一个重要特点是多维数据分析,这 与数据仓库的多维数据组织正好形成相互结合、相互补充的关 系。o l a p 技术中比较典型的应用是对多维数据的切片和切 块、钻取、旋转等,它便于使用者从不同角度提取有关数据。 o l a p 技术还能够利用分析过程对数据进行深入分析和加工。 例如,关键的指标数据常常用代数方程进行处理,更复杂的分 析则需要建立模型进行计算。 4 基于关系型数据库o l a p 策略的研究与实现 20 l a p 概述 联机分析处理( o l a p ) 的概念最早是由关系数据库之父 e e c o d d 于1 9 9 3 年提出的,当时,c o d d 认为联机事务处理 f o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需求。用户 的决策分析需要对关系数据库进行大量计算才能得到结果,而 查询的结果并不能满足决策者提出的需求。因此c o d d 提出了 多维数据库和多维分析的概念,即o l a p 。虽未得到工业界的 一致公认,但大家对联机分析处理的概念基本达到共识。 2 10 l a p 的概念 联机分析处理( o 咀一l i n e a n f l y f i c a l p r o c e s s ) ,是使分析人员、 管理人员或执行人员能够从多种角度,对从原始数据中转化出 来的、能够真正为用户所理解的并真实反映企业维特性的信息 进行快速、一致、交互地存取,从而获得对数据的更深入了解 的一类软件技术。o l a p 的目标是满足决策支持或多维环境特 定的查询和报表需求,它的技术核心是“维”这个概念,因此 o l a p 也可以说是多维数据快速分析工具的集合。 ( 1 ) 快速性 用户对o l a p 的快速反应能力有很高的要求。系统应能在 5 秒内对用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主 线索,影响分析质量。对于大量的数据分析要达到这个速度并 不容,因此就更需要一些技术上的支持,如专门的数据存储格 式、大量的事先运算、特别的硬件设计等。 ( 2 ) 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分 析。尽管系统需要事先编程,但并不意味着系统已定义好了所 有的应用。用户无需编程就可以定义新的专门计算,将其作为 分析的一部分,并以用户理想的方式给出报告。用户可以在 基于关系型数据库o l a p 策略的研究与实现 o l a p 平台上进行数据分析,也可以连接到其他外部分析工具 上,如时问序列分析工具、成本分配工具、意外报警、数据开 采等。 ( 3 ) 多维性 多维性是o l a p 的关键属性。系统必须提供对数据分析的 多维视图,包括对层次维和多重层次维的完全支持。事实上, 多维分析是分析企业数据最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统 应能及时获得信息,并且管理大容量信息。这里有许多因素需 要考虑,如数据的可复制性、可利用的磁盘空间、o l a p 产品 的性能及与数据仓库的结合度等。 2 2o l a p 理论及应用背景 数据库访问工具从查询、报表制作工具向分析工具进化, 它以制作查询报表为主要目的而诞生的,现在正以o l a p 功 能、数据挖掘功能为核心逐渐扩充功能。从提供单一数据库检 索手段的前端工具向涉及支持用户的决策支持、提供分析手法 和探索发展战略功能扩展。本文将o l a p 技术与传统的报表 制作功能集成起来,能够从对关系型数据库的检索处理,连续 实现多维数据分析和报表制作处理。多维结构是决策支持的支 柱,也是o l a p 的核心。本文研究如何由用户分析驱动,利 用s q l 语句动态生成多立方结构( 多立方结构是指将大的数 据结构分成多个多维结构。这些多维结构是大数据维数的子 集,面向某一特定应用对维进行分割,即将超立方结构变为子 立方结构。它具有很强的灵活性,提高了数据“特别是稀疏数 据”的分析效率:超立方结构是指用三维或更多的维数来描述 一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点 上,数据空间的各个部分都有相同的维属性。这种结构可应用 在多维数据库和面向关系数据库的o l a p 系统中,其主要特 点是简化终端用户的操作) :数据以星型结构或雪花结构进行 存储;采用在关系数据库上完成复杂的多维计算即产生多s q l 语句同时与外部o l a p 引擎相结合实现多维计算的能力,以 满足用户分析需要 6 基于关系型数据库o l a p 策略的研究与实现 现实生活中联机事务处( o l t p ) 己不能满足终端用户对 数据库查询分析的需要,s q l 对大数据库进行的简单查询也 不能满足用户分析的需求。用户的决策分析需要对关系数据库 进行大量计算才能得到结果,而查询的结果并不能满足决策者 提出的需求;随着计算机技术的飞速发展和企业界不断提出新 的需求,数据仓库技术应运而生。数据仓库技术的出现解决了 上述问题,然而构建数据仓库又是一个系统而漫长的过程,需 要较高的成本。运用数据仓库技术来满足用户分析需求同时要 求基于关系型数据库实现低成本高效率,这样的数据库访问工 具应运而生,其具有较广阔的应用前景和市场。如数据集市、 数据市场等方面的应用。 2 3o l a p 的基本核心 联机分析处理的过程就是根据数据分析的要求,从原始数 据中构造各种数据立方体,并对立方体执行有关的操作,再把 结果返回给用户的过程。所以数据立方体是以多维分析为基础 的联机分析处理技术的核心机制。建构立方体的基本概念如 下: 指标( m e a s u r e s ) :指标是能够反映主题特色的属性。它 由指标码、其他指标属性、指标成员组成的域组成,它可以直 接对应一个属性,也可以是某些属性的函数运算或特定模型下 的计算结果,同时每个指标还对应一个时间戳或其他标志其变 化的属性,以响应同一个指标可以拥有不同计算方法的需求, 如销售量、销售额等。 维( d i m e n s i o n s ) :维是事实信息的属性,是观察主题数 据的不同角度,每个维由维码与维码确定的其他属性、全体维 成员组成该维的维域组成。每个维都至少有维码、时间戳f 或 其他标志其变化的属性) 、维层次、维双亲这几个成员属性。 维成员一般变化不大,数量也相对较小。 维成员( d i m e n s i o nm e m b e r ) :维的一个取值称为该维 的一个维成员。如果一个维是多层次的,那么该维的维成员是 在不同维层次的取值的组合。例如,我们考虑时间维具有日期、 月份、年这三个层次,分别在日期、月份、年上各取一个值组 合起来,就得到了时间维的一个维成员。 基于关系型数据库o l a p 策略的研究与实现 粒度( u n i t s ) :粒度是划分维的单位,如时间维可按日 计,也可按旬、按月、按年计,这些信息一般没有变化或变化 很小。 产 品 维 时间维 图2 1 指标、维、维的粒度之间的关系 图2 1 就是一个立方体,说明了指标、维、粒度之间的关 系( 以产品销售为例) 。图中时间维的粒度是日,地点维的粒 度是地区,产品维的粒度是产品类型。每个交点就是指标( 实 际的销售情况) ,即矾日x x 地区x x 产品的销售数据。决策者 的查询无非就是对立方体进行某种操作的过程。值得注意的是 指标和维也不是一成不变的,有时也会根据决策者不同的思考 角度而发生变化。维和粒度的划分是根据主题而来的:粒度越 粗表示细节程度越低、综合程度越高;粒度越细表示细节程度 越高、回答查询的种类就越多。维和粒度划分既影响到数据仓 库中数据量的多少,也影响至q 数据仓库所能回答询问的种类, 所以合理划分维和粒度可以优化数据仓库的数据结构,有利于 查询优化和分析效率的提高。 2 40 l a p 功能简介及两类实现方法 2 4 1 功能简介 o l a p 的基本特征是满足用户从多角度观察目标即多维分 析,那么多维分析就是o l a p 工具的基本功能。下面是评价 o l a pt 具的一些原则: 8 基于关系型数据库o l a p 策略的研究与实现 1 ) 多维查看的概念 2 ) 透明性 3 ) 可访问性 4 ) 报告性能的一致性 5 ) 客户- - n 务器结构 6 ) 维的普通性 7 ) 动态稀松矩阵的管理 8 ) 多用户的支持 9 ) 非限制的跨维操作 1 0 ) 直觉数据操作 1 1 ) 灵活报表 1 2 ) 非限制的维和聚合层次 根据0 l a p 分析工具的基本原则,设计0 l a p 工具的基本功 能特征。 1 ) 具备灵活报表功能。分析人员、管理人员或执行人员 能够从多种角度,对从原始数据中转化出来的、能够真正为用 户所理解的并真实反映企业维特性的信息进行快速、一致、交 互地存取,但最终的0 l a p 分析结果需要生成报表,提交高级 管理人员使用,作为决策依据。因此报表功能是不可或缺的。 2 ) 非限制的维和聚合层次。允许用户自己选择维和聚合 层次,维用户观察事实的角度;聚合层次是维的结构层次。 如地点维中分国家或地区、省、市、区县等。聚合实现可以根 据星形模型或雪花模型中维的编码进行截取实现。 3 ) 多维查看。让用户按自己需要的形式组织维的观察层 次。如地点维、产品维和时间维的顺序,也可以按产品维、地 点维和时间维观察,维的顺序自行定义。 2 4 2 两类实现方法 o l a p 是数据库上层的一个应用,它需要有底层的数据库 作为它的数据来源当今在o l a p 实现方法的研究主要有两 个方向:基于多维数据库的o l a p ( m 0 u 心) 和基于关系数 据库的o l a p ( r o l a p ) 这里先简要介绍m d d b 下的o l a p 多维数据库( m u l t i d i m e s i o n a l d a t a b a s e ,m d d b ) 可以简单地理 解为:将数据存放在一个n 维数组中,而不是像关系数据库那 基于关系型数据库o l a p 策略的研究与实现 样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通 过多维视图来观察数据。多维数据库增加了一个时间维,与关 系数据库相比,它的优势在于可以提高数据处理速度,加快反 应时间,提高查询效率。多维数据库或立方体恰好跳过按照单 笔交易形式建立数据结构的层面,直接根据销售时期、销售渠 道、顾客和国家等类项,即以多维结构形式存贮数据。这种数 据结构便于用户查看,使得m o l a pi 具用起来特别快捷灵 活。但此类多维数据库的管理需要专业技能,而且一般只限于 2 0 个左右十亿字节( g i g a b y t e s ) 规模的数据库。r o l a p 这 类工具并不存储数据,而是根据具体的查询要求从关系数据库 中提取数据,使用起来极为灵活。由于关系数据库的存储量远 远大于多维数据库,也相应增加了r o l a p 工具的数据分析 量。因此,r o l a p 工具尤其适合想对精心筛选的数据( 如日 销售额) 进行分析的零售商和有意研究大型顾客数据库的企 业,如保险公司或理财服务公司等 2 50 l a p 与数据挖掘 数据仓库将异构的数据集成起来,经过加工整理变成一个 可用的数据资源,而数据挖掘( d a t am i n i n g ) 和o b 谨则是 在数据仓库上进行操作,它们都是基于数据仓库的分析工具。 数据挖掘和o u 妤最本质的区别在于,数据挖掘是一种挖掘 性的分析工具,它主要是利用各种分析方法主动地去挖掘大量 数据中蕴含的规律,而o l a p 则是一种求证性的分析工具, 即已有一个假设,通过o l a p 来得到验证。o l a p 所采用的验 证方法多是基于数据立方体法,即通过对数据立方体的切片、 切块、旋转、钻取等操作来实现对数据立方体快速的多维存取 所谓多维存取,是从不同的角度根据数据仓库中的不同主题来 得出不同的结论。数据挖掘和o l a p 这两种分析工具本身是 相辅相成的,因为o l a p 可以帮助人们提出假设,也可以验 证数据挖掘预测出的结果:数据挖掘能够挖掘出一个结论,但 这个结论正确不正确,可以用o l a p 去验证。 o 基于关系型数据库o l a p 策略的研究与实现 2 60 l a p 发展趋势及研究方向 o l a p 发展到w e b 上,出现基于w e b 的联机分析处理就 是w e b 技术与o l a p 技术的结合;o l d m 即联机分析处理和 数据挖掘相结合也是o l a 发展趋势之一;支持o l a p 的多维 数据库方面的研究也是最近比较关注的热门问题; c o m d c o m 开发模式应用到o l a p 工具,提高工具的维护、 扩展等等,这些都是o l a p 发展趋势和研究方向。 基于关系型数据库o i 。a p 策略的研究与实现 3r o l a p 的研究 o l a p 产品分两类:一类是把数据存储到多维框架中,存 入客户”立方体”或服务器数据库;一类用作多维格式转换程 序,即从关系数据库中提取数据的同时转换这些数据的格式。 前者包括桌面o l a p 产品和多维数据库,后者通常指r o l a p 工具,即关系o l a p 工具。 3 1r o l a p 产生背景 o l a p 允许用户多维观察和分析数据。在o l a p 工具中, m o l a p 系统缺乏标准,每一个m d b m s ( m u l t i d i m e n s i o n a l d a t a b a s em a n a g e m e n ts y s t e m ) 都有自己专用的客户端接口, 基于m d b m s 的客户端访问工具不可能是通用的,虽然 m o l a p 能够较好地处理汇总数据,但必须对数据进行预处 理,这需要大量的处理时间和存储空间。比如一个2 0 0 m b 的 输入文件在m o l a p 系统中很容易扩展到5 g b ,因此目前关 于多维分析领域的工具和产品大多是r o l a p 工具。与 m o l a p 不同的是,r o l a p 是建构在受广泛支持的r i ) b m s 上,同时采用业已被业界公认的、熟悉的和广泛采用的技术。 r o l a p 不仅支持大数据量的处理,而且具备了高性能,跨平 台,充分利用硬件性能等特点。 3 2r o l a p 理论及应用范围 通常情况下,大容量和支持并行处理的r d b m s 作为存储 原子和结构化的数据仓库来使用。r o l a p 的数据库采用特殊 的数据模型如星型模型或雪花模型,来存储和管理数据以及表 示多维模型,并且利用索引机制或者实例化视图,以便能有效 地回应各种查询。数据模型的研究以及如何建立索引机制或者 是如何实例化视图,都是r d b m s 理论研究的主要内容,例如 有文章提出了基础的数据立方体操作定义及运算符,还有文献 2 基于关系型数据库o l a p 策略的研究与实现 提出了一个支持多维数据库和多维分析的关于数据立方体的 代数;还有许多关于位图索引、b - - t r c c 以及l i b t r c c 等索引 机制的文章。当然联机分析处理技术中还有其他一些比较重要 且关键的概念如成员属性、虚拟维、虚拟立方体、层次等,这 些概念在实践中也起着不可忽视的作用。 3 2 1 数据模型 大多数数据仓库都采用“星型模型”来表示多维概念模型。 数据库中包括一张“事实表”,对于每一维都有一张“维表”。 “事实表”中的每条元组都包含有指向各个“维表”的外键和 一些相应的测量数据。“维表”中记录的是有关这一维的属性。 事实表中的每一元组包含一些指针( 是外键,主键在其他表 中) ,每个指针指向一张维表,这就构成了数据库的多维联系。 相应每条元组中多维外键限定数字测量值。在每张维表中除包 含每一维的主键外,还有说明该维的一些其他属性字段。维表 记录了维的层次关系。“雪花模型”是对星型模型的扩展。它 对星型模型的维表进一步层次化,原有的各维表可能被扩展为 小的事实表,形成一些局部的“层次”区域。它的优点是:通 过最大限度地减少数据存储量以及联合较小的维表来改善查 询性能。雪花模型增加了用户必须处理的表数量,增加了某些 查询的复杂性。但这种方式可以使系统进一步专业化和实用 化,同时降低了系统的通用程度。前端工具仍然要用户在雪花 的逻辑概念模式上操作,然后将用户的操作转换为具体的物理 模式,从而完成对数据的查询。 3 2 2 分析方法 针对多维模型产生的o l a p 分析方法,一般有以下几种: ( 1 ) 旋转( p i v o t i n g ) 即将表格的横、纵坐标交换( x ,y ) 一 ( y x ) 。 ( 2 ) 上钻和下钻( r o l lu po rd r i l ld o w n ) 根据维的层次提升 所关心的数据或降低观察层次。 ( 3 ) 切片( s l i c ea n dd i c e ) 主要根据维的限定做投影、选择 基于关系型数据库o l a f 策略的研究与实现 等数据库操作从而获取数据。 3 2 3 索引机制 索引是用来加速数据加载和定位导航的内部结构。针对决 策支持而设计的数据库一般会有若干个不同的索引,以加速尽 可能多的查询进程。在支持多种索引方案的同时维持了较小的 索引空问是索引机制研究的主要课题。 1 传统的b + t r e e ( 平衡树) 索引是通过跟踪一个选择的数 据字段的值和直接指向包含该数据项的数据页的方式来提供 快速查找数据记录。若为一个特定的客户查找信息记录就只有 快速读取索引,然后直接定位到包含该客户信息的数据页中。 索引方式通过直接指向相关信息来消除高代价的表扫描。b + t r e e 非常适合于查找并取回少量的行。但对典型的数据仓库的 复杂交互式查询应用b + t r e e 有三个缺点: 首先,b + t r e e 只在索引是高度可选择饵i g l l l ys e l e c t i v e ) 又称之为高基数( c a r d i n a l i t y ) 的时候才有价值,对一些唯一值 极少的( 低基数) 数据字段就几乎毫无价值。 b + t r e e 索引第二个限制是在数据仓库中构造和维护索引 的代价。由于b + t r e e 索引包含实际数据和其他信息( 如指针 等) ,因而使得索引需占用一定的空间和时问。如果构造所有 相关的索引:数据仓库就会占据2 4 倍原始数据空间。当成 批插入舯j 除时,索引就非常敏感,有可能失去平衡并降低性能。 通常说来,l o 1 5 的数据修改会导致重建索引。 最后,b + t r e e 索引设计用于简单查询及已知公共存取路 径的环境下才有优点,而在数据仓库应用中,通常是复杂的查 询,并经常带有分组及聚合条件此时,b + t r e e 索引往往是 无能为力。 2 b i t - m a p ( 位图) 索引和使用b + t r e e 相比,位图为每个记 录的名字段用给定真或假( ”l ”或”0 ”) 的方式表示。 传统的位图索引突破了b + t r e e 索引的一些限制。位图索 引可以非常有效地对低基数数据进行索引,但位图式索引却不 适用于高基数数据,在聚集数据、完成关系联结和取回原始数 据值等方面的效率不高。 4 基于关系型数据库o l a p 策略的研究与实现 3 2 4 层次结构 通常大多数维中都包含一个层次结构,如地点维分为国 家、地区、州、城市四个层次。当提出一个o l a p 查询时, 层次中的级别概念特别重要。例如用户想看一个由产品列和地 点行所形成的矩阵时,他应该指出是想看地点维所有级别的数 据,还是想看城市或州一级的数据,或是利用层次关系步步 地向下深入访问到各个级别中去。层次结构概念是虚拟维、虚 拟立方体的基础,也是向上汇总和向下钻取两个操作的基础。 3 2 5 虚拟维 虚拟维是一种特殊维,它由另一维的成员属性映射而成, 可被用于立方体中,如,建立产品尺码大小这个虚拟维后可以 按产品按尺码汇总销量。抽象地讲虚拟维是基于维成员的属 性,按照某种条件作用在维成员集合上的一种划分或覆盖。 在实际应用中,通常不需要在维的所有成员上进行聚集操 作,更多的时候是在具有某种属性的维成员上进行聚集操作, 这时通常将位于目标层次的维成员抽出来,在其基础上建立虚 拟维。例如可以把月份分为奖励月和非奖励月两个子集,在奖 励月的基础上建立虚拟维,从而在进行分析时可以沿着奖励月 向下钻取或向上汇总。 3 2 6 应用范围 一般来说,适合使用多维数据技术的应用有: 1 ) 财政、金融分析和报表 2 ) 预算 3 ) 促销跟踪 4 ) 质量保证和质量控制 5 ) 产品利润率 6 ) 测量分析等 基于关系型数据库o l a p 策略的研究与实现 3 3r o l a p 与m o l a p m o l ”,即m u l t i d i m e n s i o no l a p ,将按照主题定义的 o l a p 分析所要的数据,生成并存储成多维数据库,形成“超 立方体”的结构。生成的多维立方体已经计算生成了一些汇总 值。当用户发出请求时,从多维立方体中取得数据,而不是从 数据仓库中取得数据,这样对用户响应的时间快,但由于多维 立方体的生成,造成了数据的存储空间增大。并且多维立方体 中,不可能存储大量的细节数据,综合数据较多,所以分析的 颗粒度不会太细。r o l a p 以关系型结构进行多维数据的表示 和存储,而不生成多维立方体,只是存储数据模型与数据仓库 数据之间的映射关系,真正的关系物理存储在数据库中。在进 行多维分析时,o u 心服务器根据定义的模型,根据用户的分 析需求,从数据仓库中取得数据,进行实时分析。这样增加了 对用户的响应时闻,但数据只存储在一次,相对m o l a p ,节 省了空间,并且分析可以到具体细节数据,即考察数据的颗粒 度较小。当分析应用的灵活性较大,或进行多因素分析预测( 如 信用积分卡因素分析) 时,应以r o l a p 为主。 此外还有其它类型的o l a p 工具,如h o l a p 在m o l a p , r o l a p 中间提出了折中的鳃决方案。根据对用户经常用到的 维度和测量值的分析,将它们生成m d d b ,而与这些维度和 测量值相关的详细数据,仍然以关系型数据的形式保存在数据 仓库中,这样既解决了o l a p 分析的速度问题、存储问题、 也解决了对详细数据的分析问题:d o l 心即d c s k t o p o l a p , 是将o l a p 分析要用到的数据,传输并存储到用户的客户端。 这样用户的访问将不受网络瓶颈的制约,但操作的安全性和数 据的安全性难以保障,并且存在管理性和维护性的问题。此种 应用只是应用在小型的项目中。 m o l a p 和r o l a p 各有所长。m o l 廿是近来应多维分析 而产生的,它以多维数据库为核心。多维数据库在数据存储及 综合上都有着关系数据库不可比拟的一些优点。但它毕竟是一 种新技术,在许多方面还有待于进一步提高。而r o l a p 则以广 泛应用的r d b m s 为基础,因此在技术成熟及各方面的适应性 上较之m o l a p 占有一定的优势。 基于关系型数据库o l a p 策略的研究与实现 3 4r o l a p 实现方法 数据仓库的数据模型在定义完毕后,来自不同数据源的数 据将装入数据仓库中。接着,系统将根据数据模型需要运行的 相应的综合程序来综合数据,并创建索引优化存取时间。最终 用户的多维分析请求通过r o l a p 引擎被动态地翻译为s q l 请求,然后由关系数据库来处理s q l 请求,最后查询结果经 多维处理后返回给用户。 3 5r o l a p 局限性 正如前面所说,r o l a p 以传统的关系数据库系统为基础, 安全性及存取控制均基于表,封锁基于表、页面或行。由于这 些同应用中的多维概念不直接相关,r o l a p 工具必须自己对 安全及存取控制进行管理,因此,有可能绕过r o l a p 的安全 机制通过其它途径直接存取数据库。r o l a p 用关系表来模拟 多维数据的,因此其存取较m o l a p 复杂。首先用户的分析请 求由r o u 心服务器转为s q l 请求,然后交由r d b m s 处理, 处理结果经多维处理后返回给用户。而且,s q l 并不能处理 所有的分析计算工作,如记录间的计算,s q l 就不能直接处 理,只能依靠附加的应用程序来完成。r o l a p 实现不如 m o u 址简明,对开发人员的经验及技术要求较高,并且维护 工作量也比较大。 1 7 基于关系型数据库o l a p 策略的研究与实现 4r o l a p 的实现 r o l a p 的实现基本遵从三层客户服务器结构,但在具体 实现上对于客户和服务器之间的功能和数据如何分配差别很 大。一些工具把应用专有功能和最终用户功能都放在客户端, 而另一些则把这些等级的功能分割到客户和服务器中,从而构 成事实上的三层结构。另外,不少工具不仅可以管理数据仓库 中的综合数据,而且可以管理详细数据,实际上起到了数据抽 取工具和仓库管理工具的作用。在o l a p 服务器端的数据组 织方法不同。一般来说,数据仓库中的操作细节数据一般用关 系数据库系统进行管理,但对于综合性数据利用现有的关系数 据库技术来模拟多维数据。结合m o l a p ,对r o l a p 的实现 作一些讨论。 4 1 物理数据存储 数据库的最底层是物理输入的数据和被计算过的结果。在 这层,数据不是开放的,它的访问只
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年公务员(国考)模拟题库及参考答案详解【考试直接用】
- 2025年度招投标与合同管理咨询项目合作协议
- 2025广场外墙清洗工程合同
- 2025医学检验(士)预测复习及参考答案详解【突破训练】
- 2025年保育员考试试题(附答案)
- 2025年远程医疗的医疗服务可及性分析
- 2025年法硕(法学)考研真题及答案解析
- 2025年远程协作工具的效率提升与团队管理优化
- 2024-2025学年反射疗法师3级考前冲刺练习题含答案详解(完整版)
- 2025年执业药师之《西药学专业二》经典例题【夺分金卷】附答案详解
- 电气柜安装服务合同范本
- 盆腔炎性疾病护理查房
- DB11T 2440-2025 学校食堂病媒生物防制规范
- 高压氧的健康宣教
- 2025至2030中国硅单晶生长炉行业项目调研及市场前景预测评估报告
- 成人床旁心电监护护理规程
- 食用菌种植项目可行性研究报告立项申请报告范文
- 2025版技术服务合同协议
- 焦炉机械伤害事故及其预防
- GB 5768.1-2025道路交通标志和标线第1部分:总则
- 江西红色文化考试试题及答案
评论
0/150
提交评论