(计算机应用技术专业论文)基于数据仓库和olap的综合决策支持系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于数据仓库和olap的综合决策支持系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于数据仓库和olap的综合决策支持系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于数据仓库和olap的综合决策支持系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于数据仓库和olap的综合决策支持系统的研究与实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库和olap的综合决策支持系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机的普及和关系数据库系统的巨大成功,各种数据库系统以前所未 有的速度开发出来并在各行业广泛应用,使得事务处理变得更加准确、高效,积 累的数据更是以指数级的速度增长:面临着海量数据的管理和分析,数据泛滥、信 息贫乏困扰着决策者。所以必须寻求一种新的技术和方法,从海量数据中挖掘出 有用的信息,从而为人们的决策提供支持。数据仓库相关技术以及联机分析处理 工具的不断发展和完善,使得研究和设计基于数据仓库的决策支持系统成为新的 发展方向。 目前,城市管理存在不同的信息系统之间数据不能兼容、资源难以共享,同 时对多年来积累的大量历史数据无法进行有效的汲取、分析等问题因此,以数 据仓库和o l a p 为技术支持建立广州市城市管理决策支持系统为领导行政决策和 协调工作提供帮助,是当前迫在眉捷的事情。 本文首先对国内外决策支持系统( d s s ) 的发展现状进行了分析,介绍了数 据仓库、o l a p 的相关概念,并对数据仓库和o l a p 与传统的相应技术进行了比较 和分析,说明他们的优势所在。然后结合广州市城市管理决策支持系统实例,在 详细论述了城市管理的业务现状、主要业务数据以及决策支持系统的主要需求的 基础上,给出了广州城市管理决策支持系统的体系结构和模块设计详细讲述了 系统的设计和实现过程:首先通过数据转换服务( f i r s ) ,实现了对多种不同数据源 的的数据进行抽取、净化、转换和装载:利用m i c r o s o f t 提供的o l a ps e r v i c e s 工具,根据相应的事实表和维表建立了部件分析多维立方体数据模型,满足多维 分析的需要:并且通过对数据分析、决策分析需求的分析,完成了数据查询、分 析等多种展现方式,并制作了报表。 关键词:数据仓库,o l a p ,决策支持系统,d t s 至二些奎兰:耋堡圭兰竺鲨三 a b s t r a c t w i t ht h ep o p u l a r i z a t i o no fc o m p u t e r sa n dr e l a t i o n a ld a t a b a s es y s t e m s t r e m e n d o u ss u c c e s s ,v a r i o u sd a t a b a s es y s t e mw i t hu n p r e c e d e n t e ds p e e du p d e v e l o p m e n ti na l ls e c t o r sa n de x t e n s i v ea p p l i c a t i o nw h i c hm a k e sb u s i n e s s b e c o m en l o r ea c c u r a t e 、e f f i c i e n ta n dm o r ea c c u m u l a t e dd a t ao nt h e e x p o n e n t i a lr a t eo fg r o w t h ;f a c e dw i t hm a s s i v ed a t am a n a g e m e n ta n d a n a l y s i s ,d a t as p r e a db u ti n f o r m a t i o n p o o rt r o u b l i n gp o l i c y - m a k e r s s o w em u s tf i n dan e wt e c h n o l o g ya n dm e t h o d st om i n iu pu s e f u li n f o r m a t i o n f r o mm a s s i v ed a t af o rt h ep e o p l e sd e c i s i o nt op r o v i d es u p p o r t w i t h d a t aw a r e h o u s et e c h n o l o g ya n do n l i n ea n a l y t i c a lp r o c e s s i n gt o o lf o rt h e c o n t i n u o u sd e v e l o p m e n ta n di m p r o v e m e n t ,b a s e do nr e s e a r c ha n dt h ed e s i g n o ft h ed a t aw a r e h o u s ed e c i s i o ns u p p o r ts y s t e me n t e r e dan e wd i r e c t i o no f d e v e l o p m e n t a tp r e s e n t ,t h e r ea r ed i f f e r e n tu r b a nm a n a g e m e n ti n f o r m a t i o n s y s t e m sd a t aw h i c hh a v ep r o b l e m ss u c h a si n c o m p a t i b l e 、h o wt os h a r e r e s o u r c e sa n da c c u m u l a t e dt h el a r g ea m o u n to fh i s t o r i c a ld a t ao v e rt h e y e a r sb u tt h a tc a nn o tb ee f f e c t i v e l y1 e a r n ,a n a l y s i sa n do t h e ri s s u e s t h e r e f o r e ,i ti sh i g ht i m et h a tt h ee s t a b l i s h m e n to ft h eg u a n g z h o uc i t y m a n a g e m e n td e c i s i o ns u p p o r ts y s t e mb a s e do nd a t aw a r e h o u s ea n do l a p t e c h n o l o g yf o rt h ea d m i n i s t r a t e ra n dd e c i s i o n sp r o v i d ea s s i s t a n c e f i r s t ,t h ep a p e ra n a l y z e st h ec u r r e n ts t a t eo fd e v e l o p m e n to ft h e d e c i s i o ns u p p o r t s y s t e m ( d s s ) ,i n t r o u d u c e dd a t aw a r e h o u s ea n d o l a p c o n c e p t s ,c o m p a r i s o na n da n a l y s i st h ed a t aw a r e h o u s ea n do l a pw i t ht h e t r a d i t i o n a lt e c h n o l o g y ,n o t et h e i ra d v a n t a g e t h e nt o6 u a n g z h o uc i t y m a n a g e m e n td e c i s i o ns u p p o r ts y s t e mf o re x a m p l e ,d e s c r i b e di nd e t a ilt h e o p e r a t i o n a lm a n a g e m e n t s t a t u so fc i t y ,m a i nb u s i n e s sd a t aa n dt h em a i n d e m a n do f d e c i s i o ns u p p o r ts y s t e m , a n dg i y e nt h eg u a n g z b o uc i t ym a n a g e m e n t d e c i s i o ns u p p o r ts y s t e ma r c h i t e c t u r ea n dm o d u l a rd e s i g n d e t a i l so nt h e d e s i g na n di m p l e m e n t a t i o np r o c e s s :f i r s t ,t h r o u g ht h ed a t ac o n v e r s i o n s e r v i c e s ( d t s ) r e a l i z et h ev a r i o u sd a t as o u r c e s sd a t ae x t r a c t i o n , p u r i f i c a t i o n ,t r a n s f o r m a t i o na n dl o a d i n g ;t h r o u g ht h eo l a ps e r v i c e st o o l p r o v i d e db ym i c r o s o f t ,a n dt h ef a c tt a b l e sa n dd i m e n s i o n a lt a b l e s e s t a b l i s h ep a r t a n a l y s i sm u l t i d i m e n s i o n a lc u b ea n a l y s i sd a t am o d e lt o m e e tt h en e e d so fm u l t i - d i m e n s i o n a la n a l y s i s ;c o m p l e t e dad a t aq u e r y d i s p l a yav a r i e t yo fm i n i n gm e t h o d sa n dt h ep r o d u c t i o no fs t a t e m e n t s k e yw o r d s :d a t aw a r e h o u s e ,o l a ,d e c i s i o ns u p p o r ts y s t e m ,d t s 珊 广东工业大学t 学硕士学位论文 独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的论文是我个人在 导师的指导下进行研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,不包含 本人或其他用途使用过的成果。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明,并表示了致谢。 本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的,论 文成果归广东工业大学所有 申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明 一:帮夺 论文作者繇夏敝、 、 、 矿辱皇r2 8e l 第一章绪论 1 1 课题的研究背景 第一章绪论 随着计算机应用和信息化的普及,越来越多的企事业单位都将他们的业务办 公、人事管理、决簧支持转移到了计算机平台上。计算机系统以它具备特有的高 效率、准确性和安全性的工作取代了长期以来由相关人员进行的大量计算、整理 工作。事实证明,采用计算机系统协助工作将极大地提高工作效率,保证工作质 量,提高效益,同时也能解放大量的人手,使企事业单位运作得更卓有成效。 广州市国民经济和社会发展第十个五年计划纲要 中明确提出:“城市管 理信息化工程”,是广州市。十五”期间重点建设六大信息化系统工程之一城 市管理必须坚持全面、协调、可持续发展的科学发展观和以人为本的原则,遵循 城市发展规律,以满足经济发展、社会进步和人的全面发展的需要为目的,以城 市管理现状和存在的突出问题为切入点,以新技术、新手段、新模式为支撑,创 建实时信息传递方式,实现城市管理从被动滞后到主动快速的转变。从突击管理 向长效管理的转变,从分散调度向集中指挥转变,从粗放管理到精确管理的转变, 从单兵出击到协同作战的转变,实现城市管理的现代化,为经济的持续快速协调 健康发展、社会进步和人的全面发展提供良好的城市环境。 随着城市现代化建设进程的加快,城市经济、文化,人民生活各个方面都 发生了巨大的变化,也给城市的管理带来了前所未有的更新更高的要求,同时由 于人员编制与监管范围的矛盾( 人员编制不足、巡逻资源不够、监控范围广泛) 、 调度流程与效率要求的矛盾( 定时巡逻、定线巡逻、空往空返) 等矛盾,就目前 的执法资源、执法手段,很难满足城市管理不断提高的要求。因此如何把有效的 的资源投放到重要的对问和空问成为了重点,传统的简单统计分析结合个人的经 验的决策以至于无法避免在信息传递过程中的因为人的主观性简单,使信息失真 或者视野狭小,严重限制了行政决策的空间而无法最有效的利用资源。因此需要 建立高效可靠的决策支持系统使得公共政策的决策者可以在广泛了解决策所需 信息的前提下进行决策,避免了靠经验决策和决策信息不完备导致的盲目现象。 广东t 业大学一 学硕士学位论文 广州市城市管理的信息化建设工作已开展多年,城市管理部门在业务系统的 信息化建设逐步完善的基础上,已经明确提出辅助决策、宏观分析、数据分析、 数据挖掘等更高层次的管理需求。 本课题基于数据仓库和o l a p 的综合决策支持系统研究和实现就是在这 种背景下产生的。本文研究内容是广东省科技计划项目环境下“基于j 2 e e 的智 能电子政务系统的构建技术的研究和应用”( n o :2 0 0 3 c 1 0 1 0 1 3 ) 的一个子课题和 重要组成部分。 1 2 课题的研究现状 随着信息化进程的快速发展和广泛应用,无论政府还是企业中都积累了大 量的历史数据,但现有大部分政府和企业的管理系统主要用于事务处理,进行的 是日常操作,即对业务数据进行查询和修改等,对决策层则很少或基本上没有涉 及,这些海量数据在原有的作业系统中无法提炼并升华为有用的信息及时提供给 业务分析人员与管理决策者。难以获得隐藏在数据之中深层次的发展趋势和预测 信息,同时联机作业系统也因为需要保留足够的详细数据以备查询而变得笨重不 堪,系统资源的投资跟不上业务扩展的要求。 即使已经建立的传统的决策支持系统( d o s ) 也是在管理信息系统的基础上发 展起来的,是基于原有数据库系统进行分析的,因此传统的d d s 在实际应用过程 中暴露出许多问题: l 、事务处理和分析处理的性能特性不同【” 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处 理的时间短:在分析处理环境中,用户的行为模式与此完全不同,某个d s s 应用 程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性 能的两种应用放在同一个环境中运行显然是不适当的。 2 、数据集成问题嘲。 d s s 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提, 相关数据收集得越完整,得到的结果就越可靠当前绝大多数企业内数据的真正 状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、 。蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。 2 第章绪论 3 、数据动态集成问题 3 1 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化, 这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须 以一定的周期( 例如2 4 小时) 进行刷新,我们称其为动态集成。显然,事务处理 系统不具备动态集成的能力。 4 、历史数据问题。 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,对不 同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁, 未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法 必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发 展趋势的。d s s 对数据在空间和时间的广度上都有了更高的要求。而事务处理环 境难以满足这些要求。 5 、数据的综合问题。 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些细节 数据迸行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处 理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据 冗余而加以限制。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理 及其数据相分离。必须把分析型数据从事务处理环境中提取出来。按照d s s 处理 的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新 的分析处理环境而出现的一种数据存储和组织技术。 进入9 0 年代后,信息技术界悄然掀起数据仓库和o l a p 技术及数据采掘技术 的研究和开发热潮,这为克服传统o d s 存在的问题提供了技术上的支持,使d i ) s 的发展跃上一个新的台阶,也为d d s 开辟了一条新的途径。本文开发的综合d d s 是以数据仓库技术为基础,以联机分析处理( 0 l a p ) 工具为手段进行实施的一整套 解决方案。 数据仓库侧重于存储和管理面向决策主题的数据而( r a p 则侧重于数据仓 库中的数据分析,并将其转换成辅助决策信息o l a p 的一个重要特点是多维数 据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。o l a p 技术中比较典型的应用是对多维数据的切片和切块,钻取、旋转等,它便于使用 广东工业大学工学硕十学位论文 者从不同角度提取有关数据。o l a p 技术还能够利用分析过程对数据进行深入分 析和加工。例如,关键指标数据常常用代数方程进行处理,更复杂的分析则需要 建立模型进行计算。o l a p 的这些技术在决策支持系统中都能得到很好的应用。 正如o l a p 技术一样,正是由于数据仓库技术的发展,才使得用于决策支持系统 的各项技术得到充分利用和提高,为决策支持系统的研发创造了良好的优势和环 境。 1 3 课题研究的内容和意义 1 3 1 课题研究的意义 伴随着国内外数据仓库技术的迅速发展,以及社会发展对城市管理的更高要 求,城市管理部门一直在积极的寻求更好的办法以便从海量的历史数据中提取到 更有用的信息。本课题通过建立基于数据仓库和o l a p 的综合决策支持系统为城 市管理决策提供及时、准确、科学的信息,管理者能够随时了解城市管理的运行 状态、掌握安全隐患,做到防患于未然,强化广州市城市管理的安全机制和应对 突发事件的能力,提高其应急指挥管理能力,实现市城市管理从被动反应式走向 前瞻式,并由此产生巨大的经济效益,这无疑对城市管理具有实际意义的使用价 值 1 3 2 课题研究的内容 本课题主要围绕决策支持系统中数据仓库和o l a p 两个核心组件来展开研究 工作。主要研究内容以下: 1 、调研分析广州城管当前管理信息系统及决策需求的详细数据。 2 、研究数据仓库构建技术和多维模型构建技术 3 、构建基于数据仓库和o l a p 的广州城市管理综合决策支持系统的体系结构, 并提出系统解决方案。 4 、针对城市管理业务特点和决策需求,设计和构建数据仓库原型以及多维 数据模型。 5 、在多维数据立方体上完成o l a p 的操作与数据展现。 :m i i 。,。:! :i :! ! :,:。,。一 ! 目e e e = = = j = = 自| j j i _ 一 1 4 论文的组织 针对以上主要任务,对本文内容进行了划分,按如下章节组织,共分六章: 第一章绪论主要介绍了课题的研究背景、研究现状,并介绍了课题的研究内 容和分析了本文的主要任务。 第二章对数据数据仓库和o l a p 技术进行了概述,给出了数据仓库的定义和 相关概念以及其与传统数据库的区别。 第三章是研究城管项目背景及需求,主要介绍了城市管理决策支持系统的总 体方案、系统特色及系统的功能需求以及所使用的工具 第四章是城市管理决策支持系统的实现,介绍了构建数据仓库的数据处理过 程以及建立多维数据集和数据展现。 总结,对全文的工作进行总结,并对这一研究课题的前景进行展望,对尚需 做的进一步完善工作进行了讨论。 广东工业大学工学硕+ 学位论文 第二章数据仓库和o l a p 技术 2 1 数据仓库技术 数据仓库 4 1 是一个面向主题的、集成的、相对稳定的、反映历史变化的数据 集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解。首先, 数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据 库:其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重 组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改 2 1 1 数据仓库的特征 数据的集成化表明数据在结构上具有综合性,历史化表明它可任意截取从瞬 间到全体等与不同时间段上的信息,集成不同的应用系统表明数据仓库所解决的 问题需要从多个专业应用系统中寻找答案;对数据的组织和存储以最方便使用数 据为标准,在数据仓库中所保存的不仅仅是供使用的数据,还包括在一定激发条 件下能主动起作用的处理规则、算法、过程。数据仓库所具有的特征,可概括为 面向主题,集成性、历史性等特征。 首先,面向主题的哪,它需要为决策者提供综合信息,这类信息的组织应当 以企业中业务工作的主题内容为主线,它是数据和算法的统一。数据从外部数据 源进入数据仓库后,在一个主题的引导下,经汇总统一和必要的变换,最后以最 适于使用的方式存放起来。因为只有这样的组织方式能提供信息的全方位可用。 数据仓库回答的是如“我们的产品在哪个地区的市场份额最小? ”、“我们的产品 质量问题出在那里? ”等带有主题特征的问题,而传统的数据库回答如“我们的 年产值是多少? ”等专门性,片断的问题。 其次,集成化。数据仓库的数据虽然来自日常操作数据,但并不是这些数据 的简单归并或搬家,其保存的数据是日常操作数据的增值和统一处理,如统一的 命名规则,统一的度量单位等,因为日常操作数据的结构,方法的实现是不同的 编码、不同的命名规则等。但是对于数据仓库来说,不管如何设计、如何实现、 结果必须一致,数据和方法必须按照单一的、全局可接受的格式存储。只有这样, 第二章数据仓库和o l a p 技术 d s s 才能在使用这些数据是不必关心这些数据的一致性问题。 第三,历史性,反映历史变化操作型数据库主要关心当前某一个时间段内 的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时 点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以 对企业的发展历程和未来趋势做出定量分析和预测。企业数据仓库的建设,是以 现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只 有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策, 信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供 给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数 据仓库建设是一个工程,是一个过程。 第四,相对稳定性 6 1 。操作型数据库中的数据通常实时更新,数据根据需要 及时发生变化数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主 要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也 就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定 期的加载、刷新。 总之,数据仓库是综合了多种软硬件技术,将分布在不同数据库中的数据集 成起来通过数据转换将转换后的关系型数据及其它复杂类型数据存储成一种面 向主题的、综合的、不同时间的、稳定的数据集合,便于用户从历史的角度访问 和分析数据,支持决策人员的决策制定过程。 2 1 2 数据仓库相关概念 1 主题嘲 主题是一个抽象的概念,是在较高层次上将数据综合、归类并进行分折利用 每一个主题基本上对应一个宏观分析领域。根据数据仓库面向主题的方式,数据 的组织应该分为两个步骤:确定分析的主题以及确定每个主题所包含的数据内 容每个主题在数据仓库中一般都是由一组关系表来实现,所以主题的实现可以 基于关系数据库。面向主题的数据组织方式是根据分析要求将数据组织成一个完 备的分析领域,它具有独立性和完备性两个特征 2 粒度川 粒度是数据仓库的一个重要概念,它是指数据仓库中数据单元的详细程度和 7 广东工业大学t 学硕士学位论文 级别。数据越详细,粒度级别越低:数据越概要,粒都级别越高。粒度的划分将 直接影响到数据仓库中的数据量和查询种类。低的粒度级别能提供详尽的数据。 但要占用较多的存储空间和需要较长的查询时间。高的粒度级别能快速、方便的 进行查询,但不能提供过细的数据。为适应不同的查询分析,数据仓库中通常存 在着多种粒度级别,如细节级、轻度综合级、高度综合级等。 数据仓库的数据粒度与数据元素的汇总水平相关。为了法足各级查询的需 要,数据粒度设计的原则必须满足:既要使数据存储结构合理,访问效率高,节 省存储空间:又要在这种可用结构下减少或消除任何信息丢失。为此,可按照数 据仓库中存储数据的时间序列来划分数据粒度,存储时间越早,粒度越高,数据 概要程度越高 根据数据使用频度,对经常使用的数据建立多种粒度级别,以供各个级别的 需要按照时问序列划分数据粒度时,在不同粒度的数据之间建立缓冲区,存放 在同一种数据的不同粒度类型:并且,根据这些数据的使用频率来决定它们的新 的粒度变换类型。 3 元数据 元数据在数据仓库中的用途主要有三个方面嘲:起到辅助决策分析过程中定 位数据仓库的目录作用:数据从业务环境向数据仓库环境传送时数据仓库的目录 内容:指导从近期基本数据到轻度综合数据和高度综合数据的综合算法选择。在 数据仓库系统中通过元数据来记录数据仓库所存储数据的结构及数据之间的关 系。这些元数据包括数据项的业务描述、类型、存取方法等数据项的本身的信息。 数据源进入数据仓库要经过不同的处理阶段,通过元数据机制对各个数据要经过 哪些处理、施加哪些操作分别记录下来。 4 多维数据模型1 7 1 多维数据模型是数据仓库普遍采用的数据建模方法。它以直观的方式组织数 据,并支持高性能的数据访问。每一个多维数据模型都是由一个事实表和一组维 表来构成的。事实表的主要特点是包含数字数据( 事实) ,而这些数字数据可以汇 总,以提供有关单位运作的历史数据。每个事实表还包括一个或多个部分组成的 索引,与包含事实记录特性的维表关联。好的事实表数据不包含描述性信息仅 是度量字段与码的组合。 l 第二章数据仓库和o l a p 技术 2 1 3 数据仓库与传统数据库的区别与联系 数据仓库能够确保“库尽其用”,这是传统数据库所不及的。虽然存在一定 的差别,但数据仓库与数据库之间又是有联系的。数据仓库是以数据库为基础建 立的,如果没数据源,数据仓库便是“无源之水”,由此得到如下结论: 首先,数据仓库不是大量数据的简单堆砌,而是将大量业务数据进行适当的 整理、转换、集成综合之后形成的一个不同于以往的数据库的数据库系统。 其次,不能仅与数据存储容量的大小区分数据库与数据仓库。事实上数据仓 库并不是总是很大的,它存储了大量的概括性的、总结性的数据,而大量的业务 数据( 即细节数据) 仍然存储在原有的数据库系统中,并采取了先进的数据存储技 术。从而减少了相应的数据量,缩短了查询响应时间,便于决策人员进行分析。 两者的区别如表1 1 表 表1 1 传统数据库和数据仓库的区别嘲 t a b l e l 1t h ed i f f e r e c eb e t w e e nd a t a b a s ea n dd a t aw a r e h o u s e 项目 传统数据库 数据仓库 数据类型 通过再线交互操作更新 数据是相对稳定的 数据规范化程度数据高度规范化数据经过非规范化处理 数据操作 操作明确,一般为单记录活少操作模糊,随机性大,面向 记录查询,数据操作量小大量读取,数据操作量大 用户需求需求明确需求模糊,是随机的 投入成本相对较低较高 所需工具主要是查询工具数据抽取、转换、查询工具、 分析工具、数据挖掘工具 目的 事务驱动,面向具体应用支持分析驱动,面向主题,面向 日常的实时的数据操作工作决策,支持长期的分析工作 2 2 0 l a p 技术 数据仓库中尽管包含了大量的有价值的历史数据,但如果让决策支持人员直 接去看这些数据是没有任何实际意义的,必须要有方便有效的工具能够很容易地 9 广东工业大学i 学硕七学位论文 对其中的数据进行分析处理。0 l a p 简单地说它就是专门设计用于支持复杂分析 操作、侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、 灵活地进行大数据量的复杂查询处理,并以直观的形式提供查询结果。它使分析 人员通过对信息的多种可能的观察角度进行快速、一致和交互性的存取以获得对 信息的深入理解。 2 2 1o l a p 的主要特性 o l a p 主要特性嘲: ( 1 ) 多维性是0 l a p 的关键属性。0 l a p 支持最终用户进行动态多维分析,其中 包括对层次维和多重层次维的建模;对多维数据集中的数据用切片、切块、聚合、 旋转、钻取等方式分析数据,以求剖析数据使用户能够从多种维度、多个侧面、 多种数据综合度查看数据,从而了解数据背后蕴含的规律。事实上,多维分析是 分析企业数据最有效的方法,是0 l a p 的灵魂。 ( 2 ) 在线性( o n - - l i n e ) 表现在0 l a p 对用户请求的快速响应和交互操作。( l a p 主要针对特定问题的联机数据查询和分析,因此在做查询分析中首先需要按照用 户的观点进行转换处理,使其成为真正能够反映用户问题的某个方面,并且允许 用户对这些数据按照需要进行深入的观察;在线性另一个方面,就是用户对o l a p 的快速反应能力有很高的要求,系统应能在5 秒内对用户的大部分分析要求做出 反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐烦。因而可能失 去分析主线索,影响分析质量。 ( 3 ) 可分析性是指系统必须处理与应用有关的任何逻辑分析和统计分析,用 户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上分析: ( 4 ) 信息性是指系统可以及时获得信息和管理大容量信息,这里要考虑数据 的可复制性、可利用的磁盘空间、0 l a p 产品的性能以及与数据仓库的结合度等。 2 2 2o l a p 与o l t p 数据库的区别 0 l a p 系统的设计与0 l t p 系统的设计从本质上来说是不同的。许多在 0 l t p 数据数据库设计中公认的准则与0 l a p 多维数据库实用的设计原则甚至是相 反的。下图是两种数据库设计任务需求的特点比较: 童三耋鍪篓2 譬翌2 :竺茎銮 表2 2o l a p 与o l t p 数据库设计需求【1 0 l t a b 2 2t h er e q u i r e m e n t sf o ro l a pa n d0 l t pd a t a b a s e 由表2 2 可见,o l a p 与o l t p 是两类不同的应用,0 l t p 面对的是操作人 员和低层管理人员,o l a p 面对的是决策人员和高层管理人员;0 l t p 是对基本数据 的查询和增、删、改操作处理,它以数据库为基础,而o l a p 史适合以数据仓库 为基础的数据分析处理。o l a p 中历史的、导出的及经综合提炼的数据均来自o l t p 所依赖的底层数据库。o l a p 数据较之o l t p 数据要多一步数据多维化或预综合处 理,建立不同级别的统计数据,从而满足快速统计分析和查询的要求。除了数据 及处理上的不同外,o l a p 的前端产品的界面风格及数据访问方式也同o l t p 有别, o l a p 多采用便于非数据处理专业人员理解的方式( 如多维报表、统计图形) ,查 询提出及数据输出直观灵活,用户可以方便地进行逐层细化及。切块与切片”数 据旋转等操作而o l t p 多为操作人员经常用到的固定表格,查询及数据显示也 比较固定、规范。 2 2 3o l a p 的基本概念 1 ) 维度 i o l :是多维数据集的结构性特性,在o l a p 中,通过把一个实体的多项 重要的属性定义为多个维,使用户能对不同维上的数据进行比较。如按时间、地 区、商品类别三个维查看销售数据,它是o l a p 的核心概念 2 ) 度量值:是指最终用户浏览多维数据集时重点查看的数字数据,通常为一 组数字,如销售数量,成本,销售金额等。 3 ) 维层次:是指人们观察数据的某个特定角度( 即某个维) 中存在细致程度不 同的各个描述方面,位于层次顶部的是“根级”( r o o tl e v e l ) ,称为“a l l ”级, 它把所有与根级紧邻的成员进行了汇总,位于层次底部的是一个或多个“叶子” ( l e a f ) 例如时间维中。a l l ”级、年、季度、月、日就是时间维的层次 广东工业大学t 学硕士学位论文 4 ) 维成员:是维的一个取值,对多层次的维来说,就是在不同维层次的取值 的组合,例如“2 0 0 4 年第一季度1 月1 日”就是时间维的一个维成员。 5 ) 维单元:是多维数据集的任意一个子集,由度量值、层次以及维度组成, 多个单元组成了多维数据集。要想获得特定的单元,需要指定特定的成员和维度, 这些成员和维度的交集就形成了想要获得的单元。如( 2 0 0 0 年1 月,相机,散户, 2 0 0 0 0 0 元) 表示2 0 0 0 年1 月散户购买相机的金额为2 0 0 0 0 0 元。 6 ) 计算成员:通过计算成员可以向多维数据集内添加维度成员和度量值,而 不增加多维数据集的大小。计算成员的值只将表达式存储在立方体结构中,其值 只在需要答复查询时在内存中计算。计算成员的表达式可以是用m d x 创建的复杂 表达式,也可以使用o l a p 工具的内嵌函数,还可以使用其它一些函数库,例如 m i c r o s o f t v i s u a lb a s i c 的a p p l i c a t i o n se x p r e s s i o ns e r v i c e s 库。 7 ) 成员属性:是维度成员的一个特性,它为用户提供关于成员的附加信息, 通常用于增强维度。成员属性有多种用途,除提供关于成员的信息外,在分析多 维数据集的数据时可在查询中使用成员属性,为用户提供多个选项,还可作为虚 拟维度中级别的基础。成员属性在级别中创建,该级别应包含应用该成员属性的 那些成员。 8 ) 多维数据集:它是一个数据集合,是联机分析处理的主要对象,通常从数 据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构: 9 ) 虚拟多维数据集:是一个逻辑多维数据集,由多个多维数据集组合而成, 它和关系数据库中的视图有些相似。在创建虚拟多维数据集时,需从一个或多个 多维数据集的维度和度量值的合并集合内选择度量值和维度。最终用户看到的该 虚拟多维数据集是一个多维数据集。虚拟多维数据集只存储定义,并不存储实际 数据。通过为不同的用户设计不同的虚拟多维数据集,为不同的用户授予不同的 访问权限,可以实现安全控制。 1 0 ) 聚集【l l o :是预先计算好的数据汇总,用于提高查询响应的时间聚集可以 减少c p u 时间,但相应地增加磁盘存储空间,因此进行聚集设计时应权衡存储空 间和响应时间两者之间的关系,过多的聚集会对多维数据集的管理造成负面影 响,它使更新多维数据集的处理时间变长 第= 章数据仓库和o l a p 技术 2 2 4o u 心多维数据分析 多维分析1 1 2 1 是指对以多维形式组织起来的数据采取切片、切块、旋转等分析 动作,以求剖析数据,使最终用户能从多个角度、多个侧面地观察数据库中的数 据,从而深入地了解包含在数据库中的信息和内涵。 1 、钻取,就是改变维的层次,变换分析的粒度,它包括上钻和下钻( r o l lu p a n dd r i l d o w n ) 。下钻是指用户从某一个粒度比较大的数据出发,去考察分析与 这一数据有关的,彩度比该数据小的数据。上钻跟下钻刚好相反,是用户从粒度 小的数据出发,去考察分析跟它相关的、粒度比它大的数据。比如在时间维度中, 用户从“年”的数据出发,去分析“季度”、。月”的数据就是下钻,反之就是上 钻,钻取的深度是与数据仓库建模中维度划分的层次有关 2 、切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布 如果剩余维是二维,就是切片( s l i c e ) ,是三维,就是切块( d i c e ) 例如,在销 售分析的多维举据集中,在“产地”、“销售日期”这两个维度上取所有维成员, 而在其他维度上都取定一个维成员,得到一个二维平面的切片:切块可以看作是 几个切片叠和而成。 3 、旋转( p i v o t ) 是交换维的方向,通过重新安捧维的放置,得到不同 视图的数据它包括交换行和列,把行维移到列维中去,或把列维移到行维中去, 把页面内的维和页面外的维进行交换等。 4 、其他0 l a p 操作:除了上述三种基本操作,按0 l a p t 具的不同,还有钻 过、钻透、取线、取点和计算平均值、增长率、利润等统计计算口钻过指对多个 事实表进行查询:钻透指对立方体操作时,利用数据库关系,钻透多维数据集的 底层,进入后端的关系表:取线是指从多维数据集中选取一个维度,在这个维度 上取某一区间或任意的维成员,而将其余的维都取定一个维成员:取点是指在多 维空间的所有维度上,都取定一个维成员,它确定唯一的实体。 2 2 5o l a p 的多维数据结构 2 1 l 多维0 l a p 和关系o l a p 1 、数据存储方式叫l 多维数据库可以直观的表达现实世界中多对多的关系。在存储方式上,多维 广东下业大学1 = 学硕士学位论文 数据库与关系数据库是不同的。请看以下例子: 表2 3 和表2 4 分别是用关系数据库和多维数据库存放一年不同部件在不同 地区的损坏数量。 表2 3 关系数据库存储数据的方式 t a b l e 2 3t h em e t h o d so fr e l a t i o n a l d a t a b a s e ss t o r e dd a t a 金菇设施部饱垦域损坏数量 井盖 白云区3 5 0 井盖天河区 4 5 0 井盖越秀区 2 0 0 垃圾箱 白云区3 0 0 垃圾箱 天河区 4 0 0 垃圾箱越秀区 1 5 0 表2 4 多维数据库存储数据的方式 t a b l e 2 4t h em e t h o d so fm u l t i d i m e n s i o n a ld a t a b a s es t o r e dd a t a l白云区 天河医 一越秀区一 l 井盖, 3 5 0;450 2 0 0 l垃圾箱 3 0 0 4 0 01 5 0 该组数据涉及到行业和地区两个维,对关系数据库来说,任何数据集均用二 维表来存放。此时多维数据库也是用二维表格来存放,但其存放方式私 存放效 率均有不同从结构上来说,在关系数据库中,行业维和地区维均对应表中的一 列作为度量值的企业数量也对应一列而在多维数据库中,表的最上面一行和 最左边一列分别对应地区维和公共设施部件维,度量值则占据剩余的其他单元 格。 从数据冗余方面来讲,关系模型存在较大的冗余,需要占用更多的空间,而 多维数据库则基本没有冗余( 但在有些情况下会形成稀疏矩阵,如只在北京有相 应行业的企业时会出现很多空的单元格) 。 从查询效率来讲,进行单项查询时关系数据库的处理非常简单,但如果要查 询井盖在白云区、天河区、越秀区的损坏总量或白云区的公共设施部件损坏总量 时,则关系数据库必须扫描整个表进行汇总,而多维数据库只要按行或按列进行 统计即可,因此多维数据库具有更高的查询效率。 若对上述数据库增加一个时间维季度,采用关系数据库存储时仍然使用二 维表,如表2 5 所示,而多维数据库则采用数据立方体这样的三维数组来存储, 如图2 1 所示 1 4 第二章数据仓库和o l a f 技术 表2 5 增加汇总数据的关系数据库 t a b l e2 5t h er e l a t i o n a ld a t a b a s ew i t hs u m m a r yd a t a 坌芸设施部件 区域时间( 季度)损坏数量 井盖白云区17 0 井盖白云区28 0 井盖白云区39 0 井盖 白云区 4 i i 0 联 白云区 天河区 越秀区 l 季度2 季度,肇度4 擘度 时弼 图2 i 多维数据库数据立方体 f i g u r e2 1c u b ed a t ao fm u l t i d i m e n s i o n a l d a t a b a s e 当维数超过三维时,关系数据库仍然采用二维表结构保存数据集,而多维数 据库则成为超级立方体,需采用多维数组结构来保存 3 、多维m o l a p 和关系r o l a p 的特征分析【川 由于存在m o l a p 和r o l a p 两种联机分析的实现技术,我们在应用o l a p 时, 将遇到究竟是选择m o l a p 还是r o i j p 的问题。下面我们分别从查询性能、空间占 用、分析能力等方砸来分析这两种模式的特点,这样才能针对具体的应用,选择 合适的o l a p 实现模式 ( 1 ) 查询性能 由于m o l a p 直接处理存放在多维数组中的数据,这种数据已经反映了各种可 能的组合,并且,每一个数据单元都能被直接访问,因此,一般而言,m o l a p 的 查询性能要优于r o l a p ,查询响应速度较快巨较为稳定而r o l a p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论