




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)基于analysis+services的olap系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南开大学硕十论文摘要 论文题目:基于a n a l y s i ss e r v i c e s 的o l a p 系统的设计与实现 作者简介:迟凯,男,1 9 7 8 年生,于2 0 0 1 年6 月在南开大学获物理学学士学位, 同年9 月进入南开大学信息学院软件四室,师从于袁晓洁教授攻读计算机软件与 理论专业硕士学位,将于2 0 0 4 年7 月毕业。 内容摘要 随着整个社会的信息化演变,企业管理者和i t 人员对积累下来的数据、信 息进行管理和利用的要求不断提高,集中于操作型日常事务处理的传统数据库系 统已经不能完全满足现代企业的需要。数据仓库,决策支持系统等技术就是针对 上述问题而产生的一种解决方案,它将企业决策者对数据处理的重点从传统的业 务处理过程扩展到对大量业务数据的联机分析处理( o n l i n ea n a l y t i c a l p r o c e s s i n g ,o l a p ) 上来,从中掌握有用的决策信息,及时把握市场的动向,做 出正确有效的判断和抉择。 本文对数据仓库和o l a p 技术做了深入研究针对现代企业建立决策支持系 统的需求提出了一种技术解决方案,涉及数据仓库环境的建立以及前端o l a p 分析工具的开发。在总结了各类现有o l a p 系统优缺点的基础上,本文采用了基 于w e bs e r v i c e 技术的全新系统架构,弥补了原有系统移楦性差等方面的不足, 最终设计开发了一个o l a p 原型系统。该系统采用微软的a n a l y s i ss e r v i c e s 作为 分析服务器,并在客户端提供一个集成环境,支持各种多维分析操作以及图像报 表等功能。 本文提出的解决方案具有成本低、可移植性强、结构灵活、易于开发等特点, 可以满足中小型企业建立决策支持系统的需求具有实际的应用价值和良好的应 用前景。 关键词:数据仓库。联机分析处理( o l a p ) ,决策支持系统 南开人学硕i 。论文 a b s t r a c t t i t l eo ft h em a s t e r d e g r e e st h e s i s :t h ed e s i g na n dd e v e l o p m e n to f a no l a p s y s t e mb a s e d o n a n a l y s i ss e r v i c e s i n t r o d u c t i o no ft h ea u t h o r :k a ic h i ,b o mi n1 9 7 8 ,w a sa w a r d e dt h eb a c h e l o rd e g r e ei np h y s i c s i nj u n e2 0 0 1a n de n t e r e dt h es o f t w a r el a b o r a t o r y4o ft h ec o l l e g eo fi n f o r m a t i o nt e c h n i c a l s c i e n c eo fn a n k a iu n i v e r s i t yi ns e p t e m b e rt h es a m ey e a r , u n d e rt h eg u i d a n c eo fp r o f x i a o j i e y u a n ac a n d i d a t ef o rm a s t e ri nc o m p u t e rs o f t w a r ea n dt h e o r yi nj u n e2 0 0 4 a b s t r a c t w i t ht h ec o m i n go fi n f o r m a t i o nt i m e s ,m a n a g e r sa n di ts t a f f si nd i f f e r e n te n t e r p r i s e sh a v e t o m a k eb e a e ru s eo ft h eh i s t o r i c a ld a t a t h et r a d i t i o n a l d a t a b a s e s y s t e m s ,a i m i n g a to n - l i n e t r a n s a c t i o np r o c e s s i n ga p p l i c a t i o n s ,c a n n o tm e e tt h ev e r yn e e do f m o d e m e n t e r p r i s e sa n yl o n g e r d a t aw a r e h o u s ea n dd e c i s i o ns u p p o r ts y s t e mi ss u c hat e c h n o l o g y t h a th e l p st h ep e o p l ew i t ht h e s e p r o b l e m sm e n t i o n e da b o v e i th a sm a d et h ek n o w l e d g ew o r k e r ss h i f t e dt h e i r f o c u so no n 。l i n e a n a l y t i c a lp r o c e s s i n g ( o l a p ) w h i c h w i l lh e l pt h e mn l a k em o r ee f f e c t i v ed e c i s i o n s i nt h i st h e s i s w em a k eas t u d yo ft h ed a t aw a r e h o u s ea n do l a pt e c h n o l o g ya n dc o m eu p w i t has o l u t i o na g a i n s tt h en e e do fd e c i s i o ns u p p o r ts y s t e m so f t h em o d e m e n t e r p r i s e s ,i n v o l v e d w i t ht h eb u i l d i n go f d a t aw a r e h o u s ea n dt h ed e v e l o p m e n to f o l a pa p p l i c a t i o n s w i t ht h ea n a l y s i s a n ds u m m a r i z a t i o no fd i f f e r e n tk i n do ft r a d i t i o n a lo l a ps y s t e m s ,w ea d o p tan e wa r c h i t e c t u r e b a s e do nw e bs e r v i c ew h i c ho f f s e t st h es h o r t c o m i n g so ft r a d i t i o n a ls y s t e m s s u c ha sb a d p o r t a b i l i t ya n dd e v e l o pa no l a ps y s t e mw i t h t h es u p p o r co fa n a l y s i ss e r v i c e sa st h eo l a p s e r v e r a n dt h ec l i e n ts y s t e mm a k e si tp o s s i b l ef o rt h eu s e r st o a c c e s st h ed a t aw a r e h o u s ea n d c o m p l e t em o s to f t h e m u l t i d i m e n s i o n a la n a l y t i c a lo p e r a t i o n s t h es o l u t i o ni nt h i st h e s i sp o s s e s s e sm a n ym e r i t ss u c ha sl o wc o s t ,g o o dp o r t a b i l i t y , f l e x i b l e a r c h i t e c t u r ea n di se a s yt od e v e l o p i t sa p p l i c a b l et ot h em i d d l e s i z e da n ds m a l l s i z e de n t e r p r i s e s a n dh a se x c e l l e n tm a r k e tw i t hf u r t h e ri m p r o v e m e n ti nt h ef u t u r e k e y w o r d s :d a t aw a r e h o u s e ,o l a p , d e c i s i o ns u p p o r ts y s t e m ( d s s ) 南开人学倾i 论文 第一章绪论 第一章绪论 当今人类社会已经步入信息化时代,信息资源逐渐成为激烈市场竞争中的主 导因素。人们对积累下来的数据、信息、知识进行管理和利用的要求越来越高, 这就对原有的数据管理方法提出了挑战。从2 0 世纪末开始,数据仓库和联机分 析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技术悄然兴起,为上述问题 提出了一种技术方案,并逐渐成为数据库技术领域新的发展热点。 1 1 立题背景 面对当今竞争日益激烈与瞬息万变的市场经济,企业管理人员迫切需要从大 量复杂的业务数据中获取有用的决策信息,及时把握市场的动向,从而做出f 确 有效的判断和抉择。而随着数据库系统的逐日运行,数据的累积将越来越大,决 策者需要将数据处理的重点从传统的业务过程扩展到对业务数据的分析处理。传 统的数据库己无法满足这个需求。主要表现在以下几个方面: 1 传统的数据库系统中保存的一般为当前数据,存储期限短;而为了满足 决策分析的需求,大量的历史数据是必不可少的,许多分析必须以大量的历史数 据为依托。没有对历史数据的分析,难以把握将来的发展趋势。 2 传统数据库系统中的数据为细节性数据,主要面向操作型的日常事务处 理。从这些细节性数据中寻找有效信息往往是低效的。因此需要对细节性数据进 行不同程度的综合和提炼。 3 在事务处理环境中,用户对数据的存取操作频率赢,每次操作处理的时 制比较短,联机事务处理( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 是这种环 境下的典型应用。在分析处理环境中,用户的行为模式则完全不同。某个决策支 持系统( d s s ) 应用可能需要连续运行几个小时,甚至几十个小时,涉及数据大 量的数据,消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同 个环境中运行显然是不合适的。 南开人学坝i 论文第一章绪论 可见传统数据库系统适合于企业的日常事务处理工作,而难于实现对数据 分析处理要求,已经无法满足数据处理多样化的需求。操作型处理和分析型处理 的分离成为必然。 国内数据仓库的提出和发展要较国外5 8 年,这也是出我国的客观条件所决 定的。我国的信息技术发展不如国外快,使用计算机的历史较短,这就造成存储 在计算机内的历史数据很少,在这种情形下国内对数据仓库的需求及对创建数据 仓库的技术支持相对薄弱,所以国内对数据仓库的研究主要还是集中在讨论阶 段。 1 2 研究内容与目标 面对大量的原始积累数据,单靠人力对数据进行提取整理显然是不切实际 的,因为需要有更加强大的数据分析工具。在这一背景下,o l a p 技术越来越引 起人们的关注。自2 0 世纪9 0 年代以来,o l a p 技术得到了快速发展并逐步使用 丌来。o r a c l e 、微软、i b m 等著名的数据库系统开发商也直接在自己的数据库系 统中提供了对o l a p 的支持,例如微软就随s q ls e r v e r 2 0 0 0 发布了a n a l y s i s s e r v i c e s ,为用户提供o l a p 服务。本篇论文的主要研究内容与目标就是结合 m i c r o s o f t 的a n a l y s i ss e r v i c e s 构建数据仓库与o l a p 系统,主要包括以下几 个方面: 1 使用m i c r o s o f ta n a l y s i ss e r v i c e s 构建数据仓库 m i c r o s o f ts q ls e r v e r2 0 0 0 扩展并重命名了以前的o l a p 服务组件,该组 件现在称为a n a l y s i ss e r v i c e s 。该组件是用于o l a p 和数据挖掘的中间层服务 器包括一个用于管理分析数据的多维数据集和提供客户端对多维数据信息快速 访问的服务器。它借助预先计算的聚合数据将来自数据源的数据组织成为多维数 据集,从而为复杂的分析查询提供快速应答。而且a n a l y s i ss e r v i c e s 还允许从 多维数据源和关系型数据源创建数据挖掘模型,并可将数据挖掘模型应用到这两 种数据类型。 南开大学坝十。论文 第一章绪论 2 m i c r o s o f ta n a l y s i ss e r v i c e s 的系统架构 a n a l y s i ss e r v i c e s 中的分析服务器负责组织和管理多维数据,l 。 p i v o t t a b l e 服务则提供了设计、创建和管理来自数据仓库的多维数据集和数据 挖掘模型的功能,还提供对o l a p 数据和数据挖掘数据的客户端访问。 3 基于w e bs e r v i c e 的o l a p 系统架构 在传统的使用a n a l y s i ss e r v i c e s 作为分析服务器的o l a p 系统结构中,由 于采用的是基于o l ed b 标准的数据访问方法,因此服务器和客户端都必须运行 在w i n d o w s 环境下,系统的移植性、灵活性较差。本文所设计开发的基于w e b s e r v i c e 的o l a p 系统已经不是传统意义上单一的c s 或者b s 架构,不管是w e b 浏览器、一般的w i n d o w s 或者是j a v a 应用甚至是手持移动设备都可以访问w e b s e r v i c e 。 4 a d o m d n e t 组件 a d o m d ( m i c r o s o f ta c t i v e xd a t ao b j e c t s ( m u l t i d i m e n s i o n a l ) ) 是a d o 对 象模型的扩展,提供了对多维数据的访问支持。最近微软公司又推出了a d o m d n e t 的b e t a 版本,它是标准的n e td a t ap r o v i d e r ,提供了更加强健的对象模型来 访问多维数据源,如a n a l y s i ss e r v i c e s 。a d o m d n e t 通过x m lf o ra n a l y s i s1 1 标准的内部实现来完成与多维数据源的通信,它使用t c p i p 或者h t t p 数据流来 发送和接收s o a p 请求和响应,从而达到远程访问多位数据源的目的。 5 m i c r o s o f tx m lf o ra n a l y s i sp r o v i d e r 在本文中采用m i c r o s o f tx m lf o ra n a l y s i sp r o v i d e r 提供w e bs e r v i c e , 它使用x m lf o ra n a l y s i s 标准1 1 来实现对运行在互联网上的a n a l y s i s s e r v i c e s 的数掘访问。x m lf o ra n a l y s i s 标准提供了对w e b 上任意标准数据源 的通用访问,取代了以前使用c o m 组件的方法。它的功能类似于o l ed b ,但是 钊+ 对w e b 应用做了一系列专门的优化。m i c r o s o f tx m lf o ra n a l y s i sp r o v i d e r 提供了基于x m l 的通讯a p i 接口,包括两个通用访问方法,分别是d i s c o v e r 和 e x e c u t e 。d i s c o v e r 方法用来从w e bs e r v i c e 获取信息和元数据,包括可用数据 源、多维数据集结构信息等等。e x e c u t e 方法则是用来对数据源进行一些命令操 作。“1 南开人学颂i :论文 第一章绪论 6 使用v i s u a ls t u d i o ,n e t 开发o l a p 客户端平台 使用v i s u mc # 开发环境,开发实现了一个w i n d o w s 客户端平台下的o l a p 原型系统,使用该系统可以借助网络环境在远程对数据仓库中的多维数据集进行 多维分析操作,为决策支持提供依据。 1 3 论文结构 本文共分为五章: 第一章简单介绍了本篇论文的立题背景、主要研究内容、研究目标以及论文 的整体结构。 第二章介绍数据仓库与o l a p 技术的_ 些基本概念、特点以及数据仓库中的 一些基本的多维分析操作。最后介绍了o l a p 产品的发展现状。 第三章提出基于w e bs e r v i c e 的系统架构,介绍了系统的整体设计、特点、 体系结构、使用的关键技术等。 第四章介绍系统的具体实现,包括界面、编码等部分。 第五章总结主要工作,提出展望。 南开人学顾卜论义第二章 数据仓库与o l a p 技术概述 第二章数据仓库与o l a p 技术概述 随着市场竞争的加剧和信息社会需求的发展,企业面临大量数据,包括企业 内部数据如企业财务状况、人事管理等,以及企业的外部数据,如企业产品的市 场占有率、客户的偏好等等。如何快速从中检索、奄询相关信息、制定市场策略。 以便对市场机会做出及时灵活的反应,成为企业在信息时代的市场竞争中立于不 败之地的关键所在。这种需求既需要大量用于决策的数据,也涉及各种决策分析 的工具,数据仓库和o l a p 正是实现这些功能的重要概念和技术。数据仓库和o l a p 两者是紧密联系,不可分割的。数据仓库是决策支持系统中数据的存储形式,o l a p 则是数据的处理方式,是数据仓库的用户接口部分。在数据仓库的设计过程和管 理中,o l a p 都发挥重要作用,如果将两者进行有效的融合,那么将使数据仓库 更加有效。事实上,数据仓库和o l a p 这两个术语有时候并不严格区分。 2 1 数据仓库概述 2 1 、1 数据仓库的定义 数据仓库是面向主题的、集成的、不可更新的、随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过程。 w h i n m o n 以上是业界公认的数据仓库概念创始人w h i n m o n 在其1 9 9 1 年出版的 “b u i i d i n gt h ed a t aw a r e h o u s e ”一书中提出的对数据仓库的定义,他把数据 仓库的特点归纳为面向主题、集成的、不可更新的、随时间变化的。 21 2 数据仓库的特点 1 面向主题的数据 传统数据库是面向应用来组织和存储数据而数据仓库中的数掘是面向主题 进行组织的。对一个保险公司来说,应用问题可能是汽车保险、健康保险、人寿 南开人学硕士论文第二章数据仓库与o l a p 技术概述 保险与意外伤亡保险;而公司的主题范围则可能是顾客、保险单、保险费与索赔。 2 集成的数据 这是数据仓库最重要的一个特性。将操作型环境中的分散数据集成到数据仓 库中是建设数据仓库过程中最复杂的一步。对每个独立的操作型数据源来说,在 其开发过程中不曾考虑到其它的应用,更没有考虑到将来可能要进行集成,因此 难免会彼此存在着同名异义,异名同义类型不统一,单位不一致等多方面差异。 例如,对“性别”字段,在某个数据源中性别编码为“m f ”,在另一个数据源中 的编码为“o 1 ”,等等。当这些不一致的数据进入数据仓库时,必须要采用某种 方法来消除这些不一致性。对于开发人员来说,这是一个非常困难、复杂的工作。 3 不可更新的数据 在操作型环境中,用户除了对数据进行查询操作外,经常还要对数据进行更 新、删除等操作,但数据仓库中的数据通常是一起载入与访问的,用户一般只对 其中的数据进行查询操作以达到分析、决策的目的,并不进行一般意义上的更新。 4 随时间变化的数据 数据仓库中的数据随时间变化的特性主要表现在以下几个方面 数据仓库中数据的具有存储期限,超过这一期限的数据将会从数据仓库 中被删除。但和操作型系统中数据的存储期限相比,数据仓库中数据的 存储期限要长得多,通常是5 i 0 年。 操作型数据库中的数据是当前值的数据,这些数据的准确性在访问时是 有效的;而数据仓库中的数据仅仅是一系列某时刻生成的复杂的快照。 而数据仓库的键码结构总是包含时间元素,如年、月、日等,而操作型 数据的键码结构则没有这一要求。 2 1 3 数据仓库的体系结构 一个数据仓库的基本体系结构如图2 一l 所示,一般来说包括八个主要部分”1 : 南开人学硕士论文第二章数据仓库与o l a p 技术概述 扒 圆圈 、- 一,、 数据文件卜_ 一 网网 1 - - _ ji _ j 数据建模工具 氏习 赢翕r 图2 1 数据仓库的体系结构 1 源数据( s o u r c ed a t a ) :数据仓库的源数据来自关系数据库、数据文件 等各种分布式的数据源,多为操作型数据。 2 数据抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 、装载( l o a d ) 、和更 新( r e f r e s h ) 工具:从数据源中抽取数据并进行检验和整理,消除来自不同数 据源的数据之间的不一致性,并根据数据仓库的设计要求,对数据进行重新组织 和加工,装载到数据仓库的目标数据库中,并且可以周期性地刷新数据仓库以反 映数据源的变化以及将数据仓库中的数据作转储。 3 数据建模工具( m o d e l i n g t o o l s ) :为数据仓库的源数据库和目标数据库 建立信息模型,以描述数据检验、整理、加工的需求和相应过程及步骤。 4 元数据仓库( m e t a d a t ar e p o s i t o r y ) :存储数据模型和元数据。在数据 仓库领域中,元数据被定义为:描述数据及其环境的数据。它有两方面的用途: 首先,提供基于用户的信息,帮助用户使用数据;其次,支持系统对数据的管理 和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。 5 数据仓库监控( m o n i t o r i n g ) 和管理( a d m i n i s t r a t i o n ) 工具:对数据 仓库的运行提供监督和管理手段。 6 数据仓库和数据集市( d a t am a r t s ) 的目标数据库( t a r g e td a t a b a s e ) : 存储经过检验、整理、加工和重组后的数据。数据集市是按照某一部门的决策支 持需求而组织起来,针对一组主题的应用系统。例如,某跨国公司下设很多子公 司与部门,他们有自己独立的决策问题,如果不建立数据集市,部门主管作决策 南开人学硕卜论文 第二章数据仓库与o l a p 技术概述 分析时就要面对公司总部数据量庞大的数据仓库。这一方面将造成资源的极大浪 费,另一方面也不利于决策者把注意力集中在对自己有用的数据上。数据集市则 可以把与该部门决策相关的数据集成进来,方便了决策者对数据的查询和分析。 7 联机分析处理( o l a p ) :是功能强大的多用户数据操纵引擎,特别用来支 持和操作多维数据结构,为前端工具提供多维数据视图及服务。 8 前端数据访问和分析工具:供决策人员访问目标数据库中的数据,并做 进一步的深入分析之用。 2 2o l a p 技术概述 2 2 10 l t p 和o l a p 用户对数据库的应用可分为两种类型:一种是联机事务处理( o l t p ) ,另一 种是联枫分析处理( o l a p ) 。前者存在于操作型环境中,是指用户利用数据库快 速地处理具体事务旅馆的c h e c k i n c h e c k - o u t 系统是这类应用的典例。o l a p 则是帮助用户以灵活、可用和及时的方式构造、处理和表示综合数据,对数据、 信息进行分析,并在此基础上发现有利于企业组织运作的规则,做出正确的决策。 o l a p 的用户主要是组织的决策者。借助o l a p ,决策者可以总结出用户什么时候 购买本公司的产品、什么原因促使他们购买等有用信息,通过这些分析,决策者 可以制定行之有效的生产及销售策略。o l a p 是数据仓库中的主要数据处理方式, 是数据仓库的用户接口部分。图2 - 2 罗列了o l t p 和o l a p 的主要差异。 2 2 2o l a p 的定义和基本特性 6 0 年代,关系数据库之父e f c o d d 提出了关系模型,取代了传统的文件存 储数据方式,促进了o l t p 的发展。1 9 9 3 年,他又提出了o l a p 的概念,认为o l t p 已不能满足终端用户对数据库查询分析的需要,s q l 对大型数据库进行的简单查 询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量 计算才能得到结果,而查询的结果往往也并不能满足决策者提出的需求。因此 e f c o d d 提出了多维数据库和多维分析的概念,即o l a p 。 南开人学硕1 :论文第二章数据仓库与o l a p 技术概述 o i j po l a p 特征操作处理信息处理 面向事务分析 用户d b a 数据库专业人员等知识工人( 主管,分析员等) 功能日常操作长期信息需求、决策支持 d b 设计基于e r ,面向应用星型雪花模式,面向主题 数据 当前的确保最新历史的跨时间维护 细节程度原始的,高度详细 汇总的,统一的 工作单位短的简单事务 复杂查询 存取 读写大多为只读 用户数 数千 数百 d b 规模数m 到g b 1 0 0 g 到t b 图2 - 2o l t p 和o l a p 的主要差别 o l a p 委员会对o l a p 的定义是:o l a p ( 联机分析处理) 是使分析人员、管理 人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所 理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得 对数据的更深入了解的一类软件技术。 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术 核心是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合。 随着人们对o l a p 理解的不断深入,n i g e lp e n d s e 和r i c h a r dc r e e t h 提出 了f a s m i 准则,即f a s ta n a l y s i so fs h a r e dm u l t i d i m e n s i o n a l i n f o r m a t i o n , 概括了o l a p 的几个基本特性。”: 1 快速性( f a s t ) :用户对o l a p 的快速反应能力有着很高的要求。如果系 统在3 0 秒之内仍然没有对终端用户的分析要求做出反应,用户就会变得不耐烦, 因而可能失去分析的主线索,影响到分析的质量。 2 可分析性( a n a l y s i s ) :o l a p 系统应能处理与应用有关的任何逻辑分析 和统计分析。用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分 析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。 3 共享( s h a r e d ) :指多个用户存取数据时,系统应保证安全性。尤其是当 南开人学硕l j 论文第二章数据仓库与o l a p 技术概述0 存在多个用户向o l a p 服务器写数据时,系统应在适当粒度上加更新锁。 4 + 多维性( m u l t i d i m e n s i o n a l ) :多维性是o l a p 的关键属性。系统必须提 供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。事实 上,多维分析是分析企业数据最有效的方法,是o l a p 的灵魂。 5 信息性( i n f o r m a t i o n ) :不论数据量有多大,也不管数据存储在何处, o l a p 系统应能及时获得信息,并且管理大容量信息。 2 2 3o l a p 中的多维数据概念 多维结构是决策支持的支柱,也是o l a p 的核心。o l a p 展现在用户面前的是 一幅幅多维视图。以下是关于多维数据的一些基本概念: 1 多维数据集( c u b e ) :o l a p 中的主要对象,通常也称作多维立方体,是 一项可对数据仓库中的数据进行快速访问的技术。c u b e 是一个数据集合,通常 从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结 构。每个c u b e 都有一个架构,架构是数据仓库中已联接的各表的集合,多维数 据集从数据仓库提取其源数据。架构中的核心表是事实数据表,事实数据表是多 维数据集度量值的源。其它的表有维度表,维度表为多维数据集维度的源。 2 维( d i m e n s i o n ) :人们观察数据的特定角度,是考虑问题时的一类属性, 属性的集合构成一个维。例如,某个全球连锁大型超市的经营决策者可能关心产 品销售数据随着时间推移而产生的变化情况,这时他是从时间的角度来对产品的 销售情况进行分析,所以时间就是一个维,我们可以称之为时间维,它存在于大 多数的多维数据集中。另外决策者也会关心自己的产品在不同地区的销售分布情 况,这时他则是从地理分布的角度来观察产品的销售情况,所以地理分布也是一 个维,可以称之为地理维。 3 度量( m e a s u r e ) :进行o l a p 的用户所要蕊察分析的数据,典型的度量有 销售额、成本、预测销售量等等。在一个多维数据集中可以存在多个度量。通常 在多维数据集中将度量也算作一个维,称为度量维。多维数据集由其所包含的度 量和维度共同定义。例如,一个用于销售分析的多维数据集内包括零售价和成本 价两个度量以及商店位置、产品线和时间三个维。该多维数据集使最终用户得以 南开人学硕上论义第二章数据仓库与o l a p 技术概述 按商店位置、产品线和时间将零售价和成本价分成各种类别进行观察。 4 层次( 1 e v e l ) :某个维可能存在细节程度不同的多个描述方面,我们称 这多个描述方面为维的层次。一个维往往具有多个层次,例如描述时间维时,可 以从开期、月份、季度、年份等不同层次来描述,那么日期、月份、季度、年份 就是时间维的层次:同样,城市、地区、国家是地理维的三个不同层次。图2 3 ”1 表示的是一个考察货运情况的多维数据集,它具有三个维:时间、运输路线和发 货地。每个维又分为不同的层次,如图所示。 运输路线 发赁地r 半球 圣亚一 = 隰勰 i 卜。_ _ _ _ 。 - - 。_ 十。t _ 。- 度量值 固 第一季度第二季度第兰季度第四季度 l 1 _ 一l 1 j 上半年下半年 时间 图2 - 3 维的层次 5 成员( m e m b e r ) :维的一个取值称为该维的一个成员。如果一个维是多层 次的,那么该维的成员是在不同层次的取值的组合。例如,假设时间维具有日期、 月份、年份这三个层次,分别在这三个层次上取一个值,就得到了时间维的维成 员,即“某年某月某日”,但在很多情况下,并不要求在各个层次上都取值,例 如“某年”、“某年某月”或“某月某日”等都是时间维的成员。 6 粒度( g r a n u l a r i t y ) :数据仓库中数据综合程度高低的一个度量。粒度 南开大学颂士论文 第二章数据仓库与o l a p 技术概述 越小,数据细节程度越高,综台程度越低:反之,粒度越大,数据细节程度越低, 综合程度越商。在数据仓库系统中,对于不同层次的分析要求需要不同粒度的数 据。在下面的两张表中,表2 一l 的粒度大于表2 - 2 ,表2 - 2 的数据细节程度高于 表2 一l 。 表2 - 1 某公司上半年销售数据( 粒度较大) i季度销售额( 7 1 元) i一季度 1 5 0 0 l二季度 1 2 5 0 表2 2 某公司上半年销售数据( 粒度较小) 季度月份销售额( 万元) 一月4 8 0 一季度二月 5 0 0 三月5 2 0 四月4 5 0 二季度五月3 6 0 六月4 4 0 7 多维分析:是对多维数据集中的数据采取切片、切块、旋转、钻取等各 种分析动作,以求剖析数据,是用户从多个角度,多个侧面,多个层次来观察多 维数据,从而发掘数据中蕴涵的对自己有用的信息。 2 24 多维分析的基本操作 1 切片和切块( s 1 i c ea n dd i c e ) 切片有两种形式:一种是对多维数据结构中的某维选定成员得到比原来 少一维的多维数据。例如在时间维上取值1 9 9 7 年,则得到1 9 9 7 年的所有相关数 据。另外一种切片则是选定某两维在这两维上任意取值,其它维则选定某个成 员值,从而得到一个二维平面。 也切片相对应,切块也可以分为两种形式:一种是限制某一维的取值区问, 例如规定时间维的取值在1 9 9 7 2 0 0 1 年之间。另一种则是选取三个维度,在这 三个维度上分别取某一区间或任意的维成员,其它的维都取定一个维成员。显然, 南开大学硕士论文第二章数据仓库与o l a p 技术概述 这时得到的是一个三维的立方体。 2 旋转( r o t a t e ) 转轴( p i v o t ) 旋转是在进行了切片或者切块操作所得到的数据报表或者图像上改变维的 方向,例如交换行和列,从而得到不同视角的数据。 3 钻取( d r i l l ) 钻取包括下钻( d r i l l 一d o w n ) 和上钻( d r i l l 一u p ) 上卷( r o l l u p ) 操作。 下钻是指从某一粒度较大的数据出发,去观察分析和这一数据相关的粒度较小的 数据。上钻则刚好相反。如图2 - 4 所示。 囊“单位:万荚元l 按 时 间 缝 向 下 钻 取 囊2 革挂:万羹克j t 按 时 间 维 向 上 钻 取 2 3o l a p 工具发展现状 图2 4 钻取示例 1 9 9 3 年,e f c o d d 提出0 l a p 概念的同时定义了定义了十二条评价o l a p 产 品的准则,即: lo l a p 模型必须提供多维概念视图 2 透明性准则 南开人学硕士论文第二章数据仓库与o l a p 技术概述4 3 存取能力准则 4 稳定的报表性能 5 客户服务器体系结构 6 维的等同性准则 7 动态稀疏矩阵处理准则 8 多用户支持能力准则 9 非受限的跨维操作 l o 直观的数据处理 1 1 灵活地生成报表 1 2 非受限的维与维的层次 根据这十二条准则,o l a p 技术在过去的十年当中有了极大发展,市场上出 现了各种o l a p 产品,如o r a c l e 在1 9 9 5 年开发的e x p r e s s 系列,b u s i n e s so b j e c t s 在1 9 9 6 年发布的b 04 0 ,i b m 在1 9 9 8 年推出的e s s b a s e 等。此外较早时期由 c o g n o s 推出的第一个基于w i n d o w s 的o l a p 工具p o w e r p l a y 也一直是业界中比较 优秀的产品之一。在目前整个市场中,c o g n o s ,b r i o 和b 0 三大厂商的产品拥有 较好的市场占有率,它们在兼容性、功能设计、扩展能力等方面都有着很好的表 现。 m i c r o s o f t 进入o l a p 市场相对较晚,其于1 9 9 7 年发布了o l ed b 标准,使 得o l a p 领域第一次有了一个统一的标准,现在的o l a p 工具大多都支持这个标准。 1 9 9 9 年,m i c r o s o f t 随s q ls e r v e r7 发布了p l a t o ,使得越来越多的人有机会 接触o l a p 的产品。在s q ls e r v e r2 0 0 0 中,p l a t o 更名为a n a l y s i ss e r v i c e s 。 该系统易于使用,且支持o l ed b 和o d b c 数据源以及a d o 对象模型,加上w i n d o w s 产品在市场的主导地位,因此成为一些中小型o l a p 系统开发的首选工具。 纵观现有的各种主流o l a p 工具,采用c 1 l e n t s e r v e r 系统结构的占大多数, 这也是e f c o d d 在早期所提到的o l a p 的实现模式。该模式下的o l a p 工具能够 降低服务器端的负荷。充分发挥客户端系统的处理能力,在客户端执行大量的分 析处理操作,因此提供给用户很强的功能,而且响应速度较快。此外界面设计方 面也比较灵活,具有很强的可定制性,能够根据需要制作出友好的用户界面。但 南升 学烦上论文第二章数据仓库与o l a p 技术概述 c s 结构的系统难免存在一些不可避免的缺点: 1 c s 结构的系统建立和维护费用昂贵,系统的安装、配置、维护以及升 级都需要在服务器和每个客户机上同时进行,这个工作量是非常大的,尤其是当 系统需要为大量客户端用户提供服务的时候。因而系统的扩展性很差。 2 c s 模式下的客户端程序跨平台特性差,如果要实现客户端系统在不同 的平台上运行,则需要针对不同的操作系统开发不同的客户端程序。方面增加 了丌发成本,另一方面也为今后的维护增加了难度。 随着w e b 技术的不断发展,b r o w s e r s e r v e r 结构的o l a p 系统开始出现,简 称w e bo l a p 。b s 结构的系统向用户提供了“瘦客户”的解决方案,将大部分的 工作交给服务器处理,使用w e b 作为基本渠道实现服务器端与客户端的数据交 换。与c s 结构相比,其最突出的优势就是在客户端只需使用一般的w e b 浏览器 与服务器端进行信息的获取与反馈,无需专f 的软硬件设施,因此无需对客户端 进行任何的安装维护工作,大大降低了整个成本。系统的扩展因此变得很容易, 只需对用户分配用户名和密码即可。 其次,随着网络应用的发展和普及,越来越多的人丌始接触和熟悉 i n t e r n e t ,w e b 浏览器成为最普遍的网络工具,因此b s 结构的应用程序就为用 户提供了一个简单易用、界面友好的操作接口,可以被更多具备不同计算机水平 的用户所接受。 此外,b s 结构的系统实现了跨平台性用户只要使用客户端操作系统所兼 容的浏览器便可实现与服务器端的通讯。 目i j 实现w e bo l a p 的方法分为三种“: ( 1 ) o f f l i n e 。该方法使用专门的调度程序从脱机的o l a p 日l 擎获取数据, 接着利用h t m l 模板生成含有相关报表的静态页面,然后通过w e b 服务器将页面 发送到客户端浏览器。这种方式具有良好的可移植性,信息访问速度快,但是静 态页面则缺乏与用户的交互性,只能通过超链接的方式导航,让用户浏览不同的 数据报表。 ( 2 ) o nt h ef l y 。这是目前使用最普遍的方法。当用户通过w e b 浏览器向 服务器发送请求之后,w e b 服务器将这一请求传递给o l a p 服务器,后者快速生 南开大学硕l j 论文第二章数据仓库与o l a f 技术概述 成h t m l 模板和元数据,然后w e b 服务器根据元数据和h t t l 模板生成h t m l 文件, 发送给客户端浏览器。该方法在一定程度上实现了交互性,用户可以动态访问数 据。 ( 3 ) j a v a a c t i v e x 。第三种方法则是将j a v aa p p l e t 或a c t i v e x 控件下载 到客户端执行,从而减少了服务器与客户端的通信量,用户界面也得到了改进。 浚种方法又分为两种,一种使用二进制格式发送数据,另一种则使用h t t p 数据 流。j a v a a c t i v e x 方法的缺点在于移植性差。j a v a 支持跨平台,但其可移植性 仍然不如h t m l ,a c t i v e x 则只支持w i n d o w s 操作系统。 综上可知,b s 结构的o l a f 系统弥补了c s 结构系统的一些缺点,但是由 于客户端浏览器的限制,在数据展现形式、用户界面等方面则不如c s 结构。而 且相应的,服务器端的系统负荷很大。因此,随着技术的不断发展以及应用需求 的不断提高,单一的c s 或b s 结构的o l a f 系统的缺点必将越发明显。 南开人学坝i :论义 第三章基于a n a l y s i ss e r v i c e s 的o l a p 系统设计 第三章 基于a n a l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校内活动安全知识培训课件
- 医学基础知识常考题(含答案)
- 2025年雇佣执行经理合同范本
- 医疗器械法规知识培训试题及答案(单体药店或连锁门店)
- 2025年VTE、伤口造口相关知识培训后考核试题及答案
- 树木寻访记探究课件
- 2025年山西省保密知识教育考试题(含答案)
- 2024年设备监理师之设备监理合同练习题一及答案
- 2024年事业单位考试南京A类《职业能力倾向测验》高分冲刺试题含解析
- 标点符号的争吵课件
- 承诺协议书模板
- 公务用车安全教育培训
- 销售人员心态培训销售心态培训
- 志愿服务与志愿者精神知识考试题库大全(含答案)
- 养老机构入住护理、风险评估表、计划表、记录、告知书等健康档案护理记录模板
- 2024-2025年上海中考英语真题及答案解析
- 科技成果鉴定证书格式模板
- 人教版小学数学2年级下册课时练无答案+单元测试题+期中期末检测卷(含答案)
- 西南大学2022-2023学年本科教学质量报告
- 督灸技术课件
- 高效的物业服务管理团队
评论
0/150
提交评论