(计算机软件与理论专业论文)数据仓库数据模型的研究.pdf_第1页
(计算机软件与理论专业论文)数据仓库数据模型的研究.pdf_第2页
(计算机软件与理论专业论文)数据仓库数据模型的研究.pdf_第3页
(计算机软件与理论专业论文)数据仓库数据模型的研究.pdf_第4页
(计算机软件与理论专业论文)数据仓库数据模型的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名:日期 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:导师签名:期: 数据仓库数据模型的研究 研究生隋琪 指导教师李庆忠教授 郑永清副教授 摘要 数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据 集合,用以支持企业或组织的决策分析处理。基于联机分析处理( o l a p ) 的数 据仓库与基于联机事务处理( o l t p ) 的数据库有根本的不同,数据仓库系统应 该适合大数据量的存储,适台在大量的数据中进行复杂的查询。我们以电力营销 系统为背景,采用o r a c l e 数据库系统作为底层的存储系统,建立了一个数据 仓库系统e m d w s 。为了适合电力营销系统决策分析的要求,在建立一个数据仓 库时,应该选择一个合适的数据模型。、我们选择的数据模型应该能够在海量数据 的环境下,及时、快速的得出查询结果,以帮助我们做出正确的决策。在使用数 据仓库时,设计好与模型相适应的元数据可以使各种操作更加方便。元数据( m e t a d a t a ) 就是用来描述数据的数据,在数据仓库中,需要用元数据来描述系统的信 息,因此元数据的设计是数据仓库设计中一个关键的方面。由于数据仓库的模型 描述起来非常复杂,因此描述模型的元数据也非常复杂,象关系数据库那样用关 系存储元数据有一定的困难,需要一种更好的方法存储、使用元数据。 本文仔细研究了现有的数据仓库的各种模型,仍然采取了最常用的基于关系 理论的数据模型雪花模型作为基本的存取模型,但为了更好的支持决策,对 它加以扩充和改造,形成了一种新的模型雪花模型和对象混合的模型。在这 个模型中,引入了对象的概念,增加了一些数据仓库中对象之间的复杂关联,用 以描述述据仓库中对象之间的关系。利用这些复杂关联,用户可以快速的直接查 山东大学硕士学位论文 找到所需对象,从而提高查询的效率。复杂关联还可以使数据仓库模型更直观, 更有利于提高应用开发的效率。为了能真正的体现新模型的优越之处,本文还对 新模型的具体实现作了一些研究。复杂关联的实现基于o r a c l e 数据库,利用 了o r a c l e 数据库的一些特有的技术,并需要额外的空间存储复杂关联。在对 各种存储方案进行了对比之后,我们选择了文件 乍为复杂关联的存储方式。为了 更好的体现混合模型的查询效率,我们还设计了对复杂关联进行管理的策略。为 了验证新模型的优点,我们对其进行了理论上和实验上的分析。与模型相适应, 本文设计了一套模式演化的语句。混合模型中的查询语句采取了类似s q l 的形 式,但是需要按照新的模型的要求进行改写。 为了实现基于混合模型的数据仓库原型系统,本文对数据仓库建模工具进行 了初步的设计,提出了建模工具的设计方案。本文首先介绍了建模工具的各个功 能模块,然后对数据仓库的元数据进行了设计。我们经过研究和比较,决定采用 x m l 存储元数据,因为x m l 的特点就是可以由用户自己定义复杂数据结构。 通过x m l ,我们可以定义任何复杂的元数据,作为例子,我们设计了数据仓库 中几种元数据的格式。最后结合元数据的设计,本文对模式演化语句的工作流程 进行了初步的设计。 关键词:数据仓库,雪花模型,面向对象技术,关系数据库 复杂关联,元数据 r es e a r c ho fd a t aw a r e h o u s e m o d e l p o s t g r a d u a t e :s u iq i t u t o r :p r o l iq i n g z h o n g a s s o c i a t ep r o f z h e n gy o n g q i n g a b s t r a c t t h ed a t aw a r e h o u s ei sas u b j e c to r i e n t e d 、i n t e g r a t e 、n o n - v o l a t i l e 、t i m ev a r i a n t d a t as e t u s e dc os u p p o r td e s i g nm a k i n g b e c a u s et h ed a t aw a r e h o u s ei sb a s e do nt h e o n l i n ea n a l y s ep r o c e s s i n g ( o l a p ) ,i ti su t t e d yd i f f r e mf r o mt h ed a t a b a s eb a s e do n t h e o n l i n et r a n s a c t i o np r o c e s s i n g ( o l t p ) t h ed a t aw a r e h o u s es y s t e ms h o u l df i tt os t o r e m a s sd a t a ,a n dt oa n a l y s ei nm a s sd a t a ,a n dt h ed a t aw a r e h o u s ea p p l i c a t i o n sc a l l h a r d l y b es a t i s f i e dc o m p l e t l yu s i n gt h eo l dr d b m st e c h n i c a l w eb u i l t ad a t a w a r e h o u s es y s t e me m d w su s i n gt h ee l e c t r i c p o w e rm a r k e t i n gs y s t e m a si t s b a c k g r o u n da n do r a c l e d a t a b a s es y s t e ma si t sp h y s i c a ls t o r a g es y s t e m i t sv e r y i m p o r t a n t t od e s i g na g o o dd a t aw a r e h o u s e m o d e lt om e e tv a r i o u sd e m a n d si nd e s i g n a n da n a l y s ep r o c e s so fo u re m d w s t h e r e f o r eo u rm o d e ls h o u l dg e tt h eq u e r yd a t a e f f i c i e n t l ya n dq u i c k l yi nt h em a s sd a t a w h i c hc a i lh e l pu st od e s i g ns a t i s f i e d i ti s v e r y t o o p e r a t ed a t ai nu s i n gt h ed a t aw a r e h o u s es y s t e mi fw ew o u l dh a v eag o o d m a n a g e m e n to fm e t ad a t a m e t ad a t ai sak i n do fd a t at od e s c r i b eo t h e rd a t a i n r d b m s ,t h ed a t ad i c t i o n a r ya st h es e to fm e t ad a t am a n a g e sa l ld a t ad e s c i b e s a l l k i n d so f s y s t e mi n f o r m a t i o n si nd a t aw a r e h o u s en e e db ed e s c r i b e dw i t hm e t ad a t as o m e t ad a t ai sac r u c i a la s p e c ti nt h ee n v i r o n m e n to fd a t aw a r e h o u s e t h e r ea r es o m e d i f f i c u l i t y si ns t o r i n gm e t ad a t ai nr e l a t i o na sr d b m sd i df o rt h ec o m p l e x i t yo f m e t a 3 d a t ai nd a t aw a r e h o u s es ow en e e dab e r e rm e a n s t os t o r ea n dm a n a g em e t a d a t a t h ea u t h o ro ft h i sp a p e ri n t r o d u c e dan e wm i x e dd a t aw a r e h o u s em o d e la f t e r m a n yr e s e a r c h s a n dc o m p a r i s o nw e r em a d e i nt h i sp a p e rs o m ei d e a so fo b j e c t o r i e n t e dt e c h n i ca r ec o m b i n e di nc u s t o m a r ys n o w - f l a k em o d e l ,a n dt h er e s u l t o f w h i c hi san e wm i x e dd a t aw a r e h o u s em o d e lo fb o t ho b j e c to r i e n t e dt e c h n i ca n d s n o w f l a k em o d e l i nt h i sm o d e l ,t h ec o m p l e xr a l a t i o nw a si n 廿o d u c c dt od e s c r i b et h e a s s o c i a t i o na m o n g o b j e c t so f d a t aw a r e h o u s e u s i n gt h el i n kw ec a nq u i c k l ya n d d i r e c t l y l o c a t et h e o b j e c t w h i c hw ew a n t ,s oo n rd a t w a r e h o u s em o d e lh a st h e o u t s t a n d i n ga c c e s sc a p a b i l i t y r e s p e c tt ot h em o d e l ,w ea l s od e s i g n e das e to fd a t a d e n f i n a t i o ns e n t e n c e s 、w ea l s or e s a c h e dh o wt or e a l i z eo u rd a t aw a r e h o u s es y s t e m b a s e do nt h en e wm o d e lf o rt h ea d v a n t a g ew o r k t h ec o m p l e xr e a l t i o nw a sr e a l i z e d w i t hs o m e s p e c i a lo r a c l e t e c h n i c a l sa n dn e e ds o m ee x t r as t o r a g es p a c e f o rt h en e x te x p e r i m e n ti nt h ep r o t o t y p es y s t e m ,t h ea n t h e ro ft h i sp a p e rs i m p l y d e s i g n e dt h et o o lo fm o d e ld e f i n i t i o na n dp u tf o r w a r dap r i m a r ys c h e m e a tt h ef i r s t w ei n t r o d u c e dt h em o d u l eo fo u rm o d e l t 0 0 1 s e c o n d l yw ec a r e f u l yd e s i g n e dt h em e t a d a t ao ft h ed a t aw a r e h o u s e a f t e rm a n yr e s e a r c h sa n dc o m p a r i s o na b o u tm e t ad a t ai n d a t aw a r e h o u s ew e r em a d et h ea u t h o rc h o s ex m lt os t o r ea n dm a n a g et h em e t ad a t a b e c a u s ex m li sv e r yg o o da t d e f i n i n gc o m p l e xd a t as t r u c t u r e t h u sw ec a nd e f i n e c o m p l e x m e t ad a t aw i t hx m la to u rw i l l a se x a m p l e s ,w ed e s i g n e ds o m ef o r m a t so f m e t ad a t ac o n c e r n e dw i t ht h en e wm i x e d m o d e li nt h i sp a p e r a tt h el a s to ft h i sp a p e r , w e d e s i g n e d t h ef l o wc h a r to f t h et o o lo f m o d e ld e f i n i t i o n k e y w o r d s :d a t a wa r e h o u s e ,s n o w f l a k em o d e l ,o b j e c to r i e n t e dt e c h n i c , r e l a t i o nd a t a b a s e ,c o m p l e x r e l a t i o n ,m c t ad a t a 4 = ! 尘坠耋些耋垄圣= ! ! = = = 竺! 竺 第一章绪论 近年来,随着数据库技术的应用和发展,人们发现传统的数据库技术已经越 来越不适应决策支持的需要,于是人们尝试对数据库( d a t a b a s e ,简称d b ) 中 的数据进行再加工,形成一个综合的、面向分析的环境,以更好的支持决策支持 从而形成了数据仓库( d a t aw a r e h o u s i n g ,简称d w ) 以及与其相关的一系列技 术数据仓库技术。 1 ,1 数据仓库简介 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。当 联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经 不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关 行业的情况进行分析,而做出有利的决策。这种决策需要对大量的业务数据包 括历史业务数据进行分析才能得到。这种基于业务数据的决策分析,人们称之 为联机分析处理( o l a p ) ,比以往任何时候都显得更为重要,于是数据仓库技 术应运而生【“。本世纪8 0 年代中期,“数据仓库之父”w i l l i a mh i n m o n 在其 b u l i d i n gt h ed a t aw a r e h o u s e ) ) 一书中定义了数据仓库的概念,数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对 稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持 管理决策f 2 】。根据数据仓库概念的含义,数据仓库拥有以下四个特点【2 】: 1 、面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一 个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主 题通常与多个操作型信息系统相关。 2 、集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的 基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以 保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 、相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据 操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期 山东大学硕士学位论文 保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通 常只需要定期的加载、刷薪。 4 、反映历史变化。数据仓库中的数据通常包含历史信息,系统纪录了企业 从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过 这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 由于数据仓库具有跟数据库的完全不同的特点,所以在设计数据仓库时所 要遵循的原则跟设计数据库是不同的。 1 数据仓库系统应该适合大数据量的存储。数据仓库所涉及的数据量比传 统事务处理大得多。一般的数据仓库存储的数据都会达到几十g b 以上,大型 的数据仓库甚至达到数百个t b 以上。如何高效的管理如此之多的数据时数据仓 库要解决的第一个问题。 2 数据仓库系统应该适合在大量的数据中进行复杂的查询。在数据仓库系 统中,每一个查询和统计都很复杂,但访问的频率并不是很高,并且主要是查 询操作两很少有更新操作。数据仓库的查询并不嚣要像事务处理系统那样精确, 但在大容量数据环境中需要有足够短的系统响应时间。响应时间在数据仓库中 不是一个决定因素但却是一个非常重要的因素,这直接关系到数据仓库性能的 好坏【1 1 。 在过去的几年,数据仓库经历了突飞猛进的发展,在大量的行业中得到了应 用。同时数据仓库技术也有了迅速的发展,表现在数据仓库数据模型( d a t a w a r e h o u s e m o d e l i n g ) 、数据仓库设计( d a t a w a r e h o u s ed e s i g n ) 、数据仓库体系结 构( d a t aw a r e h o u s e a r c h i t e c t u r e ) 、数据仓库维护( d a t aw a r e h o u s em a i n t e n a n c e ) 、 数据仓库数据管理( d a t aw a r e h o u s ed a t am a n a g e m e n t ) 、数据仓库数据操作( d a t a w a r e h o u s e o p e r a t i o n a li s s u e s ) 以及查询优化( o p t i m i z a t i o n ) 等技术方面。【3 j 1 4 1 2 当前主要的数据仓库模型 数据的组织是数据仓库的个关键的问题,直接影响到数据仓库的效率,通 常数据仓库中的把分析数据的角度叫做维,数据按照维来组织,展现出多维的性 质吼基于底层的数据组织,数据仓库的数据模型主要有星型模型( 或是雪花 模型) 和多维模型两种。前者基于关系数据库,通过关系数据库来实现多维模型, 将数据方体上多维数据操作转化为关系表上的操作,雪花模型是星型模型扩展 4 e 5 】;后者则基于真正的多维数据库,底层的数据组织就是真正的多维模型,其 上的数据操作对应数据方体的操作5 1 。目前大多数的数据仓库产品都是基于雪花 模型。 1 2 1 星型模型和雪花模型 这两种模型基于关系数据库,星型模型、雪花模型都是基于关系的模型,其 中雪花模型是星型模型的扩展卯。星型模型通常由一个很大的事实表和组较小 的维表组成。如图1 1 所示的星型模型中电费事实是中心的事实表,其周围的维 表有:时间、顾客、销售员、供电商和产品类型。 图1 1 星型模型 星型模型中的维通常是有层次的,雪花模型就是对维表按层次分解后形成 的。例如,如图1 2 所示,产品可以按类型分类等。 顾客维 时间维 制造商维 销售员维 图1 2 雪花模型 用电类型维 星型模型和雪花模型都是基于关系数据模型的,其中雪花模型是星型模型的 扩展,它们里面都有表的概念,事实证明关系数据模型有很多的优点。1 9 6 9 年, e f c o d d 博士发表了他著名的关系数据模型的论文 6 1 ,关系数据模型由于有理论 基础做依据,提供了与物理存储无关的标准化的访问手段,因此关系数据库管理 系统在实际生产中得到了广泛的应用。近几十年来,。大量新技术、新思路的涌现 出来并被用于关系型数据库系统的开发和实现:客户i n 务器系统结构、存储过 程、多线索并发内核、异步i o 、代价优化,等等,这一切使得关系数据库系统 的处理能力达到足够高的水平【1 】【7 】。 关系表是二维的,而数据仓库则是多维的,二者在数据组织、数据操作等很 多方面是不同的,雪花模型很好地解决了这个的问题,它能将用户的多维查询请 求转换成针对该数据模式的标准s q l 语句【9 】。因为雪花模型是基于关系数据模 型的,因此具有关系数据模型的优点。而且因为当前数据库的主流技术是关系数 据库,采用这种模型的数据仓库有利于程序设计人员和数据库管理人员的快速接 受。 现在很多数据仓库的解决方案,都是原有的关系数据库制造商在原有的数据 库基础上提出的。他们大都采用雪花模型或是其变形作为数据仓库的数据存储模 型。例如o r a c l e 公司的数据仓库解决方案中,将详细数据以雪花模型存储在 o r a c l e 关系数据库中,而用一个叫做o r a c l ee x p r e s ss e r v e r 的m o l a p f 多维o l a p ) 服务器管理将多维的操作映射成s q l l l 0 1 l l 1 1 2 1 。 尽管关系方式的雪花模型具有很多优点,但它和关系数据库一样,也暴露出 很多的不足和限制【l 引。雪花模型缺乏对复杂关系的有效描述,因此存取效率低 1 3 10 以雪花模型建立的数据仓库在应用时会遇到大量的表间连接操作,而连接操 作对于关系数据库来说是一件耗时的操作。如果数据仓库的规模很大的话( 通常 数据仓库的规模很可能会达到t b 级) ,基于雪花模型的数据仓库在做复杂查询 时查询就很可能效率偏低。 1 2 2 多维方式的模型 多维方式的模型是基于多维数组耐1 4 1 ,这是与星型和雪花模型完全不同的一 种数据仓库模型。多维数组可以这样来表示:( 维1 ,维2 ,维n ,变量) 。例 如:图1 3 所示的e t g 品销售数据是按时间、地区和产品组织起来的三维立方体, 加上变量“销售额”,就组成了一个多维数组:( 地区,时间,产品,销售额) 。 用电类型 供电商 济南 元) l234时间( 月) 图1 3 按销售渠道、时间和地区组织的多维模型 在这种模型中,数据是真正按照多维数据的方式组织的,这适合数据仓库数 据的多维性,很多数据仓库中的操作可以在多维模型中的到一一的对应。但是为 了支持这种模型,必须提供一种与关系数据库完全不同的数据库管理系统多 维数据库系统。这种数据库系统已经出现,a r b o rs o f t w a r e 严格遵照c o d d 的定 义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的 先河,后来的又有很多家公司纷纷采用多维数据存储1 1 5 】。代表产品有h y p e r i o n ( 原 a r b o rs o f t w a r e ) e s s b a s e 、s h o w c a s es t r a t e g y 等。多维数据库是一种以多维数据存 储形式来组织数据的数据管理系统,它不是关系型数据库,在这种数据库中,数 据是真正的按照多维的形式组织的。 基于多维数据库的多维模型特点是存储效率高( 在充满度大的情况大) ,计 算速度快,数组的下标就相当于索引1 1 6 1 ,但多维数组通常非常稀疏,需要进行压 缩。 多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库 所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。 另外,商品化的多维数据库很少,应用规模也很小,这是多维方式的模型的主要 缺点 劓1 9 。 1 3 数据模型与元数据 元数据( m e t ad a t a ) 就是描述用来数据的数据。在关系数据库中元数据存 9 放在数据字典中,它提供对数据库数据描述的集中管理手段。内容包括对各级模 式的描述、整个模型的描述、数据库的使用人员等信息【1 】【1 8 】b 9 2 0 o 它既可以供 数据库系统使用,又可以提供给一般用户使用,有利于数据库管理员掌握整个系 统结构和系统运行情况,方便用户使用系统【垤1 2 0 l 。 在数据仓库中,也需要用元数据来描述系统的信息。数据仓库环境中一个重 要方面是元数据。在数据仓库中,元数据扮演一个新的重要角色。也正是因为有 了元数据,可以最有效的利用数据仓库。元数据使得最终用户d s s 分析员能够 探索各种可能性1 2 】。 元数据在数据仓库的上层,并且纪录数据仓库中对象的位置。典型的,元数 据纪录【2 j : 程序员所知的数据结构 d s s 分析员所知的数据结构 数据仓库的源数据 数据加入数据仓库时的转换 数据模型 数据模型和数据仓库的关系 抽取数据的历史纪录 同数据库的元数据一样,数据仓库的元数据也很重要,数据结构、e t l 工具、 查询、数据粒度的变化、主动机制的定义、查询展现等等很多方面都要用到元数 据。由于元数据为很多方面的应用提供了大量便利,所以元数据的好坏还影响到 数据仓库的效率。当前的数据仓库产品中多数是基于雪花模型的,所以元数据依 然是采用关系数据库的方法,用关系存放元数据【2 i 】。由于数据仓库的元数据结构 更复杂,变化更多样,有时我们无法缺确定元数据固定的格式,这时用关系存放 元数据不可避免有些不足。 i 4 本文的贡献 基于电力营销的背景我们试图设计一个数据仓库的原型系统,我们称之为 电力营销的数据仓库系统( e m d w s ) ,本文在e m d w s 的背景下,认真研究了 数据仓库的数据存储模型和元数据,做出了以下的贡献: ( 1 ) 提出了一种新的数据模型雪花模型和对象混合的模型。 为了更好的利于e m d w s 的决策支持,我们需要采取一个好的数据存储模 型。本文在仔细研究了现有的数据仓库的各种模型后,设计了一种新的数据模型 雪花模型和对象混合的模型,这是一种对象和关系混合的模型。新的模型仍 然采取了最常用的基于关系的模型雪花模型作为基本的存取模型,但为了更 好的支持决策,对它加以扩充和改造。在这个模型中,引入了对象的概念,增加 了一些数据仓库中对象之间的复杂关联,用以描述述据仓库中对象之间的关系。 利用这些复杂关联,用户可以快速的直接查找到所需对象,从而提高查询的效率。 复杂关联还可以使数据仓库模型更直观,更有利于提高应用开发的效率。我们通 过理论和实验论证了混合模型的优点。 ( 2 ) 基于o r a c l e 数据库,提出了一套混合模型实现的方案。 为了实现我们的模型,我们提出了模型的实现方案。这个方案是基于 o r a c l e 数据库的,因为o r a c l e 数据库提供了一种实现我们的模型所必需的 机制。在这个方案中,我们对混合模型中对象之间的复杂关联的实现、存储以及 管理策略都进行了详细的描述。与模型相适应,本文还设计了一套模式演化的语 句。 ( 3 ) 初步设计了混合模型的建模工具的方案。 为了实现我们的数据仓库原型系统,我们设计对建模工具了的初步的方案。 首先我们设计了建模工具的各个功能模块。然后为了方便实现各种操作,我们对 数据仓库的元数据进行了设计。由于数据仓库的元数据结构复杂,不适合用固定 的模式存储,我们采用了x m l 的格式存放元数据。最后,结合我们的混合模型 的各个模块的功能和元数据的格式我们对数据仓库建模工具的工作流程进行了 设计。 本文第一章简单介绍了数据仓库的概念、数据存储模型和相关元数据的研究 现状。在本文第二章,我们简单介绍了电力营销的数据仓库系统( e m d w s ) 的 背景、体系结构和特点。在第三章是本文的重点介绍了一种新的数据模型 雪花模型和对象混合的模型。首先在3 1 节介绍了新的模型的定义和特点,然后 3 2 节对新的模型的性能进行了理论上的分析和实验上的验证,接着3 3 节介绍 了混合模型的关键复杂关联( l i n k ) ,对复杂关联的实现、存储和管理策略 山东大学硕士学位论文 进行了详细的讲述,最后在3 4 节讲述了我们为配合模型设计的模式演化语句。 第四章主要讲述了与模型相关的概要设计,我们分析了数据仓库的元数据,提出 了x m l 格式的元数据存储方案,作为例子,我们设计了数据仓库中几种元数据 的格式,并结合例子描述了一个查询如何使用元数据。在4 2 节我们介绍了整个 系统建模部分的概要设计。 第二章电力营销数据仓库系统介绍 实现企业数据仓库的目的是把企业掌握的不同时期、不同地区分散的企业微 观数据信息,经过综合、加工,按照多个主题集中存储和管理在数据仓库中,灵 活方便的实现固定的和随机动态的数据查询处理、综合分析和统计报表 2 2 】 2 3 1 o 我们以电力营销为背景,开发一支持电力行业决策的数据仓库原型系统。 2 ie m d w s 的背景 电力行业的营销决策主要是基于电力营销管理系统积累的日常业务数据,涉 及的数据量大,计算过程复杂。以往的营销决策都是基于大量的手工统计,工作 量很大,效率很低,并且很拿保证决策的正确性f 2 3 l 。我们根据电力营销的行业特 点,建立一个支持电力营销决策的数据仓库系统( s u p p o r te l e c t r i c p o w e r m a r k e t i n gd e c i s i o n d a t aw a r e h o u s e s y s t e m ,简称e m d w s ) 用以更好的支持电力 营销的决策分析,提高电力营销决策的效率与准确度。 电力营销数据是由原有的电力管理系统在作正常业务中积累下来的,其主要 特点如下: ( 1 ) 数据量大,涉及的主题比较多,不同主题内容互相牵制。电力营销系 统的最大特点是数据量大,每年数据的格式与要求不尽相同。这些数据资料一方 面面临外部环境对传统保存方式数据安全性的挑战,另一方面各业务部门和相关 单位也有充分利用、进行数据挖掘的迫切需求。针对信息数据量大的特点,我们 就需要数据仓库引擎和数据具有极高的性能,需要并行的数据库管理系统l 。 ( 2 ) 数据源比较复杂f 2 5 1 。不同的电力子部门采用的数据库管理系统可能不 一致,不同的部门数据的存放格式也是不一致的,在加载到数据仓库之前,这些 数据必须经过净化筛选、;n - r 整理以及数据集成,同时可能需要w e b 数据【2 6 】, 这就造成了数据源的复杂性。对于这样复杂的数据源,我们专门建立了一e t l 工具来集成加载数据源的数据。 ( 3 ) 需要及时的决策支持2 5 1 。任何决策支持系统的决策是有一定的时间限 制的,系统的运行效率太低就不能满足这一需求,最后提供的信息只要是过时的, 根据这一信息做出的任何决策可能会导致最终的失败。 山东大学硕士学位论文 ( 4 ) 要求展示方式复杂,计算复杂,时间响应要求高。系统需要能够以生 动的形式展示数据,这些形式包括复杂的报表、动画、图表等【2 7 j 。 ( 5 ) 需要某些主动决策 2 5 】。系统能够自动的做出某些简单常用的决策是我 们追求的目标,这样可以节省大量的人力、物力、财力。我们在系统中提供一个 主动模块来帮助系统做出主动的决策。主动模块根据定义好的规则对某些问题做 出主动的决策。 我们将根据上述电力营销数据的主要特点,开发我们的数据仓库系统。 2 2 e m d w s 的体系结构及特点 我们以o r a c l e8 1 6 数据库管理系统为底层的存储系统,以c l i e n t s e r v e r 结构为基本架构,设计了支持电力营销决策的数据仓库系统e m d w s ,系统结构 2 4 1 如图2 1 所示。将要设计开发的e m d w s 包括数据管理模块、用户管理模块、 命令解析模块、数据仓库主动模块、通信模块、集成接口、e t l 工具、库交互查 询工具、库建模工具等。其中e t l 工具、库交互查询工具、库建模工具、集成 服务 网 客户 图2 1 e m d w s 系统结构 1 4 接口等是作为客户端工具提供给用户的。 同其他的数据仓库产品相比,我们的e m d w s 系统有以下的特点: ( 1 ) 数据仓库与数据库的统一管理。许多数据仓库的用户有时会访问源数据 库以获得一些原始的细节数据,由于e m d w s 系统采用关系数据库系统o r a c l e 来组织存储数据,因此,我们采取一种统一的数据管理方法 2 4 】来实现对数据仓库 和数据库的管理,并通过对关系数据库管理系统的一定扩充来实现对数据仓库特 殊应用的管理。 ( 2 ) “雪花模型”与对象相结合的数据模型。在本系统中,我们引入了一些 面向对象的技术,借助面向对象技术中的复杂关联的思想,提出了一种“雪花模 型”与对象相结合的数据模型。它将建立对象之间的复杂关联,利用这些关联, 可以比较快速、直接地查找到结果,避免了搜索的过程,提高了查询效率。这部 分内容正是本文所要论述的重点。 ( 3 ) 提供了一组基于数据方体的操作。e m d w s 提供的数据操作集合中包括以 下操作:上卷( r o l l u p ) 、下钻( d r i l l - d o w n ) 、切片( s l i c e ) 、切块( d i c e ) 、旋转( p i v o o 、 历史同期比较( v _ c o m p a r i s o n ) 和横向比较( hc o m p a r i s o n ) 。基于这些操作,分析 人员能够对大量的数据进行直观的分析。并以生动的形式展现出来。 ( 4 ) 引入了主动机制。在e m d w s 系统中,我们引入了一些主动机, l i t 2 5 】。数 据仓库中可以定义一些特定的针对源数据库数据变化的事件以及可以由这些事 件触发的规则,如果这些事件发生,数据仓库可以主动的启动数据更新过程,将 相关的数据导入数据仓库【2 5 】,从而为这些事件的决策处理提供及时的数据,保证 决策的有效性。 2 3 小结 电力营销数据仓库系统是为适应电力营销的决策支持的特点设计的一个数 据仓库原型系统。它适合电力营销的特点,但它又不是专为电力营销设计的,它 是一个原型系统,对它稍加改动就可以应用到别的领域。我在整个模型中负责与 模型相关的部分。 第三章对象与关系混合的数据模型 数据仓库遇到的第一个问题就是对大量数据的存储和管理,从现有技术和产 品来看,只有关系数据库系统能够担当此重任。关系数据库经过近3 0 年的发展, 在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。采用关系数据 库管理数百个g b 甚至到t b 的数据已是一件平常的事情 3 1 。传统的数据仓库模 型中最为常用的是星型模型或其扩展型一一雪花模型,这种模型是基于关系数据 库的,因此具有关系数据库的优点。我们对数据仓库的模型进行了若干研究,仍 然采取了关系模型作为基本的存取模型,但为了更好的支持决策,对它加以扩充 和改造。在我们新的模型中,引入了对象的概念,增加了一些数据仓库中对象之 间的复杂关联,用以描述述据仓库中对象之间的关系。 3 1 新的混合模型雪花模型+ 对象技术 在第一章我们已经提到,当前最常用的数据仓库模型是基于关系数据模型的 雪花模型,它具有关系数据模型的优点。下面就以我们的支持电力营销的数据仓 库为例,设计它的雪花模型。假设有一个事实表就是销售量表。这个模型有三个 维:时间维、地区维和行业维,对应三个维表。其中时间维有年、月、日三个层 次,产地维有地区、城镇、供电商三个层次,产品维有大类、小类两个层次,各 个层次对应着各自的关系表。整个雪花模型的示意图如图3 1 。 用电类型 日期维 图3 1 雪花模型的致据组织示意图供电商维 1 6 山东大学硕士学位论文 在上图3 1 中,事实表和维表、维表和维表之间通过外键建立关联,在雪花 模型中维表的主键是事实表的主键的一部分。如果用户要查询满足一定条件的事 实,首先需要建立事实表和维表间的关联,然后检索关联表的所有纪录,查找出 符合条件的纪录。由于关联表一般很大,查询的效率会比较低。由于雪花模型是 基于纯粹的关系数据库的,它不能很好的表示维表跟事实表之间、维表之间存在 各种各样的联系,因此在关系模型的基础上很难提高雪花模型的存取效率。而善 于表达对象问的复杂联系正是面向对象技术的一个优点,借用面向对象的技术我 们就能解决这个问题。 为了解决雪花模型的这个缺点,我们提出了一个对象与雪花模型混合的数 据仓库模型,它在原有的雪花模型的基础上,引入了面向对象技术中复杂关联的 思想,用来描述述据仓库中对象和对象之间的关系。在新的模型中,我们引用了 下面这个概念: 复杂关联:数据仓库中的对象问存在着复杂的关联,对它们的描述称为复 杂关联,简称l i n k 。假设事实表f 是事实对象石的集合,维表d 是维 值对象弓的集合。事实表和维表的对象之间的复杂关联记作l i n k ( f 4 ) , 其中事实表f 的主键是肠,维表d 的主键是k d ,k d e k v 。使用复杂关 联。可以实现从对象到对象的快速查找。 为雪花模型建立复杂关联后,原有的模型示意图3 1 就变成了在图3 2 中的模 型图,从产品对象联接到销售事实对象的l i n k ( p ,p 就是一个复杂关联。 用电类型维 日期维一 供电商维 图3 2 混合模型的数据组织示意图 。 1 7 山东大学硕士学位论文 在图3 ,2 中,维、事实、维表跟事实表的元组、甚至整个模型都可以看作对 象。通过用合适的方法建立对象和对象间的复杂关联后,数据仓库中的维和维, 维和事实等对象之间就建立了直观的、物理的连接,在建立了复杂关联的两个对 象中作查询就会变得直观,快速。复杂关联的实现依赖于具体的r d b m s ,其基 本原理是根据复杂关联得到所要查询的对象的i d ,借此快速得到查询的对象。 在在新的模型中,底层的数据组织还是关系表,但是各个对象之间可以建立复杂 的关联,从而将雪花模型和面向对象数据模型的优点较好的结合在一起。对象和 雪花混合的模型如图3 2 所示。 3 2 混合模型的性能评估 首先我们对本文的混合模型的性能进行理论上的估计。 假设我们建立了维值对象到事实对象的复杂关联,即每一个维值都同它所 对应的事实都建立了链接。图3 3 是对应图3 2 模型的数据组织示意图,对应于 雪花模型,即图3 1 的数据组织示意图和图3 3 差别在于没有对象之间的复杂关 联,我们就不另给示意图。图3 3 通过复杂关联,维表的维值跟事实表的事实建 立链接,任何维层次的维值均可指向相应的事实。通过我们定义的复杂关联,从 任何一个维值都能快速的找到其对应的事实。 通过下面这个实例的比较,可以看出采用这种模型,可以极大的提高查询 效率: 假设图3 _ 3 中有1 0 个地区,每个地区有2 0 个城市。每个城市有1 5 家供电 商;有7 种品牌,每种品牌有3 0 个型号;存放1 9 9 6 年到2 0 0 1 年7 年的销售量。 对应的事实表和维表的结构为: f a c t t a b l e ( f e e ,t o w n _ n o ,t y p e _ n o ,d a t e ) ; a r e a ( a r e a _ n o ,a r e an a m e ) ; c i t y ( a r e a _ n o ,c i t y _ n o ,c i t yn a m e ) ; t o w n ( c i t y _ n o ,t o w n _ n o ,t o w n _ n a m e ) : g r o u p ( g r o u pn o ,g r o u p _ n a m e ) ; t y p e ( g r o u pn o ,t y p e _ n o ,t y p e _ n a m e ) ; 在图3 3 中- 为了描述上的简单方便,事实表中存放的是各个维值的名称而 非编码,实际上事实表中存放的应该是维值的编码。 d a t e j d a td a t e _ m o n t hd a l = _ d a y 总电费供电小类 供电1 瞄日期 i l家崖照明万德9 6 il

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论