




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一。一。:塑圣兰堡垡塑墼圣一 数据仓库主动更新机制研究 研究生 指导教师 张抗抗 李庆忠教授 摘要 在数据库技术发展过程中,联机事务处理( o l t p ,o n l i n et r a n s a c t i o n p r o c e s s i n g ) 一度占据着数据库应用的主流。随着市场竞争的加剧,企业需要对 自身业务的运作及市场相关行业的发展态势进行深入的分析,并为领导层的决策 提供支持。数据仓库( d a t aw a r e h o u s e ) 技术就是为支持决策分析而发展起来的。 我们以电力营销系统为背景,采用o r a c l e 数据库系统作为底层的存储系统,建 立了一个数据仓库系统e m d w s 。 数据仓库一开始是定位在为高层管理者提供战略决策支持,采用定期的数 据更新。但是随着战术决策支持需求的不断增加,这种方式已不能适应决策过程 中对数据的需求。为了更好地体现决策者的兴趣和意图,并及时地对业务数据的 变化做出反应,本文提出了一种主动的数据更新方法数据驱动的主动更新方 法。该方法将e c a 主动规则( e v e n t c o n d i t i o n a c t i o na c t i v er u l e ) 的思想引入 e m d w s 系统的更新工作中来,可以按照用户的预先定义,根据业务数据库的数据 变化主动地启动数据仓库的更新操作。通过与传统方法的对比分析表明,这种方 法能以较小的数据流量为突发性事件的处理决策提供及时的数据,较好地解决了 数据更新及时性和系统开销之间的矛盾。 e t l 过程是数据仓库更新的执行过程。由于它直接决定了数据仓库中数据的 质量,从而影响决策,因此在数据仓库的体系结构中占据着重要的地位。由于数 据仓库数据量大,数据源复杂,数据更新的复杂程度比较高。目前对此问题还没 有比较系统的整体研究。本文对数据仓库数据更新过程中的一些关键问题及其解 决方案进行了讨论,并提出了一个比较简单的数据更新的整体逻辑框架。该框架 描述了数据更新的定义、执行和控制流程,并且可以方便地进行功能的扩充。 山东大学硕士学位论文 文中还给出了e m d w s 系统数据主动更新的设计方案,讨论了主动数据更新 在系统结构中所占据的地位,并结合电力应用背景对数据仓库的主动数据更新进 行了深入的分析。 关键词:数据仓库;数据仓库更新:e c a 规则; r e s e a r c ho na c tiv er e f r e s h m e n t nd a t aw a r e h o u s e g r a d u a t e :z h a n gk a n g k a n g s u p e r v i s o r :p r o f e s s o rl iq in g z h o n g a b s t r a c t i nt h e d e v e l o p i n g o fd a t a b a s e t e c h n o l o g y ,o n l i n e t r a n s a c t i o n p r o c e s s i n g ( o l t p ) h a so n c eb e e nt h em a i n s t r e a mo fd a t a b a s ea p p l i c a t i o n f o l l o w i n g t h e s h a r p e n i n g o f m a r k e t c o m p e t i t i o n ,e n t e r p r i s e s n e e dt o a n a l y z ep r o f o u n d l yt h e i ro w nb u s i n e s so p e r a t i o na n dt h es t a t u so fm a r k e t a n dr e l a t e di n d u s t r ya n dp r o v i d es u p p o r tf o rt h el e a d e r s d a t aw a r e h o u s e ( d w ) t e c h n o l o g yw a sd e v e l o p e do nt h e b a s eo fs u p p o r t i n ga n a l y s i sa n d d e c i s i o n w eb u i i tad ws y s t e me m d w su s i n gt h ee l e c t r i cp o w e rm a r k e t i n g s y s t e ma s i t sb a c k g r o u n da n do r a c l ed a t a b a s es y s t e ma si t sp h y s i c a l s t o r a g es y s t e m a tt h eb e g i n n i n g ,d ww a sp o i n t e do np r o v i d i n gs u p p o r to ns t r a t e g i c d e e i s i o nf o ru p p e rm a n a g e r i t sd a t aw a sr e f r e s h e dp e r i o d i c a l l y a st h e d e m a n do ft a c t i c a ld e c i s i o ns u p p o r tb e i n gm o r ea n dm o r e ,t h i sm e t h o dc a n n o l o n g e rs a t i s f yt h en e e do fd a t ai nt h ep r o c e s so fd e c i s i o n i nt h i s a r t i c l e w ea d v a n c ea na c t i v ed a t ar e f r e s hm e t h o d d a t a d r i y e na c t i r e r e f r e s h m e n tm e t h o d ,w h i c hc a d r e p r e s e n tt h ed e c i s i o n - m a k e r s i n t e r e s ta n d p r o p o s eb e t t e ra n dr e s p o n s et ot h ec h a n g eo fo p e r a t i o n a ld a t at i m e l y t h i s m e t h o di n t r o d u c et h ei d e ao fe v e n t c o n d i t i o n a c t i o n ( e c a ) a c t i v er u l e s in t ot h er e f r e s h m e n to fe m d w s s y s t e ms ot h a tt h es y s t e mc a nl a u n c hd w r e f r e s h m e n t o p e r a t i o na c c o r d i n gt ou s e r s p r e d e f i n i t i o na n dd a t a c h a n g e so fo p e r a t i o n a ld a t a b a s e s i ti sd e m o n s t r a t e db y c o m p a r i n gw i t h t r a d i t i o n a lm e t h o dt h a tt h i sm e t h o dc a n p r o v i d et i m e l yd a t af o r t h e d e c i s i o na n dd e a l i n go fu n e x p e c t e de v e n ta t t h ec o s to fs m a l la m o u n to f 3 山东大学硕士学位论文 d a t ac o m m u n i c a t i o n s oi ts o l v e st h ec o n f l i c tb e t w e e nt i m e l i n e s so fd a t a r e f r e s h m e n ta n ds y s t e mc o s t e t lp r o c e d u r ei st h ee x e c u t i n gp r o c e d u r eo fd wr e f r e s h m e n t ,w h i c h i so f g r e a t i m p o r t a n t s t a t u si nt h ea r c h i t e c t u r eo fd wb e c a u s ei t d e t e r m i n e st h ed a t aq u a l i t yo fd wa n dt h e r e f o r ea f f e c t st h ed e c i s i o n d a t a r e f r e s h m e n th a sv e r yh i g hc o m p l e x i t yb e c a u s eo fl a r g ev o l u m eo fd a t ai n d wa n dc o m p l e x i t yo fd a t as o u r c e s t h e r ei s n om u c hs y s t e m a t i cg l o b a l r e s e a r c ho nt h i sp r o b l e m i nt h i sa r t i c l e ,w ei n t r o d u c eas i m p l eg l o b a l l o g i c a lf r a m e w o r ko fd a t ar e f r e s h m e n t ,w h i c hc a nd e s c r i b et h ep r o c e s so f d e f i n i t i o n ,e x e c u t i o na n dc o n t r o lo fd a t ar e f r e s h m e n ta n dc a ne x t e n d f u n c t i o nc o n v e n i e n t l y w ea l s og i v et h ed e s i g ns o l u t i o no fa c t i v ed a t ar e f r e s h m e n to fe m d w s s y s t e mi nt h ea r t i c l ea n dd i s c u s st h es t a t u sp o s s e s s e db ya c t i r ed a t a r e f r e s h m e n ti nt h es y s t e ma r c h i t e c t u r e a s s o c i a t i n gw i t ht h eb a c k g r o u n d o fp o w e r s u p p l ya p p t i c a t i o n ,w em a k ea d e e pa n a l y s i so fa c t i v ed a t a r e f r e s h m e n to fd a t aw a r e h o u s e k e yw o r d :d a t aw a r e h o u s e :d a t aw a r e h o u s er e f r e s h m e n t :e c ar u l e s 4 山东大学硕士学位论文 第一章绪论 1 1 引言 在计算机发展的早期阶段,数值计算几乎是计算机系统的唯一用途。随着 大规模存储系统的不断发展,在计算机中存储大量的数据成为可能,这也使计算 机系统的功能从单纯的计算扩展到数据处理。随着数据处理量的增长,产生了数 据管理技术。数据管理技术主要经历了人工管理、文件系统和数据库系统三个发 展阶段。其中数据库技术的发展,特别是关系数据库系统的出现,开创了数据管 理的新时代。 在数据库技术发展过程中,联机事务处理 1 ( o l t p ,0 n l i n et r a n s a c t i o n p r o c e s s i n g ) 一度占据着数据库应用的主流。然而,应用在不断地进步,当联机事 务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统 已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相 关行业的态势进行分析,从而做出有利的决策。这种决策需要对大量的业务数据, 包括历史业务数据进行分析才能得到。这种基于业务数据的决策分析,称为联机 分析处理 1 ( o l a p ,o n l i n ea n a l y t i c a lp r o c e s s i n g ) 。数据仓库( d a t a w a r e h o u s e ) 技术 1 ,3 就是为支持决策分析而发展起来的。 本章以下部分就简要回顾了数据仓库技术的发展以及数据仓库的特点和体 系结构,简要介绍了几种流行的商用数据仓库产品及解决方案,并考察了现在的 数据仓库系统所采用的数据更新方法,指出其不足。最后,介绍了本文的工作及 文章的结构。 1 2 数据仓库的发展和研究现状 1 - 2 1 数据仓库技术的发展 数据仓库技术能在近十几年来得以萌生并迅速发展,主要由于两方面因素 的推动。是飞速发展的计算机硬件和系统软件技术。计算机存储容量、计算速 度的大力提高,价格的迅速下降,个人计算机计算能力的不断增强,系统软件功 能的不断提升以及i n t e r n e t 的迅速发展,c l i e n t s e r v e r 及多层结构的出现和 应用,都为数据仓库的发展提供了技术上的保证。二是现代企业组织结构和运行 模式的变化。经济全球化的趋势大大改变了企业对信息的需求模式,企业家需要 对自身业务的运作和整个市场的变化作深入的分析,从而做出比较明智的决策, 以保持在激烈的商业竞争中的优势 2 。而企业现存的以数据库系统为核心的业 务系统不能为这些新的分析应用需求提供良好的支持,因为数据库系统的适应事 务处理的数据组织方式和系统结构不能适应分析型应用的需求。事务处理和分析 处理是两种不同性质的应用,他们对数据也有着不同的要求。有数据仓库之父之 称的w h i n m o n 在其经典著作 b u i l d i n gt h ed a t aw a r e h o u s e 一书中,列出 了操作型数据与分析型数据之间的区别 3 ,如表卜1 所示 操作型数据分析型数据 面向应用面向主题 细节的综合的,或提炼的 在存取瞬间是准确的代表过去的数据 为日常工作服务为管理者服务 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合s d l c完全不同的生命周期 事务处理驱动分析处理驱动 非冗余性常有冗余 对性能要求高对性能要求宽松 + 一个时刻操作一单元一个时刻操作一集合 一次操作数据量小一次操作数据量大 支持日常操作支持管理需求 表1 一l 操作型数据年f 1 分析型数据的区别 将大量的业务数据应用于分析和统计,并对决策提供支持原本是一个非常 简单和自然的想法,但是,由以上对比可以看出,在事务处理系统中进行这些工 作并不能很好地满足应用的需求,人们要获得有用的信息并非如想象的那么容 易:首先,联机分析和事务处理对数据的利用方式不同,因而对系统功能的要求 不同,同一个数据库对此二者在理论上和实践上都难以做到两全;其次,业务数 据往往被存放于分散的异构环境中,不易于统一查询访问,而且还有大量的历史 数据处于脱机状态,形同虚设;第三,业务数据的模式针对事务处理系统而设计, 数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于 是2 0 世纪9 0 年代提出了一种针对此问题的解决方案:建立个专门为业务的统 计分析服务的数据中心,它整合了联机的事务处理系统、异构的外部数据源以及 脱机的历史业务数据,这个数据中心就称为数据仓库。简单地说,数据仓库就是 山东大学硕士学位论文 一个作为决策支持系统和联机分析应用数据源的结构化数据环境。 决策支持系统( d s s ,d e c i s i o ns u p p o r ts y s t e m ) 是在管理信息系统的基础 上发展起来的,排队论、线性规划、微积分等数学方法以及人工智能技术都曾为 d s s 的发展做出过很大贡献 3 ,4 。但是,在数据仓库和o l a p 技术出现之前,由 于数据组织的缺陷及决策过程的复杂多变,d d s 在实际应用开发过程中暴露出许 多问题。例如:d s s 使用传统的数据库存储和组织数据,数据缺少统标准,杂 乱且不稳定,致使决策所需信息不足,难以满足d d s 的需要;d s s 使用模型库提 供分析决策的模板,而模型库提供的分析能力有限,它所提供的模型独立于环境 之外,决策者和模型交互很少,模型参数固定不变,不符合决策要求,而决策本 身的动态性和复杂性决定了针对不同的情况应有不同的处理方法,因此d d s 所做 出的决策往往不能满足应用。从前面的讨论可以看出,数据仓库从其概念的提出 起就是作为d s s 的支撑系统而存在的,它的出现,使d d s 的发展跃上一个新的台 阶,也为d d s 开辟了一个新的发展方向。 i 2 2 数据仓库的基本概念 从数据仓库的概念提出以来,曾经有过多种定义。按照i n m o n 3 的定义, 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用以 支持管理人员的决策。在这个定义中,概括了数据仓库的四个主要特点,下面分 别作简要介绍。 面向主题在企业业务信息系统中,数据是按照具体的应用来组织的。而 主题是在较高层次上将企业业务信息系统中的数据综合、归类并进行分析利用的 抽象,它对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织 方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,完整统一 地刻画各个分析对象所涉及的各项数据以及数据之间的联系。例如,在一个保险 企业中,具体的应用可能是人寿保险、财产保险、医疗保险等,而主题范围可能 是顾客、保单、保费等。 集成数据仓库中的数据是从原有的分散的数据库系统及历史数据等数据 源中抽取而来的,在将数据加入数据仓库之前,需要对数据进行转换和清洗,统 一源数据中的不一致,另外,为了对数据进行分析,还要对数据进行适当的计算 和综合a 数据的集成是数据仓库建设中最关键的一个环节,集成性也是数据仓库 山东大学硕士学位论文 最重要的特点,因为数据集成的成败直接决定了数据仓库中的数据质量,从而影 响到企业的分析和决策。 非易失数据仓库所存放的数据是从源数据库抽取,并进行统计、综合和 重组的导出数据,而不是联机处理的业务数据,主要供企业的决策分析使用,因 此所涉及的操作主要是数据查询,一般不进行修改操作,数据仓库环境中不进行 一般意义上的数据更新。 随时间变化在第三个特点中说数据仓库不进行数据更新并不意味着数据 仓库中的数据是一成不变的。随着时间的变化,数据仓库需要不断地从联机业务 数据库中抽取新的数据,并且数据仓库中原有的数据也会随着时间的变化进行重 新综合,因此,数据仓库中的数据的键值中必定包含时间项,以标明数据的历史, 这也是其与数据库系统的重要区别。 1 2 3 数据仓库系统的体系结构 图卜l 显示了一个简要的数据仓库系统的体系结构的示意图。从这个结构图 中可以看到,一个数据仓库系统一般总要包括以下四部分:数据的获取,数据的 存储与管理,数据的表现和元数据的管理。因此,对数据仓库技术的研究也主要 集中在这些领域。 数据源 数据仓库 图卜1 数据仓库体系结构示意图 用户 曰曰曰 山东大学硕士学位论文 数据的获取 由于数据仓库是一个独立的数据环境,它需要将数据从联机事务处理系统、 外部数据源、脱机的历史数据存储介质中导入数据仓库。在这个过程中,首先要 从数据源中抽取数据,然后对数据进行清洗,消除数据的不一致性,再按照一定 的规则对数据进行转换,转换成数据仓库需要的格式,最后得到的数据才能够加 载到数据仓库中来。这个过程一般都由独立的工具来完成,称为 e t l ( e x t r a c t t r a n s f o r m l o a d ) 工具。 数据的存储与管理 数据仓库的应用特点决定了它必须采用与数据库系统不同的数据组织方式 来存储和管理数据。数据仓库必须支持多维分析的查询模式,因此必须采用多维 数据模型。目前有两种方式来实现多维模型。一是多维数据库的方式,它采用多 维数据存储方式来组织数据。但由于关系数据库的普遍应用,另外种解决多维 性的方法就是在关系数据库上采用“星形模型” 5 或“雪花模型” 6 来组织数 据的方式。在这两种方式中,数据被分成事实( f a c t ) 数据和维( d i m e n s i o n ) 数据, 分别表示为事实表( f a c tt a b l e ) 和维表( d i m e n s i o nt a b l e ) 。事实表和维表之间 通过外码和主码连接。其中,“雪花模型”是对“星形模型”的扩展,它支持维 的多层次结构,数据结构更接近实际的应用模型。“星形模型”和“雪花模型” 的采用大大普及了关系数据库在数据仓库领域的应用,目前大多数商品化的数据 仓库解决方案都采用这种方式。 数据的表现 数据的表现方式是数据仓库提供给用户的接口,用户只有通过这些接口工 具才能够对数据进行分析,从而支持决策。其中多维数据分析,也就是所谓的 o l a p 是最常用也是最重要的一种数据表现方式。根据数据组织方式的不同,o l a p 也有两种不同的方式。采用多维数据库实现的联机分析称为m o l a p ,采用关系数 据库的“星形模式”或“雪花模式”实现的联机分析称为r o l a p 。同样由于关系 数据库系统的统治地位,现在的o l a p 工具和产品大多是r o l a p 。另外一种重要 的数据表现方式是数据挖掘( d a t am i n i n g ) 。数据挖掘是一种决策支持过程,它 主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数 据,做出归纳性的推理,从中挖掘出潜在的模式,做出预测性的分析。 9 一。,。些坠耋堡塑丝墼圣。:,一 元数据的管理 数据仓库中还有一部分数据不是由数据源导出的,它们描述了数据仓库的 主题、模型,包括事实与维的定义,数据的结构、来源、历史以及粒度定义、规 则等等信息,这些数据称为元数据( m e t a d a t a ) 。简单地说,元数据就是描述数据 的数据。在数据仓库的建设、管理、使用和维护过程中,元数据的存在使得用户 能够更加方便地使用数据仓库,开发其潜在的应用价值,因此必须对其提供有效 的管理。 1 2 4 当前数据仓库系统简介 随着数据仓库应用需求的不断增加,传统的数据库厂商纷纷对数据仓库提 供支持,发布了各自的数据仓库解决方案及相关产品。下面简单介绍其中的几种。 1 2 4 10 r a c l e o r a c l e 公司作为世界上最大的数据库厂商,凭借其在技术、资源和经验上 的优势,一直致力于为企业提供最能满足企业竞争需要的数据仓库解决方案 7 ,8 ,9 ,i 0 。在其方案中,以三个主要部分作为数据仓库构建的技术基础。 数据仓库构建工具 o r a c l ew a r e h o u s eb u i i d e r s ( o w b ) 是o r a c l e 提供的用于设计与部署数据 仓库的工具,它可以为数据仓库解决方案提供完整、集成的实施框架,能够在同 一环境中实现数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等功 能。o w b 还实现了数据仓库不同部件如关系数据库、多维数据库以及前端分析工 具的集成,为用户提供完整的数据仓库和商业智能系统。 数据库 o r a c l e 的数据库产品是数据仓库的核心。o r a c l e 的数据库从o r a c l e 7 3 版 本开始对数据仓库提供支持,经过后来的o r a c l e 8 、o r a c l e 8 i ,直到目前的最新 版本o r a c l e g i ,都针对数据仓库的应用进行了多项改进,包括对更大数据量的 支持( p b 级) ,对更多用户数的支持( i 0 0 0 0 + ) ,更多数据仓库专用函数的支持等, 使o r a c l e 数据仓库具有更大的伸缩性、更强的管理能力以及更优良的性能。 商业智能工具集 数据仓库的用户的层次不同,分析需求也不尽相同。o r a c l e 的决策支持产 品系列包括:报表工具o r a c l er e p o r t s 、为o l t p 系统而设计的分析工具o r a c l e l o 山东大学硕士学位论文 d i s c o v e r e r 和o l a p 应用工具o r a c l ee x p r e s s 。o r a c l e 使用这些产品的不同组 合来满足不同用户的需求。 1 2 4 2m i c r o s o f t m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 已经在性能和可扩展性方面确立了世界 领先的地位,是一套完全的数据仓库和数据分析解决方案,使用户可以快速创建 下一代的可扩展电子商务和数据仓库解决方案。m i c r o s o f t 将o l a p 功能集成到 m ic r o s o f ts q ls e r v e r 中,提供可扩充的基于c o m 的o l a p 接口。 m i c r o s o f t 的数据仓库解决方案中主要包括以下部分: s o ls e r v e r m i c r o s o f ts q ls e r v e r 数据库系统是其构建数据仓库的核心, 其中还提供了一些服务工具来支持数据仓库的应用。如:数据传输服务d t s ( d a t a t r a n s f o r m a t i o ns e r v i c e s ) 提供数据输入输出和自动调度功能,在数据传输过 程中可以完成数据的验证、清洗和转换等操作,通过与m i c r o s o f tr e p o s i t o r y 集成,共享有关的元数据; m i c r o s o f tr e p o s i t o r y 存储管理包括元数据在内的 所有中间数据。 a n a l y s i ss e r v i c e s m ss q ls e r v e r2 0 0 0 扩展并重命名了以前版本的o l a p s e r v i c e s 组件。现在称作a n a l y s i ss e r v i c e s 1 1 ,提供联机的分析处理服务。 a n a l y s i ss e r v i c e s 旨在提供一个完整的端到端分析平台。该分析平台包括关系 存储、数据提取、o l a p 优化和查询、数据挖掘以及语义模型。 另外,m i c r o s o f to f f i c e2 0 0 0 套件中的a c c e s s 和e x c e l 也可以作为数据 仓库的数据展现工具,s q ls e r v e r 还支持第三方数据展现工具。 1 3 数据仓库的更新及其相关工作 在本文1 ,2 2 节提到,数据仓库系统不做一般意义上的数据更新,但这并 不意味着数据仓库的数据始终是一成不变的。为了对决策提供有效的支持,数据 仓库需要不断地从业务数据库中抽取数据,进行数据更新。这里所说的数据更新 是一个数据追加的过程。 数据仓库更新是个非常重要的过程,它决定了数据采集和数据聚合的实 效性及决策者提供的数据的质量。这与以下因素有关。首先,与系统在合理的时 间内将数据从数据源转换到数据仓库的能力有关。其次,与数据仓库对数据源中 信息发生变化的敏感程度有关。 对数据仓库更新的理解,一些相关的文献上存在着很大的误区,这个过程 经常被简化为视图维护问题或与数据导入混为一谈。 数据仓库的数据导入过程存在于数据仓库建立初期,是数据仓库数据的初 始装入过程,这个过程是一个全局的过程,并且执行过程中不需要考虑数据仓库 的维护问题,因为在数据导入之前,数据仓库是不存在的。而数据更新采用的是 增量更新,并且在更新过程中,要保证数据仓库中的数据的一致性,对数据仓库 做一些维护工作,包括视图等的维护。 目前很多对数据仓库数据更新的研究着眼于物化视图的维护上,并针对这 个问题提出了许多算法。其实,视图维护仅仅是数据更新过程中的一部分,是数 据加载过程的部分功能。数据更新还包括了数据的抽取、清洗、集成以及转换, 这些功能合称数据仓库的e t l ( e x t r a c t - t r a n s f o r m l o a d ) 过程。这个过程涉及了 上文提到的数据的获取、存储与管理及元数据管理等数据仓库技术的多个研究领 域。 1 4 本文的研究意义及贡献 数据仓库一开始是定位在为高层管理者提供战略决策支持,一般采用的是 周期性的数据更新,选定一个更新周期,定期地到源数据库抽取数据,经过清洗 转换,加载到数据仓库中来,从而实现对数据仓库的更新。随着企业应用的不断 发展,一些低层次的管理人员也加入到数据仓库的用户中来,同时用户面对的也 不再都是基于长期趋势的战略型决策,一些基于短期应用或突发事件的战术型 ( t a c t i c a l ) 决策需求也越来越多。在这种情况下,数据的及时更新对于提高决策 的指导性具有重要的意义。但是以固定的周期进行数据更新的方法在实际的应用 中存在以下闯题: 周期过长仓库中数据不能及时得到更新,对于突发性的事件, 其数据变化不能及时地反映到数据仓库中来,这样在一些对数据及时性 要求比较高的应用中,基于原来的数据做出的决策对业务的指导性会大 大降低。 周期过短 由于现在数据库的数据量都非常大,如果频繁地进行 数据仓库更新,数据仓库的系统资源将被更新操作大量消耗,从而无法 对正常的查询请求做出响应,而这是我们无法忍受的。 山东大学硕士学位论文 因此,单纯的周期性数据仓库更新已经不能满足应用需求,数据仓库需要一种更 能适应当前应用需求的数据更新方法。 我们以电力营销系统为背景,采用o r a c l e 数据库系统作为底层的存储系统, 建立了一个数据仓库原型系统e m d w s 。本文中论述的主要是该系统中数据更新方 面的一些工作。为了更好地体现决策者的兴趣和意图,并及时地对业务数据的变 化做出反应,本文提出了一种主动的数据更新方法数据驱动的主动更新方 法。该方法将主动规则的思想引入该系统的更新工作中来,可以按照用户的预先 定义,根据业务数据库的数据变化主动地启动数据仓库的更新操作。 以上所说的主动更新方法只是提供了一个使数据仓库在适当的时间启动数 据更新的机制,使数据仓库可以计划和调度数据更新操作。实际的数据更新过程 是一个非常复杂的过程,本文还对数据更新的数据抽取、转换和加载的全过程( 即 e t l 过程) 作了一个全面的讨论,并提出了一个数据更新的整体逻辑框架。该框 架描述了数据更新的定义、执行和控制流程,并且可以方便地进行功能的扩充。 本文第二章对e m d w s 系统及其应用背景做了简要的介绍,第三章是本文的 重点所在,着重论述了数据仓库的主动更新机制,第四章对e t l 过程中的一些关 键技术及其解决方案进行了比较全面的讨论,并介绍了我们提出的更新过程的整 体逻辑框架,第五章给出了e m d w s 系统的数据更新设计方案,第六章给出本文的 结论,并提出对今后的工作的一些设想。 。些i 垒兰型耋堡堡- ,一 第二章数据仓库系统e m d w s 介绍 2 1 引言 数据仓库技术的出现和快速发展,是以激烈的市场竞争为背景的。利用目 前的传统的信息系统,企业已经积累了大量的数据,而下一步企业需要的是如何 利用这些数据为企业的商业决策提供支持,帮助企业正确地判断市场态势,把握 可能出现的机会,帮助企业分析客户的需求,发展和维持高质量的客户,帮助企 业做好自己内部的管理,控制运营成本,甚至帮助企业改善自己的产品设计,提 高产品质量。因此,研究和实施数据仓库,必须以一定的应用背景为基础。 实现企业数据仓库的目的是把企业目前豹事务处理系统中的不同时期、不 同地区分散的企业微观数据信息,按照多个主题集中存储和管理在数据仓库中, 灵活方便地实现固定的和随机动态的数据查询处理、综合分析和统计报表。 我们以电力营销系统为背景,设计了一个数据仓库的原型系统 ( e l e c t r i c p o w e rm a r k e t i n gd a t aw a r e h q u s es y s t e m ,简称e m d w s ) ,以此为基 础,对电力部门的营销决策提供支持。 本章首先简单介绍了电力营销系统的一些背景情况,然后对e m d w s 系统的 系统结构作了一个总体的描述,介绍了其中引入的一些新的思想和方法。 2 2 e m d w s 系统的背景 数据仓库的建立有两个基本条件:第一,应用行业有较为成熟的联机事务 处理系统,它为数据仓库提供客观的数据来源:第二,应用行业面临市场竞争的 压力,它为数据仓库的建立提供外在的动力。电力行业是传统的数据处理密集型 行业,建立运行多年的各种信息系统,特别是营销系统已经为企业积累了大量的 数据。虽然到目前为止,电力行业还是垄断性较高的行业,但是中国企业正在走 向世界的脚步已经使他们迫切地感受到来自市场的强大压力,正在进行的电力企 业机构改革也正说明了这一点。 电力营销系统是支撑电力企业运营的一个基本系统,它的主要特点是: ( 1 ) 数据量大,涉及的主题比较多,不同主题内容互相牵制。 电力营销系统的最大特点是数据量大,涉及的领域非常广。不同年代的数据 ! ! ! ,一:! ,。一:! ! 坠查奎鲨耋堡墼耋,:! 。一,一,。 的格式与要求不尽相同。这些数据资料一方面面临外部环境对传统保存方式下数 据安全性的挑战,另一方面各业务部门和相关单位也有充分利用这些数据并对其 进行综合分析,以获取有价值的信息的迫切需求。针对信息数据量大,结构复杂 的特点,我们就需要高性能的数据仓库管理系统和定义良好的数据模型,高效地 组织和管理数据,提供高效的访问服务。 ( 2 ) 数据的来源比较复杂。 传统的数据处理密集型行业都有这个特点。数据存放于不同地点,不同的子 部门采用独立的信息系统,不同部门数据的存放格式也不一致。数据的格式、存 储方式不尽相同,在加载到数据仓库之前。这些数据必须经过净化筛选、加工整 理以及数据集成。同时w e b 数据访问的需求也加重了数据源的复杂性。 ( 3 ) 需要及时的决策支持。 决策支持的时效性是非常强的。特别在市场条件下,对任何市场变化或业务 运营过程中发生的事件,决策者都需要及时地应对,并做出相应的处理。这就对 决策支持系统的运行效率提出了更高的要求,它要求系统能够提供及时准确的数 据,并对此做出快速的响应。 ( 4 ) 信息展现方式多样,计算复杂,时间响应要求高。 系统要求数据以灵活多样的形式展现出来,这些形式包括复杂的报表、动画、 图表等,要求系统具有较高的可靠性、安全性。 针对这些特点,我们在查阅了大量的有关研究文献的基础上,结合应用实 际,在数据仓库的一些相关技术方面进行了有益的探索和尝试,并把这些成果体 现在e m d w s 系统的设计上。在e m d w s 系统中,我们在系统体系结构、数据模型、 数据操纵及数据的更新方式等方面都引入了一些新的思想和方法,以适应特殊应 用的需要。 2 3 e m d w s 系统简介 我们以o r a c l e8 1 6 数据库管理系统为底层的存储系统,以c l i e n t s e r v e r 结构为基本架构,设计了支持电力营销决策的数据仓库系统e m d w s ,系统结构 1 2 如图2 - 1 所示。 e m d w s 系统的主要特点是: ( i ) 数据仓库与数据库的统一管理。 。:。,:一,生奎查耋兰望兰丝窒篁呈:。,。,。一 数据仓库的数据是从源数据库中抽取出来的,并且要从源数据库中不断得到 更新。同时,许多数据仓库的用户也有访问源数据库以获得一些原始的细节数据 圈2 1e i 岫w s 系统结构 的需求。由于e m d w s 系统也采用关系数据库系统o r a c l e 来组织存储数据,因此, 我们采取一种统一的数据管理方法 1 2 来实现对数据仓库和数据库的管理,并通 过对关系数据痒管理系统的一定扩充来实现对数据仓库特殊应用的管理。用户请 求提交给系统的数据管理模块,数据管理模块分析这些请求,根据其访问目标, 分别提交给数据库或数据仓库。系统还通过集成接口集成所有的应用和维护工 具,使整个数据仓库管理系统成为一个结构统一的数据管理平台。 ( 2 ) “雪花模型”与对象相结合的数据模型。 现在的数据仓库大多采用基于关系的“星型模型”或其扩展模型“雪 花模型”。纯粹的关系模型在访阔效率上存在一些闯题,它缺乏对复杂关系的有 效支持,存取效率比较低。在本系统中,我们引入了一些面向对象的元素,借助 面向对象技术中的复杂关联的思想,提出了一种“雪花模型”与对象相结合的数 据模型 1 3 。它将维、表和记录都作为对象看待,并允许建立对象之间的复杂关 塑圣耋墼塑丝垫圣一 联( l i n k ) ,利用这些关联,可以比较快速、直接地查找到结果,避免了搜索的过 程,提高了查询效率。 ( 3 ) 提供了一组适合应用需求的操作。 e m d w s 提供的数据操作集合中包括以下操作:上卷( r o l l u p ) ,下钻 ( d r i l l d o w n ) ,切片( s 1 i c e ) ,切块( d i c e ) 。旋转( p i v o t ) ,历史同期比较 ( vc o m p a r i s o n ) 和横向比较( hc o m p a r i s o n ) 1 4 ,其中两种比较操作非常适用于 电力业务的需要,因为在实际应用中,需要经常对不同月份和不同地区的数据进 行各种比较和分析,尤其对于历史上不同月份和不同年度相同月份的数据的比较 更是必需的操作。基于这些操作,分析人员能够对大量的数据进行直观的分析, 并以生动的形式展现出来。 ( 4 ) 主动机制。 类似于主动数据库,在e m d w s 系统中,我们引入了一些主动规则的思想。 目前,我们的重点主要放在数据的主动更新机制上。数据仓库中可以定义一些特 定的针对源数据库数据变化的事件以及可以由这些事件触发的规则,如果这些事 件发生,数据仓库可以主动的启动数据更新过程,将相关的数据导入数据仓库, 从而为这些事件的决策处理提供及时的数据,保证决策的有效性。这些内容正是 本文所要论述的重点。在以后的工作中,我们还试图让数据仓库在分析和决策处 理上具有更大的主动性,以进一步提高数据仓库的可用性。 2 4 小结 数据仓库的研究和建设需要一定的背景支持。我们在查阅了大量当前有关 数据仓库的研究文献,研究了现在主流的商用数据仓库解决方案和产品的基础 上,结合电力营销系统的应用实际,设计了一个数据仓库的原型系统e m d w s ,用 以支持电力营销决策。由于电力应用的一些特殊性,我们在e m d w s 系统中引入了 一些新的思想,包括统的数据管理、支持复杂关联的数据模型、新的数据操纵 命令以及数据仓库的主动机制等等。本章对电力行业的应用背景作了简要的介 绍,并对整个系统进行了总体上的论述。 第三章数据仓库的主动更新 3 1引言 数据仓库的数据更新是指定期或不定期地向数据仓库中追加数据。我们知 道,数据仓库的数据来源于o l t p 的数据库,并且不进行类似于数据库的修改、 删除等常规意义上的数据更新。在数据仓库建立之初的数据初装以后,再向数据 仓库输入数据的过程即为数据追加,所追加的内容仅限于上次数据更新后o l t p 数据库发生变化的数据。这种变化数据的捕捉可以通过使用数据库日志等途径来 实现。 上文中我们谈到过,现在的数据仓库采用的数据更新策略都是定期的更新, 随着应用的不断发展,这种更新策略在应对突发性的事件变化时便显得有所不足 了。因此我们提出了一种主动的数据更新方法一数据驱动的主动更新方法。该 方法基于e c a 主动规则的思想,可以按照用户的预先定义,监督数据库的数据变 化,满足预定义,即可主动地启动数据仓库的更新操作。 本章首先介绍了主动规则的一些相关概念,然后对主动数据更新方法进行 了详细的论述。 3 2 主动规则的概念 主动规则的思想已经在多种环境中得到了成功的应用,包括主动数据库 1 5 、工作流管理、网络管理及x m l 1 6 等。主动规则一般包括三个部分:事件 ( e v e n t ) 、条件( i c o n d i t i o n ) 和动作( a c t i o n ) , 因此又称为e c a 一规则。它的基本 执行模式为: o ne v e n ti fc o n d i t i o nd oa c t i o n 它采用事件触发( e v e n t t r i g g e r e d ) 的思想,即当定义的事件发生,如果条件得 到满足,即执行定义的活动。 3 3 数据驱动的主动数据更新 在现有的采用周期性数据更新的数据仓库中,数据并不是最新的,它要比 业务数据库中的数据滞
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 锂离子电池回收:面向绿色未来的市场及创新趋势
- 2025江西长旅数智科技有限公司拟人员考试历年参考题附答案详解
- 2025江苏宿迁市港口集团有限公司夏季员工招聘4人考试历年参考题附答案详解
- 2025新疆华夏航空招聘考试历年参考题附答案详解
- 2025年河南中科清能科技有限公司招聘16人考试历年参考题附答案详解
- 2025年山东滨州金至工程咨询有限公司第三季度公开招聘劳务派遣人员(6人)笔试参考题库附带答案详解
- 2025年大学技术侦查学专业题库- 网络犯罪取证技术的应用与研究
- 2025年大学涉外警务专业题库- 涉外警务执法实践案例探讨
- 社会工作者职业水平考试初级综合能力2025年社区工作案例分析试卷
- 2025年大学出入境管理专业题库- 边境管理与跨国犯罪防范
- 食品安全宣传培训会课件
- GB/T 21415-2025体外诊断医疗器械建立校准品、正确度控制物质和人体样品赋值的计量溯源性要求
- 2025年9月江苏扬州市第二人民医院(苏北人民医院北区医院) 招聘备案制工作人员12人考试参考题库及答案解析
- 2025年修订《仲裁法》学习
- 患者走失应急演练脚本(2篇)
- 数据挖掘教学课件
- 2025年造价咨询公司廉政制度及保障措施
- 2025至2030中国停机坪货架行业项目调研及市场前景预测评估报告
- 补液课件教学课件
- 电池厂化成柜安全操作规范规章
- 电力公司施工安全培训课件
评论
0/150
提交评论