




已阅读5页,还剩71页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库中多维数据压缩与cube计算研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
。 哈尔滨工程大学硕士学位论文 摘要 数据仓库以传统的数据库为主要信息源,为联机分析处理( o l a d ,决策支 持( d s s ) 和信息挖掘m ) 提供了一个集成的数据环境,高效地组织和管理数 据是实现数据仓库技术的关键之一本文从数据仓库的多维数据压缩和聚集 计算两个方面对这个问题进行了深入的研究。 ” 。 多维数据的存储和聚集计算是数据仓库研究的核心问题。本文首先介绍 了数据仓库的概念、数据仓库的相关理论、数据仓库的设计过程、现有的多 维数据模型理论及联机分析处理( o l a p ) 相关概念,这引出了对多维数据的存 储及聚集优化策略的需求,也为继续研究多维数据的存储及聚集优化策略准 备了理论基础。 。 ,多维数据的逻辑组织方式是0 帷p 实现的关键之一本文对这个问题进 行了深入的研究,总结了多维数据的两种组织方式一关系方式和数组方式,、 重点研究了在数组方式中多维数据的存储结构、多维数组的建立方法、稀疏 数组的压缩方法、数组分块的原则和分块数组访问方法,并在以上的理论分 析的基础上提出了一个数组方式存储的方法。 在数据仓库中计算多维聚集是提高o l a p 性能的手段之一。本文总结了 聚集计算的主要优化方法,对相关的概念进行了形式化定义,着重研究了数 组聚集计算的优化策略,并提出了一种新的数组方式下的聚集算法,该算法 运用了最小父亲、阶段扫描以及缓存结果的优化策略,加入了对于维内部的 层次的聚集计算的支持,对于大数据量的计算,采用第三章的分块压缩的数 组方式存储,算法将对数组的每一个逻辑块进行分别计算,计算完所有的划 分后再把中间结果合并成完整的聚集结果。分析表明该算法达到了充分利用 内存空间、减少i o 次数的目的。 论文最后对研究工作进行了总结,并对进一步的研究工作进行了展望。 关键词:数据仓库;联机分析处理;多维数据模型;多维数据存储;聚 集计算 “ 哈尔滨工程大学硕士学位论文 a b s t r a c t t h et r a d i t i o n a ld a t a b l l s 铭a r et l a em a i ni n f o r m a t i o ns o u r c e 8o f d a t a w a r e l a o u s e s ;d a t aw a r d a o u s e si n o v i d c 孤i n t e g r a t e dd a t ae n v i r o n m e n tf o r o n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) ,d e c i s i o ns u p p o r ts y s t e m s s ) a n d d a t am i n i n g ( d 旧o r g a n i z i n ga n dm a n a g i n gt h ed a t ae t t f i c i e a f l yi so l l eo ft h e k e y so fi m p l e m e n t i n gd a t aw a r e h o u s e s t h i st h e s i ss t u d i e s i t d e e p l y0 1 1t h e a s p e 赡o f d a t aw l u c h o u s fe o n e , s l ,tm o d e la n do l a pi m p l e m e n t a t i o n 4 t h es t o r eo fm u l t i d i m e n s i o n a ld a t aa n dd a t ao p e r a t i o na l g o r i t h m sa a b a s i ca s p e c ti nt h er e s e a r c hf i e l do f d a t aw a r e h o u s e s s u m m a r i z i n ga n da n a l y s i n g t h eb a s l ee o n e e p t , t l a ed e s i g n i n gp l o c e d u r eo f d a t aw a r e h o t u 犯ad a t aw 毽r c h o u 毒耐 m u l t i d i m e n s i o n a ld a t am o d e l , s h o wt h er e q u i r c m e l l to fs t o r a g ea n da 嬉阳g 撕蛆 o p t i m i 丑n gm e t h o d so fm u l t i d i m e n s i o n a ld a t a i t a l s oe s t a b l i s h e s t h e o r o t i e a l f o t m d a t i o nf o rt h es t o r a g ea n da g g r e g a t i o no p t i m i z i n gm c i j h o d so f m u l t i d i m e m i o n a ld a t a ” t h e l o g i c o r g a n i z a t i o n m o d e o f m u l t i d i m e n s i o n a l d a t a i s o d e o f t l a e k e y s o f o l a pi m p l e m e n t a t i o n , t h i st h e s i ss u m m a r i z 嚣t h et w oo r g a n i z m gw a y so f m u l t i d i m e n s i o n a ld a t a - r e l a t i o n a lm o d ea n da r r a yr o o d et h o r o u g h l y , a n df l a e c s e m p h a s e so nt h er e s 鞠x e h e so fa r r a ym o d e , i n e l l l l i n gt h es t o r a g es t r u e t eo f m u l t i d i m a a s i o n a ld a t a , t h ee o m m a e t i o nm e t h o d so f m u l t i d i m e n s i o n a la r r a y s ,t h e c o m p r e s s i n gm e t h o d so fs p a r s ea r r a y s , t h ep r i n c i p l e so fd i v i d i n ga r r a y si n t o c l a u n k sa n dt l a ca o c 懿m e t h o d so fe l a u n ka r r a y s , a n da l s ot h i st l a c s i sr e a l i z e sa s t o r a g ei l l s t a n c l ,o f a r r a ym o d e b a s e do i lt l a ea h o y et l a e o r e t i e a la n a l y s c s o n el l l e a l 畦o fi m l r r o v i n gt h ep i 吲商唧加o fo l a pi s t o c o m p u t e m u l t i d i m e l l s i o n a la g g r e g a t i o n se f f i e i e n t l y t h i st h e s i ss u m m a r i z e st h em a i n o p t i m i z i n gm e t h o d so fc o m p u t i n ga g g r e g a t i o n s , o nw h i d at h e c o r r e l a t i v e c o n c e p t s 眦f o r m a l l yd e f i n e d , f u r t h a m o r e , t h i st h e s i se l n p h a s i z 鹤t h er e s e a r c h o fo p t i m i z i n gm c i l a o d so fa r r a yr o o d ea n dp r o p o s e s1 1 1 1 3 a g g r e g a t i o na l g o r i t h m i t m a k e su s eo fo p l = i m i z i n gm e t h o d si n c l u d i n g s m a l l - p a r e n t , a m o r t i z e - s e a m 哈尔滨工程大学硕士学位论文 a n dc a c h e - r e s u l t s a n da d d $ t t p p o g to ft h ei n n 贸l o v e lo ft h ed i m e n s i o no fc u b e q u e r y u s i n gt h ee f f e c t i v ed a t ac o m p r e s s i o nm e t h o d :i td i v i d e sa r r a yi n t op a r t s a n dc o m p u t e se a c hs e p a r a t e l y a f t e ra l lp a r t sh a v eb e e na c c o m p l i s h e d , i tm e r g e s t h ei n t e r m e d i a t er e s u l t si n t oi n t e g r a t e da g g r e g a t i o n s t h ea n a l y s i ss h o w st h a t t h i sa l g o r i t h m 啪m a k et h eb e s tu 黯o f m e m o r ya n dr e d u c ef ot i m e s “ a tt h ee n do ft h i st h e s i s ,t h er e s e a r c h e sa l es u m m a r i z e da n dt h ef u t u r e w o r ki sp r e s e n t e d k e y w o r d s d a t aw a r e h o u s e ;o l a p ) m u l t i d i m e n s i o n a ld a t am o d e l ) m u l i t i d i m e n s i o n a ld a t as t o r a g e ) a g g e g a t i o nc o m p u t i n g 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指 导下,由作者本人独立完成的。有关观点、方法、数据 和文献的引用已在文中指出,并与参考文献相对应。除 文中已注明引用的内容外,本论文不包含任何其他个人 或集体已经公开发表的作品成果。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者( 签字) : 嗍砰 哈尔滨工程大学硕士学位论文 。 第l 章绪论 本章主要介绍了数据仓库及o l a p 技术产生的相关背景及其概念,并总 结了o l a p 实现及立方体聚集优化策略的研究现状及本论文的结构。 1 1 数据仓库及o l a p 技术的产生 随着社会的信息化程度的提高,相应数据量也急剧增长,从上世纪8 0 年代的兆( 岣及千兆( g ) 字节发展到现在的兆兆字节和千兆兆( p ) 字节,而 传统的联机事务处理( o l t p ,o n l i n e t r a n s a c t i o n p r o e 麟i n s ) 系统的应用长期以 来直停留在查询、检索、统计等几个方面,远远没有发挥数据库中数据的 作用和价值,并且用户不再仅仅满足于简单的事务性数据查询,而是需要利 用这些数据提供相关的决策信息。这就必须对大量的业务数据包括历史数据 等进行分析,以获取需要的决策信息,这种基于决策分析的应用称为联机分 析处理( o l a f , o n l i n ea n a l y t i c a lp r o e , e s s i n g ) l 目 o l a p 是以海量数据为基础的复杂分析技术,它支持各级管理决策人员 从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处 理,并且能以直观易懂的形式将查询和分析结果提供给决策人员,这种应用 在o l t p 系统中实现起来是非常困难的,主要原因有以下几点: 1 分析操作需要大量的数据,因此将长时间访问数据,这在o l t p 系统 中是不可接受的m : 2 分析操作需要多方面的、集成的信息,而这些信息常分散在多个 o l l 限系统或外部数据源中; 3 历史数据中隐含着企业发展和变化的模式,分析操作需要长时间的历 史数据,而在o l t p 系统中保存的是较短时间的数据,长时间的数据通常备 份而与系统脱离 。 操作性系统的设计目的是为了提高事务处理的性能,而决策分析需要的 是企业全方位的视图,在传统的操作性系统上建立和维护这些视图是低效的, 这将极大降低操作性系统的性能,其决策分析处理的速度也不能满足0 l a p 快速性的要求。因此,需要为分析类的应用提供一个平台,建立一个体系结 l 哈尔滨工程大学硕士学位论文 构来容纳来自o l t p 系统或异构的外部数据源、脱机的历史业务数据和元数 据等,为统计分析和决策支持提供联机分析服务所需的数据,这个体系结构 就是数据仓库( d w ,d a t aw a r e h o u s e ) 数据仓库集成了多个数据源的数据,形成了一个可靠的、一致的、不断 更新的数据集合。在数据仓库的o l a p 应用中,会涉及到大面积的数据查询 与聚集操作,如何有效地组织和管理数据仓库中的数据,实现快速的o l a p 查询和多维分析,是数据仓库技术研究的核心问题之一,也是本论文要研究 的内容。 1 2 国内外研究现状 由于数据仓库中存储的是海量数据量,且o l a p 查询非常复杂,为了实 现o l 氏p 的快速性,高效组织和管理数据仓库的中的数据是整个系统成功的 关键。在数据仓库系统中,通常把数据的逻辑模型称为0 l a p 的实现途径。 由于o l a p 系统必须提供对数据分析的多维概念视图,包括对维的层次结构 的完全支持,因此在实现o l a p 时常把数据仓库中的数据组织成多维形式。 按照底层数据存储方式的不同,o l a p 的实现途径主要有r o l a p ,m o l a p 和h o l a p 三种。r o l a p 是基于关系数据库的,通常采用星型模式和雪花模 式进行数据存储,在数据的存储容量、适应性上占优,但是数据的存取较 9 0 l a p 复杂,查询响应速度较慢;m o “心是基于多维数组的,其访问速度快, 存储效率高,它存在着数据稀疏和各个维的访问不对称两个缺陷,目前对 m o l a p 的研究才开始起步,如何实现其存储结构,使之适合o l a p 的需要 是一个实现m o l a p 的关键;h o l a p 是r o l a p 和m o l a p 的混合存储模式, 般的方法是将细节数据存在关系数据库中,而将综合数据存在9 0 l a p 服务 器中,既利用了r o l a p 扩展性好的优点,也利用了m o l a p 计算速度快的 优势。 数据仓库技术另一个重要的方面是对数据进行多维分析,其核心是要有 效地计算多个维集合上的聚集,因此,数据仓库系统应该支持高效的数据立 方体聚集计算技术。在n 维数据立方体中子方体的总数是2 n ,如何高效计算 这些方体? 一个最直接的方法就是分别计算这2 n 个子方体,这样将对数据集 2 哈尔滨工程大学硕士学位论文 进行2 n 次访问,很显然这不是一个高效的方法,一条有效途径是利用这2 n 子方体的相互依赖性,同时计算多个聚集,减少i o 访问的次数,从而提高 计算效率。目前已有多篇文献对此进行了研究,其中大部分研究工作集中在 关系方式c u b e 计算上,对多维数组方式c u b e 计算的讨论相对较少;如何 在多维数据仓库系统中实现这些优化方法,并利用数组中数据己有序的特点 来加快聚集计算的速度,是在多维数据仓库中实现多维分析一个非常重要的 方面。 1 3 本论文的研究内容 在数据仓库系统中,如何对多维数据进行组织,设计多维数据层数据的 存储结构,并在多维数据集上进行高效的立方体聚集计算,这是本论文研究 的思路。, “ , 多维数据的存储和高效查询是数据仓库研究的核心问题。本文首先介绍 了数据仓库的概念、数据仓库的相关理论、数据仓库的设计过程、现有的多 维数据模型理论及联机分析处理( o l a p ) 相关概念,这引出了对多维数据的存 储及聚集优化策略的需求,也为继续研究多维数据的存储及聚集优化策略准 备了理论基础。 、 在o l a p 系统中,多维数据层的功能是负责组织和管理聚集节点中的维 数据和度量数据,以往研究的重点是应用广泛的r o l a p ,r o l a p 用关系表存 储数据,然后用星型模式( s t a rs c h e m a ) 或雪花模式( s n o w f l a k es c h e m a ) 把数据 组织成多维形式。相对r o l a p 而言,对m o l a p 的探讨较少本论文研究 了把数据从其它数据源转移到多维数组中的方法,设计了m o l a p 多维数据 层维数据和度量数据的管理模式;针对多维数组中数据稀疏问题,本文详细 讨论了适合多维数组的压缩方法,并对它们的效率进行了分析;在本文中还 重点讨论了对数组进行分块的划分以及访问方法,从而有效解决数组各维访 问不对称的问题。 c u b e 聚集计算的具体实现依赖于多维数据存储方式。本论文中首先总 结了关系方式聚集优化方法,然后讨论了如何在数组方式应用这些优化措旖。 在数组方式中,聚集计算时的内存需要量往往会超过物理内存,本文详细讨 3 哈尔滨工程大学硕士学位论文 论并给出了一个最小内存需要量的聚集优化算法,该算法通过对数组的一次 扫描能够同时计算所有方体:同时,当只需要计算立方体的部分子集时,可 对子集中所有的方体进行优化选择,通过对数组的一次扫描同时计算子集中 的所有方体。分析表明,该算法能有效减少i o 访问,具有较高的计算效率 1 4 本论文的结构 论文全文分四章。 第1 章为绪论,主要介绍了数据仓库及o l a p 技术产生的相关背景及其 概念,并总结了o l a f 实现及立方体聚集优化策略的研究现状 第2 章对数据仓库系统进行了概述,介绍了数据仓库的概念、数据仓库 的相关理论、数据仓库的设计过程、现有的多维数据模型理论及联机分析处 理( o l a p ) 相关概念。 第3 章研究了数据仓库中多维数据层的实现方式,对关系和数组两种多 维数据组织方式的比较,重点深入研究了多维数据在数组中的表示方法,多 维数组的压缩方法及数组的访问方法。 第4 章研究了多维聚集优化的策略,总结了在关系方式下和在数组方式 下的聚集优化的方法,重点研究了数组聚集的优化策略 结论部分对本文的工作进行了总结。 4 哈尔滨工程大学硕士学位论文 、 第2 章数据仓库及多维数据模型 本章主要对数据仓库系统进行了概述,介绍了数据仓库的概念、数据仓 库的相关理论、数据仓库的设计过程、现有的多维数据模型理论及联机分析 处理( o l a p ) 相关概念。 2 1 数据仓库 2 1 1 数据仓库的定义 数据仓库是在上个世纪年代发展起来的,数据仓库之父w h i n m o n 在他的著作( b u i l d i n gt h ed a t aw a r e h o u s e 提出了数据仓库的基本框架及其 定义:数据仓库是一个面向主题的、集成的、时交的、非易失的数据集合, 用以支持管理部门的决策过程【- 1 。 对于数据仓库的概念可以从两个层次予以理解: 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现 有的操作型数据库; 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行 了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 2 1 2 数据仓库的特点 依w h i n m o n 对数据仓库的定义来具体理解数据仓库的几个关键特征。 首先,数据仓库是面向主题的【1 1 主题在逻辑上对应企业中某个宏观分 析领域所涉及的分析对象,例如销售量,库存量等都是主题,是针对某一决 策问题而设置的。正像企业为了发展要进行业务重组一样,为了支持管理决 策需要也要按决策业务科目的要求重组o l a p 系统中的数据,并要按不同主 题、分析内容分别组织使之方便使用。这种基于主题的模式从用户角度来看 就是多重的数据重组结构。这种面向主题的数据组织方式,就是在较高层次 上对分析对象数据的一个完整、统一和一致的描述,能完整和统一地刻画各 5 哈尔滨工程大学硕士学位论文 个分析对象所涉及的有关企业的各项数据,以及数据之问的联系这是与传 统数据面向应用相对应的。数据仓库围绕一些主题,如顾客、供应商、产品 和销售组织。主题是一个抽象的概念,是在较高层次上将企业信息系统中的 数据按不同类别,不同侧面进行综合,归类。这一特点也使得数据仓库是数 据驱动面向主题的数据处理技术,而不是传统事务驱动,面向应用的数据处理 方式。基于应用的数据是为处理具体应用而组织在一起的。应用是客观世界 既定的,它对于数据内容的划分未必适用于分析所需。 其次,数据仓库是集成的【1 1 数据仓库中的数据来自于多个不同操作型 环境和历史数据源,但并不是原有数据的简单拷贝,而是经过统一和综合。 一方面,原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适 合于分析处理,所以在进入数据仓库之前必须经过综合、计算,抛弃分析处 理不需要的数据项,增加一些可能涉及的外部数据;另一方面不同的数据源 可能对相同事物的表达有许多重复或者不相同之处,倒如:表达性别,可能 有0 幢,f ) ,或者是( 0 ,1 ) ,为此,在将数据载入数据仓库时要将数据进行转换, 并且清洗,除去不适合的数据,确保数据完整统一,最后将数据加载到数据 仓库中 , 。 再次,数据仓库是非易失的田从数据的使用方式上看,数据仓库的数 据不可更新。即数据保存到数据仓库中后,最终用户只能通过分析工具进行 查询和分析,而不能修改,即数据仓库的数据对最终用户而言是只读的从 数据的内容上看,数据仓库存储的是企业当前和历史的数据,在一定时间间 隔以后,当前数据需要按一定的方法转换成历史数据。年代久远且查询率低 的数据需要从数据仓库脱离到慢速设备上,并从数据仓库中删除分析处理不 再有用的数据。所以数据被载入到数据仓库之后,一般很少进行变动,除了 加载新的数据,或者为了减少数据量,将部分历史数据进行备份、转移。所 以,在一定时间间隔内的不同时刻,针对数据仓库进行相同的分析查询,应 该得到相同的结果 最后,数据仓库是随时间变化的脚数据进入数据仓库以后随时间变化 而定期更新。每隔一段固定的时间间隔后,抽取运营数据库系统中产生的数 据,转换后集成到数据仓库中而数据的过去版本仍被保留在数据仓库中, 如同“定期摄影术”,每隔一周、一月或适当的间隔就照一张像。随着时间的 6 哈尔滨工程大学硕士学位论文 变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据 超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。 时间在数据仓库中是一项很重要的信息,所以在数据加载时,很多数据要加 上时间戳。 。 2 1 3 数据仓库的系统结构 数据仓库体系结构的提出是为了简化数据仓库方案的设计、实现和管理 用于描述在构建、使用和管理数据仓库的过程中各个构件的相互关系。基于 用户的反馈以及针对数据仓库的新的发现,数据仓库的体系结构将随着时间 不断发展和完善。 数据仓库作为数据存储的一种组织形式,它从最初的数据源获取原始数 据,按照决策的要求重新组织,形成了具有不同粒度的综合数据层,这是数 据仓库的一个方面;另外,数据仓库还需对其存储的数据进行操纵、分析、 挖掘和管理等以支持决策。数据仓库系统是对原始数据进行抽取,转换、过 滤、清洗和加载,并对数据仓库中存储的数据进行更新、管理、使用和表现 的相关软件压具的集合,用以支持数据仓库应用或管理决策。数据仓库系统 通常由管理部分、数据仓库、o l a f 服务器和前端应用四都分组成。这四部 分关系如图2 1 所示 7 哈尔滨工程大学硕士学位论文 数据存储不同层次汇总o l a p 服务器前端应用 图2 1 数据仓库的系统结构 1 数据源 数据源是数据仓库系统的基础,是整个系统的数据源泉。若没有了这些 数据,数据仓库系统将成为无本之木,无源之水通常包括内部信息和外部 信息。 2 数据的存储与管理 数据的存储与管理是整个数据仓库系统的核心数据仓库的真正关键是 数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库, 同时也决定了其对外部数据的表现形式。针对现有各业务系统的数据,进行 抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范 围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 3 元数据 元数据是描述数据仓库内数据的结构和建立方法的数据可将其按用途 的不同分为两类,技术元数据和商业元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库 是用的数据包括:数据源信息;数据转换的描述;数据仓库内对象和数据 结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射; 8 一圈 哈尔滨工程大学硕士学位论文 用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录 等。 商业元数据从商业业务的角度描述了数据仓库中的数据l 哪。包括:业务 主题的描述,包含的数据、查询、报表。 元数据为访问数据仓库提供了一个信息目录( i n f o r m a f i o n d i r e a o r y ) ,这 个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么 访问这些数据是数据仓库运行和维护的中心,数据仓库服务器利用他来存 贮和更新数据,用户通过他来了解和访问数据。 4 数据抽取工具 数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、 整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽 取工具的关键,应能生成c o b o l 程序、m v s 作业控制语言( j c l ) 、u n i x 脚本、和s q l 语句等,以访问不同的数据。数据转换都包括,删除对决策应 用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据; 给缺值数据赋给缺省值;把不同的数据定义方式统一 5 o l a p 服务器 o l a p 服务器对分析需要的数据进行有效集成,按多维模型予以组织, 以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为;r o l a p , m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中; m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l m 基本数据存放 于r d b m s 之中,聚合数据存放于多维数据库中。 6 信息发布系统 把数据仓库中的数据或其他相关的数据发送给不同的地点或用户 7 前端工具 前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘 工具以及各种基于数据仓库或数据集市的应用开发工具( 7 。其中数据分析 工具主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库 在一个数据仓库中,源数据来源于已有的生产系统,是操作型数据,提 供源数据的数据源可以是各种数据库管理系统,也可以是各种格式的数据文 件或外部的数据源。由于数据仓库是一种信息集成的手段,因此。在实际工 9 哈尔滨工程大学硕士学位论文 程中,面对的数据源可能干差万别,只要能够为数据仓库所支持的决策和分 析过程提供所需的信息,就可能成为数据仓库的数据源。因此,数据仓库需 要有相应的工具从数据源中抽取数据。数据进入数据仓库之前,必须经过检 验,排除数据中可能隐藏的错误。为了满足决策支持和深入分析的需要,数 据要经过特别的整理、加工和重新组织,经过检验、整理、加工和重新组织 后的数据要装载到一个或多个数据仓库的数据库中,所有以上这些工作都是 由数据抽取和转换工具来完成。数据仓库中,装入数据的数据库称为数据仓 库的目标数据库。为了描述数据检验、整理和加工的需求和相应过程及步骤, 必须有数据建模工具( m o d e l i n gt o o l s ) 随着企业的业务发展,数据仓库管理 人员可以通过使用数据建模工具,根据企业决策和综合分析的需要,对数据 的检验、整理、加工和重新组织的过程进行调整和优化而对数据的检验、 整理、加工和重新组织过程的描述,则是以数据模型和元数据的形式,存放 在核心仓储中在数据仓库的日常运行过程中,需要不断监控数据仓库的状 态,包括系统资源的使用情况、用户操作的合法性、数据的安全性等多个方 面,为此,在数据仓库系统中专门由数据仓库管理工具来负责向数据仓库管 理员和数据仓库的数据库管理员提供有关的管理功能。为了使数据仓库用户 能有效地使用数据仓库中的信息,进行深层次的综合分析和决策,数据仓库 系统要向用户提供一整套数据访问和分析工具。数据访问和分析工具不但要 提供一般的数据访问功能,如查询、汇总、统计等,还要提供对数据深入分 析功能,即数据挖掘a t a m i n i n g ) 功能,如数据比较、趋势分析、模式识别等。 而数据仓库的数据访问和分析要在一定程度上面向企业的业务需求,所提供 的数据是在业务上有意义的信息,而不只是通用的数据查询和操作功能。 2 2 数据仓库的设计过程 数据仓库的构建是一个经过不断循环,反馈而使系统不断增长与完善的 过程,因此在这节中讨论的数据仓库开发步骤并不是绝对的。尽管如此,数 据仓库的设计并不是没有步骤可言的,其大体上可以分以下几个步骤( 如图 2 2 ) : 1 总体分析设计阶段 1 0 哈尔滨工程大学硕士学位论文 2 数据建模阶段 3 数据仓库生成阶段 4 应用与维护阶段 1 总体分析设 确定系统边界 确定主题域 技术环境准备 元数据生成及管理 2 数据建模 选取业务处 理 定义粒度 选定维度 3 数据仓库生 数据抽取 数据转化 数据净化 数据汇总 数据载入 4 应用与维护 o i a p 应用 数据挖掘 完善维护系 圈2 2 元数据生成及管理 下面就以图2 2 所示的四个设计步骤为主线,分别介绍各个设计步骤的 具体内容 2 2 1 总体分析设计 总体设计阶段主要完成三个方面的工作,即界定系统边界、确定主题域 和做技术环境准备工作。 数据仓库的开发是一个不断丰富与完善的过程,设计之初不可能得到详 细而明确的需求。因此开始建立数据仓库时,首先要根据一些基本需求划定 一个大致的系统边界,集中精力进行最需要部分的开发。其次,要深入分析 企业原有业务处理系统的数据源、报表样例,理解企业运作规律,明确用户 的决策需求,并在这些工作的基础上确定数据仓库系统的主要主题域及其关 系。最后,进行技术环境准备工作,它包括确定系统硬件体系结构和框架, 选择合适的开发工具,分析从操作系统到数据仓库的加载和转换数据的方法, 了解数据仓库备份、恢复机制以及安全性限制等 哈尔滨工程大学硕士学位论文 2 2 2 数据仓库建模 数据仓库的产生其目的就是为了满足数据分析的需要,而为了能够更好 的实现这一目的,数据仓库的建模技术至关重要呻。维度建模方法现在已经 成为展示数据仓库的主导技术。维度模型对数据仓库实施的多个方面都有影 响,这些方面涵盖从业务需求转换开始,经过数据转储,最后到通过分析型 应用对数据仓库进行揭示等环节注重以业务需求作为考虑问题的出发点, 并坚持将用户的可理解性与查询性能作为设计的目标,就能够建立满足机构 分析需要的完备设计维度建模对于发起一个成功的数据仓库应用是绝对重 要的。同时,维度建模方法还在建立分布式数据仓库系统方面,发挥唯一配 套体系的作用。通过在一组维度模型中使用一致的维度和一致的事实,可以 得到一个可预见的实用框架,从而逐步、递增地建立没有中心环节的复杂数 据仓库系统。 1 维度建模的基本概念 1 1 事实表 , 事实表是维度模型的基本表,其中如图2 3 所示存放有大量的业务性能 度量值。应力图将从一个业务处理过程得到的度量值数据存放在单个数据中 心。由于度量值数据压倒性地成为任何数据中心的最大部分,因此应该避免 在企业范围内的不同地方存储其拷贝。维度值的列表给出了事实表的粒度定 义,并确定出度量值的取值范围是什么。事实表的一行对应一个度量值,一 个度量值就是事实表的一行。事实表的所有度量值必须具有相同的粒度。事 实表中最有用的事实是数字类型与可加型事实。所有的事实表有两个或者两 个以上的外关键字,外关键字用于连接到维度表的主关键字如果事实表中 的所有关键字都能分别与对应维度表中的主关键字正确匹配,就可以说这些 表满足引用完整性的要求。事实表要通过与其相连的维度表进行存取。在维 度模型中,事实表表示了维度间多对多的关系【l 习。 哈尔滨工程大学硕士学位论文 销售事实表 日期关键字 产品关键字 地区关键字 客户关键字 销售员关键字 销售额 销售量 销售员维度表 销售员关键字 销售员姓名 销售员所在部门 。 图2 3 事实表示例,图2 4 维度表示侈l 2 ) 维度表 维度表是与事实表不可分割的。如图2 4 所示,维度表包含有关业务的 文字描述在一个设计合理的维度模型中,维度表有许多属性,这些属性给 出对维度表的行所进行的描述。应该尽可能多地包含一些富有意义的文字性 描述。每个维度用单一的主关键字进行定义,主关键字是确保其与之相连的 任何事实表之间存在引用完整性的基础。维度属性是查询约束条件、成组与 报表标签生成的基本来源。维度表属性在数据仓库中承担着一个重大的角色。 由于它们实际上是所有令人感兴趣的约束条件与报表标签的来源,因此成为 使数据仓库变得易学易用的关键 2 2 1 。数据仓库的能力直接与维度属性的质量 和深度成正比。在提供详细的业务用语属性方面所花的时间越多,数据仓库 就越好。在属性列值的给定方面所花的时间越多,数据仓库就越好。在保证 属性列值的质量方面所花的时间越多,数据仓库就越好。维度表是进入事实 表的入口,丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了 使用数据仓库的接口。 一 2 维度建模的设计过程 一维度建模基本上有四步维度设计过程; 1 1 选取要建模的业务处理过程 业务处理过程是机构中进行的一般都由源数据收集系统提供支持的自然 业务活动。听取用户的意见是选取业务处理过程的效率最高的方式。用户要 在数据仓库中进行分析的性能度量值是从业务评测处理过程得来的。典型的 哈尔滨工程大学硕士学位论文 i d i i i i | ;i i 自i i ;昌;i i i ;j ;i ;i ;j 自昌i ;j i i i i i i i i ;i i i i ;i ;i ;i ;= i i i i i 昌i 昌;i ;暑 业务处理过程包括原材料购买、订单、运输、开票、库存与账目管理等。这 里谈到的业务处理过程并不是指业务部门或者职能。通过将注意力集中放在 业务处理过程方面,而不是业务部门方面,就能在机构范围内更加经济地提 交一致的数据。如果建立的维度模型是同部门捆绑在一起的,就无法避免出 现具有不同标记与术语的数据拷贝的可能性。多重数据流向单独的维度模型, 会使用户在应付不一致性的问题方面显得很脆弱。确保一致性的最佳办法是 对数据进行一次性地发布单一的发布过程还能减少e t l 的开发量,以及后 续数据管理与磁盘存储方面的负担。 2 1 定义业务处理的粒度 粒度定义意味着对各事实表行实际代表的内容给出明确的说明。粒度传 递了同事实表度量值相联系的细节所达到的程度方面的信息。它给出了后面 这个问题的答案:“如何描述事实表的单个行? ”。粒度的定义对数据仓库的设 计是非常重要的,必须做到在事实表的粒度上一致。没有粒度的定义实际上 是不可能选定适用于每个事实表行的维度的。应该优先考虑为业务处理获取 最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息, 这样的数据不能再做更进一步的细分。原子型数据可为分析方面提供最大限 度的灵活性,因为它可以接受任何可能形式的约束,并可以以任何可能的形 式出现。数据仓库几乎总是要求在每个维度可能得到的最低粒度上对数据进 行表示的原因,并不是因为查询想看到每个低层面的行,而是因为查询希望 以很精确的方式对细节知识进行抽取。 3 1 选定用于每个事实表行的维度 维度所引出的问题是,“业务人员将如何描述从业务处理过程得到的数 据r 鲫。如果对粒度方面的内容很清楚,那么维度的确定一般是非常容易的。 通过维度的选定,可以列出那些使每个维度表充实起来的离散的文本属性。 常见维度的例子包括日期、产品、客户、事物类型和状况等。一个经过仔细 考虑的粒度定义确定了事实表的基本维度特性。同时,经常也可能向事实表 的基本粒度加入更多的维度,而这些附加的维度会在基本维度的每个组合值 方面自然的取得唯一的值。如果附加的维度因为导致生成另外的事实行而违 背了这个基本的粒度定义,那么必须对粒度定义进行修改以适应这个维度的 情形。 1 4 哈尔滨工程大学硕士学位论文 4 ) 确定用于形成每个事实表行的数字型事实。 事实的确定可以通过回答:“要对什么内容进行评测”这个问题来进行 业务用户在这些业务处理性能度量值的分析具有浓厚的兴趣。设计中所有供 选取的信息必须满足在第2 步中定义的粒度要求。明显属于不同粒度的事实 必须放在单独的事实表中。典型的事实是诸如订货量或者销售值这样的可加 性数字数据。 在整个维度建模的过程中,都应该以用户对业务的理解作为确定维度模 型所需维度与事实的内容的依据。在按照以上所示四个步骤确定相关内容时, 需要同时考虑业务用户需求和源数据本身。千万要克服只看看源数据文件就 对数据进行建模的偏向。使用这种受数据驱动的最省力的方法去建模,是不 太合适的。 2 2 3 数据仓库的生成 1 数据抽取 并不是源数据库的所有细节数据对于数据仓库的主题域都是有用的,必 须根据己确定主题的需要,从原有操作型数据库中抽取相关数据到数据仓库 数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据环 境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的 数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、 增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务 处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执 行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 2 数据转换 数据仓库中的数据往往来自一个或多个分布,异构的数据库系统,这些数 据源之间往往存在着不一致的问题:如不一致的字段长度,不一致的赋值等, 数据不一致会严重影响数据仓库的数据质量。数据转换就是处理这些不一致 性的过程。在设计转换接口程序时,一般要考虑统一数据名称及格式和创建 新的数据逻辑视图两方面的数据转换问题。 3 数据净化 1 5 哈尔滨工程大学硕士学位论文 数据质量是决定信息价值的关键因素。高质量的信息导致高质量的决策, 而低质量的信息将导致低劣的决策。数据仓库是分析决策的基础,所以数据 仓库中数据的准确性是非常重要的。 、 传统数据库中的数据大都存在错误,这是活生生的事实。t h o m a sr e d m a n 广泛研究了这一主题,他提出数据库中的错误率为0 5 - 3 0 。尽管数据仓库 项目能把注意中心放在数据质量问题和引导未来的进一步改进上,但数据仓 库开发者通常还不能处在改变数据仓库基础一历史数据质量的位置。因此, 有必要对进入数据仓库的数据进行全面检查并使他们尽可能无差错。这一过 程就称作数据净化。 4 数据汇总 源数据库中的细节数据进入数据仓库后,还需要将这些数据在各种层次 结构上进行汇总。例如,在数据仓库中存储的细节数据是每天每种产品的销 售量,而时间维分月、季度、年三个层次。用户要对每种产品进行中短期销 售趋势分析时,可能要获取每种产品每月,每个季度,每年的销售量。这时, 就必须分别在时间维的月、季度、年这三个层次结构上对细节数据进行汇总。 为了提高数据仓库的查询效率,往往把这些汇总数据存储在数据仓库中。根 据汇总层次级别的不同,又可分为轻度汇总数据与高度汇总数据虽然数据 仓库中汇总数据越多,访问速度就越快,但是如果汇总级别太多,会造成数 据仓库的数据爆炸。因此,在对数据仓库中数据汇总的级别设计时,需要认 真选择和权衡。 2 4 联机分析处理( o l 谨) 相关理论 数据仓库( d w ) 是管理决策分析的基础,若要有效地利用d w 中的信息资 源,必须有强大的工具对信息进行分析和决策,联机分析处薹( o l a p ) 就是一 个得到广泛应用的数据仓库技术 , 联机分析处捆( o l a v ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( 0 l t p ) 己不能满足终端用户对数据 库查询分析的需要,s q l 对大数据库进行的简
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年华中师大一附丘成桐少年班自主招生数学试卷(含答案详解)
- 2025年事业单位工勤技能-湖北-湖北造林管护工三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北管道工四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北园林绿化工三级(高级工)历年参考题库典型考点含答案解析
- 2025年房地产市场区域分化与投资策略的人工智能研究报告
- 化工园区安全环保提升项目2025年社会稳定风险评估与风险评估产业融合报告
- 2025-2030中国窄带钢企业竞争策略与投融资风险预测报告
- 2025年事业单位工勤技能-江西-江西经济岗位工一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西堤灌维护工四级(中级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江苏-江苏城管监察员二级(技师)历年参考题库含答案解析
- CJ/T 385-2011城镇燃气用防雷接头
- 人工智能提示词工程师试题含答案
- (人教版)初中英语九年级全册 各单元测试卷及答案共十四套
- 旅行社自愿离团免责协议书10篇
- 成人术中非计划低体温预防与护理-中华护理学会团体标准
- 2025-2030中国光芯片外延片行业发展分析及发展预测研究报告
- 售后服务转移合同协议
- 电气技术员试题及答案
- 航材包装、运输管理程序
- DB51-T 3251-2025 煤矿井下应急广播系统使用管理规范
- 静压植桩机钢管桩施工技术
评论
0/150
提交评论