




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)数据仓库中的索引技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
晴尔演理t 大学1 = 学硕上学位论文 数据仓库中的索引技术 摘要 为了能更好地支持决策分析,发挥数据的更大价值,数据仓库技术应运 而生。其中,联机分析处理( o l a p ) 是数据仓库最主要的应用之一。本文从 提高数据仓库和o l a p 系统性能的角度出发,讨论了基于关系存储的多表 连接,研究了目前数据仓库系统比较流行的索引技术,并对位图索引进行了 全面的研究。 文章研究了b 树索引、位图索引、索引组织化表、b 树群索引在数据 仓库中的正确应用,并就这几种索引技术的优缺点进行了分析,同时提出了 在数据仓库中创建和维护索引的一些建议。 位图索引是一种比较重要的数据仓库索引技术,主要基于二进制逻辑运 算的简化操作来达到查询优化的目的,位图索引的主要特点是查询效率高, 实现起来比较简单,具有很强的可操作性。然而在一些场合,也有不太适合 的地方。位图索引不太适合数据仓库中的范围查询,最主要的特点是占用了 较多的空间,本文提出了编码位图索引在范围查找中的应用,并实现了算 法。实验证明,算法取得了预期的效益。 基于关系存储的联机分析处理( r o l a p ) 通常会涉及多表连接操作。由于 基于关系存储的数据仓库一般采用星型结构组织数据,所以传统的多表连接 方法己经不太适合r o l a p 查询的需要。本文研究了目前较新的多表连接方 法,例如多表哈希连接算法、多表排序连接算法,它们结合了星型的特点, 极大地提高了效率。本文提出了基于位图索引的多表连接算法,并加以实现 和改进,这种算法能够极大地提高联机分析处理的速度,实验证明,算法达 到了预期的目标。 总的来说,数据仓库中的索引技术,是一个比较新的课题,每种索引各 有所长,在数据仓库中要综合考虑,选择恰当的索引。 关键词数据仓库:位图索引;编码位图索引;b 树索; 竺查量至三查兰二兰堡圭兰堡丝圣 i n d e xt e c h n i q u ei nd a t a w a r e h o u s e a b s t r a c t t h i st h e s i si st h er e s u l to fas t u d yo nd a t a w a r e h o u s ea n d0 n l i n ea n a l y t i c a l p r o c e s s i n g t oi m p r o v et h ec a p a b i l i t yo ft h es y s t e mp e r f o r m a n c eo fo l a p , t h i s t h e s i sd i s c u s s e sm u l t i t a b l ej o i n a l g o r i t h m b a s e do nr e l a t i o n s ;t h e p a p e r i n v e s t i g a t e sp o p u l a ri n d e xt e c h n i q u e sa n ds t u d y st h eb i t m a pi n d e xr o u n d l y t h e c o n t e n t so ft h et h e s i sa r eb r i e f e da sf o l l o w s : t h i sp a p e rs t u d i e st h ea p p l i c a t i o no fb t r e ei n d e x ,b i t m a pi n d e x ,i n d e x o r g a n i z e dt a b l ea n db * - t r e ec l u s t e ri n d e xi nd a t a w a r e h o u s ea n da n a l y z e st h e i r p r o sa n dc o l a s ,w h i l eg i v e ss o m ea d v i c eo nb u i l d i n ga n dm a i n t a i n i n go fs e v e r a l i n d e xm e t h o d so fd a t a w a r e h o u s e b i t m a pi n d e xi sa l li m p o r t a n td a t a w a r e h o u s e i n d e xt e c h n o l o g y , a n de x e c u t e st h es i m p l i f y i n gb i n a r yl o g i cq p e r a t i o ni no r d e rt o o p t i m i z et h eq u e r y t h em a i nf e a t u r e so fb i t m a pi n d e xa r eh i g hq u e r ye f f i c i e n c y , e a s yi m p l e m e n ta n dg o o dm a n i p u l a t i o n b u t i ti sn o ta d a p t i v et os o m e e n v i r o n m e n t ,f o re x a m p l e ,i ti sn o ta d a p t i v et or a n g es e a r c hw h i c hh a sm o r e s p a c ep r i c eo fi n d e xs t o r i n g t h i sp a p e rb r i n g sf o r w a r dt h eb i t e n c o d e di n d e xt o r e a l i z er a n g es e a r c h v e r i f i e db yt h ee x p e r i m e n t ,t h ea l g o r i t h m e f f i c i e n t l y o p t i m i z e st h ep r o c e d u r eo fq u e r ya n da c h i e v e st h ee x p e c t e dg o a l m u l t i t a b l ej o i ni so n eo ft h em o s tt i m e - c o n s u m i n go p e r a t i o n si nt h eo n l i n e a n a l y t i c a l 、p r o c e s s i n g b a s e do nr e l a t i o n s t h et r a d i t i o n a lm u l t i t a b l e j o i n p r o c e s s i n gm e t h o dh a s n ta d a p t e dt o o l a pq u e r ya tp r e s e n t t h e r ea r en e w m u l t i t a b l ej o i nm e t h o d s ,s u c ha sm u l t i t a b l ej o i nb a s e do nh a s h ,m u l t i - t a b l ej o i b s b a s e do ns o r tw h i c hc o m b i n et h es t a r - s t r u c t u r ef e a t u r e c o m p a r i n gw i t ht h e t r a d i t i o n a lm u l t i t a b l ej o i np r o c e s s i n gm e t h o d ,t h ep e r f o r m a n c eh a sar e m a r k a b l e s u p e r i o r i t y t h i sp a p e ri n t r o d u c e sam u l t i t a b l ej o i na l g o r i t h mb a s e do nb i t m a p i n d e x ,w h i c hc o m b i n e st h eb i t m a pa n dj o i nm e t h o d s t h ea l g o r i t h mc a ns p e e du p o l a pq u e r yp r o c e s s i n g v e r i f i e db yt h ee x p e r i m e n t ,t h ea l g o r i t h me f f i c i e n t l y a c h i e v e st h ee x p e c t e dg o a l i i 堕篓圣竺三查兰三兰堡! 兰堡丝圣 o nt h ew h o l e ,t h ei n d e xt e c h n o l o g yo fd a t a w a r e h o u s ei ss t i l lan e wt o p i c , a n de v e r yi n d e xh a si t sm e r i t ,s ow es h o u l dt h i n kr o u n d l yt oc h o o s et h ei n d e x k e y w o r d sd a t a w a r e h o u s e ;b i t m a pi n d e x ;e n c o d e db i t m a pi n d e x ;b t r e ei n d e x - 1 1 1 哈尔滨理工大学硕士学位论文原创性声明 本人郏重声明:此处所提交的硕士学位论文数据仓库中的索引技术) , 是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研究工作 所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写 过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中以明确方 式注明。本声明的法律结果将完全由本人承担。一 作者签名:狄 纲 日期: 矽印年弓月7 乡日 哈尔滨理工大学硕士学位论文使用授权书 数据仓库中的索引技术 系本人在哈尔滨理工大学攻读硕士学位期间在 导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学所有, 本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工大学 关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论文和电子 版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影印、缩印 或其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密 厂 , 在年解密后适用授权书。 不保密叼。 ( 请在以上相应方框内打) 作者签名: 秋i 纫日期:办叼年多月,乡:日 导师签名 周和硝 日期: ,刃年弓月多日 日期: ,f 年多月,护日 哈尔滨理工大学t 学硕:卜学位论文 第1 章绪论 1 1 课题背景和研究意义 最近几年,数据仓库技术的研究和应用已引起了研究人员、开发人员和用 户的普遍注意。它已经成为近年来在计算机应用领域中发展最为迅速的几项新 技术之一,它的主要特征是实现面向企业高层次的管理人员的方便的信息查询 和决策支持活动。因此提高查询速度是数据仓库必须要实现的一个功能。数据 仓库中的查询具有下面的特点“: 历史数据量很大。全球范围内数据库中存储的数据量急剧增大,有些公司 经过长年累月积聚下来的商业数据目前已经超过几百万条记录。虽然数据库系 统提供了对这些数据的管理和简单的处理功能,人们可以在这些数据之上进行 商业分析和科学研究,但如此庞大的数据对人工处理来说是非常困难的。由于 访问数据的特性不同。它对大量数据的访问性能明显下降。在事务处理环境 中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因 此,系统可以允许按分时方式使用系统资源,同时保持较短的响应时间。而在 分析处理环境中,用户的行为模式与此完全不同,某个决策支持应用程序可能 需要连续运行几个小时,从而消耗大量的系统资源。将具有如此不同处理特性 的两种应用放在同一个环境中运行显然是不适当的。 使用过大型数据库的工程技术人员可能都有这样的体验,索引建立的好坏 直接影响数据库的访问效率,有时一个简单的索引可能使同一程序的运行时间 缩短几倍甚至十几倍。可以说,索引查找是优化大多数查询响应时间的秘诀, 因而它在数据仓库中得以系统地应用以提高数据仓库的处理能力。 为了提高查询速度,有必要为数据库建立恰当的索引,目前已经存在一些 索引技术,但是它们大部分是针对数据库的,不太适合在数据仓库中进行运 用,也有一些是适合数据仓库的,但是缺少对各自的适应范围进行全面的介绍 和总结。 1 2 本领域发展概况 学术界对数据仓库种索引的研究已经进行了广泛深入的研究,包括数据仓 哈尔滨理t 大学丁学硕j 学位论文 库中的多表连接索引,以及空间索 等。对于位图索引的研究主要集中在位图 索引的编码上,具体如下: 1 2 1 对位图的研究 位图索引的概念精致,结构简单,兼之二进制运算的效率很高,因而受到 广泛的重视。迄今,一些主要的数据库厂商,如i b m ,o r a c l e ,s y b a s e 以及 i n f o r m i x 等,都在各自相应的产品中实现了位图索引。但是,位图索引也有明 显的不足之处。当a 的基m 很大时,位图索引所占用的空间也相当可观。为 减小位图索引的空间代价,人们提出了多种解决方案,其中较为突出的是 c h a r t 等人提出的分段框架”1 。在该方案中,首先按照一定的基将a 的值分为 若干段,然后为每个段分别建立索引,通过这种方法可以很高地提高空间率。 学者们对位图索引的另一种改进思路是,提出了编码位图索引,且前对位 图的编码方法的研究目前比较成熟。在大量的文献中提到了编码索引”“,但 是大量的文献对编码位图索引的优点进行了分析,但文献没有给出一种有效的 算法去发现一种较好的编码算法。 1 2 2 对位图编码的研究 对编码位图索引在数据仓库方面应用的研究,目前具体包含以下几方面: 1 编码位图索引用做范围索引编码位图索引的一个可能的变种是将它 用于基于范围的索引。先前的有两种位图编码索引等值编码位图索引( e q u a l i t y e n c o d i n g ) ,范围编码( r a n g ee n c o d i n 酚。等值编码位图索引是最基本的编码位图 索引,虽然可以使范围查询用等值编码位图索引进行组合实现范围查找,但是 它并不是一种较好的编码,同样r a n g ee n c o d i n g 也存在着缺陷。经过专家证明 上面两种编码有以下的缺点”“: 如果属性域小于等于5 ,r a n g ee n c o d i n g 对于等值查询是比较合适的。 r a n g ee n c o d i n g 是优化的对于所有的单边范围查询。 , r a n g ee n c o d i n g 不是优化的对于所有的双边范围查询。 e q u a l i t ye n c o d i n g 是优化的对于所有的等值查询。 e 口u a l i t ye n c o d i n g 不是优化的对于所有的非等值查询。 如上面的所述,可知上面的两种编码位图索引都不适合于双边范围索引。 如今又提出了一种新的编码位图索引”1 ,i n t e r v le n c o d i n gs c h e m e 这种编码具 有较好的灵活性,它具有以下的特点: 哈尔滨理丁大学- 丁学硕仁学位论文 i n t e r v l e n c o d i n g s c h e m e 优化的对于所有的单边范围查询。 i n t e r v le n c o d i n gs c h e m e 优化的对于所有的双边范围查询。 i n t e r v le n c o d i n gs c h e m e 优化的对于所有的范围查询。 在文献中己被作者证明对于范围查询是目前较好的编码方法。但是编码的 属性过大时,这种编码在时间以及维护上代价都会特别大。 2 层次编码现在的编码位图索引,基本上都是考虑在基本表某一列, 这种编码已经比较成熟,但数据仓库中的数据多以星型模式组织,通常是包括 一个事实表和多个维表维,表中可能存在层次关系,例如销售数据的维表销售 点可能被分为3 个层次单元,部门,公司和联盟,假设有1 2 个部门fl , 2 ,3 ,4 ,1 2 5 个公司( a ,b ,c ,d ,e 和3 个联盟 x ,y ,z 。一个公司 分为好几个部门几个部门组成一个联盟,例如部门 l ,2 ,3 ,4 属于公司a 部 门,f 5 ,6 】属于公司b 公司, a ,b ,c 组成联盟x 等。o l a p 的许多常用的 数据分析和操作例如选出联盟z 中所有公司的销售数据等都是基于维表及维表 单元上的选择或查询的,因此在数据仓库中同一维表层次中的数据很有可能被 同时访问。所以简单的编码位图索引已经不太适合数据仓库中的联机分析处 理。层次编码”的思想就是建立关于各层次单元上的选择的编码位图索引。在 上面的例子中公司和联盟这两层的取值域分别是( a ,b ,e ,d ,e 和 x ,y , z j ,那么在公司或者在联盟上的选择集谓词为p c o m p a n yi | i a ,b ,c ,d , e u a l l i a n c ej l j 岳 x ,y ,z 一种关于p 的最优编码方式对沿着维度单元 公司或联盟的选择进行了优化例如对于联盟x 只需要访问一个位图矢量,文 献提出了事实表中不再存储外关键字,而是直接存储层次编码的思想”1 。实现 了维表关键字的压缩,通过编码长度较小的维层次编码及其层次前缀路径,对 维层次编码进行前缀匹配操作,实现了在不访问维表记录情况下,检索出与关 键字相匹配的维层次编码,来求得所有维层次属性的查询范围,提高检索速 度,减少了i o 开销,提高了o l a p 查询效率。同时通过编码前缀提高了r o l l u p 和d r i l ld o w n 等操作效率。 3 混合索引当索引属性的基数增大时,映射表也变得很大,因此,必 须有一种有效的方法来创建和存取映射表。如果数据仓库中的数据在最初装入 以后,索引属性的基数不再变化,就用静态哈希表来建立映射表,否则,可以 使用可扩展哈希表,可扩展哈希表中的桶能根据实际需要增大或变小,虽然它 的平均效率不及静态哈希表,但却优于b 树。 哈尔演理工人学工学硕 :学位论文 10 2 3 对位图应用的研究 目前数据库系统中的位图索引已经相对比较成熟,而且很多系统中都有成 熟的位图索引技术,然而这些位图索引不太适合在数据仓库中应用。如何在数 据仓库中运用位图索引是目前的一个研究热点。 10 3 本文研究内容 论文来源于黑龙江省重点科技攻关项目。 论文完成过程中,作者查阅了大量有关数据仓库、索引方面的文献资料, 研究了目前数据仓库系统比较流行的索引技术,并就这几种索引技术的优缺点 进行了分析,深入了解目前该领域的发展现状和关键技术,就在数据仓库中创 建和维护索引给出了一些方法。对数据仓库的基本的索引技术进行了研究并对 位图索引在数据仓库的多维连接中的应用以及编码位图索引在数据仓库中范围 查询方面的应用进行了研究。 论文各章节安排如下: 第l 章概述了数据仓库研究的目的和意义,分析需要进一步研究的内容并 提出本文主要研究工作。 第2 章介绍了数据仓库中的基本概念。包括数据仓库、数据集市、等基本 概念;数据仓库的数据组织和数据仓库的几个关键问题;数据仓库目前发展状 况和当前应用情况。 第3 章研究数据仓库的基本索引技术以及目前流行的索引技术,分析了其 优缺点,并对数据仓库中索引的建立和维护给出了一些建议。 第4 章提出了编码位图索引用于范围查询的算法的研究。并实现了利用位 图索引和编码位图索引进行查找的算法性能比较。 第5 章研究了数据仓库中的多表连接算法,实现了哈希多表连接算法,排 序多表连接算法,重点提出了多表连接位图索引算法,并实验验证了算法的有 效性。 最后,对本文的工作进行总结,提出未来进一步的工作展望。 堕堑堡矍三查兰三兰堡! :兰堡丝兰 第2 章数据仓库基本理论 在以前的操作型环境中,用户想要对数掘进行分析,只能根据需要编写一 些提取程序从业务中提取数据,起初只是提取,随后是提取之上的提取,接着 是在此基础上的再次提取,这种提取模式最终形成了一个大的蜘蛛网,其中存 在很多问题,包括: 1 数据缺乏可信任性。 2 。没有公共的起始数据源。 3 数据算法上差别很大。 。 4 效率低下。 5 缺乏可供分析的历史数据等。 数据仓库主要就是将整个企业的所有有价值的数据经过加工汇总到一个集 成的环境中,从而为决策处理系统( d e c i s i o ns u p p o r ts y s t e m 。d s s ) 提供一个基 础,与以前的技术相比,数据仓库环境下的d s s 工作要容易地多。 2 1 数据仓库理论概述 2 1 1 基本概念 9 0 年代初期,美国著名信息工程学家w h i n r n o n 博士在建立数据仓 库一书中提出了数据仓库的概念:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题 的、集成的、稳定的、随时间而变化的包含大量历史数据的数据集合,它用于 支持经营管理中的决策制定过程“。 1 主题是指用户使用数据仓库进行决策时所关心的重点方面,如人事 情况、商品情况、销售商情况、销售情况、整个企业的利润状况等:所谓面向 主题,是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程 提供信息。相对而言,传统的操作型环境是围绕公司的应用来组织的,对一个 保险公司而言,应用问题可能有汽车保险、人寿保险、企财险、家财险、货运 险等;而如果按照主题来组织,就有分公司、顾客、保险单和理陪等主题。 2 集成的是指数掘仓库中的信息不是从各个业务处理系统中简单提取 出来的,是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个企 业的一致的全局信息。数据具有一致性、正确性。在所有的特性中,这是最重 坠尘堡矍三查兰三兰竺! :兰堡篁兰 要的。 3 稳定的是指一旦某个数据进入数据仓库以后,一般情况下将被长期 保留,也就是数据仓库中一般有大量的插入( 在数据加载进入数据仓库的过程 中) 和查询操作( 各种访问数据仓库中的信息过程中:报表和查询系统、o l a p 处理、数据挖掘) ,但修改和删除操作很少。 4 随时间变化是指数据仓库中的数据不是固定不变的,它也要定期进 行刷新( 周期一般为一天左右) ,不断有新的数据加入,同时对于超过一定时间 范围的数据要删除,或者存储到其他的地方如光盘,或者删除详细的数据只保 存其汇总的综合数据。也就是说,数据仓库中的数据并不只是关于企业当时或 某一短暂时间段的信息,而是系统记录了企业从过去某一时刻( 如开始应用数 据仓库的时刻) 到目前的各个阶段的信息,它的数据的历史时间一般为5 到1 0 年,通过这些信息,可以对企业的各个部门各种信息的发展历程和未来趋势做 出定量分析和预测,即它可以对历史数据进行对比分析,同时也可以对将来的 情况进行预测。 举个例子来说,保险公司的保险业务处理系统负责处理公司日常各笔保单 业务,如承保、批改、查勘等具体的业务环节,记录具体客户信息的变更。为 了管理决策的需要,可以考虑在企业的数据仓库中把承保业务作为一个主题。 为了决策支持的方便,在数据仓库中存放的应该是经过加工、汇总和整理过的 信息,例如,在决策时,关心的不是具体的某笔业务,而是业务的发展趋势, 所以应把业务信息按旬或月汇总后在数据仓库加以记录。为了全面反映整个承 保业务的状况,还要在数据仓库中把有关的其他业务信息归并在一起加以统 计。管理决策过程中需要做充分的分析预测工作,这不但需要当时时点的信 息,还需要历史过程的数据,因此,要定期对业务处理系统的数据进行加工、 汇总和整理,并及时放入数据仓库中。 从上面的概念来看,数据仓库似乎是一个静态的概念,因此,有人可能会 把数据仓库简单地理解为仅仅是一个大型的数据存储机制。这种理解是不对 的。事实上,只有把信息及时交给需要这些信息的使用者,供他们做出改善其 业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归 纳,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,数据 仓库是一个工程的、动态的概念。应该晚,数据仓库是一种体系结构的基础, 而不仅仅是一个大型的数据库管理系统。 堕查鎏型三奎兰三兰堡! 三兰堡丝圣 2 1 2 数据仓库的组成结构 数据仓库从多个信息源中获取原始数据,整理加工后,存储在数据仓库的 内部数据库中,再通过数据仓库访问工具,向数据仓库的用户提供统一、协调 和集成的综合的信息环境,支持企业全局的决策过程和对企业经营管理的深入 综合分析。为了达到这样的目标,一个数据仓库一般来说包含以下八个主要组 成部分“”: 1 数据源为数据仓库提供源数据( s o u r c ec l a m ) ,如各种生产系统数据 库,联机事务处理系统( o l t p ) 的操作型( o p e r a t i o n a l ) 数据,外部数据源等都可以 作为数据仓库的数据源。通常,一个企业级数据仓库的数据源很复杂,不仅数 据复杂,其数据库管理系统也多种多样:o r a c l e ,s y b a s e ,s q l s e r v e r i n f o r m i x ,d b 2 等等。 2 数据提取、转换、装载和刷新工具( 简称为e r e ) 其功能是从数据源中 提取数据,对数据进行有效性检查和加工整理,并根据数据仓库的设计要求, 对数据进行重新组织,装载到数据仓库的目标数据库中,并且可以周期性地刷 新数据仓库以反映源的变化。 数据建模工具( m o d e l i n gt o o l s ) :用于为数据仓库的源数据库( s o u r c e d a t a b a s e ) 和目标数据库建立信息模型,以描述数据检验、整理、加工的需求和 相应过程及步骤。随着企业的业务发展,数据仓库管理人员可以通过使用数据 建模工具,根据企业决策和综合分析的需要。对数据的检验、整理、加工和重 新组织的过程进行调整和优化。 3 元数据仓储用于存储数据模型和元数据。其中元数据描述了数据仓 库中源数据和目标数据本身的信息,定义了从源数据到目标数据的转换过程。 4 数据仓库监控和管理工具对数据仓库的运行提供监控和管理手段, 包括系统资源的使用情况、用户操作的合法性、安全管理、存储管理等多方面 的内容。 5 数据仓库及数据集市的目标数据库存储经检验、整理、加工和重新 组织后的数据。它可以是关系数据库( r o l a p ) 或多维数据库( m o l ap 1 。 6 o l a p 服务器是功能强大的多用户的数据操纵引擎,特别用来支持 和操作多维数据结构,为前端工具提供多维数据视图及服务。 前端数据访问和分析工具:供业务分析和决策人员访问目标数据库中的数 据,并作进一步的深入分折之用。数据访问和分析工具不但要提供一般的数据 访问功能,如查询、汇总、统计等,还要提供对数据的深入分析功能,即数据 哈尔滨理丁大学= i = 学硕士学位论文 挖掘( d a t am i n i n g ) 的功能,如数据的比较、趋势分析、模式识别等。而数据仓 库的数据访问和分析要在一定程度上面向企业的业务需求,所提供的数据是在 业务上有意义的信息,而不只是通用的数据查询和操作功能。 当然,并不是所有数据仓库系统都必须具有以上所述的各个部分。在实现 数据仓库的时候,往往需要根据企业的特殊需求,定义自己的数据仓库体系结 构。有可能会更加强调某一部分的功能,简化甚至忽略某一部分的功能,或者 将某几部分的功能进行组合。因此,当我们分析数据仓库产业界及学术界的各 种数据仓库体系结构时,往往并不能看到完全统一的体系结构。 2 1 3 数据仓库的三个关键问题 在整个数据仓库系统中,有三个关键环节,即源数据的提取和转换、在目 标数据库中存储转换后的数据和为用户提供对目标数据库的透明访问。与此相 应,在数据仓库的设计过程中有三个关键的问题,即数据仓库的存储管理,数 据提取和转换和装入( e t l ) ,前端用户访问和分析工具。 1 数据的存储和管理它包括以下这些内容:大容量历史数据的存储, 数据管理,据仓库的数据模型,据仓库中不同的粒度级别,据仓库中数据的分 割。作为数据仓库的目标数据库,既可以选用传统的关系型数据库管理系统 ( 用在中心数据仓库中) ,也可以选用专用的多维数据库管理系统( 用在部门级数 据集市中) 。 以前,一般认为在数据仓库的应用环境下,传统的关系型数据库管理系统 性能比较差。现在,通过使用一些新技术,如动态分片( d y n a m i cp a r t i t i o n i n g ) 、 经过改进的基于成本的查询优化算法、位图索引等,关系型数据库管理系统在 数据仓库应用环境下的性能得到了大幅度的提高。传统的关系型数据库管理系 统的优点是成本和复杂性都比较低。 2 提取、转换和装入工具选定了数据仓库的数据库后,如何选用合适 的数据提取和转换工具,从数据源中提取所需数据,根据业务需求对数据进行 转换,包括检验、整理、加工和重新组织等步骤,存放到目标数据库中,是进 行数据仓库体系结构设计时要考虑的又一个关键问题。这些工具根据用户的输 入在元数据中存储相应的信息,如源数据的格式、目标数据的格式以及如何把 源数据转换成目标数据等。 通常,这个e t l 过程是最复杂的,一般要占用整个数据仓库工程的7 0 左右的时间和资金,因为它要面临各种不同类型的大量的业务数据、历史遗留 哈尔滨理1 = 人学工学硕十学位论文 数据、相关的数据和外部数据信息,要将这些信息有效地集成到一个中一1 5 数据 仓库中是很困难的。 3 数据访问和分析工具数据的访问分析处理是指通过灵活的前端工具 使企业各层次的决策分析人员能对数据仓库中的数据进行各种查询、浏览、分 析、挖掘,找到其中有价值的信息。数据仓库存储了大量的信息,如果没有合 适的工具来利用其中的数据,数据仓库将会变成一个数据监狱。 2 2 数据仓库的数据组织 2 2 1 据仓库的数据组织 一个典型的数据仓库的数据组织存在着不同的细节级: 1 早期细节级( 通常是备用的、批量的存储) 。 2 当前细节级。 3 轻度综合数据级( 数据集市) 。 4 高度综合数据级。 数据是由操作型环境导入数据仓库的。相当数量的数据转换通常发生在由 操作型级别向数据仓库级别传输过程中。一旦数据过期,就由当前细节级进入 早期细节级。综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综 合数据级进入高度综合数据级。 2 2 2 数据仓库的粒度 粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单 位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相 反,细化程度越低,粒度级就越大。 在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存 放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。在 数据仓库中的数据量大小与查询的详细程度之间要做出权衡。 显然,如果数据仓库的空间很有限的话( 数据量总是数据仓库中的首要问 题) ,用高粒度级表示数据将比用低粒度级表示数据的效率要高得多。高粒度 级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。然而数据量 大小和原始空间问题不是仅有的应考虑的问题。为了访问大量数据,其处理能 哈尔滨理t 大学t 学硕士学位论文 力的大小同样也是应考虑的一个因素。当提高数据粒度级时,数据所能回答查 询的能力就会随之降低。换句话说,在一个很低的粒度级上你实际可以回答任 何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。 2 2 3 数据仓库的分割 分割是数据仓库中数据的第二个主要的设计问题( 在粒度问题之后) 。数据 分割是指把数据分散到各自的物理单元中去,它们能独立地处理。小的物理单 元能为操作者和设计者在管理数据时提供比对大的物理单元更大的灵活性。 当数据存放在大的物理单元中时,尤其不能达到: 1 容易重构。 2 自由索引。 3 顺序扫描( 若需要) 。 4 容易重组。 5 容易恢复。 6 容易监控。 简单地说,数据仓库的本质之一就是灵活地访问数据。如果是大块的数 据,就达不到这一要求。因而,对所有当前细节的数据仓库数据都要进行分 割。当结构相同的数据被分成多个数据物理单元时,数据便被分割了。此外, 任何给定的数据单元属于且仅属于一个分割。独立管理的数据分割可送到不同 的处理集,而无须顾及其他的系统考虑有多种数据分割的标准。例如按:时 间、商业线、地理位置、组织单位。 数据分割的标准是严格地由开发人员来选择的。然而,在数据仓库环境 中,按日期几乎总是分割标准中的一个必然组成部分。 开发人员面临的主要问题之一是在系统层上还是在应用层上对数据进行分 割。在系统层上进行分割在一定程度上是某些d b m s 和操作系统的一种功能。 在应用层上进行分割是由设计的应用程序代码完成的,这是只由开发者和程序 员严格地控制的。当在应用层上进行数据分割时,d b m s 和系统就不知道一种 分割与另一种分割之间的关系。通常,在应用层上分割数据仓库的数据是很有 意义的。这是有某些重要原因的,最重要的是在应用层上每年的数据可以有不 伺的定义。1 9 8 8 年和1 9 8 9 年的数据定义,可以相同也可以不相同。仓库中数据 的性质是长期数据积累的结果。当数据在系统层上分割时,d b m s 不可避免 地希望只有一种数据定义。假定数据仓库中保存的数据时间较长( 如达到十 哈尔演理t 大学r t 学硕士学位论文 年) ,而且数据定义经常变化,i j :d b m s 或操作系统去管理一个本该只有一种数 据定义的系统将是毫无意义的。在应用层上管理数据分割的另一重要特点是它 能从一个处理集转移到另一个处集而没有损失。在数据仓库环境中,当工作负 载和数据量成为真正的负担时,这种特点就是一种真正的优点。 2 2 4 数据仓库的数据组织形式 数据仓库中有许多其他的数据组织形式,最常用的是: 1 简单堆积。 2 轮转综合。 3 简单直接。 4 连续。 数据仓库中最简单最常用的数据组织形式也许是简单堆积结构,表示了从 操作型环境中取出行。这里的事务处理是以天来进行综合。换句话说,对一个 顾客的一个帐号的每天的事务处理,然后综合成数据仓库记录,这个综合可根 据顾客、帐目或者任何组织到数据仓库的主题领域来进每天的所有活动进行合 计,并在一天一天的基础上输入数据仓库。 轮转综合数据存储是简单逐日堆积数据的一种变种,数据用与前面相同的 处理方法从操作型环境输入到数据仓库环境中。只是在轮转综合文件中的数据 才被输入到不同的结构形式中。第一周的七天中的活动被逐一综合到七个每日 相应的位置,到第八天,将七个每日位置的数据加到一起,放入第一周的数据 位置中。然后,第八天的每日总计加到第一个每日数据位置。 数据仓库数据的另外一种组织形式是简单直接文件,数据仅仅是从操作型 环境拖入数据仓库环境中,并没有任何累积。另外,简单直接文件不是在每天 的基础上组织的,而是以较长时间为单位的,比如一个星期或一个月。因此, 简单直接文件是间隔一定时间的操作型数据的一个快照。 依据两个或更多的简单直接文件能生成- 种连续文件。当然,连续文件也 可以通过把一个快照追加到一个以前生成的连续文件上来创建。 哈尔滨理1 = 大学t 学硕i :学位论文 2 3 数据仓库与数据集市 2 3 1 数据集市的定义 一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来 的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行 财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市, 用来为本部门的决策支持提供辅助手段。 数据集市包含部门决策支持处理所需要的任何数据。其中既含有概括的和 详细的数据,也有动态的和准备好的数据。通常其中的数据主要有下面两种: 1 动态的概括的数据。 2 准备好的详细的数据。 这两类数据构成了数据集市环境的大部分数据。数据仓库中的数据处于非 常小的粒度状态,而数据集市中的数据则是处于概括级别的状态。 各个部门可以直接使用数据仓库对其中的数据进行分析,但他们在自己特 有的数据集市中进行决策支持处理将更加方便。有多种因素决定了这种数据集 市的流行。 当数据仓库中没有包含大量的数据的时候,它可以满足不同的部门需求并 且用作决策支持处理的基础。但是数据仓库中的数据是随时间而变化的,其中 的数据量在迅速增长,这个时候: 部门要求使用数据仓库的竞争越来越激烈,有更多的部门要求分析处理, 其中的系统资源消耗会逐渐成为一个真正的问题。 随着数据增长,系统回答一个查询要处理更多数据,其性能会越来越低。 数据的定制化将变得困难,分析人员没有时间和资源来进行数据的概括。 可以说,正是出于对数据仓库的性能需求才使数据集市成为部门级的流行 选择。当各个部门选择自己的数据集市的时候可以有以下好处: 当数据从数据仓库中流入数据集市的时候,各个部门可以选择自己最需要 的数据而不用考虑其他部门和公司整体的需求。部门可以选择自己认为合适的 历史数据量进行分析,也许只有1 年2 年,而不用象数据仓库那样存储大量的 5 到1 0 年的历史数据。部门可以对自己的数据任意进行概括和定制处理,因为 其中的数据量和主题比较少,这样可以用较少的空间消耗代价来显著提高分析 处理的性能。部门可以根据自己的需求选择合适的分析处理软件。由于在自己 哈尔演理t 人学t 学硕i 。学位论文 单独的机器上进行处理,可以期望得到较高的性能。 由于每个部门有自己特定的需求,因此他们对数据集市的期望也不一样。 一般说来,数据集市中数据库的设计采用星形连接( s t a r - j o i n ) 的结构,这种结 构对部门用户而言是最优的,但对企业范围而言则不然。为了提高星形连接的 性能,必须事先搜集该部门业务用户的需求。数据集市中包含的历史数据不很 全,其详细程度也不够,数据选取的基本原则是能满足本部门的需求。数据集 市大都采用多维数据库技术,这种技术对数掘的分析而言也许是最优的,但肯 定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。为了提高速 度,对数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠 对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不 是在原来设计的范围内,则需要数据库管理员对数据库作出许多调整和优化处 理。 2 3 2 数据集市的分类 业界有两种数据集市,即: 1 从属数据集市。 2 独立数据集市。 从属数据集市的数据来源于中央的数据仓库,独立数据集市的数据则直 接来源于源应用环境。所有的从属数据集市都从属于同一个数据仓库,各子系 统的数据均能保持一致,因此这种数据集市的结构是可行的。而每个独立数据 集市都从各源生产系统中单独提取数据,无法保证数据的一致性;从长远来 看,这种结构是不稳定也是不可行的。独立数据集市的这些问题在开始往往反 映不出来,企业只有在建立了多个独立数据集市之后才能认识到其缺点。 2 3 3 数据仓库与数据集市的区别 数据仓库与数据集市之间具有很大的差异。数据仓库是基于整个企业的数 据模型建立的,它面向企业范围内的主题。一般来讲,数据仓库是由一个中央 的协调组织f 例如传统i t 部门) 来建立和管理。数据仓库完全是整个企业共同 努力的结果。 某个部门的主题与企业的主题之间可能存在也可能不存在关联。数据仓库 中存储整个企业内非常详细的数掘,相对丽言,数掘集市中数据的详细程度耍 低一些,相反,它包含了许多概要和累加数据。数据仓库的数掘模型一般是规 哈尔滨理t 大学丁学硕l 。学位论文 范的,比较多的是符合第三范式。其数据的结构和内容反映的不是某个特定部 门的特殊要求,它代表的是整个企业对于数据的需求。数据仓库中的数掘量与 数据集市差别很大,因此,数据仓库中的索引很少。这和传统的o l t p 数据库 有很大的区别。数据仓库中包含有相对稳定的详细的历史数据,所有数据都是 从许多操作数据源中经一定的业务规则转换并集中进来的。简而言之,在数据 仓库与数据集市中,无论是数据的结构还是其内容都存在着显著的差别。 由于数据仓库中的数据是详细的、集成的和历史的,其中的数据量一般都 很大,而且随着时间的推移,增长速度也非常快。因此,建立数据仓库最好是 分步进行,否则建设周期将非常长。学术界乎公认建立数据仓库必须使最终用 户能尽快看到具体、明确的结果。当然,这并不意味着数据仓库的投资小,正 确的理解是,数据仓库一般是从小处着手,取得一定成效后再逐步完善。世界 上许多成功的1 0 0 0 g b ( 指用户数据量而非数据库大小) 级以上的数据仓库在开 始时的规模都不大,这就是所谓的“全盘考虑,逐步完善”的思想。 综上所述,数据集市与数据仓库具有以下区别: 1 数据集市面向部门级的应用,每个部门的结构和数据都不相同,而数 据仓库面向整个企业,结构统一。 2 数据集市和数据仓库中的数据模型不同,前者一般采用星形连接结 构,主题单一,后者则用第三范式为主,有许多复杂的相互关联的主题。 3 数据集市中的历史数据信息量比数据仓库少很多,数据集市中的数据 不够详细,而数据仓库中包含大量非常详细的历史数据。 4 数据集市适合于前端用户的访问分析处理,它面向较底层次的分析( 例 如o l a p 分析处理) ,而数据仓库适合于存储管理大量的数据它面向较高层次 和较广范围的分析( 例如数据挖掘) 。 5 数据集市中的用户类型( 较低层次) 和数据仓库中的用户类型( 较高层次) 差别很大。 6 。数据集市中的查询类型与数据仓库中的查询类型差别很大。 2 4 本章小结 本章主要介绍了有关数据仓库的基本理论。包括数据仓库的基本概念、数 据仓库的组成结构和数据仓库的三个关键问题。并对数据仓库的数据组织形式 的特点进行了系统的总结,并分析了组织形式的优缺点。最后对数据仓库的数 据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 25131:2025 EN Hardware for furniture - Strength and durability of hinges and their components - Stays and hinges pivoting on a horizontal axis
- 颈椎损伤患者的个案护理
- 公司节假日培训课件
- 梯子游戏故事案例解读
- 亮闪闪的微笑课件
- 《装在套子里的人》笔记课件
- 腹外疝的护理查房
- 事故安全宣传培训记录课件
- 皮肤科护士年终总结
- 电气工程师年终总结报告
- 美术微课课题立项申报书
- GB/T 46084-2025燃煤锅炉火焰温度图像检测技术规范
- 2025年贵州省毕节市辅警招聘考试题题库(含参考答案)
- 女职工法律培训
- 2025口腔执业医师考试仿真模拟试题及答案
- 2025年辅警考试公共基础知识真题库(含答案)
- 2025劳动合同范本下载
- 2025-2026学年高二上学期数学第一次月考立体几何卷全解析【测试范围:沪教版2020必修第三册第十章】(上海专用)
- 小学法律知识竞赛试题(附答案)
- 浙教版(2023)五年级上册信息科技 第1课 身边的算法 课件
- 造纸培训制浆造纸培训造纸纸病分析处理(“毛布”文档)共112张
评论
0/150
提交评论