




已阅读5页,还剩79页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库中多维数据存储和索引技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北 方 交 通 大 学 砚 、 位 论 文y5 8 6 1 6 8 摘要 数据仓库技术是数据库技术的一个研究方向,能够有效的管理传统 数据库产生的历史数据, 并向各种决策支持应用如联机分析处理、 数据挖 掘等提供有力数据支持, 适应了企业用户对数据深层次处理的需求。 数据 仓库及其相关技术十年来成为研究和应用的热点, 本文主要研究数据仓库 中多维数据存储实现和索引技术。 全文共分六章,各章的主要内容如下: 第一章介绍数据仓库的概念、主要特征及研究现状等,确定本文的研 究范围和基本框架。 第二章针对数据模型的一些基本概念如维、 数据立方体、 视图等进行 了 简单介绍, 对数据仓库中的数据集成、 m o l a p 进行了讨论,对基于w e b 的o l a p 设计和开发进行了初步探讨。 第三章对o l a p 中常用的 三种索引技术一b 一 树索引、r 一 树索引和位图 索引进行了分析和比较, 并着重介绍了几种改进的位图索引技术及其在数 据仓库中的主要应用。 第四章着重讨论多维数据的存储设计, 首 先介绍了多维数组的分块方 法, 接着详细阐述了块的存储实现方法一直接多维数组存储和压缩的多维 数组存储。 第五章简述了r o l a p 和m o l a p 中多维数据的存取路径, 介绍了物理块 的组织结构, 并考察多维数据上各操作的实现方法, 着重阐述了聚集结点 上的选择、插入( 替换) 、删除、整理四 种操作的实现步骤。 第六章结束语对全文进行了总结,并提出了在现有工作的基础上,我 们下一步将要做的工作。 关键词: 数据仓库, 联机分析处理,多维存储,物理块,逻辑块, 位图索引 未 经作 者、 勿 全 文 公 布 导 师问愈 北方交通大学硕 l 学位论文 ab s t r a c t d a t a w a r e h o u s i n g i s a n a t t r a c t iv e a s p e c t o f d a t a b a s e t e c h n o l o g i e s , w h i c h c a n m a n a g e t h e h i s t o r y d a t a e ff e c t i v e l y a n d s u p p l y d a t a f o r v a r i o u s d e c i s i o n s u p p o rt s y s t e m s s u c h a s o l a p ( o n l i n e a n a l y t i c a l p r o c e s s i n g ) a n d d m( d a t a mi n i n g ) , d a t a w a r e h o u s e a n d c o r r e l a t i v e t e c h n o l o g y b e c o m e h i t o f r e s e a r c h a n d a p p l i c a t i o n i n r e c e n t y e a r s , i n t h i s t h e s i s , w e d i s c u s s t h e s t o r a g e a n d i n d e x t e c h n i q u e s o f m u l t i - d i m e n s i o n s d a t a i n d a t a w a r e h o u s e . t h e t h e s i s c o n s i s t s o f s i x c h a p t e r s : c h a p t e r 1 r e v i e w s t h e c o n c e p t s , c h a r a c t e r i s t i c s a n d d e v e l o p m e n t h i s t o r y o f d a t a w a r e h o u s e , d e l i m i t s t h e t a s k a n d e l e m e n t a l fr a m e o f t h i s t h e s i s . i n c h a p t e r 2 , w e d e s c r i b e t h e b a s i c c o n c e p t i o n f o r d a t a m o d e l , s u c h a s d i m e n s i o n s . d a t a c u b e a n d v i e w , t h e n w e d i s c u s s t h e d a t a i n t e g r a t i o n a n d mol ar i n c h a p t e r 3 , w e a n a l y z e a n d c o m p a r e t h e a d v a n t a g e s a n d d i s a d v a n t a g e s o f t h r e e i n d e x s t r u c t u r e s t h a t c a n b e u s e d o n o l a p d a t a , i . e , b - t r e e i n d e x , r - t r e e i n d e x a n d b i t m a p i n d e x ,w e a l s o p ro p o s e s e v e r a l i m p r o v e d t e c h n i q u e s o f b i t m a p i n d e x t o o p t i m i z e q u e r ie s i n d a t a w a r e h o u s e i n c h a p t e r 4 , w e i n t r o d u c e t h e s t o r a g e o f m u l t i - d i m e n s i o n s a r r a y b y c h u n k s , a n d d i s c u s s t h e t w o s t o r e m e t h o d s f o r c h u n k s , m u l t i - d i m e n s i o n s a n d c o m p r e s s e d m u l t i - d i m e n s i o n s . i n c h a p t e r 5 , w e b r i e fl y d i s c u s s t h e i s s u e s o f a c c e s s p a t h o f m u l t i - d i m e n s i o n a l d a t a a n d t h e s t r u c t u r e o f p h y s i c a l c h u n k , i n t r o d u c e t h e im p l e m e n t a t i o n o f f o u r o p e r a t i o n s i n m u l t i - d i m e n s i o n s d a t a i .e , s e l e c t i o n , i n s e rt i o n , d e l e t i o n a n d c o o r d i n a t i o n . c h a p t e r 6 s u m m a r i z e s t h e t h e s i s a n d p u t s f o r w a r d s t h e f u r t h e r t as k o n t h e b a s i s o f e x i s t i n g w o r k . 北方交通大学硕士学位论文 k e y w o r d s mu l t i - d i me n s i o n s d a t a w a r e h o u s e , o n l i n e a n a l y t i c a l s t o r a g e , p h y s ic a l c h u n k , l o g i c a l c h u n k p r o c e s s i n g b i t m a p i n d e x 北方交通少 、 学硕 ! 学位论义 第一章绪论 1 . 1数据仓库产生背景 应用和技术的发展总是相互的,一 方面,现代社会的广泛数字化、电 子化, 提供了前所未有的、 有待加工和处理的原始数据。 就一个企业而台, 这些数据量大约s 年就可增长一倍, 这主要指企业日常运作中所产生的有 助丁企业决策的数据, 还不包括多种源于企业外部的各种有用数据 如门 j 场分析、 研究报告、 各种咨询机构所提供的各种报告等等。另外数据的 形式也突破了传统的数据和符号, 包括了原始商业文档、多种图形、图象 数据等等, 故许多企业、 部门并不是缺少数据, 而是常常被过分重复和不 一 致的数据所困 扰, 从而越来越难以 有效管理和存取这些数据, 使之用于 决策过程, 这种局面自 然导致一个强烈的要求, 要求有一种系统能存取这 些数据,并将它转化成一种可信赖的,有用的信息 另力面现代企业经常面临各种挑战,如何最人限度的挖掘各种毛 用信p . , 使企业在激烈的市场竞争中立于不败之地, 并获得最大的商业利 润, 也为计算机信息处理技术提出了新的要求, 例如, 如何支持数据集成, 因为在企业的发展过程中己建立了许多应用系统, 如库存管理、 财务及人 事管理等, 积累了大量的数据, 并且原有应用通常都是针对某个部门单独 设计的,这样,如何去运行新的应用,使这些应用可以用到已有的数据。 又如,企业除对日 常业务数据进行增、删、改等事务处理和简单汇总外, 管理者往往要综合利用历史和现有的各种数据进行综合分析。 山此,导致了数据仓库概念的提出和发展,数据仓库是计算机应用领 域里的一个崭新方向,己成为 9 0年代信息系统体系结构新的技术焦点, 它是来自多个数据源的数据的拷贝和集成, 从历史的角度来组织和存储数 据, 同时保证关键任务数据的完整性和安全性, 为企业发展提供有效的技 术支持 j c 方交通大学硕 1 学位论文 1 . 2数据仓库概念及主要特征 l 一 2 _ 1 什么是数据仓库 世界公认的数据仓库概念创始人、 美国著名信息工程学家w . h . l n m o n 在其q _ 程碑式的 b u i l d i n g t h e d a t a w a r e h o u s e )( ( 数据仓库) n 中 给 出 了 一 个 较 权 威 的 定 义 : 数据 仓 库 是 一 个 面 向 + -: 题 的 ( s u b j e c t - o r i e n t e d )、稳 定的 ( n o n v o l a t i l e ),与时 fu l 干 4h k的 ( t i m e v a r i a n t ) 、 集 成的( i n t e g r a t e d ) 、 能 够更好 地 支 持企 业 或组 织的决 策分析处理的数据集合川 , 用于支持经营管理中的决策制定过程。 1 . 2 . 2数据仓库的主要特点 数据仓库的特点如下: .支持管理决策 数据仓库是用于进行数据分析而不是数据获取的因此通常的数据库 设计原则并不一定适用。 数据仓库常使用某些数据冗余技术以简化数据模 型, 提高数据查询性能。 过去数据仓库常被认为只用于战略决策, 企业的 最高管理层是其唯一的使用者; 而现在也存在一种趋势, 较“ 低” 层次的管 理者也使用数据仓库来更好地了解本部门的运转状况。 .面向主题( s u b j e c t - o r i e n t e d ) 它是与传统数据库面向应用相对应的。 主题是一个在较高层次将数据 归类的标准, 每一个主题基本对应一个宏观的分析领域。 基于主题组织的 数据被划分为各自独立的领域, 每个领域有自己的逻辑内涵互不交叉 而 基于应用的数据组织则完全不同, 它的数据只是为处理具体应用而组织在 一起的。 应用是客观世界既定的, 它对于数据内容的划分未必适用于分析 所需。 . 集成的( i n t e g r a t e d ) 原始的操作性数据与 适合d s s 分析的信息性数据之间差别甚大。 因此, 在数据进入数据仓库之前, 必然要经过加工与集成。 这一步实际上是数据 仓库建设中最关键、 最复杂的一步。首先, 要统一原始数据中的所有矛后 之处,如字段的同名异义、异名同义、单位不统 一 、字长不致等等,还 要将原始数据结构做一个从面向应用到面向主题的迁移。 这就是数据仓库 北方交通大学硕 _ 学位论文 中的数据集成, 也就是常常提到的e i l 技术。 . 随时间 不断变化( t i m e - v a r i a n t ) 操作3 f j 数据不一定需要显式的时间属性,个应用系统如库存系统对 笔交易究竟何时发生并不感兴趣 而且, 操作型系统通常只存储 勺i i 数 据而右 一 数据仓库中,时间的作用大可 、 相同。 对数据进行趋势分析时, 总 要知道数据是什么时候的数据。 因此, 数据仓库中的所有数据都能和特定 的时i n j 或时间段发生联系。 此外, 数据仓库中不仅有当前数据, 还有历史 数据。 .稳定( n o n - v o l a t i l e ) 在爽型的操作型系统中,由十系统关注于日常的事务处理,因此数据 仅仅存在一 个相当短的时间如三到六个月。 而数据仓库的主要用途在于数 据分析, 需要比较不同时期的数据来分析变化趋势, 所以数据的生命周期 较长, 通 常为 至 少 两 年, 有的 甚 至 更 长。 (s t 数据仓库是现代计算机系统信息处理结构的热点, 它为企业提供了用 于进行管理分析的, 集成的历史数据,从而为支持信息处理 ( 特别是决策 支持系统) 提供了坚实的基础。 它还提供了从旧的非集成的应用系统中进 行全而集成的基础。 数据仓库是采用渐进的方式规划和建立起来的,需耍 很长的时间对那些对于信息处理和分析所必需的数据进行组织和存储, 基 于这些历史数据, 我们就可实现诸如趋势分析以及数据切片。 事实上, 构 造和维护一个数据仓库, 进而支持公司的管理决策是一个很有前途的应用 领域 1 . 3 从数据库到数据仓库 数据仓库与数据库( 主要指关系数据库) 是什么关系呢? 回想当初, 人们 固守封闭式系统是出于对事务处理的偏爱, 人们选择关系数据库是为了方 便 地 获得 信息。 我 们只 要翻 开c .j .d a t e 博 士的 经典 之 作 a n i n t r o d u c t i o n to d a t a b a s e s y s t e m s ) 便会发现: 今天 数据仓 库所要提供的 .i f 是当 年关系 数 据库所要倡导的。 然而, 由于关系数据库系统在联机事务处理应用中获得 的巨大成功, 使得人们己不知不觉将它划归为事务处理的范畴; 过多地关 注于事务处理能力的提高, 使得关系数据库在面对联机分析应用时又遇到 t 力吏通大学硕学位论义 了新的问题一一今天的数据仓库对关系数据库的联机分析能力提出了更 高的要求, 采用普通关系型数据库作为数据仓库在功能和性能上都是不够 的, 它们必须有专门的改进。因此, 数据仓库与数据库的区别不仅仅表现 在应用的力 一 法和目的方面,同时也 涉及到产品和配置上的不同。 以辨il l 的眼光看,数据仓库的兴起实际是数据管理的 一 种】 川归,是螺 旋式的_ l 升。 今天的数据库就好比当年的层次数据库和网状数据库白 们 而向事务处理; 今天的数据仓库就好比是当年的关系数据库, 它针对联机 分析。 所不同的是, 今天的数据仓库不必再为联机事务处理的特性而无谓 奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索 数据仓库的概念一经出现, 就首先被用十金融、电信、 保险等主要传统数 据处理密集型行业。 $外许多大型的数据仓库在1 9 9 6 - 1 9 9 7 年建介 _那么, 们么样的行业最需要和可能建立数据仓库呢?有两个基本条件: 第一,该 布 了 业有较为成熟的联机事务处理系统, 它为数据仓库提供客观条件; 第二, 该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。 数据仓库与传统的数据库系统相比有着本质的区别, 数据库是一种通 用平台, 建立 于严格的数学模型之上, 用来管理企业数据, 进行事务处理, 完成相关业务。 而数据仓库没有严格的数据理论, 更偏向于工程, 它不是 花钱就可购买到的成品, 而是企业 一 个日积月累的建立过程, 白 的应川对 象是不同层次的管理者, 它的数据源是多种数据源, 库中数据无须修改删 除,主要是大规模查询和分析,因此要求有大量的历史数据和汇总数据。 传统的数据库技术是以单一的数据资源, 即数据库为中心, 进ti事务 处理、 批处理、决策分析等各种数据处理工作, 主要的划分为两大类: 操 作型处理和分析型处理( 或信息型处理) 。 操作型处理也叫事务处理,是 指对数据库联机的日常操作, 通常是对一个或一组纪录的查询和修改, 主 要为企业的特定应用服务的, 注重响应时间, 数据的安全性和完整性;分 析型处理则用于管理人员的决策分析, 经常要访问大量的历史数据。 而传 统数据库系统优于企业的日 常事务处理工作, 而难于实现对数据分析处理 要求,已经无法满足数据处理多样化的要求。 操作型处理和分析型处理的 分离) 浅为必然。 传统的关系数据库的主要应用是联机事务处理( o l t p ) , 通常而向企0 ( 组织)的普通员丁,其重点在于完成日常的事务处理,在瞬间的时间里 北方交通大学硕 学位论文 给予用户响应。 关系数据库遵循一致的关系模型, 其中的数据以表格的方 式存储,并巨 能用统一的s q l语言 进行数据访问。 这种数据又被称为操 作型数据。 关系数据库能够处理大型数据库, 但不能将其简单地堆积就直接作为 数据仓库进行使用,这是因为数据仓库 与 传统的关系数据库存在很大差 异。 数据仓库是作为决策支持系统服务基础的分析型数据库, 用来存放大 容mep的只读数据, 为制定决策提供所需的信息, 主要的使用者是企 11 的管 理、决策人员。因此,数据仓库中的数据主要用于 分析, 我们称为分析型 数据。分析型数据与 操作型数据的区别见表 1 - 1 0 表1 - 1操作型数据和分析型数据的区别 f 操作型数据分析型数据 细 5 的 在存取瞬间是准确的 综合的,或提炼的 代表过去的数据 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合 s d l c完全不同的生命周期 对响应时间的要求高对响应时间的要求宽松 事务驱动分析驱动 兀余刑时常有兀余 ! 丽 1台 左用面向土题 一次操作数据量小一次操作数据114 1 人 为日常操作服务为管理者服务 访问频繁访问频度适中或很少 附: s d l c: s y s t e m s d e v e l o p m e n t l i f e c y c l e 鉴于以上各种因素, 为保证o l t y的性能, 必须将数据仓库一与传统操 作数据相分离。 用一 句话来说,传统的数据库是面向事务处理的,而数据仓库是而向 分析的。 北方交通 夫 学硕 学位论义 1 . 4 建立数据仓库的重要意义 传统的面向应用的数据库系统存在许多不足, 无法满足企业的实际需 要, 数据仓库的建立有助于 解决这些现实问题。 ( 1 ) 多数据源问题 实际的企业应用环境非常复杂,它们可能分布在不同的地理位置上, 使用不同的数据库和操作系统平台, 在普通的应用环境中很难将这些高度 分布的数据集中充分利用起来。在构造数据仓库进行数据转移的过程中, 则可通过数据转移工具将这些位于不同平台、 不同数据w,1 , 的数据1照 一 定的规则,集中在一个数据仓库中,达到充分利用多种数据源的日的 ( 2 ) 数据的不一致性问题 在企业环境中,由于应用不同造成的数据不一致性问题在实际工作 中显得异常突出,在传统的业务系 统( o p e r a t i o n a l s y s t e m s ) 中很难将这 些数据综合在一起进行分析和处理, 因而无法获得真实的分析结果。 在构 造数据仓库的过程中,将充分考虑数据的不一致性问题, 将业务系统中 从而保证了数据仓库中数据的完全一致, 这对做出正确决策显然是至关重 要的。 ( 3 ) 充分利用历史数据的问题 历史数据在企业决策中起着非常关键的作用, 因为只有充分利用历史 数据刁能准确地刘企业作各种趋势分析。 在传统的业务系统中, 历史数据 大都存储在磁带、 光盘等介质中, 要查询一次历史数据是非常费时、费力 的,况且每年的数据可能存储在不同的介质上, 在这样的系统上, 如果想 要进行数据分析将非常困难。 而数据仓库中存储的主要就是历史数据以及 大量的汇总数据, 故在数据仓库中作基于历史数据的趋势分析显然是非常 容易的。 ( 4 ) 分析的效率问题 决策分析主要是针对各种汇总数据进行的, 而生产业务系统中存储的 都是具体数据, 因而在进行数据分析时, 势必进行大量的计算, 因而效率 很低。而在基于数据仓库进行分析时,由于数据仓库存储的就是 一 些经过 预先计算的汇总数据,故分析效率会显著提高。 ( 5 ) 随机查询分析问题 比 万交通人学倾 卜 半位论义 1 . 5数据仓库的国内外研究现状 日前, 数据仓库技术己经受到了业界的广泛重视, 许多厂家都纷纷投 入到数据仓库解决方案的竞争中, 各大数据库厂商都提出了他们的数据仓 片解决1 t 案及相应的产 i iir i 其中包括 o r a c l e , i b m, i n f o r m i x , mi c r o s o ft 和s y b a s e 等。己 经开发或正 在开发的 一 些数据仓库产品有: i b m公司的 c d p系统、 o r a c l e 公司的o r a c l e 9 i , s y b a s e 公司的w a r e h o u s e s t u d i o和 s y b a s e i q , d e c 公司的r d b n m s 系 统 等。 (2 l3 这 些商 用的 数 据仓 库产品 通常使用关系模型, 而月 _ 从数据源到数据仓库的数据采集采用离线的批处 理方式,即只有自下而上 的加载操作而没有白上而下的抽取操作 除此之外, 针对数据仓库的建立与实施还出现了 各种各样的 1 : 具:1 , 建模l具: 此类工具用于定义数据仓库的模式和视图、 描述数据源、定义 数据仓库与 数据源的对应关系, 如s y b a s e 的p o w e r d e s i g n e r ; 2 , 数据净 化工具: 山于数据仓库的数据来源于不同的应用, 而不同的应用中可能有 许多操作不一致的地方,比如同名异义、 异名同义、 单位不同、 字氏不同 等,因此数据的规范化与校验对于保证数据仓库中数据的可信度非常k . 要, 此类工具的典型代表是q d b的a n a l y z e ; 3 、 数据抽取上具: 此类工 具司完成对多种数据源、 数据类型的加工, 并可按照数据仓库的结构进行 数 据的 分 布, 这 方面的 l 具 有e t i 的e x t r a c t , c a r le t o n 的p a s s p o r t , p r i s m 的w a r e h o u s e m a n a g e : 和p l a t i n u m的i n f o s u i t e , 它 们的 共同 特点是能自 动 进行抽取、 转换和综合, 将数据载入数据仓库中, 并且在具体操作时与元 数据紧密结合;4 、数据仓库管理工具:在数据仓库中,有一 种数据非常 重要, 那就是元数据,它存储了建立、使用数据仓库的所有必要信息,因 此一般是通过管理元数据来对数据仓库进行操作, 比较典型的如p l a t i n u m 的r e p o s i t o r y 和p r i s m的d ir e c t o r y m a n a g e r ; 5 、 联机分 析处理和数据挖掘 丁具: 这两类工具都是决策支持技术的最新成果, 它们共同的特点是都要 对多张关系表中的成千上力 一 条记录进行数据分析和信息综合, 做分片和分 块、句; 细化和向上综合的操作,并将结果用可视化方式显示。 为了开发更复杂的通用数据仓库系统, 学术界也在积极进行研究, 例 如s t a n f o r d 大学的w h i p s ( w a r e h o u s e i n f o r m a t i o n p r o j e c t a t s t a n f o r d ) 计划。 国内外许多大学的实验室和研究机构, 也都致力于数据仓库关键技术的研 北方交通人学硕 卜 学位论文 究互联网 卜 也有许多数据仓库的论坛。 数据仓库可 一 以集成企业范围内的数据。 数据仓库的建立便于支持企业决策 层复杂分析的需求。 由于这些优点与决策支持系统的需求基本一致, 因此, 数据仓库技术a 先在决策支持系统中得到广泛的应用。 数据仓库的投资回报 ( r o i )是惊人的。据 幸福杂志调查,1 u _ 界 5 0 0 强中8 5 %的企业已经建立或正在建设数据仓库, 数据仓库技术已成为 当今计算机技术发展的一大热点。1 9 9 7年,全球企业在数据仓库上的平 均投资回报率为4 0 1 %。巨大的投资回报率使得近两年来大量有关数据仓 库的 技 术 涌 现出 来 。 国内也有几个企业建立了自己的数据仓库,并获得了巨大的经济效 益,其中包括宝钢集团,大庆石油公司、中国银行和招商银行等。 1 . 6 论文的组织 本文共分六章,每一章是这样安排的: 第一章绪论。介绍数据仓库概念及主要特征、建、) _ 数据仓库 的意义、 数据仓库研究的国内外现状及应用情况、 本人的相关 u 作以 及本文的组织安排。 第二 章基本概念及理论。一4 先介绍数据仓库的体系结构,然 后针对数据模型的一 些基木概念如维、 数据立方体、 视图等进行了简 单介绍;最后是对数据仓库中的数据集成、o l a p进行了简述,对 o l a p的几种实现方法进行了比较。 第三章o l a p系统的索引技术。木章分析了o l a p系统中最 常用的三种索引技术, 其中重点介绍了位图索引技术中的编码位图索 引技术,简单介绍了利用位图索引求解成员查询的方法。 第四章多维数据的存储设计和实现。 这是木人毕业课题的重 要研究部分。 本章着重讨论多维数据的存储设计, 首先介绍了 多维数 组的分块方法, 接着详细阐述了块的存储实现方法- 一 直接多维数组 存储和压缩的多维数组存储。 第五章多维数据操作的实现。 本章简述了多维数据的存取路 径, 并考察了多维数据上各操作的实现方法, 这是本人毕业设讨 泊 勺 一 北万交通大 学硕 卜 学位论文 个重要部 分,着重阐述了 聚集结点上的选择、 插入( 替换) 、 删除、 整 理四种操作的实现。 第六章结束语。 对全文进行了总结,并提出了 课题下一步的 研究方向和 目标。 北方交r大学硕 卜 学 位论文 第二章 基本概念及理论 2 . 1数据仓库体系结构 本节首先介绍了数据仓库中的数据组织形式, 其次介绍数据仓库解决 案的体系结构,使读者对数据仓库从宏观 卜 有一 定了解。 2 . 1 . 1数据仓库中的数据 2 . 1 . 1 . 1数据的组织形式 这里简单介绍数据仓库中常见的数据组织形式: 1 . 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并 存储起来。 2 . 轮转综合文件: 数据存储单位被分为日、周、月、年等儿个级别。 在一个星期的七 天中, 数据被逐一记录在每日数据集中; 然后, 七犬的数 据被综合并记录在周数据集中; 接下去的一个星期, 日数据集被重新使用, 以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月 数据集。 以 此类推。 轮转综合结构千 分简捷, 数据量较简单堆积结构大大 减少当然, 它是以损失数据细节为代价的, 越久远的数据, 细节损大越 多。 3 . 简化直接文件: 它类似于简单堆积文件, 但它是间隔一定时间的数 据库快照,比如每隔一星期或一个月作一次。 4 . 连续文件:通过两个连续的简化直接文件, 可以生成另一种连续文 件, 它是通过比较两个简单直接文件的不同而生成的。当然, 连续文件同 新的简单直接文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠 “ 表”这 种最基本的结构。 如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道, 数据仓库的数据是 来自o l t p的数据库中,问题是我们如何知道究竟哪 il l 数据是在 卜 次追加过程之后新生成的。常用的技术和方法有: . 时标方法: 如果数据含有时标, 对新插入或更新的数据记录,在 记录中加更新时的时标, 那么只需根据时标判断即可。 但井非所有 一 的数据 北方交通大学倾 卜 7 = 位论文 库中的数据都含有时标。 . d e l t a 文件: 它是由应用2 仁 成的,记录 j 应用所改变的所有内 容。 利用d e i i a文件效率 很高i : 避免了扫描整个数据库, 但 讲 的问 题是2 仁 成d e l t a文件的应用并不普遍。 此外, 还有更改应用代码的方法, 使得应用在生成新数据时可以自 动将其记录下来。 但应用成千匕 万, 且修 改代码 卜 分繁琐,这种方法很难实现。 . 前后映像文件的方法: 在抽取数据前后对数据库各作一次快照, 然后比较两幅快照的不同从而确定新数据。 它占用大量资源, 对性能影响 极大,因此并无多大实际意义。 .日志文件: 最可取的技术大概是利用日志文件了,因为它是d b 的固有机制,不会影响 o up的性能。同时,它还具有 d e l t a文件的优 越性质,提取数据只要局限日 志文件即可,不用扫描整个数据库。当然, 原来门志文件的格式是依据 d b系统的要求而确定的, 它包含的数据对 于 数据仓库而舀 可能有许多冗余。比如, 对一个记录的多次更新,日态 文件 将全部变化过程都记录下来; 而对于数据仓库, 只需要最终结果。 但比较 而言,日志文件仍然是最可行的一种选择。 2 . 1 . 1 . 2数据的存储管理 数据仓库的真正关键是数据的存储和管理。 数据仓库的组织管理方式 决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形 式。 要决定采用什么产品和技术来建立数据仓库核心, 则需要从数据仓库 的技术特点着手分析 数据仓库遇到的第一个问题是对大量数据的存储和管理。 这里所涉及 的数据量比传统事务处理大得多, 且随时间的推移而累积。 从现有技术和 产品来看,只有关系数据库系统能够担当此任。关系数据库经过近 3 0年 的发展, 在数据存储和管理方面己经非常成熟, 非其它数据管理系统可比。 日前不少关系数据库系统己支持数据分割技术, 能够将一个大的数据库表 分散在多个物理存储设备中, 进一步增强了系统管理大数据量的扩展能 力。采用关系数据库管理数百个g b甚至到t b的数据己是一件平常的事 情。一 些厂商还专门考虑大数据量的系统备份问题, 好在数据仓库对联机 备份的要求并不高。 数据仓库要解决的第二个问题是并行处理。 在传统联机事务处理应用 北方交通大学倾 学位论文 中, 用户访问系统的特点是短小而密集; 对于一个多处理机系统来说, 能 够将用户的请求进行均衡分担是关键, 这便是并发操作。 而在数据仓库系 统中,用户访问系统的特点是庞大而稀疏,侮一个查询和统计都很复杂 但访问的频率并不是很高。 此时系统需要有能力将所有的处理机调动起来 为这个复杂的查询请求服务, 将该请求并行处理。因此,并行处理技术 在数据仓库中比以往更加重要。 大家可以注意以下, 在针对数据仓库的t p c - d基准测试中, 比以往增 加了 一 个单用户环境的测试, 成为“ 系统功力” q p p d ) 系统的并行处 理能力对q p p d的值有重要影响。 h 前, 关系数据库系统在并行处理方面 已能做到对查询语句的分解并行、 基于数据分割的并行、以及支持跨平台 多处理机的群集环境和 mp p环境,能够支持多达上百个处理机的硬件系 统并保持性能的扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。 这个问题 上 要针 对关系数据库而台, 因为其它数据管理环境连基本的通用查询能力都还不 完养。在技术上, 针对决策支持的优化涉及数据库系统的索引机制、查询 优化器、 连接策略、 数据排序和采样等诸多部分。 普通关系数据库采用 b 树类的索引, 对于性别、年龄、 地区等具有大量重复值的字段儿乎没有效 果。 而扩充的关系数据库则引入了位图索引的机制,以二进制位表示字段 的状态, 将查询过程变为筛选过程, 单个计算机的基本操作便可筛选多条 记录。由于数据仓库中各数据表的数据量往往极不均匀, 普通查询优化器 所得出得最佳查询路径可能不是最优的。 因此, 面向决策支持的关系数抓 库在查询优化器 卜 也作了改进, 同时根据索引的使用特性增加了多重索引 扫描的能力。 以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作, 而连接操作对于关系数据库来说是一件耗时的操作。 扩充的关系数据库中 对连接操作可以做预先的定义, 我们称之为连接索引, 使得数据库在执行 查询时可ft .接获取数据而不必实施具体的连接操作。 数据仓库的查询常常 只需要数据库中的部分记 录,如最大的前5 0 家客户,等等。普通关系数 据库没有提供这样的查询能力, 只好将整个表的记录进行排序, 从而耗费 了大量的时间。决策支持的关系数据库在此做了改进,提供了这一功能。 此外, 数据仓库的查询并不需要像事务处理系统那样精确, 但在大容量数 比 方交通大学 ii i 卜 学位论文 据环境中需要有足够短的系统响应时间。 因此, 些数据库系统增加了采 样数据的查询能力,在精确度允许的范围内,大幅度提高系统查询效率 总之, 将普通关系数据库改造成适合担当数据仓库的服务器有许多工 作可以做, 它己成为关系数据库技术的一个重要研究课题和发展方1-6 1 .丁 见, 对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术 措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据 库在数据仓库领域遇到的最严峻的挑战之一。 用户在使用数据仓库时的访 问方式与传统的关系数据库有很大的不同。 对于数据仓库的访问往往不是 简单的表和记录的查询, 而是基于用户业务的分析模式,即联机分析。 如 图2 - 1 所示, 它的特点是将数据想象成多维的立方体, 用户的查询便相当 于在其中的部分维上施加条件, 对立力 一 体进t i 一 切片、 分割, 得到的结果则 是数值的矩阵或向量,并将其制成图表或输入数理统计的算法。 图 2 - 1联机分析数据处理示意图 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库 发展的早期,人们发现采用关系数据库去实现这种多维查询模式非常低 效、 查询处理的过程也难以自动化。 为此, 人们提出了多维数据库的概念。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统, 它不 是关系型数据库, 在使用时需要将数据从关系数据库中转载到多维数据库 中t可访问。采用多维数据库实现的联机分析应用我们称之为mo l a p . 多维数据库在针对小型的多维分析应用有较好的效果, 但它缺少关系数据 库所拥有的并行处理及大规模数据管理扩展性, 因此难以承担大型数据仓 库应用。 这样的状态直到“ 星型模式” 在关系数据库设计中得到广泛的应 用刁 彻底改变。 几年前, 数据仓库专家们发现, 关系数据库若采用“ 星型 模式”来组织数据就能很好地解决多维分析的问题。 “ 星型模式”只小过 是数据库设计中数据表之间的一种关联形式, 它的巧妙之处在于能够找到 一个固定的算法,将用户的多维查询请求转换成针对该数据模式的标准 北方交通大学硕十学位论文 s q l . 语句, 而且该 语 句是最 优化的。 “ 星型模式”的 应用为关系数据 库在 数据仓库领域打开绿灯。采用关系数据库实现的联机分析应用称为 r o l a p o日前,大多数厂商提供的数据仓库解决力案都采用 r o i ap . 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策 支持扩充的并行关系数据库将是数据仓库的核心。 在市场上, 数据库厂商 将成为数据仓库的中坚力量。 2 一 川 一 3数据的集成 数据仓库中的数据是以面向主题的方式组织,而业务数据库的数据总 是围绕着一个或儿个业务处理流程, 因此, 数据从业务数据库到数据仓库 不是简单的复制过程而需要十分复杂的数据处理,我们称之为数据集成。 数据集成问题是建立数据仓库过程中的重要问题之一,也是数据仓库 开发的主要部分。 d s s 需要集成的数据, 而当前绝大多数企业内 数据的真 正状况是分散而非集成的。 把这些数据从操作型环境载入到数据仓库环境 时, 如果不进行集成就没有意义。 全面而正确的数据是有效的分析和决策 的首 要前提,相关数据收集得越完整,得到的结果就越可靠。 数据集成的工作可以笼统的分割为数据抽取 ( e x t r a c t ) 、转换 ( t r a n s f o r m a t i o n ) 和加载 ( l o a d i n g ) , 即 所谓的e t l . . 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据 环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱 机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、 复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与 联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个 抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至 关重要。 在技术发展上,数据抽取所涉及的单个技术环节都己相对成熟,其中 有一些是躲不开编程的, 但整体的集成度还很不够。目前市场上所提供的 大多是数据抽取工具。 这些工具通过用户选定源数据和目 标数据的对应关 系, 会 自动生成数据抽取的代码。 但数据抽取工具支持的数据种类是有限 的; 同时数据抽取过程涉及数据的转换, 它是一个与实际应用密切相关的 部分, 其复杂性使得不可嵌入用户编程的抽取工具往往不能满足要求。l 7 北方交通大学u ! 笋位论文 此, 实际的数据仓库实施过程中往往不一定使用抽取工具。 整个抽取过程 能否因工具的使用而纳入有效的管理、 调度和维护则更为重要。 从市场发 展来看, 以数据抽取、 异构互连产品为主项的数据仓库厂商一般都很有可 能被其它拥有数据库产品的公司吞并。 在数据仓库的世界里, t洲门 只能成 为辅助的角色。 . 数据的转换 为了保证转换到数据仓库的数据的正确性,就必须建立不同源字段到 数据仓库字段的映射。 数据转换包括字段类型的转换、 字段值的修改、 字 段的筛选等。 同时, 山于数据仓库不需要在线事务处理系统中的所有信息, 所以可以对数据进行缩减。 转换过程是和数据清理分不开的,转换应该包括数据的清理过程 随着电子数据的不断累积, 人们越来越希望从大量的数据中提取出有 用的信息供决策使用, 但是由于各种各样的原因, 如数据输入错误、 不同 来源数据引起的不同表示方法, 数据间的不一致等, 导致现有的数据中存 在这样或那样的 脏数据( 即存在数据质量问 题) 。 它们主要表现为: 拼写问 题、 扫印错误、不合法值、空值、 不一致值、简写、同一实体的多种表示 ( 重复) 、不遵循引用完整性等。由于 “ 垃圾进、垃圾出” ,所以,在数据 仓库应用系统中,必须对数据进行清理。 满足数据质吊 要求的数据 2 - 2数据清理原理 数据清理应该是一个减少错误和不一致性、解决对象识别的过程。数 据清理包括确认数据的正确性, 校正不正确的数据, 然后以 有效格式转换 为正确数据。这些数据可以 通过广泛的脚本( 在数据集成过程中根据主题 的信息自动生成的各维的查询函数脚本代码和自动生成的用于实现进行 北方交通人学硕 卜 7 位论交 转换、清理和装载的存储过程的脚本代码) 处理语舀 进行校1 眨 数抓清理 原理: 利用有关技术如数理统计、 数据挖掘或预定义的清理规则将脏数据 转化为满足数据质量要求的数据 ( 如图2 - 2 ) . . 数据的加载 经过抽取、清理和转换以后数据需要装载到数据仓库中。此时仍 然可能需要其它的处理工作, 如完整性约束检测; 排序:用于 建立存储在 数据仓库中的派生数据表的汇总、 聚合和其它计算; 建立索引和其它存取 途径:以及划分数据生成多个目 标存储区。 批量装载工具就是具有代表性 的用于装载的工具。 除了搬迁数据到数据仓库中以外, 数据装载1 _ 具必须 保证系统管理员能对装载状态进行监督, 可以取消、 挂起和继续一个装载 过程,在装载过程失败后,重新启动该过程时,不会失去数据的完整性。 数据仓库的装载工具必须处理比操作型数据库量大得多的数据。 般, 能u _ 数据仓库脱机进行数据刷新的时间窗口介一 般在晚土) 是很小的。 连续式装载可能需要很长的时间, 比如, 装载t b级的数据可能需要几周, 甚至儿个月。因此, 一般情况下, 需要采用流水线式和分段式的并行数据 装载机制。 进行一次完整的装载具有一个优点, 就是它可以作为 一 个建立 一个新数据库的,很长的批处理式事务来对待,当建立过程还在进行时, 当前的数据库仍然可以支持查询;当装载业务提交时,当前数据库被新的 数据库所代替。 采用定期性的检测点,能确保当装载出现失败的时候,整 个过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度儿童教育机构手工制作保育员专业聘用协议
- 2025年深部地质钻探技术研发与培训服务合作协议
- 二零二五年度环保型纸箱材料创新研发与规模化生产合作协议
- 2025年企业核心技术人员保密协议与市场禁入合同
- 2025年企业财务审计专用高速复印机购置与维护服务合同
- 2025年珠宝饰品电商平台供应商合作协议
- 2025年生物科技产品全国市场独家代理权合同
- 2025年企业营销力提升与员工综合素质培养服务合同
- 2025年生态公园景观工程安全文明施工与生态环保质量控制协议
- 2025年智能物流中心电子商务仓储全面外包服务合同
- 巡察整改工作课件模板
- 2025年事业单位工勤技能-河南-河南农机驾驶维修工一级(高级技师)历年参考题库含答案解析(5套)
- 2025年幼儿园教师岗位聘任协议(含资格认证及薪酬激励)
- 初中地理学科课程规划方案
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 【公开课】社区教案
- 平面磨床操作时注意事项
- GB/T 29651-2013锰矿石和锰精矿全铁含量的测定火焰原子吸收光谱法
- GB/T 13275-1991一般用途离心通风机技术条件
- 核心素养下的高考语文命题评价体系讲座课件
- 高一英语必修一试卷(含答案)(适合测试)
评论
0/150
提交评论