




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)数据仓库中位图索引技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 数据仓库技术是数据库技术的一个研究方向,能够有效的管理传统数据库产 生的历史数据,并向各种决策支持应用如联机分析处理、数据挖掘等提供有力的 数据支持,适应了企业用户对数据深层次处理的需求。数据仓库是一个环境,而 不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操 作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型数据集成到 统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是 为了让用户更快、更方便的查询所需要的信息,提供决策支持。数据仓库及其相 关技术十年来成为研究和应用的热点。 为提供有效的数据访问,大部分数据仓库系统支持索引结构。目前数据仓库 中常用的索引结构主要有三种,b 树索引、r - 树索引和位图索引。与b 树索引 比较起来,位图索引只需要更少的存储空间,而且与b 树索引相比,位图索引 将比较、连接和聚集都变成了位逻辑运算,大大减少了运行时问,从而得到性能 上的极大的提升。 但是很多属性维是分层次的,如时间维属性,分年、月和日三个层次。现存 的位图索引往往是建立在某个单一层次上的,没有充分考虑维属性具有层次性这 种语义特性,每次只能查询某一层次的记录,既浪费时间也很不方便:没有充分 利用维层次特性对事实数据进行快速的分组聚集计算;也没有充分利用维层次编 码前缀,来进一步提高分组聚集的操作效率。 本文考虑充分利用维属性具有层次性这个特性对维成员进行编码,生成各 个成员的维层次编码,用来代替维表中的原关键字,实现维关键字的压缩;通过 这种比维表外关键字小得多的维层次编码来代替事实表中的维表外键,快速检索 出与检索关键字相匹配的维层次编码,来求得所有维层次属性的查询范围;通过 维层次编码及其前缀,可以将o l a p 查询中大量的多表连接转换为在维上进行范 围查询,大大减少和简化了事实表与维表之间的多表连接,利用维层次编码前缀 和分组属性编码就可以直接对事实表中的记录进行分组聚集计算,将结果簇集存 储到外存中,大大减少了i o 访问开销,从而提高了o l a p 查询效率。 关键字:数据仓库;位图索引;属性维;维层次;0 l a p 山东大学硕士学位论文 a b s t r a c t d 砒aw a r e h o 吣ei so n eo fm er e s e a r c h 娜i c si i ld a l a b 鹤et e c h l l i q u e i tc 锄 m 锄a g et l l el l i s 耐c a ld a t ap r o d u c e db y 仃a d i 矗o n a ld a t a b a s ee 虢c v e l y ,舭dt op r o v i d e a p p l i c a t i o n sf o rv a r i o 璐d i s i o l l m a l ( i n g s 、 i i 血c o n 呐n c i | l g 胁s u p p o f t s ,8 u c h 雒 0 1 1 l i n ea n a l y s i s 锄dp r o c 器s i n 岛d a | am i i l i r 喀锄ds o i tc a ns a t i s 母b u s i n 船s 锄t e f p r i s ec u s t o m e 略w h oh a v e 血er e q l l i r 哪e n to fh 觚d l i i 喀d a _ t ad e e p l y d a 诅 w 疵h o 璐e i s 嘶啪m t ,r 础e r t h 觚ap r o d u 鸭锄d i t p d a “d 嚣u 硌谢t h 咖n o w 锄di nh i s t o r yf o rd e d s i o l l - m a l 【证g s ,w 圭l i c ha 协。击伍c u i t 幻g e ti l l 订a d i 缸o n a i d 嘲l b 船e d a t aw 蹦,h o l i s e1 k l l i l o l o g yi sag 盯a ld e 觚d o no fa l ll 【i n d so f t e c h n o l o 百髂鲫dm o d l l l e s ,w k c hc 锄p r o v i d et 量l en m c d o i lo fi n t 删n go p e 谢n g d 砒ai 哟m i 6 e d 舶撕r o n m 蜘tf o rd e d s i 一删l l 【i n g sd a 土aa c c 鼯se m c i e n t l yt om a k e 啦e 陪q u e f y 锄do b t a i l lm en e c e 鹊a r yi n f o m 谢o n 肌ds u p p o nd e c i s i o n m 灿g sm o r e q 血c k l ya n d n v 朗i 髓_ i l y d a t aw 疵b o 璐e 锄do m e rr e l a 把dt e d l l i m l o 西e sb e m e f o c l l si l lr e a r c h 锄d 印p l i c 撕d l | r i n gt l i 酷ey e a r s f b re f f 硎v ed a 土a c 铺s ,m o s td a 主aw a r e 锣s 把l ms u p p o r ti i l d 懿s t r u 呶啪, n o 僦岫s ,t l l e r ea 增m r k i i l d so fi n d e x s t r u c t i i r 髓i i l a i l l l y 璐篇i nd 砒a b a ,s u c h 邵 b 一仃e e i n d e 墨r - 饥j ei n d e x 缸db i t l i l a p i n d e xc o f 印a r 甜w i t | 1b 一慨i n d e 墨 b i n r i a p i n d e xn e e d sl e 辐s t o r a g e 印a c e ,缸di tc h 锄g 器c o m p a r i s o l l c n e 而锄d i n t 唧d o n i n 蕾d l o 画c o p e r 甜s ,砌c hc 锄r 耐u m e o p e r a 6 n g t i m e a l o t i n o r d e r t o p r o m o t el l l ep e 面珊觚c e 掣e a t l y h o w e v e r m o s ta t 盯i b u t ed i m 即菌o n sm u s tb ei a y e r e d ,鲫c h 鹪矗m e d i m e n s i 甜仃i b m 部,i tc a l lb el a y 部e di i l t oy e a r - l e v e l ,m 彻m - l e v e l 舭dd 可- l e v d b i 协l 印i 堇l d e x a v a i l a b l ei s 咖a l l ye s t a b l i s h e di i iac e n a _ i i l 如百el “d ,谢t i l o l i t i d e r i i 坞l l l e s 鲫锄t i c sc h 删e r i s t i c 血a td i m 即s i o n 砌b l i t 船h a v et l l el 掣e 巧a n de a c ht i m ew e 彻崎g e tm c o r d so fo n e 丘x e dl 夥e r w t l i c hl e a d st ot i m ew a s t e 锄do p e 枷 j l l c o n v e 置1 i e n c e a n di tn e i t l l e ri g 玎o r 嚣t h e0 1 ) e 删o no f f a 对g | o l l p 抽g 粕d 瓤_ 咖l l l 撕n g c o m p u t i i 培f b rc 嬲ed a t a ,n o rn e g l e c 忸由om a k ec o d i n gp 趟xa c c o r d i n gt o 曲n 蓟- l e 、,e lc h 撇r i s 石c s ,砌c hi n d u c 豁锄i i l e m c i c yi ng r o u p i n g 锄d c u m l l l a 血go p 盯a t i o n s t i l i sm e s i sm a i l l l yp r e s 即峪am e t l l o dt oc o d ef o rd i m 肌s i o nm 锄b e 巧b 勰e d 1 h ec h a 删e r i s t i co fd i m 髓s i a t 仃i b u t eh 椭gl 锣e r s ,i l lo r d e rt op m 血d i m e n 氲 n 山东大学硕士学位论文 l 硝e 培d ef o rm u m b e r s ,i nr 印l a c eo fm eo r i g i i l a lk e yw o r d s o fd i m 锄菌诅b l et o i m p l 锄tm eo b j e 嘶v eo fd i m e n s i k e yw o r d sc o m p r 髓s i w et a k et l l ed i m 铡i s i l g y 盯c o d ew i l i c hi si n u c l ls i n a l l e rt l l 肌d i m e n s i o nt a b l eo l i t 盯k e yw o r d st om a l 【el h e f i l c t i o no f 咧:r i e v i n gt 1 1 ed i m e l l s i l 掣盯d eq 伍c l c l y ,w l l i c l l 耻n c h 鼯t i l er e l 五吖a l k e y w o r 出,t 0 出a i l l t l l e q u e 黟瑚g eo fa i l t l l ed i m 肌s i l 掣e ra t 仃i b l i t 舒w ec 锄a l 舢e r tal a r g en 啪b 盯o f m l l l d - t 出l ec 咖e c t i o n si i l0 :l a pq u 啊yi n t os p eq 珂i n d i m e n s i ,嬲t or e d u c ea n ds i m p i i 锣l 量l em i d t i t a b l ec 0 衄e c l i o n sb e t 、】l 旧锄c 勰e t a b l e 锄dd i m e n s i o nt a b l es i g n i f i c 越n y w ec 锄m a k e 掣d u p i n g 锄da c c 啪i l l 撕n g c o r 印砸n gf o rt l l e 麒;o r d so fc 勰e t a :b l ed i r t i y c o r d i n gt 0d i m e l l s i o nl 够e r 枷b l i t 器c o d i n gp 蹦x 锄d 掣o u p i i l ga t t 曲咖d e ,龇ds a v e1 l l er 鹤l l l t so fc l u s t e ri n o l 鹏rs t o r a g e ,私t or e d u t l l ec o s to f 哟c 器s 伊朗l l y ,t 1 1 e r e b yi i l c r e 鹊i n gt l l e e 街c i e n c yo f l h eo l a pq u 面e s 1 e y w o r d s :d a t aw a r e h o u 鼯;恤a pi i i d 虹;m m 蛐s i o na t t r i b u t e ;d i m 蛐s i 叫 l a y e r ;o l a p i 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:查蠢塾 日期: 1 2 :庄: 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:金杰垒一导师签名:龇日 期:翌:丝 山东大学硕士学位论文 1 1 研究课题背景 第1 章绪论 计算机发展的早期,人们已经提出了建立数据仓库的构想。“数据仓库”一 词最早是由b i l li 濉o n 先生提出的,其描述如下:数据仓库是为支持企业决策 而特别设计和建立的数据集合。企业建立数据仓库是为了填补现有数据存储形式 已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数 据和决策支持型数据的处理性能不同。 企业在它们的事务操作中收集数据。在企业运作过程中:随着定货、销售记 录的进行,这些事务型数据也连续的产生。处理决策支持型数据时,一些问题经 常会被提出:哪类客户会购买哪类产品? 促销后销售额会变化多少? 价格变化后 或者商店地址变化后销售额又会变化多少呢? 在某一段时间内,相对其它产品来 说哪类产品特别容易卖呢? 哪些客户增加了他们的购买额? 哪些客户又削减了 他们的购买额呢? 为便于作出决策,数据仓库中的数据围绕诸如顾客、商品、供应商和活动等 主题组织。数据存储是从历史的角度( 如过去的5 1 0 年) 提供信息,并且是汇 总的。例如,数据仓库不是存放每个销售事务的细节,而是存放每个商店,或汇 总到较高层次的每个销售地区每类商品的销售事务汇总。 对于数据仓库中的海量数据,为了提供有效的数据访问,需要使用索引技术。 目前数据仓库中常用的索引结构主要有三种,b 树索引、r - 树索引和位图索引。 与b t r e e 索引比较起来,位图索引只需要更少的存储空间,而且与b t r 索引 相比,位图索引将比较、连接和聚集都变成了位算术运算,大大减少了运行时间, 从而得到性能上极大的提升。 现存的位图索引一般是建立在属性的某一个层次上的。但是现实中,我们往 往不只是对一个层次的值感兴趣,需要查询多个层次的度量,现存的索引需要 多个位图索引间的转换,不仅要花费时间代价而且使用起来也不方便,针对这个 山东大学硕士学位论文 问题,本文提出复合编码索引的思想,把各个层次复合到一个索引上,每次都可 以随意查询任何层次的记录,减少了时间花销。 1 2 研究课题的目的及意义 考虑维属性具有层次性这种语义特性,利用维层次特性对事实数据进行快速 的分组聚集计算。考虑利用维层次编码前缀,来迸一步提高分组聚集的操作效率。 本文考虑充分利用维属性具有层次性对维成员进行编码,生成各个成员的维 层次编码,来代替维表中原关键字,实现维关键字的压缩;通过这种比维表外关 键字小得多的维层次编码来代替事实表中的维表外键,快速检索出与检索关键字 相匹配的维层次编码,来求得所有维层次属性的查询范围,提高检索速度,大大 减少和简化事实表与维表之间的多表连接,减少i o 次数,大大提高o l a p 查询 效率。 自9 0 年代,美国著名信息工程科学家w h h n o l l 提出数据仓库概念以来, 在国外数据仓库技术已经得到较为广泛的应用。在国内虽也有些案例,但与国外 相比,其实际效益、用户的满意程度都相去甚远。本研究希望通过对位图索引技 术的研究,对数据仓库技术有一定的推动作用。 1 3 国内外研究现状 目前,数据仓库技术已经受到了业界的广泛重视,许多厂家都纷纷投入到数 据仓库解决方案的竞争中,各大数据库厂商都提出了他们的数据仓库解决方案及 相应的产品,其中包括0 r a c l e 、i 蹦、i n f o r m i x 、m i c r o s o f t 和s y b a s e 等。已经 开发或是正在开发的一些数据仓库产品有:i b m 公司的c d f 系统、o r a c l e 公司的 0 r a c l e 9 i 、s y b a s e 公司的w a r e h o u s es t u d i o 和s y b a s ei q 、c e c 公司的r d b s 系统等。这些商业的数据仓库产品通常使用关系模型,而且从数据源到数据仓库 的数据采集采用离线的批处理方式,即只有自下而上的加载操作而没有自上而下 的抽取操作。 除此以外,针对数据仓库的建立与实施还出现了各种各样的工具:1 、建模 工具:此类工具用于定义数据仓库的模式和视图、描述数据源、定义数据仓库与 数据源的对应关系,如s y b a s e 的p o w e rd e s i g n e r :2 、数据净化工具:由于数 2 山东大学硕士学位论文 据仓库的数据来源于不同的应用,而不同的应用中可能有许多操作不一致的地 方,比如同名异义、异名同义、单位不同、字长不同等,因此数据的规范化与校 验对于保证数据仓库中数据的可信度非常重要,此类工具的典型代表是q d b 的 a i l a l y z e ;3 、数据抽取工具:此类工具可完成多种数据源、数据类型的加工,并 可按照数据仓库的结构进行数据的分布,这方面的工具有e t i 的e x t r a c t 、 c a r l e t o n 的p a s s p o r t 、p r i 舳的w a r e h o u s em a n a g e r 和p l a t i n 岫的i n f o s u i t e , 它们的共同特点是能自动进行抽取、转换和综合,将数据载入数据仓库中,并且 在具体操作时与元数据紧密结合;4 :数据仓库管理工具:在数据仓库中,有一 种数据非常重要,那就是元数据,它存储了建立、使用数据仓库的所有必要信息, 因此一般通过管理元数据来对数据仓库进行操作,比较典型的如p l a t i n 岫的 r e p o s i t o r y 和p r i 锄的d i r e c t o r ym a n a g e r ;5 、联机分析处理和数据挖掘工具: 这两类工具都是决策支持技术的最新成果,它们共同的特点是都要对多张关系表 中的成千上万条记录进行数据分析和信息综合,做分片和分块、向下细化和向上 综合的操作,并将结果用可视化方式显示。 国内也有几个企业建立了自己的数据仓库,获得了巨大的经济效益,其中包 括宝钢集团,大庆石油公司、中国银行和招商银行等。 1 4 本文组织 本文通过对数据仓库中索引技术的研究,发现位图索引相对其他索引具有 很大的优势,可以减少对空间的使用量,而且通过位的逻辑运算实现查找操作, 减少了时间的使用量。但是目前位图索引存在不足,没有充分考虑属性维具有层 次性的特点,本文通过把属性维的各个层次集中到一个位图上来,实现各层次的 同时查询。 论文的具体组织方式如下: 第一章绪论,简要介绍了研究课题背景、研究目的和意义以及国内外研究现 状。 第二章介绍了数据仓库中的基本概念和理论。 第三章分析研究了数据仓库中的各种索引技术和它们的优缺点。 第四章是分层次属性维上位图索引的研究,提出把多个属性维层次聚集到一 3 山东大学硕士学位论文 个位图上,通过编码方法生成各个成员的维层次编码,来代替维表中原关键字, 实现维关键字的压缩,提高检索速度,大大减少和简化事实表与维表之间的多表 连接,提高o l a p 查询效率。 第五章结束语,对本文进行了总结并对研究未来作出了展望。 4 山东大学硕士学位论文 第2 章基本概念及理论 2 1 数据仓库的概念及主要特征 2 1 1 数据仓库的概念 世界公认的数据仓库系统构造方面的领头设计师、美国著名信息工程学家 w h 1 姗o n 在其里程碑式的b u i l d i n gt h ed a t aw a r e h o u s e ) ( 数据仓库) 中 给出了一个较权威的定义:数据仓库是一个面向主题的( s u b j e c t o r i e n t e d ) 、非 易失的( nv 0 1 a t i l e ) 、时变的( t i m ev a r i a l l t ) 、集成的( i n t e g r a t e d ) 、能够 更好地支持企业或组织的决策分析处理的数据集合,用于支持经营管理中的决策 制定过程。这一定义主要是通过数据仓库中所包含的数据的特性来特征化描述数 据仓库。它认为数据的特征是数据仓库最本质的特征。 从应用的角度,我们更关心它用于何处并发挥何种作用。因此,可以描述如 下:由于更重视信息的价值,所以数据仓库技术是作为一种数据战略使用的方法 产生出来,它不等同于决策支持系统。它通过将大量分散的操作型数据归一处理、 转换、集成、聚集,提高数据的信息附加值,从而成为可提高对d s s 和e i s 应用 支持的数据信息平台。 概言之,数据仓库是一种语义上一致的存储,它充当决策支持数据模型的物 理实现,并存放企业战略决策所需的信息。数据仓库也常常被看作一种体系结构, 通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分 析报告和决策制定【1 。 2 1 2 数据仓库拥有的四个特点 上述简短而又全面的定义指出了数据仓库的主要特征。四个关键词,面向主 题的、非易失的、时变的、集成的,将数据仓库与其他数据存储系统( 如关系数 据库系统、事务处理系统和文件系统) 相区别。 山东大学硕士学位论文 ( 1 ) 面向主题的。操作型数据库的数据组织面向事务处理任务,各个业务 系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是 一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主 题通常与多个操作型信息系统相关。 ( 2 ) 非易失的。操作型数据库中的数据通常实时更新,数据根据需要发生 变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据 查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据 仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。 ( 3 ) 时变的。操作型数据库主要关心当前某一个时间段内的数据,而数据 仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用 数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展 历程和未来趋势做出定量分析和预测。 ( 4 ) 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关, 数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散 的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除 源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信 息5 州。 2 2 操作数据库系统与数据仓库的区别 联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为 联机事务处理( o l t p ) 系统。它们涵盖了一个组织的大部分日常操作,如购买、库 存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和 决策方面为用户或“知识工人“提供服务。这种系统可以用不同的格式组织和提 供数据,以便满足不同用户的形形色色需求。这种系统称为联机分析处理( o l a p ) 系统睁1 们。 o l t p 和0 l a p 的主要区别概述如下。 系统的面向性:0 l t p 是面向顾客的,用于办事员、客户和信息技术专业人 员的事务和查询处理。o l a p 是面向市场的,用于知识工人( 包括经理、主管和分 6 山东大学硕士学位论文 析人员) 的数据分析。 数据内容:0 l t p 系统管理当前数据。通常,这种数据太琐碎,难以用于决 策。o l a p 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别 上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 数据库设计:通常,o l t p 系统采用实体一联系( e r ) 模型和面向应用的数据 矿 库设计。而0 l p 系统采用星型或是雪花模型和面向主题的数据库设计。 视图:0 l t p 系统主要关注一个企业或是部门内部的当前数据,而不涉及历 史数据或不同组织的数据。相比之下,由于组织的变化,0 l a p 系统常常跨越数 据库模式多个版本。0 l a p 系统也处理来自不同组织的信息,由多个数据存储集 成的信息。由于数据量巨大,o l a p 数据也存放在多个存储介质上。 访问模式:o l t p 系统的访问主要由短的原子事务组成。这种系统需要并行 控制和恢复机制。然而,对o l a p 系统的访问大部分是只读操作( 由于大部分数据 仓库存放历史数据而不是当前数据) ,尽管许多可能是复杂的查询。 数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,在操作数据 库上处理o l a p 查询,可能会大大降低操作任务的性能;数据仓库与操作数据库 分离是由于这两种系统中数据的结构、内容和用法都不相同,决策支持需要历史 数据,而操作数据库一般不维护历史数据,决策支持需要将来自异种源的数据统 一( 如聚集和汇总) ,产生高质量的、纯净的和集成的数据,操作数据库只维护详 细的原始数据( 如事务) ,所以由于两个系统提供很不相同的功能,需要不同类型 的数据,因此数据仓库和操作数据库需要分离的维护【“】。 2 3 数据仓库中的数据 2 3 1 数据仓库中常见的数据组织形式 1 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储 起来。 2 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一 个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并 记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。 同理,周数据集达到五个后,数据再一次被综合并记入月数据集。依次类推。轮 7 山东大学硕士学位论文 转综合结构十分筒捷,数据量较简单堆积结构大大减少。当然,它是以损失数据 细节为代价的,越久远的数据,细节损失越多。 3 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库快 照,比如每隔一星期或一个月作一次。 4 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件,它 是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接 文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种最基 本的结构。如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道数 据仓库的数据是来自o l t p 的数据库中,问题是我们如何知道究竟哪些数据是在 上次追加过程之后新生成的。常用的技术和方法有1 工”j 川: 时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录中加 更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含 有时标。 d e l t a 文件:它是由应用生成的,记录了应用所改变的所有内容。利用d e i i a 文件效率很高:它避免了扫描整个数据库,但同样的问题是生成d e l t a 文件的应 用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自 动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。 前后映像文件的方法:在抽取数据前后对数据库各作一次快照,然后比较 两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无 多大实际意义。 曰志文件:最可取的技术大概是利用日志文件了,因为它是d b 的固有机 制,不会影响0 l t p 的性能。同时,它还具有d e l t a 文件的优越性质,提取数据 只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依 据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。 比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数 据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。 8 山东大学硕士学位论文 2 3 2 数据的存储管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用 什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据 量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只 有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展,在数据存储 和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统 已经支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中, 进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个g b 甚 至到t b 的数据己是一件平常的事情。一些厂商还专门考虑大数据量的系统备份 问题,好在数据仓库对联机备份的要求并不高。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请 求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统 的特点是庞大而稀疏,每一个查询和统计都很复杂但访问的频率并不是很高。此 时系统需要有能力将所有的处理机调动起来为这个复杂的查询请求服务,将该请 求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关 系数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技 术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、 数据排序和采样等诸多部分。普通关系数据库采用b 一树的索引,对于性别、年 龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了 位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个 计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极 不均匀,普通查询优化器所得出得最佳查询路径可能不是最优的。因此,面向决 策支持的关系数据库在查询优化器上也作了改进,同时根据索引的使用特性增加 了多重索引扫描的能力。 以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作,而连接 山东大学硕士学位论文 操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连接操作可 以做预先的定义,我们称之为连接索引,使得数据库在执行查询时可直接获取数 据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记 录,如最大的前5 0 家客户,等等。普通关系数据库没有提供这样的查询能力, 只好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系数据库 在此做了改进,提供了这一功能。此外,数据仓库的查询并不需要像事务处理系 统那样精确,但在大容量数据环境中需要有足够短的系统响应时间。因此,一些 数据库系统增加了采样数据的查询能力,在精确度允许的范围内,大幅度提高系 统查询效率。 总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可 以做,它已经成为关系数据库技术的一个重要研究课题和发展方向。可见,对于 决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数 据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传统 的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查 询,而是基于用户业务的分析模式,即联机分析。它的特点是将数据想象成多维 的立方体,用户的查询便相当于在其中的部分维上施加条件,对立方体进行切片、 分割,得到的结果则是数值的矩阵或向量,并将其制成图表或输入数理统计的算 法。 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的 早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的 过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以 多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时 需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数据库实现 的联机分析应用我们称之为m o l a p 。 多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库 所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。 这样的状态直到“星型模式”在关系数据库设计中得到广泛的应用才彻底改变。 几年前,数据仓库专家们发现,关系数据库若采用“星型模式”来组织数据就能 很好地解决多维分析的问题。“星型模式”只不过是数据库设计中数据表之间的 山东大学硕士学位论文 一种关联形式,它的巧妙之处在于能够找到一个固定的算法,将用户的多维查询 请求转换成针对该数据模式的标准s q l 语句,而且该语句是最优化的。“星型模 式”的应用为关系数据库在数据仓库领域打开绿灯。采用关系数据库实现的联机 分析应用称为r o l a p 。日前,大多数厂商提供的数据仓库解决方案都采用r o l a p 。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩 充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓 库的中坚力量。 2 3 3 数据的集成 数据仓库中的数据是以面向主题的方式组织,而业务数据库的数据总是围绕 着一个或几个业务处理流程,因此,数据从业务数据库到数据仓库不是简单的复 制过程而需要十分复杂的数据处理,我们称之为数据集成。数据集成问题是建立 数据仓库过程中的重要问题之一,也是数据仓库开发的主要部分。d s s 需要集成 的数据,而当前绝大多数企业内数据的真正状况是分散而非集成的。把这些数据 从操作型环境载入到数据仓库环境时,如果不进行集成就没有意义。全面而正确 的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就 越可靠。数据集成的工作可以笼统的分割为数据抽取( e ) 【t 叫) 、转换 口r 翘幽肋撕0 n ) 和加载( k a d 访g ) ,即所谓的e t l 。 数据的抽取 数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据环 境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据 存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转 换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持 实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的 顺序、成败对数据仓库中信息的有效性则至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些 是躲不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽 取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据 抽取的代码。但数据抽取工具支持的数据种类是有限的;同时数据抽取过程涉及 山东大学硕士学位论文 数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户 编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一 定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维 护则更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库 厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里, 它们只能成为辅助的角色。 数据的转换 为了保证转换到数据仓库的数据的正确性,就必须建立不同源字段到数据仓 库字段的映射。数据转换包括字段类型的转换、字段值的修改、字段的筛选等。 同时,由于数据仓库不需要在线事务处理系统中的所有信息,所以可以对数据进 行缩减。 转换过程是和数据清理分不开的,转换应该包括数据的清理过程。随着电子 数据的不断累积,人们越来越希望从大量的数据中提取出有用的信息供决策使 用,但是由于各种各样的原因,如数据输入错误、不同来源数据引起的不同表示 方法,数据间的不一致等,导致现有的数据中存在这样或那样的脏数据( 即存在 数据质量问题) 。它们主要表现为:拼写问题、打印错误、不合法值、空值、不 一致值、简写、同一实体的多种表示( 重复) 、不遵循引用完整性等。由于“垃圾 迸、垃圾出”,所以,在数据仓库应用系统中,必须对数据进行清理。 数据清理应该是一个减少错误和不一致性、解决对象识别的过程。数据清理 包括确认数据的正确性,校正不正确的数据,然后以有效格式转换为正确数据。 这些数据可以通过广泛的脚本( 在数据集成过程中根据主题的信息自动生成的各 维的查询函数脚本代码和自动生成的用于实现进行转换、清理和装载的存储过程 的脚本代码) 处理语言进行校正。数据清理原理:利用有关技术如数理统计、数 据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。 数据的加载 经过抽取、清理和转换以后数据需要装载到数据仓库中。此时仍然可能需 要其它的处理工作,如完整性约束检测:排序:用于建立存储在数据仓库中的派 生数据表的汇总、聚合和其它计算;建立索引和其它存取途径:以及划分数据生 成多个目标存储区。批量装载工具就是具有代表性的用于装载的工具。除了搬迁 数据到数据仓库中以外,数据装载工具必须保证系统管理员能对装载状态进行监 山东大学硕士学位论文 督,可以取消、挂起和继续一个装载过程,在装载过程失败后,重新启动该过程 时,不会失去数据的完整性。数据仓库的装载工具必须处理比操作型数据库量大 得多的数据。一般,能让数据仓库脱机进行数据刷新的时间窗口( 一般在晚上) 是很小的。连续式装载可能需要很长的时间,比如,装载t b 级的数据可能需要 几周,甚至几个月。因此,一般情况下,需要采用流水线式和分段式的并行数据 装载机制。进行一次完整的装载具有一个优点,就是它可以作为一个建立一个薪 数据库的,很长的批处理式事务来对待,当建立过程还在进行时,当前的数据库 仍然可以支持查询;当装载业务提交时,当前数据库被新的数据库所代替。采用 定期性的检测点,能确保当装载出现失败的时候,整个过程可以从当前最后的检 测点起开始重新进行。 然而,即使是采用了并行机制,一次完整的装载仍然可能需要太长的时间。 大多商用工具( 如r e b r i c k 数据表管理工具) 在刷新时采用增量式装载方法,以减 少要吸纳入仓库的数据的规模,只有更新过的元组才会被插入。然而,这样一来, 装载过程就更加难以管理了。这种增量式的装载会与正在进行的查询相冲突,所 以它被划分为一系列的短事务来处理这些短事务以周期性的方式提交,如每1 0 0 0 条记录后,或几秒后,但这时必须对这个事务系列进行协调处理,以确保派生数 据和索引与基础数据之间的一致性。 2 4 维及维层次 维是关于一个组织想要记录的透视或实体。例如,a l l e l e c t r o n i c s 可能创 建一个数据仓库s a l e s ,记录商店的销售,涉及维t i m e ,i t 锄,b r a l l c h 和1 0 c a t i o n 。 这些维使得商店能够记录商店的月销售,销售商店的分店和地点。每个维都有一 个表与之相关联。当人们从时间( t i m e ) 的角度来观察商店的销售数据时,数据可 以分为1 9 9 9 年的销售额、2 0 0 0 年的销售额和2 0 0 1 年的销售额等;当人们从地 点( 1 0 c a t i o n ) 的角度来观察商店的销售数据时,数据就又可以看成是北京市的销 售额、上海市的销售额和广卅i 市的销售额等。数据的维一般有多个。这里,时间、 地点都各是一个维。假设该销售数据只有时间维和地点维,那么如果我们在时间 维上取一个值“2 0 0 0 年”,地点维上取一个值”北京”,就唯一确定了销售额 的一个值。又如铁路货运数据仓库中的发送方、接收方、时间等都是维。维是具 山东大学硕士学位论文 有层次性的,如发送方和接收方维有站一分局一局三个层次,时间维有日一月一 季一年四个层次。维中层次之间依箭头顺序一层比一层更加概括。在数据仓库中 维及维层次是个很重要的概念,它对应两个重要的查询操作:钻取( d r i l ld o 吼) 和卷取( r 0 1 lu p ) 。所谓钻取是指对应于某一维逐步向更细节层方向观察数据, 而卷取则反之。 下面详细介绍和维密切相关的两个概念概念分层和多维数据模型。 1 概念分层 概念分层定义一个映射序列,将低层概念映射到更一般的高层概念。考虑 维l o c 撕o n 的概念分层,l o c 撕o n 的城市值包含、,撇c o u v 盱,t o r t o ,n e wy 0 r k 和c l l i c a g o 。然而,每个城市可以映射到它所属的省或州。例如,、,觚c o u v e r 可以 映射到b r i t i s hc o l 啪b i a ,而c 1 1 i c 4 9 0 映射到n l i n o i s 。这些省和州依次可以映射到 它所属的国家,如加拿大或是美国。这些映射形成形成l o c 撕维的概念分层, 将低层概念( 如城市) 映射到更高一般的较高层概念( 如国家) 。 许多概念分层隐含在数据库模式中。例如,假定l o c a 缸o n 维由属性n 岫曲e r , 咖e e t ,c i 锣,p r o 、柚c eo rs t ,五p c o d e 和c o u n 仃y 定义。这些属性按一个全序相 关形成一个层次,如“s 仃确锣 p r o 、,i l l c e - o r - s t a l e ( c o 埘仃y ”。该
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025劳动合同法 员工合同
- 白山事业单位笔试真题2025
- 2 整式的乘法说课稿-2025-2026学年初中数学北师大版2024七年级下册-北师大版2024
- 第3课 突破封锁线说课稿-2025-2026学年小学信息技术(信息科技)第四册下粤教版
- 3.3 紧缺的水资源说课稿-2025-2026学年初中地理晋教版八年级上册-晋教版2012
- 2025合同样本:物料与采购管理系统协议范本
- 化肥厂合同审核管理制度
- 2025合同范本:股权激励分配协议示例
- 第8课 数字化生活教学设计-2025-2026学年小学地方、校本课程浙教版人·自然·社会
- 41. See Me Skip说课稿-2025-2026学年小学英语1a典范英语(Good English)
- 表面活性剂的基本作用
- 员工网络安全责任书
- 工程建设项目审批流程图(政府投资工程建设项目(市政类线性项目))
- 消防安全周巡查记录表
- 士林变频器说明书SL
- 博雅汉语准中级加速篇1
- 第二章第一节 遗传论与环境论心理学课件
- 九年级物理上册《第十三章 内能与热机》单元检测卷及答案(沪科版)
- 能源化学与能源化工概论-第一章 能源简介
- GB/T 16866-2006铜及铜合金无缝管材外形尺寸及允许偏差
- 量子信息与量子计算课件
评论
0/150
提交评论