




已阅读5页,还剩60页未读, 继续免费阅读
(控制理论与控制工程专业论文)暂住人口系统的数据仓库的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 数据仓库技术将不同数据源( 包括内部的和外部的) 的数据集成到数据仓库中 为决策支持系统提供了一个集成的数据环境。o l t p ( o n - l i n e t r a n s a c t i o n a l p r o c e s s i n g ) 的应用环境是一个存储细节的、原子的和当前的数据的数据库操作环境;而数据仓 库( d w ,d a t a w a r e h o u s e ) 为联机分析处理技术( o l a p ,o n l i n ea n a l y t i c a ip r o c e s s i n g ) 提供了综合的、统一的和历史的数据。综合应用数据仓库技术和o l a p 满足了用户综 合、灵活的分析需求。其中数据仓库的建立是整个系统开发的基础,因此本文以暂 住人口数据仓库为例,探讨数据仓库的几个关键技术的实现。 论文所做的工作有如下三个方面:第一,针对o l a p 的快速性、可分析性、共 享性、多维性、信息性,人们提出了许多o l a p 的数据模型方案,目前比较实用的 数据模型是关系型o l a p ( r o l a p ) 的星型模型和雪花模型。论文结合暂住人口数 据仓库设计中关于主题“暂住证”的r o l a p 星型模型的设计,阐述了模型选取和建 立的原则、实现过程和一些特殊处理,如不可加事实表的设计。第二,数据仓库在 导入初始阶段的数据后,在日常运行中,数据仓库内的数据需要定期进行更新。为 了避免对数据源历史数据的整表扫描,我们采用了捕捉变化数据的方法来更新数据 仓库的数据。实现变化数据捕获的技术一是“数据复制”,二是“变化数据捕获 ( c d c ) ”,在暂住人口数据仓库的更新过程的设计中,在实际环境中实现这两种方 法;第三,在提高r o l a p 的查询性能优化方面,论文主要阐述了针对r o l a p 星型 模型的索引优化策略,提出了两种索引方法位图索引和数据索引。在暂住人口 数据仓库中的实现和分析结果证明了它们在提高r o l a p 的查询性能方面是有效的。 最后,在总结了论文的工作后,指出了若干遗留问题和进一步研究方向。 关键词:数据仓库;在线联机分析处理:更新:变化数据捕获;位图索; 数据索引 l 华中科技大学硕士学位论文 := = = = = = = = = ;= = = = = = = = = = = = = = = = = = = = = = = = = = a b s t r a c t d a t aw a r e h o u s i n gt e c h n o l o g ys u p p o r t si n f o r m a t i o nm a n a g e m e n tf o rd e c i s i o nm a k i n g b yi n t e g r a t i n gd a t af r o mo p e r a t i o n a ls y s t e m s a n de x t e r n a ls o u r c e si na s e p a r a t ed a t a b a s e , t h ed a t aw a r e h o u s e ( d w ) i nc o n t r a s tt oo p e r a t i o n a ls y s t e m sw h i c hs t o r ed e t a i l e d ,a t o m i c a n dc u r r e n td a t aa c c e s s e db yo l t p ( o n l i n et r a n s a c t i o n a lp r o c e s s i n g ) a p p l i c a t i o n s ,d a t a w a r e h o u s i n gt e c h n o l o g ya i m s a tp r o v i d i n g i n t e g r a t e d ,c o n s o l i d a t e da n d h i s t o r i c a ld a t af o r o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) a p p l i c a t i o n st h es y n t h e t i ca n d f l e x i b l ea n a l y s i s r e q u i r e m e n t so f d e c i s i o nm a k e r sc a nb ew e l lm e t b yj o i m u t i l i z a t i o no f d a t aw a r e h o u s e t e c h n o l o g y a n do l a p t h e d e v e l o p m e n to f d w i st h eb a s i so f t h ew h o l ed w s y s t e m s o w e p r o b e d i n t os o m ek e y t e c h n o l o g i e si nd a t aw a r e h o u s es y s t e mb y t h ee x a m p l eo f t h e d wo f f l o a t i n gp o p u l a t i o n t h ec o n t r i b u t i o no ft h i st h e s i sa r ef o l l o w i n ga st h r e ep o i n t s :f i r s t ,t oi m p l e m e n tf a s t , a n a l y s i s ,s h a r e d ,m u l t i d i m e n s i o n a l a n di n f o r m a t i o no fo l a p , m a n yd a t am o d e l sh a v e b e e nr a i s e d ,p r e s e n t l y ,s t a rs c h e m aa n ds n o wf l a k es c h e m aa r ep o p u l a ri nr e l a t i o n a l o l a p ( r o l a p ) t h ep r o c e s so fr o l a ps t a r s c h m ad e s i g ni nt h ed wo ff l o a t i n g p o p u l a t i o na n ds o m es p e c i a lp r o b l e m s s u c ha sf a c t l e s st a b l ea r ep r e s e n t e d s e c o n d l y , w h e n d ww h i c hh a sl o a d e di n i t i a lo p e r a t i o n a ld a t ai si na no r d i n a r yd a y sw o r k , w a r e h o u s ed a t a m u s tb er e g u l a r l yr e f r e s h e d t oa v o i df u l l ys c a n n i n gt h ed a t as o u r c ed u r i n gt h ed w r e f r e s h m e n tp r o c e s sw ee m p h a s i z e dt h er e f r e s h m e n tm e t h o dt h a tc a p t u r et h ec h a n g ed a t a a n dt h et e c h n o l o g i e st oc a p t u r et h ec h a n g ed a t aa r e “d a t ar e p l i c a t i o n ”a n d “c h a n g ed a t a c a p t u r e ( c d c ) ”i nt h ed e v e l o p m e n t o ft h ed wo f f l o a t i n gp o p u l a t i o n ,w ei m p l e m e n t t h e i d e ai np r a c t i c e t h i r d l y ,t oi m p r o v et h eq u e r yp e r f o r m a n c eo fr o l a p ,w eu s ei n d e xt o o p t i m i z es t a rs c h e m ei nr o l a p w ep r e s e n tt w ot y p e so fi n d e xt oe n h a n c et h eq u e r y p e r f o r m a n c e ,t h e s et w oi n d e x e s a r eb i t m a pa n dd a t a i n d e xw h i c ha r ep r o v e de f f e c t i v ei n t h ed wo f f l o a t i n gp o p u l a t i o n f u r t h e r m o r e w ep o i n to u tt h en e x tr e s e a r c hs t e p sa tt h ee n do f t h ed i s s e r t a t i o n k e y w o r d s :d a t aw a r e h o u s e ;o l a p ;r e f r e s h m e n tc d c :b i t m a p ;b d i 一一一 l i 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个 人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:欲霞 日期:0 口d 年占月c ) 1e t 学位论文版权使用授权书 本学位论文作者完全了解学校有关保黯、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于, 不保密留, ( 请在以上方框内打“4 ”) 学位论文作者签名:我爱 e t 期:a o o f 年扩月,a 日 指导教师签名:习砖妥沁 f 3 期:1 一一,q 年p 月,ol :q 华中科技大学硕士学位论文 1 1 研究背景、目的及意义 1绪论 以往建立的决策支持系统( d e c i s i o ns u p p o r 【s y s t e m d s s ) ,不论是三库结构 1 1 或是四库结构,大多数都是以关系数据库为基础。联机事务处理( o n l i n et r a n s a c t i o n p r o c e s s i n g ,o l t p ) 的数据库系统,由于其主要任务是支持事务处理,在支持决策分 析应用时,出现了许多难以克服的困难【2 1 。 数据仓库( d a t aw a r e h o u s e ) 技术的发展给以上问题的解决带来了新的契机。数 据仓库将来自各个数据库的信息进行集成,按照分析主题来组织和存储数据,供用 户进行数据分析,并辅助决策,成为决策支持的有力工具。本文正是以暂住人口数 据仓库的构建为例,探讨数据仓库的几个关键技术。 研究的目的和意义在于以暂住人口信息管理系统为背景,为解决高层用户的综 合、灵活的分析需求,建立基于数据仓库的联机分析系统。其中,数据仓库的建立 是整个系统的基础,本文以暂住人口数据仓库的构建为实例,探讨数据仓库的几个 关键技术的发展及实现。 ( 1 ) 关系型联机分析处理中星型模型建模过程及建模过程中的一些特殊处理。 ( 2 ) 数据仓库的增量式加载更新方法的讨论。对于实现变化数据捕获的两种技 术的讨论和比较。 ( 3 ) 关系型联机分析处理的查询优化策略。主要针对索引在关系型联机分析处 理中优化应用,提出了两种索引技术位图索引和数据索引。 1 2 国内外研究概况 目前,无论国内国外,基于数据仓库的决策支持系统都是信息系统领域的研究 热点a 从已有的文献看,目前的研究集中于利用数据仓库技术解决传统的基于数据 库技术的决策支持系统在处理大量数据时所遇到的问题,如计算能力不足,数据分 华中科技大学硕士学位论文 析不够灵活,效率不高以及知识发现,知识表达能力比较弱口1 。针对以上问题,不少 研究者提出了基于数据仓库的决策支持系统的基本结构框架。也有学者提出将数据 仓库技术与传统的以模型库为主体的技术相结合,形成了综合决策支持系统 4 】,这也 是目前的一个研究热点。 应用方面,随着基于数据仓库的联机分析处理技术,数据挖掘技术的不断成熟口】, 很多数据库厂商都以自己的数据库产品为依托,提出了数据仓库的解决方案。同时 第三方厂商也提供了实现数据仓库所必须的数据转换) j n 载工具和分析、查询、制表 等工具。比较著名的有s a s 公司数据仓库解决方案、o r a c l e 公司的数据仓库解决 方案,s y b a s e 公司的数据仓库解决方案,i n f o r m i x 公司的解决方案,微软的基 于s q ls e r v e r 的解决方案等。b o 和b r i o 等专业软件公司也在前端在线分析处理 工具市场上占有一席之地。这些产品的推出为基于数据仓库的决策支持系统的开发 提供了有力的支持。目前,基于数据仓库的决策支持系统已在银行、电信,保险等 信息化程度较高,数量较大的行业和一些大型企业和政府部门中得到了较为广泛的 应用,出现了一些成功的案例【6 1 7 1 8 1 ,如宝钢能源部智能决策系统,上海三枪集团销 售分析系统等,虽然总体看来其应用尚不普遍成熟,但是可以预测,随着我国信息 化建设的不断深入,数据信息的不断增加,基于数据仓库的决策支持系统将大有用 武之地。 1 3 论文的组织结构 ( 1 ) 总结了本课题进行研究的背景、目的和意义。 ( 2 ) 从数据获取、数据存储和数据访问分析访问3 个部分讲解数据仓库系统的 基本结构以及数据仓库的概念和基本特点。 ( 3 ) 详细讲解数据仓库的更新过程的定义、分类及组成。数据仓库增量式加载 更新策略的各种实现方法。 ( 4 ) 对于数据仓库三种查询优化策略,重点讲述了索引优化策略。根据暂住人 口数据仓库的实际情况,阐述了星型变换和数据索引两种优化技术的实际应用。 最后的实现部分是暂住人口数据仓库的设计与实现。 华中科技大学硕士学位论文 2 数据仓库系统概述 2 1数据仓库系统基本结构 数据仓库系统( d a t aw a r e h o u s es y s t e m ,d w s ) 包括数据仓库以及用于数据获取、 数据存储和数据分析的所有组件,数据仓库系统基本体系结构如图2 1 所示。 数据获取:负责从外部数据源获取数据,区分有用的数据,进行拷贝或重新 定义格式后,装入数据仓库。其中数据获取层又分为数据来源、抽取、清洗转换 加载三个子层。 数据存储和管理:负责数据仓库的内部维护和管理,提供的服务包括数据存 储的组织、数据的维护、数据分析模型的建立、数据仓库的例行维护等。数据访问 层又分为展示方式和分析人员两个子层。 数据访问分析:数据访问部分属于数据仓库的前端,面向不同种类的最终用 户,主要由查询生成工具、多维分析工具和数据挖掘工具等工具集组成,以实现决 策支持系统的各种要求。 图2 1数据仓库系统基本体系结构 华中科技大学硕士学位论文 数据仓库应用是一个典型的c s 结构,服务器端完成系统清洗、转换、建模、 计算等各类综合功能:客户端完成交互或格式化查询及定制报表等功能。现在最流 行的是三层结构,即在客户和服务器之间增加一个在线分析服务器,它能加强和规 范支持服务工作,集成和简化原客户端和数据仓库服务器的部分工作,降低系统数 据传输量,因此工作效率更高。 2 2 什么是数据仓库 22 1 数据仓库概念及基本特点 w h i m n o n 在1 9 9 3 年提出数据仓库定义:“一个面向主题的、集成的、非易失 的、随时间变化的,用于支持管理人员决策的数据集合。” 1 0 1 数据仓库包含粒度化 的企业数据。 从应用的角度来看,我们更关心它用于何处并发挥何种作用。因此,可以描述 如下:由于更重视信息的价值,所以数据仓库技术是作为一种数据战略使用的方法 产生出来,它不等同于决策支持系统。它通过将大量分散的操作型数据归一处理、 转换、集成、聚集,提高数据的信息附加值,从而成为可提高对d s s 和e i s 应用支 持的数据信息平台。 概言之,数据仓库是一种语义上一致的存储,它充当决策支持数据模型的物理 实现,并存放企业战略决策所需的信息。数据仓库也常常被看作一种体系结构,通 过将异种数据源中的数据集成为统一的结构,支持结构化的和专门的查询、分析报 告和决策制定。数据仓库实际上是一个“以大型数据管理信息系统为基础,附加在 这个数据库系统之上并存储了从企业所有业务数据库中获取的综合数据并能利用这 些综合数据为用户提供经过处理后的有用信息的应用系统”【9 1 。 w h i n m o n 的定义简短而又全面的指出了数据仓库的主要特征。四个关键词: 面向主题、集成、随时间变化、稳定,将数据仓库与其他数据存储系统( 如关系数 据库系统、事务处理系统和文件系统) 相区别。 面向主题( s u b j e c t o r i e n t e d ) :它是与传统数据库面向应用相对应的。主题是 一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领 华中科技大学硕士学位论文 域。比如,一个保险公司的数据仓库所组织的主题可能为:客户,政策,保 险金,索赔。而按应用来组织则可能是:汽车保险,生命保险,健康保险, 伤亡保险。我们可以看出:基于主题组织的数据被划分为各自独立的领域, 每个领域有自己的逻辑内涵互不交叉。而基于应用的数据组织则完全不同, 它的数据只是为处理具体应用而组织在一起的。应用是客观世界既定的,它 对于数据内容的划分未必适用于决策的要求。 集成( i n t e g r a t e d ) :原始数据与适合d s s 分析的数据之间差别甚大。原始数 据在进入数据仓库之前,必然要经过加工与集成。这一步实际上是数据仓库 建设中最关键、最复杂的一步。首先,要统一原始数据中的所有矛盾之处, 如字段的同名异义、异名同义、单位不统一、字长不一致等等,还要将原始 数据结构做一个从面向应用到面向主题的大转变。 随时间变化( t i m e v a r i a n t ) :它表现在以下三个方面。首先,数据仓库内的 数据时限要远远长于操作型环境中的数据时限。前者一般在5 1 0 年,而后 者只有6 0 9 0 天。数据仓库保存数据时限较长是为了适应d s s 进行趋势分 析的要求。其次,操作型环境包含当前数据,即在存取一刹那是正确、有效 的数据;而数据仓库中的数据都是历史数据。最后,数据仓库数据的码键都 包含时间项,从而标明了该数据的历史时期。 稳定( n o n v o l a t i l e ) :通常,数据仓库是只读的,它只需要两种数据访问 数据的初始化装入和数据访问。 2 2 2 数据仓库的数据组织 一个典型的数据仓库的数据组织结构如图2 2 所示。数据仓库中,数据被分成4 种级别,分别是高度综合级、轻度综合级、当前细节级、早期细节级。一旦数据过 期,就由当前细节级进入早期细节级。综合后的数据由当前细节级进入轻度综合数 据级,然后幽轻度综合数据级进入高度综合细节级。 华中科技大学硕士学位论文 菌度综合数据 轻度综合数据 当前基本数据 历史基本数据 一一j 图2 - 2 数据仓库数据组织结构 粒度问题是设计数据仓库最重要的方面。粒度指的是数据仓库中数据单元的细 节程度或综合程度的级别。细节程度越高,粒度级就越低:相反,细节程度越低, 粒度级就越高。 在数据仓库环境中粒度之所以是重要的设计问题,是因为它会深刻影响存放在 数据仓库中的数据量的大小以及数据仓库所能回答的查询类型。在数据仓库中的数 据量大小与所能回答查询的细节级别之间要作出权衡。图2 3 给出了确定数据粒度级 时需要权衡的因素。 高细节级 低细节级 图2 - :3 粒度的权衡 大多数情况下,数据在进入数据仓库时的粒度级别太高意味着必须花费大量资 源对这些数据进行拆分。然而也有一些时候,数据进入数据仓库时的粒度级别太低。 在网络电子商务环境中产生的网络日志就是一个粒度级别太低的例子。要使得网络 华中科技大学硕士学位论文 日志中的点击流数据适合于数据仓库环境,必须先对这些数据进行编辑,过滤和汇 总。 对于大多数企业来说,对于粒度的选择最佳的解决办法是采用多重粒度级的形 式。很多时候,十分需要提高存储与访问数据的效率,以及能非常详细地分析数据 的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分 考虑使用双重( 或多重) 粒度级别是很有意义的。事实上,总是需要多个粒度级别 而不是一个粒度级别,双重粒度级别设计几乎是每个机构的缺省选择。图2 - 4 是一个 电话公司的双重粒度的选择。 真实档案 i 双重粒度 轻度综合数据 的详细通话 】j o b e s 4 月1 2 日下午6 :0 i 一6 :1 2 4 1 5 5 6 6 9 9 8 2 接线员帮助 4 月1 2 日下z f 6 :1 5 6 :1 6 4 1 5 3 3 4 - - 8 8 4 7 长途 4 月1 2 日下午6 :2 3 6 :3 8 4 0 8 2 2 3 7 7 4 5 图2 4 双重粒度 更多的 在此进行 轻度综合数据库中的数据量要比细节数据库中的数据量小的多。通过在数据仓 库的细节级上创建两种粒度级,d s s 的设计者可以一举两得。大部分d s s 处理是针 对被压缩的、存取效率高的轻度综合级数据进行的。当需要分析更低的细节级,可 以到细节数据库中查找( 通常存储在磁盘或光盘上) 。鉴于费用、效率、访问的便利 和能够回答任何可以回答的查询能力,数据双重粒度级是大多数机构建造数据仓库 细节级的最好的体系结构化选择。 数据仓库中粒度化的数据不但可以支持数据集市还可以支持探查与数据挖掘过 程。探查与数据挖掘需要大量历史细节数据以从中找出以前未知的新颖的商业活动 模式。 晒 的行少进个l 蕊 甚理 矾址 华中科技大学硕士学位论文 2 23 分区 数据仓库中数据的第二个主要设计问题是分区。数据分区是指把数据分散到可 独立处理的分离物理单元中去。在数据仓库中,围绕分区问题的焦点是如何分区。 恰当地进行分区可以给数据仓库在多个方面带来好处,如数据装载、数据访问、 数据存档、数据监控、数据存储等。恰当地进行数据分区使得数据可以增长并且可 以进行管理。反之,如果数据分区不适当,则会为数据增长和管理造成许多困难。 对当前细节数据进行分区的目的是把数据划分成小的且可管理的物理单元。运 行维护人员和设计者在管理小的管理单元时将比管理大的物理单元时享有更大的灵 活性。数据分区如图2 5 所示。 图2 5 独立管理的数据分区 有多种数据分区的标准,如时间、业务范围、地理位置、组织单位等。数据分 区的标准是严格地由开发人员来选择的。然而,在数据仓库环境中,按日期分区几 乎总是分区标准中的一个必然组成部分。 22 4 数据仓库中的数据组织形式 数据仓库中有许多种数据组织形式,最常用的是:简单堆积文件、连续文件、 定期综合文件等。 华中科技大学硕士学位论文 2 _ 2 5 清理数据仓库 数据并非只是注入数据仓库,它在数据仓库中也有自己的生命周期。到了一定 时候,数据将从仓库中清除。数据清理问题是数据仓库设计人员无法回避的基本设 计问题之一。 从某种意义上讲,数据不是从数据仓库中清除,而仅仅是上升到更高的综合级。 数据清理或数据细节转化主要有以下几种方式: 数据加入到失去原有细节的一个轮转综合文件中。 数据从高性能的介质( 如da sd ) 转移到大容量介质上。 数据从系统中实际清除。 数据从体系结构的一个层次转到另一个层次,比如从操作型层次转到数据仓 库层次。 因而,在数据仓库环境之中有种种数据清理或者转化的方式。数据的生命周期f 包 括清除或最终档案转移) 应该是数据仓库设计过程中活跃的部分。 226 数据仓库中的错误数据 对进入数据仓库的错误数据主要有以下三种解决方法: 方法1 、进入数据仓库找到错误的记录,使用更新功能,修改错误记录。该方法 的问题在于: 数据集成被破坏。所有在这之前生成的报表都将失去一致性。 更新必须在数据仓库环境中进行。 许多时候不止一个已录要修正。 方法2 、加入修正的记录。一条是原先的错误记录,另一条是修正后的正确记录。 缺点在于: 可能要修正很多记录。 修正公式可能很复杂,以至于无法进行调整。 方法3 、修正该记录相关的最新结果记录,问题在于: 简单地修正最新结果记录,需要对应用和过程进行约定。 华中科技大学硕士学位论文 不能对过去的错误进行准确的解释。 2 2 7 数据仓库的数据模型 数据模型既可用于操作型环境,又可用于数据仓库环境,如图2 - 6 所示。 企业揽魁 。带啪 教譬键r 一一恻教远酉露r 用黼贼据黜兰粼 辍怍翌 撵作捌数撼挺掣蒋忻于企业数懈模掣 在数据库进计之前谣加人性能因索 始键粥精挪甜间元索 爵遁之处熠加导出数据 创建凡工燕系 图2 - 6 数据模型应用在操作型和数据仓库环境 数据仓库的数据模型包括概念模型、逻辑模型与物理模型。除了这三种模型之 外,还包括元数据模型和数据粒度模型。数据仓库的设计也就是在概念模型、逻辑 模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂元数据模型则 自始至终伴随着数据仓库的开发、成长与使用。数据粒度模型也在数据仓库的创建 中发挥着指导者的作用,指导数据仓库的具体实现。 概念模型是企业模型到数据仓库高层模型的映射,反映企业业务部门的需求, 是联系主观和客观的桥梁,它的主要工作是为一定的目标设计系统,进行信息收集, 并在关系模型中对主题域进行划分。概念模型中常用的表示方法是e r 图和面向对象 的分析方法。 逻辑模型是概念模型到物理模型转变的桥梁。数据仓库设计过程中所采用的逻 0 嘻 蓦 蒂一 华中科技大学硕士学位论文 辑模型主要是关系模型。在进行数据仓库逻辑模型设计时,一般需要完成分析主题 域、确定装载到数据仓库的主题、确定粒度划分、确定数据分割策略、关系模式的 定义和记录系统的定义、确定数据抽取模型等。 数据仓库的物理模型就是逻辑模型在数据仓库的实现模式。在物理模型设计 阶段,需要确定数据仓库的设计规范、数据结构的类型、确定索引策略、确定数 据存放位置、确定存储分配以及对物理模型进行评审。在这一阶段,可以利用自 动定义工具如:s d e s i g n e r ,p o w e r d e s i g n e r 进行数据管理,获得该阶段完整的文档 资料。 元数据是数据仓库的重要构件,是数据仓库的指示图,指出数据仓库中的各种 信息的位置和含义,管理数据仓库中的数据、为d s s 分析员及高层决策人员提供便 利。元数据几乎遍布在数据仓库中的任何一个地方和数据仓库的环境中,元数据主 要有数据源元数据、数据模型元数据、数据源与数据仓库映射元数据以及数据仓库 的元数据。 2 。3 数据分析 数据分析就是访问数据仓库以提取有用的知识的行为j 。数据分析工具为决策 者提供简易的数据查询方式,并对查询的数据采用某些分析方法( 例如,简单的聚 集,复杂的统计方法) 进行分析,最终以不同的形式展示分析结果。联祝分析处理 和数据挖掘工具在近年来得到了广泛的应用。 2 3 1联机分析处理 1 概念与特征 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 是数据仓库采取的最主要的 分析处理方法。它使分析人员、经理、管理人员通过对大容量综合数据的多种可能 的观察角度进行快速、一致和交互性的存取以获得对信息的深入理解。 1 9 9 3 年,e f c o d d 提出了o l a p 概念及其1 2 条特征。此后,n i g e lp e n d s e 和 r i c h a r dc r e e t h 又综合这1 2 条特征,提出了o l a p 应用的五项标准f a s m i ”。即联 华中科技大学硕士学位论文 机分析处理作为一种数据分析技术,它应具备快速性( f a s t ) 、可分析。皑! ( a n a l y s i s ) 、 共享性( s h a r e d ) 、多维。n ! ( m u l t i d i m e n s i o n a l ) 、信息性( i n f o r i i l a t i o n ) 。快速性是指用户 对o l a p 的快速反应能力要求很高:可分析性是指o l a p 系统应能够处理与应用有 关的任何的逻辑分析和统计分析:共享性指数据可以支持多用户的访问,同时又能 对机密数据提供安全保障:多维性是指系统必须提供对数据分析的多维视图和分析, 包括对层次维和多重层次维的完全支持;信息性是指不论数据量有多大,也不管数 据存储在何处,o l a p 系统应能及时获得信息,并且管理大容量的信息。其中,多维 性是o l a p 的关键属性,多维分析是分析企业数据最有效的方法,是o l a p 的灵魂, 因此o l a p 也常被人们简称为共享多维数据的快速分析。 o l a p 可基于关系数据库和基于多维数据库。o l a p 从数据仓库中的集成数据出 发,按照设定的多维数据模型对细节数据进行多维的聚合( a g g r e g a t i o n ) ,再使用不 同的分析动作从多个不同的视角对多维数据进行分析、比较,用以辅助决策。 2 o l a p 服务结构 o l a p 是一种多用户的三层客户服务器结构【1 4 1 。这种结构的优点在于将应用逻 辑( 或业务逻辑) 、图形用户接口g u i 及数据库管理系统d b m s 严格区分开。复杂的 应用逻辑不是分布于网络上的众多p c 机上,而是集中存放在o l a p 服务器上,由服 务器提供高效的数据存取,安排后台处理以及报表预处理。如图2 7 所示,它由数据 源( 数据立方体和基础关系数据库) 、o l a p 服务器、o l a p 客户机及客户端应用软 件组成。 图2 - 7o l a p 服务器的三层客户i n 务器逻辑结构 我们可根据o l a p 服务器端的数据组织方法将o l a p 分成以下几种结构:关系 华中科技大学硕士学位论文 型o l a p ( r o l a p ) 、多维o l 廿( m o l a p ) 以及混合型o l a p ( h o l a p ) 蚓。 3 o l a p 的多维数据分析 在多维数据模型中,数据组织成多维结构,每个维包含由概念分层定义的多个 抽象层。一个概念分层( c o n c e p th i e r a r c h y ) 定义一个映射序列,将低层概念映射到 一般的高层概念。例如,假定地区维由属性i d 、县、市、省和国家定义,这些属性 按一个全序相关,形成一个层次,如“县 市 c h a n g ed a t af r o mz z r kr , 一 s u b s c r i p t i o n _ h a n d l e 2 :s h j b ) ; 一旦建立了旬柄,就可以订阅你想要的变化数据。指定希望订阅的表和字段, 如下所示: e x e c u t ed b m sl o g m n rc d c s u b s c r i b e s u b s c r i b e ( - s u b s c r i p t i o nh a n d l e = :s hj b , 华中科技大学硕士学位论文 s o u r c e s c h e m a 2 s a ,一 s o u r c e j a b l e = j b ,一 c o l u m nl i s t 暂住证号,姓名,户口省县) ; 当指定了希望订阅的表和字段后,就可以激活你的订阅。无论订阅多少个表, 都只需要激活订阅一次。一旦激活了一个订阅,你就不能再将任何其他表或字段添 加到你的订阅中。为了激活订阅,你可以调用将订阅句柄作为参数调用 d b m sl o g m n rc d cs u b s c r i b e a c t i 、,a t es u b s c r i p t i o n 过程,并将订阅 旬柄传递给它: e x e c u t e d b m sl o g m n r _ c d c s u b s c r i b e a c t i v a t es u b s c r i p t i o n ( 一 s u b s c r i p t i o n _ h a n d l e = :s hj b ) ( 5 ) 查看访问变化表数据 源表中的数据不断变化( 插入、更新或删除) ,可以设置一个扩展窗口c d c 窗口观察数据的变化。d b m s _ l o g m n r _ c d c s u b s c r i b e e x t e n d _ w i n d o w 过 程可以被用来设置c d c 窗口,如下所示: e x e c u t e - d b m sl o g m n rc d cs u b s c r i b e e x t e n dw i n d o w f s u b s c r i p t i o n _ h a n d l e = :s h _ j b ) ; 使用d b m s _ l o g m n r _ c d c s u b s c r i b e p r e p a r e s u b s c r i b e r j i e w 过 程准备一个订阅者视图。 v a r i a b l es vj bv a r c h a r 2 ( 3 0 ) ; e x e c u t e d b m sl o g m n rc d c s u b s c r i b e p r e p a r e _ s u b s c r i b e r v m w ( 一 s u b s c r i p t i o nh a n d l e = :s hj b ,一 s o u r c e s c h e m a 。 s a ,一 s o u r c e _ t a b l e = j b , v i e w _ n a m e 母:s v j b ) ; 在这里,源表j b 表的订阅者视图名以变量s v j b 返回。 s e l e c t :s v i bf r o md u a l ; 根据视图名订阅者可以访问变化表中的数据。 华中科技大学硕士学位论文 s e l e c t + f r o m 视图名: ( 6 ) 删除旧的视图,清除c d c 窗口 了解并提取了变化数据并且不再需要在订阅者视图中显示变化数据时。必须删 除订阅者视图并清除c d c 窗口,来进行下次的建立( 扩展) 新的窗口来查看新的 变化数据。使用d b m sl o g m n r _ c d c s u b s c r i b e d r o p s u b s c r i b e r _ v i e w 过程来删除已有的订阅者视图。 e x e c l r l e d b m s _ l o g m n rc d c _ s u b s c r i b e d r o ps u b s c r i b e r _ v i e w ( - s u b s c r i p t i o n _ h a n d l e = :s h j b ,一 s o u r c es c h e m a 5 s a ,一 s o u r c e _ t a b l e = j b ) ; 清除旧的c d c 窗口: e x e c u t e d b m s _ l o g m n r c d c s u b s c r i b e p u r g e _ w i n d o w ( 一 s u b s c r i p t i o n _ h a n d l e = :s h j b ) ; 要定期提取变化数据,需要重复以上的第5 和第6 步。对暂住人口数据仓库来说, 每周提取一次变化数据,数据提取工作将包括建立订阅窗口( e x t e n d _ w d c d o w ) 、 准备订阅者视 ( p r e p a r e _ s u b s c r i b e rv i e w ) 、从订阅者视图中访问数据、删除 订阅者视图( d r o p _ s ;u b s c r i b e i u m w ) 、清除窗口( p u r g e _ w i n d o w ) - 4 4 3 两种方法的比较 采用在数据源设置触发器的方法思路简单易于执行,但该方法需要在数据源添 加触发器,不仅会改变数据源结构,而且对数据源性能有较大的影响。 采用c d c 的方法能够在数据变化产生时,从d b m s 的缓冲区提出已改变的数 据。在这种方法中,数据改变能立即被反映,因此读臼志磁带就变得没有必要,而 且节约了一段从数据发生变化到被反映到数据仓库之间的时间。但需要服务器对异 构数据源数据库管理系统的支持。本系统采用了o r a c l e 9 i 的捕捉变化数据这个特殊 的组件以及o r a c l e 的透明网关对s q ls e r v e r2 0 0 0 数据库管理系统的访问支持。但是 这种方法需要更多的在线资源,包括系统软件对数据改变的敏感性,因此,这种方 法会给服务器性能带来一定的冲击。尽管如此,这种直接缓冲方法能够以非常高的 4 7 华中科技大学硕士学位论文 速度处理大量的数据捕获。 4 5 r o l a p 星型模型的索引优化策略 4 5 位图索引优化策略 在暂住人口暂住证为主题的星型模型中采用星型变换优化方法的原因基于以下 几点:( 1 ) 在暂住人口事实表中,性别、文化程度、暂住事由、日期均是字段值有 大量重复值的字段,因此在这些字段上建立位图索引是比较有利的;( 2 ) 包含多个 位图索引的事实表将使查询更加有效率;( 3 ) 在大多数情况下,查询返回的数据量 相对于事实表来说是比较小的,通常小于1 0 。 星型变换( s t a rt r a n s f o r m a t i o n ) 是o r a c l e 利用位图索引的一种优化策略畔i 。利 用星型变换查询执行策略,星型连接查询获得了很好的查询性能。星型变换依靠隐 式重写原始的星型查询的s q l 语句来完成,是基于代价的优化。其主要思想是转化维 为子查询并在事实表上利用位图索引。 星型变换的第一步是利用位图索引从事实表中取出匹配的中间结果,第二步再 利用中间结果与其它维表做连接。假设有这样的查询,计算2 0 0 1 年度来自安徽省的 男性暂住人口的统计值建立如下的s q i 语句: s e l e c ts u m ( 人数) f r o m 事实表,行政区划维,时间维,性别维w h e r e 行政区 划维地区代码= 事实表户口省县a n d 事实表登记日期= 时间维日期a n d 事实 表,性别= 性别维性别代码a n d 行政区划维省份= 安徽省a n d 时间维年;2 0 0 2 a n d 性别维性别= 男 步骤一:将原始的星型查询转换为相应的于查询。根据事实表的外键上的位图 索引找出事实表中满足查询条件的记录集合,并用位图的形式来表示查询所得的记 录集合。相应的子查询为: s e l e c t f r o m 事实表w h e r e 地区代码1 n ( s e l e c t 县市代码f r o m 行政区划维w h e r e省份= 安徽)a n d 日期i n ( s e l e c t 日期f r o m 时间 维w h e r e 年= 2 0 0 1 ) 例如,根据时间维的条件“时间维年= 2 0 0 1 ”,事实表的登记日期上的位图索 华中科技大学硕士学位论文 引确定了登记日期在2 0 0 1 年的记录集,并以位图的形式表示。根据位图索引的性质, 其二进制位l 的位置可以代表其值。同样,也可以获得户口省县在安徽省的记 录集。这样得到了两个中间集的位图索引,每个位图索引对应了事实表上满足单个 维表的约束的记录集。利用位图索引融合技术,中间集的位图索引由a n d 的操作合 并成为一个单一的位图索引,它是符合所有查询条件的事实表的索引。以上所有的 操作都无需访问事实表,仅仅涉及到位图索引和维表。 步骤二:就是根据所取的中间结果的位图索引到事实表中取出实际的数据与维 表进行连接。暂住人口数据仓库中的维表都比较小,与维表的连接操作由散列连接 ( h a s hi o i n ) 算法来实现,并在连接完成后返回查询的结果集。表4 - 2 列出了有位图 索引和无位图索引的r o l a p 查询参数值比较。 表4 2 有位图索引与无位图索引查询时间的比较 从实验结果可以看到,使用位图索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业互联网平台数据清洗算法在智能仓储物流中的实践报告
- 江苏省扬州市宝应县2025-2026学年高三上学期期初检测语文试题(含答案)
- 公司合同法律风险防范管理制度
- 2025年湖南省永州市第十六中学八年级中考二模生物试题(含答案)
- 2024-2025学年湖南省永州市冷水滩区九年级(上)期末数学试卷(含答案)
- 信息技术应用能力测评题库
- 卫生院绩效考核措施
- 中国传统节日中秋节主题班会课件
- 巡视巡查课件
- 巡察干部培训课件
- AQ 1083-2011 煤矿建设安全规范 (正式版)
- FZ∕T 54007-2019 锦纶6弹力丝行业标准
- 2024年江苏省高中学业水平合格性考试数学试卷试题(答案详解1)
- DZ∕T 0148-2014 水文水井地质钻探规程(正式版)
- 膝痹病的中医治疗方案
- Know Before You Go:趣谈“一带一路”国家智慧树知到期末考试答案2024年
- 养老金融论文
- 无人机维修技术行业报告
- NPI工程师培训资料
- 2024年射频同轴电缆组件行业技术趋势分析
- 个人工资表表格
评论
0/150
提交评论