(管理科学与工程专业论文)数据仓库构建方法及其应用实例研究.pdf_第1页
(管理科学与工程专业论文)数据仓库构建方法及其应用实例研究.pdf_第2页
(管理科学与工程专业论文)数据仓库构建方法及其应用实例研究.pdf_第3页
(管理科学与工程专业论文)数据仓库构建方法及其应用实例研究.pdf_第4页
(管理科学与工程专业论文)数据仓库构建方法及其应用实例研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(管理科学与工程专业论文)数据仓库构建方法及其应用实例研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

附件一: 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本 人在导师的指导卜,独立进行研究工作所取得的成果。除文中已明确注明和引用 的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的 内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律 结果由本人承担。 学位论文作者签名:岳 日期:,一q 年f 工月z 7 日 附件二: 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。 本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密由j 在2 碑解密后适用本版权书。 本学位论文属于 不保密口。 学位论文作者签名:j 玩 f 日期:俨哗蝴碉 、 , 指导教师签名:研t 手 日期:锋f 钥硝 数据仓库构建方法及其应用实例研究 数据仓库构建方法及其应用实例研究 摘要 随着全球经济一体化发展,企业的规模越来越大,面 临的竞争也越来越激烈。企业管理者对决策的科学依据提 出了更高的要求。传统的联机事务处理等信息系统为企业 的业务处理提供方便、迅捷的操作平台,同时也决策者收 集了大量有价值的业务数据。这些业务处理信息系统主要 用于支持频繁的日常业务处理操作,却无法对企业的业务 数据进行高效的分析处理,以至无法为管理者提供决策支 持,造成“数据泛滥,信息缺乏”的局面。数据仓库技术 的出现,为企业提供了数据向信息转换的高效途径。数据 仓库为企业提供了一个不受传统事务处理约束,集成所有 决策需求数据、高效率处理决策分析的支持环境,为企业 获得竞争优势提供保障。近年来,数据仓库在金融、电信 等行业的应用实践证明,数据仓库技术也起到降低企业的 运营成本、加强客户关系管理、提高产品质量的作用。 数据仓库支持决策分析的强大功能,吸引了众多企业 投入到数据仓库建设的队伍中。然而建设数据仓库不是一 个简单的技术问题,而是一项复杂的系统工程。首先,数 数据仓库构建方法及其应用实例研究 据仓库的建设是各种先进的信息处理技术相结合的过程, 只有海量数据存储、海量数据查询以及报表展现等多项技 术相结合,才能建立起真正的数据仓库。其次,数据仓库 的建设过程是企业经营管理决策与信息化结合的过程,只 有依照企业的管理决策的实际情况,结合业务特征和原有 的信息系统,才能建设一个支持企业管理决策的数据仓库。 在许多数据仓库开发项目中,由于开发人员将数据仓库视 为简单的海量数据存储,忽视了对业务规则的整理,忽视 了对数据的重组,以及与数据仓库开发相配套的管理思维 和决策方式。从而使得数据仓库对提高企业决策质量的贡 献率大打折扣,甚至导致项目失败。因此,研究科学的数 据仓库的构建方法,探讨成功构建数据仓库的方法和过程 是非常有现实意义的。 考虑到数据仓库需求的特殊性,为保证数据仓库中的数 据质量,本文从概念、逻辑、物理三层视图的数据仓库体 系结构出发,探讨数据仓库的构建方法。提出将概念分析、 逻辑设计和物理实现紧密结合的数据仓库构建方法。结合 作者参与的实际项目某企业管理统计系统中的数据仓 库设计和系统应用为例,说明该方法的可行性、具体应用 和实际效果。 关键字:数据仓库,体系结构,决策支持,管理统计系统 数据仓库构建方法及其应用实例研究 t h er e s e a r c h0 fb u i l d i n gd p ( r a r a r e h o u s em 匝t h o d o l o g ya n di t s a p p l i c a t i o n a b s t r a c t w i t h g l o b a l i z a t i o n o f e c o n o m y , e n t e r p r i s e s a r e b e c o m i n gl a r g e ra n dl a r g e r t h ec o m p e t i t i o ne n t e r p r i s e sf a c i n g i sf i e r c e rt h a nb e f o r e s ot h ed e c i s i o nm a k e r si ne n t e r p r i s e s r e q u i r em o r es c i e n t i f i cs u p p o r tf o rt h e i rc o n c l u s i o n s s u c h i n f o r m a t i o n s y s t e m s a st r a d i t i o n a lo n l i n et r a n s a c t i o n p r o c e s s i n gs y s t e mi ne n t e r p r i s e sf a c i l i t a t e db u s i n e s sp r o c e s s w i t hp r o v i d i n gt h eo p e r a t i n gp l a t f o r m ,a n dc o l l e c t e dal a r g e n u m b e ro fv a l u a b l e b u s i n e s sd a t af o rm a n a g e r s h o w e v e r , t h o s ei n f o r m a t i o ns y s t e m ss u p p o r tf r e q u e n td a i l yb u s i n e s s o p e r a t i o nm a i n l y , t h e ya r eu n a b l et oc a r r yo ne f f e c t i v ea n a l y s i s o fl a r g en u m b e ro fd a t u m ,s ot h a tu n a b l et oo f f e rs u p p o r tt o m a n a g e m e n ta n da d m i n i s t r a t i o np o l i c y m a k e r e n t e r p r i s e sf a l l i n t ot h ee m b a r r a s s m e n to f “d a t ao v e r f l o ww h i l ei n f o r m a t i o n l a c k s ”t h ea p p e a r a n c eo fd a t aw a r e h o u s ep r o v i d e st h e s o l u t i o nt ot h ep r o b l e mf o rm o s te n t e r p r i s e s d a t aw a r e h o u s e 数据仓库构建方法及其应用实例研究 o f f e r e da ne n v i r o n m e n tf o re n t e r p r i s e s ,w h i c hi n t e g r a t ea l l d e c i s i o n d a t aa n de f f i c i e n t l yd e a l w i 廿1d e c i s i o n a n a l y s i s d w ( d a t ew a r e h o u s e ) h e l pe n t e r p r i s e s t oo b t a i nt h e c o m p e t i t i o na d v a n t a g e t h ep r a c t i c e o fa p p l i c a t i o no ft h e d a t aw a r e h o u s ei si nt h ef i n a n c e ,t e l e c o m m u n i c a t i o na n do t h e r i n d u s t r yp r o v e dt h a td a t aw a r e h o u s et e c h n o l o g yd ob e n e f i tt o r e d u c i n go p e r a t i o nc o s to fe n t e r p r i s e ,e n h a n c i n gc u s t o m e r r e l a t i o nm a n a g e m e n ta n di m p r o v i n gt h ef u n c t i o no fp r o d u c t q u a l i t y t h ec h a r mo ft h ed a t aw a r e h o u s eh a sa t t r a c t e d n u m e r o u se n t e r p r i s e st ob e g i nt h e i rt r a v e lo fd a t aw a r e h o u s e c o n s t r u c t i o n w h i l eb u i l d i n go fd a t aw a r e h o u s ei sn o tas i m p l e t e c h n o l o g i c a lq u e s t i o nb u tac o m p l i c a t e de n g i n e e r i n g a tf i r s t , t h ec o n s t r u c t i o no ft h ed a t aw a r e h o u s ei sac o m b i n a t i o no f d i f f e r e n ti n f o r m a t i o nt e c h n o l o g y , s u c ha sg r e a tc a p a c i t ys t o r e , e f f e c t i v e q u e r y a n db u s i n e s s r e p o r te t c s e c o n d l y , t h e c o n s t r u c t i o nd wi sac o m b i n a t i o no fm a n a g e m e n ta n di t ( i n f o r m a t i o nt e c h n o l o g y ) ,o n l ya c c o r d i n g t ot h ea c t u a l c o n d i t i o n so fa d m i n i s t r a t i v ed e c i s i o no fe n t e r p r i s e s ,c o m b i n i n g w i mt h eb u s i n e s sc h a r a c t e r i s t i ca n d a l r e a d ye x i s t i n g i n f o r m a t i o ns y s t e m ,c o u l db u i l dad a t u mw a r e h o u s et h a t s u p p o r t se n t e r p r i s e sa d m i n i s t r a t i v ed e c i s i o n 4 数据仓库构建方法及其应用实例研究 i nal o to fd a t aw a r e h o u s ed e v e l o p m e n tp r o j e c t ,t h e d e v e l o p e r sr e g a r d st h ed a t aw a r e h o u s ea s t h e s i m p l e d a t a s t o r a g e w i t he n o r m o u s c a p a c i t y , h a v ei g n o r e d t h e u n d e r s t a n d i n gt ob u s i n e s sr u l e s ,t h er e o r g a n i z a t i o no fd a t a ,a n d t h em a n a g e m e n tt h i n k i n gw a y , w h i c hm a k et h ed a t aw a r e h o u s e g i v eag r e a td i s c o u n tt ot h ec o n t r i b u t i o nr a t ew h i c hi m p r o v e s e n t e r p r i s e sd e c i s i o nq u a l i t y , e v e nc a u s et h ep r o j e c tt of a i l s o , s t u d y i n gs c i e n t i f i cd a t aw a r e h o u s ep r o j e c tm e t h o d o l o g yi s a r e a l i s t i cm e a n i n gv e r ym u c h d u et ot h ec h a r a c t e r i s t i co fr e q u i r e m e n t so fd a t a w a r e h o u s e ,i no r d e rt o e n s u r et h eq u a l i t yo fd a t ai nd a t a w a r e h o u s e ,t h i sa r t i c l ee x p l o r e sam e t h o d o l o g yo fb u i l d i n ga d wo nt h eb a s eo fd a t aw a r e h o u s ea r c h i t e c t u r ei nt h ev i e wo f c o n c e p t ,l o g i c a la n dp h y s i c a lp e r s p e c t i v e ad a t aw a r e h o u s e b u i l d i n gm e t h o d o l o g y w i t h p h y s i c s d a t u mw a r e h o u s e c o m b i n e dc l o s e l yt o l o g i c a l d a t a s t r u c t u r i n ga n db u s i n e s s c o n c e p ti sp u tf o r w a r d i nt h ee n d ,t h ea u t h o rt a k ea np r o j e c t c a s et os t a t et h ef e a s i b i l i t y , c o n c r e t eo p e r a t i o na n da c t u a le f f e c t o f t h i sm e 也o d w a n g l e i ( m a n a g e m e n te n g i n e e r i n g ) s u p e r v i s e db yg u o d a n i n g 数据仓库构建方法及其应用实例研究 k e yw o r d s :d a t aw a r e h o u s e ,a r c h i t e c t u r e ,d e c i s i o ns u p p o r t , s t a t i s t i cs y s t e m 6 数据仓库构建方法及其应用实例研究 第一章绪论 1 1 数据仓库产生的背景 企业数据是企业运作过程中产生的各种记录,从各方面真实地反 映企业的实际状况,对企业管理有重大参考价值,因而受到企业管理 者的重视。早期,由于技术以及企业规模等因素的限制,企业对数据 的管理依赖于手工记录和人工处理,效率低下,企业数据未能得到充 分的利用。 2 0 世纪6 0 年代,计算机的出现极大地推动了数据管理技术的发 展,信息系统开始出现。企业数据以文件形式存储在计算机中,管理 者可以按文件名查询文件,并进行整理。相对手工记录而言,文件系 统提高了数据管理的效率。但是,文件系统中的数据存在着巨大的冗 余,文件管理系统下管理者难以高效的查询数据。以文件形势存储的 数据在商业应用中发挥记录信息和交流信息的作用。 2 0 世纪7 0 年代出现并被广泛应用的关系型数据库以关系表格的 形式存储数据,结构化的组织数据,使得信息系统能够方便迅速的查 询到有用信息为企业管理服务。直到现在,关系数据库仍是最主要的 数据组织形式,业务处理信息系统的后台支持,关系数据库中的数据 支持商业应用中业务处理过程的高效完成。 经过数十年的发展,关系型数据系统中存储了大量的日常业务数 据,这些数据来自业务系统的运作,蕴涵着巨大的潜在信息。企业决 策者希望从大量复杂的事务数据中获取各自权限内的决策信息,及时 把握市场的脉搏做出正确的判断和选择。这种需求使得在8 0 年代中 后期出现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展 打下了基础。 数据仓库是针对决策支持系统的需求而提出的一种数据组织方 1 0 数据仓库构建方法及其应用实例研究 式。在9 0 年代初期,业界公认的数据仓库概念创始人w h i n m o n 在 b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中,将数据仓库定义为“数 据仓库是面向主题的、集成化的、稳定的、随时间变化的数据集合, 用以支持决策管理的过程。”“1 相对于传统的业务处理数据库而言,数据仓库中存储的是海量的 分析型数据,更新周期较长,由于其主要目的是支持决策分析,因而, 数据根据特定的分析主题进行组织,具有一定的冗余。数据仓库本身 是一个庞大的应用体系,它建立在数据库的基础之上,而不是取代数 据库。是为了解决数据冗余而信息匮乏问题而出现的,面向主体的、 稳定的、集成的数据管理体系结构,以支持一系列复杂的决策分析和 知识发现。 未来企业的竞争,在很大程度上是其收集数据、分析数据、利用 信息能力的竞争。建设数据仓库能帮助企业提高数据质量及分析能 力,是企业从粗放型经营向集约型经营转变的重要表现。 1 2 数据仓库的应用现状 数据仓库的应用技术发展迅速。1 9 9 8 年末,i b m 实验室将其研究 成果发展成为商用产品,推出用于联机分析处理( o l a p ) 的后台服务 器d b 2o l a ps e r v e r 。其他数据库厂商紧随其后,纷纷推出集成数据 仓库功能的数据库服务器产品。o r a c l e 在o r a c l e 8 i 上推出e x p r e s s s e r v e r 的o l a p 服务器以及工具产品w a r e h o u s eb u i i d e r ;i n f o r m i x 推出m e t a c u b e r ,s y b a s e 推出s y b a s e i q :m i c r o s o f t 公司在s q l s e r v e r 2 0 0 0 中也推出了a n a l y s i ss e r v i c e s 数据仓库工具组件。 在技术和市场的推动下,数据仓库的应用迅速普及。以美国和澳 大利甄为代表,国外数据仓库项目已有不少成功的例子。除了a t & t 无线通信服务公司、m c i 以外,世界上一些主要的电信企业都已经 采用了针对电信行业的数据仓库系统,如果英国电信局、s p r i n t 公司、 法国电信局、加拿大电信局、澳大利亚电信局和比利时电信局等,另 数据仓库构建方法及其应用实例研究 外还有台湾的几大电信公司,如中华电信、运传电信等也采用了数据 仓库的解决方案,为其解决诸如客户群体分析、预防欺洚等问题,取 得了良好的效果l 引。 从上个世纪末开始,北美洲和欧洲大部分企业都在筹建数据仓 库,并开始企业级的数据挖掘。在财富全球5 0 0 强企业中,已经 有9 8 都应用了商业智能解决方案。它们或上了数据仓库项目,或 进行数据挖掘,并且都和业务紧密结合起来,支持企业做出正确的经 营决策。 2 0 1 国内的数据仓库发展正处于成长期。通信、金融、保险企业由于 其信息化基础较好,数据量大,数据分析的经济效益显著,而成为国 内数据仓库项目的第一批尝试者。虽然,在国有大中型企业的带动下, 我国的数据仓库正在向电力、冶金、石化等更多行业拓展。但从总体 上来看,中国的数据仓库的应用还远远没有达到普遍的程度。成功的 案例更是鲜有所闻。其主要的原因在于缺乏科学的数据仓库构建方法 的指导,照搬照抄他人的实施方案,而忽略自己的业务和数据的特点, 往往导致项目的最终失败。本文正是要结合具体的应用来研究数据仓 库的构建方法。 1 3 数据仓库的研究现状 数据仓库概念提出以后,国外研究机构纷纷投入大量的人力、物 力,在数据仓库概念、体系结构、联机分析处理、数据挖掘、决策支 持系统等理论上作了大量的工作。例如美国斯坦福大学数据仓库研究 组,正在进行数据仓库原型研究。该项目的主要目标是研究和开发创 建、维护数据仓库的算法和工具,这些算法和工具能够使得从各种数 据源,包括平面文件进行信息抽取和集成工作更加高效。a t & t 的i m 项目主要研究如何从异构数据源中收集数据。美国美国科罗拉多大学 的s q u i r r e l 项目组则将研究重点放在提供基于中间件的整合框架。 著名的d w q ( q u a lit yo fd a t aw a r e h o u s e ) 基金则主要研究数据仓 1 2 数据仓库构建方法及其应用实例研究 库的质量问题垆j 。国际上许多重要的学术会议,如超大型数据库国际 会议( v l d b ) ,数据工程国际会议( d a t ae n g i n e e r i n g ) 等,都出现 了大量专门研究数据仓库( d a t aw a r e h o u s i n g ) 、联机分析处理 ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 、数据挖掘( d a t am i n i n g ) 的 论文。 国内对数据仓库的研究稍微滞后一些,但也出现了不少数据仓库 研究的科研院所和学术专家。高校和研究所纷纷增设数据仓库的研究 方向,数据仓库成为学术期刊的研究热点。 总的来讲,目前对数据仓库的研究集中在数据仓库的基本理论 ( 包括数据仓库的基本概念,特点和基本的逻辑体系结构) 、数据抽 取与集成技术、数据建模技术、数据存储和查询优化技术、元数据管 理、数据的前台展示等技术领域。 数据仓库构建方法的研究立足于应用,总结实践经验,试图为成 功的数据仓库构建提供方法指导,与上述六个技术领域的内容紧密相 连。许多从事数据仓库建设的软件公司和个人曾经根据实践经验进行 过非系统性的总结。而市场上大部分关于数据仓库构建理论的书又太 过强调系统性,成了数据仓库基本概念和理论的堆积。 1 4 本文的研究内容 数据仓库并没有严格的数学理论基础,也没有成熟的基本模式, 且更偏向于工程,具有强烈的工程性。因此,本文把数据仓库作为一 个工程项目来考察,强调在技术实现过程中的质量控制。拟在讨论数 据仓库有关理论的前提下,以数据仓库在宝钢企业统计系统中的应用 为例,深入该系统的数据仓库的设计和开发过程。借以探讨和研究数 据仓库的构建方法。文章的主要内容包括: ( i ) 数据仓库体系结构的三层视图:包括概念层、逻辑层和物 理层。 ( 2 ) 立足于三层视图的数据仓库的构建方法。 数据仓库构建方法及其应用实例研究 ( 3 ) 数据仓库构建过程中的质量控制 ( 4 ) 数据仓库构建方法的具体应用 数据仓库构建方法及其应用实例研究 第二章数据仓库的基本理论和方法 2 1 数据仓库的基本概念 2 1 1 什么是数据仓库? 数据仓库( d w ) 的概念最初出现在2 0 世纪8 0 年代中期,由i b m 公司首先提出。然而,由于对数据仓库研究和应用者的立场和目的不 同,数据仓库仍是让人迷惑的几个i t ( i n t e l l e c t u a lt e c h n o l o g y ) 术语之 一0 数据仓库领域的最早的实践者和专家之一b a r r yd e v l i n 认为数 据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储, 这种数据存储可以允许最终用户以一种他们能够在其业务范畴中理 解并使用的方式提供给他们【9 l o 数据仓库维度建模一书的主要作者k i m b a l l r a l p h 认为:数 据仓库提供公司数据以及组织数据的访问功能;其中的数据是一致的 ( c o n s i s t e n t ) ;其中的数据可以按每种可能的商业度量方式分解和组 合;数据仓库也是一套查询分析和呈现信息的工具;数据仓库是我们 发布所用数据的场所;其中数据的质量是业务流程再造的驱动器 ( d r i v e ro f b u s i n e s sr e e n g i n e e r i n g ) 。 我国数据仓库专家沈兆阳则把数据仓库定义为:数据仓库不仅包 含了分析所需的数据,而且包含了处理数据所需的应用程序,这些程 序包括了将数据由外部媒体转入数据仓库的应用程序,也包括了将数 据加以分析并呈现给用户的应用程序【。 m a t t i a s ,j a r k e 等人在 f u n d a m e n t a l so f d a t aw a r e h o u s e ) ) 一书中 指出,数据仓库是所有帮助知识员工( 总裁、经理和分析员) 作出更 数据仓库构建方法及其应用实例研究 好决策的技术集合。数据仓库能在适当的时间适当的场合以适当的成 本向决策人员提供适当的信息以作出正确的决策1 8 。 目前为止,被最为广泛接受的数据仓库的定义还是被誉为数据仓 库之父的美国学者w h i n m o n 在1 9 9 1 年出版的 b u i l d i n gt h ed a t a w a r e h o u s e 一书中所提出的定义:数据仓库是面向主题的、集成化 的、稳定的、随时间变化的数据集合,用以支持决策管理的过程。 由上述定义,可以看出,数据仓库是一种海量数据存储技术,其 中的数据组织方式,支持决策者高效的查询和分析企业数据。同时, 数据仓库还能实现异构数据源得统一和多维报表数据的展现。总之, 数据仓库是企业高效利用数据,发现信息的有效工具。 2 1 2 数据仓库的基本特点 数据仓库具有面向主题、集成、稳定、随时间变化和支持管理 决策五个基本的特点。 l 、面向主题 操作型数据库中的数据面向事务处理,以优化事务处理的方式 构造数据结构,将与某项业务操作过程相关的数据集中存储。特定主 题的数据可能包含在不同类型的事务中,分散在不同的业务系统里。 数据仓库根据业务决策者使用数据的方式,将所有数据集中存储,按 主题模式组织数据。决策者可以通过数据仓库迅速获得分析主题的所 有信息。图2 1 的案例直观地说明了操作型的数据库按业务组织数 据( 横向) ,而数据仓库按分析主题组织数据( 纵向) 的特点。 1 6 数据仓库构建方法及其应用实例研究 攒挥嘲教 捧脚职统 融捌盘辟| ,l h 勺 糖) 图2 - 1 操作型数据库系统和数据仓库的数据组织形式【2 3 l 2 、集成性 数据仓库的集成性主要表现在数据仓库将来自不同数据源的操 作型数据转变为统一的数据仓库中心。在数据仓库环境中,决策者无 法看到数据来源,而只是看到集成后的数据。 数据仓库数据集成过程主要包括数据转换和数据净化两个过程。 数据净化是指在从数据源抽取数据的过程中除去错误的过程,它 是数据仓库中数据处理最重要的一个步骤。错误的操作型数据载入到 数据仓库中,轻则导致数据仓库失败,领导者不信任数据仓库中的数 据,重则误导领导者决策,后果相当严重。 数据转换过程是指将不同运作系统输入的数据转换成统一的格 式的过程。数据转换过程工作量巨大,其主要任务是消除异源数据的 差异。异源数据差异主要有:描述差异、编码差异、单位差异、格式 差异等四大类。表2 1 以客户名称、性别、电缆长度、关键字等几 个数据字段为例,说明了同一数据在不同系统中可能出现的四种典型 差异。 表2 1 异源数据差异举例 差异类别a 系统b 系统c 系统 客户名称客户名称 客户名称 描述差异i n t e m a t i o n a l i b m i b m b u s i n e s sm a c h i n e s 1 7 数据仓库构建方法及其应用实例研究 性别 性别性别 编码差异 1 = m a l em = m a l ex = m a l e 2 = f c m a l ef = f e m a l ey = f c m a l e 电缆长度电缆长度电缆长度 单位差异 厘米码英寸 关键字关键字芙键字 格式差异 c h a r a c t e r ( 1 0 ) i n t e g e r f l o a t 3 、稳定性 数据仓库的稳定性表现在它的数据一旦写入就不会再有变化。操 作型系统中的数据随着业务事实的改变而改变,新的事实数据覆盖原 来的数据。而数据仓库中,原来的事实数据将作为历史数据保留下来。 新的事实数据抽取进来后不覆盖原有数据。这种特性有助于决策者把 握全面的信息,进行必要的趋势和预测分析。 4 、随时问变化 数据的稳定性给数据仓库增加了一个新的维度,即时间。如果在 某一特定时刻提取操作型系统中的所有数据,这些数据将组成描绘组 织情况的瞬态图。数据仓库定期对操作型数据进行抽取,因此存储了 一系列具有一定时间间隔的瞬态图。决策者可以从时间的维度出发考 察任意级别的数据。还可以按时问查看数据的模式和趋势。 5 、支持管理决策 数据仓库以支持决策分析为目的。其面向主题、集成、稳定和随 时间变化等特性都是为了支持管理决策服务的。 2 1 3 数据仓库的技术特点 战。 数据仓库的基本特征决定了数据仓库在实现技术上具有如下特 1 、面对不可预期的分析需求,数据仓库数据模型的设计面临挑 传统的数据库通常是为了适应企业事务处理的需要而设计的。一 数据仓库构建方法及其应用实例研究 个成熟的企业,其业务处理模式是相对稳定的,因而,业务处理对数 据组织的需求也是相对稳定的,可以预先确定的。而企业的决策需求 确实多样的而且多变的,甚至具有一定的不可预期性。然而数据仓库 项目的建设不可能脱离需求,因此,数据仓库的设计比数据库设计面 临更大的挑战。 2 、数据仓库的集成特性给数据清洗和转换工作带来难度。 为适应决策支持的多样性需求,更有效的支持多层次,多种知识 的分析和发现,数据仓库对企业各系统中的数据进行集成和综合处 理。数据的一致性和正确性是保证数据质量的基本要求,也是数据仓 库项目成败的关键。 3 、数据仓库规模巨大 出于对决策支持的需要,数据仓库中必须保持相对较长时间的 历史数据。数据粒度的确定和需求紧密相关,而且,决定数据仓库的 成本和查询效率短则二三年,长则十几年。而且,为了满足不同层次 的需求,数据还可能存在一定程度的冗余,由此造成的数据的巨大规 模,是数据仓库实现过程中得面临的又一大技术问题。 4 、数据仓库的查询是优化的 数据仓库对决策分析得支持通常通过对历史数据得比较、趋势发 现和预测来实现,其中涉及到对海量历史数据得查询。如果数据按照 传统得数据库方式来组织,其查询效率是不可能满足客户需求的。数 据仓库对数据进行预汇总,预索引和预设子集。将数据分隔和组合为 许多可能的组合( 分片和切块) ,更有效的支持反复查询大量数据的 决策分析需求。 5 、数据仓库必须与专门的分析工具配合使用 数据仓库要发挥作用,就必须使决策分析工具能充分利用数据仓 库的结构。数据仓库中数据的存储结构直接受到分析工具读取模式的 影响,因此数据仓库的设计必须考虑到所使用的分析工具的要求。 数据仓库构建方法及其应用实例研究 2 1 4 基本术语介绍 作为一项新兴技术,数据仓库应用过程中涉及若干基本概念,这 些基本概念是理解和掌握数据仓库构建技术的基础,本小节将对其中 几个主要概念作简单介绍。 事实表 事实表是维度模型的基本表,存放大量业务性能度量值。是用户 考察和分析的基本对象。事实表的内容由数据仓库的覆盖范围决定。 维表 维度是人们观测数据的特定角度,根据观察数据的某个角度的细 节程度的不同,可以将维划分为不同的层次。一个维度对应一个维度 表,而维的层次对应维表中的字段。维表中的每一条记录,便成为该 维度的成员。 粒度 粒度是指数据仓库中数据单元的细节程度或综合程度的级别。细 节程度越高,粒度级别就越低:相反,细节程度越低,粒度级别就越 高【1 1 。 维度模型 维度模型就是多维逻辑视图,其数据的物理存储形式可以分为基 于多维数据库( 空间超立方体) 和基于关系数据库( 由关系型事实表和 维表组成) 两种方式。逻辑上表现为事实表和维表的不同组合方式。 常见的维度模型有星型模型、雪花模型,复杂应用中还可能用到星座 模型和雪暴模型。 星型模型 由一个事实表连接多个维表的主题模式被形象的称为星型模式。 雪花模型 雪花模式将复杂的维度分成多个层次不同的维度表,一个事实表 连接多个维度表,部分维度表连接下一层次维度。 元数据 数据仓库构建方法及其应用实例研究 元数据是关于数据的数据。用户描述数据的内容、质量、环境以 及其它一些相关信息。从元数据的内容上,可以分为静态数据和动态 数据两大类,其中静态数据描述数据仓库中各种数据的结构信息。如 表名,格式、依赖关系和业务规则等。动态数据则包括数据的处理信 息、状态信息等。元数据是系统人员管理数据仓库,保证数据质量的 重要依据。 2 2 数据仓库的体系结构 2 2 1 数据仓库体系结构的重要性 数据仓库的体系结构是数据仓库项t g 成败的关键因素。i b m 公 司在其技术指导手册 g e t t i n gs t a r t e dw i t hd a t aw a r e h o u s i n g ) ) 一书中, 总结以往项目经历,发现导致数据仓库项目失败的原因往往不是技 术,而在于如何使用技术。全球著名的市场调研和咨询公司m e t a g r o u p 在1 9 9 8 年的一份调查分析中指出数据仓库项目的六大障碍为: 数据质量、管理终端用户期望、历史遗留的数据转换工作、业务规则 分析、数据建模、把握管理期望。而数据仓库的体系结构的确立兼顾 了以上六个方面问题的解决。 数据仓库的体系结构( d a t aw a r e h o u s ea r c h i t e c t u r e ) 是联系企业 的战略信息需求和信息体系、应用体系和技术体系的桥梁。在逻辑上 将企业的战略目标,业务规则、信息需求、应用系统、需求和应用以 及数据之间的关系和技术的基础架构组织在一起。数据仓库的体系结 构可以完成4 项主要任务: 1 、通过业务模型连接应用设计和数据仓库设计,有利于进行变 动管理。 2 、保证得出的战略信息与操作型数据库系统中的数据是一致的。 3 、促进数据共享。降低不必要的冗余和数据仓库的维护成本。 4 、保证整个项目的一致性以及有序性,为数据仓库的开发提供 数据仓库构建方法及其应用实例研究 依据。 因此,数据仓库的体系结构是数据仓库项目的规划书,是整个项 目实施的重要依据。 2 2 2 数据仓库体系结构的发展 传统的数据仓库体系结构的理解仅仅局限于数据在不同存储层 次和应用层次间流动的关系。强调数据仓库物理层次的结构。 1 9 9 3 年i b m 发表了数据仓库体系结构的类书参考模型,系统讨 论了四种传统的数据仓库体系结构:单层次体系结构、双层协调体系 结构、双层衍生体系结构和三层体系结构。】 1 、单层体系结构 单层体系结构中,用户和操作数据库之间有一个中间件,数据 仅被存储一次。因此没有实质的数据参考,但它模拟使用视图,所以 有时称为虚拟数据仓库,仅在很少情况下使用。这种结构因为其低成 本而得到相对较快的发展。然后它的每次查询都要进行计划活动( 如 数据源定义,数据转移等) 在决策查询需求较多,查询数据量大的时 候,会影响操作型系统的正常运行。单层结构模型中,数据在使用之 前是不会被复制的。 2 、双层协调体系结构 适当的业务数据存放在经过调和和清洁的全局数据仓库中,决 策支持工具直接访问该全局数据仓库。全局数据仓库包含细节记录 ( 和在数据源层次中一样) 。这种模型也只在少数情况下使用。因为 全局数据仓库中只存储细节记录,且覆盖全局数据。针对应用筛选数 据和计算集中数据的任务都必须由决策支持工具来完成。 3 、双层衍生体系结构 双层衍生体系结构中第一层是源数据,第二层是衍生数据。衍 生数据可以是源数据的“拷贝”,也可以是经过过滤和概括生成的, 存储在数据集市或者专用高速缓存中。决策支持工具访问衍生层的数 据。这种结构实现起来非常方便,但它的缺点是每个决策支持应用 数据仓库构建方法及其应用实例研究 有自己的衍生数据,所以不能用一个公共的“拷贝”来支持多个决策 支持。 三层体系结构把用于决策支持的数据分为两个部分:一部分属 于不同数据源的数据形成的调和层,放入全局数据。另一部分是指从 调和数据经过过滤和概括进入数据集市用于决策支持的衍生数据。在 这个概念中的三层结构包含业务数据、调和数据和衍生数据。在建立 数据仓库以前,数据必须在全局仓库中经过调和( 即一致性处理) , 这样才能避免出现同一个问题得到不同回答的局面。目前三层体系结 构是被广为接受的一种数据仓库体系结构。 如图2 2 所示,典型的三层结构体系可以用四元组来表示 d w a = 其中, o s :数据源数据,即操作型的与应用相关的业务数据。 d w :全局数据仓库,它管理与调和数据有关的数据、模式和 应用 d a t a m a r t s :数据集市,它管理用于决策支持的用于各个部门的 数据、模式和应用。 m e t a :元数据坨在三层结构数据仓库中提供关于数据源、模式 和交互的有关信息。 9 0 年代中后期,随着数据仓库技术的发展和应用的普及,人们 数据仓库构建方法及其应用实例研究 对数据仓库支持决策分析的性能和质量提出更高的要求。i b m 又先 后推出带o d s ( o p e r a t i o n a ld a t as t o r e ) 的三层体系结构和联邦数据仓 库解决方案,以提高数据分析的及时性。 所谓o d s ( 操作数据存储) 是面向主题的,集成的,经常更新 的细节数据存储,用于集成操作型数据库,其数据是当前的或者接近 当前。o d s 是介于传统数据库( d b ) 和数据仓库( d w ) 之间的一 种数据存储技术,和原来面向应用的分散的d b 相比,o d s 中的数 据组织方式和数据仓库( d w ) 一样也是面向主题的和集成的,所以 进入o d s 的数据也像进入数据仓库的数据一样进行转化和集成处 理。另外,o d s 只是存放当前或接近当前的数据,可以对o d s 中的 数据进行增加、删除和更新等操作,虽然d w 中的数据也是面向主 题和集成的,但这些数据一般不进行修改,所以o d s 和d w 的区别 主要体现数据的可变性和当前性上。带有o d s 的数据仓库体系结构 加强了数据仓库的时效性和互动性。 联邦数据仓库是i b m 2 0 0 4 年推出的产品i n f o r m a t i o ni n t e g r a t i o n 支持的功能,它可以通过建立视图访问异构数据源,其基本原理和单 层体系结构非常类似,其不同之处在于,先建立视图连接,无需每次 都定义计划活动。但它与单层体系结构一样,在海量数据情况下,效 率非常低下。 2 2 3 数据仓库体系结构完整描述 事实上,完整描述一个数据仓库体系结构应该从概念、逻辑和 物理实现三个层次来描述,传统的数据仓库体系结构都只是侧重数据 仓库体系结构在物理层上的描述,而忽略概念层和物理层的描述。事 实上,数据仓库概念层和逻辑层的描述对于理解数据仓库,保证数据 质量,构建成功的数据仓库同样发挥着至关重要的作用。 5 a r k e 等人综合数据质量问题,在f u n d a m e n t a l so fd a t a w a r e h o u s e s ) 提出了如图2 3 所示的数据仓库体系结构,分别从概念、 逻辑和物理三个层次描述了数据仓库的结构。 2 4 数据仓库构建方法及其应用实例研究 图2 3 三层架构的数据仓库体系的概念视图、逻辑视图和物理视图 概念层、逻辑层、物理层内部分别分为分析应用客户端,企业 中心和操作型系统数据源三个部分,并一一对应。 概念层中,企业的模型包括企业的战略目标和主要业务内容, 它决定了企业对操作型业务系统的需求。由于分析用户的需求存在一 定的不可预期性,因此,只能说企业的模型部分决定了分析用户端的 需求。分析客户端的模型即用户对分析系统的期望。而操作型系统模 型则包括原有操作型系统的软硬件状况、功能和所收集的数据内容。 逻辑层是概念层和物理层的过渡,主要完成数据仓库的设计工 作。企业的业务模型决定了数据之问的逻辑关系,同时操作型系统模 型也决定了源数据的内容和组织方式。根据企业业务模型和数据仓库 的基本理论,对源系统中的数据进行重组设计的过程就是数据仓库维 度建模的过程。是数据仓库设计的重要内容。分析系统从数据仓库中 选取需要的数据,进行必要的聚集,建立针对特定分析应用的数据集 市等。 完成逻辑层的设计工作后,物理层的实现是数据仓库工作主要 内容。根据设计,借助定的工具或程序语言,从源数据库中抽取数 据,实现设计中描述的数据仓库和客户端数据库。 曼一 墨塞一 一再j一j一 叩_!一一 数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论