已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库在决策支持系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 数据仓库在决策支持系统中的应用研究 摘要 面对当今激烈的市场竞争,信息对企业的生存和发展起着至关重要的作用。数据仓 库技术能有效地解决企业中普遍存在的“数据过剩、信息不足”问题,使企业有效组织 和管理数据,从而分析和挖掘出有价值的信息和规律,为科学决策提供支持。然而,数 据仓库自身技术复杂,实施更是一个繁杂的系统工程,要把数据仓库真正应用到企业实 际,需要进行深入的应用研究。 本文首先系统介绍了数据仓库基本理论,深入研究了数据集市、数据e t l 、多维建 模、o l a p 等相关关键技术,然后细致分析了传统决策支持系统的体系结构和存在的不 足以及基于数据仓库的决策支持系统的体系结构;结合企业进行数据仓库系统建设的实 际需求,分析比较了常用数据仓库实施策略,研究制定适合企业实际的系统实施策略和 体系结构;使用多维建模技术,针对销售业务数据分析需求,建立了数据仓库逻辑模型 和物理模型,通过在d t s 中嵌入编程,定制了数据抽取转换加载过程;在数据多维分 析模块,充分利用组件技术,引入x m l ,w e bs e r v i c e s ,设计了基于w e b 的o l a p 应 用的体系结构,并详细论述了系统核心功能的实现方法和过程。 通过本文的研究,对数据仓库技术有了更深入的理论认识;针对数据仓库系统建设 中的多维建模、数据e t l 、o l a p 等关键技术问题,着重从应用角度给出了行之有效的 解决方案:原型系统的设计与实现,为企业全面实施数据仓库、联机分析系统奠定了基 础,并提供了实际参考。 关键字:数据仓库、决策支持、数据集市、多维建模、星型模型、e t l 、o l a p 1 1 东北大学硕士学位论文 a b s t r a c l s t u d yo nt h ea p p l i c a t i o no fd a t aw a r e h o u s e i nd e c i s i o ns u p p o r t s y s t e m a b s t r a c t f a c i n gt h ec u r r e n tf i e r c em a r k e tc o m p e t i t i o n ,i n f o r m a t i o np l a y sa ni m p o r t a n tr o l ei n e n t e r p r i s e se x i s t e n c ea n dd e v e l o p m e n t d a t aw a r e h o u s e ( d w ) t e c h n o l o g yi sa b l et os o l v et h e ”d a t as u r p l u s ,i n f o r m a t i o ni n a d e q u a t e ”p r o b l e me f f i c i e n t l y , w h i c hc o m m o n l ye x i s t si n e n t e r p r i s e s e n t e r p r i s e so r g a n i z ea n dm a n a g ed a t ae f f i c i e n t l yw i t hd w a n a l y z ea n dd i go u t v a l u a b l ei n f o r m a t i o na n dm l e s ,w h i c hp r o v i d es u p p o r tt os c i e n t i f i cd e c i s i o n h o w e v e r , d w i t s e l fi sc o m p l i c a t e d ,a n dt h ei m p l e m e n t i n gi sam u l t i f a r i o u ss y s t e mp r o j e c t ,ad e e pr e s e a r c h i sn e e d e ds oa st oa p p l yd wt oe n t e r p r i s e sp r a c t i c e f i r s t l y , t h et h e o r i e so fd w i si n t r o d u c e d ,r e l a t e dk e yt e c h n o l o g i e s ,s u c ha sd a t am a r t , d a t ae t lm u l t i d i m e n s i o n a lm o d e l i n ga n do l a p , a r er e s e a r c h e dd c c p l y , t h e nt h es y s t e m s t r u c t u r ea n dd e f i c i e n c i e so ft r a d i t i o n a ld e c i s i o ns u p p o r ts y s t e m ( d s s ) ,a n ds y s t e ms t r u c t u r e o fd s sb a s e do nd wa r ea n a l y z e d c o m b i n e dw i t he n t e r p r i s e sp r a c t i c a lr e q u i r e m e n to fd w d e v e l o p m e n t , t h i st h e s i sa n a l y z e sa n dc o m p a r e sc o m m o nd we x e c u t i o ns t r a t e g i e s ,r e s e a r c h e s a n de s t a b l i s h e ss y s t e m se x e c u t i o ns t r a t e g ya n ds t r u c t u r e ,w h i c hs a t i s f i e st h ee n t e r p r i s e s p r a c t i c a ln e e d s t h el o g i c a la n dp h y s i c a lm o d e l so fd w a r eb u i l tw i t hm u l t i d i m e n s i o n a l m o d e l i n gt e c h n o l o g y , w h i c ha i ma tt h ea n a l y s i so fb u s i n e s sd a t af r o ms a l e s ,t h ep r o c e s so f d a t ae x t r a c t i o n - t r a n s f o r m a t i o n - l o a d ( e t l ) i se s t a b l i s h e do nd t sw i t he m b e d d e dp r o g r a m s t o o i nd a t am u l t i d i m e n s i o n a la n a l y s i s p a r t ,t h ec o m p o n e n tt e c h n o l o g y i s e m p l o y e d a d e q u a t e l y , t h es y s t e ms t r u c t u r eo fo l a pa p p l i c a t i o nb a s e do nw e bi sd e s i g n e d ,a n dt h e a c c o m p l i s h m e n tm e t h o d sa n dp r o c e s s e so fs y s t e m sc o r ef u n c t i o n sa r ee x p o u n di nd e t a i l t h r o u g ht h i sr e s e a r c h ,t h e r ei s m o r ek n o w l e d g eo fd wo nt h e o r y ;i nt e r m so ft h e a p p l i c a t i o n ,e f f e c t i v e s o l u t i o n sa i ma t p r o b l e m s o fc o r e t e c h n o l o g i e s ,s u c h a s m u l t i d i m e n s i o n a lm o d e l i n g ,d a t ae t ko l a pi nd w s y s t e mc o n s t r u c t i o na r eb r o u g h to u t ;t h e d e s i g na n dr e a l i z a t i o no ft h ep r o t o t y p es y s t e ms e t t l e sf o u n d a t i o nf o re n t e r p r i s e so v e r a l l c o n s t r u c t i o no fd wa n do l a ps y s t e m ,a n dp r o v i d e sap r a c t i c a lr e f e r e n c ea tt h es a m et i m e k e yw o r d s :d a t aw a r e h o u s e ,d e c i s i o ns u p p o r ts y s t e m ,d a t am a r t ,m u l t i d i m e n s i o n a l m o d e l i n g , s t a rs c h e m a ,e t l , o l a p i l l 独创- i 生声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发 表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的 材料与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示谢意。 学位论文作者签名:是0 吝盘 日期:聊,舞,2 司_ r 目 f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用 学位论文的规定,即学校有权保留并向国家有关部门或机构送交论 文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可 以将学位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同 意。1 学位论文作者签名:硅婊生 签字日期:箩粤,2 闪r 目 新签名:j 粉芋 签字日期:础皋凋鼻曰 东北大学硕士学位论文 第一章绪论 1 1 课题研究背景 第一章绪论 2 0 世纪8 0 年代到9 0 年代初,联机事务处理( o l t p ,o n l i n e t r a n s a c t i o n p r o c e s s i n g ) 一直是数据库应用的主流。然而,随着应用的不断深入,用户发现单靠联机事务处理已 经不足以获得市场竞争的优势,迫切需要对自身业务的运作以及整个市场相关行业的情 况进行分析,从而作出科学的决策。这种对大量的业务数据,包括历史数据进行的决策 分析,称为联机分析处理( o l a p ,o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 。在如今激烈的市场 竞争环境下,这种决策分析显得尤为迫切和重要。但是,传统的联机事务处理强调的是 更新数据库向数据库中添加信息,而联机分析处理则是从数据库中获取信息。传统 事务处理环境已不适宜决策分析,主要表现在i i j : ( 1 ) 联机事务处理强调的是密集的数据更新处理性和系统的可靠性,劳不关心数 据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一数据库在理论上难 以做到两全。 ( 2 ) 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量 的历史数据处于脱机状态,形同虚设。 ( 3 ) 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合 非计算机专业人员进行业务上的分析和查询。 因此有人感叹:2 0 年前查询不到数据是因为数据太少,而今天查询不到数据是因为 数据太多i ”。针对这一问题,人们设想专门为数据的统计分析建立一个数据中心,其数 据来自于联机事务处理系统、异构的外部数据源、脱机的历史业务数据等。这个数据中 心是一个联机的系统,专门为分析系统和决策支持应用服务,通过它可以满足联机分析 和决策支持所要求的一切。这个数据中心就是数据仓库( d w ,d a t a w a r e h o u s e ) 。 以辩证的眼光看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。 传统数据库关注于事务处理,而数据仓库则专注于分析决策。另一方面,数据仓库技术 也是行业竞争的必然结果。随着市场化程度的逐渐深入和市场竞争的加剧,企业迫切需 要提高自己的数据分析能力。从传统的粗放型经营转向集约型经营,要求能够对管理的 各种内容进行细化,并将经营决策建立在理性分析的基础上。这种分析只有建立在企业 内部各个环节和外部市场等各个方面产生的数据基础上,才能够真实地反映企业的实际 运营情况,发现企业运转中的各种问题,以及发现客户的消费行为特征等,全面提高企 业的市场竞争能力。 重庆德佳商贸有限公司长期从事食品生产、批发等业务,经营实力强大,在西南地 区占有较大的市场份额。但是随着市场经济的迅速发展,商品流通领域的国际性和地区 东北大学硕士学位论文第一章绪论 性竞争日益增强。如何在激烈的市场竞争中,建立、巩固和发展自身的地位和形象,以 求占有更大的市场份额? 企业认识到必须利用计算机和网络技术、数据仓库技术,深层 次地分析、挖掘当前和历史的业务数据,以及竞争对手、外部市场等数据,快速获取其 中有用的决策信息,为企业提供准确和方便的决策支持。因此,公司提出了数据仓库建 设的需求。本文抓住数据仓库这一研究热点,结合企业实际,展开了数据仓库理论和实 践应用的研究。 1 2 国内外应用现状 数据仓库概念自1 9 9 2 年首次提出,国外已展开了广泛深入的研究,在各个关键技 术上突飞猛进,已有众多商用数据仓库产品走向市场1 2 j 。i b m 、o r a c l e 、s y b a s e 、c a 、 n c r 、s a s 、m i c r o s o f t 等公司己相继推出了各自的数据仓库解决方案,b o 和b r i o 等专 业软件公司也在前端在线分析工具市场占有一席之地。同时,许多大公司纷纷参与d w 、 o l a p 、d m 等系统的开发和应用,在公司内部建立起数据仓库,利用联机分析和数据 挖掘工具进行决策分析。比如n c r 为沃尔玛公司建立了1 0 0 t b 级别的数据仓库,分析 挖掘产生了“啤酒与尿布”等经典案例:美国西南贝尔、巴西b c p 电信、澳大利亚国 家社会服务局等纷纷建立数据仓库,用以提高运营效率,降低成本:1 9 9 6 年,全球企 业在数据仓库上的投资达到1 6 8 亿美元,并且以每年1 9 1 的速度增长;据调查,财 富5 0 0 强企业中已经有8 5 的企业建成或正在建立数据仓库。 在国内数据仓库技术也引起了广大科研人员的兴趣,很多大学和研究机构对数据仓 库及相关技术进行了研究。部分软件厂商也进行了相关产品的开发,但到目前为止,国 内基本上没有成熟的数据仓库产品,大多还处在系统集成阶段。同时,我国部分企业也 开始了数据仓库的建设,比如广东省移动通信有限责任公司同珠海创我科技发展有限公 司实现了基于数据仓库的移动企业决策支持系统m a s a l 3 】;广东电信科学技术研究 院利用s y b a s e 公司数据仓库解决方案,构建了t h i n k e r - b c 2 0 0 0 3 j 多媒体网络综合业务 系统。此外,在金融、证券、保险等其他传统数据密集型企业也有一定应用。但总体而 言,数据仓库技术在我国的应用不广,部分己建立和实施数据仓库的企业也没有取得良 好的收益。数据仓库技术还未得到国内企业的广泛重视。 1 3 研究目的和意义 数据仓库应用在国内没有推广开来的原因很多,除了数据仓库系统自身的复杂性以 及国内企业信息化基础不完善、数据积累不充分、数据管理机制不健全等因素,另一个 重要的原因,就是缺乏对数据仓库应用的深入研究。本课题旨在研究如何将数据仓库技 术应用于企业实际。在对数据仓库相关概念和原理有系统认识和把握的基础上,与实践 应用相结合,研究数据仓库的关键技术,探索适合企业实际的数据仓库体系结构、设计 东北大学硕士学住论文第一章绪论 方法、实施策略及相关应用技术。在此基础上,结合企业决策的具体需求,进行相关应 用设计和开发,构建原型系统,为企业全面进行数据仓库、联机分析、数据挖掘、决策 支持系统的研发奠定理论和技术基础,同时提供实践参考。 1 4 研究内容 本文研究的主要内容包括: ( 1 ) 数据仓库技术及基于数据仓库的决策支持系统的体系结构 数据仓库技术正处于发展阶段,首先从理论上研究数据仓库及其相关技术,然后分 析传统决策支持系统的特点和存在的不足,探讨基于数据仓库的决策支持系统体系结 构。 ( 2 ) 数据仓库设计方法和实施策略 正确的数据仓库设计方法和实施策略是成功构建数据仓库的基本条件,在分析比较 通用设计方法和实施策略的基础上,制定满足实际需求的数据仓库设计方法、实施策略 及步骤。 ( 3 ) 利用多维建模技术,建立满足实际需要的数据仓库模型 多维建模是数据仓库设计中的核心和难点。分析比较星型模型、雪花模型、第三范 式等常用建模方法,根据对数据分析的具体需求,进行数据仓库逻辑模型、物理模型的 设计。 ( 4 ) 数据抽取转换加载技术 数据e t l t 4 1 ,即数据抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 、加载( l o a d ) ,是 构建数据仓库最繁杂的步骤之一。探讨数据e t l 技术,研究如何根据实际需要进行数 据抽取、转换和加载。研究在通用e t l 工具中进行嵌入式编程,定制转换等问题。并 根据企业信息环境,定制e t l 过程。 ( 5 ) 基于w e b 的o l a p 系统的体系结构和实现方法 联机分析处理( o l a p ,o n l i n ea n a l y t i c a lp r o c e s s i n g ) 1 4 蝗数据仓库数据分析展现 的手段。探讨o l a p 相关概念和技术,研究基于w e b 的o l a p 应用的体系结构和实现 方法,并构建基于w e b 的o l a p 应用。 1 5 论文结构 第一章主要介绍了课题研究背景、当前国内外应用现状,以及本文研究目的,意义 和研究内容。最后对整篇论文的结构组织做简单的介绍,让读者对本文有一个整体把握。 第二章为数据仓库技术概述。介绍了数据仓库的概念、主要特征、数据仓库中数据 的组织与管理、数据集市,以及数据仓库设计和o l a p 等,对数据仓库建模技术进行了 分析和比较,探讨了数据仓库设汁中的数据抽取转换加载技术。 3 东北大学硕士学位论文 第一幸绪论 第三章首先讨论了传统决策支持系统的体系结构以及存在的问题,然后对基于数据 仓库的决策支持系统体系结构进行了分析。 第四章在对实际应用环境有了清楚认识的基础上,提出适应企业实际的数据仓库系 统的实施策略,设计了基于数据仓库的决策支持系统的总体框架。 第五章首先分析了支持事务处理的业务信息系统,然后详细介绍了数据仓库的设计 过程,主要包括数据识别、数据仓库建模、数据e t l 等,然后抽取转换并加载业务系 统中的数据,生成数据仓库,最后介绍了数据立方的建立。 第六章首先分析了当前o l a p 系统面临的挑战,然后针对性地引入o w c 、x m l 、 w e bs e r v i c e s 等技术,设计基于w e b 的o l a p 系统的体系结构,详细论述了系统中核心 功能的设计方法和实现过程。最后对其进行了简单的分析评价。 第七章结束语。对本课题的研究内容进行了总结,指出研究中存在的不足和以后需 要开展的工作。 东北大学硕士学位论文 第二章数据仓库技术研究 第二章数据仓库技术研究 2 1 数据仓库概念 数据仓库的概念最早由“数据仓库之父”w hi n m o n 先生于1 9 9 2 年首次提出,并 在后续的著作中加以完善和发展。i u m o n 先生指出,数据仓库( d w ,d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、相对稳定的( n o n v o l a t i l e ) 、 时变的( t i m e v a r i a n t ) 的一系列用于管理和决策制定的数据集合t 5 1 。 对此可以从两个层次进行理解:首先,数据仓库用于支持决策,面向分析型数据处 理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集 成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般 不再修改。 2 2 数据仓库的特点 2 2 1 主要特点 根据数据仓库概念可以看出,数据仓库拥有以下4 个特点: 1 面向主题( s u b j e c t o r i e n t e d ) 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据 仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数 据仓库进行决策时所关心的重点方面,如客户、分销商、产品、活动等。一个主题通常 与多个操作型信息系统相关。 2 集成的( i n t e g r a t e d ) 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立, 并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据经抽取、清洗、 汇总、整理等加工而得到的,消除原数据中的不一致性,以保证数据仓库内的信息是关 于整个企业的一致的全局信息。集成性以多种形式表现出来,如一致的命名转换、一致 的变量度量、一致的编码结构、一致的数据物理属性等。集成性是数据仓库最重要的特 点。 3 相对稳定的( n o n v o l a t i l e ) 操作型数据库中的数据通常实时更新,数据根据需要而发生变化。数据仓库的数据 主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据 仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修 改和删除操作很少。通常只需要定期的加载、刷新。 5 一 东北大学硕士学位论文 第二章数据仓库技术研究 4 。时变的( t i l n c v a r i a n t ) 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含 历史信息,系统记录了企业从过去某一时点( 比如开始应用数据仓库的时点) 到目前的 各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预 测。数据仓库中数据记录的键总含有一个时间元素。数据一旦被集成进数据仓库,除非 特别需要,一般都不会被改变。 2 2 2 数据特点操作型数据与分析型数据区别 传统数据库系统中的操作型数据和数据仓库中的分析型数据之间存在着本质的区 别: ( 1 ) 数据仓库中存放的是分析用的数据,支持管理决策、趋势分析和战略性计划; 数据库系统中的是操作型数据,主要用于企业的日常事务处理工作。 ( 2 ) 数据仓库中存放的数据是历史性的和经过几层综合的数据,而操作型数据库 中的数据是企业每天操作运行所产生的细节性数据。 ( 3 ) 数据仓库中存放的是集成的数据,操作型数据库中的数据在进入数据仓库之 前,要被转换成企业范围的统一模式。 原始数据( 操作型数据) 与导出数据( 分析型数据) 之间的具体区别如表2 1 所示【5 1 。 表2 1 操作型数据与分析型数据的区别 l ;喏 始数擐i e 攥穗弛数豢嚣毫薹纛: :;导出数据l 缀黼麴数据麓蔫 i 面向应用的面向主题的 细节的综合的或提炼的 在存取瞬间是准确的 代表过去的数据 为日常工作服务为管理者服务 可更新不更新 重复运行启发式运行 操作需求事先可知操作需求事先不知 事务处理驱动分析处理驱动 一次处理数据量小一次处理数据量大 对性能要求高 对性能要求宽松 高可靠性松弛的可用性 整体管理以子集管理 非冗余性时常有冗余 一6 一 东北大学硕士学位论文第二章数据仓库技术研究 i j 灞淄黼避鬃鞲型羧摇熬馥囊器黑礁豢据- 一濑黼整萋獬蘩鬻j 访问的可能性高访问的低可能性或适度可能性 静态结构,内容可变灵活的结构 2 3 数据仓库中的数据组织 2 3 1 数据仓库中的数据组织结构 一个典型的数据仓库的数据组织结构如图2 1 所示i 5 1 。 高度综合级 轻度综合级 当前细节级 早期细节级 图2 1 数据仓库中的数据组织结构 f i g 2 1d a t ao r g a n i z a t i o ns t r u c t u r ei nd a t aw a r e h o u s e 数据仓库中数据被分成四个级别:早期细节级、当前细节级、轻度综合级和高度综 合级。 源数据经过处理后首先进入当前细节级,这是用户最感兴趣的部分,也是数据仓库 的基础,数据量很大。然后根据应用的需要进一步的综合而进入轻度综合级乃至高度综 合级。随着时间的推移,系统中的一些已经老化的数据将进入早期细节级。由于很少被 用户使用,为了节省系统的存储空间,可以将这些老化的细节数据导出到廉价设备上。 数据仓库中还有一部分重要数据是元数据( m e t a d a t a ) 6 1 。元数据是“关于数据的 数据”,如传统数据库中的数据字典就是一种元数据。在数据仓库环境中,主要有两种 元数据: ( 1 ) 为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了所有源数 据项名、属性及其在数据仓库中的转换。 ( 2 ) d s s 元数据,在数据仓库中是用来与终端用户的多维商业模型前端工具之问 建立映射,常用来开发更先进的决策支持工具。 7 东北大学硕士学位论文 第二章数据仓库技术研究 元数据一般要记录如下信息:程序员所知的数据结构、决策分析员所知的数据结构、 数据仓库的源数据、数据加入数据仓库时的转换、数据模型、数据模型和数据仓库的关 系、抽取数据的历史记录。 2 3 2 数据仓库中数据的组织方式 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和多维数据 库存储方式三种j 。 1 虚拟存储方式 虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库数据存储, 数据仓库中的数据仍然在源数据库中,只是根据用户的多维需求形成多维视图,临时在 源数据库中找出所需要的数据,完成多维分析。这种组织方式简单、花费少、使用灵活, 但同时它也存在一个致命的缺点,即只有当源数据库的数据组织比较规范、没有数据不 完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义。 而一般数据库的组织关系都比较复杂,数据库中的数据又存在许多冗余和冲突,在实际 中这种方式很难建立起有效的决策服支持服务。 2 基于关系表的存储方式 基于关系表的存储方式是将数据仓库的数据存储在关系型数据库的表结构中,在元 数据的管理下完成数据仓库的功能。这种组织方式在建库时有两个主要过程用以完成数 据的抽取。 首先要提供一种图形化的操作界面,使分析员能对源数据库的内容进行选择,定义 多维数据模型。然后再编制程序把数据库中的数据抽取到数据仓库的数据库中。这种方 式的主要问题是在多维数据模型定义好后,从数据库中抽取数据往往需要编制独立、复 杂的程序,因此通用性差、很难维护。 3 多维数据库存储方式 多维数据库存储方式是直接面向o l a p 分析操作的数据组织形式。这种数据库产品 也比较多,其实现方法不尽相同。其数据组织采用多维数组结构文件进行数据存储,并 有维索引及相应的元数据管理文件与数据相对应。 2 3 3 粒度与分割 1 粒度 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别【7 1 。细化程度越 高,粒度级别越小;细化程度越低,粒度级别越大。粒度问题是设计数据仓库的一个重 要方面,将直接影响到存放在数据仓库中的数据量的大小和数据仓库所能回答的查询类 型。在数据仓库的数据量大小与查询的详细程度之间要做出权衡。 东北大学硕士学位论文 第二章数据仓库技术研究 一方面,粒度越低,细节程度越高,所回答查询的种类就越多,但同时数据仓库中 数据的量也就越大。当要查询综合性的问题时,就要从大量细节数据中综合并计算答案, 效率十分低下。另一方面,粒度的加大可以提高综合数据的查询效率,但同时也造成回 答细节问题能力的下降。 因此,在数据仓库中,多重粒度是必不可少的。由于数据仓库的主要作用在于决策 分析,因而决定了其绝大部分查询都基于一定程度的综合数据之上,而只有极少数的查 询涉及细节。所以应将大粒度数据存储于快速设备( 如磁盘) 上。这样,对于绝大多数 查询,性能将大大提高。而小粒度数据可存储于低速设备( 如磁带) 上,万一有对细节 的查询也可以满足。当然,这样的查询代价将会是很高的,它并非数据仓库的典型应用。 2 分割 分割是数据仓库中另一个重要概念 7 1 ,它是指将数据分散到各自的物理单元中以便 能分别独立处理,以提高数据处理效率。数据分割可选择按日期、地区和业务领域等, 也可是其组合。一般而言,分割标准总应包括日期项,它十分自然,而且分割均匀。分 割之后,小单元内的数据相对独立,处理起来更快更容易。 2 4 数据集市 数据集市是为了特定的应用目的或应用范围,从数据仓库中独立出来的一部分数 据,也可称为主题数据( s u b j e c ta r e a ) i s j ,或者叫做“小数据仓库”。数据集市的概念 与数据仓库类似,主要区别在于应用的范围。数据仓库是企业级的,可以为整个企业提 供统一的数据视图;而数据集市则主要面向部门。因此,有人将数据集市称为部门级数 据仓库( d c p a r t m c n td a t aw a r e h o u s e ) 1 8 1 。 数据集市通常用于为企业的职能部门提供信息。典型示例是销售、库存、发货、财 务、高级管理等部门的数据集市。数据集市还可以用于将数据仓库数据分段以反映按地 理划分的业务,其中每个地区都是相对自治的。例如,大型服务单位可以将地区运作中 心视为单独的业务单元,每个这样的单元都有自己的数据集市以补充主数据仓库。 有些设计中,数据集市是完全独立的数据仓库,作为分布式数据仓库的成员补充总 体结构;有些设计中,数据集市则通过定期更新,接收来自主数据仓库的数据。由此可 见,数据集市大致可以分为两种类型:独立数据集市和从属数据集市。 1 独立数据集市( i n d e p e n d e n td a t am a r t ) 独立数据集市不依赖于中央数据仓库,往往包含针对部门级或特定业务领域的数据 1 9 1 。独立数据集市的逻辑结构如图2 2 所示。 东北大学硕士学位论文 第二章数据仓库技术研究 图2 2 独立数据集市的逻辑结构 f i g 2 2l o g i cs t r u c t u r eo fi n d e p e n d e n td a t am a r t 独立数据集市的缺点在于如果企业没有一个长远的数据仓库规划,缺乏统一的数据 仓库标准,那么各部门独立建立的数据集市将会面临“数据集市孤岛”【9 】的情况,企业 依然不能够得到一个统一的数据视图,这就违背了数据仓库建设的初衷。 2 从属数据集市( d e p e n d e n t d a t am a r t ) 在数据仓库实施过程中,对于某些主题的业务分析问题,可能会按照主题,采用数 据集市的方式对数据进行进一步的组织,从而在数据仓库的基础之上,根据分析需求创 建相应的从属数据集市p j 。 图2 3 从属数据集市的逻辑结构 f i g 2 - 3l o g i cs t r u c t u r eo fd e p e n d e n td a t am a r t 析 东北大学硕士学位论文第二章数据仓库技术研究 从属数据集市的数据直接来自于数据仓库。采用这种方式,可以较好地保持整体数 据的一致性。为一些访问数据仓库十分频繁的关键业务部门建立从属数据集市,从数据 仓库中抽取分析所关心的那部分数据,可以较好地提高查询的反应速度。从属数据集市 逻辑结构如图2 3 所示。 2 5 数据仓库的设计 数据仓库是一个复杂的系统,数据仓库的设计是一个动态反馈不断循环的过程【1 0 】。 一方面数据仓库的数据内容、结构、分区以及其他物理设计根据用户返回的信息不断地 调整和完善,以提高系统的效率和性能;另一方面,通过不断的理解用户的分析需求, 向用户提供更准确、更有用的决策信息。 数据仓库的设计大致可以分为以下几个阶段: - 决策需求分析阶段; - 数据仓库建模阶段; - 数据抽取转换加载阶段; - 数据仓库维护阶段。 2 5 1 决策需求分析 这一阶段主要完成三个方面的工作,即决策需求分析、界定系统边界、确定主题域。 数据仓库的开发是一个不断丰富与完善的过程,设计之初虽然不可能得到详细而明确的 需求,但是用户能够提供需求的大方向。因此着手建立数据仓库时,首先根据对这些基 本需求信息的分析,划定一个大致的系统边界,集中精力进行最需要部分的开发。其次, 深入分析企业原有业务处理系统的数据,理解企业运作规律,进一步明确用户的决策需 求,并在这些工作的基础上确定数据仓库系统的主要主题域及其关系。 2 5 2 数据仓库建模 为数据仓库中存储的数据建立模型是数据仓库设计的关键一步。通过数据模型,可 以得到企业完整而清晰的描述信息。实体关系建模通常用于为企业的所有业务进程创建 一个复杂的模型。这种方法己被证实在创建高效的联机事务处理系统方面很有效。相反, 维度建模针对零散的业务进程创建个别的模型。例如,销售信息可以创建为一个模型, 库存可以创建为另一个模型。每个模型捕获事实数据表中的事实,以及链接到事实数据 表的维度表中的有关事实的特性。由这些排列产生的模型星型模型或雪花模型,己 被证实在数据仓库设计中很有效。维度建模将信息组织到结构中,这些结构通常对应于 分析者希望对数据仓库数据使用的查询方法。 东北大学硕士学位论文 第二章数据仓库技术研究 1 多维数据模型 数据仓库的多维数据模型i l l 】以事实、度量、维作为基本元素。维有不同的层次,沿 不同的维可以在不同的层次上对事实的度量进行不同程度的聚合,并且能够支持切片 ( s l i c e ) 、切块( d i c e ) 、钻取( r o l lu p d r i l ld o w n ) 、旋转( r o t a t e ) 等操作。 事实是决策支持、数据分析或预测分析时人们感兴趣的焦点,往往用来模型化一个 企业、一个部门所需要关心的事件或决策分析的目标。例如,对于销售企业它所关心的 是各个时期各种产品在不同地区的销售情况,酒店关心的是不同时期客人的入住率,航 空公司关心的是各条航线各个时期的订座情况等。 对数据进行分析总离不开一个叫做关键性能指示器( k p d ,k e yp e r f o r m a n c e i n d i c a t o r s ) 的基本度量项目。k p i 是用来反映相关事实的性能的度量指标。每个k p i 都是一条能够显示事实的性能变化的定量信息,是事实的定量描述。它能够反映公司的 业务运转情况,表明业务活动应该怎样优化等。例如销售的总量,酒店入住的人数,飞 机订座的总数等。在数据仓库的概念模型中将这些k p i 都模型化为相关事实的度量。因 此度量是事实的定量属性,每个事实显然有多个度量属性。例如,对于销售情况,可能 关心销售的总量、销售价格的变化、客户的数量等;对于酒店的入住情况可能关心入住 的人数、住房的价格变化等;飞机订座关心票价、订票的人数等。 为满足分析数据的需要,对事实的度量信息往往需要从不同的角度进行度量,从每 个角度又可以以不同的程度来反映度量的精度。维是一组对事实进行分析时使用的属 性。维允许用户从不同的角度观察事实。例如考虑销售的总量时,可能关心某一天、某 一月、某一年的销售情况,也可能关心某个城市、某个地区、某个国家的销售情况,或 将它们结合起来,关心某个时期某个地区的销售情况等。度量的每个角度都模型化为多 维数据模型的一个维。维的成员可以根据需要度量的程度不同分成彼此相关的不同度量 等级,这些不同的度量等级构成维的层次。 2 数据仓库逻辑模型 用关系数据库来实现数据仓库信息模型时,目前较常用的建模方法是所谓的第三范 式( 3 n f ,t h i r dn o r m a lf o r m ) 和星型模型( s t a r - s c h e m a ) ,以及由星型模型扩展而来 的雪花模型( s n o w s c h e m a ) 1 1 2 1 。 ( 1 ) 第三范式 范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式 进行无损分解,这个过程也称为规范化( n o r m a l i z e ) 。在数据仓库的模型设计中目前一 般采用第三范式,它有非常严格的数学定义。一个符合第三范式的关系必须具有以下三 个条件【1 3 : 每个属性的值唯一,不具有多义性; - 每个非主属性必须完全依赖于整个主键,而非主键的一部分; - 每个非主属性不能依赖于其他关系中的属性。 一1 2 , 东北大学硕士学位论文 第二章数据仓库技术研究 可以看到,第三范式的定义基本上是围绕主键与非主属性之间的关系而作出的。如 果只满足第一个条件,则称为第一范式;如果满足前面两个条件,则称为第二范式,依 此类推。因此,各级范式是向下兼容的。 ( 2 ) 星型模型( s t a r s c h e m a ) 星型模型是一种多维的数据关系,由一个事实表和一组维表组成。事实表中有每个 维的外键,所有这些外键组合成事实表的主键。 订货表 医 匝竺 销售员表 销售员号 销售员姓名 城市 地区表 地区名称 省 订单号 熊篮虽量 盔皇兰 产品号 日期表示 地区名称 数量 图2 4 星型模型示例 f i g 2 4e x a m p l e o fs t a r - s c h e m a 客户表 奎皇呈i 客户名称i 客户地址i 一 产品表 卜匾 ij 产品名称 li 产品目录 ll 单价 图2 4 为星型模型示例图。事实表中包括订单号、销售员号、部门号等多个外键, 这些外键又指向订货表、销售员表、客户表等维表,并作为它们的主键,这就构成了数 据库的多维关系。在事实表中多维外键限定了数字测量值。在每张维表中除包含每一维 的主键外,还有说明该维的一些其他属性字段。维表记录了维的层次关系。在数据仓库 模型中执行查询的分析过程,需要花费大量时间在相关各表中寻找数据。而星型模型使 数据仓库的复杂查询可以直接通过各维的层次比较、上卷、下钻等操作完成。 在数据仓库中除了维表和事实表的数据外,还应当包含一些已预处理的综合数据。 这种数据组织方式存在数据冗余、多维操作速度慢的缺点。但这种方式已成为主流方案, 大多数数据仓库集成方案都采用这种形式。 ( 3 ) 雪花模型( s n o w s c h e m a ) 雪花模型是星型模型的进一步层次化,由多个表定义一个或者多个维。在雪花模型 中,原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。 雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,同时降低了系 统的通用程度,但这种方式可以使系统进一步专业化和实用化。前端工具仍然要在系统 的逻模式上操作,然后将用户的操作转换为具体的物理模式,从而完成对数据的查询。 1 3 摹月年 东北大学硕士学位论文 第二章数据仓库技术研究 订货表产品表产品目录表 图2 5 雪花模型示例 f i g 2 5e x a m p l eo fs n o w - s c h e m a 图2 5 为雪花模型示例。其中的“产品”与“产品目录”维表与事实表的关系区域, 是在数据仓库的数据组织上对用户查询需求的扩展。使用数据仓库和o l a p 查询工具完 成一些简单的二维或三维查询,既满足了用户对复杂数据仓库查询的需求,又能够在无 需访问过多数据的情况下,完成一些简单的查询功能。 ( 4 ) 模型选择 大多数人在设计中央数据仓库的逻辑模型时,都按照第三范式来设计;而在进行物 理实施时,由于数据库引擎的限制,不得不对逻辑模型进行不规范处理( d e n o r m a l i z e ) , 以提高系统的响应速度。这当然是以增加系统的复杂度、维护工作量、磁盘使用比率( 指 原始数据与磁盘大小的比率) ,并降低系统执行动态查询能力为代价的【h 】。举例来说, 当系统数据量很小,比如只有几个g b 时,进行多表连接之类复杂查询的响应时间是可 以忍受的。但是如果数据量扩展到很大,到几百g b ,甚至上t b ,一个表中的记录往 往有几百万、几千万,甚至更多,这时进行多表连接这样的复杂查询,响应时间长得不 可忍受。这时就有必要把几个表合并,尽量减少表的连接操作。当然,不规范处理的程 度取决于数据库引擎的并行处理能力。数据仓库建设者在选择数据库引擎时,除了参考 一些相关的基准测试结果外,最好是能根据自己的实际情况设计测试方案,从几个数据 库系统中选择最适合自己企业决策要求的一种。 不规范处理虽然是提高系统性能的一种有效手段,但是由于中央数据仓库的数据模 型反映了整个企业的业务运行规律,在这里进行不规范处理容易影响整个系统,不利于 。1 4 东北大学硕士学位论文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国五矿校招真题及答案
- TCSAA 36-2024 航空科普教育 中小学无人机赛事活动用要求
- 暖气模板采暖合同范本
- TCIECCPA 101-2025 零碳智慧物流园区 建设与运营指南
- T∕BEA 43009-2025 非相干扩频测控基带测试设备测试方法
- 楼下火灾赔偿协议书
- 棒冰送货工合同范本
- 校外培训聘用合同范本
- 临时雇佣安全协议书
- 水务集团聘用合同范本
- 生字本(拼音本)模板A4
- 2023-2024学年高中主题班会 200天大有作为-高考倒计时200天主题班会课件
- 幼儿园保温桶管理制度
- 放射科提高(CT)图像质量的甲级率品管圈汇报书ppt模板
- 结婚登记审查处理表
- 2 试验二 系统相频特性对信号传输的影响试验 2
- 非煤矿山企业安全标准化管理台帐(浙江省)
- 冀教版六年级上册数学第二单元测试卷(比和比例)
- GB 18281.4-2015医疗保健产品灭菌生物指示物第4部分:干热灭菌用生物指示物
- 阀门维修要求及验收标准
- 劳动防护用品规范使用培训课件
评论
0/150
提交评论