已阅读5页,还剩72页未读, 继续免费阅读
(无线电物理专业论文)数据仓库在通信业务中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:乏圣建基 e t期:兰丝! 堡! ! 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名: 里邀导师签名:础日 期:! 型:竺! 山东大学硕士学位论文 摘要 近几年来随着通信技术的发展和用户范围扩大,通信行业i t 系统中数据急剧 增加,各个信息系统均产生海量数据并产生了数据孤岛。在日益竞争和瞬息 万变的经济时代,如何充分利用这些数据,深层次地挖掘数据资源,使决策者能 及时掌握公司的运营情况,从而提高公司的业务发展和竞争优势,扩大市场份额。 日益发展和流行的数据仓库技术正是解决上述问题的一种技术方案。但是面对海 量的孤岛数据。如何进行数据仓库建模,如何清洗杂乱无序的数据一直是数据仓 库实施的难点和重点。本文将结合电信行业项目海量数据的特点,运用数据仓库 的各项技术做好系统实施工作。 本论文的重点是结合通信行业的业务特点,找到合适数据仓库项目实施方法 以及实施策略,探讨适合通信行业特点的数据仓库架构、数据仓库建模、数据处 理策略、数据集市构建策略以及数据质量控制策略。该数据仓库项目实施为该电 信企业积累了宝贵的数据资源,并提供了丰富的统计报表和分析应用,大大缩短 了市场分析和制定市场策略反应时间,为该公司带来了巨大的效益。 第一部分为数据仓库概述,该章将对数据仓库概念的引入、数据仓库产生和 发展进行了阐述,并简单介绍了数据仓库的商业应用。以期为后续章节做好铺垫; 第二部分为理论部分,结合前人在数据仓库的研究,引入并介绍数据仓库相 关技术,概念以及规范,这是数据仓库实施的主要参考依据; 第三部分为数据仓库的实施过程,该章主要对数据仓库实施的过程和方法进 行选择,其重点是论述数据仓库的体系结构,为了便于实施,基于应用角度和数 据处理角度对体系结构进行了分解。 第四部分为数据仓库建模,该章将对数据模型的选择以及构建过程,在多维 建模中需要注意的问题以及所选择的星型模型构建策略进行详细的阐述,其中维 表处理策略、事实表处理策略是创新之处。 第五部分介绍了数据处理过程,这是数据仓库实施的关键环节本章结合源 数据的情况,选择了适宜的e t l 策略、抽取模式本部分还详细的介绍了e t l 具 山东大学硕士学位论文 _l_ - - - - l _ l i _ _ _ _ _ l l _ i i _ _ - _ _ - i l _ l - 体步骤,其中数据处理的元数据数据调度机制是一创新点 第六部分介绍数据质量控制,该章阐述了数据质量控制的方法和步骤这是 数据仓库实施中的难点,使得本次数据仓库的基础数据准确度达到百分之九十八 以上 第七部分详细介绍了数据集市构建过程,本研究突破了传统的数据集市构建 过程,采用了“从上到下”和“从下到上”相结合的方式,合理地划分了数据层 次,增加了由肼到c u b e 的数据缓冲层蹦 第八部分介绍前台应用展现,简单介绍了本课题研究的前台应用界面情况 第九部分为全文总结,谈谈数据仓库的一些结论和展望 关键词:数据仓库联机分析处理数据挖掘数据集市多维建模 2 山东大学硕士学位论文 w i t ht h er a p i dd e v e l o p m e n to f c o m m u n i c a t i o na n dt h ee x p a n s i l es c o p eo fu s e r si n r e c e n ty e a r , t h ed a mo fi ts y s t e m sh a v ee n j o y e da l le x p l o s i o ni nt h en u m b e r , a l l i n f o r m a t i o ns ) ,s 蛔粥h a v ea g r e a ta m o u n to fi s o l a t e dd a m b ec o m p e t i n gi n c r e a s i n g l y w i t hv o l a t i l ee c o n o m i ca g e s ,h o wm a k eu s eo ft h e s ed a t aw e l l ,m i n et h ed a t av a l u e p r o f o u n d l y , m a k et h ed e c i s i o nm a k e rb ea b l et ok n o wt h ec o m p a n yc i r c u m s t a n c et i m e l y , m i s eb u s i n e s sd e v e l o p m e n t 锄dc o m p e t i t i v ea d v a n t a g eo fc o m p a n yt h u s e x t e n da m a r k e tq u o t a t h ed a t aw a r e h o u s e t e c h n i q u ew h i c hd e v e l o p sa n ds p r e a d si n c r e a s i n g l yi s e x a c t l y8k i n do ft e c h n i q u ep r o j e c tw h i c hr e s o l v e sa l la b o v e - m e n t i o n e dp r o b l e m b u t f a c et h ei s o l a t e di s l a n dd a t ao fa m o u n to fs e a , h o wc a r r yo nd a t aw a r e h o u s et od a t a m o d e l i n g , h o wc l e a nm i s c e l l a n e o u si nd i s o r d e rh a v en ot h ed a t ao fp r e f a c eh a v eb e e n t h e 伽xa n dt h ep o i n tt h a tt h ed a t aw a r e h o u s ec a r r i e so u t t h i st e x tw i l lc o m b i n et h e i t e ma m o u n to f s e a o f t h et e l e c o m m u n i c a t i o np r o f e s s i o nt h ec h a r a c t e r i s t i c so f t h ed a t a , u s a g ed a t a $ v a r i o u st e c h n i q u e so f t h ew a r e h o u s ew o r kw e l las y s t e mi m p l e m e n t w o r k t h ep o i n to ft h i st h e s i si st h ec h a r a c t e r i s t i c sw h i c hc o m b i n e st oc o r r e s p o n db y t e l e c o m m u n i c a t i o n p r o f e s s i o n ,f i n d i n g o u ts u i t a b l em e t h o da n d s t r a t e g y o f i m p l e m e n t i n gd a t aw a r e h o u s ep r o j e c t t h es t u d yi ss u i t a b l ef o rt h es t r u c t u r eo f t h ed a t a w a r e h o u s ea n ds t r a t e g yo fd a t am o d e l i n go fc o r r e s p o n d i n gb yt e l e c o m m u n i c a t i o n c h a r a c t e f i s t i c s t h ed a t a sw a r e h o u s ei t e r nc a r d e do u tf o rt h et e l e c o m m u n i c a t i o n sb u s i n e s s e n t e r p r i s eb a c k l o gap r e c i o u sd a t ar e s o u 嘲p r o v i d i n ga b u n d a n tc o v a r i a n c es t a t e m e n t a n da n a l y t i c a la p p l y , s h o r t e n i n gam a r k e ta n a l y s i sa n dd r a w i n g 印m a r k e ts t r a t e g y r e a c t i o nt i m ec o n s u m e d l y , b r o u g h ta h u g ep e r f o r m a n c ef o rt h a tc o m p a n y t h ef i r s tp a r ti st h es m n m a r yf o rt h ed a t aw a r e h o u s e ,t h a tl e a d sl o g a r i t h m s a c c o r d i n gt ot h ew a r e h o u s ec o n c e p tt og oi n t o ,c r e a t i o na n dd e v e l o p m e n to ft h ed a t a w a r e h o u s ec a r r i e d0 1 1e l a b o r a t i n g , a n di n t r o d u c e dt i eb u s i n e s so ft h ed a t aw a r e h o u s e a p p l i c a t i o ni nb r i e f , t a k ee x p e c t i n ga saf o l l o w - u pc h a p t e rt ow o r kw e l lc u s h i o n ; t h es e c o n dp a r ti sad a t aw a r e h o u s et h e o r i e s ,c o m b i n i n gt h ep a s t sr e s e a r c hi nd a t a w a r e h o u s e , t h 砒g o i n gi n t ot h ew a r e h o u s et e c h n i q u e s , c o n c e p t sa n dn o r m s , t h i si st h e d a t aw a r e h o u s ei m p l e m e n to f m a i nr e f e r e n c eb a s i s ; t h et h i r dp a r tc o n c r e t e l yi n t r o d u c e st h ei m p l e m e n tp r o c e s so fd a t aw a r e h o u s e , t h e p r o c e s sa n dm e t h o dw h i c hm a i n l yc h o o s e sd a t aw a r e h o u s ea r ti m p l e m e n t , t h ep o i n t 山东大学硕士学位论文 - i _ _ _ _ _ _ - _ - _ _ _ i _ - l i _ _ i l l _ l _ _ - _ _ _ _ _ _ _ _ _ _ _ i _ _ _ - _ _ _ l _ - l _ _ l i i - d i s c m dt h es y s t e ms t x u c t o r eo ft h ed a t aw a r e h o u s e f o rt h es a k eo ft h ee a s yt o i m p l e m e n t , ih a n d l et h es y s t e ms t r u c t u r eo f d a t aw a r e h o u s ea c c o r d i n gt ot h ea p p l i c a t i o n a n dd a t ap r o o c s s 1 r i 忙f o r t hp a r ti n t r o d u c e sd a mw a r e h o u s em o d e l i n g , t h a te x p l a i n e dh o wt oc h o o s e a n dc o n s t r u c tt h ea d a p t i v ed a t am o d e l a n da n a l y z i n gt h ep r o b l e mt h a tn o o d st ob e n o t i c e di nm u f f d i m e n s i o n sm o d e l i n g ,t h ep o i n ti n t r o d u c e das t a rt y p em o d e ls t r a t e g y , t h ed i m e n s i o nt a b l e sp r o c e s s i n gs t r a t e g ya n df a c tt a b l e sp r o c e s s i n gs t r a t e g yi sc r e a t i v e p l a c e 耵也f i f i i ip a r ti n t r o d u c e sad a mp r o c e s s i n gp r o c e s s t h i si st h ek e yl i n kt h a tt h ed a m w a r e h o u s e 玎i e so u t c o m b i n i n gt h ec i r c u m s t a n c eo f s o u r c ed a t a , lc h o s et h ef e a te t l s u a t e g ya n dm o d e t 1 l i sp a r t s t i l li n t r o d u c e st h ee t ls t e pi nd e t a i l t h ed i s p a t c h i n g m e c h a n i s mo f c e l id a t ai st h ei n n o v a t i o n n 圮s i x t hp a r ti n t r o d u c e sd a t aq u a l i t yac o n t r 0 1 t h em e t h o da n ds t e pw h i c h e l a b o r a t e sd a t aq u a l i t yac o n t r 0 1 t h i si st h ec r 畎w i t h i ni m p l e m e n to ft h ed a t a w a r e h o u s e ,m a k i n gt h en u m b e ra t t a i n9 8 a b o v ea c c o r d i n gt o t h ed a t aa c c u r a t ed e g r e e o f d a mw a r e h o u s e n 峙s e v a n t hp a r ti n t r o d u c e st h ec o n s t r u c t i o np r o c e s so fd a t am a r ti nd e t a i l ,t h i s r e s e a r c hb r e a k sat r a d i t i o n a lm e t h o do fc e n s t r u c t i o u ,a d o p t i n g ”a r r i v eb o t t o mf r o mt h e t o p ”a n d ”f i x ) md e s c e n du p ”t oc o m b i n et o g e t h e ro fw a y t i i i sr e s e a r c hd i v i d e dt h e l i n e r e a s o n a b l ed a t al a y e r , i n c r e a s e df r o mt h ed wt o t h ec u b ed a t ab u f f e ral a y e rd m 1 1 碡e i g h t hp a r ti n t r o d u c e si n t e r f a c ed i s p l a y , i n t r o d u c i n gt h i st o p i car e s e a r c hi n b r i e f o f s t a g ea p p l i c a t i o ni n t e r f a c ec i r c u m s t a n c e ; n 玲n i n t hp a r tt a l l i e su pf o rt h ef u l lt e x t , d i s c u s s i n gs o m ec o n c l u s i o n sa n do u t l o o k o f d a t aw a r e h o u s e k e yw o r d s :d a t a w a r e h o u s eo n l i n e a n a l y s i sp r o c e s s i n gd a t am i n i n g m u t i d i m e n s i o n sm o d e l i n g 4 山东大学硕士学位论文 第一章数据仓库概述 1 1 引言 本章将对数据仓库概念的引入、数据仓库产生和发展进行了阐述,并简单介 绍了数据仓库的商业应用,以期为后续章节做好铺垫。在本章最后,对本课题的 研究内容以及论文的章节安排进行了说明 1 2 数据仓库( d w ) 概念的引入 随着企业信息化过程的不断深入,大量新技术、新思路的不断涌现,市场的 竞争也在逐渐加剧,企业迫切需要提高自己的数据分析能力。这种分析只有建立 在企业内部各个环节上和外部市场等方面产生出来的数据基础上,才能够真实地 反映企业的实际运行情况,并据此做出科学的决策。通过对这些数据的整理和分 析达到提高企业的市场竞争力的目的。 在二十世纪八九十年代。人们发现单靠联机事务处理已不足以获得市场竞争 的优势,开始着手基于各种业务数据进行决策分析,我们称之联机分析处理,也 就是从数据库中获取、利用信息。因。海量”数据的出现,原有的数据存储、分 析方法已有些力不从心,故人们设想专门为业务的统计分析建立一个数据中心, 它的数据从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等中 来,这个数据中心就叫“数据仓库”,数据仓库的概念被提出来后,得到了迅速发 展,国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立,它是企业从粗放型经营向集 约型经营转变的必然结果。 1 3 数据仓库技术的产生和发展 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了最初的 数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构 成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式 是固定的、死板的。到了1 9 6 9 年,e f c o d d 博士发表了他著名的关系数据模型的 论文此后,关系数据库的出现开创了数据管理的一个新时代。 5 山东大学硕士学位论文 1 3 i 联机事物处理( o l l 甲) 发展 联机事物处理遇到了困难,使得数据仓库管理得以诞生 二十多年来,大量新技术,新思路涌现出来并被用于关系数据库系统的开发 和实现:客户服务器体系结构、存储过程、多线索并发内核、异步i o 、代价优 化,等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭的数 据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些,s q l 的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量 级的递增,关系数据库最终成为联机事务处理系统的主宰。整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步 当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机 事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以 及整个市场相关行业的态势进行分析,而做出有利的决策。这种决策需要对大量 的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环 境下,这种基于业务数据的决策分析,称之为联机分析处理( o l h p ) ,比以往任何 时候都显得更为重要。如果说传统联机事务处理强调的是更新数据库向数据 库中添加信息,那么联机分析处理就是从数据库中获取信息,利用信息。因此, 著名的数据仓库专家r a l p h k i m b a l l 写道:“我们花t - 十多年的时间将数据放入 数据库,如今是该将它们拿出来的时候了” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想像的那么容易: 第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性, 并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一 个数据库在理论上都难以做到两全。 第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问而且 还有大量的历史数据处于脱机状态,形同虚设 第三,业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并 不适合非计算机专业人员进行业务上的分析和统计。 因此有人感叹:2 0 年前查询不到数据是因为数据太少了,而今天查询不到数 6 山东大学硕士学位论文 据是因为数据太多了针对这一问题,专家们开始设想专门为业务的统计分析建 立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、 从脱机的历史业务数据中来这个数据中心是一个联机的系统,它是专门为分 析统计和决策支持应用服务的,通过它可满足决策支持和联机分析应用所要求的 一切。这个数据中心就叫做数据仓库这个概念在9 0 年代初被提出来,如果需要 给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析 应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中 获取信息的问题。 1 3 2 数据仓库的产生 以辨证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋 式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务 处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析所不同的 是,今天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由于技术的专业 化,它可更专心于联机分析领域的发展和探索。 1 4 数据仓库的商业应用 数据仓库的概念一经出现,就首先被应用于金融、电信、保险等主要传统数 据处理密集型行业。国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立那么,什么 样的行业最需要和可能建立数据仓库呢? 有两个基本条件:第一,该行业有较为 成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临市场 竞争的压力,它为数据仓库的建立提供外在的动力。 据调查,财富5 0 0 强企业中已经有8 5 的企业建成或者正在建立数据仓库数 据仓库与i n t e r n e t 一样,正在成为最快的i t 增长点。1 9 9 6 年,全球企业在数据 仓库上的投资达到1 6 8 亿美元,并且以每年1 9 1 速度增长进行数据仓库项目 开发的公司平均在2 3 年的时问内获得了平均为3 2 1 的投资回报率。 中国的数据仓库市场前景广阔,充满无限商机。 究竟什么样的行业更需要建立数据仓库呢? 首先,该行业较为成熟的联机事 务处理系统,为数据仓库提供了数据电子化的客观条件;其次,该行业面临市场 7 山东大学硕士学位论文 竞争的压力,为数据仓库的建立提供了外在的必要条件。建立数据仓库具有举足 轻重意义的行业有电信、金融、证券、保险四大领域。电信企业需要数据仓库, 并通过o l a p 、数据挖掘等方法,进行数据分析,发现自己用户的消费行为特征, 对用户市场进行细分,提高市场竞争能力。 另一个方面,从厂商的角度看,经过长期发展,联机事务处理系统的市场至 9 0 年代中期出现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统 业务增长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的 兴起无疑为数据库产品创造了巨大的市场,它将成为本世纪末到下世纪初数据库 市场的一个新的增长点。因此,数据仓库的概念一开始便伴随着浓烈的市场炒作。 对于广大用户来说,只有从自身应用需求出发,破除技术和概念的神秘性,避虚 就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。 1 5 数据仓库的困境 随着数据仓库的技术发展,该技术在数据海量式的爆炸膨胀面前走了困境, 尤其是针对通信行业多个系统相互独立,大量业务数据不规范的情况下,如何进 行数据抽取加载,如何进行数据仓库建模,如何进行数据清洗,如何组织数据仓 库项目实施,对于数据库技术的发展提出了严峻挑战。 1 6 本课题研究内容 j 。 一、全面了解并研究数据仓库相关技术 二、研究数据仓库在电信行业的实施过程 三、结合电信行业的数据仓库特点,针对数据仓库实施过程中的。瓶颈”问 题,例如数据建模、数据处理和数据质量控制,找出解决办法 四、结合工作中在某电信行业的应用实施案例,进行阐述。 8 山东大学硕士学位论文 第二章数据仓库技术和理论探讨 2 1 引言 本章将重点探讨数据仓库普遍中采用的相关技术,并进行理论探讨数据仓 库建立的目的是为了进行决策分析,因而,数据仓库的应用与数据分析技术密不 可分,目前流行的数据仓库技术包括:数据仓库、数据集市、o l a p 分析、多维建 模等。数据仓库与数据分析方法的有效结合将会大大提高企业科学决策分析的效 率和能力 2 2 数据仓库 数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w b i n m o n 在其 著作 b u i l d i n gt h ed a t aw a r e h o u s e 一书中给予如下描述:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) ,集成的( i n t e g r a t e ) 、相 对稳定的( n o n - v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支 持管理决策对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓 库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其 次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并 包含历史数据,而且存放在数据仓库中的数据一般不再修改 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是 指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型 信息系统相关。 在本次数据仓库建设中我们确定了如下7 个主题: 用户发展分析、用户流失分析、用户状态分析、业务应收分析、欠费分析分 析、套餐数量分析、竞争对手分析等。 2 、集成的 9 山东大学硕士学位论文 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一 致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 在本次数据仓库建设过程中。我们对分散在各个系统中客户信息进行了了统 一的客户视图 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发 生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加 载、刷新。 在设计数据仓库过程中,充分考虑到了数据相对稳定的特点,在设计数据模 型时尽量考虑到长期需求,保留一些冗余。 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数 据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用 数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历 程和未来趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。 数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们 做出改善其业务经营的决策,信息才能发挥作用,信息才有意义而把信息加以 整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。 因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。 2 3 数据集市 数据集市( d a t a m a r t ) 又叫做“小数据仓库0 可以说数据仓库指综合了很多 主题的,可以说是全部的有价值数据,是建立在企业级的数据模型上,而数据集 市是代表面向单个或几个主题,进行拆分和重组的数据仓库简单版,它把对某一 类( 部门) 用户有用的数据单独拿出来进行筛选,转载并开发利用,生成报表等 等,是企业级数据仓库的一个子集。 山东大学硕士学位论文 数据集市与数据仓库的建设方法一般有两种:一是。自顶向下”,即先建立 一个企业级数据仓库,再建立部门级数据集市,这样有利于各级数据仓库的一致 性控制。缺点是企业级数据仓库的规模往往较大实施周期常,见效慢,费用昂 贵。另一种方法是“自底向上”即在数据仓库的实施过程中,从一个部门的数据 集市开始,形成独立数据集市,然后再将几个数据集市组成一个完整的数据仓库, 其优点是易于实现,花费小,见效快,但应注意在实施不同的数据集市时,同一 含义的字段定义一定要相容。 独立数据集市尽管可以快速的建立起来满足某个部门的某个决策需求,表面 看来,可以大大降低开发时间和开发费用但是,如果各个部门都要开发数据集 市,当多个数据集市分别从数据准备区取数据时,由于各个部门的需求不同,数 据的处理会不一致。当需要跨部门进行决策分析时,由于数据的不一致,数据集 市产生的结果将会毫无意义。并且总的说来,由于每一个部门都要重新从数据准 备区整理数据,总费用也并不会比建设有数据仓库的数据集市的费用要低。 经过对电信行业系统进行分析,本课题研究采用“自顶向下”和。白底向上” 相结合的方法进行实施。 2 4 0 l a p 技术 联机分析过程( 0 l a p ) ,最早是由e f t o d d 于1 9 9 3 年提出的。当时,c o d d 认 为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l 对大数 据库进行的简单查询也不能满足用户分析的需求用户的决策分析需要对关系数 据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。 因此t o d d 提出了多维数据库和多维分析的概念,即0 l a p :它是针对特定问题的联 机数据访问和分析。通过对维数据的多种可能的观察形式进行快速、稳定、一致 和交互性的存取,允许管理决策人员对数据进行深入观察。 2 4 1 0 l a p 与o u p 的对比优势 o l a p 与0 l t p 的对比如表2 - 1 所示。 山袁大学硕士学位论文 表2 - 1o l a p 与0 l t p 的对比 0 l t p 数据 o l a p 数据 原始数据导出数据 细节性数据综合性和提炼性数据 当前值数据历史数据 可更新不可更新,但周期刷新 一次处理的数据量小一次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常操作面向决策人员,支持管理需要 2 4 2 0 l a p 技术分类 在0 l a p 技术中有两种具体的分析方法: ( 1 ) 多维联机分析处理( 哟l a p ) :将按照主题定义的o l a f 分析所要的数据, 生成并存储成多维数据库,形成。超立方体”结构。生成的多维立方体已经计算 生成了一些汇总值。当用户发出请求时,从多维立方体中取得数据,而非从数据 仓库中取得数据,响应时间短。缺点是数据的存储空问增大,分析的颗粒数不会 太细。 ( 2 ) 关系联机分析处理( r o l a p ) :存储数据模型与数据仓库数据之间是映射关 系,真正的关系无力存储在数据仓库中。o l a p 服务器根据定义的模型从数据仓库 中取得数据,进行分析,对用户的响应时间长,较i a o l a p 使用的存储空间小,考 虑数据的颗粒度较小适用于灵活性大的应用或多因素分析预测的情况 2 4 3 0 l a p 基本概念 1 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构 成一个维( 时间维、地理维等) 。可理解为变量j 2 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度 不同的各个描述方面( 时间维:日期、月份、季度、年) 可以于对数据进行聚 合分析。, 山东大学硕士学位论文 3 维的成员:维的一个取值是数据项在某维中位置的描述。( 某年某月某日 是在时间维上位置的描述) 4 多维数组:维和变量的组合表示一个多维数组可以表示为:( 维l ,维2 , 维n ,变量) ( 时间,地区,月租费) ) 5 度量值( 单元格) :多维数组的取值。( 2 0 0 0 年1 月,烟台分公司,c d m a 手 机,y 5 0 0 0 ) 2 4 4 ( ) l a p 的特性 ( 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求。系统应能在6 秒内 对用户的大部分分析要求做出反应。 ( 2 ) 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析,用 户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的 方式给出报告 ( 3 ) 多维性: 多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和分析,包括对 层次维和多重层次维的完全支持,使用户直观地理解,分析数据,进行决策支持。 多维性是o l a p 的灵魂。 ( 4 ) 信息性: 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息, 并且管理大容量信息。 2 4 5 0 l a p 的模型结构 1 超立方结构( h y p e r c u b e ) ,超立方结构指用三维或更多的维数来描述一个对 象,每个维彼此垂直数据的测量值发生在维的交叉点上,数据空间的各个部分 都有相同的维属性。( 收缩超立方结构。这种结构的数据密度更大,数据的维数更 少,并可加入额外的分析维) 。 2 多立方结构( m u l t i c u b e ) ,即将超立方结构交为子立方结构。面向某一特定 应用对维进行分割,它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析 效率 山东大学硕士学位论文 2 5 数据仓库建模技术 2 5 i 多维建模 由于在关系数据库中普遍使用的e - r 建模方法对主题( 域) 的概念不支持,以 及表间也只是用主一外键关系标识关系。所以数据仓库采用了多维建模的方式,用 来支持o l a p 和d a t a m i n i n g ,该方式表现了各个属性问更为丰富关系和灵活性。在 多维分析模型建设中存在两种模型:星型模型和雪花模型。 星型模型的构架非常简单,只有两个基本的表类型:维表和事实表,维表的 主关键字是事实表的外键,所有外键组成了事实表的主键。而且维只与事实相关 联,构成关系数据库中的多维分析空间。通过星型模型,使用者可以更好地理解 访问途径,易于使用者使用分析工具进行多维分析。虽然星型模式存在一些数据 冗余,不符合数据库设计的范式,但由于它在进行分析操作时数据关联少,因此 性能比较高。另外多维数据模型所提供的操作与一般的范式建模是不同的,因此 并不存在关系数据库中不符合某个范式造成的插入异常和删除异常的问题。一般 星型模型支持超立方体结构。 雪花模型针对每个维度的每个层次都有一个维度表,每个维度表都有一个主 键,并如果有下一层次,则包含下一层次维度表的外键。雪花模型没有冗余,符 合数据库逻辑模型设计理论中的第三范式,但由于特定主题相关的物理实体数量 比较多,会对性能有一些影响。雪花模型主要用于处理多对多关系的结构、非分 析性数据和层次结构。一般雪花型模型支持多立方体结构。 在多维数据模型设计中,我们主要采用星型模型进行建模,提高查询效率以 及降低建立c u b e 所需时间。 2 5 1 1 事实表和维表( f a d & d i m e n t i o n ) 事实表和维袁的概念是在多维建模中引入的它把真实世界分为度量值和上 下文条件。该模型用于在一定的条件下产生的度量值,其中一定的条件表示维数, 度量值成了事实。在物理实现中,分别成了维表和事实表他们之间通过主键和 外键的关系相联系一般情况下,这些键没有实际的业务含义,只是起到了对应 作用。这样做有很多的好处,其中一个主要的好处是当维表业务重组重命名时, 不会重新计算修改( 可以添加到) 已有的聚合查讯,保持原有信息的有效性 h 山东大学硕士学位论文 _ _ _ _ - _ _ - - _ _ _ _ _ - _ _ - _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ - _ _ - - _ _ _ _ - _ _ _ _ _ _ _ _ i i i 根据聚合程度的不同,事实表呈现了不同的粒度,主要有以下三种粒度 1 ) 交易型粒度。在o l t p 系统中,简单的一次交易就是一个事实,它是粒度 最细的一种,如每个用户每次打电话的时间。 2 ) 周期型粒度。它是聚集了一定o l t p 中的记录数的记录,一般在周期时间 的最后作为描述点,如每个用户每月的通话费用。 3 ) 积累型粒度。它是随着时间的推移,数量不断增加的记录,如一个用户从 开户以来的话务量( 按时长计) 不同粒度的事实表对应的维表显然是不同的,因为必须保证在上下文不变的 情况下,事实是唯一的。 多维建模是反规范的,但是事实表仍然是规范的,反规范的是维表。在建设 维表时,一般情况下,第一个维表是时间。有时我们会纳闷,时间维为什么不可 以放在事实表中,只要在事实表中记录详细的时间,如2 0 0 5 年1 月2 3 号1 3 点2 4 分,5 秒,就可知道是哪年哪月甚至到几秒为什么还要单独成立一个时间维度? 其原因是单独的时间标识不能表示企业的日历,如工作日期,财务周期而带有 丰富描述信息的维表作为数据选择的限制源,一方面使各个维可以统一处理,另 一方面这些描述信息可以标识本企业特有的时问安排,所以需要成立一个单独的 时问维。 山东大学硕士学位论文 3 1 引言 第三章数据仓库的实施过程 数据仓库实旅过程包含从数据源抽取到最后展现报表、分析型数据的全部步 骤,系统的各个处理环节归根到底是对数据的处理过程。在本论文的3 5 章节, 我们将数据仓库通用体系结构按照数据处理流程进行了分解。同时在本论文的第 五章将会对数据处理进行重点论述本章将对本项目数据实施方法、系统平台建 设进行简要论述,本章重点对数据仓库体系结构进行了论述。为了便于系统实施, 尤其是基于应用角度和数据处理角度进行了分解。 3 2 项目实施方法 本项目实施方法采用迭代开发,该方法扩展了传统瀑布模型中任务的依赖关 系,各个任务被进一步细化首先,根据业务需要,确定需要最先开发完成的主 题,在开发这个主题的同时,其余的主题也同时进行,任何阶段当任务所依赖的 条件发生变化时,立即回到以前的任务中这样可以确保在较短时间内以比较高 的效率完成课题研究内容。 3 3 系统平台建设 山东大学硕士学位论文 在进行系统平台建设之初,我们首先对业界的软硬件进行了选型,经过对比 分析,软硬件平台选型如下因为软硬件平台选型不是本章探讨的重点,在此不 在赘述 3 3 1 软件平台 软件平台的建设以m m 商业智能软件为主,具体软件产品如下: e t l 服务器:d a t a s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025技术研发合同范本下载
- 2025年通化辅警协警招聘考试备考题库(含答案详解)
- 2025年贺州辅警招聘考试题库及答案详解(真题汇编)
- 2025废旧物资购买合同
- 2025年深圳辅警协警招聘考试真题及完整答案详解1套
- 2025年运城辅警协警招聘考试真题含答案详解(考试直接用)
- 2025年温州辅警协警招聘考试真题及答案详解(各地真题)
- 2025年镇江辅警协警招聘考试备考题库及一套完整答案详解
- 2025养殖业承包合同书
- 2025《冰箱保养合同》
- 体检报告电子版
- POCIB国际贸易FOB进出口预算运算表
- 酸碱灼伤的应急处理
- 数学-江苏省常州市2024-2025学年高三第一(上)学期期中质量调研考试试题和答案
- 专题20 化学实验综合题-物质制备类-五年(2020-2024)高考化学真题分类汇编(原卷版)
- 医院精神科护理风险评估制度
- 工程款支付担保书范文2024年
- 期中阶段测试卷(试题)2024-2025学年统编版语文五年级上册
- 2024-2030年中国小型发电机行业发展规划及应用趋势预测报告
- 中国太平洋财产保险股份有限公司产品置换服务合同责任保险
- 危地马拉翡翠 分类与命名-编制说明
评论
0/150
提交评论