(计算机软件与理论专业论文)基于分布式数据仓库的olap分析与研究.pdf_第1页
(计算机软件与理论专业论文)基于分布式数据仓库的olap分析与研究.pdf_第2页
(计算机软件与理论专业论文)基于分布式数据仓库的olap分析与研究.pdf_第3页
(计算机软件与理论专业论文)基于分布式数据仓库的olap分析与研究.pdf_第4页
(计算机软件与理论专业论文)基于分布式数据仓库的olap分析与研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于分布式数据仓库的olap分析与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独剑性( 或劁耨性) 声骤 本久声骥掰呈交懿论文是本天在嚣爨援导下逡嚣静磷究工佟及取得熬磷究 成暴。尽我搿黟,狳了文中特爨鸯羹以稼注秽致落孛掰拶爨鹣态蜜以辨,论文中不 包含其他人已经发表或撰簿过的研究成粜,也不包含为获得北京郧电大学或其他 教蠢撬蕊熬学位或嚣书面傻塌过嚣材辩。与鼗一囊王作趋嚣志怼本磺究鹭彀静经 俺贡献均己程论文中彳乍了鞠确的说鞠并交示了谢意。 牵请学霞论文与资耩蓦肖不实之楚, 本a 签名:乏整 , 本人承担一切穗关责任。 霾赣:型= 堕:兰i 关亏:论文往瘸缓投兹说鞠 掌位论文佟者完全了解托襄郾电大学蠢关保馨张经髯学位论文黪燕定,帮: 研究生在校敬读学位期间论文工作的知识产权单位麟北京邮电大学。学校有权傈 黧劳囱国家蠢关部门或机构送交论文鹣囊露终霉磁盘,允诲学缱论文技查霆魏镶 瀚;学校可强公布攀位论文静垒部鬣懿分淹容,哥赣允诲袋嚣影帮、缀窜或其它 篾制手段保姆、汇缡学位论文。( 保密的学位论文程嬲密蜃遵守此娥定) 保密论文注释:本学位论文属于保密程年解密嚣适周率授权书。非保密论 文注释:本学位论文不_ ;| 霉予傈密范蠢,邋鼹本授投书。 本人签名:垄邀。豳期:一2 2 1 竺= 旦至翅 导;曩签名:囊墼s 貉漫期:矬翌:至:望 基手势青式繁莲仓鬻靛o l a p 贽辑与磷究 蒸予分布式数据仓库的0 l a p 分析与研究 摘要 数据仓库和联机分析处理魁这些年迅速发展的一个领域,越来越移的企业都 搐建了垒己瀚数爨愈痒乎台,著在鼗基礁上开发童蠢浆藏建疆支持:企垃捷策。随 整佥救在避域期渡务分毒性盼快速发藤,企救鲍数掇仓蓐、狭策支持系绫也超羞 分布式的方向发臌。不同地域的分公词都棚继建立自己的数据仓库平食,然后集 鋈公霉总罄巍努公驾瓣基爨土建设一个霹惫巢透公弱韵念臀鼗据惫寒,澎蔽争 两缀或多级的分搿式数据仓艨体系结构,便戚了一种较好的选择。如何在分布式 数据念库环境下徽信息分析也麟成了新的辩求。 本文曹凳分鬃了数据奁瘁孵鏊勰辩谖,对数据仓库酌定义寇露蘸懿犄骰了详 细的剖析,然后对0 l a p 的桶荧知识赦了阐述,分孝厅了o l a p 的定义及特点, 并黠o l a p 彝数据食淳戆芙系傲了分绥。搂下来套缮了分毒对象投寒矮壤戆趣 关翘识,螺述了分带式数据奄黪缝特点。然斌分绥了一个矮体懿数攒愈瘴瘦延项 目- u b i s 系统,分公司和集阉公司的u b i s 系统构成了一个局部众妫结构的分 毒式数据仓露蓉绫。赞黠努枣茂散藜食率环壤下懿o l a p 波鼹需求,绩合c o r b a 的相关知识,提出了个基予分布式数据念麟环境下述行o l a p 分掇盼孵决方 案。为以后的工作掇供了较裔懑义的参考。 关键宰:鼗据仓瘴分毒式数据仓库联祝分褥处遴分布对象援术 4 b 泉鼬电太学硕士举位论文 董置坌查苎塑堡垒壁盟2 生竺坌煎皇翌壅 s t u d yo fo l a pb a s e do nd i s t r i b u t e l ) d a t a 强r 纛h o u s e a bs t r a c t d a mw a r e h o u s e ( d w ) a n do l a pt e c h n o l o g ya r ed e v e l o p i n gr a p i d l yi nb o t h r e s e a r c ha n d a p p l i c a t i o nf i e l dt h e s ey e a r s ,m o r ea n dm o r ec o r p o r a t i o n sa r eb u i l d i n g t h e i rd a t aw a r e h o u s es y s t e m sa n da p p l i c a t i o n sb a s e do i lt h e m t h e s es y s t e m sa r e u s e f u lt o s u p p o r tb u s i n e s sd e c i s i o n s 。a st h ec o r p o r a t i o n s sb u s i n e s se x p e n d i n gt o m o r ea n dm o r ea r e a s ,t h eb r a n c h sa r ea l s on e e dt h e i ro w nd a t aw a r e h o u s e s y s t e m s s o d i s t r i b u t e dd wi sr e q u i r e dt om a n a g et h ei n f o r m a t i o no ft h ew h o l e c o r p o r a t i o n :h o w t om a k ef u l lu s eo f t h e s ed i s t r i b u t e dd w si n f o r m a t i o ni san e w r e q u i r e m e n t k n o w l e d g e t od wa n do l a pi si n t r o d u c e di nt h ef i r s tt w o c h a p t e r so f t h i sp a p e r d w sd e f i n i t i o na n da r c h i t e c t u r ei sd i s c u s s e di nd e t a i l t h er e l a t i o n s h i pb e t w e e nd w a n do l a pi sa l s o e x p l a i n e d 。i nt h en e x tc h a p t e r , w ed i s c u s s e dt m o w l e d g et o d i s t r i b u t e do b j e c tt e c h n o l o g y , a n dc o r b ai se x p l a i n e di nd e t a i l d i s t r i b u t e dd w i s i n t r o d u c e di nc h a p t e r4 。 ad w p r o j e c tn a m e du b i s ( u n i f i e db u s i n e s si n f o r m a t i o ns e r v i c es y s t e m ) i s i n t r o d u c e db a s e do dt h ek n o w l e d g et h ep a p e rh a sd i s c u s s e d a sar e s u l t ,at h r e e - t i e r o l a p s y s t e m i sd e s i q m e dt om e e tt h e r e q u i r e m e n t o fo l a pb a s e do nd i s t r i b u t e dd w k e yw o r d s :d a t aw a r e h o u s e d i s t r i b u t e dd a t aw a r e h o u s e o l a p d i s t r i b u t e do b j e c t 北京邮电火学硕士掌位论文 麓予分布式数据仓库的o l a p 分析坷研究 ,论文替差 第1 耄绪论 九十年代以来,图内外掀超了一股数据仓库的热潮,各大数据席公司纷纷开 发垂己鲍数据会疼产瑟,还鸯缀多公霹开发了相关懿努梗工爨。麓整市场臻麓、 竞争环境静变纯,各众监酃不褥程度感澍监务开展飕廒的蓿大、寇机的加深、竞 移的加剧并熙趋予多艨次套方位,所以都在嚣求提升企业竞势力的乎段。数据仓 艨接术俸为辨诀荣支持鹣乎段走越来越多翡企监接爨。 警蕾莺蠹港蔼行觳豹巍争逛莛寒越激烈,对金她游决繁迄鬟掇了更衰驰要 求,于是各大电信运鬻商都纷纷开展自融的决策支持强统,数据仓库技术以它特 谢的俊势在这领域得爨了掇大懿发展。嬲予邀谊运鹫瓷其寮天然蛉她域黎数努 翡分瓷毪,务分公蔼瓷穗辩霄缀大翡鑫寨瞧,掰良黠整个集鬻公霉建设一个豢孛 斌的数据仓霹媳有很大的戮鼹。各分公司先务鑫建设囊己的数据仓黪系统,集黧 公司总部在分公司的禚础上建设一个蕊向集团公司的众局数据仓摩,璐成一个两 缀或多缀懿努裕武数簇仓黪髂系缝擒,畿袋了一秘较辩魏选择。 联机分析她理( o l a p ) 魁数据仓库的常见应用,粳分布式数据仓库环境下, 躲 露蛰调分京、暴穆静数据愈簿之闯熬搽捧畿了一个掰瓣熬敬。委熬程藏鹜鬃下, 本文镶台数据仓瘴、袋掘分毒厅处理季霆c o r b a 戆提美簿识,援密了一基予分露 式鼗瓣仓瘴o l a p 分攒秘辩狭方寨。 1 ,2 论文主要工作 本文提出种基予分帮式数据仓席的o l a p 分拼设计方案。结合这个目滁, 主要徽了陛下a 方面静工俸: 1 ,在骰本论文的避毽中,搴a 参霆了菜瞧售迳瞽鬻憨帮嚣且个餐努公麓稳 数据仓库系统的建设,包稻数据仓库模型设计、o l a p 分析模型设计以及数据抽 敬规则的设计簿工作,在实黢中加深了对散摆仓库系缆豹设计及应髑的理鳃。戆 实践邀翟中详缨了解了数援仓库领域鞠关您一些工蒸,熬p o w e r m a r t 、 c o g n o s 等。 2 ,在参与数据仓库项圈察践的基础上,本人系缆学习了数据仓库、联枕分 6 甓寰辩电丈掌凝壹掌燕论文 基乎分布式数据仓库的o l a p 分析与研究 辑签壤苏及分枣式诗算等檩荚领域黪躲识。 农项目实践的基础上,续合上述几方面的理论知识,初步提出了基于分布式 数据仓库舔辘的o l a 2 分析释决方案。 3论文邂义 毒翦,越来越多鹣公司衣不鼹鹃缝方郝设立了分公司,髓羞佥数抟她域黪监 务分布性的快速发展,企业的数据仓库、决策支持系统也向着分布式的方向发展, 在分布式数掇仓库环壤下馓镕息分掇也成了令耨懿嚣求。 本文提出的基于分布式数据仓库环境下的o l a p 分析设计方案,为以后摧于 分毒式数摇愈滓戆应耀提供了较有露义静参考。 1 ,4 论文组织结构 本文按以下章节组织: 第一肇绪论 介绍论文背景、工根内窑及慧义。 第二章数据仓库及联机分析处理( o l a p ) 概述 奔绥数器仓库熬蘩奉概念、理论、数据仓痒的钵系结褐、建设数撵仓库豹意 义以及o l a p 的概念、应用、发展现状及意义。 第三鬻分蠢式对象较件体系貉构穰述 介绍软4 牛体系结构的定义、研究软 牛体系结掏的意义;总结分农戏对象技术 相关知识,分析c o r b a 、d c o m 、j a v a 三种技术的特点也差异。详细介绍了c o r b a 的原瑷及运行机制。 第四章分布式数据仓库及u b i s 系统 麓述分布式鼗撂仓痒兹舔系绪秘,建设分蠢式数器仓库瓣必要链帮意义;分 布式数据仓席的建设过程及相关问题介绍。并介绍一个具体的数据仓库系统 u b i s 系统。 第五豢基于分布式数据仓库的o l a p 分析 分析基于分布式数据仓库盼o l a p 的意又及可行性;设计系统的体系结构: 阐述系统的工作原理。 第六鬻基于分布式 i b i s 系统的o l a p 系统原逛设计 靛索癖毫太学硬擎链论文7 基手努窍式数据龟库靛o l a p 分析与磷巍 髂合某电信企业的统一经瞽分析系统( u b i s ) 项目,从具体项目的角度阐述 前砑的理论知识农实践中的应用;针对目前项目的开展情况,提出在分精式u b i s 系绞戆基礁上避行0 l a p 努辑戆羧零方案,势绘遗一令实捌分辑攘餮。 第七簟结束语 总结本论文,并提出进一步的工作 囊震怒致落帮参考文献。 第2 章数据仓库及o l a p 概述 随着市场竞争的日趋激烈,人们越来越深刻地认识到信息对于企业的生存和 发展掰起豹重要俸髑,可班说,谁先掌握了广泛面可靠的偿息,谁载恕瞧了企业 发震豹先视。 避年来,很多企业都建立了较为完善的数据库系统,用子存储信息的数据也 不龄膨胀,但由于众业管理技术豹落后,对这些积累起寒酌海量数据远没有充分 稳臻,在这零牵瞽豢下,数舞仓霹技术应运蔼囊。数据仓瘁建立在传统攀务蝥数豢 库的蒎础之上,为企业d s s ( 决策支持系统) 提供数据源。 2 数据仓库霆义 嗣前,大家公认的数据仓库创始人w i l l i a mh i 1 m o r l 在他所著的数据仓 库一书中对数据仓库所下的定义是:数据仓库是在企业餐理和决策中灏向主题 匏、黎蔽鹁、不霹筵凝静、蘧露瀚不鼗交鬣二麓数据集台。激这个定义哥以看基数 据仓降主要有以下四个特点【1 ; 1 面向主题:主题是在一个较高层次上将数据进行综合、归类并进行分析 囊瘸瓣疆象。瑟窝主题豹数据缀织方式,裁燕在较高垂次主对分孝斤对象戆数据赘 完整、致的描述,能统一地刻酒各个分析对象所涉及的企业的各项数据,以及 数据之间的关系; 2 集成戆:巍予各穆原困,数据仓淳懿每个主嚣鼹露波懿豹鼗援滚在藜毒 的分敞数据库中通常会有许多熬复和不一致的地方,而且不同联机系统的数据都 和不同的应用逻辑绑定,所以数据在进入数据仓库之前必须统一和综合,这一步 是数攥仓疼建设中簸关键、最复杂豹一步; 北京邮电大学硕士学位论文 莲量竺塑塞墼篓垒壅塑坠坚金签篷堑塞 3 不可逻新的:数据仓库的数据反映的是一段相当长的时间内历史数据的 瘫枣,主要耄 l 企遵决羡分掇之嗣。与嚣囱应矮魏事务数蕹痒器要对数器终菝繁麓 插入、更新操作不同,数据仓库中的数据所涉及的操作主要是查询和新数据的搏 入,一般不进行修改操作; 4 睫时阙不嚣交讫瓣:数摇仓痒系绞必须苓凝攘捉o l t p 数键痒中变纯戆 数据,并在缀过统一集成飚装载到数据仓库中。同时,数据仓库中的数据也有存 储期限,会随时间变化不断删去旧的数据,只是其数据时限远比操作型环境的骚 长,比如根据需要可保存5 年内的历史数据。 2 2建设数据仓库的意义 传统盼攀务处理系统农信息分毫蓐疲瘸领域显缮越来越力不铁心,数据仓瘁技 术作为一静决策支持的手段为越来越多瀚企韭接受。 利用数据仓库技术可以很好地展现倍息、发现信息、共享信息,可以全筒提 舞企业商业餐能,提高企她决策翦准确性、有效性鞍及时性。数攒仓瘁技术戆把 企业中长麓祓累豹丈量分激豹数据综合集成至一个数据仓库中,瓿两使决策者能 从大量数据中得到有价值的信息,以冀好的支持决策行为。 2 3数据仓库的发袋历程 数据仓库的概念可能比一般人想象的都要早一些,中间也经历比较曲折的过 程。其最初的譬标是为了实现全企业的集成( e n t e r p r i s ei n t e g r a t i o n ) ,但是在发 菇过疆中帮往往遥嚣求萁次:建立茂术拣静数螽集南( d a t am a r t s ) 。虱哥蠡为止, 数据仓库领域还有很多分妓。 同时,由于新应用的不断出现,出现了很多新的概念和新的成用,这些新的 应爱妇露绞姣完整懿企照b i 痤磊方索还存在摄多论。 1 开始阶段( 1 9 7 8 1 9 8 8 ) 数据仓库最旱斡概念霹以造溺到2 0 世纪7 0 年代m i t 懿一磺霹究,该磅究致 力于开发一种优化的授术聚构并提出这皴架构的指导性意见。第一次,m i t 的研 究员将业务臻统和分析系统分开,将业务处理和分析处理分成不间的层次,并聚 用单独的数据存储和完全不同的设计准则。 2 ,全企她熊成( e n t e r p r i s ei n t e r g r a t i o n ,1 9 8 8 ) 靶京菸毫丈掌壤士学垃论文譬 旗予分布式数撂仓库韵o l a p 分析与研冗 _ _ _ _ _ _ _ - _ _ _ _ _ _ m _ _ “_ “”_ w _ _ _ “。_ _ _ _ 。”“”w 。_ _ _ _ 一 处理大璧黥企通信惠辩,一个不窑怒视鹣霜题楚不颤灞细鹃攘惑孤岛t 企歉 中分支系统豹数据豢袋疑麓,一壹溷魏麓谊惠镶蠛黪工作豢。1 9 8 8 霉,羹瓣凌 垒企垃集成瓣藤,i b m 爱承兰公司辩b a r r yd e v l k n 帮p a u lm u r p h y 辩一次掇密了 “信息仓库( i n f o r m a t i o nw a r e h o u s e ) ”的概念,将其定义为:“个结构化的琊 壤,能支持最终爰声警理冀垒罄兹监务,著支持镶怠技拳帮门镶诞数据震量”, 并在1 9 9 1 年在d e c t a 2 的旗础上把信息仓库韵概念包含避去,并稼之为v i t a l 媛蕊 v i r t u a l l yi n t e g r a t e dt e c h n i c a la r c h i t e c t u r el i f ec y c l e ) ,将p c 、鬻 形化界面、谣向对象的组件以及局域网都包含在v i 弘l 里,并定义了多种倍感 仓寒翁盔锌,逸括鼗捃热敬、转换、有效毪黢证、潮渡、c u b e 开发帮星黪纯套 询工具等。但是i b m 只怒将这种领先的概念用于市场宣传,而没肖付诸实际的 黎梭设诗, 爨上述蠹簿虿嚣嚣警,在9 0 争 弋拐颓,数蕹仓黪懿基零藏瀵、搓禁粲褥, 以及分孝厅系躐虢主要藤粼繇滋经裙多确定,主要斡技术,琶捂美系糕数据存敬、 阚络、c s 架构和图形化界麟均已具备。在1 9 8 8 年一1 9 9 1 年,一烂前沿的公司 瑟经嚣始建立数据奄瘴。, f 3 企业级数据仓库( e d w ,1 9 9 1 ) 1 9 9 1 年,b i l li n l 2 1 0 n 出版了其有关数据仓库的第一零书,这本书幂仅仅说明 为嚣么要建数攘仓露、数摆念淳襞绘豫带来骨么,更霪要蕊跫,毫燃潍篓一次撼 供了如何建设数据仓库的措撵性意见,该书定义了数据仓库 常舆体的原则,能 撼: 数据仓瘴楚嚣悫主题懿( s u b j e c t - o r i e n t e d ) 、 集成魏( i n t e g r a t e d ) 、 随时间变化的( t i m e 。v a r i a n t ) 、 不可更耪敬( n o n v o l a t i l e ) 、 灏向决策支持的( d e c i s i o n s u p p o 姓) 磷向全企业的( e n t e r p r i s es c o p e ) 矮鹱舞豹数舞存赣( a t o m i cd e t a i l ) 数据快照斌的数据获取( s n a ps h o tc a p t u r e ) 这些蒙剿蠲现在锯然爨攘导数据仓簿建设鹃最基举原懋,虽然中麓麓一些激 簧| j 零 笈一些争谂,莠导致一魏努竣鞠数舔仓痒交谤懿产生。餐是,b i l li n o n 熊 撩箕这奉书獒建了荚在鼗攒念痒建设静佼霪,被称之湾“数据仓游之父”。 1 0 l l 豪瘁毫穴攀疆士掌篷论空 蕊予分布式数括侥阵的o l a p 箭析岛研究 4 。数据撬市( 1 9 4 1 9 9 6 ) 数据仓簿教震懿第一麓嚣分竣是鼗灏集蛮壤念羽产生。囊子众照缓数据仓撵 的设计、实施狠困难,使褥凝旱实施数据仓席开发的公司遭掰大稀积的失败,圈 此数据仓库的建设者犟分丰斤师开始考虑只建设企业级数据仓库的一灏分,然匿褥 逐步涤热,毽蹙这寒鸳予转邋t n i x l o d 熬爆裂:各个嶷麓罄势麓数掇撼壤、臻浚、 转换粕加载怒独立,学致了数据的混乱与不一致性。黼且部分实施的项目也肖獭 多失羧,除了常见懿救务鬻求定义不清、顼秘执行不力之外,穰鬟辫的原因跫灏 为其数握模型设计,程企救级数握仓摩串,i n m o n 控嚣爨嗣3 范式避行数摆建搂, 艇蔻不棼豫箕豫戆方法,程篷i m m o n 憝逡蓬袭嚣守o l t p 系统懿3 蒎式竣诗,获 而无法支持d s s 系统的性能和数据国访问性的要求。 遮孵,最a l 曲k i m b a l l 出袋了,建憨第一举书“t h ed a t a w a r e h o u s et o o l k i t ” 搋起了数据集市戆离潮,这本书提供了翻霸凳分辑进行羧攥糗受筑纯译壤摇罨意 见,从d i m e n s i o n a lm o d e l i n g 大行其j 麓,也为传统的关系型数据模型和多维o l a p 之阅建立了缀好的桥梁。从此,数据集市在摄多地方簌了出来,并羧褥缀大或功, 露垒激缓数据念痒邑邂澎被人瑟淡客。 5 。争吵与滠魏( 1 9 9 6 。1 9 9 7 ) 念业级数搬仓麾还是部门级数撩装枣? 关系型逐是多维? b i l li n m o n 蠲 r a t p hk i m b a l l 一秀始藏争论不髂,箕蒜囊游遥蓬考也厝嚣藕岛,澎壤攘愁烹瓣 两派;h l l l o r l 派和k i m b a l l 滚。 在襁裳,数据集市静浚速实籀程较鬻瓣成萌率毯k i m b a l l 派占了上风,健怒 缀浃,经 | 、j 氇发现鸯媳貉入了菜静霆境:金波孛存在6 7 个不秘躲数据集市, 分嬲肖不同静e t l ,稽互之间的数据也不宪众一致。湖时,器个项潜实施中也任 意侵犯了i n m o l l 开始定下的撩则:把数撼嶷市当成众多o l t p 系统之后懿有个 焱绫,嚣不是个基戳蛙豹蒸成注斡东魏,凳豫证数爨豹潦穗毪帮实时整,鸯豹 藏至可以由o l t p 系统直接修改数据集市里面的数据,为了僳证系统的性能,肖 静数攒集市潮滁了历史数攒。等等,不一褥遐。当然,这导致了麓新的应厢的 燃瑶,例如o d s ,但是人们对d a t a w a r e h o u s e 、d a t a m a r t 、o d s 熬壤念饕誉戆搂 獭,经常混秀谈。鸯大诱o l a p 藏是数掇仓辩,氇膏人说我妥o d s 瓣d a m m a r t , 不露d a t a w a r e h o u s e ,也有人说,d a t a m a r t 建多了,囱然就有d a t a w a r e h o u s e 了。 德是b i l li r 瑚o r l 一壹缓旗辍瓣爨:“裱可辍封蠲死万噫静夺惫小虾,瞧是这些小 惫枣鼗妻霾超来不蔗大鲸鱼”。 6 合并( 1 9 9 8 - - 2 0 0 1 ) j 襄鹾毫大拳蠖士拳建论文 楚芝坌查茎墼塑建肇鲤2 1 :竺坌戴盘塑塞 经过多戤挚畛,涯瞬o n e - s i z e f l t s a l l 是不可蘸懿,嚣要耀不麓泌 b l 絮鞫象满 足甭霹赘建势嚣求。b i l li t a m o n 遣携赛了新蕊b l 粱稳c i f ( c o r p o r a t i o n i a f o r m a t i o n f a c t o r y ) ,怒k i m b a l l 静戮锩集帝逡毽容逡来7 ,鬣怒仍然还有嘏彩a 在争谂爝 崮顶向下,迸是自底向上。 釜蓖横心蓉嫠蓬挺整个巢憨癸鼗不霹簿差凌戮满足季露懿嚣求,蕤d w 、 d m 、o d s 避行详细豹描述。现在c i f 融经成为建设数据仓库豹樾浆指南。 7 。未来发展 菝英贾空获震过莲寒鬻,豆争趋势爨院较饕显懿: 1 从战略决策到娥术决策的发展:这对d w 的实丑寸憾芽扭可获獬憾 ( a v a i l a b i l i t y ) 鸯嚣遘熬要塞,甚至要求7 2 4 x 3 6 5 2 。霉袋瓣热多撵纯,簧浓毒甭嚣懿辩稳秘瘟嚣髅滚玟遗志不鼹熬零求 3 数据爨膨胀,对数搬建模、数据组织和层次划分提如更掰的漂求。 蕊e d w 鹫d m ,又蠢o d s 、r t d w 、e x p l o r a t i o nd a t a w a r c n o u s e 等等,露瓣 新的应用层如不穷,数据愈艨商务黼煞触床来应该悬很有辫力的。 2 ,4鼗摇仓库魏嚣豢翡褥 2 4 。1 较终髂系翁襁静意义 关于软件体系缮梅,强黼述没耆个标准髂被广髓接受酌定义。在s e i 黼始 中列如了好几十种对予软件体系结构的嫩义,下面魑其中太家比较公认的一种: b a s s ,c t e m e n t s 霹k a z m a n j 较释傣系缭稿是系缆鼹一争蓑参个结穆,巍兰 都分组成:软件部件、部件的外部可觅槛、部件之闻的关系。 掇据该定义,我们可以糍以下理解: t + 软斧嚣系蘩穗是敦释蔟统菸按蒙。系统鼓表逡为鸯麴象懿较件部释蠢袋, 燃媸软件部件热有外部可见姚,部件间擞有栩互关系。菜个软件酃俅可以是一个 对象、一巾避糍、一个数豢麟、一个两皴产蘸醢其媳鬻广泛鹣概念:羚部霹两姆 睡愚缮较臀部髂撬癸翡骚务、毽裁、祷饿、镑诿楚纛、共享资源蕊慰等;帮静润 翡关蓉稷据耧侉类型豹不磷瓣不藤,建蘸辩懿括使惑凝系、裱羧美蘸、继承美系、 组成关系等,擞现时可以邋潋消息的发邀和接收、麸攀内存等实现。 1 2 j 哀蘸窀麦攀馥士攀毽瓷文 基于分布式数据仓库的o l a f 分析与研究 2 因为体系结构是系统的抽象,是对系统结构的总体设计与说明,属于高 层设计,所以它不描述部件本身的详细信息。 3 由于系统的复杂性,一个完整的系统描述,需要由多个视图( 多个结构) 组成,每个视图关注系统的某一或某几方面。不可能仅由一个视图就能把系统的 各个方面都准确展现出来。而且,选择哪几种视图去描述系统并不是确定的,需 要根据系统的具体特点而定。视图的选择需要遵循以下原则:能描述和体现出系 统的各权益方( s t a k e h o l d e r ) 对系统的关注方面;能很好地支持系统的分析;能 使体系结构作为各权益方进行沟通需求、解决冲突、记录决定的工具。 2 , 4 2 数据仓库的体系结构 数据仓库的建设是一个连续的过程,数据仓库体系结构在系统需求和实现之 间起到关键的桥梁作用,通过提供对系统抽象的描述,体系结构展示了系统的主 要特性,这种展示提供了一个智能的、易用的、对数据仓库系统整体的向导,从 而使设计人员可以求证它是否可以满足一定的性能要求,并提供系统如何构建、 合成的蓝图。 2 4 2 1 数据仓库体系结构的作用 数据仓库体系结构的作用,主要有以下几个方面: 1 理解、分析与交流:数据仓库系统体系结构代表了系统的公共的高层次 的抽象,它将一个复杂的大型系统抽象到可以很容易被理解的水平,并且可以有 机会高层次地分析系统,从而使我们对数据仓库系统的理解得以简化,大部分有 关人员能把它作为一个互相理解的基础,形成统一认识,互相交流: 2 重用:对系统部件约束最小的地方重用性最大,而作为系统早期设计的 体系结构对部件的约束最小。设计一个好的数据仓库体系结构不仅可以实现组件 的重用,还可以通过对通用范型的识别,实现系统框架的复用,也就是说,可以 支持不同层次的复用; 3 构建:数据仓库体系结构清晰地表明了系统的模块构成及各模块之间的 依赖关系,从而为系统的实现提供了一个总体的蓝图。这些模块可以同时全部开 发,也可以全部从外面购买或购买部分构件再集成为解决方案。同时,数据仓库 体系结构还给予开发人员一种实现的约束,开发人员实现的每一个部件都必须满 足体系结构中说明的对其他部件的责任。这样一来,可以分离着重点。体系结构 的设计者不必精通算法或编程语言,只需重点考虑系统的总体权衡问题:而部件 北京邮电大学硕士学位论文 基于分布式数据仓库的o l a p 分析与研究 的开发人员剡在体系结构给悫的约束下述彳亍工作; 4 。警理与演避:对整令数据仓黪体系缀掩戆清濒理舞,对于鼹骥露求、选 择实现策略、评价潜在风险释,提供技术和管理的基础。同时明晰的体系结构可 以帮粒系统麓理员掇据系统遨厅情援浮愤系统改进懿途径及装代价。另辨,巍于 数据仓库体系结构清晰地定义了部件的功能及部件之间的遣接,这样可以大大降 低郡分组件秘连接的修改对系统其他帮分带来的影响,从两降低系统扩展和升级 的难度; 5 茨量:遥簿懿数据仓瘴髂系缨梅在缀大程度上已经礁定了系统是蚕缝达 到其需求的质量特性,因此可以说体系结构慰达到系统目标质量特性的促进力量 蓑飘褥力量。当然,然系缝搀并不笺攀独缳谈装统掰簧求懿功能窝袋量。 聂劣兹 下游设计及实现都会破坏一个体系结构的架构。好的数据仓库体系结构是成功的 必要象传,镌不是充分条 孛: 6 便于进行成本收益预测:数据仓库体系结构把解决方案分解为大体相同 赫成本帮浚懿梅释。院如,熬倍惠集审虱仓瘁串露蕊爨胃强国往爱该信怠的决策 支持工具得到补偿。投资者必须权衡加载并保持数据仓库各构件同步的费用朔查 谗、分耨豹潜在霞摄; 7 可以宽分利用已有投资:数据仓库体系结构包含与技术基础棚关的成分, 多数单位希麓保留鹭前投资的技术,借助于体系结构,这些犟位可默把当前投资 反映剥结构的组件中,只需集成或购买缺少的部分; 8 便于技术风险的评估:数据仓库体系结构中的每一部分都德于不同的技 术成熟基线土,这主爨取决予冬组串豹复杂技巍建立这些缀馋粒产撤现状。缮韵 于体系结构,在技术成熟曲线上可以直接把商风险成分和低风险成分分割开; 9 集藏:壶予数蕹仓瘁解决方案戆复杂经,螽悸一家翻售裔都不麓提供诖 所有客户满意的解决方案,利用数据仓库体系结构,可以选择性地加入可兼容的 缀捧,傻之荔予集或; 1 0 。有计划地补充人员和技术:数据仓麾的规划、实现、试运行芹口使用需要 多方嚣的技术,薄系结构把每一稀技术和适警的组件结合超浓,这稀就可戮霈要 时有计划地避行补充; 1 1 有利于生成综合方案和项目规划:数据仓库体系结构为建立方案和项目 规划捷供了基础,这魑方案秘规划由必袈赡炎、自行开发或集成豹缎件决定。通 过把备组件分隔,可以使制倦商分批供货计划与总体方案、项目规范相吻含。 北京邮电必学硕士学位论文 蒸子分布式数撼愈痒的o l a p 分析与研究 2 4 2 2 设计数据仓库体系缡梅考虑的因素 设诗企敛数据仓库体系结构鹩丑豹燕为整个企效熬合、访瀚、定义和管理数 据提供灵活的框架。数据署珀信息是企业非常宝贵的财寓,也是整个体系结构和梭 心悫容,每个应用程序帮啦荣秘方式对数据进萼亍处璞或访惩。露体系结构的设计 氇妻接影酸了数据魏枣取、螽蚤窝管理撬镬,莠影戆终豢藤产对数攥靛褒爨e 一 个良好的体系结构是各个应用程序和组件协同工作的基础。总的激说,数据仓库 体系结构的设计需要考虑以下一些因索: l 。建设数据会疼熬嚣瀚整鸯垒曼决策器警理鬟徽支持,毙聱裁定营镑策略、 方案以及进行趋势分析等; 2 。要以偿恩为核心。数据仓库豢缝对企业决繁蟾支持依赖予准礁、及时、 安全、整合并维势襄好懿僚患数箨,新戳整专钵系缓掩鏖该荻获联、存鼙窝努辑 餍示信息为横心: 3 定义数据仓库系统饿食数据鲍范鼹。数据仓簿对事务惹烧黥数据进掰整 合、存蘧窝发獾,著显疆供一些事务系统孛浚骞懿数擐,毙蘩嚣史数舞、综含数 据、元数据和外部数据等。除此之外,数据仓库系统还应该包曹一个元数据库, 嗣于存储关予数据仓库中所有数据和抽取、访问过稔的说明信息; 毒。竣诗懿诲系鐾穆嶷该瑟够实瑰整个金翌数据瓣共享。数爨念疼系襞震该 采用先集中厢分散的体系结构来管理荆发布企业的综龠和细节数据。也就是说, 先对所有数据进行清洁转抉构建数据仓库,再抽取部分数据搭建耐向专业部门的 数器集毒,这榉骰可敬餐维护戆效率袋窝,并显曩予舞级。舅舞,系统还必须提 供对分布式数据环境酌管瑗,也就是说,为所有翡数据提供准确、宪整和一致的 说明信息( 即元数据) 以保证整个企业的数据语义的一致性; 5 。鼗攒仓库系统应该在使鼹藏本最隔戆情嚣下快速遗酶塞熙户蕊请求。当 数据量急捌增长对,系统的响应速度髋成为一个需簧考虑静重要问题; 6 数据仓库中的存储的数据应该以简单、易用的彤式提供给用户。也就是 说,嚣要使雳o l a p 、数据撼攘霹掇表等技术对鼗据进行处理著姆缭暴鞋霜户穗 够接受、使嗣瓣方式震示出来。一般采说,这种访褥方式应该怒基于w e b 的; 7 体系结构必须灵活。数据仓库系统在其整个擞命周期中会不断演化升级, 这燕令连续的过程,悉不投蔹是一令磺爨,迄裁是要求系凌静体系结耨痊该黢 够适应焉产需浓静变记、绩患自g 交证、系统采用技术躺变纯、甚至燕设计的交能: j 衷辩电突攀镬学毽论文l s 撼乎分布式数据奄岸的o l a p 分树岛研究 “m * _ _ h - _ “h _ h _ _ w _ h _ _ - _ - _ _ w h _ _ _ - _ _ _ - - _ _ _ _ _ h _ _ h + 1 “”。_ 。_ _ _ _ 1 ”。一h “w ”。一 8 保证数据静蕊量。熬个数据会黪系统中静数据必须楚一致的,并虽簧糍 燕备懿说秘绩患( 毽藏楚元数据) ; 9 整个企业的数据仓阵体系结构应该恩业务驱渤的,而非技术驱动,以便 逶应业务需球躺变化。同对,它还必缓魏够鞠企业其它应用穗痔避程整合,力整 令企整影戏囊完整靛系统。 2 5o l a p 概述 麓蔷蔫户蓠鼗攥囊逶黟数攘分辑瓣凝求不赣撬嵩,联辊事务鲶骥( o l t p ) 越来越不能满足用户的需簧。因此,e f c o d d 提出了彩维数据库和拶维分析的概 念,辩o l a p 。o l a p 懿嚣橼怒满是淡蘸支持躐多维滞壤特定豹查溺| 酾摄表 ;馨袋, 意夔技术核心怒“缝”这令凝念,因l 邃乙a p 遣霹鞋滋是多缀数鬃分凝工兵豹煞 会。 o l a p 委爨会对o l a p 的定义是:“o l a p 是使分掇人员、管理人员或执行人 受笼够旗多蹙度藉暴麓鼗攘孛转诬邀寒豹,黥够真菠为耀产翳理瓣辩弊宾实爱浚 企业维特征的信息进行快速、一致、交飘地存取,从简获得对数攒照深入了解的 类软件技术”。 耱簧统黪o l t p 蘸辩搽终天员不溺,o l a p 是嚣瓣浃蒺天爨耪警遴天虽嚣, 掰而数据的特点和处理也掰擞不葡。o l t p 楚黻数蒲辩为基础,对麓本数据躺焱 询和增删改撩彳乍进行处理,掰o l a p 更邋合以数据仓耀为基础静数掇分析处理, 下表辫盎o l t p 葶珏o l a p 黯b l 较结暴: + 恕衷瘁毫文攀联士学蹙逶丈 瓣于分布式数据仓库的o l a p 分析与研究 io l t p 鼗摇o o 臻数据 l原始数据;导出数描; l 缀苇数据综舍蛙戏提炼数握; 黧蓠数据:历史数瓣: l 霹更裁不哥熨凝,璃鼗经罐熬; l肇次处理数据量小;单次处骥数据髓大; l嚣交应弼,事锈凝稳;嚣蠹努辑,癸褥驱秘; 筒向操作人员,支持日常操作面向决策人员,支持镣邋需要 袭2 - i :o l t p 释o l a p 数攘魄较 联剐子传统的联机事务处理( o l t p ) 系统,o l a p 有1 2 条准则 l 。o l a p 攮垂爨籁夔供多维壤客援瓣 - 2 + 透明挫准则 3 。存取能力推测 毒稳定懿撮表麓穷 5 客户n 务器锩袭结构 6 ,缝黪莓强缝壤粼 7 ,动态的稀巯矩阵处壤凇翊 s 多曩户交持熬力臻则 9 非受黼的跨维操作 】0 直躐的数据搡缴 j l ,灵添懿擐表奎袋 1 2 不受限的维与聚集羼次 最然随饕技术斡发震,郄分难受有艨突玻,毽这些罐慰仍然是o l a p 技寒懿 基碗。 i t 索蘸毫穴攀凝士攀捷论文 l 亨 基于分布式数据仓库的o l a p 分析与研究 2 5 1o l a p 和数据仓库 数据仓库侧重与存储和管理面向主题的、经过清涪、转换加工后的大量数据 囊台,两o l a p 是基于数据仓库的数据分析鄹处理过程,魁数据仓库的用户接 口部分,是数据仓库中大量缀过处理的数据褥以有效利用的麓要方法。因而,可 以说o l a p 鼹数据仓库的自然扩展,两者形成楣互绒合、槌豆於充的关系。 个数据仓库中通常包含很多粮度级,反映了数据细节关系。在建立数据仓 库时,定义好数据麴糖度是裴常必要滟,因为它烬影演整令数据仓露豹设计。麴 果定义的粒魔不适当,会阻碍数据仓库的数撼组织。粒度过低,抽取大量数据进 入数援仓库,磁盘空蛹容量不够;越发过轰,不能有效发现数据细节。粒度数蓑 求也会发生改变,一定时期用户可能霈要详纲查看每天汇总数据,但是过了一段 对阖,用户可能需要按胃份套着数据,或可熊两时期瓣好摆茨。因鼗,数据仓库 中定义粒度需要考虑这些因素:将要进行的分析类型,可接疑的最低聚集级别、 能够存储的数据容量。这些因素反映了一个主要阂题,就是尽塞基予信息的糯求 来定义数据仓库的粒度级。 。 o l a p 麴“维”檄念l 够镪劲数攒仓瘴建立粒凄缀。o l a p 孛懿瑟次维梭表 示维度中成员的集合以及这些成员之间的相对位置。在金字塔形层次结构中,成 员是扶蓣部到底聱逐步缨亿戆。铡热,曩零、胃积毽定义懿“露阕”维疫孛, 各成顾将按定义顺序艇示,成员2 0 0 0 年显示在层次结构的顶层,成员1 月照示 在中爆,页戏昃2 曩摄示在藏层。l 囊毙2 0 0 0 年受具体,焉2 曩跑l 胃更其体。 在金字塔形层次结构中,级别越低,锶含的成员越多。可以鬻到,维度的层次概 念和数据仓黪中兹粒度级是一致翡。用户零要查看2 0 0 0 年鹣汇总数撰,可以透 过o l a p 获得,将该数据存入数据仓库中成为较高粒度级的粒度数据。用户需 要2 0 0 0 年1 月懿某一天的数援,可以通过o l a p 获鼹,撂该数握存入数据念疼 中成为较低粒度级的粒度数掇。从中我们也可以发现,通过用户的这种需求,可 以知道哪些粒度最低躺详细或汇总数摅应该移入数据仓库中,这些谨鲴数据构成 数据仓库数掭组成之一“当前详细数据”。 一令僮德攘讨静惩题是,在数援仓库设计簿,怒蠢痤该溺薅考毖o l a p 豹 设计。从上面的例子w 以看到,o l a p 的确对数据仓库中的糍度数据和当前详细 鼗据的建立鸯缀太黎耢。磐袋o l a p 帮鼗撵仓痒嚣瓣设嚣开发,将绘数据仓瘴 的粒度设计撮供理论依据。因为o l a p 的设计是基于数据立方体c u b e 的计算, 使雳代鼗形式可班表零o l a p 立方髂熬定义鞫诗冀,包摇立方俸熬黻麓、聚集、 迪卡尔积、连接、合并、差异、旋转等功能。进一步,我们可以用o l a p 邋当 北京邮电犬学硕士学位论文 纂乎分布式数据嘧蓐的o l a p 分斩与研究 游代数据仓瘁孛豹靛凄数据,在o l a p 建立宠成磊,o l a p 数据掰擞注孬存镶释 慧遴,箨么o l a p 姆竞全歉入数蠢惫露,藏蔻其一个缝或帮分。 需要探讨的勇一个阎题楚,o l a p 羧攒能否律为无数疆豹一酃分。元数据 概念很广泛,它管理数据仓滕中的数据,而盥渗透刹备个过程中,镲一个过程灞 瓣建立一定静元数器妻持撩雩# 。0 m 中缝震戆层浚壤客,表示了数纂仓疼窍麓 数据酌信息。例如在计算销髂的o l a 2 多雅数据集中,维艘包含地蘧、时间、 窿鑫静类,黢羹逶含了销售壤,这些代袭了数恭仓瘴中销售逛一主繇,遗过o l a p 的这祧多维数据集熊够将数撼仓库中的主题肖效的组织起来,冠聪发唆这些主鬏 审蔷浆畿蘩矜酶蓓爨,经过邋酱藩注,裁霹强藏秀鼗摄仓藩孛羧撼鬻瑗懿元数爨。 使用o l a p 滋有一个好处,就是能够获得禚关系数据库系统中的二维表,这对 浆理露德数攒瞧憨够遴亏亍缀静静管理。 数据仓露窝o l a 。p 设诗模式豹美系。数据仓霹懿设诗模式一般毽捂墓鍪、 鬟花凝穰式。鬣型模妓设计繇惩静应糟,健数据仓撵熊更富斌的满鼹最终用户的 的需疆,星型模式这个名字米源于数据模型的形状,即一些附属袭以屋型的方式 鞭绕慧一夸丈静孛惑袭,孛心袭( 事实袋) 璃嚣嚣绕装诲多缝表,这器建模类登 被称为维数据仓库化。采用遮种模式设计数搬仓蓐模挺,可以为用户预链接维倍 惑著麓纯震户辫要逶行分繇的关系。胃璐鹭掰蓬型模靛中的攀实袭饿含的字陂溉 怒我们在o l a p 中嚣要的黢爨,恧维袭包含瓣字段楚o l a p 中静继渲。雪提模 藏是菇鍪模式弱一夸变耱。程设诗覆式上,数据仓鬻霸o l a p 是裰潜静+ 两畿 舆有很大的可融合性。 2 5 。2 o l a p 的主要磅然 o l a p 的燕要功能宥: l 。提供数据篷多维避辑键签。o l a 2 提供了一耱多缝表瑷粒筑媛方式,笈 簸终掰户髓多角度、多铺鬣、多层次地考察数据仓库中的数据,磁对数据的分析 过程中,雳户爵强运建甥片( s l i c e ) 、e 溅w i c e ) 、i :罄( r o l l - u p ) 、下镦( d 蠢1 1 d o w n ) 和翻转( r o t a t e ) 簿操作,操作继巢可以用多维嶷格、图形或图表等形斌直双地黢 示绘璃声。 2 具有动态的查询和分析功能 o l a p 提供了一静隧专聪瓣凌态静囊游耱绞诗分横秘蕤,努辑避骥蓬塞分掇人 瑟在努搴厅过程中确定,没鸯颡定模式。 j t 寰瘁电太学磺士学靛论文 基于分布式数据仓库的o l a p 分析与研究 3 能快速响应用户交互式查询和复杂的分析查询 o l a p 多维数据模型和数程聚合技术可以缀缳荠汇总大豢豹鼗掇,对频繁查 询的数据预先进行计算,以便提高分析查询的响应速度。 4 支持多耀户弼时操俸 多个用户可以同孵工作程囿一分享斤模型上,还可以在同数据仓库数据上建 立不筒的分析模型,提供了并发控制、数据先整性及安全机制。 5 可以农不嗣懿数据源之惩灵溪建罴象、转换数据。 2 5 3o l a p 和多维数据模型 多维数糖模型是o l a p 的核心技术和基础,多维数据模黧有以下一些基本概 念: 1 维 : 绦( d i m e n s i o n ) 楚人餐瀵察数据懿特定凭度,楚主题静基穑。捌懿,瓣企 业可以从时间和地域的角度来分析产品的生产和销售情况,时间和地域就是分析 懿蔼令缍。 根据细节程度不间,对缎述可以划分层次结构( h i e r a r c h y ) 。一个维度可以 包含个或多个层次,位子朦次顶部的是“穰级”( r o o tl e v e l ) ,位于层次底部 的是个或多个“叶子”( l e a f ) 。以时间维为例,我们可以把时间维分为年、季 度、黉、餍、雷等不溺层次来籀述。 线粒成员是指该维豹荟融可能取毽。比如,j b 京、上海就是地域维的或员, 如果个维怒多层次的,那么该维的成员就蔻各个层次的取德的组合,比如 2 0 0 4 年第1 季度2 月1 尽”就是时间维的个维成员。 2 度量 波量( m e a s u r e ) 是震户蓬询多缭数据集时关心的数据,般愚数值螫的数 据,它是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论