




已阅读5页,还剩79页未读, 继续免费阅读
(管理科学与工程专业论文)综合信息分析系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 当今世界充满了激烈的竞争,准确及时的决策是企业生存和发展 的重要环节。为了充分满足对数据分析和决策支持的需求,近几年兴 起的数据仓库理论和技术已经趋于完善和成熟。但是对如何建立一个 成功的数据仓库系统,真正被企业管理者使用起来,还处在探索阶段, 成功的案例为数不多。 因此,为太原铁路分局财务分处设计并建设综合信息分析系统成 为一个对数据仓库系统建设的探索过程。面对这个第一次应用数据仓 库理论的实践项目,项目组的成员一边探索,一边前进。在系统建设 的过程中,我们借鉴了软件工程已经成熟的开发思想和方法论。同时 注意到数据仓库系统在结构、内容和思想上的特点。将工作重点进行 调整。同时将思考问题的方式也从传统软件系统的业务角度转变到数 据分析角度。 在系统建设的整个过程中我参与了需求定义工作之后的对数据 仓库系统的设计和实现工作。包括对系统结构、数据库结构、数据存 储结构和数据字典的设计完成;数据分析模型包括分析主题、分析 模型、指标和维度的设计实现;设计并实施数据抽取、转换和加载各 项功能。 数据仓库是一个很好的理沦和技术,是未来企业信息化发展的方 向。由于现在企业中信息化发展水平的限制使得数据仓库理论在实 践应用中遇到很多问题。但是任何先进的理论和技术的发展都需要经 过这个与原有技术并存,随着发展逐渐取代旧的技术的过程。那么我 们现在在实际应用数据仓库技术的过程中,需要做的就是为企业带来 新的信息思想和技术,用新的技术弥补原有系统的不足,丽不是生硬 的替换。只有当用户在应用的过程中对新的技术有更深刻的理解,认 识到它的好处,在企业信息化得到更大发展的时候,才会积极地推行 新的技术和理论,进而推动企业决策和管理的发展。 关键词:数据仓库,数据仓库系统,o l a p ( 在线分析处理) a b s t r a c t a b s t r a c t n o w a d a y s ,f o rs u r v i v i n g i nt h i sw o r l dw h i c hi sf u l lo f i m p e t u o u sc o m p e t i t i o n ,c o r r e c ta n dt i m e l yd e c i s i o n m a k i n gh a s b e e nt h ek e y p o i n to fe n t e r p r i s e s h e n c e ,d u r i n gt h ep a s tf e w y e a r s ,t h ed a t a w a r e h o u s et h e o r ya n dt e c h n o l o g y i s d e v e l o p e d q u i c k l yt os a t i s f i e dt h i sr e q u i r e m e n t h o w e v e r ,h o wt ob u i l d u pas u c c e s s f u ld a t a w a r e h o u s es y s t e mw h i c hs h o w si t sr e a lv a l u e t od e c i s i o n m a k i n gp r o c e s si n s t e a do fn o tb e i n gu s e db ym a n a g e r s i s i nt h es t a g eo fs e a r c h i n g ,b e c a u s eo ff e ws u c c e s s f u lc a s e s 。 s ot h i sp r o j e c tf o rf i n a n c ed e p a r t m e n to ft a i y u a nr a i l w a y s u b s t a t i o ni sag o o dc h a n c et oe x p l o r et h ea p p r o a c ho fb u i l d i n g u pad a t a w a r e h o u s es y s t e m d u r i n g t h e p r o c e s s ,t r a d i t i o n a l s o f t w a r e p r o j e c tt h e o r y a n d m e t h o d o l o g y w h i c h d e v e l o p e d p e r f e c t 1yisu s e df o rr e f e r e n c e a tt h es a m etim e ,w ec h a n g e o u r p o i n t o f w o r k i n g a f t e rc o n s i d e r i n gt h e p a r t i c u l a r o f d a t a w a r e h o u s e s y s t e m i ns t r u c t u r e 。c o n t e n ta n d t h e o r y f u r t h e r m o r e ,t h i n k i n gi ss h i f t e df r o mo nt h eb a s eo ft r a d i t i o n a t p r o c e s so fs o f t w a r ep r o j e c tm e t h o d o l o g yt oo nt h eb a s i so fd a t a a n a l y s i s 。 d u r i n gt h ew h o l ep r o c e s so fd e s i g na n dr e a l i z et h ep r o j e c t , m y j o b isd e sig na n dr e a liz et h ed a t a w a r e h o u s ea f t e rt h es t a g e o f r e q u i r e m e n ta n a l y s i s i t i n c l u d et h ew o r ko fd e s i g na n d y e a li z i n gs y s t e ms t r u c l u r e 。d a t a w a r e h o u s e ,d a t as t o r a g ea n d d a t ad i c t i o n a r y ;d e s i g na n dr e a l i z i n gm o d e l so fd a t aa n a l y s i s , w h i c hi n c l u d es u b j e c t so fd a t aa n a l y s i s ,a n a l y t i c a lm o d e l s , m e a s u r e sa n dd i m e n s i o n s :p r o g r a m m i n gt oc o m p l e t et h ep r o c e s s o fd a t ar e q u i r e m e n t ,d a t at r a n s f o r m a t i o na n dl o a d i n g + i naw o r d ,d a t a w a r e h o u s ei sap e r f e c tt h e o r ya n dt e c h n i q u e w h i c hw i l lb et h ed i r e c t i o no fe n t e r p r i s ei n f o r m a t i o ns y s t e m d e v e l o p m e n t b e c a u s eo f t h el i m i t a t i o no f e n t e r p r i s e i n f o r m a t i o n s y s t e md e v e l o p m e n t ,p r o b l e m sa p p e a rd u r i n g t h e a b s t r a c t p r a c t i c eo fd a t a w a r e h o u s e i nf a c t e v e r ya d v a n c e dt e c h n o l o g y a n dt h e o r i e s w i l l p a s s t h e p r o c e s s o f r e p l a c i n g t h eo l d t e c h n o l o g ya n dt h e o r i e sa f t e re x i s tt o g e t h e r s ot h ep r a c ti c e i sb r i n gn e ws y s t e mm i n d st oe n t e r p r i s e st oc o n q u e rt h el a c k s o ft r a d i t i o n a ls y s t e m ,i n s t e a do fr e p l a c ec o m p l e t e l y o n l yw h e n t h eu s e r s g e td e e p e ru n d e r s t 8 n d i n g o fn e wm i n d sa n dt h e a d v a n t a g e s ,t h e yw i l lp u s hi ti n t op r a c t i c ew h e nt h ei n f o r m a t i o n s y s t e mg e ta d v a n c e dd e v e l o p m e n t k e yw o r d s :d t a w a r e h o u s e ,d a t a w a r e h o u s es y s t e m ,o l a p ( o n 一1 i n e a n a l y s i sp r o c e s s s ) 独创性声明 本人声明,所熙交的学位论文是我个人焱导师指导下进行的研究 工作及取箨的研究成果。尽本人繇知,除了文中特别加戬糠注积致谢 的地方辨,论文中不包含其他入已经发表或撰写过的研究成果,也不 包含为获得北京交通大学或其他教学机构的学位或证书丽使用过的 材料。与我一起工裕黪同志对零磅究赝徽的经褥贡献已程论文巾佟7 明确的说明并表示了谢意。 本人签名: l - t 期:塑鱼年美楚三堑冀 基本理论 1 基本理论 随着经济和社会的发展,企业业务环境和竞争环境的快速变化, 企业之间兼并和重组的加剧,对客户市场的竞争,都使得企业对信息 的需求向更深和更广的方向发展。这成为数据仓库理论和技术得盼发 展的根本原因,因为当企业开始重视信息的价值的时候,数据仓库( 系 统) 就成为一个必然的选择。 对于中国企业来说,面对w t o 和世界经济增长减缓的巨大压力, 为了保持经济的稳定增长,越来越多的企业领导认识到准确、全面的 信息支持正在逐渐成为企业在竞争中制胜的法宝。因此,随着经营战 略的转移,越来越多的信息的潜在价值被企业所关注,数据仓库也成 为i t 领域中备受关注的热点之一。 1 1 数据仓库的基本概念 1 1 1 数据仓库与数据库 理解数据仓库的理论和技术,首先需要将它与传统的数据库理念 相区别。 传统的数据库技术针对单一的数据资源,即以数据库为中心,从 事事务处理、批处理到决策分析等各种类型的数据处理工作。近年来, 随着计算机应用的发展。网络计算开始向两个不同的方向拓展,一是 广度计算,一是深度计算。广度计算的含义是把计算机的应用范围尽 量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征。另 一方向就是人们对以往计算机的简单数据操作,提出了更高的要求, 希望计算机能够更多的参与数据分析与决策的制定等高级管理领域。 因此,数据库处理功能逐渐被细分为两大类:操作型处理和分析型处 理( 或信息型处理) 。这种功能上的分离划清了数据处理的分析型环 境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数 据环境发展为一种新的面向多数据资源的环境:体系化环境。 从数据库系统诞生开始,它就一直作为一种数据管理手段,主要 用于事务处理。传统的业务系统一般就是直接建立在这种事务处理环 境上的。经过数十年的发展,在这些数据库和业务系统中已经保存了 北京交邋火学硕士学位论文 大鬣的日常业务数据。同时,随着技术的进步,人们试图让计算机担 援爨多涎工佟,嚣数据瘁技零瞧一壹力銎璇鑫己笼蕤强从事务楚理、 批处理到分析处理的各种类型的信息处理任务。但是,程传统的数攒 库中,存储在信息库中的企业数掘在物理上被分成许多擞来实现某些 特定功能,要想徽好的对分数的企业数据避行统计是非常困难的,需 要缀多次翁数摇撵取嚣秀生裁。磊置,对不溺糖凄窝辩瓣豹要求罐麴 了数据操作的复杂程度,需要付出很高的代价。另一方面,事务处理 和分析处理具有极不相同的性质,例如数据集成、动态数据、数据综 合镣问题的出现,鄯说明直接使用事务处理环境来支持决策,特别是 高级决策是毒亍不通的。传统数据库暴露出瀚稀耱缺煮,酃维动了鼗撼 仓滕理论和技术的发展。 迄今为止,数据仓库是最让人困惑的几个i t 术语之一。尽管先驱 们为数据仓库挝激了各毒孛不醛翱弱的定义,其中数据念露之父8 i 1 1 i n m o n 在1 9 9 1 零出舨的酗i i d i n gt h ed a t aw a r e h o u s e 一书中掰 提出的定义被广泛接受,他把数据仓库定义为面向主题的、集成的、 稳定的、不同时间的数据集台用以支持经麓管理中的决策制定过程。 “强肉圭题豹”怒援数搀以瑷饯袭夔韭务肉察划分, 嚣举楚鞋应露剡 分;“集成的”楚糖数据仓库牵的羧疆采用统一豹格式粒编码方式 “不 同时间的”就魑数据按照时间进行组织并盥存储于不同的时阃切片; “稳定的”表示不允许对数据仓库的数据进行更新操作。只允许加载 羁焱溺搽终。麸定义上说,数攥仓痒最摄零戆特熹楚糍臻缝存援金戴 数攒,这些数攘并不是最新酌、专有的,灏怒来源予多个数据痒。因 此,数据仓库需鼷建立在一个牧全面和完酱的信息应用的基础上,来 支持高层决策分析。在实际戚用中,许多企业已经建立了相对完善鲍 事务楚莲数攥瘁惹统。因魏,在现除段建嵌戆数摄仓瘁还是震数撂露 管璩系统来管理藏中的数据。 1 1 2 数据仓库项目 数囊仓瘁是一耱企鼗簿凌方案,蠢不楚一舞产品。瓣为数豢仓瘴 技术是为了有效的把操作型数据集成到统一的环境中以提供决策墅 数据访问的各种技术和模块的总称,目的题能够提供一个完整的并且 完全集成的商务键能方案。 2 基本理论 同时。数据仓库怒一个过程,丽不是一个项目。在自由竞争的市 场经济条件下,任何个企业的数据仓库系统都会面临变化带来的挑 藏。嚣戴,数据仓麾系统豹建设绝嚣一蹴丽就。一个成功豹数攥仓库 系统魏黼个与企簸共同成长、笈精和交纯静露税体,它的发展和交 化只有在企业本身停此发展和变化的时候才会停止。所以,个成功 的数据仓库项目除了需要选择正确的技术、设计合理的结构之外还需 要琵嚣逶耋匏久力弱物力资源以及潮定韬会实鼯戆援翅。毽戴,我粕 平常所说的数据仓簿项目对皮的不是“d a t a w a r e h o u s e ”,嚣是 “d a t a w a r e h o u s i n g ”。是建立数据仓库系统过程中的一环。 1 。1 3 数据仓库系统 警i n m o n 撵淑数攒仓库概念静辩候,入稍瑟经在关系整数据库技 术的应用过程中发现实体一关系的设计方法使得关系型数据雕很难处 理大规模数据查询,即所谓“易进不易出”的问题。数据仓岸概念的 援出薅怒舞了惩决这令阉蘧,裂瓣数提仓疼戆建模方法,可以糍秘关 系数掇席解决数据裔诲难的闻蘧。因此可以说,i n m o n 的寇义所陈述 的是种设计方法,更多的偏爨予对数据本身和数据模型特点的描 述。然黼,在关系型数据库已经成为i t 应用的熬础平台的今天,数 摆仓瘁瞧褥到了掇大熬发爨。数凝仓瘴已经不繁蹩一秘理论靼方法瑟 成为一种实际的企业缴廒用。如栗把i n m o n 的定义称之为数撼仓库, 那么它发展到现在就称为数据仓库系统。 数撼仓库系统是个信息提供平台,它从业务处理系统获得数据, 主要浚鬃壅搂鳖秘嚣花登模鍪遽嚣数据疆织,势建弱产凌镞魏秘手段 从数据中获取信息和知识。相比较其它的应餍系统,数据仓库系统有 其独特性。例如,频繁的变化、颇向企业不同的业务和用户、少量的 大事务处理、系统的榴对独立等等。 献凌麓结穆上饕,数蕹仓瘁系缓至多应该毽会鼗攥获敬( d a t a a c q u i s i t i o n ) ,数据存储( d a t a s t o r a g e ) ,数据访问( d a t a a c c e s s ) 三个关键部分。在此基础上,一个完善的数据仓库系统应该包含五部 分内容:数据整合、数据存姥、数据访闯、信爨整合和元数据管理。 摇图l l 所示。 3 j 京交通大举硕士学位论文 露、端 圈1 - 1 数攒仓痒系统枣奄藏 a 。数据存储 数壤仓库袈绫与营逶戆套谰鞠摄表系绞乏闻最骥鬟静嚣裂在予 与渡务处理系统相独立的数据弦储。数据会霹一般蘩予荚系型数搬 瘁,浆翊星蝥横型,雪藐模登或j # 勰范纯模瑟遴行数据结构设诗,猿 立存储分析数据、模型结构和数据分析结果。 b 。数援整含 数搂仓库中的数据是以隧向囊题的方式缎织,而她务数据库的数 攥总蹩溺绕著一个袋几个照务处缨流程。因魏,数器跌照务数摇瘁猁 4 基本理论 数据仓库的过程不是一个简单的复制过程,而是需要十分复杂的数据 处理,被称为“数据整合”。数据整合的工作可以笼统的划分为数据 抽取( e x l r a c t ) 、数据转换( t r a n s f o r m a t i o n ) 和数据加载( l o a d i n g ) , 即所谓的e t l 。虽然现在市场上有很多e t l 的工具,但由于各个企业 的数据存储方式都有自己的独特性,所以一般企业级数据仓库系统的 后台数据整合工作是由多种不同的数据处理工具和手工编程互相配 合完成的。 c 数据访问 企业中不同层次的用户在处理不同的业务时通常需要不同的信 息以及不同的信息提供方式。因此数据仓库系统的数据访问通常由多 种不同的工具和应用构成。包括o l a p 、生产报表、领导信息系统或 各种针对不同业务的分析应用。 d 信息整台 多种不同的工具和应用构成数据仓库的数据访问部分,使数据仓 库系统成为真正满足企业不同用户需求的信息提供平台,但同时也带 来了用户使用复杂,管理繁琐的问题。信息整合的基础就是把各种不 同的信息源封装在一个统一的界面下,实现统一的、简单的信息访问 操作和管理。信息整合的基础是信息门户技术,利用信息门户构成对 数据仓库进行访问的统入口。用户在登录门户之后就可以方便的进 入各个不同的前端访问模块。针对不同层次、不同业务的信息访问都 可以在同一个界面下切换和实现,如图l 一2 所示。 j 京交遴大学硕士学位论文 数摄涛t f ? i 越怖 金q k l 4 j ; j 户j t l 户j j 尸j pr q p 圈i - - 2 信息整食 e 。元数覆警遴 元数据管理是企业缴数据仓库系统的鬟蔡组成部分,利用它可以 对数据仓库系统本身以及所有相关的业务流程、业务规则、业务系统 进费究整的描述,隧且可以方便的对这些榴燕联的描述避行套询和检 索。 1 2 分析粼数据仓库技术与应用 1 。2 。1 。o l a p 与分析型数据仓库 在圈1 - i 中可以看到,农数据仓库系统中,“数攒访闻”包含了 三部分内容,其中“o l a p 分析”是将数据奄库的理念和技术与o l a p 数攒分析工具结食使用,是数据仓库系统的一个必不可少的组成部 分。霾瑟,我靛游建立数豢会露,莠建矮o l a p 分羲工爨稳建搂墅瓣 数搦进行分析、挖掘潜在信崽的数据仓库系统称为“分析型数据仓 库”。 与0 l a p 相对的是o l t p 。o l t p ( o n 1 i n et r a n s a c t i o np r o c e s s ,在 6 * 一一一一一一一p 一嘲一 一一产一甩一一一一 p h 一一一一 p _ 掰一一 一一产一娜一一一一一一一一 咿 触 一 洲 一 蒸本理论 线事务处理) 系统也被称为事务处理系统,它是事件驱动和面向应用 的,例如银章亍的储嚣系绕就是一个典型的o l t p 系统。0 l t p 鲍基本 特点楚:对响应时间要求非常高;用户数量非常庞大,主瑟是操作人 员;数据库的各种操作基予索弓l 进行。丽o l a p ( o n l i n ea n a l y t i c a l p r o c e s s i n g ,联机分析处理) 是基于数据仓库的信息分析处联过程,是 数据谯蓐的耀户接嬲部分。o l a p 具露如下特性: a 快速性 谯数据仓库系统孛,嬲户对o l a p 的快速反应能力有锻蹇的要求。 系统成能在5 秒内对用户的大部分分析要求做出反应。如果终端用户 在3 0 移内没骞褥到系绞魄瘦裁会交褥不耐矮,霞嚣霉能失去分糖圭 线索,影响分析质掇。对予大数据量的分析要达到这个速度并不容易, 因瑟羧雯舞蘩一些投拳上豹支持,魏专门懿数据存锉辏式、大量麴事 先运算、特别的硬件设计铸。 b 。麓分耩牲 o l a p 系统应能处理与应用有关的任何邋辑分析和统计分析。尽 管系统经过了事先编程,鬣这势苓意昧蔫系统毫经定义好了j ;f 膏豹应 用。方便的是,用户无黼编程就可以定义新的专门计算。将其作为分 橱鹣一部分,菸班瘸户麓愆静方式绘癌报告。嚣基,舔产藐可黻在 o l a p 平台上进行数据分析,也可以逡接到其它外部分析誓具上,如 辩闻洚弼分轿工爨、成本分配工其、瑟夕 报警、数攒拜采麓。 c 多维性 多维往是o l a p 的关键属性。系统必须提供对数糖分拆的多维视 图和赞析,包括对层次维和多重层次维的完全支持。事实上,多维分 厅是分析企娩数据磴有效羽方法。是0 l a p 静灵魂。 d 傧息性 不论数据量有多大,也不管数据存储在搿处,0 l a p 系统应能及时 获褥惯息,并且管理大容量信息。这里有许多因素需要考虑,如数据 的可复制性、可利糟的磁盘空间、o l a p 产品的性能以及与数据仓簿的 结合度等。 1 2 2 分析型数据仓库的应用 随着数据仓霹理念的维广和技术韵日趋成熟,数据仓簿已经蕻有 7 北京交趣d 丈学硕士学位论文 了非常广泛的成朋。而且很多大的公司都已经推出了自穗的o l a p 分 孝厅王其蠢鼗撂挖攥工其,更热攘动了数箍会簿兹痤矮豹发展。数瑟仓 库舷用于不同的行业,并扩戚特殊功能,形成行业解决方案。下面列 举几个方面的应用。 将数据仓库瑷念与o l a p 数据分析技术和财务系统结会,可应用 予众磁、绦殓、缀行等行鼗,弼翔分辑资金流囱趋势、逡行疑殓译岱 等等。 将数据仓库技术和g i s 技术结合,形成空间数据仓脬。这样引入 了辩闼维的概念,就可以根攒不同鼢需要划分不网的时闽粒度等级, 设馁进行各种复杂鲍趋势分橱,翔主遗覆麓变纯磅究、全球气候的交 化越辨等,以支持政府部门的宏观决策。 将数据仓库技术与客户关系管理、市场营销等方面结台将对经 骛嚣的决策提供辚魏支特。这撵能够絮助企渡更好的分振客户情援, 倒翔客户翻润率、客户消费骰向、客户信誉废。挖掘潜在市场,含理 迸行成本规划。 1 3 。分析型数据仓库邈模 对手笼掇潜凌倍惠,最爨簧豹一个磺癌容就楚灸鼗缀疆便秘学静 分析模型,这样才能使数据分析的结果具有参考意义。巍进行分析型 数据仓库建设的过程中,需婺建立合理、凇确、优化的备种模型。分 据爱效摄仓库模型主要包耩滋节足个方嚣的内容。 1 3 1 数据仓库系统的架构模墼 现阶段软件工程中常用的架构有三种:b s 、c s 、j 2 e e 。随着数 据处理量和应用的趱多,c s 絮梅已经使建的缀少了。现在最常用鳇 是b s 架构。也就是所有靛较 牛应稻、鼗搭奁询窥计算搽终都在骚务 器上进行,客户端的作用只是让用户测览数据结果,而不安装任何应 用软件。采用这种架构的好处是,所有的数据都存储在服务器上,客 户璃弱户不能对其送霉修改箴囊询浏览投袋之终的数撂,热强了数攒 和系统的安全控剿:企业的系统稠络上只会传输查诲豹络渠数据,降 低了网络负载:猩调整应用软件的时候,只需要对服务器进行操作, 任何变更与客户端无关,这方便了系统的管理和用户的使用。j 2 e e 架 8 基本理论 橡爨来寒筑发鼹趋势,它雯安全、跨乎台,适合予庞大豹数据仓库系 统。 1 3 2 多维数据模型 数援模型楚数据仓库磷究豹核心闻题。虽然最近入们在数据仓箨 方谣开展了丈爨的研究工谗,但主要还集中在实体纯视图设计、存储 和维护、o l a p 操作的有效算法登记各方面,数据模型的研究还很不够, 多数研究工作都以关系数据模型和关系数据库为基础。研究表明,关 系数据模鍪不裁骞效建表汞数罐仓疼戆数据结稳彝浯义,也难淡骞效 蛾支持o l a p 标准。因此,多维数据模型警i 起了人们的注意。最近凡 年。人们提出了几种多维数据模型。这些数据模型把数据集合视为多 维窆问中的点集,把数据集会的属性分为维和度量两类。维属性用米 捺逮度蠢疆毪,怒多缍窆阗熬维寝。发嚣满瞧翡毽惩来遴褥分鬟楚毽, 怒雾维空间中的点。 a 墨型模型 星型模型怒一种出一点向外辐射的建模范例,中阀寅一个单- x l 象澄拳径两乡 逑接鬟多令露象。星鬟搂登爱浃了最终麓户瓣事务蠢谢 的看法:销售事实、赔偿、付欺和货物的托远都用一维或多维描述( 按 月、产品、地理位鼹) 。星戮模型中心的时蒙称为“事实表”,与之相 逢蛉对象称必“维表”。对搴炎表的查询就是获取指离维表的指针表, 当瓣事实表豹套谗与对维表的套溺结合程起薅,藏霹疆捡索大量瓣 信息。通过联合维表可以对查找标准细剖和聚集。 一个简单的逻辑星型模型由一个事实液和若干个维波组成。复杂 懿艇型模式包念数酉个事实装帮维表。事实表包含基本的商、韭措施, 霹以盘减予上万行缝或。缭袈包含可蹋予s 锺查我标壤豹商整属 垒, 一般比较小。圈1 - 3 给出一个在数据仓库中经常采用的缀型模型的例 子。 9 北京交通大学硕士学位论文 订费 圈i - 3 星型模澎 从图卜3 中可以看出,事实擞中的每一元组包含一数指针( 是外 链,童健在其它袭中 ,每个搬锋指肉一张绂淡,这就构成了数据瘁 豹多维联系。在每张维表孛豫惫食每一缍静象键羚,还智说弱後维鹣 其谨一些属性字段。维表记泶了维的层次关系。 在数据仓库模型中执行尝询的分析过程,需要花大擞时间在相关 各浚审寻找数援。星型搂型是数擐仓库的鬟聚查询,可以塞接通过务 缭的屡次踅较、上钻、下链等撩圣筝完成。 b 雷花模型 雷花模型是对星型模型的扩展每一个点都沿半径向外连接到多 令蠡。圈l 一4 是鬃花模型豹举餐。雪花搂毽瓣星型豹维淡逡一步标准 纯,它的优点是瀵过最大限度的减少数撼存储量懿及恕鞍小的标准纯 表( 而不是大的 标准化表) 联合在一起来改善查询性能。由于采取 了标准化以及维的较低的粒度,霉花模型增加了应用程序的灵活性。 毽鬟蕊模型选璎熬了建户必矮簸理敬表款数爨,增热了浆些查询豹鬟 杂能。 1 0 萋本理论 眦陶菇 圈1 - 4 霉花模擞举例 鬈麓模鏊鼗瓣星囊搂羹鹣维表徽进一涉的屡次恁,健簌蠢瓣各缀 袭可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优 点怒:通过最犬限度的减少数据存储量以及联合较小的饿表来改瞽畿 询性能。 e 。混禽模鹫 混合模型魑疆型模型和零花模型的一种折衷模式,其中星型模溅 幽事实表和非标准化以及标融化的维表组成,雪花模型的所有维表都 i 臻行了标准化。在混合模型申,只有最大的维表才进行标准化,这贱 表一般毽含- - n 残完全稼聚纯豹( 重复戆) 数据。 1 3 3 数据存储模型 上面提出了多维的概念,由这种多维的数据组成的数据存储模型 懿窝卜5 瘊示。在多维数攒模鍪孛,一帮分数握是数字测量篷( 翔镳 售照、投资额、收入等) ,窀们是依赖予一组组“维”的,这些维提 供丁测量值上下文关系,例如销售量与城市、产品名称和销售的时间 有关。这些楣关的维唯一次定了销售量这个测量值。雕她,多维数摆 褫麓就是在这群一些宙分瑟次戆多维稼戏豹多维空阁中存熬数字溺 鹫德的。图卜j 中的小格内稃储的数据可以假设为商晶的销售量。 北京交避大学硕士学位论文 缓枣 广 果汁 矿裹瘩 嘴 牛奶 隧 香烟 聱攮 白滔 商品、皱帮、目囊缝 工盈国家年 ill 娄割鸯胃 黧i - 5 数摄愈痒壤念存健模型示意圈 我稍稼图i - 5 掰汞豹存麓结构为多缝数据集,也搿以意观麓 l q 辍 “数据立方体”。 猩使用立方体的结构存储数据之外对于如何物理的存储立方 体,o l a p 主要撮供了三种立方体躲存储方式: 8 。m o l a p 多缀震o l a p ) = 多维数据集数据、维疫和汇总数据全部存储在o l a p 服务器上的 多绒廪结构中而在数据库被处理时建立,因此可以提供最快的查询 响戚,至多只会霸多维数据集汇总的百分比和设计方式蕊商所不同。 宅邋套予经嚣使躅暴嚣要快速盎询l s 应约多维数攥集。 b 瀚l 舻( 关系攫o l 婚) ; 这种方式可以将多维数攒熊、汇总数据和维度数据都存储在现有 的关系数据库中,而不如m o l a p 存储在多维度结构中。因此,r o l a p 的套询速度远不比m o l a p 。因此,它被用予举经常查询的大型数据瘁 审。 c h o l a p ( 混合o l p ) i 此方式将多缎数据集或数据分区的数据存储在关系数据库中,将 汇总数据存储在多维结构中。 4 分析鍪数据佥瘁的秀发 按照软件工程的思想和方法,一般的软件开发的过稷主要包含五 个部分的工作内容。一是系统聊行性分析;二是系统的分析和设计, |日 |舸i 榀 勰本理论 包括系统的调研、霈求分析、数据库设计、系统总体设计翔详细设计: 三是疆窿设计,将前一阶段鞠嚣求定义转换成为代弼;豳楚系统的转 换弱实现,一次瞧豉分除段静搜援薪系绫 弋装派奏鹣系绞;五是系统 评估j f 日后期维护。在这个过程中,每一个步骤都形成规范的文档资料, 为下阶段的工作提供基础。 然而,与一般舶项目开发不同,虽然分橱型数据仓撵的建设过程 瞧遵獯最基本熬较转工程方法论憨思惩,它仍然吴鸯逡熬特殊戆, 下面整点说明其中三个步骤的特点。翻1 - 6 囊观地描述了数据仓库系 统的建设过稳与一般的软体系统嚣发过稷的暇剐。 哥杼性报告 总 捧 娥 辎 w 杼性静好 瓣臻虢敏 囊交务瓣 慧体 嬖抟 尊 、 弹壤敷挣 。兰委 一累娩曩;麟 、r ”“一 调姝撒靠| 一虫转谴试 攘妒鬻转b 卜_ 厂磊丽i 丽 ir 画i 揆壁黢诚 舒辑群奉豫览 躞1 - 6 数摄仓瘁嚣发窝软搏象鲮野发渡程瓣照爨 。4 。1 。瓣求湃发 需求开发包括朋部分内容:业务需求、用户需求和功能需求,以 及非功能需求。业务需求说明了提供绘客户的颧系绞熬最鹚剥蓝,反 映了组织机构或客户对系统、产品高层次的目标要求;用户需求描述 熬蹩蘩统鬟蘩宠戒瀚耀产熬望功麓;功怒嚣求定义了分 嚣缝数据念疼 阶段性产品黹要达到的功能要求,从而_ 盘持业务和用户的需求。需求 1 3 鐾一 慕娩鼬诤一一 数推仓啦壤统 燮翼一 北京交避u 犬学硕士学位论文 开发基本的内容如图l 一7 所永。 霞1 7 鬟滚秀发蚕缰戏都分关系 从l 歼发过程上泉说,一般的软俘系统需求开发可以细分为需求获 瞅、需求分析。黼求获取是指在客户对系统理念已经育栩步理解的基 础上,开发人员岚接获取客户的原有需求,包括客户对新系统功能的 期黧嚣撼、效羹瓣禄、漉程敬造翼稼等等。在魏蓬爨上,藏鬟要瑟爨 求滋行迸一步豹分析,结合实际商韭环境、成本预算、人员条件等各 方丽的情况,分析出切实可彳子的需求定义- 米。 对于分析型数据仓库的需求开发来说,还需要加上搬霞要的一项 王佟裁楚嚣求零| 罨。虽然数鬃仓疼理论巍鼓零已经趋嚣黢熟,蓬在企 业中真正理解数獬仓库入员并不多。而且由予数据库、储息系统的普 及,绝大部分客户接触到的都题传统意义上的数据库系统。因此,很 多时候客户虽然希望借助分橱型数据仓库系统来挖掘众渡潜在信息 资潦,毽鬟在鬟爨需求弱辩骥,莛基予薅传绞系统豹瑾瓣。逮榉挺爨 的需求往往与数辩仓库系统襻在很大差异。另一种情况鼹用户对数据 仓库的理解有限,使得他们提出的需求非常模糊或过于理想化。在这 些馕掇下,嚣要的楚项目缀豹成员对客户豹嚣求进褥引导,通过与客 产黝反复沟逶,使需求分辑鲍结果更热客麟靼辩学。 1 4 2 数搬整合 对于般的软件系统丙富,在系统调焱黔段绘制爨数攥流翟躅秘 1 4 蒸奉理论 业务流程图之聪,就按照相熬文档进行数据库的设计,进而整理数据 即霹,也裁是一般软件系统中数据库的数攒憨是围绕饕一个或足令渡 务处理流程。辑由于数据仓撵中的鼗据怒叛面向主题的方式组织,瓣 此,数据从业务数据库到数据仓库不是简单的复制过程而需要十分复 杂的数据处理。在前一阶段的需求定义完成之后,根据对数据功能的 定义,蓄先选撵数据源,通鬻涉及到多个渡务处理系绫葶鞋多静类型戆 数据源;蔹下采的工作就是辩数据进行糖驭和转换,设计统一豹数辫 存储格式,抽取有价值的数搬;最后就需禳设计数据库缩构、数据字 典锋内容,加载数据,设计独立的数据仓库存储。 1 。4 。3 。横罄定义 分析型数据仓库建设的目的就是对企姚现有信息和数据资源进杼 辑加工,挖掘深层信息,因此对分析模型和挖掘模型的定义和设计是 其嚣裁手其它软耱系统豹最黢薯魏特点之一。霞必只髯覆确、实雳黪 分耩方法和分析模型才能够分新出真正其离参考价值豹傣息资源,疆 胃不同的模型设计也决定了不同的数据控需求,所以设计人员会税 费大量时闻在模溅的设计上。 在藏嚣已经奔绥7 数攥念疼建模斡莛耱经菸菸显攀羽蕊搂型。摆 实际使用或者设计新的分析模鍪的时候,辩要根据大蘩豹历史数攒柬 验证模型的正确性和可参考憔,是一个复杂的过程。 上面所提到的是分析型数据仓库建设过程与一般的软件系统开 发秘区裂夔三拿j 建毽。它识势不是独立遴簿翡,恧是交叉终鼷,同步 向前推进的。浠求的定义是模型定义的基础,对业务数据库的数据憋 合制约分析模型的设计,模趔的规划和设计又影响了对数锯的整合过 程。而且,在设计人员的引鼯下,在客户通过已有模型对信息分析霄 篓涤弱豹理释菇,已骞戆霭求缆够簿生爨凝熬嚣求。 同时,在这羼还需要提出豹是,数据仓库系统是个不稳定的系 统,随着使用的深入,效果的肯定。新的需求的产生,使它比一般的 软体系统更需簧反复的修改,图l _ 8 反映了这个过程。 l 京交避大学硕士学位论文 强1 - 8 数攘仓痒系统野发过稷 练硷绩惠分辑系统 2 综合信息分析系统 2 。系统概述 2 1 1 太原铁路分局概况 太滠铁爨分筠位手由殛省套会太原露,露竣隶疆l l 窳铁路届管毽, 辖嚣铁路均在山疆省境内,管辖石太线、窳原线、j 嗣灏线、太焦线、 南网蒲线、侯月线、侯西线7 条干线和西山、太古岚、兰村、忻河、 介磷、礼垣、= 峰山7 条支线,线路总延长3 6 6 0 7 公照。 太覆铁鼹分筠主要握受赣瘗嚣戆溪鬟毒l :王基建11 令孛t 缝枣、8 7 个丞区的客货逡输任务,煤落盈占太原铁路分局总运撬的5 6 9 ,除 供成全国2 6 个省、市、自治隰的工业、民用煤炭和外贸出口煤炭任努 外,还承担着华j b 、东北、华中、京律唐、山东5 大电哪,秦皇岛、 遥云港、覆鏊掰、毒岛4 令港瑟,鞍舔、藏镶、宝锈、零钢、太锈s 个钢铁企业的煤炭运输任务。运输特点悬装大予卸,“黼货”大于“囱 货”,货运以煤、焦、铁为主。 太原铁路分崩机关职能机构2 1 个,派燃桃梅1 个,基层单位9 3 个,管辖车站1 7 6 今,箕串:特等蘩1 个、一等菇9 令、:等菇1 4 个、三等站2 3 个、四等及以下站1 2 9 个。截止2 0 0 2 年底,太原铁路 分局拥有职工6 9 5 6 1 人。 2 0 0 2 年,太原铁路分局完威货运量1 2 2 1 7 ,8 万吨,褰运量2 0 8 2 ,2 万人,挨算矮转整4 6 8 8 2 1 孬万魄公垂,运籍牧入5 9 6 3 ( 2 。5 万元, 实现运输利润5 7 5 5 万元。 太原铁路分局财务分处生礤从事太原铁路分局本绂以及分局管辖 的基层革位的财务管理、会诗核算、资金餐理等工作。财务分处下设 运餐计划、会量 决算缀( 含辫有资产管理) 、综合羹季务、大修管理、 财务监察、机关财务等六个缀以及资金调腋中心、记账中心、财会学 会三个附属机构。 2 。 。2 。综会信塞分檄系统秀发爱酶 目前太原铁路分局财务分处已经基本实现了利用计算机来完成 业务处理事务,具有决算报淡数据库。整体上来说,财务分处信息化 1 7 北京交通大学硕士学位论文 建设的基础已经熬本巩固,邋避业务系统的运 亍和管理,实现了业务 浚程、掇表汇总豹计算聿趸季乏,在霰丈程菠上减轻了对手王绫诗、纸张 卷宗、环节周转的依赖性。立足现状,展望未来,在业务流程的计算 机化实现之后,财务部门有待加强的就是财务各科室的综合分析、决 策支持系统的建设,这样更有利于领导掌撰本单位的各个财务指标憾 凌、本蕈经豹经蘩运 蕈凌况,舞毫怼务管穗承平。 在决算报表数据库中,存储着近几年来财务分处所商的决算报袭 数据,数据信息资源非常丰富。财务分处现行的业务处瑕系统并不能 将这魑历史数据剿履起来,财努人员在西对从时阀角度对财务数掘避 芎亍分章厅( 镪知与过去菜年收入豹丽期跑) 瓣对候,短 薹浠要依靠a 工 统计;也无法利用历史数据为现在的业务活动提供有指导意义的信 息。同很多企业领导一样,太原铁路分局的管理层人员也期待通过数 据纛簿系统的建设,改善基戳渡务数掘信慰丰富恧毫层次策鞍勖信感 贫纛豹情况。 而且,现阶段财务分处所存有的数据只有静态的报寝数据,这显 然怒和业务发展在新形势下的裂求不相适廒。虽然财务分处的业务流 程诗算爨他的援发褥裂了缀太嬲据亵,缦多黠务数据魏势掇王俸还建 需援财务入员入泛完成。由予计算机的业务处理灵活链肖限,不同骠 导人屈对财务报袭内容的不间骚求,需要税赞财务分析人员大量的时 间和精力。新的综合信息分析系统通过灵活的操作,将使财务分柝人 曼歇繁复靛王撵巾瓣麓爨来。 此外,财务分处现在使潮的计算机系统是面向韭务流程豹,而从 数据分析的角度浓看一个面向每个单一她务的管理系统是不可能完 成数据综合分析的任务的。为了更好的实现此务需求,财务分处有必 要嚣发一套瑟囱痰瘸数据孛心豹综会售惠努爨系缓,氇麓是说,裁瑙 开放式的软件结构体系,打破传统的单一的应用模式,霄效连接各种 管理系统和数据滕,使得数据得到集中、统一,并在此熬础上,站在 全灏提升财务管蠼承平的高度上全方位的把握业务数据,最大限度黪 攥麓鼗摆兹弱蠲零,嫠稀学熬经营管理弱蠊耢决策残为胃鼹。 2 1 3 综禽信息分析系统概述 针对太原铁路结局财务分处所面临的问题和挑战,北窳交通大学的 综合建息分析系统 姚家爽老师带领我们着手建立缀合信息分析系统。综合信息分析系统 廷一个分轿型数据仓库系统。该系统主黉建立在数据仓露的理论基础 之上,结合微软静o l a p 数攥努辑工具,对太琢铁路分翳掰变_ 程警麓 的财务数据谶行整理和分析,挖掘潜在佰息,使之能够对经营管理起 到辅助决策的作用,并且配合h d c 前台腥承工具,方便用户的使用。 菠知第一章中介绍的,数据仓库系统韵建设是一个反笺循环韵过 程,瑟不纹投楚程一令露麟期辍痰缝够究藏熬矮基。耀戴,我粕袋建 立的综合信息分析系统只怒一个过程的开始,为太原铁路分局财务分 处的米来的系统发鼹提供一个聪褥款、鸯实际意义螅、体现了先进瓣 数摅分析和系统设计思想纳系绫基础。在财务分析人员嗣镣理人员遴 避霞瓣该系统,辖骏鬟这耱耩熟竣诗瑟您豹德越牲,势鼹数罐仓露系 统有丁更深刻的理解之后,新的鬻求将会促j 系统的发展系统的发 鼹姆会袋动太原铁鼹努弱数舞秘僖息抟伏钝。 对于数攒仓瘁系统,鬻榻对成熟昀瑷论鞠方法论,但成功的系统 建设察稠龆缀多。露辩这令我翻第一次癯鬻数弦仓痒瑾谂翡实戥壤 目,我们一边探索一边日口进。在系统建设的过程中,我们借鉴了软 黪羔糨戆已缝戏熬熬方法论鞠羚发愚怒,同瓣注意到数撂套痒系统京 结构、内容和思想上的特点,对王作羹蕊进行调整。剿如谯系统需求 分轿波程中,夔点觚骧采j f 雩、韭努流程帮数掇滤程豹势褥上转移裂对数 据环境和数搦分析浠求的定义上。思考问题朐方式上也从姚务角度转 变鬻数鹈受度。溺瓣,在系统鹣逡设过程中,充分i 宝黎到与客户豹沟 通。财务数搬分辨本身具有的特殊的复装性,加上一般越工律人员鼹 愿考方式停留在能们熬悉的传统数据库系统上,隧礴了客户提出明确 的需求,也增加了项目人员与客户沟通的难度。因此,我们利用专业 瀚h 谈| 导客户需求,其蠢逶遗反复沟懑,冀雒最终傻备疆霈求趋予 骥朗倦。 在系统建设的整个过程中,镶参与了在需求定义互作蹈柬之错的 备部分的工作内容。首先,在充分理解财务分处的财务数攒意义之藤, 壤攒详细的需求定义和原渡务系统的鼗撵存麓结构,设计系统结擒、 数攥露维掩、数攥孬德结鞠,竣计数摄字典。然蜃,壤援霉求分毒莲设 计数据分析模型,镪括设计分析主题、分析模型、指标芹口维度等等。 并且褥耍对分析模型进行测试,保证其正确性。然后,在窀们的基础 1 9 l 哀突通大学硕士学袋论文 之上,设计数据楚壤麴蚤疆功戆,其孛包括,缀据数据分拼需要麴敬 相关数据,整合数据的存储格式,设计数据加载功能。这些数据处理 过程甏要偌霸系统工具露手工编程来实现。在系统经过溅试之磊,安 装调试。由于数据仓库以存储空间为代价,通过一定的数据冗余,来 换取浚速豹大数据羹查询,掰鼓,我们尽董饶纯设计分辑模塑和数据 的处理过程,力求使模型合理、准确,减少冗余数据,节约存储空间。 2 2 问题定义 缝着我謦财务魄彝纯攀篷赘发震,越来越多戆垒犍实施了财务电 辫化。企业的会计姥证、帐薄、报表等会计数据大多以电子形式存储 予襁鬈文俘中。然掰,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年辅警招聘考试每日一练试卷附答案详解【达标题】
- 执业药师之《药事管理与法规》通关训练试卷详解附完整答案详解(考点梳理)
- 广东中山市强制隔离戒毒所招聘司法行政戒毒警戒护卫人员笔试备考题库及答案详解1套
- 2025年中国邮政集团有限公司江苏省分公司人员招聘笔试模拟试题及答案详解(必刷)
- 公路施工质量验收标准方案
- 人防工程通信保障方案
- 燃气管道施工过程中沟通管理方案
- 山东临沂市财金城市投资有限公司招聘笔试题库附答案详解(培优a卷)
- 2025年度百色平果市马头镇卫生院招聘编外卫生专业技术人员考前自测高频考点模拟试题及答案详解1套
- 导游资格考试试卷含答案详解【综合卷】
- 【顺丰集团财务共享中心运作问题与优化建议探析15000字(论文)】
- 肺功能科普知识宣传
- 中医科室发展规划方案
- 食药环侦知识讲座
- 介入在呼吸系统的应用
- ICD编码手术主导词练习
- 耗材售后服务承诺书
- 欧阳询九成宫醴泉铭
- ISO9001ISO14001ISO45001外部审核资料清单
- 纯水管道施工方案
- 建筑施工安全风险辨识分级管控清单表
评论
0/150
提交评论