



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 目前我国动车组运用所在维修决策方面主要存在两个问题:一是运用所存在 多个功能不同的信息系统,维修决策人员在整合不同系统中的信息时只能依靠人 工完成;二是各信息系统在应用过程中累积了大量的历史数据,这些数据彼此独 立地堆积在数据库系统中,无法转换为有价值的信息。在此背景下,本文将数据 仓库技术和o l a p 技术引入到动车组信息化建设领域,构建决策支持系统,可有 效整合与充分利用现有数据,并将维修决策人员需要的部件状态、检修信息、故 障记录等相关数据整体的展现出来以辅助其制定维修决策。 本文首先分析了动车组运用所的现行各类动车组信息系统中的数据组织方式 和运用所业务流程,确定了动车组关键部件状态分析、检修情况分析、故障统计 和维修情况分析四大主题域,结合多维模型建模理论为各主题域设计逻辑多维模 型,在物理模型设计中,设计了后台的存储架构、维表和事实表,并讨论了基于 分区和索引技术来优化系统性能的可能性。 本文采用了数据仓库o l a p b i 系统的三级模式实现数据到知识的转换。应用 数据仓库中的e t l 过程和o l a p 中的数据立方体理论;完成了数据源数据到多维 模型关系结构数据,再到立方体结构数据的转换,最终通过b i e e 的表现层将数据 以报表、分析图等形式展现给决策人员。开发中应用了o r a c l e 的w a r e h o u s eb u i l d e r 1 0 9 、o l a p1 0 9 和b i e e 开发平台构建三级模式o 本文设计的动车组维修决策系统数据仓库、o l a p 立方体与b i e e 前端界面在 实现过程中均采用动车组运用所现场数据来完成,系统功能经初步测试基本正确, 期望为维修决策人员提供有效的信息支持。 关键词:动车组:数据仓库;多维模型:联机分析处理:数据立方体;商业智能 分类号:t p 3 1 l 北京交通大学硕士学位论文 a bs t r a c t a b s t r a c t :a t p r e s e n t , t h e r e a r et w o p r o b l e m s o fe m um a i n t e n a n c e d e c i s i o n - m a k i n g :f i r s t , w h i l ea p p l y i n gs e v e r a l d i f f e r e n ti n f o r m a t i o n s y s t e m s , d e c i s i o n - m a k i n gs t u f f sc o u l do n l yr e l yo nm a n p o w e rt oi n t e g r a t ei n f o r m a t i o nf r o m d i f f e r e n ts y s t e m s ;s e c o n d ,a l a r g e a n a o u n to fh i s t o r i c a ld a t ai sa c c u m u l a t e d i n d e p e n d e n t l yi nt h ed a t a b a s es y s t e md u r i n g t h ep r o c e s so fi n f o r m a t i o ns y s t e m a p p l i c a t i o n ,a n dc o u l dn o tb ec o n v e r t e di n t ov a l u a b l ei n f o r m a t i o n i nt h i st h e s i s ,d a t a w a r e h o u s ea n do l a pt e c h n o l o g yi si n t r o d u c e di n t oc o n s t r u c t i o no fe m ut ob u i l da d e c i s i o ns u p p o r ts y s t e m ,w h i c hc o u l di n t e g r a t ed a t ae f f e c t i v e l y , m a k eu s eo fd a t a s u f f i c i e n t l y , d i s p l a yr e p a i rp a r t s ,m a i n t e n a n c ei n f o r m a t i o n ,f a u l tr e c o r d sa n dr e l a t e dd a t a t oh e l ph u m a nt om a k ef i n a ld e c i s i o n i nt h i sp a p e r , d a t ao r g a n i z a t i o no fa l lk i n d so fe x i s t i n gi n f o r m a t i o ns y s t e m so f e m ua n db u s i n e s sp r o c e s s e si sa n a l y z e d ,a tt h es a m et i m e , s t a t ea n a l y s i so fe m uk e y c o m p o n e n t s ,m a i n t e n a n c ea n a l y s i s ,f a i l u r es t a t i s t i ca n a l y s i sa n dm a i n t e n a n c ea n a l y s i s a r ei d e n t i f i e d ,w h i l ec o m b i n e dw i t hm u l t i d i m e n s i o n a lt h e o r y , l o g i c a lm u l t i - d i m e n s i o n a l m o d e li sd e s i g n e d d u r i n gp h y s i c a lm o d e l sd e s i g n i n gp r o c e s s ,t h i sp a p e rd e s i g n s s t o r a g es t r u c t u r e ,d i m e n s i o nt a b l e sa n df a c tt a b l e s ,a n dd i s c u s s e st h ep o s s i b i l i t i e st o o p t i m i z et h ep e r f o r m a n c eo fs y s t e mb a s e do nz o n i n ga n di n d e x i n gt e c h n o l o g y i nt h i sp a p e r , t h r e e - m o d eo fd a t aw a r e h o u s e o l a p - b is y s t e mw a sa d o p t e dt o c o n v e r td a t at ok n o w l e d g e a c c o r d i n gt ot h et h e o r yo fe t lp r o c e s so fd a t aw a r e h o u s e a n do l a pc u b e ,s o u r c ed a t ai sc o n v e r t e dt om u l t i - d i m e n s i o n a lm o d e l ,a n dt h e n c o n v e r t e dt od a t ac u b es t r u c t u r e ,a n df i n a l l yd i s p l a y e dt h r o u g hb i e ep e r f o r m a n c el a y e r 、i n lt h ef o r m a to fd a t ar e p o r ta n da n a l y s i sm a p t h r e e - t i e rm o d e lo fw a r e h o u s eb u i l d e r 10 9 ,o l a plo ga n db i e ed e v e l o p m e n tp l a t f o r mi su s e dd u r i n gt h ed e v e l o p m e n t p r o c e s s e m um a i n t e n a n c ed e c i s i o n - m a k i n gs y s t e mi n c l u d i n gt h r e ep a r t s ,d a t aw a r e h o u s e , o l a pc u b ea n df r o n t - e n di n t e r f a c eo fb i e et h a to r ed e s i g n e db yt h i sp a p e ri s c o m p l e t e db yr e a ld a t ao fe m u t h es y s t e mf u n c t i o n sw e r ep r e l i m i n a r yt e s t e da n d p e r f o r m e dc o r r e c t i tw i l lb ee x p e c t e dt op r o v i d em a i n t e n a n c ed e c i s i o n - m a k i n gs t u f f s w i t he f f e c t i v ei n f o r m a t i o ns u p p o r t i n g k e y w o r d s :e m u ;d a t aw a r e h o u s e ;m u l t i - d i m e n s i o n a lm o d e l ;0 l a p ;d a t ac u b e ;b l c l a s s n 0 :t p 31 】 北京交通大学硕士学位论文 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:越1 耖 签字日期:洳听年6 月y 日 7 0 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:热嗡 签字日期:呷年月) y 日 导师签名:蚕受容 签字日期:口少年月口日, 致谢 本论文的工作是在我的导师张春老师的悉心指导下完成的,张春老师严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来张春 老师对我的关心和指导。 王占刚老师、张婷老师和李秋莎老师悉心指导我们完成了实验室的科研工作, 在学习上和生活上都给予了我很大的关心和帮助,在此向王占刚老师、张婷老师 和李秋莎老师表示衷心的谢意。 张宁老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心 的感谢。 在实验室工作及撰写论文期间,李晓鸣、赵文强、林义森、奚翔、周磊等同 学对我论文中的相关技术研究工作给予了热情帮助,在此向他们表达我的感激之 情。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 引言 1 1选题背景及意义 1 1 1 动车组运用维护情况简介 1 引言 2 0 0 7 年我国铁路第六次大提速,1 4 0 对时速2 0 0 k m h 的“和谐号 动车组首 次投入运营。2 0 0 9 年4 月1 日,全国铁路开始实施新的列车运行图,动车组列车 开行数量增加到3 4 5 组,预计到2 0 1 0 年,全国铁路将丌行动车组7 0 0 组,建成北 京、上海、武汉、广州四大动车组检修基地及若干运用所。基于动车组运行的安 全性和部件可靠性的要求,动车组引入了检修的理论,即定时维修,以动车组运 行时间和走行公里为检修周期,定期的执行检修工作。动车组检修从根本上改变 了铁路传统的维修模式和维修理念,淘汰了传统的维修设备和维修工艺。动车组 的大规模运用,对检修基地和各运用所的检修能力、检修效率也提出了更高的要 求,此外,动车组作为铁路新型的运输工具,采用了机辆一体化设计和动力分散 配置,在控制系统上大量使用高科技、微电子设备,具有运行速度高、设备精密 复杂、机辆合一的特点,这些构造上的特点也决定了其检修维修的难度。 动车组的检修维修是高速铁路系统综合保障工程中的重要组成部分,是保持 和提高铁路运输能力的重要因素。在我国,动车组作为完成客运专线运输生产任 务重要的移动设备,具有以下三大特点【l 】:第一,在运用方面,使用效率高,单程 运行距离长;第二,在检修管理方面,动车组运用检修实行统一管理,多单位多 工种一体化作业方式;第三,在运营安全方面,轮轨关系、弓网关系、服务旅客 关系等有一个逐步探索、适应、验证的过程。这三大特点,对动车组的运营维护 管理提出了更高的要求,除要求较高的可靠性外,还应具有良好的检修信息系统 和依靠远程通信及交换信息的能力。从多渠道获取动车组的运行信息,应用决策 支持系统辅助检修计划的制定已经成为动车组维修过程中必不可少的环节。 在铁道部的2 0 0 6 - - 2 0 1 0 年的“十一五规划 中,重点强调了铁路信息化在铁 路跨越式发展中的重要地位和支撑作用,要以信息化的跨越式发展带动铁路现代 化。在此方针的指导下,随着高速动车组的大规模运用,各类动车组信息系统也 应运而生。例如,车载信息系统、运用检修信息系统和地面诊断信息系统等。在 这些系统中,收集、处理以及存储着动车组的大量状态信息、维护信息和故障信 息等实时数据和历史数据。采用先进的技术和工具对这些数据进行整合建模,辅 北京交通人学硕士学位论文 助检修维修人员进行维修决策,改进检修维修工序流程、优化检修维修资源,以 保障动车组安全运营,已经成为铁路信息化发展的一个方向之一。 1 1 2 基于数据的决策支持技术的发展 1 9 7 1 年s c o t tm o r t o n 在管理决策系统中第一次提出决策支持系统( d e c i s i o n s u p p o r t i n gs y s t e m ,d d s ) 的概念,经过数十年的发展,决策支持系统已经成为一 种为决策人员提供决策支持的重要工具。一般来讲,决策支持系统是以管理科学、 运筹学、控制论和行为科学为基础,以计算机技术、模拟技术和信息技术为手段, 面向半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能 够为决策者提供决策所需的数据、信息和背景材料,帮助明确决策目标和进行问 题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评级 和优选,通过人机交互功能进行分析、比较和判断,为正确决策提供必要的支持【2 】。 决策支持系统辅助决策的方式主要包括:基于数据的辅助决策、基于模型的 辅助决策、基于知识的辅助决策和基于方案的辅助决策等。基于数据的辅助决策 是最基本的辅助决策方式,它通过对存储在各业务数据库中分散、独立的大量数 据进行分析处理,析取出有用的信息,帮助决策者做出高质量的决策。目前开发 的基于数据的决策支持系统大多是以数据仓库技术为基础,以联机分析处理 ( o n 1 i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) 和数据挖掘工具为手段进行实施的一整套 解决方案。 随着决策支持技术的发展,商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 概念逐渐兴 起,商业智能技术也随之发展起来。商业智能是决策支持技术应用在商业中的一 种表现方式,其应用范围也由早期的金融、电信等主要传统数据处理密集型行业 扩大到交通运输、物流货运等行业,有着良好的发展前景。商业智能技术是包括 数据仓库、联机分析处理、数据挖掘在内的用于统计和分析业务数据的先进的信 息技术。国际上众多知名i t 厂商也纷纷推出b i 系列的产品和服务,其中,o r a c l e 公司在其完备的数据库服务基础上,提供了整套的b i 解决方案,其数据仓库、o l a p 和o r a c l eb i e e 等开发工具在b i 领域已经被广泛应用。 1 1 3 研究的现实意义 动车组信息化建设在我国还处于起步和发展阶段,如何综合利用国内外先进 的理念和技术服务于我国高速铁路建设事业,具有重大的现实意义。在国内,动 车组的检修维修还处在摸索阶段,由于我国铁路具有行车距离远、地势特殊、乘 2 引言 客密集等特点,在国际上尚无明确的对象可以参考。如何在摸索阶段积累原始的 数据,进行整合处理,按照决策者的需求提供报表、图表、曲线等决策相关信息, 成为我国铁路信息化建设的一个重点。 本文通过对某动车组运用所信息化建设情况的现场调研,了解到目前运用所 的信息化建设还存在很大不足。一方面,运用所中存在多类不同功能的信息系统, 如动车检修车地通信网关信息系统、轮对安防系统等,维修决策人员面对单独的 一个系统时只能处理一类问题,在整合信息时只能依靠个人经验和人工操作来完 成,这种方式具有效率低、决策模糊的特点;另一方面,各信息系统在运用过程 中累积了大量的历史数据,这些数据独立的堆积在数据库系统中,单靠各系统自 身的功能,这些历史数据无法转换为有效信息,随着时间的推移势必会造成“数 据爆炸但知识贫乏 的局面。在此背景下,在动车组信息化建设中构建决策支持 系统是势在必行的。 基于动车组运用所的实际需求和决策支持系统的发展现状,可以将数据仓库 技术和o l a p 技术引入到动车组信息化建设中,结合b i 开发工具搭建动车组维修 决策系统,将数据转化为知识,以满足动车组维修决策人员对动车组部件状态、 检修情况和故障记录等信息的分析需求。此项研究可以为动车组维修决策人员提 供有效的信息支持,进一步提高铁路动车组维修管理水平,更好地保证行车安全。 1 2国内外研究现状 在国外,一些高速铁路发展较快的国家中,在动车组的检修维修方面已经采 用了很多先进的技术和管理理念进行维修系统的建设和优化,以下为国外高速列 车维修的特点: 1 ) 高速列车维修中大量采用新技术设备 德国h a m b u r g 动车段能在6 0m i n 内完成长4 1 2m 的i c e 动车组的维修保养和 整备工作,它的高效归功于所采用的大量的新技术。这些新技术包括:车载微机 诊断系统;远程无线通讯技术;三个维修工作面( 能同时在列车上部、下部、内 部和顶部开展维修作业) ;具有轨道桥的架空轨道;具有气垫走行装置的轮对和转 向架更换设备;感应导向式升降工作车;具有排气生物过滤器和处理中心的真空 排污处理系统;自动化外部清洗装置;自动检测轮对踏面裂纹、磨损和不圆度的 踏面诊断设备;微机信息系统等。 2 ) 用系统工程观点进行维修 首先是对高速列车整个寿命周期费用进行研究,将总费用保持在最经济的状 态;其次是把技术、财物、管理等诸方面的因素综合起来进行全面管理;另外, 北京交通大学硕士学位论文 利用系统工程理论对高速列车的可靠性、维修性和可用性进行研究,对高速列车 的各个环节( 方案、设计、制造、安装、运用、维修、改进和更新等) 进行综合 分析;最后进行信息反馈,将运用维修中的信息反馈给制造部门,以便改进设计。 3 ) 在设计阶段对维修做综合考虑 法国t g v 高速列车设计制造部f - j _ q 常重视高速列车的可靠性设计和维修性设 计。由于采用了可靠性设计与维修性设计,保证了列车的质量,再加上有维修基 地的良好维修作保证,使得t g v 高速列车达到了非常好的运营效梨3 1 。 4 ) 采用合理的维修制度 日本新干线车辆检修是按一定修程( 走行公罩或使用年限) 实施定期检修和 在用期临时检修相结合。为确保安全、稳定的运行,并考虑到新干线车辆是在高 速度、长距离运行的恶劣条件下使用,所以基本上是对无故障安全部件实施预防 维修,对故障安全部件实施事后维修 4 1 。 5 ) 停时缩短,利用率提高 各国铁路都千方百计地缩短高速列车的维修停时,以提高列车的利用率。为 此德国i c e 高速列车进段维修时采用不摘钩整列入库的全新维修模式,大大缩短 了维修停时,提高了列车可用性。i c e 列车每年平均运行达5 0 万千米。随着高速 铁路的快速发展,各国都加强了技术改造,各种维修手段将更加完善。 以上就是国外高速列车在维修中采用的理论和技术的一些相关介绍。 在我国,动车组上线前,铁路的维修制度均为事后维修和预防修,没有系统 的推行检修制度,动车组的运用改变了这一局面,将检修计划推行到动车组运行 维护的各个阶段,保证了其安全运行。但是,由于其尚在起步阶段,检修计划也 会随着铁轨建设、部件寿命、运输优化等因素的变动而调整,如何运用信息技术 捕捉并预测到这种变化,目前在我国还处于研究阶段。 1 3论文研究的主要内容 本文以动车组运用所的“动车检修车地通信网关信息系统、“动车组运用检 修信息系统”和“地面故障诊断系统 作为主要数据来源,对各系统中的数据内 容和组织方式进行分析,确定关键部件状态分析、检修情况分析、故障统计和维 修情况分析四大主题域,并建立多维数据模型。在o r a c l e 数据库中构建动车组维 修决策系统数据仓库,结合o a l p 技术将数据仓库中的多维关系结构数据转换为 立方体结构,最后通过o r a c l eb i e e 开发工具的表现层将信息以报表、图形的形式 展现给维修决策人员,辅助其制定维修决策。维修决策系统基于数据仓库技术和 o l a p 技术进行开发,应用o r a c l ew 缸e h o u s eb u i l d i n g1 0 9 、o r a c l eo l a p1 0 9 、o r a c l e 4 引言 b i e e 开发工具实现了e t l 过程、元数据管理、联机分析处理和信息i j i 端展示等功 能。 主要研究内容为: 1 ) 对动车组转向架、牵引传动部件和制动部件三大关键部件及其故障模式、 动车组检修维修业务进行深入研究,与动车组运用所工作人员充分交流,提炼出 应用需求; 2 ) 研究数据仓库建模理论,构建动车组维修决策系统数据仓库的概念模型、 逻辑模型和物理模型,建立数据仓库多维模型; 3 ) 研究数据仓库中数据抽取转换- 力口载( e x t r a c t t r a n s f o r m l o a d ,e t l ) 的实 现方法,从动车组信息系统数据库数据和大量历史数据中提取出有效数据,进行 转换后装载到数据仓库系统中; 4 ) 研究数据立方体理论,在o r a c l eo l a p 中,结合实际应用构建立方体,应 用b i e e 开发工具实现决策支持系统的数据前端展现,实现o l a p 分析和报表展示 功能。 本文在数据仓库“数据驱动”系统设计思想的指导下,借助o r a c l e 的b i 系列 开发工具,设计并实现了数据仓库一o l a p 系统b i 系统的三级模式,完成数据到知 识的转换,最终实现了d s s 应用。 1 4 论文章节安排 本论文共分为六个章节: 第一章:引言。介绍选题的应用背景和技术背景以及研究意义、国内外研究 现状、论文研究的主要内容以及章节安排。 第二章:理论基础和关键技术。介绍了本系统使用的两种主流技术:数据仓 库技术和联机分析处理( o l a p ) 技术。从概念、技术特点、组织结构以及本系统 中用到的主要方法等方面进行了描述。 第三章:动车组维修决策系统数据仓库的设计。本章按照数据仓库设计流程 对动车组维修决策系统数据仓库进行设计,依次完成数据源分析、决策人员分析、 系统整体架构、概念模型设计、逻辑模型设计和物理模型设计的工作。 第四章:动车组维修决策系统数据仓库的实现。本章针对第三章中的设计, 应用o r a c l e 公司的数据仓库开发工具o r a c l ew a r e h o u s eb u i l d e r1 0 9 实现了数据仓 库的构建,主要介绍了e t l 过程和元数据管理的实现。 第五章:动车组维修决策系统o l a p 的设计和实现。本章首先介绍了o r a c l e o l a p1 0 9 的功能和结构;之后对数据立方体理论进行研究,以创建故障统计的数 5 北京交通大学硕十学何论文 据立方体为例,说明了本系统中构建数据立方体的步骤;立方体的设计完成后, 在o l a p 中建立了实际的立方体;最后,应用o r a c l eb i e e 开发工具完成了表现层 的开发,展示了系统的实现情况,同时验证了系统的可用性。 第六章:结束语。对本文的工作进行总结,并对后续工作进行展望。 6 理论基础和关键技术 2 理论基础和关键技术 数据仓库通常与联机分析处理联系紧密,二者之间具有极强的互补关系。数 据仓库是企业进行数据分析的基础,它的主要工作是将数据库中的原始数据进行 归纳整理,聚集成一个可供高层使用的数据集合;联机分析处理则分别是在数据 仓库基础上的挖掘型和分析型工具,主要工作是根据业务逻辑,将数据仓库中的 数据进行分析和预测,产生有用的信息,最终以图形或图表等人们可以理解的形 式展示出来。 2 1数据仓库 2 1 1 数据仓库的概念 自从数据仓库概念出现以来,不同学者从不同角度给出了多种数据仓库的定 义。其中,被学术界誉为“数据仓库之父 的美国学者i n m o n 在1 9 9 1 年出版的构 建数据仓库一书中所提出的定义被广泛接受。他把数据仓库定义为面向主题、 集成、随时间变化、稳定的数据集合,主要用于决策制定过程【s 1 。1 ) 面向主题: 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高 层次上将数据归类的标准,每一个主题对应一个宏观分析领域。2 ) 集成:数据仓 库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建 立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结 构进行从面向应用到面向主题的转变。3 ) 稳定:数据仓库的稳定性是指数据仓库 反映的是历史数据的内容而不是日常事务处理产生的数据,数据经加工和集成进 入数据仓库后是极少或根本不修改的。4 ) 随时间变化:数据仓库是不同时间的数 据集合,它要求其中的数据保存时限能满足进行决策分析的需要,而且数据仓库 中的数据都要标明该数据的历史时期。总之,数据仓库是一种语义上一致的数据 存储,它充当决策支持数据模型的物理实现,并存放企业决策所需信息。数据仓 库也常常被看成一种体系结构,通过将异构数据源中的数据集成在一起而构造, 支持结构化和启发式查询、分析报告和决策制定。 其他学者,如g a r d n e r 等,把它称之为数据仓储( d a t aw a r e h o u s i n g ) ,并定义 成一个过程,而不是一种产品,为了获得关于事物的某一方面或者整个事物的单 一的、详细的视图,、它对来自各种数据源的数据进行组织和管理。不管是定义成 7 北京交通人学硕十学位论文 数据的集合还是一个处理过程,其要点就是为了分析任务的需要而对大量数据进 行处理,这就给数据的组织、管理和使用带来了巨大挑战。 虽然数据仓库是在数据库技术的基础上发展的,然而与m i s 系统中的业务数 据库相比,在诸多方面存在着相当大的差异。 2 1 2 数据仓库数据构成及组织 i n m o n 从数据仓库中数据种类的角度描述了数据仓库的构成,数据仓库是在关 系型数据库基础上发展形成的,但它的组织结构形式不同于传统数据库系统,从 原有的事务型数据库中获得的基本数据和综合数据被分成一些不同的层次。数据 仓库中的数据分为四个级别:早期细节数据、当前细节数据、轻度综合数据、高 度综合数据。 当前细节数据是最近时期的业务数据,数据量大。随着时间的推移,当前细 节数据由数据仓库的时间控制机制转为早期细节数据,一般被转存于外部存储介 质中,如磁带、光盘等。轻度综合数据是从当前细节数据中提取出来的,设计这 层数据结构时会遇到“综合处理数据的时间段选取 ,“综合数据包含哪些属性和 内容”等问题。最高一级是高度综合数据,这一级的数据十分精炼,是一种准决 策数据。与此可见,数据仓库中数据具有不同的综合程度,一般称之为“粒度。 粒度是对数据仓库中数据的综合程度高低的一个度量,它既影响数据仓库中数据 量的多少,也影响数据仓库所能回答询问的种类。可以说,数据粒度越小,细节 程度越高,回答查询的种类就越多;粒度越大,表示细节程度越低,综合程度越 高。数据仓库要根据决策的需要对来自企事业内外的有关数据,进行适当的提炼、 综合与归档等处理,形成多级别的分析数据,使其能有效地为决策过程提供信息。 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂 的全局数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为 重要。解决这一问题的关键是对元数据进行科学有效的管理。 元数据( m e t a d a t a ) 是数据仓库中一种重要的数据。按照传统的定义,元数据 是关于数据的数据,具体地说,是关于数据、操纵数据的进程和应用程序的结构 及意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了 数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的 运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来, 组成了一个有机整体。可以说,元数据是数据仓库的“灵魂”。通常把元数据分为 技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 。技术元数据 是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数 理论基础和关键技术 据,它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层 次结构和导出数据的定义;业务系统、数据仓库的体系结构和模式;汇总用的算 法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询 与报告;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系 统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂 数据仓库中的 数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对 象名和属性名:访问数据的原则和数据的来源;系统所提供的分析方法以及公式 和报表的信息。具体包括以下信息: 1 ) 企业概念模型。这是业务元数据所应提供的重要信息,它表示企业数据模 型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂 数据库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。 2 ) 多维数据模型。这是企业概念模型的重要组成部分,它告诉业务分析人员 在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。 这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 3 ) 业务概念模型和物理数据之间的依赖。以上提到的业务元数据只是表示出 了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的 表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。在数 据仓库系统中,元数据机制主要支持以下五类系统管理功能:描述哪些数据在数 据仓库中;定义要进入数据仓库中的数据和从数据仓库中产生的数据:记录根据 业务事件发生而随之进行的数据抽取工作时间安排:记录并检测系统数据一致性 的要求和执行情况;衡量数据质量。 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和多 维数据库存储方式三种。 1 ) 虚拟存储方式:它没有专门的数据仓库存储数据,数据仓库中的数据仍然 在源数据库中,只是根据用户的多维需求形成多维视图,临时在源数据库中找出 所需要的数据,完成多维分析。这种组织方式不必进行数据的移动与复制,可以 让用户既能实时地访问到当前最新的数据,而且花费少,使用灵活。但同时也存 在一些致命的缺点,即数据完备性难以保证,且数据可访问性差和访问代价高。 在实际中,这种方式很难建立起有效的决策服务数据支持。 2 ) 基于关系表的存储方式:它将数据仓库的数据存储在关系型数据库的表结 构中,在元数据的管理下完成数据仓库的功能。数据仓库中主要有两类表:一类 是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一张 9 北京交通大学硕十学位论文 表来存储维的层次、成员类别等维的描述信息。事实表和维表之间通过关键字和 外键联系在一起,形成“星型模式的多维数据结构。当维层次结构复杂时,为 了避免维数据的冗余,可以采用多个维表来描述维结构,这样星型模式便扩展为 “雪花模式”,它实际上是“星型模型”的维表按其层次结构用多个维表分开表示。 3 ) 多维数据库存储方式:以多维数组的方式存储数据,形成一种“超立方块 ( h y p e r c u b e ) ”的结构。这种方式的突出优点在于,数据以多维方式存储,以多维 方式访问,极大地提高了多维分析操作的效率。 2 1 3 数据仓库系统的结构 数据仓库系统的实现方式多种多样,其规模和特点由用户的需求来决定。但 其基本体系结构主要包括几个部分:数据源、数据的e t l 过程、存储与管理、数 据的表现。其中,e t l 即数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、加载( l o a d ) 的过程,它是构建数据仓库的重要环节;数据的存储和管理是数据仓库的真j 下关 键,数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外 部数据的表现形式。数据表现实际上相当于数据仓库的门面,其性能主要集中在 多维分析、指标统计和数据挖掘方面【6 j 。 业务数据源:它是数据仓库系统的基础,是整个系统的数据源泉。通常包括 企业内部信息和外部信息。内部信息包括各种业务处理数据和各类文档数据。外 部信息包括各类市场信息、竞争对手信息和各种手工收集的信息等。数据源的数 据质量对于数据仓库数据质量具有非常重要的影响,因为它是数据仓库数据质量 的基础。一般来自操作型数据环境的数据通常都很难满足数据仓库对数据要求。 这些数据可以很好地满足操作型的需求,但是由于录入或者其他原因,这些数据 很难保证一致性和完整性,数据之间经常会出现矛盾,如所属地区的名称和该地 区编码不统一等。为了提高数据仓库中数据的质量,数据e t l 处理过程是数据仓 库建设必不可少的工作。 数据仓库设计:用于为数据仓库的源数据库和目标数据库建立信息模型。因 为数据进入数据仓库之前必须经过检验,排除可能隐藏的错误。为了满足决策支 持和深入分析的需要,数据需经过特别的整理、加工和重新组织,才能装到数据 仓库中。设计模块就是承担描述数据的检验、整理、加工的需求和相应过程及步 骤。 元数据库:用于存储数据模型和元数据。其中,元数据定义了数据的意义及 系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结 构、源数据结构、映射及转换规则、综合算法、代码、默认值、安全要求、变化 l o 理论基础和关键技术 及数据时限等。 数据抽取模块:该模块是根据元数据库中的数据源定义、数据抽取规则定义 对异地异构数据源进行清洗、转换,对数据进行重新组织和加工,装载到数据仓 库的目标库中。转换是保证目标数据库中数据的一致性,由于不一致的形式是多 样的,为了集成这些不一致的数据必须进行转换。数据抽取可以手工编程来实现, 也可以用数据仓库厂商提供的工具来实现。 数据仓库管理:为数据仓库的运行提供管理手段,包括安全管理和存储管理 等。这是由于在数据仓库的日常运行中,需要不断监控数据仓库的状态,包括资 源的使用情况、用户操作的合法性和数据的安全性等多个方面。 数据仓库和数据集市:用于存储重新组织和整理后的数据,这是整个数据仓 库系统的核心。目前数据仓库一般基于传统的关系型数据库管理系统,因为传统 的关系型数据库管理系统成本和复杂性低,并且已为广大企业所熟悉,而且它能 满足数据仓库应用环境下的大部分功能需求。但在某些规模非常大的决策支持应 用场合下,专用的多维数据库具有一定优势。数据仓库按照所存储数据的覆盖范 围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。数据集市是 支持某一部分或特定商业需求的d s s 应用的集合。数据集市中的数据仍具有数据 仓库的特点,只不过数据集市中的数据是专为某一部门或某个特定商业需求所定 制的。数据集市的结构和数据仓库类似。企业在建立数据仓库的过程中,由于数 据仓库的规模较大,在原来分散的操作型环境基础上建立一个大而全的数据仓库, 其实施周期长,见效慢,费用昂贵,这是企业不愿意的。所以可以考虑先建立数 据集市,再扩充到数据仓库的思想,从企业最关心的业务开始,以最少的投资, 完成企业当前的需求,以获取最快的回报,然后不断扩充和完善,直至建立全局 的企业级数据仓库。 数据仓库的数据存储可划分为三个主要层次,即:明细数据层( d e t a i ld a t a ) 、 汇总数据层( s u m m a r yd a t a ) 、及信息数据层( i n f o r m a t i o nd a t a ) 。其中,明细数据 层又称为转储数据层,为业务系统数据经过e t l 转换、清洗、装载后直接进入数 据仓库的明细数据。明细数据是数据仓库分析系统数据同业务数据的接合点,同 时也是数据仓库系统同e t l 过程的接合点,同时其数据结构基本同业务系统数据 结构;汇总数据是数据仓库系统业务分析数据的核心,同时也是各类主题分析数 据的基础数据,它由明细数据根据分析主题,经过整理、轻度聚合而来,为轻度 聚合后的明细数据。汇总数据一般以维表和事实表构成的星型模式或雪花模式进 行存储。数据汇总、综合的最终目标是要在最后把多个主题汇总成为一个大的主 题,而这个主题所包含的维度和度量就是这个企事业单位运行的命脉指标,是企 业决策层所最为关注的那几个指标,即决策信息。信息数据是指最终用来生成 北京交通人学硕十学位论文 o l a p 多维数据模型或数据挖掘模型的经过分析后的信息数据( 也就是知识数据) , 它是根据分析主题,由汇总数据层数据经过高度聚合而成,直接为决策服务的信 息或知识。 联机分析处理服务器:对分析需要的数据进行有效集成,按多维模型予以组 织,以便进行多角度、多层次的分析,并发现变化趋势。 前端显示分析工具:该模块为用户提供一整套数据访问和分析工具,以实现 深层次的综合分析和决策。这些工具不但要提供一般的数据访问功能,如查询、 汇总、统计等,还要提供对数据的深入分析功能,即数据挖掘的功能,如数据的 比较、趋势分析、模式识别等。数据访问和分析工具包括用户查询、分析和报表 生成工具、数据挖掘工具、多维分析工具以及用客户机服务器工具丌发的前端应 用。 2 1 4 数据仓库的设计 建立和使用数据仓库是一个复杂的任务,因为它需要业务技巧、技术技巧和 程序管理技巧。关于业务技巧,建立数据仓库涉及理解这样一个系统如何存储和 管理它的数据;如何构造一个提取程序,将数据由操作数据库转换到数据仓库; 如何构造一个仓库刷软件,合理地保持数据仓库中的数据相对于操作数据库中数 据的当前性。使用数据仓库涉及理解数据的含义,以及理解业务需求并将它转换 成数据仓库查询。关于技术技巧,数据分析需要理解如何由定量信息做出估价, 以及如何根据数据仓库中的历史信息得到的结论推导事实。这些技巧包括发现模 式和趋势,根据历史推断趋势和发现不规则的能力,并根据这种分析提出相应的 管理建议。最后,程序管理技巧涉及需要与许多技术人员、经销商、最终用户交 往,以便以及时、合算的方式提交结果。 数据仓库的设计必须考虑自顶向下、数据源、数据仓库、多维查询4 种视图。 1 ) 自顶向下视图使得可以选择数据仓库所需的相关信息。这些信息能够满足当前 和未来分析的需求。2 ) 数据源视图揭示被操作数据库系统捕获、存储和管理的信 息。这些信息可能以不同的详细程度和精度建档,存放在由个别数据源表到集成 的数据源表中。通常,数据源用传统的数据建模技术,如实体联系模型或c a s e ( 计算机辅助软件工程) 工具建模。3 ) 数据仓库视图包括事实表和维表。它们提 供存放在数据仓库内部的信息,包括预先计算的和与计数,以及关于源、日期、 原时间等。4 ) 多维查询视图是从最终用户的角度透视数据仓库中的数据。 数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设 计。从软件工程的观点,数据仓库的设计和构造包含以下步骤:规划、需求研究、 1 2 理论基础和关键技术 问题分析、仓库设计、数据集成和测试,最后,配置数据仓库。大的软件系统可 以用两种方法开发:瀑布式方法和螺旋式方法f 7 1 。瀑布式方法在进行下一步之前, 每一步都进行结构化和系统的分析,就像瀑布一样,从一级落到下一级。螺旋式 方法涉及功能渐增的系统的快速产生,相继版本之间的间隔很短。对于数据仓库, 特别是对于数据集市的开发,这是一个好的选择,因为其周转时间短,能够快速 修改,并且可以快速接受新的设计和技术。一般地,数据仓库的设计过程包含如 下步骤: 1 ) 选取待建模的分析主题,建立概念模型。如果一个决策数据分析过程是有 组织的,并涉及多个复杂的主题,应当选用数据仓库。然而,如果处理是部门的, 并关注某一类主题,则应选择数据集市。 2 ) 选取用于每个事实表记录的维。典型的维是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度电影主题旅游产品拍摄制作合同
- 2025二手集体土地上房屋买卖合同
- 红色遗址保护知识培训内容课件
- 新年心愿600字初三作文12篇
- 合同管理流程及审批标准化工具
- 企业级专利许可协议
- 诗经拾贝课件
- 红楼梦第91回课件
- 红楼梦介绍课件
- 红楼梦五六回课件
- 电梯周期日常维护保养项目表
- 工程项目进度管理-课件
- (中职中专)二维动画设计软件应用完整版课件汇总全书电子教案(最新)
- 国际贸易理论与实务ppt课件(完整版)
- GB∕T 6546-2021 瓦楞纸板边压强度的测定
- 历史选择性必修1 国家制度与社会治理(思考点学思之窗问题探究)参考答案
- 学前儿童发展心理学(第3版-张永红)教学课件1754
- 医学资料冠心病英文版
- 中职《机械基础》全套课件(完整版)
- 部编人教版九年级语文上册教学计划及教学进度表
- 干法——稻盛和夫
评论
0/150
提交评论