(系统工程专业论文)基于数据仓库的铁路车站作业系统集成研究与实现.pdf_第1页
(系统工程专业论文)基于数据仓库的铁路车站作业系统集成研究与实现.pdf_第2页
(系统工程专业论文)基于数据仓库的铁路车站作业系统集成研究与实现.pdf_第3页
(系统工程专业论文)基于数据仓库的铁路车站作业系统集成研究与实现.pdf_第4页
(系统工程专业论文)基于数据仓库的铁路车站作业系统集成研究与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(系统工程专业论文)基于数据仓库的铁路车站作业系统集成研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着我国铁路的高速发展,全面应用信息技术,推进铁路信息化已经成为铁 路科技发展的重点任务之一。铁路车站作为铁路运输生产作业的主要载体,铁路 车站作业状态直接影响着铁路运输的效率和安全。因此铁路车站也需要不断适应 发展形势,运用各种信息化手段提高铁路车站作业效率与管理水平。 本文在阐述铁路车站信息化进程中面临问题的基础上,提出了铁路车站作业 系统数据仓库技术的应用方案,论述了数据仓库的基本概念、数据组织结构以及 数据仓库的设计方法与步骤,并重点研究了在车站作业系统中创建数据仓库的方 法与模型,从数据仓库需求分析、数据仓库概念模型设计、数据仓库逻辑模型、 数据仓库物理模型设计四个不同的层次设计了以铁路车站作业系统为基础的数据 仓库。 本文针对铁路车站运转部门作业的业务流程,从系统分析、系统设计及系统 开发三个阶段对铁路车站作业系统进行设计与开发。论文依据需求调查结果,分 析系统功能与技术需求,优化了系统业务流程和数据流程,并在此基础上设计了 铁路车站作业系统的总体结构、功能模块、网络结构及系统数据库。最后,论文 对系统的主要功能模块进行开发实现,并对系统开发中采用的关键技术进行研究, 包括利用g d i + 实现绘图功能、利用串行化实现局域网内图像共享、利用双缓冲提 高程序性能、系统数据安全设计、系统与微机联锁系统的硬件接口的应用技术等。 通过系统的试运行,表明了该系统的实用性,显著提高了铁路车站作业效率与管 理水平。 关键词:数据仓库;铁路车站;信息系统;g d i + a bs t r a c t a b s t r a c t :w i t ht h ed e v e l o p m e n to fc h i n ar a i l w a y , t h ea p p l i c a t i o no fi n f o r m a t i o n t e d m 0 1 0 9 yh a sa l r e a d yb e c o m e o n eo ft h em o s tk e yt a s k st op r o m o t em i l w a y t e c h n 0 1 0 9 yd e v e l o p m e n t r a i l w a ys t a t i o np l a y st h em a i nc a r d e r i nr a i l w a yt 啪s p o r t p r o d u c t i o n ,t h es t a t eo fw h i c hw i l l i n f e c tt h ee f f i c i e n c y a n ds a f e t yo fr a i l w a y t r a n s p o r t a t i o n s oi t sv e r yn e c e s s a r yt o a d a p tt h es i t u a t i o nf o rr a i l w a y s t a t i o n st o i m p r o v et h el o c o m o t i v eo p e r a t i o n a n dm a n a g e m e n tl e v e l b a s e do nt h ep r o b l e mo fr a i l w a ys t a t i o n si n f o r m a t i o np r o c e s s ,t h i sp a p e rp r o p o s e d r a i l w a vs t a t i o n se x e r c i s es y s t e md a t aw a r e h o u s et e c h n o l o g ya p p l i c a t i o n s d i s c u s s e d t h e b a s i cc o n c e p t so fd a t aw a r e h o u s i n g , d a t as t r u c t u r ea n dd a t aw a r e h o u s ed e s i g nm e t h o d s a n ds t 印s ,f o c u s i n go na p p r o a c ha n dm o d e lo fc r e a t ead a t aw a r e h o u s e d e s i g nd a t a w a r e h o u s e 舶mf o u rd i f f e r e n tl e v e l s :t h ed a t as t o r a g en e e d sa n a l y s i s ,d a t aw a r e h o u s e c o n c 印tm o d e ld e s i g n ,d a t as t o r a g el o g i cm o d e l ,a n dd a t aw a r e h o u s ep h y s i c a l m o d e l d e s i g n t h i sp a p e rm a i n l ys t u d yo na n a l y z i n ga n dd e s i g n i n go fr a i l w a ys t a t i o n se x 洲s e s y s t 锄t h ep a p e rm a k e so u tt h eo p t i m i z e ds y s t e mo p e r a t i o n f l o wa n dd a t af l o w a c c o r d i n gt 0t h eu s e rr e q u i r e m e n t sa n a l y s i s ,a n de m p h a s i s o nd e s i g n i n gt h et o t a l s 咖c t l j r e f u n c t i o nm o d u l e s ,n e t w o r ks t r u c t u r ea n dd a t a b a s eo f t h es y s t e m f u r t h e r m o r e , m ep a p e rd e s i g na n dr e a l i z em a n a g e m e n ta n dm o n i t o rs y s t e m o fr a i l w a ys t a t l o n s e x e r c i s ei nd e t a i l sa n dr e s e a r c ho nt h ek e yt e c h n o l o g i e si n v o l v e di ns y s t e mw h i c h c o n t a i na c h i e v ei ng d i + g r a p h i c sc a p a b i l i t y , a c h i e v ei nt h el o c a l a r e an e t w o r k s h a r i n g - p i c t u r ew i t h i ns e r i a l i z a t i o n ,g d i + d u a l - u s et e c h n o l o g yt oi m p r o v et h e g r a p h l c s b u 衔e f f i c i e n c y , d e s i g n i n go fs y s t e md a t as e c u r i t ya n da p p l i c a t i o n so f c o m p u t e rs y s t 锄 o fi n t e r l o c k i n g t h ea p p l i c a t i o no ft h es y s t e mn o to n l yi m p r o v e st h ee f f i c i e n c y o f r a i l w a ys t a t i o n se x e r c i s eb u ta l s op r o m o t e s t h em a n a g e m e n tl e v e l k e y w o r d s :d a t aw a r e h o u s e ;r a i l w a ys t a t i o n s ;i n f o r m a t i o ns y s t e m ;g d i + 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:自绣翩虢膨 签字同期:易唯月歹r签字r 期:加d 孑年6 月多同 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:勺淝匆 签字日期:捌年多月歹日 7 0 致谢 本论文的工作是在我的导师王喜富教授的悉心指导下完成的,在论文的写作 过程中,王老师倾注了大量的心血,从论文的选题、资料查询、开题、研究到最 后的完稿,都提出了许多的宝贵意见。王老师严谨的治学态度和科学的工作方法 给了我极大的帮助和影响,在此衷心感谢三年来王老师对我的关心和指导。 王喜富教授悉心指导我完成了实验室的科研工作,在学习上和生活上都给予 了我很大的关心和帮助,他广博的学识、严谨的治学态度和善于从宏观把握、分 析问题实质的方法,都给我留下深刻的印象,值得我永远去学习,激励我不断进 取。再次向王老师表示衷心的谢意。 在实验室工作及撰写论文期间,王庆智、于晓波等同学对我论文中的研究工 作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 最后,感谢审阅本论文的各位专家和评委,谢谢各位老师。 1 绪论 1 1 论文研究背景与意义 随着国民经济的快速发展,对铁路运输提出了更高的要求。铁路运输能力与 运输需求之间的矛盾已经成为铁路制约国民经济发展的瓶颈,铁路信息化在铁路 跨越式发展中的重要地位和支撑作用越来越显著l l j 。铁路车站作为铁路运输工作的 主要载体,在整个运输工作中承担着大量的运输工作,其工作质量直接影响到铁 路运输的效率和质量。由于传统的铁路车站作业系统中各个系统相对分离,导致 信息化程度低,缺乏过程控制,无法及时准确地掌握运输生产数据,从而很难掌 握现场实际工作情况,不能保证铁路车站作业的高效性。传统的铁路车站作业系 统主要存在以下弊端: ( 1 ) 铁路车站作业管理方法落后。目前铁路车站作业基本没有控制手段,现 场作业主要根据现场作业人员与车站调度员或调车区长的无线电联络得到现场作 业进度,比较注重现场作业结果,从而导致现场作业过程缺少监控,不利于整体 调整工作部署,同时车站管理群对现场作业的总体进程把握不清,如需得到现场 作业情况,需询问车站调度员或调车区长。 ( 2 ) 铁路车站作业系统较多,各系统问没有实现信息共享。目前大部分的铁 路车站作业系统各自完成铁路车站作业一部分功能,各个系统之间彼此独立,信 息孤岛现象严重,如铁路车站的统计工作人员往往工作繁重而且大量工作存在重 复现象。 ( 3 ) 目前铁路车站作业系统没有充分利用现有设备资源,基本停留在上世纪 9 0 年代早期作业系统阶段。目前的铁路车站作业系统以时间片为作业间隔,通常 采用单篇计划作为分隔,一般不考虑多机车同时作业情况,多机车同时作业时往 往出现计算结果混淆。 由此可见,目前的铁路车站作业系统基本停留在旧的分时处理模式上,对现 场的情况跟踪情况差,信息反映不及时,仅仅起到了一个对作业进行记录的作用。 因此,有必要根据现场的实际情况研究高效的铁路车站作业系统,提高现场信息 的及时性及信息的共享程度,其必要性如下: ( 1 ) 存储大量数据和信息的需要。作业过程中会产生大量与作业相关的信息, 这些信息是现场作业的数字体现,是对现场作业进行分析总结所必要的数据来源。 鉴于数据进行积累后数据量将十分庞大,因此有必要采用新的数据处理方式对数 据进行加工处理。 ( 2 ) 快速传递信息的需要。传统的作业中往往以无线电的形式来反映车站现 场作业的工作进度情况,而且结果仅仅反应在车站调度员或调车区长处,同时系 统以时间片的形式进行处理导致了其他工作人员不能及时了解现场实际情况,因 此,建立时间精确度更高的铁路车站作业系统显得十分重要。 ( 3 ) 准确分析和判断的需要。通过及时地对现场信息的记录,不仅可以节省 统计人员的工作量,同时可以实时的对作业情况进行统计分析计算,迅速得到管 理人员所关心的计算结果。 本课题的研究意义在于以下几个方面: ( 1 ) 铁路车站作业系统对现场作业信息的共享率较高,信息反映及时全面, 因此能够提高管理者及作业人员的工作效率,从而有效控制生产的各个环节。 ( 2 ) 由于铁路车站作业数据的积累性,不可避免的将出现数据膨胀现象,导 致数据的检索出现系统级别的瓶颈,影响了系统的正常使用,因此,采用数据仓 库技术对数据进行处理是十分合理的选择。 ( 3 ) 通过采用新技术,能够将以往难以实现的技术细节,如车站技术作业图 表等,同时由于系统与车站微机连锁系统接口,可以对车站技术作业图表的部分 内容实现自动化处理,大幅度提高了车站调度员或调车区长的工作效率。 1 2 国内外研究现状 1 2 1国外研究现状 运输领域信息技术的发展非常迅速,特别是铁路运输信息系统蓬勃发展,不 断向综合化、集成化方向发展,带来了巨大的经济效益,帮助西方铁路度过市场 竞争中受到的巨大冲击所造成的困境。西方许多铁路公司每公里平均不到一名职 工,这就是高度信息化的结果。自1 9 2 7 年第一套调度集中系统在美国铁路安装运 用以来,作为铁路信号的一项重要技术装备,在五大洲的铁路上得到推广运用, 在技术上也不断发展完善。自6 0 年代中期美国铁路调度集中系统中引入计算机, 从而开始了研究、开发应用计算机辅助调度系统的新阶段。8 0 年代各国铁路将微 型计算机引入调度集中系统,从而研制生产了各具特色的微机化调度集中系统。 进入9 0 年代各国铁路均以计算机辅助调度系统为核心,积极推进调度中心的建设, 大大推进了铁路调度工作的现代化的进程。如日本为新干线研究开发的计算机辅 助行车管理系统( c o m t r a c ) ,北美、西欧等各国铁路研究丌发的列车控制系统 ( a t c s ,a s t r e e ) 等【z j 。尽管名称不同,而其总的目标均为提高铁路运输安全、效 2 率而研究开发的。 ( 1 ) r 本新干线列车运行管理系统c o m t r a c ,c o s m o s 为了实现高质量的铁路运营管理,需要开发一套先进的列车运行管理系统以 有效地辅助调度员的同常工作和决策,鉴于此同本先后于7 0 年代初和9 0 年代中 期提出了两套列车运营管理系统( c o m t r a c 和c o s m o s 。c o m t r a c ( c o m p u t e r - a i d e dt r a 伍cc o n t r 0 1 ) 系统于1 9 7 2 年投入使用,其问经过不断完善,一 直使用至今。1 9 9 5 年东日本铁道公司又开发了功能更强的新型列车运行管理系统 c o s m o s ( c o m p u t e r i z e ds a f e t y ,m a i n t e n a n c ea n do p e r a t i o ns y s t e m s ) 。 c o m t r a c 系统主要是利用计算机对铁路行车进行全面管理,其具体目标包 括两个:一是根据运输市场的需要灵活编制合理的运输计划;二是当列车运行出 现晚点时编制列车运行调整计划。c o m t r a c 系统由运输计划子系统、车辆管理 子系统、运营管理子系统、旅客导航子系统、资料管理子系统组成。 新干线新型列车运行管理系统c o s m o s 是在计算机辅助行车指挥系统 c o m t r a c 和新干线管理信息系统s m i s 的基础上对硬件、软件和网络进行改进 和完善而研制丌发成功的。c o s m o s 系统由运输计划、运行管理、维护作业管理、 设备管理、电力控制、集中信息监视、车辆管理、站内工作管理等8 个子系统组 成【3 1 。 ( 2 ) 美国的先进列车控制系统a t c s 为了采用现有的先进技术提高铁路运输系统的效率,提高安全性,降低成本, 1 9 8 3 年北美铁道协会决定开发一种先进列车控制系统a t c s 以取代现有行车指挥 系统。先后成立了体系框架结构、通讯、车载设备、调度中心等l o 个委员会,以 行车指挥为中心,制定系统的整体框架,划分出功能模块及制定其问接口标准和 通信协议。a t c s 主要包括机车车载设备、线路维修车载设备、沿线设备、数据通 信网、调度中心等模块,其最大的特点是分布式、模块化和灵活性。a t c s 按复杂 程度分为4 个功能级,分别称作1 0 级、2 0 级、3 0 级和4 0 级,以便不同的线路根 据具体情况选用。 1 0 级系统属于电气集中系统,由调度中心的微机装置提供联锁逻辑,通过无 线移动电话实现调度中心和机车的通讯。 2 0 级系统装备了双向通信系统,使得调度中心和机车之间可以传输一些关键 数据。 3 0 级系统引入了列车定位和识别系统,可以跟踪列车的位置,完成列车自动 控制、辅助司机驾驶、机车安全系统等高级功能。 4 0 级系统引入调度中心对沿线设备的控制,即沿线设备与调度中心计算机间 的数据传输【4 j 。 3 ( 3 ) 法国的连续实时列车监控系统a s t r e e 1 9 8 6 年法国开发地铁a s t r e e 系统( 连续实时列车监控系统) ,作为欧洲列车 控制系统( e t c s ) 的一个补充,其核心是使用最新数据处理和通信技术对列车运行 实施全面的监控。从而有效地管理线路能力,改善能源和车辆的使用状况。a s t r e e 的丌发按照3 个组成部分进行:( 1 ) 微机控制中心,用于列车监督、管理和安全。 ( 2 ) 地面列车数据传输系统。( 3 ) 包括列车定位和速度控制装置的车载设备。系 统采用多普勒雷达检测列车的位置和速度,由车载计算机进行计算,用应答器进 行绝对位置修正,从而能够连续检测列车的位置和速度,具备完整的自动检测及 列车自动防护功能1 5 j 。 综上所述,国外铁路运输信息系统一个很大特点是把信息共享平台信息系统 密切结合起来,通过数据抽取将信息反馈到系统中,同时非常重视信息处理、分 析及决策软件的开发,从而及时、迅速地采取适当的决策手段。系统的应用大大 提高了作业效率,同时加强了对现场工作的控制力度。 1 2 2 国内研究现状 主要发达国家2 0 世纪6 0 年代开始将计算机运用于铁路生产与管理中,多已 建有完善的客货管理信息系统以及铁路运输综合信息系统,并且随着计算机技术 的发展其运用也越来越广泛和深入,各类专业信息系统也不断走向综合化、集成 化,铁路正向操作自动化、管理系统化和决策智能化的方向发展。正是先进的信 息技术带动了铁路行业整体技术的迅猛发展,使铁路运输管理的传输方式和模式 发生了深刻的变化,并且己取得显著的经济和社会效益。行车指挥自动化、客货 快运网络化、市场营销信息化、安全装备系统化,基本改变了铁路生产、运营的 传统工作方式。在高速发展的航空和公路运输的冲击下,西方先进国家铁路运输 逐步巩固阵地并迎来新的发展。国外铁路的实践证明,信息化是铁路行业发展的 战略制高点和现代化的主要标志1 6 j 。 进入2 0 世纪9 0 年代,我国经济正处在改革开放的高速发展阶段,作为计划 经济重要堡垒的铁路运输,当时尚处于高枕无忧的时期,运量充足,运力持续发 展,与西方资本主义国家铁路艰难度日形成鲜明对比。但是,随着中国市场经济 彻底形成,铁路必然受到公路、航空的激烈竞争的冲击,要避免走西方国家铁路 发展的老路,铁路生存与发展的唯一出路是不断采用新技术、新设备,主动适应 市场经济发展的需要。在这一过程中,铁路运输管理信息系统的建设是重要的支 撑手段。目前国内对铁路运输管理信息系统( t m i s ) 的研究及应用,仅集中在铁道 部。1 9 9 4 年,铁道部对铁路运输管理信息系统( t m i s ) 立项实施,并引进加拿大国 4 铁的运输报告和管理系统( t r a c s ) ,由于这是世界铁路运输最复杂、最庞大的信息 系统工程,涉及铁道部的整个系统,迄今为止,在货运营销与生产管理、货票信 息、编组站信息、确报信息、铁道部调度信息、车辆管理信息等1 0 个方面的信息 系统有的己完工投入使用,有的还没完i t7 1 。 然而,由于上述各业务信息系统基本都是单独开发建设、自成体系的,各系 统之间的连通性和互操作性较差,大量的基础数据需各系统各自维护,大量的管 理信息难以为其他系统及其管理人员及时利用,造成信息资源与投资的浪费。各 个信息系统的信息资源共享情况并不理想,不能达到充分利用铁路系统中所蕴涵 的丰富信息资源的目的,造成了信息资源的极大浪费【8 j 。造成这种现象的原因主要 为缺乏对铁路基础数据本质特性的研究,对铁路中各个部门普遍使用的各种基础 数据没有用统一的编码方案进行规范,更没有对这些基础数据的维护、发布、分 发的机制,实现基础信息在铁路各部门和各信息系统间的同步更新。由于这些数 据是整个铁路信息资源体系的基础和核心,没有统一的基础数据,就谈不上其他 信息资源的共享。为使这些系统发挥最大的效益,应使各信息系统规范、标准、 协调、有序地建设发展,以实现各个层次、各业务部门之间的数据集成、信息资 源共享、全面开发利用的目的【9 l 。 基于以上描述,本文在系统设计过程中,根据系统的需求探讨基于数据仓库 的铁路车站作业系统设计与实现,并研究数据仓库技术在铁路运输数据平台中的 数据共享与数据挖掘。 1 3 论文研究内容和基本框架 本文在研究目前国内外铁路车站作业系统的发展现状的基础上分析目前我国 铁路车站作业系统中存在的不足,指出建设铁路车站作业系统目的与意义。本文 将数据仓库技术运用至铁路车站作业系统中,利用数据仓库的多维数据模型( 数 据立方体) 进行关联规则挖掘,从原始作业信息中得到更多有价值的数据信息。 文章从系统分析、系统设计与系统实现三个阶段详细叙述了铁路车站作业系统的 研究与开发过程。论文的基本框架如图1 1 所示。 5 图1 - 1 论文基本框架图 f i g1 - 1b a s i cf r a m e w o r kc h a r to ft h es t u d y 论文各章节的具体内容如下: 第一章绪论,简述了论文研究背景、论文研究的目的与意义、国内外研究现 状,在此基础上阐述本文研究内容和基本框架。 第二章数据仓库技术应用与发展研究现状,主要介绍了数据仓库概念、数据 仓库关键技术、数据仓库的数据组织模式、数据仓库的体系结构及数据仓库的技 术发展等内容。 第三章基于数据仓库的铁路车站作业系统模型研究。根据上一章的基本理论 及应用,结合实际情况建立了基于数据仓库的铁路车站作业系统模型,分别从概 念模型、逻辑模型以及物理模型三个方面进行了详细的论述。 第四章基于数据仓库的铁路车站作业系统分析与设计。结合系统用户需求, 详细阐述基于数据仓库的铁路车站作业系统的系统分析、系统设计与数据库设计。 其中系统分析包括系统需求分析、业务流程分析、数据流程分析以及技术路线选 择;系统设计包括系统总体结构设计、功能设计;数据库设计包括数据库概念结 6 构设计、数据库表设计与数据库访问技术。 第五章基于数据仓库的铁路车站作业系统的实现及关键技术。文章简述基于 数据仓库的铁路车站作业系统主要模块的功能与丌发实现,详细阐述了系统开发 中采用的关键技术,包括利用g d i + 自定义图形控件、利用串行化实现局域网内图 像共享、利用双缓冲提高程序性能、系统数据安全性设计以及系统与微机联锁系 统的硬件接口等。 第六章总结与展望。概括本文研究的结论,并提出今后研究中需要进一步解 决的问题。 7 2 数据仓库技术应用与发展研究现状 2 1 数据仓库概述 数据仓库是2 0 世纪9 0 年代初提出的概念,到9 0 年代中期己经形成潮流。数 据仓库技术是从事务型数据库中抽取数据,按照主题要求进行清理、转换、集成, 重新组织成系统需求的新型数据格式。数据仓库是一种多学科相互结合的技术, 它一般是以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析 技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现 规律的科学途径,是当前较好的一种企业数据处理解决方梨m 】。 w - h i n m o n 是业界公认的数据仓库概念的创始人。在建立数据仓库( b u i l d i n g t h ed a t aw a r e h o u s e ) ) ) 一书中w h i n m o n 给出的数据仓库的定义:“数据仓库就是 面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决 策制定过程。”根据该书中对数据仓库的描述:“数据仓库是9 0 年代信息技术构架 的新焦点,它提供集成化和历史化的数据;它集成种类不同的应用系统;数据仓 库从发展和历史的角度来组织和存储数据,以供信息化和分析化处理之用。”从 w h i n n l o n 的定义及描述中概括了数据仓库的四个基本特征,即面向主题、集成 性、稳定性及时变性【1 2 】。 ( 1 ) 面向主题。数据仓库是作为满足人们生产活动中的某种需要而出现的解 决方案,因此数据仓库技术本身带有某种目的性,围绕这些目的必然围绕一些主 题展丌。数据从外部数据源进入数据仓库后,在某一特定的主题下,经过一系列 的处理,最后以符合该主题定义的形式存放。 ( 2 ) 集成性。数据仓库技术的数据来源为一系列的外部数据,外部数据源的 不唯一导致了数据的多样性,所以数据仓库不仅仅只是对数据进行一些简单的复 制或归并,为使得数据符合特定主题定义的形式,需要对数据按照既定的标准对 数据进行一致化处理,处理的同时又必须考虑到数据来源多样性带来的数据冲突 及重复,因此数据仓库的数据转化同时也是一个数据集成的过程。 ( 3 ) 稳定性。数据仓库是不同时点的数据库快照的集合,而不是联机处理的 数据。数据经过处理进入数据仓库后一般用于某种查询操作,一般不涉及增加、 删除及修改操作,数据状态比较稳定。 ( 4 ) 时变性。数据仓库的数据也要随着时间变化不断增加数据、删除数据, 并不断的进行数据的重新综合。其时变性表现在以下几个方面: 数据仓库中的数据不是一个时刻的数据,而是一个时间段的数据。 9 数据仓库的数据时间期限要远远长于操作型系统中的数据时间期限。 实现数据仓库是必须具有一个时间维以表示或隐式表示数据生成时间【1 1 1 。 简而言之,数据仓库技术是重组数据的一种技术,通过将运行系统中的信息、 外部数据源的信息以及历史信息以标准格式加载到面向主题中央数据库中,形成 某系统的知识库,从而实现信息共享,提高信息价值。 2 2 数据仓库关键技术 2 2 1数据抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时 的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时问、相互的顺序、 成败对数据仓库中信息的有效性则至关重要l i 引。 2 2 2 数据存储与管理 数据仓库的真j 下关键是数据的存储和管理。首先,数据仓库所涉及的数据量 比传统事务处理大得多,而且随着时问的推移而不断增加累积。一般情况下数据 仓库需要管理数百个g b 甚至几个t b ,因此,无论从管理手段还是硬件要求来讲 数据仓库都要比数据库上一个更高的台阶。其次,数据仓库还要解决并行处理的 问题。在传统的联机事务处理应用中,用户访问系统的频率高、查询统计简单; 对于多处理机系统来说,核心任务是均衡分担客户的请求,即并发操作。然而在 数据仓库系统中,用户访问的频率低、查询和统计都很复杂。此时系统的核心任 务就是将所有的处理机调动起来为一个复杂的查询请求服务,将该请求并行处理 1 1 3 。 2 2 3 数据表现 数据表现实际上相当于数据仓库的数据呈现,其性能主要集中在多维分析、 数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来 由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于w e b 前端 i o 联机分析界面,而不仅仅是在网上发布数据。 2 3 数据仓库的数据组织模式 数据仓库的数据组织有两种方式,一种是通过多维表型的维表一事实表结构 形式来组织,另一种数据组织方式是基于多维数据库的超立方体结构【1 4 】。本文通 过多维表型的维表一事实表结构形式来组织数据仓库数据。 通过多维表型的维表一事实表结构形式来组织的多维数据模型可以以星型模 式、雪花模式形式存在。 ( 1 ) 星型模式 采用星型模式的数据模型由事实表以及多个维表组成。事实表用于存放大量 的事实数据。维表用于存放描述性数据,它是围绕事实表建立的较小的表。 ( 2 ) 雪花模式 雪花模式是对星型模式的维表进一步层次化,把维表中的数据分解到附加的 表中。与星型模式的主要不同在于,雪花模式的维表可能是规范化形式,因此可 以减少冗余。 这种模式的优点是容易维护,节省存储空间。但与巨大的事实表相比,这种 维表的空值节省可以忽略,此外,雪花模式在执行查询时需要更多的连接操作, 可能会降低浏览的性能。 2 4 数据仓库的体系结构 数据仓库系统一般是由数据获取、数据仓库管理和查询分析工具三大部分组 成的。在数据仓库体系中,数据的流程从后台处理开始,经过中问的存储管理, 以前台的用户访问工具结束,其他如数据仓库管理工具、安全系统、元数据等则 贯穿整个流程,数据仓库数据流程图如图2 1 所示。 图2 1 数据仓库数据流程图 f i g2 - 1d a t af l o wd i a g r a mo fd a t aw a r e h o u s e 1 、后台处理。确定数据抽取规则和方法,从外部数据源获取数据,经过数据 抽取、清理、转换和集成后装载到数据仓库中。 2 、中间处理。利用d b m s 的功能,负责数据仓库的管理,包括数据存储组织、 数据维护、数据分发等。 3 、前台访问。通过查询检索、多维分析和数据挖掘等工具实现提取信息、分 析数据和挖掘数据,以提供统一的、集成的和丰富的信息【h 】。 数据仓库的体系结构如图2 2 所示。 2 5 数据仓库技术发展 图2 - 2 数据仓库体系结构图 f i g2 - 2a r c h i t e c t u r eo fd a t aw a r e h o u s e 数据仓库技术以及市场呈现以下发展趋势: ( 1 ) 并行化和可扩展性。硬件采用多处理器并行结构,很多数据库厂商也推 出了并行化产品。 ( 2 ) 集中化。集中化信息管理将越来越依赖于数据仓库市场。 1 2 ( 3 ) 数据仓库技术与数据挖掘技术、联机分析处理技术、人工智能技术的结 合形成新一代决策支持系统。 ( 4 ) 向通用数据库发展,支持多媒体、结构化和非结构化数据,具有面象对 性的能力。 随着数据库技术、数据模型和应用丌发技术的不断进步,数据仓库技术也不 断发展,并在实际应用中发挥了巨大作用。近些年来,国内很多企业建设了数据 仓库系统如:电信、电力、银行等,并取得了很好的投资回报,在铁路运输方面 目前数据仓库技术主要用于客运运输及工、电设备维修方面,在车站运输方面的 运用还处于起步状态。 2 6 本章小结 本章首先简略介绍了数据仓库与实现数据仓库所需的关键技术,然后对数据 仓库的数据组织模式进行了详细陈述并对星型模型与雪花模型两种不同的数据组 织模式进行了比较,最后介绍了数据仓库的体系结构及数据仓库的技术发展等内 容。 数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型 数据访问的各种技术和模块的总称,因此数据仓库作为一个环境,主要提供用户 用于决策支持的当前和历史数据。铁路车站作业由于其特殊运作环境,实时数据 往往仅仅用于呈现某种当时状态,更多情况下用户更多关注于某些汇总信息,因 此,将数据仓库技术用于铁路车站作业系统能使系统更好的适应用户需求。 1 3 3 基于数据仓库的铁路车站作业系统模型研究 作为面向决策支持、数据分析的数据仓库生命周期,从规划开始到使用、增 强结束,涉及多种任务,开发设计尤为繁重。数据仓库的实质性开发工作如同传 统的数据库开发工作一样,也要经历数据仓库需求分析、数据仓库概念模型设计、 数据仓库逻辑模型、数据仓库物理模型设计4 个阶段。【l6 】作为数据仓库的灵魂, 元数据模型自始至终伴随着数据仓库的丌发、成长与使用。同时,数据粒度模型 也在数据仓库的创建中发挥着指导性的作用,指导着数据仓库的实现,数据模型 关系图如图3 1 所示。 图3 1 数据模型关系图 f i g3 1t h er e l a t i o n s h i pc h a r to fd a t am o d e l 3 1 基于数据仓库的铁路车站作业系统概念模型研究 概念模型是联系主观与客观的桥梁,是为了一定的目标设计系统、收集信息 而服务的概念性工具【1 7 1 。概念模型的设计要求创建一种基于对象,代表实际业务 的模型,因此,本文主要从确定系统边界为起点,阐述基于数据仓库的铁路车站 作业系统概念模型研究。 3 1 1系统边界范围确定 1 5 数据仓库是面向决策分析的数据库,无法在数据仓库设计初期得到详细明确 的需求,但可以获得系统的一些基本的方向性需求: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统哪些部分的数据? 根据以上需求,可以划定一个当前的大致的系统边界,集中精力进行最需要 部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓 库系统设计的需求分析,因为它将决策者数据分析的需求用系统边界的定义形式 反映出来【18 1 。 基于数据仓库的铁路车站作业系统的需求在于以数据的形式反映现场作业动 态以及作业完成情况分析,因此,目前所存在的分析主要有以下几个方面: 调车计划完成情况分析 同生产计划完成情况分析 生产情况结构分析 现场现在车情况分析 生产矿停时间分析 接发车情况分析 货物装载线取送车情况分析 要进行以上分析,所需要的数据应包括: 生产计划及其相关信息 阶段现在车信息 装卸车信息 到发车信息 货物装载信息 取送车信息 所以我们将系统的边界定义为调度运输系统与货运统计系统的集合。 3 1 2 划分基本主题域 数据仓库是面向主题来组织数据,一个数据仓库有若干个主题,而每个主题 又有一个数据集合体做支撑,这个数据集合称为主题域。主题域具有两个特性: 一是独立性,即主题域具有明确的边界与独立的内涵,虽然主题问可以有交叉, 但不影响其独立性;二是完备性,即每个主题的分析要求所需的数据均应能在主 1 6 题域中得到。确定主题域是对每个主题域的内容进行较明确的数据仓库建模技术 在行业中的应用描述,其内容包括:主题域的公共码键、主题域之间的联系以及 充分代表主题的属性组【1 8 】。因此确定系统基本主题域,是数据仓库概念模型设计 的首要条件。本文从系统实际需求出发,确定系统的基本主题域为以下几个方面: 接发车 计划 货物装载 现在车 取送车 3 1 3 概念模型的分析 概念模型的分析主要分析数据仓库范围内的主要对象,确定系统的主要主题 域以及主要主题域之间的关系。分析阶段详细检查定义阶段所提出的要求,并且 研究任何可能提供解决方案的环境。数据仓库的设计者通过对用户的访问,得到 用户对数据仓库结构以及数据仓库存在环境的要求,并将分析结果转变成概念模 型,提交给被访问者进行确认,以保证设计者对当前环境的正确理解l l 引。通过对 具体实例的分析,本文使用e r 图的形式描述概念模型,图中各个对象( 实体) 问存在着相互的联系。根据实际系统分析,概念模型e r 图描述如图3 2 所示。 图3 2 概念模型e r 图 f i g3 - 2t h ee rc h a r to fc o n c e p tm o d e l 1 7 3 1 4 概念模型的设计 概念模型设计是整个概念模型设计的最后阶段,将依据概念模型分析以及分 析过程中所收集的数据,完成雪花模型设计,如果仅仅依靠e r 图,只能生成如 图3 2 所示概念模型,这种以e r 图描述的模型适合描述传统的数据库设计,对 数据仓库设计进行描述并不适合。 为更深入的反应主题域所描述事实状态,根据不同的主题,建立数据仓库的 星型模型,并对某些细节进行扩充,得到数据仓库各主题的雪花模型。 接发车 接发车主题主要包括的信息有日期、时间、班别、车次、接发车股道、列车 编组、来车方向或者发车方向等,同时接发车作业将引起车站站场内现在车数目 的更改,关于接发车主题的雪花模型如图3 3 所示。 图3 - 3 接发布主题雪花模型 f i g3 - 3s n o w f l a k es c h e m ao fr e c e p t i o na n dd e p a r t u r eo ft r a i n s 计划 计划主题主要包括的信息有r 期、班别、股道、股道作业、计划完成时间、 取送车车次等,关于计划主题的雪花模型如图3 4 所示。 图3 4 计划主题雪花模型 f i g3 - 4s n o w f l a k es c h e m ao fp l a n s 取送车 取送车主题主要包括日期、班别、股道、作业内容、出发时问、完成时间、 取送车次等内容,关于取送车主题的雪花模型如图3 5 所示。 图3 5 取送车主题雪花模型 f i g3 - 5s n o w f l a k es c h e m ao fp l a c i n g i na n dt a k i n g - o u to fw a g o n s 货物装载 货物装载主题主要包括同期、班别、股道、作业内容、开始时间、完成时间、 取送车次、货物品名等内容,关于货物装载主题的雪花模型如图3 6 所示。 图3 - 6 货物装载主题雪花模型 f i g3 - 6s n o w f l a k es c h e m ao f w a g o nl o a d e d 现在车 现在车主题主要包括日期、时间、股道、班别、股道停留车等内容,关于现 在车主题的雪花模型如图3 7 所示。 1 9 图3 - 7 现在币主题雪花模型 f i g3 - 7s n o w f l a k es c h e m ao f c a r so nh a n d 本节完成了数据仓库的概念模型设计,通过确定系统边界,划分了数据仓库 的基本主题域,同时对数据仓库的概念模型进行分析并根据系统需求建立了各主 题的雪花模型。 3 2 基于数据仓库的铁路车站作业系统逻辑模型研究 尽管应用雪花模型在概念模型设计中建立了数据仓库的概念模型,但是无法 直接依靠概念模型实现数据仓库的物理模型,还需要依靠逻辑模型作为概念模型 到物理模型转换的中间环节【l8 1 。本文在进行数据仓库的逻辑模型设计时,首先依 据概念模型设计中确定的主题域,对每个主题域进行逐个分析,确定粒度层次的 划分,确定数据分割策略,然后对关系模型及记录系统进行定义,最后定义了数 据仓库的数据抽取模型。 3 2 1 分析主题域 在概念模型的设计中已经确定了几个基本的主题域,对主题域中各个主题进 行详尽的分析是构筑良好系统的关键环节。确定的数据仓库主题域决定了数据仓 库的逻辑模型,根据上文确定的主题域,对主题的详细描述如表3 1 所示。 表3 1主题的详细描述 t a b l e 3 1d e t a i l e dd e s c r i p t i o no f c o n c e p t 主题名公共键码属性组 接发车时窄信息:p i d 、l l 期、时间、车站、接发股道 接发车程序内编码 接发车列乍信息:p i d 、t - 次、编纽描述、编 1 王辆数、到发方向 计划概要信息:p i d 、f i 期、计划编,、作业内容、起止时问、计划起止时 计划程序内编码 问、计划制定人、计划执行人 汁划详细信息:p i d 、序譬、乍站、股道、挂车信息、甩中仿息、备注信息 取送车程序内编码p i d 、期、时间、车站、股道、起止时间、作业内容 p i d 、r l 期、时问、车站、股道、装载起止时间、作业班组、计划下达时问、 货物装载程序内编码 作业内容、货物品名、取送车次 现在车股道f 1 期、时问、车站、股道、现4 :车描述 3 2 2 确定粒度划分层次 粒度划分是设计过程中最重要的问题之一,粒度划分的决定性因素是表数据 的总数,而不是总的数据量。因为对数据的存取通常是通过存取索引来实现的, 而索引是对应表的行来组织的,即在某一索引中每一行总有一个索引项,索引的 大小只与表的总行数有关,而与表的数据量无关【1 9 】。 适当划分粒度首先要确定所有在数据仓库中建立的表,然后估算数据仓库中 数据的行数和所需的直接存取设备数量,并据此决定是否进行粒度划分和如何划 分。在本文讨论的决策需求中的分析数据主要来源于计划生成数据及日产生产数 据记录。 一般地,如果数据行数在第一年内就在l o 万行左右,单一的数据粒度( a p 只有 细节数据) 是不合适的,应该考虑粒度的划分,如可以增加一个综合级别;如数据 行数超过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论