




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:我国铁路信息系统经过多年的建设已经具备了较为完善的业务及其支撑系 统,并积累了海量业务数据。但是,这些数据分散在多个独立系统中,形成众多 “信息孤岛”,信息分散、无法共享,数据完整性、一致性得不到很好的保证,数 据应用水平不高,难以为决策者提供综合、高效、准确的信息。为解决上述问题, 促进铁路跨越式发展,需要运用数据仓库技术将这些数据进行有效地整合、提炼、 加工处理和发现信息,以更好的支持决策分析并最终为各级决策管理者提供及时、 准确、科学的辅助决策依据。 本文概要介绍了数据资源整合技术的国内外发展概况,数据仓库理论知识及 相关技术,作为后面各章节对数据仓库理论深入研究以及实际应用中合理构建数 据仓库的基础。 重点研究了数据仓库的模型。在详细分析了铁路数据资源特点及共享需求的 基础上,探讨针对铁路数据资源特点的数据仓库设计思想,提出了按三级模式构 建铁路数据仓库架构,并对铁路系统进行了详细的主题划分及主题功能界定;同 时解决了传统数据仓库无法完成的低粒度数据查询问题及跨主题数据重组问题; 最后基于通用数据模型分析构建数据仓库逻辑模型。 本文针对货运发送特征分析主题,在s a s 平台上实现了数据仓库架构的搭建, 并实现了s a s 与d b m s 数据源连接抽取数据。在本课题研究的基础上,将实现铁 路数据资源在数据仓库内的完全整合,构造统一的数据存储结构,为数据的分析 和利用以及今后对数据的深度、广度挖掘提供了标准的、全面的数据源。 关键词:铁路信息共享;铁路数据资源;数据仓库;数据模型 分类号:u 2 8 3 4 a b s t r a c t a b s t r a c t :c h i n ar a i l w a yi n f o r m a t i o ns y s t e mh a sr e a c h e dad e g r e eo fm a t u r i t y a f t e ry e a r sa n da c c u m u l a t e sg r e a tc a p a c i t yo fb u s i n e s sd a t a h o w e v e r , t h ed a t as c a t t e r e d i ns e v e r a li n d e p e n d e n ts y s t e m sw i t h o u ts h a r i n ga n dc o n s i s t e n c yl e a dt ot h ep h e n o m e n o n o f “i s o l a t e di s l a n do fi n f o r m a t i o n ”w h i c ha f f e c t sd a t aa n a l y s i sa n da p p l i c a t i o n t h e n ,i t w i l lb ed i f f i c u l tt oo f f e rc o m p r e h e n s i v ea n de x a c td a t at od e c i s i o n m a k e r s t os o l v e t h e s ep r o b l e m sa n dp r o m o t el e a p i n gd e v e l o p m e n to fc h i n ar a i l w a y s ,t e c h n o l o g yo fd a t a w a r e h o u s ei sn e e d e dt oe f f e c t i v e l yi n t e g r a t e ,r e f i n ea n dp r o c e s sd a t a ,t h u st ob e t t e r s u p p o r td e c i s i o ns y s t e m sa n dp r o v i d ef i r s t h a n da c c u r a t ea n ds c i e n t i f i ci n f o r m a t i o nf o r a l ll e v e lm a n a g e r s t h i sp a p e rp r o v i d e sa no v e r v i e wo fd a t ai n t e g r a t i o nt e c h n o l o g yo fd o m e s t i ca n d o v e r s e a s ,d a t aw a t c h o u s et h e o r ya n dr e l e v a n tt e c h n o l o g i e s ,w h i c hw i l lb et h ef o u n d a t i o n f o rf u r t h e rr e s e a r c ha n dc a r r y i n go u td a t aw a r e h o u s em e n t i o n e di nl a t e rc h a p t e r s t h i sp a p e rf o c u s e so nt h em o d e lo fd a t aw a r e h o u s e b a s e do nt h ed e t a i la n a l y s i so f c h a r a c t e r sa n ds h a r i n gd e m a n d so f r a i l w a yd a t a ,at h r e e - t i e rm o d e li sp u tf o r w a r df o r b u i l d i n gd a t aw a r e h o u s ea r c h i t e c t u r e ,a n da l s oa n a l y s i ss u b j e c t si nd e t a i l s a tt h es a m e t i m e ,p r o b l e m so fs e a r c h i n gi n f o r m a t i o ni nl o w - g r a n u l a r i t ya n dq u e r y i n ga c r o s ss u b j e c t s t h a tm a ya r i s ei nt r a d i t i o n a ld a t aw a r e h o u s eg e ts o l v e d a tl a s t ,ac o m m o nd a t am o d e l f o rf a s tb u i l d i n gd a t aw a r e h o u s ei sp u tf o r w a r d a c c o r d i n gt os u b j e c to ff r e i 曲tt r a n s m i s s i o nc h a r a c t e ra n a l y s i s ,t h ep a p e rd e s i g n s a n di m p l e m e n t sd a t aw a r e h o u s ea r c h i t e c t u r eo nt h ep l a t f o r mo fs a s ,a n da l s oa c h i e v e s t oe x t r a c td a t af r o md a t as o u r c e sb yc o n n e c t i n gs a sw i t hd b m s b a s e do nt h es t u d yo f t h et h e s i s ,d a t aw a r e h o u s ew i l lb eap l a c et or e a l i z ef u l li n t e g r a t i o no fr a i l w a yd a t aa n d p r o v i d eau n i f i e dd a t as t o r a g ec o n s t r u c t i o n ,w h i c hw i l lp r o v i d eas t a n d a r d a n d c o m p r e h e n s i v ed a t as o u r c ef o rd a t aa n a l y s i sa n da p p l i c a t i o n ,a n da l s of u t u r em i n i n gi n d e p t ha n dw i d t h k e y w o r d s :r a i l w a yi n f o r m a t i o ns h a r i n g ;r a i l w a yd a t ar e s o u r c e ;d a t aw a r e h o u s e ; d a t am o d e l c l a s s n 0 :l j 2 8 3 4 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 翻稍 l 导师签 签字同期:) 卵且年易月同签字同期:伽召年6 月j 日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:彳归彬 签字日期:卅g 年6 月歹日 致谢 本论文的工作是在我的导师董宝盱1 教授的悉心指导下完成的,董教授严谨的 治学态度、求实的工作作风、崇高的敬业精神、科学的工作方法给了我极大的帮 助和影响,使我受益匪浅。两年来,董老师不仅在学业和工作上给予我大量的指 导,还言传身教为人处事的道理,让我终生难忘。 董老师对于我的科研工作和论文都提出了许多宝贵的意见,从论文的准备工 作到选题、设计直至每个具体问题的解决,都倾注了董老师的汗水和心血。在此, 谨向董老师致以崇高的敬意和衷心的感谢! 感谢李明辉老师在论文撰写过程中对我的鼓励和指导,使我能够克服困难, 继续课题的研究。李老师热情的工作态度、细致入微的工作作风,使我深受启发。 同时,感谢马小宁博士在论文撰写之初给予了大量的技术理论辅导,为课题的进 行和论文的撰写打下了坚实的基础;感谢课题组的所有成员对我研究工作的帮助 和肯定! 感谢攻读学位期间传授我知识和做人道理的所有老师,是你们的关心和帮助, 使我的工作得以顺利进行和如期完成。 感谢研究生院、运输学院的领导,感谢运输硕0 6 0 1 班的所有同学,从你们身 上我学到了受益终身的优良品质和作风。 我还要感谢我的家人,你们的理解和支持使我能够在学校专心完成我的学业。 最后向百忙之中评审论文的老师表示衷心的感谢! 北京交通人学硕士学位论文 引言 1 引言 铁路信息化是将信息技术广泛应用于铁路生产经营的各项活动中,从而改造 传统产业,提高铁路运输的生产率与竞争力。大力推进铁路信息化建设,是促进 铁路跨越式发展、增强综合国力和国际竞争力的关键环节,是覆盖我国现代化建 设全局的战略举措。 1 1 研究背景 ( 1 ) 铁路信息化建设存在的典型问题分析 主要发达国家2 0 世纪6 0 年代开始将计算机运用于铁路生产与管理中,多已 建有完善的客货管理信息系统以及铁路运输综合信息系统,并且随着计算机技术 的发展,其运用也越来越广泛和深入,各类专业信息系统也不断走向综合化、集 成化,铁路正向操作自动化、管理系统化和决策智能化的方向发展。 经过多年的努力,我国铁路信息化建设也取得了一定成绩:信息化基础设施 初具规模,客票发售与预订、财会管理、车号自动识别等系统全面投入运用,铁 路运输管理信息系统基本建成,运输调度指挥管理信息系统部分投入运用,新一 代调度集中系统试点成功,办公管理信息系统联网运行,在运输组织、客货营销 和经营管理中发挥了重要作用。 但是,在信息化建设中存在一些问题:信息系统的应用与组织的管理战略之 间出现诸多不协调的发展,产生单项应用多,而缺乏整体效益。虽然在计算机管 理信息系统开发和应用实施方面作了大量工作,花费了大量的资金,在单项应用 上取得了一定成效,但没有产生应有的经济效益,构筑了无数个“信息孤岛”,没 有实现信息的交流和共享。 铁路信息化建设过程中的信息共享问题主要体现在: 铁路业务m i s 内部的信息共享问题 夺各个m i s 之间的信息共享问题 令决策支持系统之问的信息共享问题 令路内外的信息共享问题 造成铁路信息资源难以共享,其原因有: 标准不统一 铁路各信息系统在不同时期分散实施,由于在运行环境、数据库系统、信息 编码规则、业务流程定义等方厩执行不同的标准,软硬件与数据平台不统一,成 北京交通人学硕+ 学位论文 引言 为系统无法实现信息集成和共享的根本原因。 系统规划不够 由于在大规模开始建设信息系统之初对信息化建设缺乏总体规划,系统应用 散乱,没有参照相关的技术标准、规范,各系统按部门划分功能,系统设计、开 发的科学性考虑不够,没有考虑系统内部的相关性、系统性,使得各部门内部的 信息相对封闭,产生信息孤岛效应。 网络建设各自为政 从网络建设的角度来看,不能互连互通主要包括三个方面:一是各系统均要 求形成自己的“内部”网络系统;二是路内各网均用专线;三是铁路数据网等业 务网络基本是局限在铁路范围内,没有实现与全国其他通信网络资源的连接。 数据的使用与维护无统一的协调管理机构 各系统建设管理上没有统一的领导组织机构,缺乏有效的指挥和协调,造成 建设管理无序,各系统间缺少接口、分工不明、义务和责任不清,各自为政,直 接造成各系统间不能互连互通,大量的信息被重复采集、加工处理,不但极大地 浪费了人力、物力、财力,而且造成了信息资源的不一致。 ( 2 ) 数据资源整合的意义 在高速发展的现代信息社会,政府和企业对信息管理的需求更加复杂,市场 的压力要求决策层做出更快、更准确的决策。为了适应企业的需求,有越来越多 的应用系统被开发和应用,我们可获得的信息越来越多,人们越来越认识到这些 数据的价值。但是,正如上一节中所提到的铁路信息化建设中存在的典型问题, 这些信息资源不能被有效的利用数据以不同的格式分散在不同的数据库、不 同的文件和不同的应用程序中,很难把它们集中起来进行分析和展现,查找和处 理数据需花费大量的时问和人力,有效信息的整理和传递工作比以往任何时候都 要困难,系统多样、信息分散等问题更为突出。在许多情况下,为了做出一个决 策,可能需要访问分布在网络不同位置上的多个业务数据管理系统中的数据。 数据资源整合就是运用相关技术,通过规划把已有的数据进行抽取、转化、 加载和集成,从而把企业中分散的、异构的数据集中和集成起来,建立一个面向 服务的、统一的、基于整个企业的数据共享平台,以满足应用的需求。 数据资源整合不是对企业原有技术和模式的颠覆,而是把企业中来源于不同 系统、不同平台的各种数据整合起来以更准确的响应需求;数据资源整合也不是 简单把数据集中起来,而是在详细分析了既有系统及数据后建立全局概念模型的 基础上,对原有数据进行综合,建立面向决策主题的数据集合。 通过数据资源整合,使得企业现有的多种业务系统、多种异构数据源能够并 存,能够很好的保证数据的完整性、唯一性、相关性、一致性、有效性以及正确 2 北京交通人学硕十学位论文引言 性,并实现异构数据源动态、及时的互访和信息的挖掘及综合利用,既保护了企 业的原有信息化投资,又提供了应用系统由旧向新、系统平台由低向高的平滑过 渡,能够满足企业低成本、阶段性、可扩展性信息系统建设的需要。因此,研究 数据资源整合,集成企业现有各个业务系统中的异构数据,对于辅助管理层决策 以及更加快捷、准确的响应需求,最终实现信息共享,具有十分重大的意义。 1 2 数据资源整合的国内外研究现状 自从2 0 世纪8 0 年代以来,异构多数据库系统一直是数据库领域的一个主要 研究方向。进入2 0 世纪9 0 年代后,由于计算机网络技术的迅猛发展,对数据库 又有了新的要求:各种数据库中的信息不仅需要在i n t e m e t 发布,而且大量的应用 需要能够同时访问多个数据库中的数据。异构多数据库又一次成为数据库领域的 一个研究热点。为了解决异构数据库之间的互联整合问题,国际标准化组织和国 内外各数据库厂家都做出了不懈努力。 根据g a r t n e r 对超过5 0 0 家机构的企业架构师、信息架构师、整合部门和开发 人员进行的关于数据整合投资、工具和系统运用的主体研究,g a r t n e r 将数据整合 定义为对多个独立设计的数据存储之问进行的数据访问、集中、迁移和同步。数 据整合工作包括: ( 1 ) 数据抽取、转换和装载; ( 2 ) 多个数据库之间的复制; ( 3 ) 不同应用程序之间的数据共享; ( 4 ) 通过数据联盟创建不同数据库的虚拟集成数据视图。 目前,国内外主要的数据整合技术分为两大类: ( 1 ) 直接进行数据交换 这种方法就是使用一些数据转换工具,如s q ls e r v e rd t s 等,通过对每一对 要共享的数据源编写数据交换的代码,直接实现不同数据源问的数据交换乜1 。这种 做法缺乏灵活性,通常需要通过人工方式处理,没有实现自动化;扩展性不强, 当系统要整合新的业务系统时又要设计新的转换方案。如果n 个业务系统问要交 换数据,相应就要有n 宰( 一1 ) 2 个两两数据交换系统。 ( 2 ) 建立中心数据库 中心数据库就是一个数据仓库,它存放从多个数据源中抽取的数据口1 。通过将 各个业务系统中需要共享的数据抽取到中心数据库,以中心数据库这样一个中介 来实现业务系统之间的数据共享、交换,并可以向上提供主题服务。 3 北京交通人学硕+ 学位论文 引言 图1 l 基j 。中心数据厍的数据繁合 f i g u r el 一1d a t ai n t e g r a t i o nb a s e do nc e n t r a ld a t a b a s e 图1 1 给出的是一个中心数据库的示例:两个小的库是需要整合的业务数据 库,大的库即为中心数据库,虚线表示数据的抽取过程,实线表示业务访问过程, 业务系统通过访问中心数据库来实现数据的共享。 运用中心数据库技术是国内外大中型企业进行数据资源整合普遍采用的方 案,而e t l ( e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d i n g ) 是中心数据库技术中最为重要 和投资最大的部分,从各行业的最佳实践方法论中可以看到,运用e t l 工具比传 统的非e t l 工具的解决方案效率要高很多h 1 。 根据g a r t n e r 分析,截至2 0 0 7 年,数据整合市场规模达到1 3 0 亿美元,i b m 等许多公司都越来越重视数据整合这一市场。i b m 在2 年之内收购了5 家数据整 合技术公司,在并购i n f o r m a t i c a 的主要竞争对手a s c e n t i a l 后,更是将数据整合市 场定为软件的重点市场之一,认为数据整合是随需业务中一个重要的环节1 5 】。目前 提供数据整合技术的主要厂商还有s a s 、甲骨文、b o 、微软等,以及提供整合服 务的顾问公司等。 当前实施数据整合的重点行业有:电信服务行业;银行、保险、证券行业; 政府与公共服务行业;交通运输行业;集团企业【6 。 美国联合太平洋铁路公司( u p ) 是美国最大的铁路公司,其路网覆盖美国中 西部及墨西哥湾和西海岸所有港口,主要进行粮食、石油化工、集装箱、木材、 煤炭、汽车的运输。 u p 自己拥有覆盖全部营业线路的通信网,其信息系统包括2 个数据中心,1 个灾备中心,1 5 0 0 0 多台微机,3 0 0 0 多个a e i 和红外探测点。 u p 的信息系统主要使用在运营、客户服务和管理三大领域,核心系统是运输 管理信息系统( t c s ) ,其他应用系统通过接口与t c s 形成有机的结合【1 2 】。 4 北京交通人学硕:t = 学位论文引言 i 娑j 图1 - 2t c s 与外围系统的关系+ f i g u r e1 - 2r e l a t i o n s h i pb e t w e e nt c sa n dp e r i p h e r a ls y s t e m s t c s 在铁路运输中发挥了巨大作用,投入运用的各系统实现了互联互通、资 源共享,形成了一个融合为一体的完整系统。生产系统制定各种详细的工作计划, 调度系统负责执行计划指挥整个公司范围内的列车丌行,同时,调度系统还需要 采集列车实时信息,一旦发生特殊情况即刻返回给生产系统,由生产系统变更计 划,并将变更的结果通知货主。 伯灵顿北方圣特菲铁路公司( b n s f ) 的t s s 系统通过在其周边逐步建立车号 自动识别( a e i ) 、电子数据交换( e d i ) 、计算机辅助调度( c a d ) 、编组站控制 ( p r o y a r d ) 、机车调配( c l s ) 、列车计划( t i 认i n c o n t r o l ) 、机车乘务员管 理( c r e w ) 、空车调配( e d o ) 、工作报告( w o r ) 、7 - 务系统( m e m s ) 、机车 车辆维修系统( m e c h a n c a l ) 等,实现各系统的有机结合,达到信息共享的目 的【12 1 。 美国联合太平洋铁路公司和伯灵顿北方圣特菲铁路公司,在信息技术的支持 下,都实现了管理集中化。 标准化是实现资源共享的前提,统一的技术标准、基础编码标准和数据交换 格式标准,不仅有利于铁路各信息系统内部资源的共享,也有利于铁路与其他运 输业、物流业和社会各行业资源的共享。目前国外从事铁路信息化相关标准研究 m y u p & e d :网站与电予数据交换;t s b :列车运行图编制;a t c s :列车运行控制;o a s i s :集装箱 调度;s w i t c h :货运站管理;a e i :自动车号识别:r y m :编组站管理;i t m s :列车综合管理;b t p :基 本列车运行图。 5 北京交通人学硕+ 学位论文引言 的机构包括国际铁路联盟u i c 、i e e e 、欧洲铁道研究所、欧洲标准化组织c e n 、 美国国家标准学会a n s i 等3 。 2 0 0 4 年1 2 月,我国最新发布的铁路信息化总体规划对统一标准、建设公共基 础信息平台提出了明确要求【1 4 】。从铁路信息化标准、信息化公共基础编码、信息 化标准管理机构和制度以及对现有信息系统进行改造等几个方面给出了建议。 中国铁路既有线实行的是路网与运营统一管理的运输管理体制。铁道部运输 指挥中心对全国铁路实行统一的运输调度指挥。运输调度指挥管理是以行车调度 为核心、以站和段为基础、实行铁路局和铁道部二级调度管理的体制。目前,铁 路行车调度指挥的应用系统主要包括列车调度指挥系统( t r a i no p e r a t i o n d i s p a t c h i n gc o m m a n ds y s t e m ,t d c s ) 及分散自律调度集中系统( c e n t r a l i z e d t r a 衔cc o n t r o ls y s t e m ,c t c ) 1 5 】。 t d c s 已应用于铁道部、全路1 8 个铁路局5 0 0 0 多个车站。系统采用车次校核 及自动追踪技术,实现了调度从计划、命令下达、实际运输到统计分析的全面的 调度指挥管理信息化。 c t c 系统也已在国内丌始应用,实现了行车调度指挥的自动化,初步具备了 调度指挥的智能化。至2 0 0 7 年7 月开通c t c 系统的主要线路有青藏线、浙赣线、 胶济线、秦沈线。c t c 系统实现了从计划,到计划下达,再到依据计划实现进路 的自动控制。 中国既有调度系统往往是在一个专业领域内建设的,所采集与处理的信息有 限,如t d c s 系统处理信号系统的信息、货运系统处理装卸车作业信息、s c a d a 系统处理牵引供电系统信息。缺乏系统问的整合,无法实现对运输过程主要环节 的综合分析与处理,进行系统间的相互协调和资源共享以及资源的综合运用。 1 3 本文研究内容及创新点 数据资源整合是实现信息共享的基础。通过研究铁路数据资源整合,能够实 现跨系统的信息交换,提供更为广泛的信息共享和服务;同时,对后续建设的信 息系统特别是铁路客运专线信息系统具有重大的现实意义,从建设初期就为信息 共享打下坚实的基础,彻底避免信息孤岛的再次出现。 ( 1 ) 本文研究内容 基于数据仓库技术整合铁路数据资源是一项庞大而复杂的系统工程,需要分 析铁路的各业务系统及相关数据库,通过铁路数据资源特征提取及共享需求分析, 设计决策分析主题,搭建铁路系统全局概念视图,最终指导铁路数据仓库的构建。 6 北京交通人学硕+ 学位论文引言 问题的提出 上 fii i 研究目的与意义 国内外研究现状研究思路与方法 lli 图l - 3 论文框架 f i g u r e1 - 3f r a m e w o r ko f t h e s i s 本文的研究内容及组织结构如下: 第一章:引言。主要分析铁路信息化建设中存在的典型问题,数据资源整合 的意义及国内外数据资源整合的研究现状,提出本课题的主要研究思路与方法。 第二章:数据仓库基本原理。介绍了数据仓库的基本概念、特点及体系结构, 重点阐述了在解决数据资源整合问题中需要用到的数据仓库相关技术。 第三章:铁路数据资源分析。详细描述了铁路数据资源特点、分类及共享需 求,分析运用数据仓库技术整合铁路数据资源的意义。 第四章:铁路数据资源整合模型设计。探讨针对铁路数据资源特点的数据仓 库的设计思想,提出运用三级模式体系构建铁路数据仓库;详细设计了铁路数据 仓库的主题,对主题功能进行界定,并针对其中的跨主题查询问题给出具体解决 方案;最后基于通用数据模型分析构建数据仓库逻辑模型。 第五章:铁路数据资源整合范例。针对货运发送特征分析主题,结合前面章 7 北京交通人学硕十学位论文引言 节对数据仓库理论的研究以及铁路数据资源特点的分析,对目标主题进行详细分 析并具体建模,在s a s 平台上构建数据仓库体系架构,并实现和d b m s 连接抽取 数据。 第六章:论文主要结论及展望。总结现有研究工作,并对下一步研究工作进 行展望。 ( 2 ) 本文主要创新点 提出了三级模式构建铁路数掘仓库,面向客户提供辅助决策功能和针对细 节数据的查询、分析功能,该模式的设计在抽取数据面向客户需求的同时不影响 实际运行系统的工作; 设计了跨主题查询及数据重组算法,继承了三级模式设计中“以指标指导 主题设计”的思想,以指标关联建立主题关联,增强了数据仓库的可扩展性; 提出了通用数据模型设计思想,从纵向、横向两个方面对多源数据进行分 析、汇总,针对三级模式中的高粒度数据集层和o d s 层构建数据仓库逻辑模型; s a s 是优秀的数据仓库产品,但企业应用s a s 构建数据仓库的案例并不多, 尤其是铁路系统。本文通过不断探索,在s a s 平台上构建了针对货运发送特征分 析主题的数据仓库体系架构,并实现数据从d b m s 中抽取到s a s 数据仓库中。 北京交通人学硕十学位论文 数据仓库基本原理 2 数据仓库基本原理 数据仓库的提出是以关系数据库、i n t e r n e t 、并行处理和分布式技术的飞速发 展为基础的。随着信息技术不断发展,围绕业务产生了大量的信息系统,企业拥 有大量数据,但缺乏合理有效的组织利用,导致有用信息贫乏,而数据仓库技术 能够实现将数据从异构数据源中抽取并整合到统一的平台上,最终将数据转化为 辅助管理层决策的信息。 2 1 数据仓库概述 数据仓库的概念是由被称为数据仓库之父的w i l l i a mh i n m o n 在( ( b u i l d i n gt h e d a t a w a r e h o u s e ) ) 一书中提出来的“副。随着人们研究和行业发展的不断深入,相继 出现了很多数据仓库相关的概念,包括体系结构、粒度、元数据、数据集市等。 下面依次介绍数据仓库领域常见的概念。 2 1 1 数据仓库的定义 2 0 世纪8 0 年代中期,w 讯i 锄h i n m o n 先生将数据仓库定义为:“数据仓库 ( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、稳定 的( n o n v o l a t i l e ) 、随时间变化的( t i m e v a r i a n t ) 的数据集合,它用于支持经营管理 中的决策制定过程。从这罩可以看出数据仓库不仅是一个数据集合,还是一个决 策支持系统,它将来自多个数据源的信息进行重新组织与集成,并为上层的某一 主题应用提供统一的用户接口,使用户能够直接完成对数据的查询、分析与决策。 2 1 2 数据仓库的特点 数据仓库的数据量非常庞大,而传统的数据库技术是针对o l t p 发展而来的, 并不适用于数据量大而且复杂度高的数据仓库系统。构造数据仓库需要用不同的 方式来设计和开发,这样,对数据仓库特征的分析就显得尤为重要。 数据仓库是“面向主题的、集成的、稳定的和随时间变化的数据集合”,在对 数据仓库的这一定义中也体现了数据仓库的四个基本特征。 ( 1 ) 面向主题的 数据库系统是以优化事务处理的方式来构造数据结构的,对于某个主题的数 9 北京交通人学硕十学位论文数据仓库基本原理 据常常分布在不同的事务数据库中,这对于决策支持来说是极为不利的,因为这 意味着访问某个主题的数据实际上需要去访问多个分布在不同数据库中的数据集 合。而数据仓库将这些数据集中于一个地方,在这种结构中,对应某个主题的全 部数据被存放在同一数据表中,这样决策者可以非常方便地在数据仓库中的一个 位置检索到某个主题包含的所有数据。通过按主题的数据组织方法,数据仓库极 大的方便了数据分析的过程。 ( 2 ) 集成的 数据仓库中存储的数据是从原来分散的各个子系统中抽取出来的,但并不是 原来数据的简单拷贝,而是经过统一并综合,同时增加一些可能涉及到的外部数 据。数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致 的地方,通过数据仓库的集成,将这些数据转换成全局统一的定义,消除不一致 和错误之处,保证数据的质量,指导企业做出科学的决策。 ( 3 ) 稳定的 在数据仓库中,数据一旦被写入就不再变化了。数据仓库可以看成是一个虚 拟的只读数据库系统。数据仓库在数据存储方面是分批进行的,定期进行抽取过 程为数据仓库增加记录,但是这些记录一旦加入,在一定时间内就不再从系统中 删除。对于年代久远且查询率低的数据需要从数据仓库脱离到廉价慢速设备上, 如磁带,以及从数据仓库中删除分析处理不再有用的数据,这些工作都是由系统 管理员来完成。因此,在一定时间间隔内,所有用户只是以只读的方式访问数据 仓库。参见图2 1 。 插入 删除 操作性环境 访问 数据仓库 访问 修改插入 数据的记录方式处理 数据的批量载入访问 图2 - 1 数据的稳定性特征 f i g u r e2 - 1s t a b i l i t yc h a r a c t e r o fd a t a ( 4 ) 随时间变化的 数据仓库的稳定性是针对应用而言,即用户分析处理时不更新数据。但并不 是说,数据进入数据仓库后就永远不变,这些数据是随时间变化而定期更新的。 每隔一段固定的时间间隔后,抽取运行数据库中产生的数据,转换后集成到数据 1 0 北京交通人学硕十学位论文 数据仓库基本原理 仓库中。而数据仓库中比较陈旧的数据仍然保留在数据仓库中,不过需要每隔一 周、一月或适当的间隔,将这些陈旧数据以更高的综合层次进行综合,以适应趋 势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库 中删除这些数据。 2 1 3 数据仓库体系结构 业务处理系统的设计目的在于加快数据登录和检索速度,以及数据之间的相 关性和一致性,着重对于少量记录的操作;而数据仓库技术完成的是复杂的分析 查询操作,对大量数据的汇总与分类,最终辅助管理层决策。 概括来说,数据仓库的体系结构是一种典型的c s 结构,客户端工作包括客 户交互、格式化查询及结果和报表的生成等,服务器端对数据源进行操作,完成 各种辅助决策的s q l 查询、复杂的计算和各类综合功能。 目前数据仓库最普遍的形式是3 层结构,即数据源层、数据仓库管理系统层 和前端展现层7 1 ,如图2 2 所示。 j 圃 困 二妇臣塑囹前臻 具 o l a p 月艮务器 数据仓库 管理系统层 营营层 附加数据库 图2 - 2 数据仓库体系结构 f i g u r e2 - 2a r c h i t e c t u r eo fd a t aw a r e h o u s e 北京交通人学硕十学位论文数据仓库基本原理 ( 1 ) 数据源层 数据源层包括操作数据库和外部信息源。数据仓库系统的源数据取自m i s 系 统和o l t p 系统所产生的操作型数据。同时,数据源还包括大量的外部数据,如顾 问公司提供的本行业的统计数据、竞争者的市场占有率数据、财政指标的标准值 等,利用这些外来数据,再结合公司内部数据,来检查公司的表现如何,了解行 业发展趋势及与其他企业进行协作或对比。 ( 2 ) 数据仓库管理系统层 数据仓库管理系统层是数据存储管理的主要部分,包括e t l 、数据存储,同 时为数据展示提供接口。 系统中的数据是当前的、详细的,并且不断更新变化的。数据仓库需要把操 作型系统产生的源数据、历史数据经过一系列的变化,集成到数据仓库中。这些 变化主要包括抽取( e x t r a c t i o n ) 、清洗( c l e a n i n g ) 、转换( t r a n s f o r m a t i o n ) 、加载 ( l o a d i n g ) ,简称为e t l - 1 - 具。最终在数据仓库中,数据有一致的数据形式,以 便于分析决策,同时还要对这些数据进行维护,确保数据的正确性。数据仓库管 理系统层还为前端展示层提供工具接口,使各种展示查询工具通过这个接口对数 据进行分析展示。 ( 3 ) 前端工具层 前端工具层包括查询、分析、o l a p 、数据挖掘等。终端工具用于获取数据仓 库中的信息,主要包括各种桌面产品、定制的分析工具和客户程序。通过前端的 分析工具分析查询仓库中的数据,挖掘其中的信息,并通过报表等各种形式展示。 2 1 4 数据仓库的重要概念 ( 1 ) 主题( s u b j e c t ) 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归 类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所 涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象完整、 一致的描述,能统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之 间的联系。 一般来讲,一个数据仓库中可以有若干个主题。一个主题可以分解为若干个 子主题,这样逐层分解从而构成一个主题层次8 1 。 每个主题以一组相关的表来具体实现,这一组相关的表通过一个公共键码联 系起来,所有主题综合起来应能覆盖企业的所有经营业务活动范围。 1 2 北京交通人学硕十学位论文数据仓库基本原理 ( 2 ) 元数据( m e t a d a t a ) 元数据是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管 理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数 据仓库内数据结构和建立方法的数据,可将其按照用途不同分为两类:技术元数 据和业务元数据【1 9 1 。 务j i 兀 数 据 i 元数据库 技 术 兀 数1 r 掘 图2 - 3 元数据在数据仓库中的作用 f i g u r e2 - 3r o l eo fm e t a d a t ai nd a t aw a r e h o u s e 第一层( 操作环境层) 是指整个企业内有关业务的o l t p 系统和一些外部数据 源;第二层通过把第一层的相关数据抽取到一个中心区而组成数据仓库层;第三 层是为了完成对业务数据的分析而由各种工具组成的业务层。而元数据在其中起 到了承上启下的作用,记录了整个数据仓库数据的流动及存储。 ( 3 ) 粒度( g r a n u l a r i t y ) 粒度是指数据仓库中保存数据的细化或综合程度的级别。细化程度越高,粒 度级就越小;相反,细化程度越低,粒度级就越大。 划分粒度的作用: 粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库 中的数据量的多少,也影响数据仓库所能提供的查询种类。在数据仓库中,多维 粒度是必不可少的。高粒度数掘辅助管理层决策,低粒度数据面向实时查询及针 对细节数据的分析。由于数据仓库的主要作用是多维分析和决策支持,即绝大多 数查询都基于一定程度的综合数据之上, 设备上,如磁盘;对于极少查询的数据, ( 3 ) 分割( p a r t i t i o n ) 这类需要经常查询的数据应存储在高速 可存于低速设备如磁带上。 分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单 1 3 北京交通人学硕十学位论文 数据仓库基本原理 元进行存储。任何给定的数据单元属于且仅属于一个分割。 数据分割的目的: 数据分割能够提高效率。它是将数据分散到各自的物理单元中去,以便能分 别独立处理。有许多数据分割的标准可供参考:如同期、地域、业务领域等等, 也可以是其组合。一般而言,分割标准总应包括同期项,它十分自然而且分割均 匀。 ( 4 ) e t l ( e x t r a c t i o nt r a n s f o r m a t i o nl o a d i n g ) e t l 是数据抽取( e x t r a c t i o n ) 、数据传输( t r a n s f o r m a t i o n ) 、转换、清洗、数 据加载( l o a d i n g ) 的缩写。它表示用户从数据源抽取出所需的数据,经过数据传 输、转换、清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库 中去。 e t l 流程主要包括以下四个步骤: 数据抽取:从多个异构的数据源中收集数据,并将数据仓库需要的业务数 据抽取到数据转换区的过程。 数据清理:在数据转换区中,对源系统数据质量进行检查,形成检查报告, 并进行相应的出错处理,对于严重错误,需要系统维护人员现场做出相应的处理。 数据转换:包括对源系统数据进行整理、剔除、合并、验证等一系列转换 工作,最后形成数据仓库物理数据结构所需的数据,存放在转换区的数据表中。 数据加载:将数据转换的结果数据加载到数据仓库,并形成数据加载情况 的报告并建立索引和分割。 ( 5 ) 数据集市( d a t am a r t ) 数据集市是面向特定应用主题的数据集合,是根据所面向的应用主题,在数 据仓库的基础上经过再次加工处理后的数据。数据集市的应用主题可以是:面向 区域的应用主题,面向专业管理的应用主题,面向特定操作( 如o l a p 多维查询) 的应用主题等。数据集市可以是物理的,也可以是逻辑的。设立数据集市的目的 是使数据更贴近所面向的应用主题,同时加速系统对访问的响应能力。 一般而言,数据仓库是数据集市的基础,但是在实际应用中也有特殊的情况, 有时候数据集市直接由数据源中的数据抽取而成,这种数据集市称为独立型数据 集市,而建立在数据仓库基础上的数据集市称为依赖型数据集市。 数据集市有以下四个优点: 数据集市的建设周期短( 只需几个月) ,投资小,见效快。 部门用户完全拥有自己的数据集市,可以根据需要定制其中的数据。 部门用户可以自由地选择适合自己的数据集市的决策分析工具。 数据集市的使用可以解决各部门对数据仓库资源的竞争,提高处理速度。 1 4 北京交通人学硕十学位论文数据仓库基本原理 2 2 数据仓库的构建 数据仓库的构建是一个庞大而复杂的系统工程,要成功构建一个数据仓库, 除了需要人力、财力的投入外,还需要使用规范的过程指导。数据仓库模型设计 是数据仓库构造的第一步,一个灵活、正确、完备的数据模型是整个系统建设过 程的导航图,是用户业务需求的具体体现,也是数据仓库项目成功与否最重要的 技术因素。 2 2 1 数据仓库设计开发概述 数据仓库的开发过程像生物一样具有其特有的、完整的生命周期。按照生命 周期法可以将数据仓库开发应用的全过程分为三个阶段:规划分析、设计实施和 使用维护,如图2 4 所示。 、 开发逻辑、 刀模型卜弋 规划与确 定需求 数据仓库 评价 开发概念 模型 数据仓库 维护 规划分析 阶段 使用维护 阶段 数据仓库 应用 数据仓库 开发过程 填充与测 试数据仓 库 设计体系 结构 数据库与 元数据设 计 设藩蠢旌甄b阶段数据抽玻 l 转换与加 露 开发中闯 件 图2 _ 4 数据仓库生命周期开发过程 f i g u r e2 - 4d e v e l o p m e n tp r o c e s so f d a t aw a r e h o u s eb a s e do nl i f e c y c l e 数据仓库的开发一般采用螺旋式开发方法,即以开发周期为单位,针对某一 主题完成三个阶段的数据仓库丌发工作,积累一定的数据仓库开发应用经验,再 转向其他主题的数据仓库的开发应用;同时,在进行数据仓库开发的同步过程中, 也需要对元数据仓库的开发应用经验不断积累,指导元数据仓库不断改进。 数据仓库规划分析阶段的工作主要包括:调查、分析数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咨询简历优化方案
- 甘肃物业电梯灯施工方案
- 西安加固方案咨询报价
- 低碳建筑方案设计思路
- 组织文化活动策划方案
- 结核活动策划有哪些方案
- 社区运营营销方案范文
- 成品隔离墩施工方案
- 建筑红绿配色方案设计思路
- 地砖铺贴露台施工方案
- 医疗纠纷预防和处理条例培训课件
- 2025贵州省专业技术人员继续教育公需科目考试题库(2025公需课课程)
- 宝钢集团生产安全事故案例汇编
- DB37T 5151-2019 园林绿化工程资料管理规程
- Q∕GDW 11612.43-2018 低压电力线高速载波通信互联互通技术规范 第4-3部分:应用层通信协议
- 贝多芬F大调浪漫曲—小提琴谱(带钢伴谱)
- 压力传感器(课堂PPT)
- 热力厂锅炉车间2#锅炉大修施工方案
- (施工方案)场地三通一平施工方案
- 深圳市政府投资市政工程施工质量检查用表
- 工业经济能力提升培训班学习心得
评论
0/150
提交评论