(计算机应用技术专业论文)适用轨道交通afc系统数据仓库技术的研究及应用.pdf_第1页
(计算机应用技术专业论文)适用轨道交通afc系统数据仓库技术的研究及应用.pdf_第2页
(计算机应用技术专业论文)适用轨道交通afc系统数据仓库技术的研究及应用.pdf_第3页
(计算机应用技术专业论文)适用轨道交通afc系统数据仓库技术的研究及应用.pdf_第4页
(计算机应用技术专业论文)适用轨道交通afc系统数据仓库技术的研究及应用.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)适用轨道交通afc系统数据仓库技术的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

适用轨道交通a f c 系统数据仓库技术的研究及应用 摘要 数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,旨在支 持管理者决策。数据仓库技术在国外已经取得广泛的应用,而在我国的应用属起 步阶段。轨道交通a f c ( 自动售检票) 系统随着我国城市轨道交通事业的发展, 得到了相当大的发展,并且己经建立了较完善的联机事务处理系统。多年的应用 也使得轨道交通运营公司积累了大量的数据,其中隐含着大量有价值的信息。如 何利用这些数据,深层次地挖掘信息,为运营决策服务,己成为轨道交通运营公 司的当务之急。 作者通过查阅资料了解了国内轨道交通行业在数据仓库技术和数据挖掘分 析应用方面的现状,发现该行业信息化基础建设己经做得比较好,a f c 系统也 正在广泛应用,其数据库中存储了大量的数据。但由于各种原因,在数据仓库技 术应用和数据分析方面一直处在观望状态,没有真正开展起来。 本文分析了这种现状,针对应用上的问题,较为详细介绍了数据仓库方面的 知识,如数据仓库的定义、结构,e t l ( 抽取、转换和装载) 的定义、工具和应 用过程,以北京和南京轨道交通a f c 系统为基础,研究分析在该业务系统上建 立数据仓库的一些过程和技术。 本文介绍了数据仓库技术的发展现状和基本原理以及构建数据仓库的相关 技术。根据a f c 的特殊情况解决了建立数据仓库系统的基本问题,设计建立了 符合d s s ( d e c i s i o ns u p p o r ts y s t e m ) 分析需求的数据仓库模型,重点提出并完成了 两种针对a f c 系统的e t l 程序,实现了在数据仓库多维模型上的在线分析和数 据分析报表展现,为数据仓库在轨道交通运营公司的应用提供了基本理论依据和 解决方案。 最后对系统进行了测试,系统运行平稳,性能良好,表明设计的e t l 工具可 较好的完成数据仓库的e t l 需求,且具有易于使用,灵活性强的特点。 关键词:数据仓库,抽取转换装载,联机分析处理,自动售检票 i i i r e s e a r c ha n da p p l i c a t i o no fd a t aw a r e h o u s et e c h n o l o g y s u i t a b l ef o rt h ea f cs y s t e mo fc i t yr a i lt r a n s i t a b s i r a c t d a t aw a 】幽u s ei sad a t as e tw h i c hi ss u b j e c t - o r i e n t e d ,i n t e g r a t e d ,s t e a d ya n d t i m e - v a r i a n t i ti ss u i t a b l e f o rm a n a g e rt os u p p o r td e c i s i o n s d a t aw a r e h o u s e t e c h n o l o g yh a sb e e na b r o a dm a d eaw i d er a n g eo fa p p l i c a t i o n s ,a n di t sa p p l i c a t i o n i n c h i n a u s tb e l o n g st os t a r t a u t o m a t i cf a r ec o l l e c t i o n ( a f c ) s y s t e mo fr a i lt r a n s i t h a sb e e i lc o n s i d e r a b l yd e v e l o p e d tw i t hc i t y sr a i lt r a n s i td e v e l o p m e n ti nc h i n a , a n d m eo nl i n et r a n s a c t i o np r o c e s s i n gs y s t e mm o r ec o m p l e t e dh a sb e e nb u i l d e d l a r g e 锄o u n t so fd a t ah a v eb e e na c c u m u l a t e do fa f co p e r a t i o nc o m p a n yo fr a i lt r a n s i t a f t e ra p p l i c a t i o ni nm a n yy e a r s ,w h i c hi m p l i e dal a r g en u m b e ro f v a l u a b l ei n f o r m a t i o n h o wt ou s et h e s ed a t at om i n ei n f o r m a t i o n si nd e p t hf o rs e r v i c i n gt h eo p e r a t i o n d e c i s i o n si sb e c o m i n gt h ei m p o r t a n tt h i n g sa tp r e s e n to f t h eo p e r a t i o nc o m p a n yo fr m l t r a n s i t t h r o u g hr e f e r i n gt ot h em a t e r i a l st ou n d e r s t a n d t h ea p p l i c a t i o ns t a t u sa tp r e s e n t o ft h ed a t aw a r e h o u s et e c h n o l o g ya n dd a t am i n i n ga n a l y s i so f r a i lt r a n s i ti n d u s t r yi n c 1 1 i n a ,丘r l d i n gt h ei n f r a s t r u c t u r eo f t h ei n f o r m a t i o ns y s t e mh a sb e e nd o i n gw e l lo f t h e i n d u s t r y ,a f cs y s t e mi sa l s ow i d e l yu s e d ,a n di t sd a t a b a s eh a ss t o r e dal a r g en u m b e r o fd a t a b u tf o rav a r i e t yo fr e a s o n s ,t h es t a t u si ss t i l li na w a i t 。a n d 。s e ei nt h ea s p e c t s o ft e c h n o l o g ya p p l i c a t i o n so fd a t aw a r e h o u s ea n dd a t aa n a l y s i s ,a n dw i t h o u tr e a l l y c a r r y i n go u t t h i sp a p e ra n a l y s e st h es t a t u s a n dm a k e sad e t a i l e di n t r o d u c t i o no ft h e k n o w l e d g e so nd a t aw a r e h o u s e ,s u c ha st h ed e f i n i t i o no f t h ed a t aw a r e h o u s e ,s t r u c t u r e , e t l ( e x t r a c t ,t r a n s f o r m ,l o a d i n g ) ,e t lt o o l sa n da p p l i c a t i o np r o c e s s 。i nt e r m so f t h e b a s i so ft h ea f cs y s t e m si nb e i j i n ga n dn a n j i n gr a i lt r a n s i t ,t h ea u t h o rh a d r e s e a r c h e d o fa n da n a l y s e ds o m ep r o c e s sa n dr e l a t i v et e c h n i q u e st ob u i l d i n ga d a t aw a r e h o u s eo n t h eb u s i n e s ss y s t e m s t h ep a p e ri n t r o d u c e st h et e c h n i q u ed e v e l o p m e n ts t a t u s a tp r e s e n ta n db a s i c p r i n c i p l e so fd a t aw a r e h o u s e a sw e l la st h er e l a t i v et h c h n i q u e st oc o n s t r u c tad a t a w a r e h o u s e i nt e r m so ft h es p e c i a lc i r c u m s t a n c e so fa f c ,t h ea u t h o rr e s o l v e st h e b a s i cp r o b l e m so fc o n s t r u c t i n gd a t aw a r e h o u s e ,d e s i g n s a n de s t a b l i s h e sad a t a w a r e h o u s em o d e lt h a ti ss u i t a b l ef o rt h ea n a l y s i sd e m a n d so fd e c i s i o ns u p p o r t i v s y s t e m ( d s s ) ,p r o p o s e sa n dc o m p l e t e si nh i g h l i g h tt w os e t so f e t l p r o g r a ma i m e d a t t h ea f c s y s t e m s ,i m p l e m e n t st h eo n - l i n ea n a l y s i sa n d d a t aa n a l y s i sr e p o r td i s p l a y so n m u l t i d i l n e 【1 s i o n a ld a t aw a r e h o u s em o d e l ,p r o v i d sb a s i ct h e o r y sa n ds o l u t i o n so nt h e a p p l i c a t i o no f d a t aw a r e h o u s ef o ro p e r a t i o nc o m p a n yo fr a i lt r a n s i t f i n a l l y , t h es y s t e mh a sb e e nt e s t e d t h es y s t e mr u n ss m o o t h l y ,a n dh a sg o o d p e r f o r m a n c e i tp r o v e st h a tt h ee t l t o o l sd e s i g n e dc a nc o m p l e t ee t lr e q u i r e m e n t so f t h ed a t aw a r e h o u s ev e r yw e l l ,a n dh a sf e a t u r e so fe a s y - t o u s ea n dg o o df l e x i b i l i t y k e y w o r d s :d a t aw a r e h o u s e ,e t l e x t r a c t t r a n s f o r m l o a d ,o l a p o nl i n ea n a l y s i s p r o c e s s i n g ,a f c - - a u t o m a t i cf a r ec o l l e c t i o n v 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:仫密专一 日期: 够月1 日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本版权书。 不保密口。 学位论文作者签名:伤影名一 f tg l ;jp g 年与月日 指导教师签名: 珈鲁诌 日期:嘶乡月妇 第一章绪论 1 1 引言 随着我国城市公共交通的高速发展,轨道交通作为城市公共交通中的重要组 成部分,其环保、低能耗和快捷、准时的运输特点,在城市繁忙的公共交通运输 中越来越受到青睐。但目前,轨道交通自动售检票( a u t o m a t i cf a r ec o l l e c t i o n , a f c ) 系统在计算机应用技术方面还停留在自动售检票票务处理、设备监控、分 类统计汇总报表和运营信息管理的业务层面,对轨道交通a f c 系统周期循环存 储沉淀的海量票务交易数据、设备状态记录和维护日志等缺乏进一步的挖掘、发 现、分析和利用【l 】。 把数理统计和数据仓库技术应用于轨道交通a f c 运营管理数据分析是目前 国外相关i t 集成公司高度关注的技术热点,也是我国轨道交通a f c 行业关注的 研究和实践的主要方向之一。 针对轨道交通a f c 运营管理特点和线路中央处理主机的处理性能及其联机 存储限制,必须设计和开发资源占有优化、操作界面友好、统计分析模型适用的 辅助决策应用软件,为轨道交通a f c 运营管理提供一个可靠、安全及易用的数 据分析和图、表生成工具。 本文结合轨道交通a f c 运营管理数据分析系统( 简称“a f c 数据分析系统 ) 的实际需求及其总体研制目标,研究数据仓库及其相关技术在a f c 数据分析系 统中的应用。在设计和实现a f c 数据分析系统的实际过程中,从技术和应用角 度探索数据仓库相关技术在轨道交通a f c 运营管理数据分析中的实际应用效 果。 本文的研究成果已在a f c 数据分析系统中得到实际应用,对提高a f c 运营 管理、辅助决策支持和生成适应管理的报表等具有显著的实用意义,特别针对票 务数据和设备状态数据,可以挖掘和发现客流、车票的周期性规律和设备生命周 期中的质量特征等,据此可以进一步提高运营管理水平和降低运营维护成本。 在我国,对生产运营系统数据进行业务分析( b u s i n e s sa n a l y s i s ,b a ) 是当 前和今后一段时期研究和发展的方向。目前这方面的研究工作,特别把数理统计 理论和方法结合于现代轨道交通a f c 运营管理的票务数据( 含设备运行状态和 维护日志数据) 分析需求,设计开发符合中国国情和轨道交通a f c 行业特点的 数据分析系统,在国内尚属刚起步阶段,因此本项目的研制具有明显的先进性和 自主知识创新的特点,符合我国当前城市轨道交通建设持续发展的规划和要求。 轨道交通a f c 运营管理数据分析系统于2 0 0 7 年7 月1 2 日通过上海市 科学术委员会组织的科研项目验收;2 0 0 7 年8 月7 日获上海市科学技术委员会 科学技术成果证书( 登记号:9 3 1 2 0 0 7 y 1 1 6 8 ) ;2 0 0 7 年8 月3 0 日获国家版权 局计算机软件著作权登记证书( 登记号:2 0 0 7 s r l 3 2 1 4 ) 。 作者在导师指导下参与了该项目研发的相关过程,包括需求分析、系统设 计、数据抽取整理、技术文档整理、系统测试和项目验收等工作。 在该项目中,作者主要的创新性研制工作如下: 1 ) 参与三层构架模式中相关部分的设计与实现,包括操作界面、x m l 格式 文件定义、通信传输、数据抽取清洗转换和装载等相关技术的研究、设计与实 现; 2 ) 设计和实现适用于轨道交通a f c 系统数据分析和d s s ( d e c i s i o ns u p p o r t s y s t e m ) 决策支持应用的数据仓库,包括事实表、维度表设计实现,建立数据仓 库物理模型和用于o l a p ( o nl i n ea n a l y s i sp r o c e s s i n g , o l a p ) 的分析模型; 3 ) 设计并实现针对a f c 数据源的两套高性能e t l 程序,分别是基于 l i n u x o r a c l e 环境和w i n d o w s 2 0 0 3 s q ls e r v e r2 0 0 5 ; 4 ) 设计实现系统的自动调度管理,并对整个系统进行了相关性能测试。 1 2 数据仓库技术及其应用 9 0 年代初期,美国著名信息工程学家w h i n m o n 博士在建立数据仓库 一书中提出了“数据仓库”的概念:“数据仓库( d a t a w a r e h o u s e ,d w ) 是一个面向 主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持经营管理中的 决策制定过程。【2 】 与关系数据库不同,数据仓库并没有严格的数学理论基础, 它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作 过程分为【3 】: 1 ) 数据的抽取、转换、装载和刷新,即e t l ( e x t r a c t ,t r a n s f o r ma n dl o a d i n g ) ; 2 ) 数据的存储和管理; 3 ) 数据的表现。 在目前技术发展上,e t l 所涉及的单个技术环节都己相对成熟,其中有一些 需要设计和编程实现,但整体的集成度还很不够。目前市场上所提供的大多是数 据抽取工具,这些工具通过用户选定源数据和目标数据的对应关系,会自动生成 数据抽取的执行代码,但数据抽取工具支持的数据种类有限。同时,数据抽取过 程涉及数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌 入用户编程的抽取工具往往不能满足实际应用要求,因此实际的数据仓库实施过 程中往往不一定使用抽取工具。 经过一段时间的发展,数据仓库技术已经在证券企业、银行企业、保险企业 和零售业等行业有了很成功的实施。 1 3 数据分析技术在a f c 系统的应用现状 轨道交通a f c 系统目前已经很成熟地被使用,如我国上海的轨道交通a f c 2 系统自1 9 9 9 年3 月1 日开通轨道交通1 号线以来,至今已有5 条线、1 2 3 公里 和8 3 个车站的应用规模,全路网已实现r f i d ( r a d i of r e q u e n c yi d e n t i f i e r ) 单程 票“一票换乘”。城市轨道交通a f c 系统的使用必然会产生和沉淀大量的运营数 据。虽然各个公司设计、开发的轨道交通a f c 系统都各具特色,但都有一个共 同的不足,即不具有强大的数据挖掘和数据分析功能。这是由于轨道交通a f c 系统本身是一个集控制和票务信息管理于一体的综合信息管理平台,主要用于控 制和管理轨道交通自动售检票系统的正常运营和票务交易的管理及业务报表,不 是一个用于数据挖掘和分析的应用软件。实际上,在自动售检票过程中产生的数 据具有很大的潜在使用价值,但是目前国内外专门针对a f c 运营数据的统计分 析软件还是一个空白。相信在a f c 系统使用一个阶段后,轨道交通运营管理部 门对这方面的要求将会越来越迫切。 1 4 主要研究内容 本文主要研究、设计和实现适用于轨道交通a f c 运营管理数据分析系统的 数据仓库,并用于决策分析支持,包括跨平台、跨异构数据源数据优化抽取,高 效高性能数据清洗,数据建模,数据聚合处理和数据装载,以及分析结果图表展 现等。 本文以城市轨道交通自动售检票运营管理中央计算机系统( c e n t e rc o m p u t e r s y s t e m ,c c s ) 为宿主数据库系统( 运行环境为0 r a c l e u n i x ) ,研究基于 o r a c l e l i n u xp c 服务器环境设计和实现对o r a c l e u n i x 宿主数据库系统执行数 据的优化抽取技术,以及研究和实现在w i n d o w s 2 0 0 3 s q ls e r v e r2 0 0 5 数据库系 统的数据仓库技术,主要研究e t l 过程,抽取的数据经清洗、转换后将被在线用 于o l a p 或定时加载到数据仓库以供专用统计分析模块进一步挖掘和分析。 1 5 本文组织结构 本文组织结构如下: 1 ) 第一章绪论介绍数据仓库技术的研究现状,并结合轨道交通a f c 运营 管理数据分析系统项目需求,阐述了该项目目前在该业务领域中的研究现状及 其研究意义。 2 ) 第二章详细阐述数据仓库的构架模式及其模式中各组成元素的技术内容。 3 ) 第三章介绍本文建立数据仓库用到的相关技术,包括数学算法及其使用 意义,数据仓库和决策支持系统的关系,以及多维查询语言m d x ( m u l t i - d i m e n s i o n a le x p r e s s i o n ) 。 4 ) 第四章详细阐述建立数据仓库的相关技术细节,重点介绍在两种不同平 台下的e t l 技术研究及实现过程。本章建立的数据仓库跟轨道交通a f c 系统紧 密结合。 5 ) 第五章重点介绍整个系统的管理机制以及系统的安全机制。 6 ) 第六章主要介绍数据仓库系统的测试技术和测试结果,以及本文所研究 系统的难点和创新点。 7 ) 第七章对全文进行总结,并给出系统进一步的展望。 4 第二章三层构架模式设计 2 1 三层构架模式 网络三层构架模式是不同于当前主流统计分析软件构架模式( 单机或客户端 n 务器模式) 的一种新的软件构架模式,她符合分层、可集成系统的设计模型, 是当前软件构架中研究、设计和部署应用的主要构架模式之- - 4 1 。三层构架模式 在结构层面上依次分为:数据层,计算层和表示层。通过各技术层面的设计与实 现,可以根据网络计算资源的实际情况把集中处理的统计分析作业轻松耦合地部 署在不同的计算资源上,并可以方便地实现跨平台数据抽取。在特殊情况下,也 可以根据实际情况把所有的应用模块部署在同一台计算资源上。使统计分析软件 的应用模块部署具有灵活的拓扑结构,这是本文研究的核心内容之一。三层构架 模式在应用效果和可扩展方面具有明显的技术优势,与传统的集中式处理的统计 软件相比,具有更好的处理性能、可集成性和可修改性。基于三层构架模式技术 设计和实现的a f c 数据分析系统能体现当前数学统计分析理论与计算机信息技 术的高度结合,其研究与应用具有前瞻性,符合实际生产环境应用部署的需要。 在轨道交通自动售检票中央计算机系统中,由于主机系统需高可靠性地7 2 4 小 时连续运行,根据设计要求,主机系统满负荷工作时各项资源需留有3 0 的空 闲,以应付系统对突发性事件的处理。为了对主机系统联机存储的票务数据和设 备状态进行在线联机分析处理( o l a p ) ,必须单独考虑o l a p 应用模块的异机 部署以尽量减少占用生产现场主机系统的资源,确保生产现场主机系统的可用性 达到9 9 9 9 的设计目标。本文基于三层构架模式设计和实现的数据仓库在部署 方面可以方便地接入生产现场实际拥有的网络计算资源并根据实际需要可以部 署自己独立的计算服务器,不会造成生产现场已有计算资源的竞争。 本文作者参与研究、设计和实现的三层构架模式适合o l a p 分析和数据决策 支持系统的实现和应用部署,各层之间相对独立,层间通信通过s o c k e t 技术编 程实现,接口协议采用x m l 格式文件定义,具有很好的可修改性。图2 1 为适合 a f c 数据分析和数据决策支持( d s s ) 系统应用的三层构架模式的结构视图。 表示层 计算层 数据层 图2 - 1 适用a f c 数据分析和d s s 系统应用的三层构架模式视图 其中: 1 ) 表示层( 用户c l i e n t ) 与计算层( o l a p 服务) 采用x m l 格式接口协议, 通过s o c k e t 编程实现数据交换; 2 ) 计算层基于l i n u x 操作系统,采用l i n u xc c + + 和o r a c l e1 0 9p r o * c 设计 开发,计算层与数据层( 数据库或和结构化数据) 采用e t l 技术性能优化地抽 取数据,经有目的地清洗、转换后装载到本项目设计的数据仓库d w ,以供进一 步挖掘分析; 3 ) 数据层为宿主数据库系统、结构化数据文件,甚至也可以是本项目创建 的d w ,主要为a f c 数据分析和d s s 提供欲分析的数据来源。 进一步的设计说明如下。 2 1 1 表示层 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种 基于数据仓库或数据集市的应用开发工具【4 1 。其中数据分析工具主要针对o l a p 服务层,报表工具、数据挖掘工具主要针对数据仓库。 2 1 2 计算层 在本文描述的设计方案中,计算层提供的主要应用功能为o l a p 服务,并建 有两个数据库,s m d b ( s y s t e mm a n a g e m e n td b ) 和d w ,s m d b 用于本系统运行 管理、数据库元数据相关信息管理、x m l 请求解析存储、存储抽取的相关统计 样本和统计结果,记录反馈的x m l 文件名等,是本系统的系统管理“引擎”; d w 是本系统针对专用d s s 设计和建立的数据仓库,主要用于沉淀生产现场宿 主数据库系统中面向主题的分类聚合数据,并可通过时间参数确定d w 中存储 数据的最长年限。 6 通过创建的d w 和e t l 技术对面向分析目的的数据进行有效集成,并按多 维模型予以组织,以便进行多角度、多层次的挖掘与分析。用于具体实现的o l a p 一般分为:关系联机分析处理r o l a p ( r e l a t i o n a lo l a p ) 、多维联机分析处理 m o l 廿( m u l t i d i m e n s i o n a lo l a p ) 和混合联机分析处理h o l a p ( h y b r i do l a p ) 。 r o l a p 基本数据和聚合数据均存放在r d b m s 中;m o l a p 基本数据和聚合数 据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中。聚合数据及 其缓存管理策略研究存放于多维数据库中【3 1 。 2 1 3 数据层 数据层可以由生产现场宿主数据库系统和数据仓库的数据组成。数据仓库主 要存储面向主题经e t l 处理后的分类聚合数据系统的基础,其数据来源通常包 括企业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务数据和 各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 面向主题的数据存储与管理是整个数据仓库系统的核心【1 1 。数据仓库的组织管理 方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决 定采用什么技术来建立数据仓库的核心,需要从数据仓库的技术特点着手分析。 针对现有各种业务系统的数据,进行抽取、清理并按主题进行组织集成。数据仓 库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数 据集市) 。 2 1 4o l a p 的参考模型视图 图2 2 展现了基于三层构架模式o l a p 的参考模型视图,描绘了各个层次之 间的依赖关系和数据流向。 曰 曰 日 数据源 ,、 , 同 f 翁 合 , 国 卜 、 矿 e t l: 数据仓库 箩 9 y l 一 、一 0o 同e & 画, k :jk : i 【一 旷 数据集市 冷析工: o l a p 服务器v 图2 - 2 基于三层构架模式实现o l a p 的参考模型视图 其中:数据源为a f c 在线业务数据,该数据经过e t l 加载到数据仓库中, 7 此时可以直接在上面建立分析模型,该部分为数据层;在进行o l a p 聚合处理, 也可以根据需求在数据仓库中选取某个主题建立数据集市,然后建立具有针对某 个主题( 如客流主题) 的分析模型,再进行聚合处理,该部分为计算层;最后通 过分析工具和报表工具进行结果的展现,该部分为表示层。 2 1 5d s s 应用部署 a f c 数据分析系统中用于分析的核心部分是d s s ,一般是建模后的专用统 计分析模块,用户不直接访问数据,而是输入各种维度参数通过友好界面提交给 d s s 系统,d s s 自动根据提交的分析请求,抽取和整合适合该分析请求的数据 对象,经对应统计模型计算后以x m l 格式文件反馈分析结果。 在a f c 系统的运行环境中,d s s 一般部署在线路中央计算机局域网环境中, 如图2 3 所示。在中央计算机主机系统( c e n t r a lc o m p u t e rl e v e l ) 汇集各种a f c 运营数据基础上,通过数据抽取、清洗,数据仓库和数据挖掘技术对这些汇集的 数据进行存储和处理,通过相关统计算法为a f c 系统的运营、客流量、票务收 入、设备管理、车票物流管理等相关信息提供决策依据,基此,实现a f c 运营 管理资源的合理配置,如车辆编排、人员岗位设置、客流预测、车票销售预测、 车票分配、设备配置,以及对设备的预防性维修计划和备品、备件准备等。 图2 3d s s 在a f c 系统中的物理部署 其中: 1 ) 在车站局域网( s t a t i o nl a n ) 连接车站计算机( s t a t i o nc o m p u t e r ) 、库存 计算机( d e p o t c o m p u t e r ) 和其它网络集线器( o t h e rc o n c e n t r a t o r s ) ,通过网络集 线器连接a f c 终端设备,如自动售票机、半自动售票机、进出站检票机等; 2 ) 车站局域网与中央计算机局域网( c e n t r a lc o m p u t e rl a n ) 通过广域网连 接。 3 ) 中央计算机上的数据库保存了a f c 的日常业务数据,本文研究的系统只 和a f c 系统的中央数据库有连接( 数据抽取) ,故其和中央计算机部署在同一个 层次,即线路中央局域网。 2 2 数据仓库的关键技术 创建和维护数据仓库系统涉及到3 个关键环节,即:源数据的抽取和转换, 转换后的数据存储在目标数据库以及支持用户对目标数据库的透明访问。与此相 对应,在数据仓库的设计过程中必须注意实现这3 个关键环节的技术路线与方 法,即:选择数据仓库的目标数据库,数据抽取和转换,以及支持表示层的透明 访问和o l a p 服务层的相关分析。 2 2 1 数据仓库的目标数据库 作为数据仓库的目标数据库,既可以选用传统的关系型数据库管理系统,也 可以选用专用的多维数据库管理系统。对于许多企业来说,并不要求一定选用专 用的多维o l a p 数据库支持数据仓库的功能。在许多情况下,可以使用传统的关 系型数据库管理系统和企业熟悉的通用数据访问工具来建立数据仓库的目标数 据库。目前在市场上可以获得的各个主要的关系数据库管理系统都提供单向的数 据复制功能,并能迅速响应大量用户的联机并发查询访问。它们通过使用标准的 s q l 接口,与标准的数据库查询工具和客户机服务器工具实现透明的接口,而 且多家主要厂商的关系型数据库管理系统的最新产品还能提供复杂查询和分析 功能,能作为兼顾操作型数据处理环境和数据仓库应用的数据库引擎。 在某些规模非常大的决策支持应用场合下,专用的多维数据库具有一定的优 势。例如,如果要分析一个大型的多维数据库,以发现市场营销趋势。在这种应 用环境下,专用多维数据库由于对多维o l a p 的特殊支持,以及在数据库内部紧 密集成了诸如数据复制等支持数据仓库的特殊功能,因而具有一定的优势。一般 认为,传统的关系型数据库管理系统在设计时优化的重点主要考虑的是联机事务 处理( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 应用的高性能支持,因而在决策支持 应用环境中往往差强人意,而在专用的多维数据库管理系统中,往往针对为联机 查询需求提供快速响应,特别设计了跨平台的查询引擎,采用了数据分片、存储 过程、循环查询支持和针对高性能数据仓库操作扩展s q l 等技术,因此能在决 策支持环境下获得较高的性能。现在,市场上已经出现了支持多维体系结构的 o l 廿专用数据仓库工具【6 j 。 选择数据仓库的目标数据库是数据仓库工程的关键决策之一,它将影响数据 仓库体系结构的诸多方面。因此,需要认真慎重考虑。传统的关系型数据库管理 系统和专用的多维数据库管理系统各有利弊。美国著名的数据仓库工程专家 p i e t e rr m i m n o 先生认为,除非业务环境的确要求采用专用的数据库才能解决业 务需求,或者需要采用专用的数据库管理系统才能达到业务所需要的性能指标, 否则,从节省成本和降低复杂性的角度出发,一般情况下,应优先考虑采用传统 的关系型数据库管理系统【7 1 。 9 2 2 2 数据抽取和转换 选定数据仓库的目标数据库后,如何选用和设计合适的数据抽取和转换工具 从数据源中抽取所需要的数据,根据业务需求对数据进行转换,包括检验、整理、 加工和重新组织的功能步骤后,存放到目标数据库中,是数据仓库体系结构设计 时要考虑的又一个关键问题。 传统的关系型数据库管理系统支持多种数据复制模型,可以提供整个企业范 围内复杂的数据库复制功能,从而满足正常情况下数据仓库对数据抽取功能的要 求【8 】。这种系统支持一般的数据抽取、数据复制和一定程度上的数据重新组织、 聚簇和汇总,但是如果数据源之间的数据存在逻辑上的不一致,需要额外的重新 组织和转换加工,那么其功能显得不足。例如,传统的关系型数据库管理系统不 能自动完成从主机的o l t p 系统中抽取源数据、解决数据间的不一致造成的冲突 以及对数据进行重新组织后转换到目标数据库中的全部过程。因此,只有当源数 据完全正确可靠、组织合理且没有任何不一致时,才能直接采用传统的关系型数 据库管理系统中的数据复制功能完成数据抽取工作。然而在工程实践中,源数据 组织不合理,包含冗余数据,数据在逻辑上冲突和数据定义和格式冲突等问题十 分常见,因此,有必要考虑采用特别的数据抽取和转换工具。 一般说来,数据抽取和转换工具主要提供两方面的功能。首先,这些工具都 提供流行的基于视窗的图形用户接口,使得用户( 数据仓库管理员) 能方便地描 述数据抽取和转换的需求。数据转换包括对数据进行匹配、归并、排序、创建新 的数据域、选择数据子集、聚簇数据、转换操作型数据、在一个或多个数据库之 间解决数据的语法、定义或格式的冲突等操作。其次,这些工具能自动创建运行 在数据源宿主平台上的程序,自动进行数据抽取、检验和重新组织等功能。用户 可以为抽取程序加上转换逻辑。这些工具根据用户的输入建立有关元数据,其中 描述了源数据和目标数据的格式,以及如何把源数据转换成目标数据。 综上所述,传统的关系型数据库管理系统也许不能全面满足对数据抽取和转 换的功能需要,数据仓库体系结构设计人员可以根据具体的需要选择并设计合适 的数据抽取和转换程序,与数据库管理系统相结合,全面实施数据抽取和转换。 2 2 3 前端数据访问和分析工具 从数据源中抽取出相应的数据,经过检验、整理、加工和重新组织后存放到 数据仓库的数据库中,下一步就是要考虑如何使用户( 业务决策人员、各级管理 人员和业务分析人员) 能够方便灵活地使用数据仓库中存储的数据,达到数据仓 库工程的预定目标。在数据仓库中,这是通过为用户提供一套前端数据访问和分 析工具来实现的。目前市场上能获得的数据访问和分析工具种类繁多,主要有关 系型查询工具、关系型数据的多维视图工具、d s s e i s 软件包和客户机n 务器 l o 工具等4 大判9 】: 1 ) 关系型查询工具 通用的关系型查询工具提供高度友好的用户接口,可以访问关系型数据。借 助这样的工具,一般用户无需技术人员的协助,即可表述查询要求。查询结果能 根据用户的需要,形成报表和示意图,这样的工具都支持标准的用户接口,并同 时访问多个数据库服务器和数据库管理系统。 2 ) 关系型数据的多维视图工具 这类工具是为采用传统的关系型数据库管理系统作为数据仓库目标数据库 的用户而设计的。通过使用这样的工具,虽然数据仓库的数据库是关系型的,但 用户可以以多维的方式分析关系型数据。其最大的优点是不必采用专用的多维目 标数据库管理系统即可达到多维分析的目的。这类工具具有多种具体的实现手 段,一些工具并不在客户机一端形成局部数据库,而只是维护多维视图,另一些 工具则从数据仓库中抽取所需的关系型数据子集,在客户机上通过一种称之为数 据立方的多维结构方式加以局部存储,还有一些工具则更为先进,为了在关系型 数据库上进行多维分析,实现了一个3 层的软硬件结构。 3 ) d s s e i s 软件包 d s s e i s ( e x e c u t i v ei n f o r m a t i o ns y s t e m ) 软件包是更为复杂的工具,用于复杂的多 为数据分析,用其可直接提供面向业务的信息分析 引,如财务报表分析和合并财 务报表分析、业务品种利润分析、企业负债分析和管理报表等。 4 ) 客户机服务器工具 对于那些特定的不能直接采用现有工具和d s s e i s 软件包的业务需求,可以 考虑使用通用的客户机服务器工具开发前端的应用。通过使用这种工具,可以 开发特定的功能,满足用户对图形界面、数据操作及数据分析报表等多方面的特 殊需求。这些工具都能提供对数据的透明访问,简化对数据库的访问操作,支持 多媒体应用,能够迅速构建前端决策支持应用系统,开发成本较低。使用这些工 具开发的应用可以通过o l e 接口与第三方产品实现透明连接,因此在开发前端 工具的过程中,可以根据需要把很多现成产品连接到其中,如字处理系统和统计 软件包等,这对于提供开发效率和系统质量是颇有裨益的。由于通用客户机服 务器工具应用广泛,用户众多,因此在开发客户化的数据访问和分析工具时,应 积极考虑使用这样的工具。 面对众多的前端数据访问和分析工具,应该根据功能需求选择,要着眼于工 具是否易于使用及功能是否可靠。一般来说,简单的关系型查询工具是和业务分 析人员来透明的访问数据,而关系型数据的多维视图则能够提供多维分析的能 力,业务专家可以使用d s s e i s 工具分析大量的历史数据,发现业务发展规律, 预测未来发展趋势,当要实现特殊的功能时,可以考虑使用通用的客户机朋艮务 器工具 9 1 。 2 3 ,j 、结 本章主要介绍三层构架的定义以及每个层的具体含义和内容,包括表示层、 计算层、数据层;同时介绍了建立数据仓库所需要解决的关键技术。 本文的主要后面关于系统的整体设计思想主要基于该架构模型,本章内容的 研究为后续系统的设计和实现工作奠定了基础。 1 2 第三章相关技术介绍 3 1 算法介绍 3 1 1 时间序列算法 时间序列法是一种定量预测方法,亦称简单外延法。在统计学中作为一种常 用的预测手段被广泛应用。具体的讲,时间序列分析是根据系统观测得到的时间 序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用 曲线拟合和参数估计方法( 如非线性最j 、- - 乘法) 进行【l l 】。 时间序列法可以分为三类: 1 ) 时间序列法的方法之一是把一个时间序列的数值变动,分解为几个组成 部分,通常分为:( 1 ) 倾向变动,亦称长期趋势变动t ;( 2 ) 循环变动,亦称周 期变动c ;( 3 ) 季节变动,即每年有规律地反复进行变动s ;( 4 ) 不规则变动, 亦称随即变动i 等。然后再把这四个组成部分综合在一起,得出预测结果。 对这种预测方法的构成,包括把时间序列分解为上述四个组成部分等均持有 一些不同的观点,例如经济计量学家廷特纳认为时间序列包含平滑部分和随即部 分,目前对上面四个部分一般采用相乘来得到相互作用均值,即y = t x s x c x i , 这种方法在实践分析中效果较好,并且适合于短期预测和库存预测。 2 ) 时间序列法的另一种方法是把预测对象、预测目标和对预测的影响因素 都看成为具有时序的时间函数,而时间序列法就是研究预测对象自身变化过程及 发展趋势。如果未来的趋势是线性的,其数学模型为: m 三= 以t + b t l 其中y t + l 为未来预测值,a t 为截距,b t 为斜率,三为由丁到需要预测的单 位时间数( 如5 年、1 0 年等) 。 3 ) 时间序列的第三种方法是根据预测对象与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论