(计算机应用技术专业论文)数据仓库及其在行车安全监控系统中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据仓库及其在行车安全监控系统中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据仓库及其在行车安全监控系统中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据仓库及其在行车安全监控系统中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据仓库及其在行车安全监控系统中的应用研究.pdf_第5页
已阅读5页,还剩90页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库及其在行车安全监控系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京交通大学硕十学位论文 摘要 数据仓库技术在短短十几年的时间旱,发展成为信息技术领域罩 研究和应用的热点。它紧跟i n t e r n e t ,是信息社会中获得企业竞争优 势的又一关键因素。本文结合铁路行车安全数据分析系统的业务需 求,分析了数据仓库的应用背景,综述了数据仓库的基本技术思想。 针对数据仓库的设计、数据模型、o l a p 应用等相关技术和方法进行了 应用研究,其主要内容包括以下几个部分: ( 1 ) 采用数据仓库的“数据驱动”的系统设计方法,将数据仓库 相关技术应用于行车安全监控系统。提出了行车安全数据仓库的整体 架构,并讨论了在应用过程中的各种关键问题的解决方法,如数据仓 库的结构设计、元数据管理、数据的维护等。该系统采用了d b o d s d w 的三层体系结构。利用o d s 对数据进行加载,并将细节数据和汇总数 据分布存储于o d s 和d w 上。 ( 2 ) 根据面向对象建模思想,利用u m l 进行数据仓库的模型设计, 从静态建模和动态建模两个方面对事实类、维类、数据立方体、行为 属性等做出了定义。 ( 3 ) 在分析了数据的抽取、清沈、转换、集成等操作过程的基础 上,充分利用相关的并行数据抽取技术,提高数据抽取的效率,并对 异构数据源的数据进行数据的熬合。 ( 4 ) 在数据展现方面,构思了一种基于“瘦客户”环境和浏览器 界面的o l a p 应用模式。该模式具有投资省、开发快、易维护、操作 简便、适用性强等特点。 关键词:数据仓库,o d s ,联机分析处理,u m l ,多维数据模型 北京交通火学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,t h ed a t aw a r e h o u s e ( d w ) i sb e c o m i n gah o t s p o to f r e s e a r c ha n da p p l i c a t i o ni nt h ef i e l do fi t ;i tt u r n si n t oa n o t h e rc r i t i c a l f a c t ,a f t e r i n t e r a c t t h i s p a p e ra n a l y z e s t h e a p p l i c a t i o n o fd wa n d d e s c r i b e st h eb a s i ct e c h n i c a ls o l u t i o n ,a c c o r d i n gt ot h er e q u i r e m e n to ft h e s y s t e m o f t r a i ns a f e t yd a t a a n a l y s i s ,c o r r e l a t i v et e c h n o l o g ya n d m e t h o d s h a v e b e e nd i s c u s s e d ,a i m e da tt h ep l a no f d w ,d a t am o d e la n do l a p 酶 r e s e a r c h i n g w o r k sa sf c l l l o w s : ( 1 ) ”d a t ad r i v e ”m e t h o d o f p l a n h a sb e e n a d o p t e d ,t h e d w t e c h n o l o g yh a sb e e na p p l i e dt ot h et r a i nd e t e c t i o ns y s t e m ( t d s ) a n d p i v o t a lq u e s t i o nd u r i n gt h ea p p l i c a t i o nh a s b e e nd i s c u s s e d ,s u c ha sf r a m e p l a n o fd w , m e t a d a t a m a n a g e m e n t ,d a t a m a i n t e n a n c e i t a p p l i e s d b o d s - d wt h r e e w t i e ra r c h i t e c t u r ea n da p p e n di t sd a t ai no d s b e s i d e s t h a t ,i ts t o r e sc o m p r e h e n s i v ec u b ed a t ai nd wa n dd e t a i ld a t ai no d s 。 ( 2 ) a c c o r d i n g t oo r i e n t e do b j e c tm o d e l ,t h em o d e lp l a no fd wh a s b e e np r o g r e s s e d ,u s e du ml f a c tc l a s s e s ,d i m e n s i o nc l a s s e s ,d a t ac u b e a n db e h a v i o r a lp r o p e r t i e sh a v eb e e nd e f i n e d ,f r o ms t a t i ca n dd y n a m i c m o d e l i n g ( 3 ) t h i st h e s i sm a k e s f u l lo fe t l t e c h n o l o g y , i no r d e r t oe n h a n c et h e e f f i c i e n c y , a n di n t e g r a t e sd i f f e r e n ts o u r c eo fd a t a ,o nt h eb a s i so fa n a l y s i s o f e x t r a c t ,c l e a na n d t r a n s i t i o np r o c e s s 。 ( 4 ) t h i sp a p e rc o n c e i v e s o fa p a t t e r n o fo l a pa p p l i c a t i o nt h a t e m p l o y s ”t h i n - c l i e n t ”e n v i r o n m e n ta n d b r o w s e ri n t e r f a c e t h i sp a t t e r n p o s s e s s e ss t r o n g , p o i n ts u c h a sl o w i n v e s t m e n t ,e a s ym a i n t e n a n c ea n de a s y o p e r a t i o na n d s o0 n + k e y w o r d s :d w , o d s ,o l a p , u m l ,m u l t i d i m e n s i o n a l d a t am o d e l 独创性声明 本人声明,所呈交的学位论文是我个人在导师指 导下进行的研究工作及取褥的研究成果。尽本人所 知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包 含为获得j k 京交通大学或其他教学机构的学位或证 书面使用过的材料。与我一起工作的同志对本研究所 做的任何贡献已在论文中作了明确的说明并表示了 谢意。 本人签名: 目期:年一月一目 关于论文使用授权的说明 本人完全了解北京交通大学有关保留、使用学位 论文的规定,即:学校有权保留送交论文的复印件, 允许论文被查阅和借阅;学校可以公布论文的全部或 部分内容,可以采用影印、缩印或其他复制手段保存 论文。论文中所有创新和成果归北京交通大学计算机 与信息技术学院所有。未经许可,任何单位和个人不 得拷贝。版权所有,违者必究。 本人签名: 日期:年一月一日 t 综述 1 。1 谤窕的鹜景与爱舞 计算机技术经过几十年的发展,已经在各杼备业得到了广泛的应用, 茏其是关系型数握瘴豹发曩和瘦髑,更是大大城键避了诗箕机管理信息 系统在政府各职能部门、企事业单位中的应用和推广。通过使用传统的 管理信息系统,用户也积累了大壁的历史数据。如何发挥遮燎历史数据 静蛰焦,楚謦兹众多搜建考| l 舞嚣蟾豹个重要翊题。 笔者参加了铁路行车安全监控信息系统的设计和开发王作,该系统 是为了保证铁路运输安全。铁路淞线和列车上都安装了一些用于安全检 溺豹煲滋蕊技拳莰餐,激运囊鼹凝孳、车辍、遴售蘧号、赞逡装载瑷及 自然灾害等进行实时检测,在此蘩础上建立行窀安全数据分析系统,从 而实现分散检测、集中管理、联网运行和信息麸享,实现路局、铁道部 一缀鼹练合查询、颈饕,羧警努援麓,为掌握全鼹嚣车安全馕魏羧务。 本文采用“数据仓库( d a t aw a r e h o u s e ,d w ) ”的思想构建行车安全 数据分孝片系统,是考虑到我国铁路行车安全监测的现状:备类安全监测 设备鞋及系统产生了大星宝贵豹素全整涮数摇,毽分鼗量不链长羯存糖, 无法从皴体安全角度对行车安全信息进行综合利用和分析,滩以通过建 立行车蜜全状况豹预警预报机制米预防安全隐患,也不能为领导提供安 全信怠戆决策支持。为魏裁需要谯疆毒鹣基磅上瓣行车安全箍溺及褶关 数据进行有效的整含、筛选,以达到对监测数据进行综合评判与运用, 做出统计、分析和更羯的决策支持的目的。 建衷交避犬学颈士学攫论文 1 2 数据仓库的发雇与威甫 1 2 ,1 数器奄瘴豹发裹 数据仓库是伴随着数据库技术的发展及用户对数据加工、处理要求 豹不叛变蠢二瑟产黛靛。绩统数缀痒在联辊事务薤理( o n l i n e t r a n s a c t i o np r o c e s s i n g ,o l t p ) 中获得了较大的成功,但是对管理人 员的决策分析要求却无法满足,为了满足管理人员的决策分析需要,谯 数撼痒基穑土产熏了戆够满是决策分辑需要熬数据嚣凌一数据仓瘁( d w , d a t aw a r e h o u s e ) 。 以辨证的鼹光来看,数据奄摩翡兴起实际上是数据管理的一种隧麴, 是螺旋式的上升。今天静数据潞就好比当年的层次数据簿酾网型数据麟, 它们丽向事务处理;今天的数据仓库就好比是当年的关系数据库,它 针对联视分板。艨不同的是,今天的数据仓库不必再为联枫事务处瓒的 特住蕊无谓奔忙,由予技术的专业纯,它搿翼专心于联枫静静亍领域鹅发 展和探索。 最残珐蕊数攥念疼都是港缀彦渎进弱方式逐步发震怒来懿,它夔镪 一次发展都提高了信息的商业价傻。近年来,数据仓库忍经发展到能支 持众舭决策,甚蹙支持企业合作伙伴和客户的新高度。 譬先,数攥会痒是秀金夔肉帮衰墨豹蘩貔镁域鬟供羧貉决蓑毙力, 如市场营销、战略策划和财务。数据仓库提供的信息极大地改善了遗贱 部门的决策质量。然丽,在当今竞争异常激烈的商业环境中。优秀的战 蝰仪仅是袋功豹诸多要素之。若不巍衙诸蠢效夔实旋,锰籍战略蓑l 将 2 综述 是一纸窳文。新一代的数据仓库艨厢不仅改善了企业战略的形成,更重 要的是没展了战略的执行决策能力m 。 1 2 2 国内外的威用情况 数羲| i 仓库和o l a p 楚9 e 年代榜掇鑫豹概念,磷9 0 年代幸* 鞭迂经形成 潮流。程美国,数据仓库已成为仅次于i n t e r n e t 之后的又一技术热点。 数据仓黪是市场激烈巍争的产物,露的目标是达到有效的决策支持。大型 企韭凡擎郝建立或诗搿建立自己鹅数器仓库,数撰瘴厂商奄纷纷接密鑫 己的数据仓库软件。目前,在己建立和使用的数搬仓库应用系统中,有一 部分已经取荦导了明照的经济效益,丽且在市场竞争中也显示了强劲的活 力。 国外企业应用数据仓库已有比较长的时间,不少企业对积累的信息 进行智熊化分析、挖撼,收到了良好静效益。数据仓库较多的戍用于金 融、傈除、交通、电倍、零售、源等行监。数据仓库除麓予帮助管理 人员制定决策外,还用于其他方面,包括:客户关系管理;建立企业内 部款会传关系;对转瓣静逝的机会傲出复酸;淑善关系能力。 数据仓库的确也给建设者带米了巨大的投资回报,据i d c 在1 9 9 6 年 的一次9 0 年代前期进行的6 2 个数据仓库项目调查结果表明:进行数据 仓淳项嚣耍发戆公司袭平鹤2 。? 3 冬豹瓣阗蠹获褥了平均为3 2 1 豹投资 回报率m 。i d c 的研究报告证实,建立数据仓库所花费的努力与费用是值 得的。 l e 衷交涟大学硬士学位论文 相比国外而言,我国进行数据仓库的研究与应用比较晚在具体的 实施过程中积累的经验不是很多,但国内成功建立数据仓库的企业或公 司惑有一些了。翔;中国银手亍广东分行在统一的基础阏终系统主,强d b 2 数据仓库和e s s b a s e 多维数据库为基础,在不调整原有业务系统的情况 f ,建立了一个邋应o l a p 应用的统一全露钓详尽数据源,为用户提供了 多角壤、多瑟次焱询分析数据嗣动态掇表酌筏力,戒功实现了堑务警疆 与分析。铁道部料学研究院自主开发的客鬃瞥销分析系统以客票存根朔 运熊作为数据源,避过网络逐步收集到铁道部,采用s y b a s e l q 作为客累 潞工其 鞠作为联梳分桥楚蠼豹工其。依攒客票菱售数强和箕袍相关旅 客运输数据进行旅客运输的统计、分析和预测,形成一个面向铁道部和 铁爨髑客运运输部门的辅助决策支持系统,从褥达到辅助决策的目的。 一些众韭在没有建立数据仓霹和数据集市的 孽况下,采掰一些智毙酌 o l a p 分析和查询报表工具,直接对数据库熙的信息进行数据分析。 1 2 3 研究数擐仓库的鬟骧意义 近凡年来我瀚在数摇仓露瓣应雳秀覆懑商了瑟溃,邋一步热强数攥 仓库技术的研究和应用推广有糟重要的意义a 接进和推广数据仓库在一些重要行业、丈型工业企妲啦及重要政府 熬f 1 中的应用,弼以提高管理决策的现钱纯稠科学纯承平,茏其是鞠入 w t o 厩需要面对来自国外的竞争,这一举措熙加屡得重簧。在金融、保 险等行监中,数据仓库匏应用霹默提高企业竣褥业援避风险、市场预测 的熊力:在工商照中数据仓库的应用可以褥离产晶囊璧,增强企业的生 产组织能力:在些政府部门,数据仓库的应用可以提高业务能力,有 垂 利予制定更龠理的方略、政策,有利予提商裳观计划能力和不剥因素防 范能力,既能促进应用,又能降低数据仓库的构造成本;加强数据仓库 技术的研究,有利予指导企业信息环境的建设与重构。目前运行的许多 数据霹成塌系统,由于系统互相独立,数攒不一致以及辫构性,导致数 据集成阉难踅重,极不利于做出全局应用m 。根据数据仓库的思想,在设 计数据艨系统时,要从全局出发,形成一定的信息资源管理标准,自顶 向下地建设数据蓐,泣意数据的一致饿,从黼为建设全局级的集成信意 系统进而构建高档次的数据环境打好基础。 1 3 论文的盘要内容 本文潋铁遂鄢大蹩酶安全涟测、娩务数据梵骜豢,叛数据仑瘁技术 为蒸础,良o l a p 相必技术为工具,挺国了一套基予数据仓瘁的行车安全 数攒分析系统静解决方寨。鼹襻程予海量数据中懿誊蕊决繁信息帮豫菠 在大璧数攥背屠豹决策僚患逶嚣了有蕴翁分聿露帮尝试。 决策是以大缀数据为基础的,而数据的准确性和一敬性非常关键。 数据仓库集成了众业内部大蠹的历史数据,可戳为企韭决策提供了一致 的、高质量的准确数据。在本文中,采用面向对象建禳稳憋,翻篇u m l 进行数据仓库的模溅设计,从静态建模和动态建模两个方面对事实类、 维类、数据立方体、行为属性等做出了定义。 企业的决繁褥要定量的数摄指标,霞器不同角度、不同层次的数据 统计和数搌对比。o l a p 对存柱予大量数据中的直观决策信息可以进行有 效熬分辑和展现。对此本文构思了一钴基予“瘦客户”环境和浏览器界 筵豪交避太学疆士学缎论文 面的o l a p 应用模式。该模式嶷有投资省、开发快、易维护、操作简馒、 适用性强等特点。 论文第一章络出了论文背撩及褶关知谚 的概论性介绍。第二章辩数 据心库的理论进行了较详细的阐述。第三章对面向对象的u m l 建模知识 l 乍了系统瞧的概述。第图章慰o l a p 作了较详实的介绍,傻据扶o l a p 劐 o l a m 的过渡也给出了理论上的阐述,这也怒研究的下一步扩展。第五章 介绍了行车安全监控系统,这也是所开发的数据仓库中数据源的出处。 第六章缝合应用熬靖景,介绥了本人对数攒会痒、o l a p 瓣设计,较详纲 的阐述了数据仓撵在行车安全数据分析中的藏用研究。论文中也给磁了 实现中的部分实例和程序代码。 6 数槲仓库 2 数据仓库 2 1 数据仓库的概念 墨煎,数据仓瘁词澍没有一个统一豹定义,著名豹数撼仓库专家 辑h i n m o n 在其著 乍 b u i l d i n gt h ed a t aw a r e h o u s e 一书中给予如下 描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) 、稠对稳定的( n o n v o l a t i l e ) 、反殃 历史变纯( t i m ev a r i a n t ) 的数据集合,用于支持管理决策m ,。对于数据 仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策, 蟊囱分橱婆 数撂处理,它习;同于金娩现有静操佟型数据库;疑次,数据 仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并 包含历史数据,而且存放在数据仓库中的数据一般不再修改。 攫摄数据仓疼摄念豹会义,数攥硷痒掇寄疆下靼个特点; ( 1 ) 面向主题 操体型数据库的数据组织面向攀务处理任务,各个业务系统之间各 自分离,蘑数蕹仓露中静数攥是按照一定豹主越壤进行缝缀。主题是一 个抽象的概念,是指用户使用数据仓库进行决策时所关心的麓点方面, 一个主题通常与多个操作型信息豢统相关。 ( 2 ) 集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库 之阕秘嚣独立,劳基缝撞是买棱弱。嚣数据仓瘁中戆数据楚簌对狠有分 散的数瓣库数据抽取、清理的基础上经过系统加工、汇总和憋理得到的, 7 l 京交避大学矮学使论文 必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个众 业的一致的全局信息。 ( 3 ) 相对稳畿的 操作型数据库中的数据通常实时更新。数据根据需要及时发生变化。 数攒食瘴懿数据主要攥企、监决策分辑之雳,濒涉及载数撰操终主要楚数 据查询,一旦菜个数据进入数据仓库以后,一般情况下将被长期保留, 也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,邋 豢只鬟要定期懿擞载、到囊。 ( 4 ) 反映历史变化 操作型数据艨主要关心当前某一个时间段内的数据,而数据仓库中 豹数掇遂常包含掰史信惑,系统记豢了金照获邋去菜一辩阀螽开始疲掰 数据仓库的时点) 刹目前的各个阶段的信息,通过这些信息,可以对企业 的发展历程和未来趋势做出定懿分析和预测。 :盎= 监数据仓撵的建设,是以现有企业照务系统和大鬃照务数据静辍 累为綦础。数据仓库不是静态的概念,只有把信息及时交给需要这些情 感的使臻者,供德们做出改善獒业务经营鳇决策,信息才能发挥作鹰, 信憋力甫意义。黼把信息加潋熬理归纳和熬纽,并及时掇供给相应的管 理决懿人员,是数据仓库的根本任务。因此,从产业界的角度看,数捌 仓露建设是一个工程,是一个过程。 藏个数据仓库系统是一个包含四个层次的体系结构,具体如翻2 一l 所永: s 数据仓库 图2 1 1 数据仓库系统体系结构 2 2 数据仓库的设计 2 2 1 概念模型的设计 樱喾盎j 即,斟s 艇 龄辫挖攘i 烈 因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成 的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统 加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和 “如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模 型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库 关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识; 9 靶京交避大学矮+ 学慑论文 另一方面,数据仓库的概念模测是面向企业愈局建立的,它为集成来自 各个蕊向应用的数据库蛉数据提供了统一的概念视图m 。 概念模型的设计是在较高躺抽象层次上的设计,因j 赶:建立概念模麒 时不用考虑具体技术条件的限制。 避行概念模瑟设诗酝要究藏靛工馋楚t ( 1 ) 界定系统边界 数据仓库是颟向决策分析的数据库,无法在数据仓库设计的最初就 餐裂详缁蔼明确熬需求,毽是一些基奉浆方蠢佳翡需求还蹙摆在了设计 人员的面前: 要做的决策类型有哪些: 决策者感兴趣的是什么问题: 这些问题需要什么样的信息; 要褥至l 邋整倍怠需要链禽覆有数攒露系统静疆黧部分静鼗搭。 这样,可以划定一个当前的大致的系统边界,集中精力进行最需鼷 的部分的开发。躐两,从某种懑义上讲,界定系统边界的工作也可以麓 佟魑数据仓库系统设计豹需求分耩,鑫为它褥决策者熬数摇分褥豹霈墩 用系统边界的定义形式反映出来。 ( 2 ) 确定主要的主题蠛及獒内容 在这一步中,耍确定系统所包含的主题域,然后对每个主题域的内 容进行较明确的描述,描述的内容包括: 主瑟蠛熬公共羁毽; 主题域之间的联系; l n 数撼仓库 充分代表主鼷的属性组。 2 2 2 逻辑模型的设计 对繇个当前要装载的主题的逻辑实现进行寇义,并将相必内容记录 在数纂仓瘁的元数据中,包菇: ( 1 ) 分析主题域 在壤念模型设计巾,可以确定凡令基本的豢越域,但是,数据仓瘁 的设计方法是一个逐步求精的过稷,在进行设计时,一般悬一次一个主 题或一次若干个主题地逐步完成的。所以,必颁对概念模型设计步骤中 确定豹几个基零主鼷域进雩亍分援,势选择首先鬟实施豹主题蠛。选择第 一个主鼷域所要考虑的是它要足够大,l 三l 便使褥该主题域能建设成兔一 个可应用的系统;它还要足够小,以便于丌发和较快地实施。如果选择 豹主题域缀大著虽缀复杂,可疆舒鬟季宅载一个露意义豹予纂慕避行开发。 在每一次的反馈过程中,都要进行主题域的分奉斥。 ( 2 ) 粒度层次划分 数撵仓瘁逻瓣竣诗中要耩决豹一个重要阕鼷楚决定数据会滓懿粒褒 划分层次,粒度层次划分适当与磷直接影响到数据仓库中的数据量和所 适合的凌询类型。确定数据仓库的粒度划分,w 以使用在粒度划分一节 孛奔绍静方法,逶避髂算数蠢行数帮所需豹激s 玲数,来确定楚粟焉单一 粒度还熄多重粒度,以及粒度划分的层次。 ( 3 ) 确定数据分割策赡 托袁交逶大学硬士学经论文 在这一步里,臻选择适当的数据分割的标准,一般瑟考虑以下几方 西圆褰:数据量( 瓣非记录行数) 、数据分梗处理的实际情况、简单易行 敬藏簸发翔努繁螓等。数据茧的丈夺是决定憝否迸幸亍数攒分割和如肖分 割的主要因素;数据分析处理的聂求是选择数据分割标凇的一个主要依 据,鼹为数据分割是跟数据分析处理的对象紧密联系的;还要考虑到所 遥强豹数耀分害l 拣壤癍是自然的、易于实施的;同时也甏考虑数据分割 的标准与粒度划分层次是适应的。 ( 4 ) 关系模式定义 数据仓库的每个主题都怒由多个表来实现的,这些表之问依靠主题 的公热码键联系狸一起,形成一个完整的主题。在概念模型设计时,就 确定了数据会痒戆基本主题,势对每个主纛豹公共璐键、鏊本内容等徽 了攒述在这一步艇,将要对选定的当前实旒的主题进行模式划分,形成 多个波,并确定备个表的关系模式。 2 2 3 物理模毅韵设计 确定索萼l 繁旗,确定数撵存敖醢鬟,确迩存继分熬。确定数据仓露 实现的物理模型。 要全面了解所选用的数据麾管理系统,特别是存储结构秘存取方法; 了煞数据环境、数据的篌霜颓发、使磊方式、数撵麓模驭及臻应辩阉骚 求等,这些是对时间和空间效率进行平衡和优化的重要依据;了解外部 存储设餐鲍特性,如分块原则,块太小的攥定,设备的i o 特性等。 | 2 数据仓库 2 2 4 技术准备麓作 这除段的工传媳播:技术评 鑫翱技术环境准螯。管理数据仓痒的 按术要求与管理操佟戮环境中的数据与韪理的控零要求区嗣缀大,两者 所考虑的方面也不同。之所以在一般情况下总怒将分析型数据与操作型 数据分离开来,将分耩型数据单独簇中存放,搬裁是用数据仓库来存放, 技术要求上的差异怒一个重要原因。 ( 1 ) 技术评估 进行按寒谖毽,壤是确定数攥仓库熬各矮瞧缝据蠢。一般溃嚣下, 需要在遮一步里确定的性能指标包括: 管理大数据爨数据的能力; 进行灵活数溅存取静髓力: 根据数据模烈重组数据的能力; 透明麴数摆发送帮接收魏力; 周期性成批装载数据的能力; 可设定完成时间的作业臀理能力。 ( 2 ) 技术环凌壤备 一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是 确定纛该蓉撵来装配这个薅系纯终稳摸型,主饕是确定对软硬媸配置的 要求,考虑相关的问题; 0 预期在数据奄库上分析处理的数据量谢多大; 翔窝藏多戢减轻竞争毪露联翟毒豹转突; 1 3 北京交通大学硕士学位论文 数据仓库的数据量有多大: 进出数据仓库的数据通信量有多大。 根据这些考虑,就可以确定各项软硬件的配备要求,并且在这一步 工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有: 直接存取设备( d a s d ) ; 网络; 管理直接存取设备( d a s d ) 的操作系统; 进出数据仓库的界面( 主要是数据查询和分析工具) 。 2 3 数据组织结构 数据仓库中的数据不像联机事务处理系统那样对数据进行“流水账” 式的组织,它表现为一定的综合程度,称作数据的“粒度”。粒度是对数 据仓库中的数据的综合程度高低的一个衡量。粒度越小,细节程度越高, 综合程度越低,回答查询的种类越多:反之粒度越大,细节程度越低, 综合程度越高,回答查询的种类越少。 粒度问题也是数据仓库的一个重要问题,因为它是数据综合程度高 低的一个重要度量,它既影响数据仓库中数据量的多少,也影响数据仓 库能回答问题的种类,因而在粒度划分上应在数据量大小与查询详细程 度之间做出平衡。 1 4 数据仓库 分析目前用户的需求,存在不同程度的粒度需求,按时间为单位有 年、季度、月,并且随着时间的推移,数据量的增长是迅速的,为此 本文考虑采用多粒度的划分策略。 分割是将数据分散到各自的物理单元中去以便能分别独立处理,以 提高数据处理的效率。数据分割后的数据单元成为分片。数据分割的标 准可以根据实际情况来确定,通常可选择按日期、地域或者业务领域等 进行分割,也可以按照多个标准组合分割。 2 4 元数据管理 元数据,也就是关于数据的数据。传统数据库中的数据字典或者系 统目录都是元数据,在数据仓库中元数据表现为两种形式:一种是为了 从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的 各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前 端工具建立映射用的。数据仓库的元数据包括以下必要的信息: ( 1 ) 数据仓库的结构信息:包括数据模式、主题、表、视图、维、 层次结构、索引、粒度定义等; ( 2 ) 操作环境到数据仓库的映射:包括数据源和他们的位置、结构 与内容、字段映射、数据分割、数据提取、数据清洗、数据转换等说明; ( 3 ) 数据处理算法:包括对数据进行聚焦、汇总、查询处理等细节 的说明: ( 4 ) 系统安全信息:用户授权和存取控制等。 1 5 北京交通大学硕士学位论文 2 5 敏攮仓库与o h o d s ( o p e r a t i o n a ld a t as t o r e ) 即是操作数据存储,也是一种企业级 全局级的数据存储模式,也是诣在建立一种独立于操作型环境的数据分 析环境。在o d s 方式下,数据被从业务数据库中复制到一个中心位置, 再从这里被抽取到多个数据集市中。o d s 是从客户、产品和其他商业角 度来组织的,被称为商业状况的“实时快照”。它不包含历史信息,但可 以很容易地满足一个历史数据库或一组面向主题的数据集市的需要。一 般称之为“合并式数据仓库”,因为它在进入决策支持数据库以前是一个 信息的结合点。 为此,本文将监控数据以及部分外部数据进行集中汇总,暂时存放 在一个数据库系统( o d s ) 中。其用途就是对这些原始数据清洗掉无用的 内容,并进行必要的转换与汇总。通过增加一个中间转换层数据结构, 既能方便的将原始数据抽取过来,又能够实现向数据仓库中批量加载数 据,从而起到一个中间缓存和沟通的作用。很多数据转换工作要在这个 数据库中完成,从而减少了向数据仓库加载数据的压力。然后再根据数 据仓库的数据组织结构,从o d s 中将已完成部分准备工作的数据进行最 终转换,加载数据、建立索引。 由此看来,o d s 的数据接近运行系统,但是又可以对进入数据仓库 的数据进行预处理,给数据仓库减负,从而形成d b o d s d w 的三层结构 的数据仓库系统,如图2 2 所示: 1 6 数据仓库 2 5 1o o $ 的作用 图2 - 2 三层结构数据仓库系统 三层体系结构中的o d s 具有以下几方面的作用: ( 1 ) 在业务系统和数据仓库之间形成一个隔离层。 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存 放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系 统对数据进行抽取并不是一件容易的事。因此,o d s 用于存放从业务系 统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上 都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的 复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的 问题。 ( 2 ) 转移一部分业务系统细节查询的功能。 在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的, 在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压 力。o d s 的数据从粒度、组织方式等各个方面都保持了与业务系统的一 1 7 j k 京交通大学硕士学位论文 致,那么暇来由韭务系统产生的摄蔽、细节数撼的奁询自然能够从o d s 中进行,从而降低业务系统的查询聪力。 ( 3 ) 宠戏数撵仓露中不能完或鹣一些功毵。 一般来说,带有o d s 的数据仓库体系结构中,d w 层所存储的数据都 是汇总过的数据,并不存储每笔交易产生的细节数据,但是在袋些特殊 熬应蠲中,霹能 ;| ;要霹突荔绥节数攥送行套凌,这辩藏纛要把爨苇数蕹 查询的功能转移到o d s 束完成,而麒o d s 的数据模型按照面向主题的方 式进行存储,可以方便地支持多维分析等查询功能。 在一个没有o d s 瑟游数据仓痒纛蔫系统体系维褥孛,数攥念库孛毒 储的数据粒度是根据需疆而确定的,但一般来说,摄为细节的业务数据 也是需要保留的,实际上也就相当予o d s ,但与o d s 所不同的是,这时 的细节数撵不是“当蘸、不甄交纯鹣”数据,露怒“魇受熬,不再交豫 的”数据。 2 6 数据仓库的觳据准备过程 奁确定了数囊仓露黥主题,势羧键主蘧完成了攀实表、缳发等数撵 模型设计、建立了相_ 陵的数据表之厢,接下来就骚进行数据准备的工作, 包括:从数据源系统摘取数据、转换与清洗、装栽和数据预处理等一系 列遥程。 数据准备过程的嶷体内容包括; ( 1 ) 数据抽取 1 8 数据仓库 数据抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据 环境,它需要通过抽取过程从联机事务处理系统、外部数据源、脱机的 数据存储介质中获得数据。因为从运行的数据库系统抽取数据占绝大多 数,在这种情况下研究自动化程度高、速度快、适应性强的工具有重要 意义。 ( 2 ) 数据转换 由于数据源系统建立在异质平台并且是根据自身需求开发的,因此 数据在格式、编码、数值精度等方面不一定符合数据仓库系统对数据的 要求。在出现不一致的情况应进行数据转换,从而实现数据的一致性。 ( 3 ) 数据清洗 初始数据可能存在不完整、错误或冲突的问题,需要对初始数据进 行清洗,修正或排除这些错误或冲突,提高数据的可靠性。 ( 4 ) 数据集成 数据集成是将多个数据源中抽取出来的初始数据结合在一起,并将 数据映射到数据仓库的新数据结构上,形成与数据仓库系统的数据结构 相一致的数据。 ( 5 ) 数据装载 数据装载是将已经准备好的“输入数据”引入到数据仓库中进行存 储。 ( 6 ) 数据预处理 数据仓库会涉及到大量的查询计算包括汇总数据或一些定制的报 表,这种查询是种费时的计算过程,为了提高这种查询的响应速度,要 1 9 北京交遮大学碛一t z 学位论文 先进行预处理计算,这样可以避免针对每个相同的查询都骚进行大量计 算的问题,也使数据仓库中不用存放明细数摄。 u m l 多维数据建模 3u n l 多维数据建模 人们常常在正式建造实物之前,首先建立一个蔺佬酶禳戮,班便更 透彻地了解它的本质,抓住问题地骚害。模型是对现实地简化,是对事 物的一葶孛抽象。模型提供了系统的蓝图。在模烈中,先要易除那些与问 题无关的、非本质的东西,从而使模型与真实的实体相比更加简单明了、 易于把掇。 数撰模型莛对褰鼹事物及箕联系豹臻述,怒避录及其联系熬集合, 应具有描述数据和数据联系两方两的功能,采用形式化的描述方法表达 数据和数据之间的联系。数据模型寝示的是数据库的框架,在该框架约 素下填上其髂数据蠢一怒数据痒,爱过来说数提瘁粒类型是投耀数撵模型 划分的。 3 。iu n l 简介 3 1 1u m l 的定义 u m l ( 统一建模诿富,u n i f i e dm o d e l i n gl a n g u a g e ) 是一秘定义良磐、 易于表达、功能强大越普遍实用的建模语言。宅融入了软件工程领域的 瓤思想、新方法和新技术。它不仪可以支持面向对象的分析与设计,更 重要豹蹩能够奋力舔支持簌需求分辑开始豹软佟开发熬全避疆。巍l 是 一种建模语言,而不是一种方法。 u 鹾l 。逶躅于系统开发过程中从镒求规格攒逑到系统完成艨测试的不 同阶段m 。在需求分轿阶段,可戳髑用例来擒获斌户需求。遥邀臻铡建穰, 2 北京交通大学硕士学位论文 描述对系统感兴趣的外部角色及其对系统( 用例) 的功能要求。分析阶 段主要关心问题域中的主要概念( 如抽象、类和对象等) 和机制,需要 识别这些类以及它们相互间的关系,并用u m l 类图来描述。为实现用例, 类之间需要协作,这可以用u m l 动态模型来描述。在分析阶段,只对问 题域的对象( 现实世界的概念) 建模,而不考虑定义软件系统中技术细 节的类( 如处理用户接口、数据库、通讯和并行性等问题的类) 。这些技 术细节将在设计阶段引入,因此设计阶段为构造阶段提供更详细的规格 说明。 标准建模语言u m l 的主要特点可以归结为三点: ( 1 ) u m l 统一了b o o c h 、o m t 和o o s e 等方法中的基本概念。 ( 2 ) u m l 还吸取了面向对象技术领域中其他流派的长处,其中也包括 非o o 方法的影响。u m l 符号表示考虑了各种方法的图形表示,删掉了大 量易引起混乱的、多余的和极少使用的符号,也添加了一些新符号。因此, 在u m l 中汇入了面向对象领域中很多人的思想。这些思想并不是u m l 的 开发者们发明的,而是开发者们依据最优秀的0 0 方法和丰富的计算机科 学实践经验综合提炼而成的。 ( 3 ) u m l 在演变过程中还提出了一些新的概念。在u m l 标准中新加 了模板( s t e r e o t y p e s ) 、职责( r e s p o n s i b i l i t i e s ) 、扩展机制 ( e x t e n s i b i l i t ym e c h a n i s m s ) 、线程( t h r e a ds ) 、过程( p r o c e s s e s ) 、分 布式( d i s t r i b u t i o n ) 、并发( c o n c u r r e n c y ) 、模式( p a t t e r n s ) 、合作 ( c 0 1 l a b o r a t i o n s ) 、活动图( a c t i v i t yd i a g r a m ) 等新概念,并清晰地区分 类型( t y p e ) 、类( c l a s s ) 和实例( i n s t a n c e ) ;细化( r e f i n e m e n t ) 、接口 ( i n t e r f a c e s ) 和组件( c o m p o n e n t s ) 等概念。 i j m l 多维数据建模 3 1 2u 札的现状及发展 u m l 是在多种面向对象建模方法的基础上发展起来的建模语苦,主 要用于软件密集型系统的建模。它的演化,可以按其性质划分为以下几 个阶段:最初的阶段是专家的联合行动,由三位0 0 ( 面向对象) 方法学 家将他们各自的方法结合在一起。第二阶段是公司的联合行动,由十几 家公司组成的“u m l 伙伴组织”将各自的意见加入u m l ,并作为向o m g 申 请成为建模语言规范的提案。第三阶段是在o m g 控制下的修订与改进。 在多种面向对象建模方法流派并存和相互竞争的局面中,u m l 树起 了统一的旗帜,使不同厂商开发的系统模型能够基于共同的概念,使用 相同的表示法,呈现彼此一致的模型风格。而且它从多种方法中吸收了 大量有用( 或者对一部分用户可能有用) 的建模概念,使它的概念和表 示法在规模上超过了以往任何一种方法,并且提供了允许用户对语言做 进一步扩展的机制。 从u m l 的早期版本开始,便受到了计算机产业界的重视。o m g 的采 纳和大公司的支持把它推上了实际上的工业标准的地位,使它拥有越来 越多的用户。它被广泛地用于应用领域和多种类型的系统建模,如管理 信息系统、通信与控制系统、嵌入式实时系统、分布式系统、系统软件 等。近几年还被运用于软件工程、质量管理、过程管理、配置管理等方 面。它的应用不仅仅限于计算机软件,还可用于非软件系统,例如硬件 设计、业务处理流程、企业或事业单位的结构与行为建模。u m l 的发展 历程如图3 一l 所示: 北京交通大学硕士学位论文 t h 1 0 7 9 蛩弗 _ l i - 1 1 簟柚刺b i 黼囊精毫 韧h 乳h i 冀雹蠢漩- _ i 晦l o m i - i o o q 圈3 - 1u m l 的发展历税 3 1 3 呲与其他麓模方法的比较 首先。u m l 并没有从根本上脱离b o o c h 、0 m t 、0 0 s e 方法,而是对这 些方法的批判继承,仍然是这些方法在一定程度上的延续。 其次,与b o o c h 、0 m t 、0 0 s e 等其他建模方法相比,u m l 具有表达力 强、清晰和一致的优点。因此,采用u m l 可以使工程在更广的范围内建 模,消除了各种方法在表示法和术语上的一些不必要的差异,而正是这 些不必要的差异隐藏了不同方法之间重要的相似之处。 再次。与其他可视化建模语言相比t p r 流图、状态驱动的建模语 言等,统一建模语言u m l 都具有表达力更丰富、技能更完善的优点。 u m l 多维数据建模 以e r d 为例,许多建模人员选择使用e r d 是因为它的简便实用和雅 致的风格,但是,从更广的角度来看,e r d 建模方法存在的问题首先体 现在它的命名上”。e r d 建模的中心思想是,可以通过实体和他们之间的 关系合理的体现一个组织的数据模型。但从表面上看,这样做似乎对于 描述一个组织的信息过于简单化,并且词汇量也远远不足。u m l 的一个 重要优势在于增加了处理信息1 。再比如“联合”或“交叉”实体明显 是两种不同类型的实体,他们出现在多对多的关系中,但是用传统的e r d 无法表示这些区别,同样也无法区分时间相关实体( 即时问是唯一标识 符的一部分) 。即使不考虑这点,e r d 建模在关系数据方面仍然存在着其 他的严重局限性。 任何面向对象方法的使用者都可以通过短期的学习从而掌握统一建 模语言u m l 的基本使用。而有些高级的u m l 技术,如构造型和属性的 使用,还需要更深入的学习,掌握他们可以使模型更精确,更富有表达 力。 3 1 4 多维数据建模技术背景 多维数据建模技术是数据仓库、多维数据库和o l a p 应用的基础。随 着管理信息系统的广泛应用,各大公司都积累了大量的历史操作数据, 怎么利用这些历史数据来为他们的决策活动服务已成为当前的研究重 点。多维数据建模技术是当前的数据仓库研究的关键技术之一。近几年 来,针对多维数据建模技术,大部分研究集中在逻辑模型和物理模型上, 对多维数据概念模型的研究还比较少m ,。对于多维数据概念建模的研究, 目前比较典型的有m e r m 建模方法、s t a r e r 建模方法“”及其它一些方法 等。但是,目前还没有一个普遍接受的统一标准。 北京交通大学硕士学位论文 当然除了在概念级上表示数据的多维属性,也应把初始用户需求、 系统行为、可用数据源、以及能自动生成数据仓库模式的有关具体要求 表示出来。多维数据模型是联系用户和设计人员之间的一个纽带,对于 它的建模,如果和u m l 紧密结合起来,不仅易于被用户理解,而且也符 合当前的潮流,为今后元数据的管理和集成带来了极大的便利。 3 2u 瓤的内容 u m l 的内容包括了u m l 的语义( u m ls e m a n t i c s ) 和u m l 的表示法 ( u m ln o t a ti o n ) 两部分。 3 2 1u 札的语义 u m l 语义描述基于u m l 的精确元模型定义。元模型为u m l 的所有元 素在语法和语义上提供了简单、一致、通用的定义性说明,使开发者能在 语义上取得一致,消除了因人而异的表达方法所造成的影响。 此外u m l 还支持对元模型的扩展定义。即人们用什么符号来表示要 做的事情,定义了结构( s t r u c t u r a l ) 模型和行为( b e h a v i o r a l ) 模型。 3 2 2u t 的毫示法 u m l 表示法定义u m l 符号的表示法,为开发者或开发工具使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论