




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士论文 数据仓库技术在综合刚管系统中的研究与应用 数据仓库技术在综合网管系统中的研究与应用 摘要 数据仓库是面向数据分析型处理的数据环境,对于异构数据的 重新组织和大规模数据的综合分析等问题具有高质高效的处理能 力。利用数据仓库来解决以t m n ( 电信管理网) 为代表的综合网管 中分散的异构网络的数据收集、整理、存储和分析等问题是十分有 效的途径。 本论文前半部分从理论角度对数据仓库技术在综合网管系统中 的应用进行了探讨,在可行性、开发方法、体系结构、模型设计等方 面进行了阐述。论文后半部分结合本研究室所设计开发的“通信网 环境及动力设备监控管理系统”中设计和实现数据仓库的过程,包 括需求分析、网络结构分析、安全性和扩展性、数据仓库系统设计、 用户界面设计与实现等内容,对数据仓库在综合网管系统中的应用 形式进行了一次实际的探索。文章的最后对数据仓库在综合网管系 统中应用的进一步发展方向进行了探讨。 关键词综合网管数据仓库t m n 环境动力监控 o l a p 北京邮电大学硕士论文数据仓库技术在综合嗣管系统中的研究与应用 t h :er e s e a r c ha n da p p l i c a t i o no ft h ed a t a w a r e h o u s et e c h n o l o g yi nt h ei n t e g r a t e d s y s t e mo ft e l e c o mn e t w o r k 姒n a g e m e n t d a t aw a r e h o u s e t e c h n o l o g yi sa d a t ae n v i r o m m a n t f a c i n gd a t aa n a l y z i n g ,i th a s t h ec a p a b i l i t yt ou n i t ev a r y i n gc o n s t r u c t i o nd a t aa n dt o a n a l y z el a r g e s c a l ed a t a e f f i c i e n t l y i ti s a ne f f e c t i v ew a y t or e s o l v et h ep r o b l e m ss u c ha sd a t ac o l l e c t i n g , s e t t l i n g ,s t o r a g ea n da n a l y z i n gf r o md i s p e r s e da n dd i f f e r e n tn e t w o r k si nt h es y s t e m o fi n t e g r a t e dt e l e c o m m u n i c a t i o n sn e t w o r kw h o s e r e p r e s e n t a t i o ni st m n ( t e l e c o m m a n a g e m e n tn e t w o r k ) i nt h ef i r s tp a r to ft n sa r t i c l e ,t h ea p p l i c a t i o no fd a t aw a r e h o u s ea p p l i e di nt h e s y s t e mo fi n t e g r a t e dn e t w o r km a n a g e m e n ti s d i s c u s s e di nt h ev i e wo fa c a d e m i c m e t h o d o l o g y ,i n c l u d i n gt h ef e a s i b i l i t y ,d e v e l o p m e n tm e t h o d ,a r c h i t e c t u r e ,a n d m o d e ld e s i g n i n g i nt h es e c o n dp a r t ,d e s i g n i n ga n di m p l e m e n to ft h ed a t aw a r e h o u s e i n “e n v i r o n m e n ta n dp o w e ri n t e g r a t e dm a n a g e m e n ts y s t e mo ft e l e c o mn e t w o r k , w h i c hi sd e v e l o p e db yo u rr e s e a r c hl a b o r a t o r y ,a r ei n t r o d u c e d t h ec o n t e n ti n c l u d e s r e q u i r e m e n t sa n a l y z i n 蚤n e t w o r ka r c h i t e c t u r ea n a l y z i n g ,s e c u r i t y ,e x p a n s i b i l i t y , s y s t e md e s i g n i n g ,u s e ri n t e r f a c ed e s i g n i n g ,a n ds oo n t h e a r t i c l et r yt oa p p l yt h e t e c h n o l o g yo fd a t a w a r e h o u s ei nt h e s y s t e mo fi n t e g r a t e d t e l e c o mn e t w o r ki n p r a c t i c e a t t h ee n do ft h i sa r t i c l e ,t h e r ei sap r e d i c t i o nw h i c hi s a b o u tt h e a p p l i c a t i o no ft h e d a t aw a r e h o u s ei nt h e s y s t e mo fi n t e g r a t e dt e l e c o mn e t w o r k m a n a g e m e n t k e yw o r d s i n t e g r a t e d e t e l e c o mn e t w o r k m a n a g e m e n t d a t aw a r e h o u s e t m ne n v i r o n m e n ta n dp o w e r m a n a g e m e n to l a p 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 墅篮日期:塑点主:些 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:皇垒僮日期:翘丘i :生 导师签名: 善;席直4 q 一 e t 期:辽衄i 上_ 立一 北京邮l b 大学顾= b 论文数据仓库技术在综合网管系统中的研究与应用 1 1 课题研究背景 第一章绪论 电信网络管理系统是一个复杂的系统,涉及电信技术和计算机技术等各个领 域的内容。目前,我国的电信网络通常由许多独立管理的专用网和公用网互联组 成。各网络管理系统采用各自的管理协议,一般只针对某专业网络进行管理,缺 乏对整个网络的综合管理。另一方面,现有的网管系统大多建立在网元监测和管 理的层面上,完成网元性能数据和告警数据的采集,对于积累的大量的配置管理、 性能管理、告警管理及系统操作等数据只能进行实时的查看,被动地按事先规定 的功能来处理,缺乏统计分析和决策支持的功能,故障诊断分析、数据统计等高 智能化方面的性能没有得到更好的发展。 随着网络技术的发展,异构网络的规模越来越大,结构越来越复杂,用户对 网络管理在综合化和智能化方面的要求越来越强烈,其中综合化是前提和基础, 智能化是目标和深化,是在综合网管的平台上研究人工智能方法的应用,以提供 更加复杂和强大的功能。而数据仓库技术是当前数据库和人工智能领域研究的热 点课题。在逐步提高网络管理系统的综合性和智能性的今天,在综合网管系统中 引入数据仓库技术己经成为了网络管理技术发展的一个必然趋势。本课题正是在 这样的背景下提出的。 1 2 课题研究目的 本课题研究的目的是结合以t k n 为代表的电信网管理论和数据仓库技术理 论,根据企业的统计分析需求,在本研究室自主研发的网元级网管系统的基础上 建设网络级综合网管系统i 并将数据仓库技术运用到其中,为决策提供统计分析、 报表查询的依据,提高网管系统的综合化和智能化。 1 。3 课题研究期间所做的工作 本文作者对数据仓库技术进行了深入的研究,并参与了地市级通信网络环境 及动力设备监控管理系统的全程研发和工程实践工作,所参与开发的“通信网环 境及动力设备监控管理系统”( 以下简称监控系统) 己投入使用。论文作者在系 统的设计和研发中主要工作包括如下几个方面: l 、在理论研究中,根据网络管理系统综合化的需求寻找数据仓库技术与网络管 理技术的结合点: ! ! 塞业壑壅堂塑生篓奎墼塑垒鏖茎查垄筮垒型鳖墨堡主墅型塞兰堡旦 一 1 ) 在功能上、结构上和实现方法上寻找使两者融合的途径,以便为数据仓 库、o l a p 及数据挖掘技术在实际的综合网管系统中的应用提供理论基础; 2 ) 根据综合网管系统中数据的一般特点和构成,研究并设计综合网管系统 中数据仓库的功能体系结构、信息体系结构和网络体系结构。 2 、在课题实践中,设计开发采用数据仓库技术的通信网环境及动力设备综合网 管系统: 1 ) 对系统进行需求分析,在考虑系统安全性、可扩展性等因素的基础上使 用数据库工具m ss q ls e r v e r 2 0 0 0 进行数据库及数据仓库的构建: 2 ) 负责系统需求分析、总体方案设计、功能设计以及管理界面开发小组工 作: 3 ) 负责系统网络拓扑管理、故障管理、性能管理、数据库管理、报表统计、 登录鉴权等功能模块的研发,并利用数据仓库实现决策支持的功能: 4 ) 负责管理界面及数据库部分在监控中心的工程安装和现场调测工作。 1 4 课题意义 本课题按照通信网络管理的各种相关规范并结合电信运营商的对数据分析 的实际需求研究了数据仓库系统的构建和相关技术,并将数据仓库技术运用到 网络管理系统的研发中,对现有系统中的网管数据进行整合,提出了数据仓库在 综合网管系统中应用的体系结构和模型设计的方法。 在课题实践中虽然以某具体电信运营商通信网环境及动力设备监控管理系 统的建设为研究背景,但该项研究对整个电信行业都具有很好的适用性,能满足 通信网环境及动力设备监控管理系统的功能需求。系统同时具有良好的可扩展 性、安全性和可维护性,用户使用方便。 另一方面,通信网环境及动力设备监控管理系统是全网综合管理系统的一个 重要组成部分,数据仓库技术在其中的实现对今后数据仓库技术在其他专业网综 合网管中以及全网综合网管中的实现具有一定的借鉴作用,是今后电信企业向高 技术智能化迈进的一种需要。 1 5 论文结构 以上简单介绍了本课题的研究背景、目的、内容和意义,本文其余部分将依 次展开对数据仓库技术及其在综合网管系统中的研究和应用的论述。 具体组织结构如下: 第一章:本文研究背景及内容简介。 第二章:结合t m n 理论对综合网管知识进行综述。 第三章:介绍数据仓库的概念、体系结构与模型等基础理论。 北京邮电大学硕士论文数据仓库技术在综合网管系统中韵研咒与应用 第四章:对本课题中用到的数据仓库的创建方法和相关技术进行阐述。 第五章:从理论上研究数据仓库技术在综合网管中应用的可行性,提出设计 方法、体系结构和建模方法。 第六章:结合课题项目,设计并实现数据仓库技术在监控系统网络级综台管 理系统中的应用。 第七章:对论文进行总结并对系统应用进行展望。 论文结构如图1 1 。 1 6 本章小结 砥:盘i 泣 一f l 苓唏理 i 甜2 一哪能 l 、 图2 2 t m n 管理分层模型与功能块的关系 2 3 综合网管系统的建设 我国幅员辽阔,整个电信网形成了一个复杂的分层结构,对电信网的综合管 理也必须采用分级管理的策略。一般来说,每一个市应该建立一个市级电信综合 网管中心,每一个省应该建立一个省级综合网管中心,省级网管中心都与全国综 合网管中心连接。 传统的网络管理系统以设备管理为核心,存在着基于多种技术实现的专业网 络管理系统,比如话音网络、数据网络、移动网络、光网络等等,它们基本上是 针对网元级设备的,在t m n 管理功能分层结构中属于网元管理层。侧重于对网元 设备本身的维护和管理,主要实现业务提供商对电信网络的远程控制、对设备及 网络的故障修复。这些专业网管系统采用各自特定的技术建设,隶属于不同的业 务提供商,即使属于同一业务提供商,其运营、维护和管理也会分散在不同的部 门中进行。可见,目前各种专业网络的网管系统彼此独立,各自管理范围狭窄、 操作界面多样、信息无法互通。 但是在电信网络中,所有的通信资源都是服务于客户的,网络管理系统也不 例外。网管要面向业务、服务和竞争,网管的范围不再仅仅局限于传统的交换、 传输等专业网络设备,而必须对所有参与通信的设备进行综合的全面的而且是相 互有关联的监控管理,综合分析的结果和数据不但可以指导运行维护工作,而且 可以提供给市场经营部门,为业务决策做好支持。 t m n 的目标在于提供一个强大、完整的管理体系结构,为建设综合网管系统 提供了一种思路,但是,对于目前存在的纷繁复杂的各专业网络,构建综合网管 系统要包括多面的综合要求和综合内容,要建造具有良好特性的综合网管系统并 不是一件容易的事情。由于电信网存在地域上的松藕合性和物理上的异构性,所 固曰习刁 北京邮乜大学顾士论文 数据仓库垫术在综合网管系统中的研究与应用 以本文作者认为综合网络管理系统的建设应该在分级建设的前提下进行分步建 设,即分别在地市级、省级和全国级各级都分2 步建设:第一步,利用t m n 的分 层管理和功能域思想,先建设各专业网综合网管系统;第二步,在此基础上,再 进行全网的综合网管建设。 多业务网络的综合网管系统 专业网1 综盒网管ll 专业网2 综合网管ii 专业网n 综合网管 斋湍赢祸高獾 管理ll 管理ii 管理ii 管理l j 管理ii 管理 丕童堑_ j【_ 礁ji 系统li 系统ii 系统ll 系统 专业同2c专业同n 图2 - 3 综合网管分步建设 此外,在企业综合网管系统的建设中,涉及到采用何种技术,集成分散的异 构的专业网网管数据,支持面向业务和事务的综合决策分析能力,改善数据库性 能,提高事务型数据和分析型数据的处理效率等问题。 2 4 本章小结 本章简要介绍了网管系统的管理内容和网管的国际性标准t m n ,并分析了 当前网络管理的现状和构建综合网管系统的复杂性,提出分两步建设先建各专 业网综合网管系统再建全网综合网管系统的思路,指出综合网管系统对数据处理 的新要求。 北京邮电大学硕士论文数据仓库技术在综合网管系统中的研究与应用 第三章数据仓库的基础理论 信息技术的迅速发展和企业管理决策支持的迫切需要,使数据仓库技术成为 决策支持领域中一种实用性极强的技术。正在向综合方向发展的网管系统也有对 大规模异构数据进行综合分析的处理需求,在综合网管系统中应用数据仓库技术 是网管技术发展的必然趋势。本章对数据仓库的基本概念、体系结构以及数据模 型等基础理论知识加以介绍,针对性地分析数据仓库技术符合网管系统需求的特 点、结构、模型和发展趋势。 3 1 数据仓库的基本概念 3 1 1 从传统数据库到数据仓库 当前企业管理中的数据处理可以划分为两类:操作型处理和分析型处理。 操作型处理也叫事务处理,是针对数据库联机的日常操作,侧重于数据响应 时间、数据的安全性和完整性,其处理方式和决策分析中的数据需求不相称,不 能满足人们对决策支持的要求。主要表现为: l 、决策处理中的系统响应问题 在传统的事务处理系统中,用户对系统和数据库的要求是数据存取频率要 高,操作时间要快。但在决策分析处理中,有的决策问题处理请求,可能会导致 系统长达数小时的运行,有的则需要遍历数据库中的大部分数据,这些操作必然 要消耗大量系统资源,这是对业务处理实时响应的事务联机处理系统所无法忍受 的。 2 、决策数据需求的问题 在进行决策分析时,需要有全面、正确的集成数据,不仅包含企业内部各部 门的有关数据,而且还包含企业外部的甚至竞争对手的相关数据。但在传统数据 库中,只存储了本部门的事务处理数据。如果将数据的集成交给决策分析程序处 理,将大大增加系统负担,如果数据库能完成数据的集成,就可大大提高运行效 率。 传统数据库一般只保留当前的数据,无法长期保留对决策分析具有重要意义 的大量的历史数据。而且,传统数据库只为支持日常事务处理需要,只保留一些 非常详细的数据,不能满足决策分析中所对汇总的、概括的数据的需要。 3 、决策数据操作的问题 - 8 - 北京邮电大学硕:b 论文数据仓库技术在综合网管系统中的研究与应用 传统的事务处理系统的结构基本上是一个典型的固定结构体系,操作人员只 能使用系统所提供的有限参数进行数据操作,操作结果只能以固定的报表方式为 用户提供信息,而决策分析人员则希望能用各种工具对数据进行多种形式的操 作,并以商业智能的方式表达出来。 为了解决上述问题,在数据库的基础上的适应决策分析的数据环境一数据仓 库( d w ,d a t aw a r e h o u s e ) 应运而生。数据仓库可以看作是数据库发展的衍生, 是对数据库中的数据再加工后形成的综合的面向分析的环境,其重点在于以一种 更适合于数据分析的方式组织数据,并将这些数据尽可能方便地展现出来。数据 仓库技术将从一个更加丰富、开阔的角度来呈现数据,这是数据库技术无法比拟 的。虽然存储在数据库中的数据代表了原始信息,但只有通过数据仓库技术重组 的数据才会使分析过程变得便捷、容易。 3 ,1 ,2 数据仓库的定义与基本特征 数据仓库创始人w i l lj a mh i n m o n 在他所著的b u i l d i n gt h ed a t a w a r e h o u s e 一书中对数据仓库所下的定义是:“数据仓库是一个面向主题的、集 成的、不可更新的、随时间不断变化的数据集合,用于支持管理层的决策过程。” 由这个定义可以看出数据仓库主要有以下四个特点: 1 、面向主题性 主题是在一个较高层次上将数据进行综合、归类并进行分析利用的抽象。每 一个主题对应一个宏观的分析领域。面向主题的数据组织方式,就是在较高层次 上对分析对象的数据的完整、一致的描述,这种描述不仅能统一地刻画各个分析 对象所涉及的企业的各项数据,而且还涉及到数据之间的关系。 2 、数据集成性 由于各种原因,数据仓库的每个主题所对应的的数据源在原有的分散数据库 中通常会有许多重复和不一致的地方,而且不同联机系统的数据都和不同的应用 逻辑绑定,所以数据在进入数据仓库之前必须根据决策分析的要求,将分散在各 处的源数据进行抽取、筛选、清理、综合,使数据仓库的数据具有集成性。 3 、数据的不可更新性 数据仓库的数据反映的是一段相当长的时间内历史数据的内容,主要供企业 决策分析之用。与面向应用的事务数据库需要对数据作频繁的插入、更新操作不 同,数据仓库中的数据所涉及的操作主要是查询和新数据的导入,一旦数据进入 数据仓库以后,一般会保持一段相当长的时间不进行修改操作,因此数据仓库可 以通过使用索引、预先计算等数据处理方式提高查询效率。 4 、数据的时变性 尽管数据仓库的数据不像数据库中的数据那样反映业务处理的实时状况,但 北京螺电火学硕士论文 塑驽仓库技术在综台嗣管系统中的研究与应用 也应该随时间的推移而发生变化。一方面,它必须不断捕捉数据库中关于某一主 题的变化的数据,并在经过统一集成后装载到数据仓库中。另一方面,数据仓库 中的数据也有存储期限,要随时间变化不断删去旧的数据,只是其数据时限远比 操作型环境的要长,比如根据需要可保存5 1 0 年内的历史数据,超过期限后删 除。 3 2 数据仓库体系结构 将数据仓库的所有部分结合在一起的结构,就是体系结构。一个典型的数据 仓库系统通常包含数据源、数据存储与管理、o l a p 服务器以及前端工具与应用 四个部分。如图3 一l : 图3 1 数据仓库的体系结构 数据仓库在创建后,首先要从数据源中抽取所需的数据到数据准备区,在数 据准备区经过数据的抽取、清理、装载和刷新处理,再加载到数据仓库数据库中, 最后根据用户的需求将数据发布到数据集市知识挖掘库中。当用户使用数据仓 库时,可以通过o l a p 等数据仓库应用工具向数据集市知识挖掘库或数据仓库进 行决策查询分析或知识挖掘,并在前端工具加以显示。 3 3 数据仓库模型 模型是对现实世界进行抽象的工具。数据仓库的设计是在概念模型、逻辑模 型和物理模型的依次转换过程中实现的。数据仓库数据模型关系图如图3 2 。 黼曰曰曰 北京仆b 大学颂士论文数据仓库技术在综合网管系统中的研究与应用 囤3 - - 2 数据仓库数据模型关系图 33 1 数据仓库的概念模型 数据仓库概念模型是给出一个数据仓库的粗略蓝本,以此为设计图纸来确认 数据仓库的设计者是否已正确了解数据仓库最终用户的信息需求。 数据仓库设计人员在需求分析阶段充分调查并描述了用户的应用需求,接着 要通过概念模型设计把这些具体的需求抽象为信息结构。数据仓库的数据模型中 不包含操作型的数据,只包含用户所感兴趣的分析数据、描述数据和细节数据, 以及由基本数据导出的衍生数据,并增加了时间属性作为关键字的一部分。 传统的数据库概念模型设计常用实体一关系( e r ) 图来描述实体和实体之 间的联系,但传统的e r 图无法表述数据仓库中所需要的分析数据、描述数据和 细节数据的关系,无法反映出时间属性的存在和作用,也无法表现出数据的导出 关系。为解决这些问题,可修改传统的数据模型构造工具实体关系图,将实体分 成指标实体( 事实实体) 、维度实体和详细类别实体( 引用实体) ,从而反映出数 据仓库所有的数据模型特征。 在数据仓库的概念模型中,主题是由事实表来反映的,维表则表示与该主题 有关的一些限定信息。 3 3 2 数据仓库的逻辑模型 逻辑模型设计是指在数据仓库中如何将一个主题描述出来。它是对概念模型 设计的细化。 在概念模型中所标识的每个主题域或指标实体都需要与一个逻辑模型相对 应。一般来说,数据仓库都是在现有的关系型数据库的基础上发展起来的,故数 据仓库中的数据仍然是以关系型表格的形式进行组织。逻辑模型就是要把不同主 题和维的信息映射到数据仓库中的具体的表中。在逻辑模型设计中,数据仓库开 发者关心的是数据仓库的结构和完整性,需要保证数据仓库的所有数据元素都包 含在数据模型中,并不关心这些数据元素来自何处以及如何获取,只关心这些数 北京邮电大学顾士论文数据仓库技术在综台网管系统中的研究与应用 据元素是否能满足用户的信息需求。 在确定了逻辑模型后,进一步设计出事实表模型和维度表模型,为下一步的 物理模型设计提供具体的设计对象。 3 3 3 数据仓库的物理模型 在确定了逻辑数据模型的事实表和维表后,就需要用物理模型确定这些表模 型的存储模式以及为方便这些表的操作而确定的各种索引模式。 物理模型是指数据在数据仓库中的存放形式和数据的组织形式。建立在关系 型数据库基础上的数据仓库的数据最终是由数据库系统进行管理的,所以物理模 型设计主要考虑构造物理数据库,包括数据的存储表结构、索引策略、数据的存 放位置和存储分配。根据设计要求和用户定义的具体应用,建立系统信息表、核 心事实表、维表、转换对照表等数据存储结构。 3 4 数据仓库的发展趋势 从前面的介绍可见,数据仓库的建立并不是要取代数据库,而是要建立在一 个较全面和完善的信息应用的基础上,用于支持高层决策分析。数据仓库目前仍 然用关系数据库管理系统来管理其中的数据。随着数据仓库应用的扩展,对数据 仓库提出越来越多的要求。数据仓库朝着以下方面发展: l 、基于关系对象数据库的数据仓库 关系对象数据库的出现,使数据仓库的设计可以引入对象的概念和技术,这 样,数据仓库开发人员可以很容易地将多媒体数据、复杂的数据类型和其他各种 类型的数据引入数据仓库,可以定义适合某种数据类型的最佳操作,从而满足用 户的更多要求。另外,当用户需求增长时,用户可以用客户端的特定功能来扩展 数据仓库平台的性能。 2 、支持w e b 的数据仓库 未来的数据仓库将越来越依赖于网络进行数据传输。用户可以借助内部网络 或外部网络使用数据仓库,这就需要数据仓库具有网络使用方面的能力。网络的 使用能力不仅涉及到企业内部的局域网,而且更多地涉及到i n t e r n e t ,要求w e b 网关不仅能将来自w e b 服务器的超文本语言( h i m l 或x m l ) 格式转换成特定数据 引擎的a p i ,而且能将数据引擎中的答案转换为h t m l 或x 肌格式,实现数据源 的抽取、转换和装载,在不同软件工具间进行元数据和内容的交换,并为数据仓 库集成数据。 3 5 本章小结 本章从为解决用户决策支持的需求而引入数据仓库着手,介绍了数据仓库的 北京| l | | j 电犬学硕士论文数据仓库技术在综合网管系统中的研究与应用 基本概念和“面向主题的、集成的、不可更新的、随时间不断变化”的主要特征, 并对数据仓库体系结构以及数据仓库的概念模型、逻辑模型、物理模型进行了描 述,提出了将对象的概念和网络的概念引入数据仓库中的发展趋势。 北京邮电大学硕: 论文 数据仓库技术在综台网管系统中的研究与应用 第四章数据仓库的创建和相关技术 由上一章可知,利用数据仓库中存储的信息可咀为决策提供支持。数据仓库 技术不只包括数据仓库本身,也包括以其为基础的多种应用层技术。在网管系统 中应用数据仓库正是需要通过这些应用层技术得以体现。 数据仓库的应用包括两方面的内容:首先是数据仓库的建设内容,其次是数 据分析的应用内容。本章对数据仓库的建模技术、主题确立、数据的e t l 过程和 数据分析中涉及的o l a p 等相关技术进行研究,在后续的第五章和第六章里将根 据本章的内容在综合网管系统中加以应用。 4 1 数据仓库的创建 4 1 1 数据仓库建模 创建数据仓库时,数据模型决定了数据仓库所能进行的分析的类型、分析的 细致程度、分析的效率以及响应时间等等。数据模型的构造是数据仓库建设过程 中重要的一步。 目前常用的三种数据建模方法是第三范式( 3 n f ) 、星型模式和雪花模式。操 作型数据模型常用3 n f 方法来建立。因为操作型数据模型的目标是消除冗余、支 持每天对同一数据多次重复操作的事务处理,完全支持对3 n f 参照完整性的维 护,但其数据仅用于当前的操作,而且很少存储衍生数据,只进行低度概括,一 般只用于报表功能,大多应用程序在需要时随时产生衍生数据。 与操作型数据模型不同的是,数据仓库数据模型的目标是随时提供对信息的 大量查询和检索,最终用户很少更新数据仓库。为了提高效率,数据仓库中可以 去掉参照完整性,预先计算并存储高度概括的数据,只包含一直有价值的数据, 所以其数据既是细节的又是历史的,数量很大,且要存储大量衍生数据,以节省 工作量和再次推导的时间。这些差异为数据仓库提出了有别于传统的操作型数据 库设计的建模技术。所以数据仓库中多用星型模式和雪花型模式进行设计。 1 、星型模式 星型模式是一种多维的数据关系,由一个包含主题的事实表和一组包含事实 的非正规化描述的维表组成。每个维表都有一个维作为主键,所有这些维组合成 事实表的主键,也就是说,事实表主键的每个元素都是维表的外键,事实表的非 主属性称为事实,它们一般都是数值或其他可以进行计算的数据,而维大都是文 北京邮电火学硕= b 论文数据仓库技术在综合网管系统中的研究与应用 字、时间等类型的数据。 1 ) 事实表 事实表是数据仓库架构中的中央表,包含联系事实与维度表的数字度量值和 键。事实数据表包含描述业务内特定事件的数据,即某些特定业务事件的度量值。 一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中。 2 ) 维表 维表中包含了存储在事实表中数据的特征数据。每个维表利用维度关键字通 过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事 实表中的外键不得为空,这与一般数据库中外键允许为空是不同的。这种结构使 用户能很容易地从维表中的数据分析开始,获得维度关键字,以便连接到中心的 事实表进行查询,这样就可以减少在事实表中扫描的数据量,以提高查询性能。 2 、雪花模式 雪花模式对星型模式中的维表进行了规范化处理,是对星型模式的扩展和进 一步标准化。雪花模式的维表中存储了正规化的数据,每一个维度都可以向外连 接到多个详细类别表。在这种模式中,维度表除了具有星型模式中维度表的功能 外,还连接到对事实表进行详细描述的详细类别表,这种结构通过把多个较小的 标准化基表( 而不是星型模式中的大的非标准化表) 联合在一起,详细类别表通 过对事实表在有关维上的详细描述达到缩小事实表、提高查询效率的目的。雪花 模式由于采取了标准化及维的低粒度,从而提高了数据仓库应用的灵活性。 4 1 2 数据仓库主题的确立与数据的组织 前面已经介绍过,数据仓库与传统数据库在数据的处理和数据的组织形式上 有所不同,这种差别要求数据仓库系统在设计时要考虑如下几点: 1 、如何确定主题及主题包含的数据 数据仓库的数据处理类型是分析型,数据仓库的创建、使用都是围绕着主题 实现的,因此,在进行主题抽取时,必须按照决策分析的对象进行,在主题的划 分中,必须保证每个主题要有独立的内涵和明确的界限。围绕主题重新组织数据 时,不适合决策分析要求的数据要抛弃,而且要将关于某一主题的、散落在其他 业务处理系统申甚至企业外部系统中的信息组织进来。在主题的数据组织中,不 同的主题之间可能会出现相互重叠的信息。这种重叠信息往往来源于两个主题之 间的联系,是逻辑上的重叠,而不是同一数据内容的物理存储重复。 2 、主题的存储方式 主题在数据仓库中可以用多维数据库方式存储,也可用关系数据库方式存 储。后者比前者存取效率高。主题只是一个逻辑上的概念,一个主题在数据仓库 中存储时可能需要几个表来实现。这些表之间的相互联系需通过表的主键来实 北京邮电大学硕士论文数据仓库技术在综合网管系统中的研究与应用 现。这些主键构成了主题的公共主键,实际存储的主题数据需要经过综合处理, 而不再是数据库中的详细数据。 3 、根据用户需求动态反馈进行设计调整 数据仓库面向的需求很灵活,没有固定的模式,在进行设计时,很难获得对 用户需求的确切了解,数据仓库的系统设计是一个动态的反馈和循环的过程,其 数据内容、结构、粒度、分割以及其他物理设计要根据用户所返回的信息不断地 调整和完善。 4 、充分利用已有数据,保持数据一致性 数据仓库系统的设计目标是保证数据的全局一致性,以实现对企业数据的全 局管理和控制。数据仓库所需的数据来源于已存在的业务处理系统内部。设计数 据仓库需考虑如何将从现存的数据源所得数据进行转换、重组和综合分析。要利 用已有的数据,必须要能识别出当前数据仓库系统和原有数据库系统之间的共同 性,尽可能地利用已有的数据和代码,而不必什么都从头开始。 4 1 3 数据仓库数据的抽取、转换和加载e t l 1 、e t l 的作用 数据抽取、转换和加载e t l ( e x t r a c t 、t r a n s f o r ma n dl o a d ) ,是数据仓库 创建过程中,将数据由数据源系统向数据仓库加载的主要过程。e t l 过程关系到 数据的质量,是数据仓库应用的基石。 1 ) 数据的抽取( e x t r a c t ) 。 数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据环 境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据 存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转 换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持 实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的 顺序、成败对数据仓库中信息的有效性则至关重要。 2 ) 数据的转换( t r a n s f o r m ) 。 数据的转换是指对从业务系统中抽取的源数据根据数据仓库系统模型的要 求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式 的数据的一致性和完整性,并按要求装入数据仓库。 3 ) 数据的加载( l o a d ) 。 数据的加载是将数据源系统中抽取、转换后的数据加载到数据仓库系统中。 对于建立在本身具有o d b c ( o p e nd a t a b a s ec o n n e c ti v it y ,开放数据库互连) 和j d b c ( t a v ad a t a b a s ec o n n e c t i o n ,j a v a 数据库连接) 接口的数据库管理系统 ( 如:m ss o ls e r v e r ,o r a c l e ,s y b a s e 等) 之上的数据库,可以通过o d b c 或i d b c 北京邮t b _ 人学硕士论文数据仓库技术在综合劂管系统中的研究与应用 接i z l 提取出来,经过数据清理与整合后,通过o d b c 或j d b c 接口导入数据仓库。 对于不具备o d b c 和j d b c 接口的数据库( 如:直接以一般的文本文件集合构成的 数据库) ,则通过中间件提取数据并导入数据仓库。 2 、e t l 过程中需注意的因素 e t l 过程是从操作型环境( 源系统) 向分析型环境( 目标系统) 集成数据的 过程,e t l 策略的制定必须考虑到源系统、目标系统、业务规则等多方面的因素。 1 ) 不同的数据格式 数据仓库中的数据用于决策支持,必须力求数据的正确性。由于众多的源系 统通常是由不同的人员开发的独立系统,相同数据的格式可能彼此不同。所以, e t l 策略必须定义一种能被所有源系统所接受的单一数据格式,以便将不同的数 据格式转换为这种单一格式。 2 ) 脏数据 数据在从操作型环境向分析型环境集成的过程中,从各数据库中提取出来的 数据可能是“脏”的,即包含了重复的记录、数据不完整或数据记录之间不一致, 必须经过净化和校验。e t l 策略不仅要对丢失的或无效的数据项进行处理,而且 还必须考虑那些已经通过了编辑检查却仍然不正确的数据。 3 ) 不兼容的源系统和源系统的改变 众多的源系统彼此独立,e t l 策略必须对不同的源系统提供不同的e t l 过程 和方法。另外,源系统也是动态的,其数据结构也会变化。e t l 过程应随时检查、 提取日志,以便发现这种变化,并采取适当措施。 4 ) 提取与加载窗口 提取过程对源系统的额外加载可能会超出它们的处理能力,将数据加载到数 据仓库中也会给其运行带来一定的负担。e t l 策略应对数据提取和加载的时间和 方式加以考虑,通常提取和加载时间应在避开业务高峰时间进行。 5 ) 业务规则 不同业务所要求数据的粒度、数据的量和数据的访问频率是不同的。e t l 必 须从实际出发,对数据的粒度、量和频率进行考虑。 4 2 数据仓库的相关技术 4 2 1 联机分析处理o l a p 数据仓库是管理决策分析的基础。要有效地利用数据仓库的信息资源,必须 要有强大的工具对数据仓库中的信息进行分析决策。联机分析处理_ ( o l a p ,o n l i n e a n a l y t i c a lp r o c e s s i n g ) 是一种应用广泛的数据仓库分析处理技术。o l a p 技术 有两个特点:是在线性,表现为对用户请求的快速响应和交互式操作;二是多 北京邮电大学硕= b 论文数据仓库技术在综合网管系统中的研究与应用 维分析,这也是o l a p 的核心所在。 o l a p 工具将数据仓库的数据组织成多维数据立方的形式,支持复杂的多维 分析,符合人们日常多角度、多侧面看问题的分析习惯。典型的o l a p 操作包括: 上卷,即增加数据的抽象汇总程度,减少细节;下钻,即增加数据的具体程度, 获取更多的细节;切片和切块,即选取数据立方中的某些单元投影出来;以及旋 转,即改变多维数据视图的显示角度。o l a p 利用多维数据集和数据聚集技术对 数据仓库中的数据进行组织和汇总,然后利用联机分析和可视化工具对这些数据 进行评价。从这个角度说,数据仓库的结构将直接影响到立方体的设计和构造, 也就影响到o l a p 的工作效率。 o l a p 系统在具体实现时,可以采用m o l a p 、r o l a p 或h o l a p 方式。如果采用 多维数据库存储、显示o l a p 数据,则称其为基于多维的o l a p ,即m o l a p 。m o l a p 的优势在于查询速度高和结构清晰明了。数据可按照行或列进行累加。数据仓库 与多维数据库在实际应用中是有差别的。数据要定期从数据仓库中导入到多维数 据库中。简言之,多维数据立方就是传统二维报表的多维化,是事实表的实体化 视图。数据立方浏览工具整合了上述上钻、下钻、切片和切块以及旋转操作,用 户只需要用鼠标点击就能查看数据立方中任意单元中度量汇总值。 4 2 3 数据挖掘d m 数据挖掘( d m ,d a t am i n i n g ) 是一种决策支持过程,最早源于人工智能的 学习,能高度自动化地从大量数据中提取人们感兴趣的知识。这些知识是隐含的、 事先未知的潜在的有用信息。与验证型分析工具o l a p 不同的是,d m 是一种挖掘 型的分析工具。数据挖掘技术不一定要建立在数据仓库的基础上,但如果将数据 挖掘和数据仓库协同工作,则可以简化数据挖掘的步骤,提高效率。同时,为了 保证结果的正确性,数据挖掘对基础数据量的需求是巨大的,数据仓库可以很好 地满足这个要求。 4 3 本章小结 本章结合数据仓库实际应用中需要考虑的因素,对数据仓库构建过程中涉及 的模型建立、主题确定、数据的一致性与存储、数据e t l 过程等方面进行了介绍, 并对后面章节中应用到的联机分析处理o l a p 、数据挖掘d m 等相关技术做了简要 介绍。 北京l | j l j 电大学硕士论文 数据盒库技术在综合网管系统中的研究与应用 第五章数据仓库技术在综合网管系统中应用的研究 根据现代网络管理综合化、智能化的需求,论文从第二章至第四章分别介绍 了以t 刖为代表的综合网管系统和数据仓库技术的相关内容。本章从应用的角 度,研究数据仓库技术在综合网管系统中应用的可行性、开发方法、体系结构和 模型设计,为数据仓库技术在环境及动力设备监控管理系统的综合网管中的开发 和实现奠定理论分析模型和基础。 5 。1 数据仓库技术在综合网管系统中应用的可行性 下面将从t m n 网管逻辑分层、网管功能体系结构和网管功能域等几方面分析 数据仓库在综合网管中应用的可行性,并提出具体可以应用在哪些方面。 51 1 从网管逻辑分层的角度分析 电信综合网管采用国际性网管标准t m n 。在m 3 0 1 0 中将:r m n 分为网元层、 网元管理层、网络管理层、业务管理层和事务管理层。数据仓库技术可以分别应 用在网管系统各个逻辑分层上: 网元层负责管理一个网元,在该层中,数据仓库主要负责不同类型网元产生 的异构数据的转换整理工作,也相当于一个数据库中间件的功能; 网元管理层直接对个别网元进行管理,该层中的数据仓库系统负责网元级的 数据分析统计、基于知识库系统的网元控制等功能; 网络管理层对所辖区域内的所有网元行使管理功能,该层中数据仓库中的主 要任务有网络级的数据分析和网络质量管理等功能; 业务管理层主要处理用户与网络运营者之间的接口、与业务提供者的交互, 以及与最高层的事务管理层的交互等,该层中数据仓库可以完成业务间的异构数 据聚合概括等工作; 事务管理层负责包括战略规划、市场、商业等方面的总的业务与网络事务, 该层中数据仓库技术可以为高级决策支持功能提供技术基础。 5 1 2 从网管功能体系结构的角度分析 了刖功能体系结构主要从逻辑上描述了t 涮内部的功能分布,各功能块之间 利用数据通信功能( d c f ) 来传递信息,并由参考点隔开。 t m n 的基本功能块有五种,操作系统功能( o s f ) 、中介功能( m f ) 、适配器 功能( o a f ) 、网络单元功能( n e f ) 和工作站功能( w s f ) 。数据仓库技术可应用 北京邮电大学硕士论文数据仓库技术在综合网管系统中的研究与应用 在功能块o s f 、m f 和w s f 中。如图5 一l 。 在o s f 中,面向对象数据仓库可以将管理信息中的数据以信息模型为结构进 行清理和转换,在为用户最终分析提供平台的同时,也保证数据结构与t m n 网管 系统的管理信息库保持致: 在m f 中,数据仓库可以为多种网元信息在这里进行数据的统一、过滤和压 缩等处理,使大量异类信息得以以标准接口的形式接受o s f 的进一步处理; 在w s f 中,数据仓库可以满足用户在告警预测、长期网络性能分析、故障处 理知识库等方面的要求。 目前还未出现在q a f 和n e f 中应用数据仓库技术的研究结论,而且数据仓库 技术也不涉及不同管理功能块边界的各参考点。 图5 1 数据仓库在t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中央商场安全管理制度
- 企业学徒纪律管理制度
- 专科仪器培训管理制度
- 中建项目劳务管理制度
- 仓库工作人员管理制度
- 上市公司质量管理制度
- 食品业企业卫生管理制度
- 企业高温补贴管理制度
- 当代中国文化的国际传播与生态环境建设研究
- 快速消费品营销策划方法
- 2025年中国品牌燕麦片(麦片) 市场供需格局及未来发展趋势报告
- 2025年水发集团社会招聘(249人)笔试参考题库附带答案详解
- 国家开放大学《四史通讲》形考作业1-7答案
- 计量管理知到智慧树章节测试课后答案2024年秋中国计量大学
- 《宏观经济学原理》课件
- 以学为主的历史教学心得体会
- 河口区域生态规划-深度研究
- 2024年保山市小升初英语考试模拟试题及答案解析
- 临床试验管理委员会的职责与流程
- 《急性胰腺炎诊治》课件
- 信息化和工业化融合管理体系 柔性生产指南 征求意见稿
评论
0/150
提交评论