(计算机应用技术专业论文)综合运行信息管理系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)综合运行信息管理系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)综合运行信息管理系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)综合运行信息管理系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)综合运行信息管理系统的研究与实现.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机应用技术专业论文)综合运行信息管理系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文 摘要 当今网络迅速发展,网络规模不断扩大,复杂性不断增加, 异构性越来越高。 建立 综合网管系统, 以实现包括全网故障分析和故障定位、 全网性能综合分析等功能的对全 网的综合管理是十分必要的。 “ 综合运行信息管理系统”将与网络管理相关的各种静 态信息、动态信息整合在一起,方便管理人员进行信息的查询,因此在网络运行出 现异常时能及时响应并排除网络故障,极大的提高了网络应急响应的速度和能力。 本文首先分析了实际需求, 系统设计的目 标和该系统实现的可行性; 然后讨论了数 据清洗技术, 基于x ml中间件技术实现了异构数据源数据的集成方案;并给出了w e b s e r v i c e 的部署机制;最后采用w e b日志挖掘技术优化网站设计,实现了一个综合运行 信息管理的原型系统。 关键词:网络管理,数据仓库,we b s e rv i c e ,日 志文件 ab s t r a c t n o w a d a y s n e t w o r k d e v e l o p s r a p i d ly , i t s s c a l e a m p li f i e s a n d i t s h e t e r o g e n e i t y i n c r e a s e s s o w e s h o u ld d e v e l o p a c o m p r e h e n s i v e n e t w o r k m a n a g e m e n t s y s t e m t o i m p l e m e n t f a u l t a n a l y s i s a n d l o c a t i o n o f t h e w h o l e n e t w o r k , a n d t o a c q u i r e t h e c o m p r e h e n s i v e p e r f o r m a n c e a n a l y s i s o f w h o l e n e t w o r k . c o m p r e h e n s i v e r u n n i n g i n f o r m a t i o n m a n a g e m e n t s y s t e m i n t e g r a t e s a l l k i n d s o f s t a t i c a n d d y n a m i c i n f o r m a t i o n r e l a t e d t o n e t w o r k m a n a g e m e n t , wh e n t h e n e t w o r k f a i l s , m a n a g e m e n t s y s t e m c a n r e s p o n d t o t h e p r o b l e m t i m e l y a n d g i v e c o m p r e h e n s i v e i n f o r m a t i o n t o h e l p m a n a g e r s o l v e t h e p r o b l e m . f i r s t l y , p r o j e c t b a c k g r o u n d , i n c l u d i n g u s e r r e q u i r e m e n t , d e s i g n o b j e c t s a n d f e a s i b i l i t y , i s a n a l y z e d i n t h i s t h e s i s ; i t d i s c u s s e s d a t a c l e a n i n g t e c h n o l o g y , a n d i m p l e m e n t s d a t a i n t e g r a t i o n o f h e t e ro g e n e o u s d a t a s o u r c e s b a s e d o n x m l m i d d l e w a r e ; i t a l s o e x p a t i a t e s o n w e b s e r v i c e m o d u l e; f i n a l l y , i t o p t i m i z e s t h e d e s i g n o f w e b s i t e u s i n g d a t a m i n i n g t e c h n o l o g y a n d i m p l e m e n t s a p ro t o t y p e s y s t e m o f c o m p r e h e n s i v e r u n n i n g i n f o r m a t io n m a n a g e m e n t . c h e n y o n g x i a o ( c o m p u t e r a p p l i c a t i o n t e c h n o l o g y ) d i r e c t e d b y p r o f w a n g y o n g k e y w o r d s : n e t w o r k m a n a g e me n t , d a t a w a r e h o u s e , we b s e r v i c e , l o g f i l e 华北电力大学硕士学位论文 摘要 当今网络迅速发展,网络规模不断扩大,复杂性不断增加, 异构性越来越高。 建立 综合网管系统, 以实现包括全网故障分析和故障定位、 全网性能综合分析等功能的对全 网的综合管理是十分必要的。 “ 综合运行信息管理系统”将与网络管理相关的各种静 态信息、动态信息整合在一起,方便管理人员进行信息的查询,因此在网络运行出 现异常时能及时响应并排除网络故障,极大的提高了网络应急响应的速度和能力。 本文首先分析了实际需求, 系统设计的目 标和该系统实现的可行性; 然后讨论了数 据清洗技术, 基于x ml中间件技术实现了异构数据源数据的集成方案;并给出了w e b s e r v i c e 的部署机制;最后采用w e b日志挖掘技术优化网站设计,实现了一个综合运行 信息管理的原型系统。 关键词:网络管理,数据仓库,we b s e rv i c e ,日 志文件 ab s t r a c t n o w a d a y s n e t w o r k d e v e l o p s r a p i d ly , i t s s c a l e a m p li f i e s a n d i t s h e t e r o g e n e i t y i n c r e a s e s s o w e s h o u ld d e v e l o p a c o m p r e h e n s i v e n e t w o r k m a n a g e m e n t s y s t e m t o i m p l e m e n t f a u l t a n a l y s i s a n d l o c a t i o n o f t h e w h o l e n e t w o r k , a n d t o a c q u i r e t h e c o m p r e h e n s i v e p e r f o r m a n c e a n a l y s i s o f w h o l e n e t w o r k . c o m p r e h e n s i v e r u n n i n g i n f o r m a t i o n m a n a g e m e n t s y s t e m i n t e g r a t e s a l l k i n d s o f s t a t i c a n d d y n a m i c i n f o r m a t i o n r e l a t e d t o n e t w o r k m a n a g e m e n t , wh e n t h e n e t w o r k f a i l s , m a n a g e m e n t s y s t e m c a n r e s p o n d t o t h e p r o b l e m t i m e l y a n d g i v e c o m p r e h e n s i v e i n f o r m a t i o n t o h e l p m a n a g e r s o l v e t h e p r o b l e m . f i r s t l y , p r o j e c t b a c k g r o u n d , i n c l u d i n g u s e r r e q u i r e m e n t , d e s i g n o b j e c t s a n d f e a s i b i l i t y , i s a n a l y z e d i n t h i s t h e s i s ; i t d i s c u s s e s d a t a c l e a n i n g t e c h n o l o g y , a n d i m p l e m e n t s d a t a i n t e g r a t i o n o f h e t e ro g e n e o u s d a t a s o u r c e s b a s e d o n x m l m i d d l e w a r e ; i t a l s o e x p a t i a t e s o n w e b s e r v i c e m o d u l e; f i n a l l y , i t o p t i m i z e s t h e d e s i g n o f w e b s i t e u s i n g d a t a m i n i n g t e c h n o l o g y a n d i m p l e m e n t s a p ro t o t y p e s y s t e m o f c o m p r e h e n s i v e r u n n i n g i n f o r m a t io n m a n a g e m e n t . c h e n y o n g x i a o ( c o m p u t e r a p p l i c a t i o n t e c h n o l o g y ) d i r e c t e d b y p r o f w a n g y o n g k e y w o r d s : n e t w o r k m a n a g e me n t , d a t a w a r e h o u s e , we b s e r v i c e , l o g f i l e 声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究 工作所取得的成果。 尽我所知, 除文中己经注明引用的内容外, 本学位论文的研 究成果不包含任何他人享有著作权的内容。 对本论文所涉及的研究工作做出贡献 的其他个人和集体,均已 在文中以明 确方式标明。 特此申明。 签名 : - 盆 鱼 五 日期 : 1 a o 5 , l 关于学位论文使用授权的说明 本人完 全了 解华北电 力大学有 关保留、 使 用学位论文的 规定, 即: 学校有 权保管、 并 向 有关部门 送交学位论文的原件与复印 件; 学校可以 采用影印、 缩印或其它复制手段 复制并保存学位论文; 学校可允许学 位论文被查阅或借阅: 学校可以 学术交流为日 的, 复制赠送和交换学位论文: 同 意学校可以 用不同 方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 喇岛 导师签名: 一 里 l 1 卫 日期: a0e s 4 . 日期: 1 . . 1 7 a 奋l i 华北电力大学硕士学位论文 第一章引言 . l课题背景 随着信息技术的飞速发展,网络应用的规模呈爆炸式增长,企业和政府部门开 始大规模建立网络来推动电子商务和政务的发展,伴随着网络业务和应用的丰富, 对计算机网络的管理与维护也就变得至关重要。 网络管理是指监测、组织和控制网络通信服务以及信息处理所必需的各种活动 的总称。其目的很明确,就是使网络中的各种资源能够更加高效地利用,当网络出 现故障时能及时作出响应和处理,并协调、保持网络的高效运行等。根据进行网络 管理的系统的能力,这一过程通常包括信息收集、信息处理,然后提交给管理者, 用于在网络操作中使用口 现代网络的正常运行受多种因素制约,设备配置信息,通信资源信息,系统日 志信息, i p和域名信息,用户信息,环境信息等。受限于网管人员的技术水平和对 网管软件的投入资金等众多因素,通常对这些信息的管理分别由网络运行中心、网 络信息中心、用户服务中心等不同网络管理部门负责。这些部门从自身需要出发, 开发的网络管理系统采用了不同的数据库结构,运行在不同的平台、不同的操作系 统上,彼此之间相互独立,信息的交互性差,形成了一个个 “ 信息孤岛” 。当网管 员分析和排除网络故障、调整网络性能时,不得不启用不同的网管软件和系统逐一 进行检查。这样就大大增加了检查过程的复杂性,同时也大大降低了工作效率.因 此,管理人员希望通过一套系统、一个界面,能全面监视影响网络服务性能的各种 环节,从而迅速定位故障原因。 如何快速、准确、全面地获取当前网络的各种数据信息,以方便管理人员对网 络的管理、维护,成为一个有待研究的课题。 课题 “ 一个综合运行信息管理系统的研究与实现”为网络管理人员综合运用各 种数据信息对网络进行有效管理、维护和故障排除提供了解决方案。 1 .2目 标与内容 综合运行信息管理系统是进行网络管理的重要的应用系统,对维护网络的正常 运行起着举足轻重的作用.他的研究与实施将改善网络管理的现有状况,维护网络 有效运行,并大大提高对网络运行异常情况的应急响应能力。通过对网络管理现状 的分析,需要的改进主要有以下几个方面; 华北电力大学硕士学位论文 第一章引言 . l课题背景 随着信息技术的飞速发展,网络应用的规模呈爆炸式增长,企业和政府部门开 始大规模建立网络来推动电子商务和政务的发展,伴随着网络业务和应用的丰富, 对计算机网络的管理与维护也就变得至关重要。 网络管理是指监测、组织和控制网络通信服务以及信息处理所必需的各种活动 的总称。其目的很明确,就是使网络中的各种资源能够更加高效地利用,当网络出 现故障时能及时作出响应和处理,并协调、保持网络的高效运行等。根据进行网络 管理的系统的能力,这一过程通常包括信息收集、信息处理,然后提交给管理者, 用于在网络操作中使用口 现代网络的正常运行受多种因素制约,设备配置信息,通信资源信息,系统日 志信息, i p和域名信息,用户信息,环境信息等。受限于网管人员的技术水平和对 网管软件的投入资金等众多因素,通常对这些信息的管理分别由网络运行中心、网 络信息中心、用户服务中心等不同网络管理部门负责。这些部门从自身需要出发, 开发的网络管理系统采用了不同的数据库结构,运行在不同的平台、不同的操作系 统上,彼此之间相互独立,信息的交互性差,形成了一个个 “ 信息孤岛” 。当网管 员分析和排除网络故障、调整网络性能时,不得不启用不同的网管软件和系统逐一 进行检查。这样就大大增加了检查过程的复杂性,同时也大大降低了工作效率.因 此,管理人员希望通过一套系统、一个界面,能全面监视影响网络服务性能的各种 环节,从而迅速定位故障原因。 如何快速、准确、全面地获取当前网络的各种数据信息,以方便管理人员对网 络的管理、维护,成为一个有待研究的课题。 课题 “ 一个综合运行信息管理系统的研究与实现”为网络管理人员综合运用各 种数据信息对网络进行有效管理、维护和故障排除提供了解决方案。 1 .2目 标与内容 综合运行信息管理系统是进行网络管理的重要的应用系统,对维护网络的正常 运行起着举足轻重的作用.他的研究与实施将改善网络管理的现有状况,维护网络 有效运行,并大大提高对网络运行异常情况的应急响应能力。通过对网络管理现状 的分析,需要的改进主要有以下几个方面; 华北电力大学硕士学位论文 1 各数据源数据的净化和清洗; 2 .异构数据源之间数据的集成; 3 .各数据之间的关联; 4 不同数据的安全要求: 5 .有效的信息显示方式等。 这就要求在研究过程中考虑以下几方面的问题: 1 .网络运行信息的规范和整合; 2 .对于这样大量的数据信息, 采用什么方式存储、 表示, 使之既有利于保证数据的 安全性和完整性又有利于实现信息共享和数据交换; 3 .大量的信息, 采取什么样的方式展示给管理人员, 以方便他们进行网络事件的诊 断。 综合运行信息管理系统不是一般的网络管理系统,它集成了网络管理各个部门 所负责的数据,其重点在于对各类网络信息的访问方式、信息格式、访问控制机制 等进行规范和整合,以便为网络运行事件的分析和诊断提供综合、详细的信息。 华北电力大学硕士学位论文 第二章系统体系结构与可行性分析 为了完成课题目标,本章描述了系统的体系结构。体系结构涉及到数据仓库、 数据集成、we b s e r v i c e 、数据挖掘等领域,比较复杂,所以对系统的可行性进行了 分析。本章对系统进行模块化划分,并分别对各个模块的可行性进行分析。 2 , 1系统体系结构设计 从实现的体系结构的角度出发,信息集成技术的发展主要经历了如下三个阶 段: 单个的联邦系统:将各数据源中的数据统一到一个单一集成系统中。这种方法 比较简单,集成系统有统一的数据模式,不用考虑分布数据的转化和统一。但是, 它存在一系列的问题:首先,构建这样一个集中式的系统需要很长的开发时间,要 求高性能的主机设备, 实现代价较高: 其次, 系统的扩展和维护会涉及到整个系统, 而且一个集成系统无法共享另一个集成系统的模块。 基于组件的分布式集成系统:用分布式的对象模型,诸如微软的分布式组件对 象模型( d c o m ) , c o r b a或s u n的r m i 来构建信息集成系统。 这种方法有效地避 免了单个联邦系统带来的开发代价大、代码难以重用的问题,利用网络计算环境实 现复杂的大规模信息集成。但是,d c o m, c o r b a或r mi 要求服务客户端与系统 提供的服务本身之间必须进行紧密祸合,即要求一个同类基本结构。这样的系统往 往非常脆弱:如果一端的执行机制发生变化,那么另一端便会崩溃。 基于w e b s e r v i c e 的信息集成系统:i n t e rn e t 的迅速普及和广泛应用对计算机技 术的发展产生了深刻影响,桌面应用正在向网络应用转移,从网上获得的不仅是信 息,还包括程序、交互式应用 ( 即服务) ,操作界面将在浏览器层面上得到统一, 兼容性由 网 络标准技术实 现( 如s o a p , u d d i , w s d l 等) 。 在w e b s e r v i c e 框架下, 使 用一组we b s e r v i c e 协议,构建信息集成系统。对每个数据源都为其创建一个we b s e r v i c e , 然后使用ws d l向服务中心注册。 当要构建一个新的集成应用时, 集成端 首先向注册中心发送查找请求收集并选择合适的数据源,然后通过s o a p协议从这 些数据源获取数据。 第三种方法克服了前两种方法的缺陷,具有完好封装、松散祸合、协议规范、 高度可集成能力等特性。因此本系统采用了荃于w e b s e r v i c e 的信息集成方案。 综合运行信息管理系统把各个异构数据源进行集成,为不同级别的管理员带来 大 盘 信 息 的 同 时 , 对 网 站 设 计 的 优 化 提 出 了 挑 麟 本 文 采 用w e b 数 据 挖 掘 技 术 , 通 3 华北电力大学硕士学位论文 第二章系统体系结构与可行性分析 为了完成课题目标,本章描述了系统的体系结构。体系结构涉及到数据仓库、 数据集成、we b s e r v i c e 、数据挖掘等领域,比较复杂,所以对系统的可行性进行了 分析。本章对系统进行模块化划分,并分别对各个模块的可行性进行分析。 2 , 1系统体系结构设计 从实现的体系结构的角度出发,信息集成技术的发展主要经历了如下三个阶 段: 单个的联邦系统:将各数据源中的数据统一到一个单一集成系统中。这种方法 比较简单,集成系统有统一的数据模式,不用考虑分布数据的转化和统一。但是, 它存在一系列的问题:首先,构建这样一个集中式的系统需要很长的开发时间,要 求高性能的主机设备, 实现代价较高: 其次, 系统的扩展和维护会涉及到整个系统, 而且一个集成系统无法共享另一个集成系统的模块。 基于组件的分布式集成系统:用分布式的对象模型,诸如微软的分布式组件对 象模型( d c o m ) , c o r b a或s u n的r m i 来构建信息集成系统。 这种方法有效地避 免了单个联邦系统带来的开发代价大、代码难以重用的问题,利用网络计算环境实 现复杂的大规模信息集成。但是,d c o m, c o r b a或r mi 要求服务客户端与系统 提供的服务本身之间必须进行紧密祸合,即要求一个同类基本结构。这样的系统往 往非常脆弱:如果一端的执行机制发生变化,那么另一端便会崩溃。 基于w e b s e r v i c e 的信息集成系统:i n t e rn e t 的迅速普及和广泛应用对计算机技 术的发展产生了深刻影响,桌面应用正在向网络应用转移,从网上获得的不仅是信 息,还包括程序、交互式应用 ( 即服务) ,操作界面将在浏览器层面上得到统一, 兼容性由 网 络标准技术实 现( 如s o a p , u d d i , w s d l 等) 。 在w e b s e r v i c e 框架下, 使 用一组we b s e r v i c e 协议,构建信息集成系统。对每个数据源都为其创建一个we b s e r v i c e , 然后使用ws d l向服务中心注册。 当要构建一个新的集成应用时, 集成端 首先向注册中心发送查找请求收集并选择合适的数据源,然后通过s o a p协议从这 些数据源获取数据。 第三种方法克服了前两种方法的缺陷,具有完好封装、松散祸合、协议规范、 高度可集成能力等特性。因此本系统采用了荃于w e b s e r v i c e 的信息集成方案。 综合运行信息管理系统把各个异构数据源进行集成,为不同级别的管理员带来 大 盘 信 息 的 同 时 , 对 网 站 设 计 的 优 化 提 出 了 挑 麟 本 文 采 用w e b 数 据 挖 掘 技 术 , 通 3 华北电力大学硕士学位论文 过对服务器日志文件进行分析发现隐藏在其中的用户访问模式,以此为根据对站点 结构进行优化.这样既增强了系统的安全性,又以规范的方式来展示信息,最终为 用户提供一个方便快捷的信息获取环境。 综合运行信息管理系统的体系结构图如图2 - 1 所示,不同的网络管理部门从自 身管理需要出发采用多种方式收集当前的网络信息;不同部门采集的数据信息的语 法结构和语义各不相同,把这些异构数据源的数据经过清洗后进行转化、集成,以 供被授权的管理人员查询、使用;网络的综合管理所需信息量巨大,不同管理人员 的兴趣和关注焦点各不相同, 采用数据挖掘技术为网管人员展示个性化的w e b 界面。 各模块的功能简单表述如下: . 中间件层模块: 系统的主要模块, 它的基本功能是各异构数据源中脏数据的清 洗;各个异构数据源数据的集成; . 数据调用模块:调用由中间件层模块集成的数据,初步以we b s e r v i c e 的方式提 供给网络管理人员; . w e b 日志挖掘模块: 对服务器中存储的日志文件进行数据挖掘, 发现相关页面集, 为不同管理员提供个性化站点服务。 中间件层 图2 - 1综合运行信息系统体系结构图 2 .2系统的功能设计 总体来说,综合运行信息管理系统是根据网络管理的实际需求和网络信息的结 构特点,提出面向实际网络运行管理的异构数据源之间的信息共享和关联模型,从 而方便网络管理员采取有效措施进行网络管理,并为及时响应和排除网络故障提供 详尽的信息。 它所完成的 功能包括: 把与维护网 络运行相关的各种数据源的数据进 华北电力大学硕士学位论文 过对服务器日志文件进行分析发现隐藏在其中的用户访问模式,以此为根据对站点 结构进行优化.这样既增强了系统的安全性,又以规范的方式来展示信息,最终为 用户提供一个方便快捷的信息获取环境。 综合运行信息管理系统的体系结构图如图2 - 1 所示,不同的网络管理部门从自 身管理需要出发采用多种方式收集当前的网络信息;不同部门采集的数据信息的语 法结构和语义各不相同,把这些异构数据源的数据经过清洗后进行转化、集成,以 供被授权的管理人员查询、使用;网络的综合管理所需信息量巨大,不同管理人员 的兴趣和关注焦点各不相同, 采用数据挖掘技术为网管人员展示个性化的w e b 界面。 各模块的功能简单表述如下: . 中间件层模块: 系统的主要模块, 它的基本功能是各异构数据源中脏数据的清 洗;各个异构数据源数据的集成; . 数据调用模块:调用由中间件层模块集成的数据,初步以we b s e r v i c e 的方式提 供给网络管理人员; . w e b 日志挖掘模块: 对服务器中存储的日志文件进行数据挖掘, 发现相关页面集, 为不同管理员提供个性化站点服务。 中间件层 图2 - 1综合运行信息系统体系结构图 2 .2系统的功能设计 总体来说,综合运行信息管理系统是根据网络管理的实际需求和网络信息的结 构特点,提出面向实际网络运行管理的异构数据源之间的信息共享和关联模型,从 而方便网络管理员采取有效措施进行网络管理,并为及时响应和排除网络故障提供 详尽的信息。 它所完成的 功能包括: 把与维护网 络运行相关的各种数据源的数据进 华北电力大学硕士学位论文 行清洗、整合;各异构数据源数据的存储和集成方案;对经过整合的数据的查询机 制;为不同级别的管理员设计灵活的管理界面以及整个系统的安全性能等。 该系统分为数据清洗、 数据集成、 we b s e r v i c e 、 个性化站点设计四大功能模块。 系统功能分析图如图 2 - 2 a 数据清洗 巍 fl we b s e r v i c e 系统 稚ft l a导 图2 - 2 系统功能分析图 2 .2 . 1数据清洗模块 数据清洗模块解决的是各数据源的数据质量问题。网络管理各个部门所负责的 不同数据源中的数据, 由于在系统设计上的不合理以及数据录入检查的不严格, 使系 统中的数据可能会存在各种错误;各个不同系统常常是在不同时期、不同环境下开 发的, 设计的不一致导致数据存储模式之间存在冲突, 单个系统的升级也会产生新系 统和旧系统模式的不兼容, 数据的错误和不一致就更加难免。 要使数据反映网络运行 的真实状态,为管理人员提供准确全面的信息,就必须对数据进行清洗。数据清洗 ( d a t a c l e a n i n g ) 的目 的是检测数据中存在的 错误和不一致,剔除或者改正它们,以 提 高数据质量。 2 .2 .2数据集成模块 数据集成的目的就是要为网络管理人员提供涉及多个网管系统的异构数据源 的统一查询机制,让网管人员像使用一个大数据库系统一样,用统一的方法使用来 自 不同数据源的数据。数据集成模块的设计是本系统实现的关键。 2 . 2 . 3 w e b s e r v i c e 部署模块 w e b s e r v i c e的核心就是集成,他们把计算机的处理能力从台式机传到数据中 华北电力大学硕士学位论文 行清洗、整合;各异构数据源数据的存储和集成方案;对经过整合的数据的查询机 制;为不同级别的管理员设计灵活的管理界面以及整个系统的安全性能等。 该系统分为数据清洗、 数据集成、 we b s e r v i c e 、 个性化站点设计四大功能模块。 系统功能分析图如图 2 - 2 a 数据清洗 巍 fl we b s e r v i c e 系统 稚ft l a导 图2 - 2 系统功能分析图 2 .2 . 1数据清洗模块 数据清洗模块解决的是各数据源的数据质量问题。网络管理各个部门所负责的 不同数据源中的数据, 由于在系统设计上的不合理以及数据录入检查的不严格, 使系 统中的数据可能会存在各种错误;各个不同系统常常是在不同时期、不同环境下开 发的, 设计的不一致导致数据存储模式之间存在冲突, 单个系统的升级也会产生新系 统和旧系统模式的不兼容, 数据的错误和不一致就更加难免。 要使数据反映网络运行 的真实状态,为管理人员提供准确全面的信息,就必须对数据进行清洗。数据清洗 ( d a t a c l e a n i n g ) 的目 的是检测数据中存在的 错误和不一致,剔除或者改正它们,以 提 高数据质量。 2 .2 .2数据集成模块 数据集成的目的就是要为网络管理人员提供涉及多个网管系统的异构数据源 的统一查询机制,让网管人员像使用一个大数据库系统一样,用统一的方法使用来 自 不同数据源的数据。数据集成模块的设计是本系统实现的关键。 2 . 2 . 3 w e b s e r v i c e 部署模块 w e b s e r v i c e的核心就是集成,他们把计算机的处理能力从台式机传到数据中 华北电力大学硕士学位论文 行清洗、整合;各异构数据源数据的存储和集成方案;对经过整合的数据的查询机 制;为不同级别的管理员设计灵活的管理界面以及整个系统的安全性能等。 该系统分为数据清洗、 数据集成、 we b s e r v i c e 、 个性化站点设计四大功能模块。 系统功能分析图如图 2 - 2 a 数据清洗 巍 fl we b s e r v i c e 系统 稚ft l a导 图2 - 2 系统功能分析图 2 .2 . 1数据清洗模块 数据清洗模块解决的是各数据源的数据质量问题。网络管理各个部门所负责的 不同数据源中的数据, 由于在系统设计上的不合理以及数据录入检查的不严格, 使系 统中的数据可能会存在各种错误;各个不同系统常常是在不同时期、不同环境下开 发的, 设计的不一致导致数据存储模式之间存在冲突, 单个系统的升级也会产生新系 统和旧系统模式的不兼容, 数据的错误和不一致就更加难免。 要使数据反映网络运行 的真实状态,为管理人员提供准确全面的信息,就必须对数据进行清洗。数据清洗 ( d a t a c l e a n i n g ) 的目 的是检测数据中存在的 错误和不一致,剔除或者改正它们,以 提 高数据质量。 2 .2 .2数据集成模块 数据集成的目的就是要为网络管理人员提供涉及多个网管系统的异构数据源 的统一查询机制,让网管人员像使用一个大数据库系统一样,用统一的方法使用来 自 不同数据源的数据。数据集成模块的设计是本系统实现的关键。 2 . 2 . 3 w e b s e r v i c e 部署模块 w e b s e r v i c e的核心就是集成,他们把计算机的处理能力从台式机传到数据中 华北电力大学硕士学位论文 心,通过无处不在的 i n t e r n e t 作为媒体,把应用程序连接起来。它可以跨越应用系 统的对象体系、 运行平台、 开发语言等的界限,以服务的形式封装应用并对外发布, 供不同级另 d 的网络管理人员调用,从而形成一个基于we b的服务共享平台。 2 .2 .4个性化站点设计模块 综合运行信息管理系统在对各异构数据源进行集成的同时, 使w e b 站点的信息 量及其复杂度迅速上升,从而直接导致管理人员查询信息的困难。因此,研究如何 使网站方便访问,如何在短时间内提供不同管理员所需信息,成为需要进一步考虑 的问题。一种有效的解决方案是运用 we b 数据挖掘技术, 通过预测该管理人员未来 的网页请求,对其进行预发送或推荐他有可能需要的网页,从而提供网站的个性化 服务。 同时信息的显示采用系统图和报表两种方式。系统图方式是以图形的方式描述 网络上的路由器、交换机和线路等信息,以不同颜色来区别显示正常运行和故障设 备,以方便管理人员对网络运行状况进行监视;报表方式是按照管理人员的要求将 各种数据以规范的方式生成表格进行显示。 2 . 3系统的可行性分析 从宏观的角度来说,整个系统的功能强大,涉及到较多的领域:即数据仓库技 术、 数据集成技术、 we b s e r v i c e 技术和数据挖掘技术等相关知识。无论从硬件环境 的设计还是软件系统的设计,所要求的技术的复杂度比较高。这个课题究竟是否可 行? 随着网络规模的扩大,复杂性、异构性的增加,对网络进行有效管理和提高异 常事件的及时响应能力成为迫切需要,所以该综合运行信息系统的实施必将得到网 络技术支持部门、 用户上门服务部门以及网络运行中心、 网络信息中心的大力支持, 为系统的顺利实施提供了人力合作方面的可行性。 数据是本系统的根本所在,如果不能 采用合理的机制集成各网管部门 所提供的 数据,那么整个系统便成了无源之水,一切都变成纸上谈兵。所以,异构数据源的 数据集成方案是整个系统设计的重中之重。随着数据仓库技术、数据集成技术的迅 猛发展, 特别是 x ml中间件集成技术的出现及成熟,为数据集成模块的成功实施 提供了技术上的可行性。 “ 数据挖掘包含了一系列旨在从数据集中发现有用而尚未发现的模式的技 术。 ”确切地说,数据挖掘是一种知识发现的过程,它主要基于统计学、人工智能、 机器学习 等技术,高度自 动化的分析数据,做出归纳性的推理,从中挖掘出潜在的 棋式,并对未来的情况进行预测,以辅助决策者评估风险、 做出正确的决策。而个 6 华北电力大学硕士学位论文 心,通过无处不在的 i n t e r n e t 作为媒体,把应用程序连接起来。它可以跨越应用系 统的对象体系、 运行平台、 开发语言等的界限,以服务的形式封装应用并对外发布, 供不同级另 d 的网络管理人员调用,从而形成一个基于we b的服务共享平台。 2 .2 .4个性化站点设计模块 综合运行信息管理系统在对各异构数据源进行集成的同时, 使w e b 站点的信息 量及其复杂度迅速上升,从而直接导致管理人员查询信息的困难。因此,研究如何 使网站方便访问,如何在短时间内提供不同管理员所需信息,成为需要进一步考虑 的问题。一种有效的解决方案是运用 we b 数据挖掘技术, 通过预测该管理人员未来 的网页请求,对其进行预发送或推荐他有可能需要的网页,从而提供网站的个性化 服务。 同时信息的显示采用系统图和报表两种方式。系统图方式是以图形的方式描述 网络上的路由器、交换机和线路等信息,以不同颜色来区别显示正常运行和故障设 备,以方便管理人员对网络运行状况进行监视;报表方式是按照管理人员的要求将 各种数据以规范的方式生成表格进行显示。 2 . 3系统的可行性分析 从宏观的角度来说,整个系统的功能强大,涉及到较多的领域:即数据仓库技 术、 数据集成技术、 we b s e r v i c e 技术和数据挖掘技术等相关知识。无论从硬件环境 的设计还是软件系统的设计,所要求的技术的复杂度比较高。这个课题究竟是否可 行? 随着网络规模的扩大,复杂性、异构性的增加,对网络进行有效管理和提高异 常事件的及时响应能力成为迫切需要,所以该综合运行信息系统的实施必将得到网 络技术支持部门、 用户上门服务部门以及网络运行中心、 网络信息中心的大力支持, 为系统的顺利实施提供了人力合作方面的可行性。 数据是本系统的根本所在,如果不能 采用合理的机制集成各网管部门 所提供的 数据,那么整个系统便成了无源之水,一切都变成纸上谈兵。所以,异构数据源的 数据集成方案是整个系统设计的重中之重。随着数据仓库技术、数据集成技术的迅 猛发展, 特别是 x ml中间件集成技术的出现及成熟,为数据集成模块的成功实施 提供了技术上的可行性。 “ 数据挖掘包含了一系列旨在从数据集中发现有用而尚未发现的模式的技 术。 ”确切地说,数据挖掘是一种知识发现的过程,它主要基于统计学、人工智能、 机器学习 等技术,高度自 动化的分析数据,做出归纳性的推理,从中挖掘出潜在的 棋式,并对未来的情况进行预测,以辅助决策者评估风险、 做出正确的决策。而个 6 华北电力大学硕士学位论文 心,通过无处不在的 i n t e r n e t 作为媒体,把应用程序连接起来。它可以跨越应用系 统的对象体系、 运行平台、 开发语言等的界限,以服务的形式封装应用并对外发布, 供不同级另 d 的网络管理人员调用,从而形成一个基于we b的服务共享平台。 2 .2 .4个性化站点设计模块 综合运行信息管理系统在对各异构数据源进行集成的同时, 使w e b 站点的信息 量及其复杂度迅速上升,从而直接导致管理人员查询信息的困难。因此,研究如何 使网站方便访问,如何在短时间内提供不同管理员所需信息,成为需要进一步考虑 的问题。一种有效的解决方案是运用 we b 数据挖掘技术, 通过预测该管理人员未来 的网页请求,对其进行预发送或推荐他有可能需要的网页,从而提供网站的个性化 服务。 同时信息的显示采用系统图和报表两种方式。系统图方式是以图形的方式描述 网络上的路由器、交换机和线路等信息,以不同颜色来区别显示正常运行和故障设 备,以方便管理人员对网络运行状况进行监视;报表方式是按照管理人员的要求将 各种数据以规范的方式生成表格进行显示。 2 . 3系统的可行性分析 从宏观的角度来说,整个系统的功能强大,涉及到较多的领域:即数据仓库技 术、 数据集成技术、 we b s e r v i c e 技术和数据挖掘技术等相关知识。无论从硬件环境 的设计还是软件系统的设计,所要求的技术的复杂度比较高。这个课题究竟是否可 行? 随着网络规模的扩大,复杂性、异构性的增加,对网络进行有效管理和提高异 常事件的及时响应能力成为迫切需要,所以该综合运行信息系统的实施必将得到网 络技术支持部门、 用户上门服务部门以及网络运行中心、 网络信息中心的大力支持, 为系统的顺利实施提供了人力合作方面的可行性。 数据是本系统的根本所在,如果不能 采用合理的机制集成各网管部门 所提供的 数据,那么整个系统便成了无源之水,一切都变成纸上谈兵。所以,异构数据源的 数据集成方案是整个系统设计的重中之重。随着数据仓库技术、数据集成技术的迅 猛发展, 特别是 x ml中间件集成技术的出现及成熟,为数据集成模块的成功实施 提供了技术上的可行性。 “ 数据挖掘包含了一系列旨在从数据集中发现有用而尚未发现的模式的技 术。 ”确切地说,数据挖掘是一种知识发现的过程,它主要基于统计学、人工智能、 机器学习 等技术,高度自 动化的分析数据,做出归纳性的推理,从中挖掘出潜在的 棋式,并对未来的情况进行预测,以辅助决策者评估风险、 做出正确的决策。而个 6 华北电力大学硕士学位论文 性化网站的设计正是运用数据挖掘技术,通过分析服务器中存储的用户访问日 志文 件,对用户可能访问的网页进行预测并予以推荐,以供用户选择。所以数据挖掘技 术为个性化站点的设计提供了技术上的可行性。 综上所述,开发综合运行信息管理系统会得到人员方面的支持,同时在技术上 也是可行的。 华北电力大学硕士学位论文 第三章数据清洗方案设计 综合运行信息系统所需的数据目前分散在各个网管部门在不同平台上构建的 不同的数据库系统中,由于各数据库系统是在不同时期、不同环境下构建的,设计 上的不合理以及数据录入检查的不严格, 使系统中的数据可能会存在各种错误, 数据 清洗( d a t a c l e a n i n g ) 模块设计的目 的是找到一种合理地机制检测数据中存在的错误和 不一致,剔除或者改正它们,以提高数据的质量,使这些数据信息反映网络运行的 真实状态。 3 . 1 系统数据概述 综合运行信息系统的数据主要是由各个网络管理部门依据自己的职责所收集 的, 如网络信息中心管理的i p地址信息、 域名信息;网络运行中心负责的设备信 息 、 、通信管道信息、用户信息二:以及网络流量信息、故障信息等。 这些数据的特点是: l . 数据来源多 数据信息分散在各个部门构建的数据库系统中。 2 . 突发性 i p 地址的获取与再分配、 用户联系方式的更改等均需调整数据库,另外网络流 量与故障信息均具有突发性,需要刷新数据库。 3 存储量大 综合网管系统涉及信息量巨大,涵盖了网络管理的各个方面。如设备信息就包 括设备型号、厂商、i o s版本号、设备端口与设备配置信息等,设备配置信息又包 括设备i p地址、对端设备情况、对端i p 、上连i p 、下连 i p等,需存储的信息量是 巨大的。 4 . 存储可靠性要求高 这些信息对维护网络的正常运行至关重要,要求可靠地存储,不允许造成数据 的损坏或丢失。 大量数据的存储必然离不开数据库,根据当前信息数据的存储环境采取合适的 数据清洗方案成为首要解决的问题。 华北电力大学硕士学位论文 3 .2数据清洗方案设计 数据清洗解决的是数据源中( 数据库系统或文件系统) 的数据质量问 题。数据的 质量问题主要有两个方面:单个数据源中的数据质量问题和多个数据源间的数据交 互问题。 3 .2 . 1单数据源数据质量问题 单个数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论