




已阅读5页,还剩48页未读, 继续免费阅读
(信号与信息处理专业论文)数据挖掘技术在电信网络管理系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在电信网络管理系统中的应用 摘要 随着网络技术的高速发展,网络管理的重要性越来越突出。网络 设备的复杂化使得网络管理变得复杂。同时,网络的经济效益越来越 依赖网络的有效管理,先进的网络管理也是用户所要求的。 目前,电信市场正在迅速扩张并越发竞争激烈,如何有效地整合 与充分利用信息资源,成为运营企业提高核心竞争力的关键。目前各 运营企业从网络设备与网络系统中可以方便地获取大量的数据,但从 这些海量数据中如何提取挖掘有用的信息,以帮助企业提高服务质量 及资源利用率,已成为燃眉之急。 利用数据挖掘相关技术,可以从海量运营数据中发现各类客户的 潜在消费模式和消费行为,从而提前预测各类服务特征,变被动服务 为主动服务;可以快速定位网络故障,了解网络性能,准确预测网络 容量;可以使运营企业更好地了解系统资源的利用率,从而合理的利 用调配系统资源,改善服务质量,提高客户的满意度,从而提高企业 竞争力。 本文介绍了数据挖掘技术的发展历程,总结了数据挖掘的主流技 术及其在网络告警关联分析中的应用,开发出了告警关联分析系统 t a c a s 并投入应用。该系统的目标旨在采用先进的数据挖掘技术,对 现用通信网络中的海量数据进行统计分析,以获取企业需要的新知 识、新规则和新方法,为企业提高服务质量,增加新业务提供辅助的 决策信息。 同时,论文描述了t a c a s 的设计、开发过程,对系统功能进行了 介绍,分析了系统所产生的结果对电信网络实际运营的意义。论文还 介绍了系统开发过程中所使用的算法及其原理。 关键词网络管理数据挖掘告警关联 t h ea p p l i c a t l 0 no f d a t am i n i n gt e c h n o l o g yi nt e l e c o m n e t w o r km a n a g e m e n ts y s t e m a b s t r a c t a sm e d e v e l o p m e m o fn e t w o r k t e c m o l o g y , t h en e t w o r k m a n a g e m e n ti sm o r ea n dm o r ei m p o r t a l l t t h ec o m p l i c a t i o no fn e m o r k e l e m e n t sm a k e st h em a n a g e m e n to fn e t w o r kd i 街c u l t m e a l l w h i i e ,t h e n e t w o r ke c o n o m i cb e n e f i td e p e n d so nt h ee f f i c i e n tm a n a g e m e n to f n e t w o r k t h ea d v a n c e dn e t w o r km 鲫a g e m e n ti su 玛e n t l yn e e d e db yt h e c 】i e n t s n o w a d a y s ,t h et e l e c o mm a r k e te x p a n d sr a p i d l ya i 】l d 也ec o m p e t i t i o n i sm o r ea n dm o r ef i e r c e i ti sak e ye l e m e n tf o rt h et e l e c o mo p e r a t 协g c o m p a n i e st h a th o wt oc o n f o m ia n du t i l i z et h ei n f o h l l a t i o nr e s o u r c e s u m c i e n t l y a l t l l o u 曲t h e 叩e r a t i n gc o m p a n i e sc o u i dg a i n s al a 唔e n u m b e ro fd a t af r o mn e t w o r kd e v i c e sa n ds v s t e m i ti sh a r df o rt h e mt o m j n eo u tu s e f u li n f o r m a t i o nf r o mt h eh u g ed a t as t o r a g e i ti s v e r y i m p o r t a n tf o rt h ec o m p a n i e st og e tt h eu s e 向li n f 0 订i l a t i o nt oi m p r o v et h e q u a n t vo fs e r v i c ea n dt h eu t i l i z a t i o nr a t i o w i t ht h e 出【t am i n i n gr e l a t e dt e c h n o l o g i e s ,m et e l e c o mo p e r a t i n g c o m p a n i e s c o u i d d i s c o v e r y t h e p o t e m i a lc o n s u m p t i o np a t t e m a n d b e h a v i o ro ft h ec l i e n t s ,p r e d i c tt h ec h a m c t e ro fv a r i o u ss e r v i c e sa n d i m p r o v et h es e r v i c e sf 沁mp a s s i v et oi n i t i a t i v e a l s o 。t 1 1 ec o m p a n i e sc o u l d l o c a t et h en e t w o r kf a u l t sm p i d l y ,k n o wm o r ea b o u tt h en e t w o r k p e r f o m l a n c ea n dm eu t i l i z a t i o nr a t i oo ft h es y s t e mr e s o u r c ea n dp r e d i c t t h en e t w o r kc 印a b i l i t y i th e l p st h ec o m p a n i e st od i s t r i b m et h es y s t e m r e s o u r c er e a s o n a b l y ,i m p r o v em eq u a l i t yo fs e r v i c e ,i n c r e a s et h ed e g r e eo f s a t i s f a c t i o na n de n h a n c et h ec o m p e t i t i o na b i l i t yo f t h ec o m p a l l i e s t h i sa r t i c l ea t t e m p t st oi n t r o d u c et 1 1 ed e v e l o p m e n to fd a t am i n i n g , s u m m a r i z e sm e 印p l i c a t i o no ft h em a i nt e c h n o l o g i e si nm en e t w o r ka l a m c o r r e l a t i o na n a l y s i s 0 u rt e 踟d e v e l o p e da l a r mc o r r e l a t i o na n a l y s i s s y s t e m( 1 a c a s ) t h i ss y s t e ma i m st oa n a l y z et h eh u g ea m o u n to fd a t a i nt e l e c o m m u n i c a t i o nn e t w o r k ,m i n et h en e wk n o w l e d g e ,m l e sa 1 1 d m e t h o d ,i m p r o v e m e q u a l i t y o fs e r v i c ea n d s u p p l y a s s i s t a n t d e c i s i o n m a b n gi n f o m l a t i o nt ot h ec o m p a n y t h i sa r t i c l ea l s od e s c r i b e st h ed e s i g n m ga 1 1 dd e v e l o p i n gp r o c e s so f t a c a s ,s h o w st h eo v e i e wo ft h e 向n c t i o na 1 1 da n a l y z et l em e a n i n go f t h i ss y s t e mt ot h et e l e c o mo p e r a t o r t h ea l g o r i t h n li n t e g r a t e di nt h i s s y s t e mi sa l s oi n 订o d u c e d k e yw o r d sn e t w o r km 锄a g e m e n t d a t a m i n i n g a l a m c o i t e l a t i o n 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文! 至塑料若有不实之 本人签名:;点i 处,本人承担一切相关责任。 日期 兰! 丑垒:生 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 导师签名 翔辱 日期:上骂一一 北京邮电大学硕士论文 1 1 研究背景 第一章概述 随着信息化建设的推进,人们对电信网络系统的依赖程度越来越高。每天, 都有数以千万计的电信用户通过网络来获得各种各样的服务,包括迅速发展的电 子商务、网络教育以及各类网格计算等,这就要求支持这些服务和应用的电信网 络系统具有高可靠性和可用性,以确保关键业务的永不间断运行。与此同时,随 着各种新业务的出现,电信网络也在发生变化,传统上以话音业务为主、以电路 交换为基础的电信网络,正向以数据业务为主、以分组交换为基础的新电信网络 框架过渡,出现电信网络、数据网络和广播网络三网融合的情况。面对当前规模 大、结构复杂、异构异质的电信网络,如何保证电信网络能可靠的运行和提供高 质量的服务,对网络管理来说是一个极大的挑战。 网络管理本身是一个高度综合和复杂的技术,涉及多个学科的基础理论和技 术,如网络可靠性理论、人工智能理论与技术、面向对象的分析与技术和数据库 技术等。 当网络中发生故障时,迅速地发现和排除故障,是保证网络可靠和健壮运行 的前提,是网络管理的首要任务。在网络故障发生之后,很难确定网络中出现故 障的位置。因为网络中各个部分的构件是相互影响的,其中一个构件出现问题, 其它相关的部分也会表现出网络故障的症兆,结果是每一个相关的构件上的监控 系统都发出告警信息。所以,当电信网络设备中出现故障或性能出现瓶颈,网络 管理人员经常会被一系列突发的、对确定故障原因无意义的告警事件所淹没。而 通过分析告警事件之间的相关性,可以将多个告警事件归结成较少的告警事件, 过滤掉无意义的告警事件。因此,对告警进行相关性分析,可以辅助网络管理人 员排除冗余的告警信息,准确的定位故障发生的位置,及时排除网络故障,保证 电信网络的正常和可靠运营。 1 2 网络故障的告警相关性分析 在设计电信网络设备时,系统开发人员会针对各个关键部件设计各种系统监 控管理模块。每当某一个设备模块出现异常时,监控管理模块都会产生告警事件, 第1 页共页 北京邮电大学硕士论文 表明设备出现问题。但在网络设备的设计阶段只会考虑到每个模块可能出现的情 况,而当许多设备模块组合起来后,相互影响的情况几乎是无法预见到的,对由 许多不同厂家的网络设备组成的电信网络中的情况,则更不可预见。所以,在实 际运营的电信网络中,当网络设备有一个故障发生时,会相应引起一系列告警事 件,其中有很多冗余的告警事件。具体包括如下几种情况: 1 仅仅由于一个故障,设备就产生了多个告警; 2 故障本身具有间歇性发作,这意味着每当故障发生时便发出告警事件; 3 当设备中某一个部件发生故障时,每次由该部件提供的服务被激活时都可 能发出告警事件; 4 单独一个告警可能被多个网络部件检测到,每一个部件都发出告警事件; 5 己知部件的故障可能影响到其它的几个部件,产生故障的扩散。 由于告警相关性分析所具有的实际应用背景和问题本身的复杂性,自告警相 关性分析问题被提出之后,很快成为网络管理领域的一个重要研究方向。人们尝 试各种各样的方法来解决这个问题,其主要算法可分为如下几类:基于规则的方 法,便于人们对问题的分析和理解,缺点是知识必须从专家获得,无自学习能力: 模糊逻辑方法可以通过模糊数学方法来刻画不精确的知识,但知识仍需从领域专 家那里获得;基于模型的方法,可以准确、快速地分析问题,但模型建立非常困 难,尤其是处于发展之中和经常发生变化的网络,模型需要经常修正;基于实例 方法,总是问题出现后并经过实际处理和解决后,系统才有处理该问题的能力, 所以该方法滞后于网络的发展;编码方法要求编码手册越小越好,因此该方法不 适合于大规模、复杂网络的告警相关性分析:贝叶斯方法的问题是计算边界概率 的复杂性是n p - h a r d ,而实际网络各个部件构成的网络节点数量巨大,因此在实 际计算节点间边界概率的效率是一个很难克服的问题;由于实际的告警数据包含 大量的噪音数据,所以神经网络方法订( 难找到一个好的数据集,来训练好神经 网络。总之,传统的方法都无法克服告警相关性知识获取的瓶颈。 然而,当前电信网络变得结构越来越复杂、规模越来越大,造成电信网络产 生的告警数量巨大,而且其中包含许多噪音数据,网络管理人员几乎无法对海量 的告警数据进行分析;电信网络总是处于不断的发展变化中,一些告警相关性规 则也会相应发生改变,通过传统的告警数据分析方法,已经无法及时获取新出现 的告警相关性知识,来满足网络维护的需要。因此迫切需要新方法,辅助网络管 理员分析网络中的告警相关性。数据挖掘方法研究如何从海量的数据中发现知 识,可以解决知识获取的瓶颈。因此,基于数据挖掘方法的告警相关性分析成为 第2 页共5 0 页 北京邮电大擘硕士论文 一个既有理论意义又有应用前景的研究方向,既是一个非常新颖的课题,同时也 是目前亟待解决的课题之一,具有一定研究价值及广阔的应用前景。 1 3 论文内容及本人所完成的工作 本文作者自2 0 0 3 年迸入北京邮电大学p s 实验室以来,长期从事网络管 理和网络告警及故障关联方面的研究。作为1 a c a s 项目组的主要成员,作者参 与了项目的立项、论证、开发、验收全过程。 在系统研发过程中,作者独立完成了相关度统计算法模块的设计和开发并将 其集成至系统中;协助项目组负责教师对项目开发的流程进行掌控,与运营商沟 通,了解需求,完善系统;在项目后期,作者主要完成了对系统各个模块和整体 性能的测试,撰写了t a c a s 测试报告。 本文研究尝试将数据挖掘算法引入到目前流行的网络故障管理中,并通过 t a c a s 项目的研发,论述了在实际运营网络中,如何通过基于告警关联规则的 数据挖掘算法,从海量数据中获取对于维护网络,排除故障有用的信息。 本文概述了网络管理的背景和发展现状,描述了数据挖掘的一些基本概念和 过程,介绍了1 a c a s 产生的背景、系统的结构、研发的过程和项目的意义。在 阐述数据挖掘发展过程的基础上,引入了数据挖掘主流算法并对算法及其原理加 以说明。同时,本文还描述了如何将数据挖掘算法与针对海量告警数据的处理相 结合,挖掘有效规则信息,并对t a c a s 运行所产生的结果进行了分析。 第3 页共5 0 页 北京邮电大学硕士论文 2 1 网络管理功能 第二章网络管理概述 网络管理从功能划分可分为五类m :故障管理( f a u nm a l l a g e m e m ) ,配置管 理( c o n f i g u r a t i o nm a n a g e m e n t ) ,计费管理( a c c o l l 碰n gm 卸a g e m e n t ) ,性能管 理( p e 渤瑚卸c em a l l a g e m e n t ) 和安全管理( s e c 谢t ym 锄g 咖曲t ) 。这五类管理 涵盖了网络管理功能的全部内容。 ( 1 ) 故障管理( f m ) 故障管理是网络管理中最基本的功能之一。当网络中某个成分失效时,网络 管理系统必须迅速查找到故障并及时排除。通常不大可能迅速隔离某个故障,因 为网络故障的产生原因往往相当复杂,特别是当故障是由多个网络部分共同引起 的。在此情况下,一般先将网络修复,然后再分析网络故障的原因。分析故障原 因对于防止类似故障的再发生相当重要。网络故障管理包括故障检测、隔离和纠 正三方面,应包括以下典型功能: 维护并检查错误日志; 接受错误检测报告并做出响应; 跟踪、辨认错误; 执行诊断测试; 纠正错误: 对网络故障的检测依据对网络组成部件状态的监测。不严重的简单故障通常 被记录在错误日志中,并不作特别处理;而严重一些的故障则需要通知网络管理 器,即所谓的“警报”。一般网络管理器应根据有关信息对警报进行处理,排除 故障。当故障比较复杂时,网络管理器应能执行一些诊断测试来辨别故障原因。 第4 页共5 0 页 北京邮电失擘硕士论文 ( 2 ) 配置管理( c m ) 配置管理同样相当重要。它初始化网络、并配置网络,以使其提供网络服务。 配置管理是一组对辨别、定义、控制和监视组成一个通信网络的对象所必要的相 关功能,目的是为了实现某个特定功能或使网络性能达到最优。 这包括: 设置开放系统中有关路由操作的参数; 被管对象和被管对象组名字的管理; 初始化或关闭被管对象; 根据要求收集系统当前状态的有关信息; 获取系统重要变化的信息; 更改系统的配置 ( 3 ) 计费管理( a m ) 计费管理记录网络资源的使用状况,目的是控制和监测网络操作的费用和代 价。它对一些公共商业网络尤为重要。它可以估算出用户使用网络资源可能需要 的费用和代价,以及已经使用的资源。网络管理员还可规定用户可使用的最大费 用,从而控制用户过多占用和使用网络资源。这也从另一方面提高了网络的效率。 另外,当用户为了一个通信目的需要使用多个网络中的资源时,计费管理应可计 算总计费用。 ( 4 ) 性能管理( p m ) 性能管理估价系统资源的运行状况及通信效率等系统性能。其能力包括监视 和分析被管网络及其所提供服务的性能机制。性能分析的结果可能会触发某个诊 断测试过程或重新配置网络以维持网络的性能。性能管理收集分析有关被管网络 当前状况的数据信息,并维持和分析性能日志。一些典型的功能包括: 收集统计信息; 维护并检查系统状态日志; 确定自然和人工状况下系统的性能; 改变系统操作模式以进行系统性能管理的操作 ( 5 ) 安全管理( s m ) 第5 页共5 0 页 北京邮电大学硕士论文 安全性一直是网络的薄弱环节之一,而用户对网络安全的要求又相当高,因 此网络安全管理非常重要。网络中主要有以下几大安全问题:网络数据的私有性 ( 保护网络数据不被侵入者非法获取) ,授权( a u t h e n t i c a t i o n ) ( 防止侵入者在网 络上发送错误信息) ,访问控制( 控制访问控制,控制对网络资源的访问) 。相应 的,网络安全管理应包括对授权机制、访问控制、加密和加密关键字的管理,另 外还要维护和检查安全日志。包括: 创建、删除、控制安全服务和机制; 与安全相关信息的分布: 与安全相关事件的报告 2 2 电信网络管理 随着社会经济的发展,人们对电信网的依赖性越来越大,希望电信网能给人 类提供方便、迅速、高质量的服务。但是,一旦电信网发生故障或者严重拥塞, 就会给社会生活、生产和各方面的活动造成十分严重的影响。 电信管理网主要包括网路管理系统、维护监控系统等。电信管理网的主要功 能是: 根据各局间的业务流向、流量统计数据有效地组织网路流量分配;根据网路 状态,经过分析判断进行调度电路、组织迂回和流量控制等,以避免网路过负荷 和阻塞扩散;在出现故障时根据告警信号和异常数据采取封闭、启动、倒换和更 换故障部件等,尽可能使通信及相关设备恢复和保持良好运行状态。随着网路不 断地扩大和设备更新,维护管理的软硬件系统将进一步加强、完善和集中,从而 使维护管理更加机动、灵活、适时、有效。 2 3 网络管理发展趋势 2 3 1 综合网络管理 综合管理的含义是多方面的,其中最重要的是将s n m p ( s i m p l en e l w o r k m a i l a g e m e mp r o t o c o l ,简单网络管理协议) 和c m i p ( c o n 皿0 nm 孤a g e m e m i n f o n i l a t i o np m t o c o l ,通用管理信息协议) 综合。这两种协议被称为n m ( n 叭v o r k 第6 页共5 0 页 北京邮电大学硕士论文 m a i i a g e i n c n t ,网络管理) 中著名的管理标准。s n m p 现有两个版本,即s n m p v l 和s n m p v 2 ,它们分别诞生于1 9 8 8 年和1 9 9 3 年。由于s n m p 简单、易实现、 研制周期短、软件开销较小,并且对于管理不太复杂的网络非常有效,所以得到 众多产品供应商的支持和广泛的应用( 例如在全球性网络i n t 唧e t 中的应用) 。 c m i p 协议是由i s o n m 框架制定的n m 协议,1 9 9 0 年成为国际标准。与其 说它是一个n m 协议,不如说它是一个n m 体系,这个体系包含以下组成部分: 一套用于描述协议的模型;一组用于描述被管对象的注册、标识和定义的管理信 息结构,被管对象的详细说明以及用于远程管理的原语和服务。c m 邛与s m 皿 一样,也是由被管代理和管理器、管理协议和m i b 组成。在c m i p 中被管代理 和管理器没有明确指定,任何一个网络设备既可以是被管代理,也可以是管理器。 c m i p 能提供六种服务原语,并有一整套配合标准,管理功能很强、很全面,是 正规化标准,适用于批量管理操作和大系统管理环境,代表着未来系统管理方向, 但软件开销较大,研制周期较长。 目前这两种管理标准系列还不能互相取代,预计共存局面将会维持很长时 间。国外许多人正在采取措施把它 f 】综合起来,这种综合将能大大加快聃的发 展步伐。 2 3 2 分布式网络管理 在网络界,除了s n m p 和c m i p 以外,还出现了一些新的网络管理协议, 其中以分布式管理环境( d m 巳) 最为著名。d m e 是0 s f ( 开放软件基金会) 根 据c m i p 、s n m p 和其它一些已成事实的标准提出来的。o s f 是一个非盈利的研 究开发组织,它推出的d m e 能通过多销售商的分布环境向统一的n m 系统提供 框架。d m e 也是一种面向目标技术,这种技术可与在目标管理小组( d m g ) 和工 业标准机构( 即能进行目标组合使用的请求代理机构) 中形成的规范相互配合使 用。 对端用户来说,d m e 的目的是提供一组相兼容的接口服务,这种接口能以 保密和可信的方式通过各销售商平台实现互操作。对软件开发商而言,d m e 可 选择开发应用条件,以便管理网络目标系统和减少应用的复杂性。对系统销售 商而论,d m e 可选择一种方法来管理网络和系统。 d m e 的目标是”提供一个n m 独立者”,并能为不同销售商的产品提供一个 坚固的平台。目前世界上开发的n m 系统平台有三种较有名气,即肿的 o p e n v i e w 、i b m 的n e t 、,i e wr ) ra 及s u n s o f i 的s o l s t i c e 系列,另外还有日本 第7 页共5 0 页 北京邮电大学硕士论文 富士通公司的n e t w a l k e r 也较有影响。可以说这些平台代表了n m 平台的最高技 术,现已在n m 方面取得了很好的应有效果。 2 3 3 网络管理智能化 目前的n m 系统大部分自动化程度低,许多n m 工作仍然需要大量高级专家 凭借多年积累的知识和经验来完成,例如n m 专家将报警信号联系起来,分析大 量数据,定出故障位置,隔离故障,并且系统地提出排除故障的办法。但由于专 家人数有限,难以满足实际需要,往往延误了n m 工作的完成。利用n m 专家 系统能弥补人类专家的不足,实现n m 的智能化和自动化。 专家系统实际上是一类特殊的计算机系统,它们通过某种手段”获取”人类专 家在某一领域的专门知识,依靠自身的推理机制,以接近人类专家的水平完成工 作。 专家系统的应用首先是因为现代的网络变得越来越大,结构更趋复杂,导致 n m 更加困难;其次是人们对n m 的要求在不断增加,人们无法容忍他们依赖的 网络出现瘫痪,希望尽快地发现 并解决问题。在n m 水平提高的同时,又因为专业知识要求的提高而使大 量的n m 人员束手无策。例如在性能管理中网络每天产生大量的管理信息,如 何在这些信息的基础上准确地判断网络的性能,并不是每一个n m 操作人员都 可以做到的事情。而借助于专家系统就可以在”专家”的层次上做出最佳的判断。 又如在故障管理中,诱发一个事件产生的原因是多样的,而一个故障的产生往往 又会以多种形式表现出来。处理这些带有模糊性的问题,专家系统是最合适的选 择。 第8 页共5 0 页 北京邮电大擘硕士论文 3 1 概述 第三章数据挖掘 数据挖掘( d a t am i n i r l g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息、知识、模式和趋势的过程。与数据挖掘相近的同义词有数据融合、数据 分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、 含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅针对特定的环境和情况,支持特定问题的 发现。 从商业的角度看,数据挖掘是一种新的商业信息处理技术,其主要特点是对 商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提 取辅助商业决策的关键性数据。数据挖掘其实是一类深层次的数据分析方法。分 析数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信 息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而 其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于 商业运作、提高竞争力的信息。 数据挖掘是一个逐渐演交的过程,电子数据处理的初期,人们就试图通过某 些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。随后,随着神 经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学 习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化 的规则,而计算机是通过使用这些规则来解决某些问题。8 0 年代人们又在新的 神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大 型商业数据库。随着在8 0 年代末一个新的术语,它就是数据库中的知识发现, 简称) d ( k n o w l e d g ed i s c o v c r yi nd 雏i b a ) 。它泛指所有从源数据中发掘模式 或联系的方法。人们接受了这个术语,并用k 叻来描述整个数据发掘的过程,包 括最开始的制定业务目标到最终的结果分析,而用数据挖掘( d a t am i n i n g ) 来描 述使用挖掘算法进行数据挖掘的子过程。 第9 页共5 0 页 北京邮电大学硕士论文 3 2 数据挖掘的基本过程 3 2 1 数据挖掘环境 一个数据挖掘的过程,需要相应的环境支持。一般来说,数据挖掘的环境包 括数据库、挖掘工具、可视化工具三个部分。其中,数据库用来存储用来进行处 理的数据和一些处理中间过程中的结果以及挖掘产生的规则等。挖掘工具包括开 发的软硬件环境,挖掘所采用的算法、处理策略等。可视化工具用来展示挖掘的 结果,通过良好的界面和合理的布局,将结果直观、清晰的展示出来,以供进一 步分析,如图3 1 所示。 3 2 2 1 数据挖掘过程 图3 1 数据挖掘环境框图 基本的数据挖掘步骤大致包括:定义商业问题、建立数据挖掘模型库、分析 及准备数据、建立模型、评价模型和使用模型六个步骤。这六个步骤可以按照一 定的顺序排列,但是由于数据挖掘不是一个单一线性的过程,因此,一个成熟完 整的数据挖掘过程有时需要反复的重复上述步骤,甚至打乱顺序,反复进行一些 操作。针对不同的问题,可以根据具体情况来调整各个步骤之间的关系。图3 2 是对这几个步骤的介绍。 第1 0 页共5 0 页 北京邮电大学硕士论文 3 2 2 1 定义商业问题 图3 2 敷据挖掘过程 在开始数据挖掘之前,首先要了解要分析的数据和业务问题。如果事先没有 这种了解,就没办法明确定义要解决的问题,不能为挖掘准备数据,也很难正确 的解释得到的结果。要想充分发挥数据挖掘的价值,必须要对要挖掘的目标有一 个清晰明确的了解,即决定到底想干什么。 3 2 2 2 建立数据挖掘库 连同下面的一个步骤,这两步一同构成了数据预处理的核心。在数据处理之 前,需要修改数据的格式以得到更好、更理想的结果。因此,就要把数据准备和 数据挖掘不断的反复进行。数据准备工作大概要花去整个数据挖掘项目的 5 0 一9 0 9 6 的时间和精力。 首先,要把准备挖掘的数据都收集到一个数据库中。这个数据库可以是一个 数据库管理系统,如o r a c l e 、s o ls e r v c r 等,同时,根据挖掘数据的数量大小, 也可以采取简单的电子表格作为数据存储的空间。 其次,要建立相应的数据集来存储要挖掘的数据。一般来说,直接在数据仓 第 页共5 0 页 北京邮电大学硕士论文 库上进行数据挖掘是不合适的。应该为每个挖掘过程建立一个单独的数据集。 再次,要对需要挖掘的数据进行修改。由于获得的要挖掘数据可能包含元数 据仓库中所没有的新字段,因此要根据实际情况进行调整。此外,如果数据仓库 不支持对数据进行各种复杂分析所需的数据结构,也应该对数据进行修改。 一般来说,建立数据库包括数据收集、数据描述和选择、数据质量评估和数 据清理、合并与整合、构建元数据和加载数据挖掘库等过程。这些步骤按照实际 的需要来进行,而在数据质量评估过程中了解到得东西也有可能会对最初的数据 选择进行修改。 3 2 2 3 分析和准备数据 这是建立模型之前的最后一步数据准备工作。可以把此步骤划分成选择变 量、选择记录、创建新变量和转换变量四个部分: a 选择变量。理想情况下,可以选择所有的全部变量并把他们输入到数据挖 掘工具中。但是在实际操作过程中,变量个数的增加会导致模型建立时问的上升, 而且将不需要的变量倒入模型,会使得模型产生结果的错误机会增多。因此,要 根据商业问题,依靠所从事领域的知识来选择有用的变量。 b 选择记录。如果数据量特别大,可以对数据进行抽样,要保证抽样是随机 进行的。这样的处理对大部分商业问题来说都不会丢失信息。在处理过程中,可 以用所有的数据建立一个模型,也可以根据不同的抽样方法建立几个模型,然后 评价这几个模型选择一个最好的。一般来说,要选择数据中明显的异常数据删除 掉。或者向数据中添加一些新的数据来保证模型的正确运行。 c 创建新变量。很多情况下,在准备数据过程中,需要从原始数据中衍生一 些新的变量作为预测变量。因为很多变量如果按照一定的方式组合起来( 加、减、 比率等) 会比这些变量自身影响力更大。一些变量如果扩大它的范围也会成为一 个非常好的预测变量。 d 转换变量。模型选择的算法和工具决定了都要对数据做一些转换工作。 如神经网络要求所有的变量都在o l 之间,因此在这些数据被提交到算法之前就 必须先对不在 0 ,1 内的变量进行映射。同样一些决策树算法不接受数值型变量 作为输入,在使用这些变量之前也要把这些数值映射到“高、中、低”等。转换 方式在一定程度上也影响了模型的准确度。 第1 2 页共5 0 页 北京邮电大学硕士论文 3 2 2 4 建立模型 建立模型是一个反复的过程。在确定最终模型之前,需要仔细考察不同的模 型以判断哪个模型最为有效。一旦决定了预测的类型之后,就需要为这个预测选 择模型的类型。可能是一棵决策树、神经网络、甚至传统的数学统计。选择什么 样的模型决定了需要对数据做哪些预处理工作。如神经网络需要做数据转换,有 些数据挖掘工具可能对输入数据的格式有特定的限制等。 为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的训练 一验证协议。其主要思想就是先用一部分数据建立模型,然后再用剩下的数据来 测试和验证当前模型。训练和测试数据挖掘模型需要把数据至少分成两个部分: 一个用于模型训练,另一个用于模型测试。如果不使用不同的训练和测试集,那 么模型的准确度就很难使人信服。用训练集把模型建立出来之后,就可以先在 测试集数据上先进行试验,此模型在测试集上的预测准确度就是一个很好的指导 数字,它说明如果将来与训练集和测试集类似的数据用此模型预测时,正确的百 分比会有多大。 3 2 2 5 评价模型 对模型的评价分为两个方面,即模型本身的验证和外部验证。 a 模型验证 模型建立好之后,必须评价模型的结果、解释模型的价值。由于从测试集中 得到的准确率只对用于建立模型的数据有意义,因此在实际应用中,随着应用数 据的不同,模型的准确率肯定会变化。准确度自身并不一定是选择最好模型的正 确评价方法,所以需要进一步了解错误的类型和由此带来的相关费用的多少。 无序矩阵是一个比较常用的工具。如图3 3 所示,无序矩阵把预测的结果与 实际的情况进行对比。它不仅说明了模型预测的准确情况,也把模型究竟在哪里 出了问题也展示了出来。下表是一个简单的无序矩阵,其中的列代表数据的实际 分类情况,行是预测的结果。在这张表值中,可以看到此模型在总共4 6 个b 类 数据中成功预测了3 8 个,8 个出了问题:2 个预测成了a ,6 个成了c 。显然这 比简单的说模型总体准确度是8 2 9 6 要更详细的多( 1 2 3 个成功预测除以总共1 5 0 ) 。 第1 3 页共5 0 页 北京邮电大学硕士论文 预测实际 类别a 类别b类别c 类别a 4 5 23 类别b l o 3 82 类别c 46 4 0 图3 3 无序矩阵 在实际应用中,如果每种不同的预测错误所需付出的代价( 金钱) 也不同的 话,那么代价最小的模型( 而不一定是错误率最小的模型) 就是我们所要选择的。 例如,上面的无序矩阵中,如果每个准确的预测会带来¥1 0 的收益,错误的预 测a 要付出¥5 的代价,b 是¥1 0 ,c 是¥2 0 ,那么整个模型的纯价值是: ( 1 2 3 ¥1 0 ) 一( 黔¥5 ) 一( 1 2 宰¥1 0 ) 一( 1 0 $ ¥2 0 ) = ¥8 8 5 然而考察下面的无序矩阵( 图 ) ,虽然准确度降低到7 9 ( 1 1 8 1 5 0 ) ,但纯 价值却升高了: ( 1 1 8 ¥1 0 ) 一( 2 2 $ ¥5 ) 一( 7 爿:¥1 0 ) 一( 3 爿c ¥2 0 ) = ¥9 4 0 预测实际 类别a类别b类别c 类别a 4 01 21 0 类别b 63 81 类别c 2 1 4 0 b 外部验证 图3 4 另一个无序矩阵 无论通过模拟的方法计算出来的模型的准确率有多高,都不能保证这个模型 在面对现实世界中真实的数据时能取得好的效果。由于模型建立过程中隐含了各 种假定,因此,经验证有效的模型并不一定是正确的模型。所以直接在现实世界 中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范 围推广。 3 2 2 6 使用模型 模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析 第1 4 页共5 0 页 北京邮电大学硕士论文 人员做参考,由分析人员通过察看和分析这个模型之后提出方案建议。另一种是 把此模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一项申 请打分等。还可以用模型在数据库中选择符合特定要求的记录,以用o l a p 工具 做进一步的分析。 通常情况下,模型会是某个商业过程的组成部分。在这些情况下,模型一般 都合并到应用程序的内部。数据挖掘模型通常一次只能处理一个事件或一个事 务。每个事务的处理时间和事务到达的速度,决定了模型运行所需的计算能力, 和是否要用并行技术来加快速度。 3 3 数据挖掘研究内容及常用技术 数据挖掘通过预测未来趋势及行为,做出预判得的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 3 3 1 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问 题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它 可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。 3 3 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因 果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中 数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 3 3 3 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们 对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统 的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术,其 要点是,在划分对象时不仅考虑对象之间的距离,还要求鲻分出的类具有某种内 涵描述,从而避免了传统技术的某些片面性。 第1 5 页共5 0 页 北京邮电大学硕士论文 3 3 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概 念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述 不同类对象之问的区别。生成一个类的特征性描述只涉及该类对象中所有对象的 共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 3 3 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。 3 4 数据挖掘技术发展趋势 1 应用的探索:目前正探索扩大其应用范围,如生物医学、电信等领域: 2 可伸缩的数据挖掘方法:一个重要方向是基于约束的挖掘,该方向致力于 在增加用户交互同时改进挖掘处理的总体效率; 3 数据挖掘与数据库系统、数据仓库系统和w e b 数据库系统的集成:数据 挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式: 4 数据挖掘语言的标准化; 5 可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。 6 复杂数据类型挖掘的新方法:复杂数据类型挖掘是数据挖掘中一项重要的 前沿研究课题; 7 w e b 挖掘:有关w e b 内容挖掘、w e b 日志挖掘和因特网上的数据挖掘服 务,将成为数据挖掘中一个最为重要和繁荣的子领域; 8 数据挖掘中的隐私保护与信息安全。 第1 6 页共5 0 页 北京邮电大学硕士论文 第四章t a c a s 的设计与开发 4 1t a c a s 的背景及目标 移动运营商拥有规模巨大的移动通信网络。但是网络规模的日趋扩大必定增 加网络管理的负担,其中,由于厂商设备的多样性、网络拓扑的复杂性和多变性, 使得网络告警的及时处理显得更为重要。某市移动通信公司的告警数据库中积累 了多年的历史告警数据,其中蕴含了一定的网络运行规律,如果能通过数据挖掘 的方法提取出其中的告警关联规则,就可在今后的网络运维工作中减轻网管人员 的工作强度,提高工作效率。因此,开发告警关联系统,对进一步提高生产效率 具有很强的现实意义。 t a c a s 研发的主要目的是通过在系统中集成若干数据挖掘算法,开发一个简 单易用、高效准确地定位故障根原因、快速发现故障间关联规则的系统。同时根 据实际网络维护情况验证结果的准确性,同时对算法提出改进和更新。 4 21 1 a c a s 的系统结构 采用数据库技术,在操作系统上完成主要的数据挖掘算法的集成,通过界面 展示,把系统建成一个实现告警关联分析,简单易用、可快速发现故障间关联规 则的平台,它可以满足移动网络维护人员在故
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论