




已阅读5页,还剩50页未读, 继续免费阅读
(计算机系统结构专业论文)数据仓库与数据挖掘技术在综合网管中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着电信行业的发展,国内各大电信运营商的综合网管数据库中都已积累了 大量的数据,如何充分地整合和分析这些数据为企业提供服务,是摆在企业面前 的重大课题。联通网络运营分析系统,依据网管系统所采集的网络配置数据、性 能数据和告警信息,运用数据仓库与数据挖掘技术,建立多种业务模型和预测算 法来对网络的运营质量提供业务分析和决策支持。 论文期间,本人学习了电信网管的相关理论,进行了数据仓库与数据挖掘相 关技术在综合网管中的应用研究。并且,直接参加了基于数据仓库与数据挖掘技 术的中国联通网络运营分析系统的实际开发。本论文先简要介绍了数据仓库和数 据挖掘的基本概念和网管运营分析的业务需求;重点介绍了该系统数据仓库逻辑 模型的设计过程,并结合实践剖析了其原理;具体介绍了回归预测与时间序列预 测的算法和在系统中的应用。目前,该系统已经在联通总部和北京、陕西等分公 司正式使用,并得到了网管人员的肯定。 关键词:数据仓库数据挖掘回归预测时间序列 a b s t r a c t a b s t r a c t w i t ht h e d e v e l o p m e n t o ft h e t e l e c o m m u n i c a t i o ni n d u s tr y :, a l ld o m e s t i c t e l e c o m m u n i c a t i o ns e r v i c ep r o v i d e r sh a v ea c c u m u l a t e d p l e n t yo fd a t ai nt h e i ri n t e g r a t e d n e t w o r km a n a g e m e n ts y s t e m i t sab i gp r o b l e mf o rt h e mt oi n t e g r a t ea n da n a l y z et h e s e d a t a t h eo p e r a t i o n a la n a l y s i ss y s t e mo fu n i c o mn e t w o r k , w h i c hd e a n & 0 1 1t h e c o n f i g u r a t i o n 、p e r f o r m a n c ea n da l a r md a t ac o l l e c t e df r o mt h et e l e c o m m u n i c a t i o n m a n a g e m e n to fn e t w o r k 仃) s y s t e m , a d o p tt h et e c h n o l o g i e so fd a t aw a r e h o u s ea n d d a t am i n i n gt ob u i l dm a n yo p e r a t i o nm o d e l sa n df o r e c a s tm e t h o d s s oi t 锄p r o v i d et h e o p e r a t i o n a la n a l y s i sa n dd e c i s i o ns u p p o r tf o r t h eo p e r a t i o n a lq u a l i t yo f n e t w o r k d u r i n gm yr e s e a r c h i n gp e r i o d , is t u d i e dt h er e l a t e dt h e o r i e so ft h et m n a n dd i dt h e a p p l i c a t i o nr e s e a r c hf o rt h ed a t aw a r e h o u s ea n dd a t am i n i n go nt h ei n t e g r a t e dn e t w o r k m a n a g e m e n t a n dit o o kp a r ti nt h eo p e r a t i o n a la n a l y s i ss y s t e mo fu n i c o mn e t w o r k w h i c hi sb a s e do nt h ed a t aw a r e h o u s ea n dd a t a m i n i n g f i r s tt l i i sp a p e rb r i e f l y i n t r o d u c e st h eb a s i cc o n c e p t so ft h ed a t aw a r e h o u s ea n dd a t am i n i n ga n do p e r a t i o n d e m a n d sf o rt h eo p e r a t i o n a la n a l y s i ss y s t e mo fn e t w o r k ;s e c o n d l yi tm a i n l yi n t r o d u c e s t h ed e s i g np r o c e s so ft o g i c a lm o d e lf o rt h ed a t aw a r e h o u s eo ft h i ss y s t e ma n de x p l a i n s i t sp r i n c i p l eb a s e do nm yp r a c t i c a le x p e r i e n c e ;l a s ti ti n t r o d u c e si nd e t a i lt h er e g l - e 鹞 f o r e c a s ta n dt i m e s e r i e sf o r e c a s ta r i t h m e t i ca n dt h e i ra p p l i c a t i o no nt h i ss y s t e m n o w , t h i ss y s t e mh a sb e e nf o r m a l l ya p p f i e di nt h eh e a d q u a r t e r so fu m c o m , b e u i n ga n d s h a n x ib r a n c h e s , a n ds a t i s f i e st h e i rr e q u i r e m e n t s k e y w o r d :d a t aw a r e h o u s e d a t am i n i n g r e g r e 鼹f o r e c a s t t t m e - s e d e s 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所列的内容外,论文中不包 含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其 它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期: 羔塑:呈 关于论文使用授权说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权属西安电子科技大学。本人保证毕业离 校后,发表论文或使用论文工作成果时署名仍然为西安电子科技大学。学校有权 保留送交沦文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分 内容,可以允许采取影印、缩印或其他手段保存论文。( 保密的论文在解密后遵守 此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名:翘 一 日期:墅堂! :3 翩鹳:t 垒兰叠吼塑塑 第。章绪论 第一章绪论 1 i 课题的来源及背景 在当今世界,几乎所有的行业都面对着激烈的竞争,正确及时的决策是企业 生存与发展的最重要环节。越来越多的企业认识到,只有靠充分利用、发掘其现 有数据,才能实现更大的效益。综合网管数据库经过长时间的运行,已经积累了 大量的数据,这些数据若用于运营分析、决策支持则会带来附加价值,所以如何 充分有效的利用这些数据已成为一个重要的课题2 0 0 3 年中国联通提出“网络两 三年内率先达到世界一流”的宏伟目标* 主要包括一流的技术层次l 一流的网管 水平;一流的维护手段;一流的运行质量;要实现这一目标,就应该建立一套能, 为网络建设的科学决策、资源的合理调配、网络性能的及时优化提供基础分析手 段的系统,这就促成了网管运营分析系统的产生。 中国联通作为中国的四大运营商之一,同时拥有g s m 和c d m a 两大移动网络, 网络管理更为复杂。目前,北京亿阳信通软件研究院提供的中国联通网管系统已 完成网元数据的采集、网络性能的实时检测、告警故障的处理解决了联通运营 商对移动网络设备的监测管理。随着移动业务的发展,联通运营商面临着发展中 的困境t 如何解决业务发展和网络能力的矛盾,如何解决弼络结构和网络资源的 矛盾。我们希望建立构架于中国联通总部综合网管之上的运营分析系统,充分树 用运营商在经营管理的过程中积累的丰富经验和宝贵的数据,帮助运营商解决发 展中的问题,以提高资源的利用率。提供良好的性能和高质量的业务,快速排障 降低运维的成本,保障主导业务的发展。 中国联通网络运营分析系统采用先进的数据仓库、o u 姆分析、数据挖掘技术。 无论从设计机理、数据的组织方式、存储数据的时问跨度上讲,数据仓库都是本 系统存储和管理数据的最佳选择o l a f 实现从不同的角度观察和理解运维中的问 题,并且能够快速获得查询结果。擞据挖掘技术提供一系列预测算法,可以实现 对联通网管业务数据的预澍,而高效、准确的业务预测将会对联通运营商发展新 业务,扩展传统业务,迅速占领市场,在竞争中确立领先地位产生举足轻重的影 响如何确定网络建设的容量和规模,如何确立网络扩容的时机,业务预测是重 要的依据。 中国联通网络运营分析系统能提供对多种网络指标的汇总、预测和统计分析, 为用户提供简洁的操作界面和强大分析功能,方便用户进行各种分析决笫工作, 对分析结果能按照用户需要提供多种展现方式,包括表格和各种图形。目前,该 系统已经在联通总部和北京、陕西等多个分公司使用,并取得了初步成效。 2 数据仓库与数据挖掘技术在综合网管中的应用 1 2 论文章节安排 本论文主要分五章介绍作者在硕士研究生期间所作的工作和成果。 第一章绪论,主要介绍了课题来源和背景。 第二章数据仓库与数据挖掘技术,简要介绍了数据仓库和数据挖掘相关技术 的基本概念。 第三章网管运营分析系统的业务需求,简要介绍了联通网络运营分析系统的 发展历程和系统目前的业务需求情况。 第四章联通网络运营分析系统的设计与实现,详细介绍了系统的总体架构、 数据仓库逻辑模型的设计实现、e t l 设计策略和前端展现的代码设计,重点介绍数 据仓库逻辑模型的设计过程,并剖析了其原理。 第五章预测技术在联通网络运营分析系统中的应用,具体介绍了回归预测和 时间序列分析法的理论描述及其在系统预测功能模块中的实际应用。 第二章数据仓库与数据挖掘技术 3 第二章数据仓库与数据挖掘技术 2 1 数据仓库基本原理 2 1 1 数据仓库的特点 数据仓库概念始予8 0 年代中期,首次出现是在号称。数据仓库之父w i l l i a m h i n m o n 的建立数据仓库一书中。目前,数据仓库一词尚没有一个统一的定义, w h h m 佃在其著作b i l n 幽喀t h ed a t aw a r e h o 础s e 一书中给予如下描述 数据仓 库是在企业管理和决策中面向主题的s u b j c c t 础t c d ) j 集成的( i n t c g r a t t a t ) ,与 时间相关的( t i m e - v a r i a m ) 、不可修改的一( a o n v o l a t i t c ) 数据集合。 对于数据仓库的概念可以从两个层次予以理解首先,数据仓库甩于支持决策, 面向分析型数据处理,它不同于企业现有的操作型数据库t 其次,数据仓库是对 多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据。而且 存放在数据仓库中的数据一般不再修改。 由上面的定义,可以看出数据仓库有四个特点i l l j : ( 1 ) 面向主题的( s u b j e c t - o r i e n t e d ) :数据仓库是围绕应用而组织的。就是说它 是面向主题的,如顾客、供应商、销售、产品等。数据仓库的关键是决策者的建 模与分折,以排除对决策无用的数据,提供针对特定主题的数据信息 ( 2 集成的( i n t e g r a t e d ) ,这是数据仓库最重要的特点。通常情况下,数据仓 库中的数据来源于多个面向应用的数据源,这些数据源可能是关系型数据库,一 般文件及联机事务处理记录使用数据清理和数据集成技术,将他们集成到数据 仓库中,必须确保命名约定、键码结柯:属性度量等的一致性 ( 3 ) 与时间相关韵( t i m e * v a r i a n t ) 。数据仓库以维度的形式组织数据时问维度 是数据仓库中一个重要维度。数据仓库中的数据周期要远远长予操作型系统中的 数据周辫:操作型数据库中的时间周规广般为6 0 9 0 天,j 丽数据仓库的数据周期 通常是5 1 0 年。 ( 4 ) 不可修改盼( n o n v d a t i l c ) :在数据仓库环境中并不进行一般意义上的数据 更新数据仓库不需要事务处理、恢复和并行控制机制通常。它只需要两种数 据访问,数据的一起载入和数据访闯 2 1 2 数据仓库体系结构 数据仓库系统一般多是一个包含四个层次的体系结构【2 i ,具体如图12 1 ;所示。 4数据仓库与数据挖掘技术在综合网管中的应用 r :1 : 数据仓库 : : 敲话售岸 - 昌勘日嚼) 数据源l 曰品 图2 1 数据仓库系统体系结构 ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息内部信息包括存放于关系型数据库管理系统( 1 m b m s ) 中的 各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞 争对手的信息等等。 ( 2 ) 数据的存储与管理:是整个数据仓库系统的核心,数据仓库的真正关键是 数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时 也决定了其对外部数据的表现形式要决定采用什么产品和技术来建立数据仓库 的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据, 进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范 围可以分为企业级数据仓库和部门级数据仓库( 也常称为数据集市) 。 ( 3 ) o l a p ( o n - l i n e a n a l y t i c a lp r o c e s s i n g ) 服务器:对分析需要的数据进行有效集 成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具 体实现可以分为;r o i a p ( r e l a t i o n a lo l a p ) 、m o l a p ( m u l t i d i m e n s i o n a l0 乙”) 和h o l a p ( h y b r i do l a p ) r o l a p 的基本数据和聚合数据均存放在r d b m s 之中;m o l a p 的基本数据和聚合数据均存放于多维数据库中;h o l a p 的基本数 据存放于r d b m s 之中,聚合数据存放于多维数据库中。 ( 4 ) 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘 工具以及各种基于数据仓库或数据集市的应用开发工具。 从结构的角度看,有三种数据仓库模型:企业仓库、数据集市、虚拟仓库。 ( 1 ) 企业仓库搜集了关于主题的所有信息,跨越整个组织。它提供企业范围内 的数据集成,通常来自一个或多个操作的系统,或外部信息提供者通常,它包 含详细数据和汇总数据,其大小由数千兆字节到更多。企业数据仓库可以在传统 的大型机上实现。 ( 2 ) 数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范 围限于选定的主题,数据周期一般以周计算。然而,如果它们的规划不是企业范 围的,从长远讲,可能涉及很复杂的集成。根据数据的来源不同,数据集市分为 第二章数据仓库与数据挖掘技术5 独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作的系统或 外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖的数 据集市中的数据直接来自企业数据仓库。 ( 3 ) 虚拟仓库是操作数据库上视图的集合。为了有效地处理查询,只有一些可 能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器具有剩余能 力 2 2 数据的预处理 数据仓库的数据预处理又叫抽取、转化和装载处理( 简称e 1 l 处理) ,g r l 处理是数据仓库中工作量最大的部分也是最重要的工作。据统讳一个数据仓 库的7 0 韵时间和费用用予数据的移植和转换。勘阢的具体处理过程,如图2 2 所示。e 陀工具通过o d b c 接口连接源数掘库,从源数据库中提取相应的源数据 表,获取源数据字段;数据经过聊吨工具处理之后生成具有一定格式的数据,然 后导入到目标数据仓库中。这一对数据进行的处理过程概括为抽取、转换以及装 载( 即e t l x 由于e t l 过程处理的源数据可能存在错误的、无效的、格式不一致 的、非集成化的数据,所以要想从数据中获取准确的信息,数据必须经过清洗、 转换后才能导入数据仓库。 髓皮b 理通常采用第三方工具进行。当然,如果数据仓库和源数据库是相同的 数据库管理系统,可以考虑采用存储过程,也是节约开发成本的好办法 e t l 处理的最终目的就是要对数据仓库实现数据的初始化、数据的追加和数 据的更新。具体来说,数据仓库数据的初始化包括维度表的初始化,事实表的初 始化以及聚集事实表的初始化需要注意的是:根据事实表和维度表的关联,应 当先初始化维度表,再初始化事实表和聚集事实表。数据的追加也包括这三类表 的数据追加,而数据的更新则主要是指维度表数据的更新其中,e r l 处理的具 体过程如下所述。 l ,数据清理 数据清理研究的是如何处理数据的遗漏、噪声和不一致性问题。它是数据预 处理的第一步对于采集到系统中的大量数据,首先应该做的是保证这些数据是 完整可信的,然后才能够对数据进行相关的处理。下面简单介绍对这些问题的常 6数据仓库与数据挖掘技术在综合网管中的应用 用处理方法: ( 1 ) 清理数据遗漏的方法 对于遗漏数据一般采用忽略或用替代值填补的解决方法。对于遗漏数据比较 少,同时遗漏数据不会对系统处理结果有大的影响的情况可以采用忽略的办法。 用替代值填补的方法主要包括:用预先选定的缺省值替代遗漏数据;用插值算法 的计算结果替代遗漏数据;用最有可能出现的预测数据替代遗漏数据,该方法得 到的结果最优。 ( 2 ) 清理数据噪声的方法 噪声是指数据中的随机偏差,去除噪声可以保证数据处理的结果仅受用户关 心的属性的影响,尽可能地减少其他因素对结果的影响,保证结果的正确性。噪 声清理主要有平滑噪声和删除噪声两类方法。平滑噪声的方法不删除已有数据。 而是对已有的数据进行平滑处理,从而减少数据的噪声。常用的方法包括分箱、 回归、频率滤波等。删除噪声的方法是将被认为是噪声的数据删除。因此它的主 要处理方法是噪声数据的识别,常用的方法有聚类。差异识别等。 ( 3 ) 清理数据不一致的方法 保证数据一致性是数据清理的一个难题,因为数据的一致性难以被检测,而 且数据的一致性需要考虑全体数据的特征,因此处理的难度比较大,现实可行的 方法也不多 2 ,数据集成 不同数据源的数据定义是不尽相同的,当把这些数据统一存储到一个数据库 时,我们需要对不同数据源采集的数据进行集成以方便数据的后续处理。数据集 成需要解决的问题包括各个不同数据源的数据统一。冗余数据的合并等。 3 ,数据转换 为了使数据能够按照算法需要的形式出现,必须对数据进行相关的转换。与 数据集成不同,数据转换的目的是适应特定算法的处理需要,而不是数据的统一 存储。数据转换的方法根据不同需要有不同的解决方案,主要包括数据泛化、数 据规范化和属性构造。 2 3o l a p 技术 2 3 1 0 l 心概述 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n 1 i n et r a n s a c t i o n p r o c e s s i n g ) 、联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 。o l t p 是传统 的关系型数据库的主要应用,主要是基本的、日常的事务处理。o l a p 是数据仓库 第二章数据仓库与数据挖掘技术 7 系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查 询结果。 联机分析处理的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的。当 时,c o d d 认为联机事务处理已不能满足终端用户对数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对 关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的 需求。因此c o d d 提出了多维数据库和多维分析的概念,即o “蟑。他同时提出了 关于o l a p 的1 2 条准则。o l a p 的提出引起了很大昀反响,0 帷p 作为一类产品 同联机事务处理明显区分开来。 o l a i ”涉及的数据量很大,并且是针对某个问题的多维数据进行处理,因此 o l a p 通常建立在数据仓库的基础之上。o l a f 使用数据仓库的历史数据,数据怒 期追加但不更新。而o l t p 系统的数据是基于业务系统中韵原始细节数据,主要面, 向操作人员。 o l a p 主要是企业中高层决策人员使用,它面向分柝,由分析驱动。分析问摩 常常需要从多种维度进行观察,并且需要考察历史数据因此,一次o l a p 处理 需要访问大量数据,面一次o l t p 操作只是一次事务处理,涉及的面比较窄,需要 韵数据比较少。 2 3 2o l a p 的基本概念 o l a p 是针对某些特定的主题进行联机数据访海。处理和分析,通过直观的方 式从多个维度、多种数据综合程度将一些信息展现绘决策管理层。o l a p 的目标是 满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是”维 度”这个概念。 。维度”。习惯上简称“维”,是人们观察客观世界的角度,是一种高层次的 类型划分。每一个角度代表一个维度,如时间维度和地理维度。数据仓库中的数 据就按照这些维度来组织,维度也就成了数据仓库中识别数据的索弓 同时,+ 数 据仓库中的维度还可以作为数据仓库操作过程的路径幺这些路径通常位于维度的 不同层次结构中。通过把一个实体的多项重要的属性定义为多个维度,使用户能 对不同维度上的数据进行比较。相对予数据的粒度( 它是指数据存储的细化程度) , 维度也存在着层次性的问题。维的层次性是由于不同的管理人员观察分析数据的 细致程度不同而造成的。如时间维度,有些人关心小时性能数据,有些人关心日 汇总性能数据,还有的入关心月汇总性能数据等;这就需要有小时、日、月等时 间维度层次。维度层次的确定需要具体问题具体分析。不同的应用对数据组织的 细化程度要求不同,即使是同一维度针对不同的应用维度,其层次也不一定相同; 8 数据仓库与数据挖掘技术在综合网管中的应用 如同样是时间维度,有的分析需要有小时、日、月、季度、年等时间维度层次, 而有的分析只需要有月、年时间维度层次。维度的层次主要是为了进行o l a p 的 向下钻取和向上聚合操作,从而让用户能够查看不同层次的数据。因此,0 乙垤 也可以说是多维数据分析工具的集合。 0 乙蟑的基本多维分析操作有钻取、切片和切块等。以下介绍o l a p 的基本操 作: ( 1 ) 钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。向 上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据;而向下钻取 则相反,它从汇总数据深入到细节数据进行观察。 ( 2 ) 切片和切块是在一部分维度上选定值后,关心度量数据在剩余维度上的分 布。如果剩余的维度只有两7 陌则是切片;如果有三个,则是切块。 ( 3 ) 旋转是变换维度的方向,即在表格中重新安排维度的放置,如行列互换。 0 u 蟑有多种实现方法,根据存储数据的方式不同分为r o l a p 、m o l a p 、 h o l a p 。 r o u 心( r e l a t i o n a lo l 蟠) 表示基于关系数据库的o l a p 实现。以关系数据 库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多 维结构划分为两类表:一类是事实表,用来存储数据和维度关键字;另一类是维 度表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。 维度表和事实表通过主键和外键联系在一起,形成了”星型模式”。对于层次复杂的 维度,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式 的扩展称为”雪花模式” m o u 姬( m u l t i d i m e n s i o n a l0 u 垃) 表示基于多维数据组织的o l a p 实现以 多维数据组织方式为核心多维数据在存储中将形成”立方块”的结构,在m o l a p 中对。立方块”的旋转、切块、切片是产生多维数据报表的主要技术 、 h o l a p ( n y b r i do l a p ) 表示基于混合数据组织的o l a p 实现。如低层是关 系型的,高层是多维矩阵型的,这种方式具有更好的灵活性。 目前常见的o l a p 主要是m o l a p 和r o l a p 两种。m o i a p 是以多维的方式 组织和存储数据,r o l a p 则利用现有的关系数据库技术来模拟多维数据。在数据 仓库应用中,o l a p 应用一般是数据仓库应用的前端工具,同时,o l a f 工具还可 以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。 2 3 3o l a p 与o l t p 的区别 操作型数据库系统的主要任务是执行联机事务和查询处理,被称为联机事务 处理( o l t p ) 系统。它涵盖了一个企业的大部分日常工作,如电信企业网管的性 第二章数据仓库,数据挖掘技术 9 能查询、配置查询、告警查询和计费查询等。而数据仓库系统则为管理人员提供 数据分析和决策方面的服务,被称为联机分析处理( o l a p ) 系统。o l t p 和o l a p 的主要区别如下: ( 1 ) 用户和系统的面向性:o l t p 是面向顾客的,用于办事员、客户、和信息 技术专业人员的事务和查询处理。o l a p 是面向市场的,用于知识工人( 包括经理、 主管和分析人员) 的数据分析。 ( 2 ) 数据内容:o 琥- p 系统管理当前数据通常,这种数据太琐碎,难以方便 地用于决策。o i a p 系统管理大量历史数据,提供汇总和聚集机制并在不同的粒 度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 ( 3 ) r 数据库设计。o l t p 系统通常采用实体联系( e - r ) 模型和面向应用的数 据库设计。丽o l a p 系统通常采用星形或雪花模型和面向主题的数据库设计, ( 4 ) 视图;o u 甲系统主要关注一个企业或部门内部的当前数据,而不涉及历 史数据或不同组织的数据。相比之下,由于组织的变化,o l a p 系统常常跨越数据、 库模式的多个版本。o l a p 系统也处理来自不同组织的信息由多个数据存储集成 啬q 信息。由于数据量巨大。o 雌p 数据也存放在多个存储介质上。 ( 5 ) 访问模式;o l t p 系统的访闯主要由短的,原子事务组成。这种系统需要 并行控制和恢复机制。然而,o i a p 系统的访问大多是只读操作。诲多操作可能是 复杂的查询 o l t p 和o l a t 的其它区别包括数据库大小、操作的频繁程度、性能度量等。 这些都概括在表2 1 中。 表2 1o l t p 系统和o l a p 系统的比较 o 如下o l a p 用户操作人员、低层管理人员决策人员高级管理人员 功能日常操作处理分析决策 d b 设计面向应用面向主题 数据当前的,最新的细节的,二维的历史的、聚集的、多维的,集成 分立的的、统一的 存取读,写毁十条记录读上百万条记录 工作单位简单的事务复杂的查询 用户数 上千个上百个 i ) b 大小 1 0 0 m b _ g b1 0 0 g b - t b 总之,数据仓库是大量数据的长期存储,它从传统数据库中获得原始数据, 先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数 据层( 又可分为轻度综合层和高度综合层) 数据仓库数据是面向主题组织的,以 便支持管理决策。 l o 数据仓库与数据挖掘技术在综合网管中的应用 2 4 1 数据挖掘基本概念 2 4 数据挖掘 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随机 的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。人们总 将它与数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 联系到一 起,知识发现是指识别出存在于数据库中有效的、新颖的、具有潜在效用的、最 终可理解的、模式的、非平凡的过程。它们之间有一定区别,知识发现过程1 1 j 如图 2 3 所示,主要由以下步骤组成: 图2 3 知识发现过程 数据选择:从数据库中提取与分析任务相关的数据; 数据预处理:检查数据的完整性以及数据的一致性,对其中的噪声数据进行 处理,对丢失的数据可以利用统计方法进行填补; 数据转换;将数据变换或统一成适合挖掘的形式;如,通过聚集汇总或汇总 操作; 数据挖掘:运用选定的数据挖掘算法,从数据中提取出用户所需的知识; 模式解释:对发现的模式进行解释,在此过程中为了取得更为有效的知识, 可能会返回到前面,并进行多次反复,从而提取出更为有效的知识l 知识表示:将发现知识以用户能理解的方式呈现给用户 从中我们可以看出,数据挖掘是整个知识发现过程的中心,但它不包括数据 的预处理、领域知识结合及发现结果的评价等步骤。数据挖掘涉及多学科技术的 集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、 数据可视化、信息提取、图像与信号处理和空间数据分析。通过数据挖掘,有价 值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从 不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务因 第二章数据仓库与数据挖掘技术 此,数据挖掘被认为是数据库应用的最重要前沿之一,是信息产业最有前途的交 叉学科。 2 4 2 数据挖掘基本过程 数据挖掘的基本过程f l j 如图2 4 所示。首先需要定义商业闯题,而后根据选择 的组建立数据挖掘库。数据挖掘库中的信息可以从数据仓库中提取,也可以从外 部数据源中获取。建立数据挖掘库后,需要对数据进行分析,拟定初步的数据模 型,这包括选择变量、选择记录集合,对变量进行转化或创建新的变量。在模型 初步建立后需要对模型进行合理的评倍,如果模型和实际系统有较大的误差,则 模型需要重新修改,直到模型和实际系统比较接近再对模型进行解释,并作为辅 助决策信息传递给管理人员 2 4 3 数据挖掘的方法 圈2 4 数据挖掘流程圈 数据挖掘系统应能适应用户对信息的不同要求通过相应的挖掘方法,以帮助 用户达到决策的目的。数据挖掘的方法一般可以根据挖掘分析任务的不同分为描 述性分析和预测性分析。摇述性分析一般用于了解系统实际数据存在的特征,其 目的是为了预测做准备的;预测性分析是描述性分析得到结论的基础上对系统的 发展进行估计,通过预测性分析能得到最终需要的结果,能够为决策提供直接的 1 2 数据仓库与数据挖掘技术在综合网管中的应用 依据。描述性分析包括关联分析、序列分析,聚类分析和滤除分析;预测性分析 可分为分类型预测和统计回归预测等。 ( 1 ) 关联分析 关联分析是发现关联规则,这些规则展示属性值频繁地在给定数据集中一起 出现的条件。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联 可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的 关联网。在综合网管的告警分析中,它已被广泛应用。 ( 2 ) 分类与预测 分类是指将数据记录分配到预先定义的类别中。如,通过分类可以预测新入 网的用户属于哪一类用户群。这种情况下,目标变量就是类别,该技术发现其他 变量和类别之间的关系。当对新的记录归类时,该技术可确定类别和记录属于该 类别的可能性。分类技术包括决策树、神经元网络和径向基函数( r b f ) 分类挖掘。 分类是预测离散值,而预测是预测连续值。预测主要是通过训练数据得到对象数 值属性的行为模型,并由行为模型得到属性的发展趋势。本文在第五章将详细介 绍预测方法和系统中的预测模块。 ( 3 ) 聚类分析 所谓聚类是指在事先不规定分类规则的情况下,将数据按照其自身的特点分 成不同的类群由聚类所生成的类群是一组数据对象的集合,同一类群中的对象 彼此相似,与其它类群中的对象相异聚类可以帮助电信企业从客户基本库中发 现不同的客户群。 ( 4 ) 演变分析 数据演变分析描述行为随时闯变化对象的规律或趋势,并对其建模尽管这 可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类分析的不同特 点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析 第三章网管运营分析系统的业务需求分析1 3 第三章网管运营分析系统的业务需求分析 随着企业信息化的不断发展,各电信运营商的嗍管数据越来越多,分析工作 也越来越复杂。如果仍旧沿用以前的工作模式势必会导致效率低下,人力资源浪 费,企业信息不畅,难以形成科学的决策。而数据仓库技术通过将性能数据、配 置数据和故障数据进行整合,可以为企业的各项业务提供准确高效的分析,用来 指导电信运营商开展网络维护和优化工作,为网络建设、市场决策提供依据。本 章主要介绍运营分析系统的发展及网管运营分析系统的业务需求。 3 1 网管运营分析系统介缙 3 1 1 运营分析系统的发展历程及现状 运营分析系统实际上是脱胎于决策支持系统( d e 洒s i o ns u p p o r ts y s t e m , d s s ) , d s s 是在管理信息系统( m a n a g e m e n ti n f o r m a t i o ns y s t e m ,m l s ) 基础上发展起来盼 m i s 是利用数据库技术实现各级管理者的管理业务在计算机上进行各种事务处理 工作d s s 则是要为各级管理者提供辅助决策的能力。 年代末9 0 年代初,决策支持系统与专家系统结合起来,形成了智能决策支 持系统专家系统是定性分析辅助决策,它和以定量分析辅助决策的决策支持系 统结合,进步提高了辅助决策能力。智能决策支持系统是决策支持系统发展的 一个新阶段。 然而在数据仓库、o l a p 技术和数据挖掘出现以前,d s s 在实际应用开发过 程中暴露出许多问题,阻碍了决策支持系统的健康发展。主要问题有: 1 d s s 使用的数据库只能对原始数据进行一般的加工和汇总,致使决策所需 信息不足,难以满足d s s 的需要。 2 由于决策本身的动态性和复杂性,针对不同的情况应有不同的处理方法t 而模型库提供的分析能力有限,它所提供的模型独立于环境之外,决策者和模型 交互很少,模型参数固定不变,不符合决策要求,d s s 所作出的决策常被有经验 的决策者一口否定,使决策者对d s s 产生不信任感, 而数据仓库、0 u 蟾及数据挖掘相关技术的出现,为决策支持系统的发展提供 了新的技术手段,大大促进了决策支持系统的发展。 数据仓库将大量用于事务处理的传统数据库数据进行清理、抽取和转换,并按 决策主题的需要进行重新组织。数据仓库的逻辑结构可分为近期基本数据层,历; 史数据层和综合数据层( 其中综合数据是为决策服务的) 。数据仓库的物理结构一殷 采用星型( 雪花模型是星型的高级结构) 结构的关系数据库。它采用高度集中盼 1 4数据仓库与数据挖掘技术在综合网管中的应用 数据存储方式,为各种不同决策需求提供了有用的分析基础。 随着数据仓库的发展,o l a p 也得到了迅猛的发展。数据仓库侧重于存储和管 理面向决策主题的数据;而o l a p 则侧重于数据仓库中的数据分析,并将其转换 成辅助决策信息。0 u 址的一个重要特点是多维数据分析,这与数据仓库的多维数 据组织正好形成相互结合、相互补充的关系。o l a p 技术中比较典型的应用是对多 维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。 o l a p 技术还能够利用分析过程对数据进行深入分析和加工。 总之,以数据仓库、o l a p 和数据挖掘技术相结合建立的运营分析系统是决策 支持系统在电信领域发展中的新形式。2 0 0 2 年底中国移动通信集团公司率先在国 内引入“运营分析系统”的概念。目前,针对客户服务系统有其基于客户关系管 理( c l i e n tr e l a t i o nm a n a g e m e n t , c r m ) 的决策支持系统,而且已经比较成熟;针 对综合网管系统的网络运营分析系统才刚刚兴起。电信行业运营分析系统的最终 目标是要整合计费、客服和网管等各个部门的数据实现跨部门的综合分析,达到 真正企业级的决策支持目的。 3 1 2 网管运营分析系统中数据仓库的特点 目前,针对网管运营分析系统中在采用的数据仓库技术,具有如下一些特点: ( 1 ) 经验较少。在国内,无论是电信行业还是金融行业,都没有大规模数据仓 库建设的经验可以参考,具体的业务应用也是参考国外电信运营商的一些应用内 容进行建设的,尤其是针对网管所做的具体应用,目前没有成功经验可以参考。 ( 2 ) 数据量大。由于中国的移动通信用户群庞大,而运营商少,致使其通信网 络庞大,尤其对于联通又同时拥有g s m c d m a 两大网络,因此导致其网管数据 量巨大。如何整理如此庞大的数据源,并从中分析出有价值的信息,构成了系统 建设的技术难点 ( 3 ) 预处理难度大国内为移动和联通提供主设备的厂商多达8 9 家,各大 厂商的数据格式、类型定义、采集方式等都有很大不同,这使得数据采集及分析 的工作量极大。在数据的预处理上构成一定难度 以上特点构成了联通网络运营分析系统建设过程中要面临的困难和挑战。 3 2 联通网络运营分析系统的业务需求分析 联通网络运营分析系统的建设是以o l a p 分析为主,因为这样既可以满足基 本的业务需求,同时也可以熟悉数据仓库中的技术内容。从联通的角度,o l a p 分析可以进行很多分析内容,可以包括很多的业务分析主题,通过这些分析专题, 可以对网络运营状况提供直接的技术指导目前,联通总部的网络运营分析系统 第三章网管运营分析系统的业务需求分析 主要针对省级设备进行分析和整个网络的一级干线网络设备( 即,信令转接点和 话务汇接中心) 进行分析。省级设备又分别包括话务网、分组网和智能网的设备。 目前,该系统只完成了针对话务网的业务分析和一级千线网络设备的业务分析。 下面仅简要介绍一下话务网的业务需求。它主要包括网络容量和网络性能分析。 3 2 i 网络容量分析 网络容量分析是指通过对网络容量、话务量、负荷、资源等方面的分析及预 测,建立话务模型,提供对网络资源的统计分析,如归属位置寄存器( 眦) 、摆 放位置寄存器( v l r ) 利用率、话务量等。对全网建设容量、实装容量、已使甩 容量、利用率等情况进行分析。网络容量分析主要包括无线容量分析、交换容量 分析和中继容量分析。 1 无线容量分析, 主要实现语音信道( t c h ) 话务量预测。独立专用控制信遭( s d c c i i ) 话务 量预测、相邻小区配置分析等。分析预测t c h 话务量或s d c c h 话务量的发展趋 势,计算所需的信道配置数为扩容和无线资源的合理分配提供依据。由于预测 算法的不同,预溅所需的数据也不尽相同,预测的结果也会有一定差异。但是预 测的基本思想是一致的,就是根据以往的历史数据推导出未来的情况。通过观察 相邻小区话务量分布情况及资源配置情况,分析是否需要在邻小区之间做负载分 担、资源调配。 2 交换容量分析: 主要包括h l r 容量、v u 【容量两部分。预钡 分析h l r v l r 的用户数是否 会以及何时会超过h l r v l r 的设计容量( 特别是节假日期间) ,为资源配置提 供参考。 3 中继容量分析: 与t c h 话务量预测类似,主要是根据历史数据,分析预测中继话务量的发展 趋势,计算所需的中继数,为扩容和中继资源的合理分配提供依据。 3 z 7 , 网络性能分柝 网络性能分析是指对飕络各性能、故障统计项目的趋势分析,如对系统接通 率、系统负荷、设备故障率、端口故障率、故障历时等作趋势分析;对不同性能 统计项目的对比分析主要是指针对同一网元在不同时间点的对比分析;对性能统 计项目的关联分析,挖掘不同性能指标的深层关联性,如系统掉话率与无线切换 成功率、信道可用率、中继可用率等指标问的关系。网络性能分析与网络容量分 析一样,主要包括无线性能分析、交换性能分析和中继性能分析 1 6 数据仓库与数据挖掘技术在综合网管中的应用 1 无线性能分析 实现对无线系统性能质量的分析,如无线掉话率、无线系统接通率、切换失败 率等。 ( 1 ) t c h 性能分析和s d c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华东师范大学《推销学》2024-2025学年第一学期期末试卷
- 石家庄理工职业学院《建筑设计四》2024-2025学年第一学期期末试卷
- 文化创意产业品牌建设
- 成本会计核心题库与案例分析
- 高校教务管理信息系统功能说明
- 平行与垂直直线判定练习册
- 六年级英语UNIT1练习卷
- 六年级语文月考试题精析
- 九年级数学期末试题及解析
- 房地产项目资金管理操作流程
- 安宁疗护中的舒适护理
- 医学影像科年月三基三严考试附有答案
- 新生儿俯卧位通气的护理课件
- 医院安保突发治安事件应急预案
- 2023年宁波市慈溪市人民法院招聘编外人员考试真题及答案
- 高速公路服务区升级转型商业计划书
- 常见行政案件笔录模版
- 手术室甲状腺切除术手术配合护理查房
- 国家电网电力中级职称考试题
- 数据库设计规范说明
- 肾内科临床技术操作规范2022版
评论
0/150
提交评论