已阅读5页,还剩65页未读, 继续免费阅读
(通信与信息系统专业论文)数据分析在移动通信网中的研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士学位论文 数据分析在移动通信网中的研究和应用 摘要 中国电信业飞速发展,2 0 0 8 年电信重组之后形成了“三足鼎 立 之势,三大运营商步入全业务运营,导致其间的竞争进一步 加剧,如何利用各自掌握的数据资源,针对不同目的,使用科学 方法改善客户关系,提升网络质量的同时降低网络运营成本,提 高网络利用率的同时增进客户满意度,成为各运营商企业运作中 的重中之重。与此同时,随着各种数据分析技术和方法的发展, 数据分析的重要性己经被越来越多的人认可,数据分析技术的应 用研究也越来越广,其中电信行业的数据分析一直以来就是热点。 在电信行业的数据分析中,由于移动通信网的空间复杂度、 频率复杂度和其终端移动性,导致对网络数据研究复杂度增加, 本文通过实验方法对中国移动通信公司某地市现网数据采用的不 同分析基础、分析方法、和分析结果进行了阐述,以期对移动通 信网数据分析方法进行针对性分类和优劣比较,旨在为相关分析 提供指导意义。论文主要内容包括: 1 介绍移动通信网的数据现状和数据分析技术的发展情况, 分析了使用数据分析技术在移动通信网中应用的必要性。 2 针对不同数据和不同目的,使用不同分析方法,如基础分 析,统计分析,数据挖掘,特性分析对特定专题进行实验。 3 详细的讲解了各种分析研究中的各个步骤:数据来源和分 析方法、模型建立过程和模型性能分析过程以及分析结果。 关键字:b o s s 数据、o m c 数据、数据分析、统计分析、 数据挖掘、特性分析 北京邮电大学硕士学位论文 r e a s e a r c ha n da p p l i c a t i o no fd a t a a n a l y s i st e c h n o l o g u s e di nt h em o b i l e co m m u n i c a t i o nn e t w o r k a bs t r a c t i nr e c e n ty e a r s ,t h et e l e c o m m u n i c a t i o n s i n d u s t r yh a sd e e p l y d e v e l o p e di nc h i n a a f t e rt h er e s t r u c t u r i n go ft e l e c o m m u n i c a t i o n b u s i n e s s ,t h ew a ro fc o n t e s t i n gc u s t o m e r sw i l lb e c o m em o r ea n dm o r e f i e r c e l yb e c a u s et h r e et e l e c o mo p e r a t o r sh a v es t e pi n t oa l ls e r v i c e s a g e i ti si m p o r t a n tt ou s ed a t ar e s o u r c ea n ds c i e n t i f i cm e t h o ds o t h a ti m p r o v ec u s t o m e rr e l a t i o n s ,u p g r a d et h en e t w o r kq u a l i t y , r e d u c e o p e r a t i n gc o s t s ,i m p r o v en e t w o r ku t i l i z a t i o na n di n c r e a s ec u s t o m e r s a t i s f a c t i o n m e a n w h i l e ,w i t ht h ed e v e l o p m e n to ft e c h n o l o g yo fd a t a a n a l y s e ,i t si m p o r t a n c ei so b v i o u s l y ,a n dt h ef i e l do fi t sa p p l i c a t i o n a n dr e s e a r c hi sm o r ea n dm o r ee x t e n s i v e e s p e c i a l l y , t h em e t h o do f d a t aa n a l y s ea l w a y sa r eh o tt e c h n o l o g yi nt h et e l e c o m m u n i c a t i o n i n d u s t r y c o m p l e x i t yo ft h es p a c ea n df r e q u e n c y , a sw e l la sm o b i l i t yo f t e r m i n a l ,a l lo ft h a tl e a dt oi n c r e a s e dc o m p l e x i t yo fd a t aa n a l y s ei nt h e m o b i l en e t w o r k t h i sp a p e ri n t r o d u c e sd i f f e r e n td a t aa n a l y s em e t h o d , w h i c hu s ed i f f e r e n ta n a l y t i c a l f o u n d a t i o n ,a n a l y t i c a lt e c h n o l e g ya n d o b t a i nd i f f e r e n t r e s u l t s ,i no r d e rt oc l a s s c i f ya n dc o m p a r et h e a d v a n t a g e sa n dd i s a d v a n t a g e so ft h e s em o d e l s t h em a i nc o n t e n t s jn c l u d e : 1 i n t r o d u c e do ft h e d e v e l o p m e n t o ft h ed a t ai n t e l e c o m m u n i c a t i o n si n d u s t r ya n dt h et e c h n o l o g yo fd a t aa n a l y s e , a n a l y z e dt h en e c e s s i t yo ft h ea p p l i c a t i o no fd a t aa n a l y s ef o rm o b i l e n e t w o r k 2 - 2 i n t r o d u c e dd i f f e r e n tm e t h o df o rd i f f e r e n td a t aa n d t h ep u r p o s e o fn e t w o r ka n ds e r v i c e ,s u c ha sb a s i ca n a l y s i s ,s t a t i s t i c a la n a l y s l s ,d a t a m i n i n g ,a n dc h a r a c t e r i s t i ca n a l y s i s 3 d e s c r i b e dt h em a i np r o c e d u r ei nt h er e s e a r c hi n d e t a i l s :t h e s o u r c ea 1 1 da r r a n g e m e n to fd a t a ,t h ec o n s t r u c t i o no f t h em o d e l s ,t h e c o m p a r i s o no fc a p a b i l i t i e sa n d r e s u l t sb e t w e e nt h e s em o d e l s k e y w o r d s :b o s sd a t a ,o m cd a t a ,d a t aa n a l y s i s ,s t a t i s t i c a n a l y s i s ,d a t am i n i n g ,c h a r a c t e r i s t i ca n a l y s i s 3 北京邮电大学硕士学位论文 图表附录 图3 一l 统计学分类树图8 图4 1 基础分析1 2 表4 一l 业务量分析要素表1 2 表4 2 业务量分析属性表1 3 图5 1 分析功能总体框图1 8 图5 2 经营分析系统信息流图1 9 表5 一l 维度分解表2 0 表5 20 l t p 数据与o l a p 数据比较2 5 图5 30 l a p 数据钻取2 5 图5 4o l a p 用户分类钻取直方图2 6 图5 50 l a p 分类钻取饼图2 6 图5 6o l a p 三维直方图钻取2 6 图5 7o l a p 业务维度钻取至z 图5 80 l a p 业务频率钻取2 7 图5 9 小区覆盖等高线图2 9 图5 一l o 小区覆盖图3 1 图5 1 l 小区覆盖越区分析图:丝 图6 1 数据挖掘分析流程盟 图6 2y i p 客户生命周期图盟 图6 3y i p 客户消费分析维度图盟 图6 4 互动业务定制盟 表6 10 m c 数据挖掘影响因素业 图6 50 骶数据挖掘流程图墨2 图6 6 小区影响关系图4 5 图6 7 影响因素关联度堑 图6 8 影响因素关联关系图盟 图6 9 小区性能影响关联规则箜 图6 一l o 小区性能影响关联多项式盟 图6 1 1 数据规范化盟 图6 1 2 频繁项集盟 图6 1 3 系统优化提升图丝 图6 1 4 小区性能影响分析流程图翌 图7 一l 产品生命周期5 5 表7 一l 业务互动性比较表竖 6 4 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期:一颦卫l 址一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在 校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布 学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学 位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释: 本人签 导师签 适用本授权书。 日期: 2 乞:垒主= 日期:乒丢扛 围 一 一 范 一 一 密 一 一 保 一一肝霆邂捌 学 : : 本名名 北京邮电大学硕士学位论文 1 1 研究背景 1 1 1 移动通信网数据现状 第一章引论 截至2 0 0 8 年3 月,全国电话用户数超过9 2 7 亿户,其中手机用户数达5 7 4 亿户,占六成以上,稳居世界第一。在2 0 0 8 年前三个月,我国新增手机用户为 2 7 3 0 万。随着中国移动通信网用户数的持续增长,用户对移动通信通信业务的 需求逐渐增大,移动通信网的规模也逐渐扩大。同时,移动用户对业务的需求 日新月异,根据近几年移动通信业务的发展状况,早在1 9 9 7 年惠普就对中国移 动业务数据量做了充分的预测:1 9 9 7 年,g s m 国内与国际的话单总量为1 3 亿, 平均每天4 4 0 万张,并按每月1 2 4 的速度递增。随着近年来移动用户的巨量 增长,网络规模的扩大、基站数量的增多、移动通信网业务的多样化,个性化, 使得移动通信网的话单数据、业务数据、网络数据、测试数据急剧增加。截至 2 0 0 7 年,中国移动全年处理话单已达1 5 0 3 1 亿张。以g s m 话单每张话单长度平 均1 2 2 字节计算,1 5 0 3 1 亿话单共占用磁盘空间约1 8 0 t b 。根据信息产业部的相 关规定,需要保留3 个月的明细话单,则实际数据量为4 5 t b 。考虑磁盘阵列的 冗余,应采用镜像方式存取,故基本磁盘容量至少应在9 0 t b 以上。如此庞大的 数据量对运营商来说无疑是一座未开发的宝库,摆在面前的是机遇也是挑战。 1 1 2 移动通信网数据分析必要性 为了更好的为移动用户服务,更好的管理移动通信网,更好的增加移动运 营商的收益,一方面在网络规模不断增大,网络业务不断多样化,网络用户不 断增多情况下增加用户满意度,另一方面在网络技术日益复杂,网络复杂度不 断增加,网络层次结构日益增多情况下节省网络维护成本,成为运营商衡量和 抉择的矛盾。 要在两者之间寻求平衡,只有从源头上发现问题,才能解决问题,而数据 无疑就是这一源头,只有从数据中才能追根溯源,找到用户的需要,找到运营 的方向,发现故障的原因,找到优化的方法,因此如何管理和利用这些庞大的 数据,成为移动通信网发展的关键,而分析这些数据,也成为移动通信运营商 的首要之选。 北京邮电大学硕士学位论文 1 1 3 移动通信网数据分析现状 1 运营数据分析现状 目前,随着移动通信网通信市场竞争的日益激烈,大客户越来越成为竞争 各方的争夺焦点,通过改善与大客户的沟通,通过正确的渠道,正确的时间, 正确地服务,提升大客户价值,以便从业务驱动转化为客户驱动,从而增加企 业利润,成为运营者的首选考虑。以此为出发点,如何为大客户提供满意的服 务和满足大客户的需求也成为针对大客户服务的两个方面。 围绕两个方面的服务,如何通过对大客户行为的分析、预测,达到采取个 性化服务影响大客户的行为;如何加强对现有大客户的个性化服务,提升大客 户的忠诚度和满意度;如何引导潜在价值用户的消费行为,使其尽快成为大客 户,成为亟待解决的三个问题j 。 目前对于运营数据,各运营商都已经搭建了完整的数据库,并实现了运营 分析系统平台规划设计和搭建,同时采用数据描述,数据统计,数据预测等多 种手段完成了对运营数据的分析。 2 运维数据分析现状 随着中国移动通信网用户数的持续增长,用户对移动通信网通信业务的需 求逐渐增大,中国移动通信网手机用户数量的快速增长,移动通信网网络的规 模也逐渐扩大。网络规模的扩大、基站数量的增多给网络优化带来了新的难题。 一方面是如何充分挖掘现有网络的潜在容量,使其能容纳更多的用户;另一方 面却是如何高效能,低成本地维护现有的网络。由于网络结构复杂和不同的地 形地貌的影响使得小区在相互影响下的系统配置不可重复,同时为了使网络性 能达到最优,不断增加基站和优化基站系统参数也使各小区的维护难度日趋复 杂,而在如此复杂得环境、网络结构和参数等相互影响得条件下,如何利用现 有的,可实现得技术使维护从复杂变简单,从低效到高效,如何提升移动通信网 通信网络的网络性能,如何提升网络的故障排查效率等都是亟待解决的问题。 同时,移动通信网通信网络在我国的运营已经进入稳步发展阶段。随着用 户的稳步增加,网络的规模越来越庞大,越来越多的网络故障也随之而来。并 且,随着网络规模的扩大,越来越多的网络故障已不仅仅是单一的小区、基站 故障,而是会进一步影响到其地理位置相邻或是功能上互相协作的基站群或小 区片的网络性能。这时,仅仅依靠一个或几个网络优化工程师的经验只能做到 “头疼医头,脚疼医脚”。如何解决这些复杂的故障问题,更进一步说,如何能 在不断变化的网络规模下发现相邻小区相互间的性能影响,展示相互影响的小 区间的影响关系,同时提供基于这种影响关系下的优化策略或优化建议,以便帮 北京邮电大学硕士学位论文 助运营商从不同的角度实现网络优化,提高网络性能,做到在针对单个小区优化 的同时清楚了解这种优化对局部地区( 相邻地区) 网络性能的影响,或者通过对 相邻小区的优化提升某一特定目标小区的性能,与此等等,对运营商的网络性 能提升都具有现实意义。 1 2 发展趋势 纵观移动通信网数据分析历程,今后会有如下发展趋势: 1 数据采集范围越来越广。数据的采集已不单单业务数据,还将进一步包 括接口数据,信令数据分析等等。 。 2 数据利用度越来越高。关键性能指标( k p i ) 利用程度越来越高,以反 映整个网络的有效利用率,用户满意度等等。 3 数据研究越来越细致。由几类业务数据之间的表面关系,深入到各种业 务数据之间内在关联的研究。 4 数据分析方法越来越多。从简单趋势分析,到统计预测,再到借助商业 智能的数据挖掘 5 数据分析方法越来越复杂。从使用一种单一的方法解决单一问题,到融 合多种方法解决复杂问题。 北京邮电大学硕士学位论文 第二章移动通信网数据 2 1 移动通信网数据分类 数据的分类方法很多,不同的领域和学科往往有各自的分类方法。即使在 同一个领域,由于研究问题的角度不同,也会产生不同的分类方法。下面是在 移动通信网运营商中针对业务和网络特性而广泛采用的两种数据分类。 2 1 1b o s s o s s 数据 b o s s 系统的体系结构 1 两级体系 中国移动通信网的b o s s 系统采用“两级体系,其含义主要是:集团公司 负责建设一级业务支撑中心,主要实现省b o s s 系统之间的信息交互,并对集 团公司级的业务进行支撑;省公司负责建设全省集中的b o ss 系统,全面接管 该省的计费、结算、营业、账务和客户服务等原有系统的功能;地市一级只是 接入,不再存放数据和提供业务应用。 2 业务功能 b o s s 系统的设计考虑将原有的计费、结算、营业、账务和客户服务系统的 数据和业务处理全部整合,在业务功能方面重新进行了调整,形成了计费、结 算、账务处理、账务管理、业务管理和客户服务六大业务模块,再加上系统管 理和统计分析功能,使b o s s 系统形成了一套完整的体系。要重点强调的是, b o s s 中的客户服务模块包含了传统意义的客户服务和营业两部分的业务功能, 体现出客户服务与营销渠道的一致性,在技术上为渠道整合奠定了基础。 3 技术模型 中国移动通信网的b o s s 系统的技术模型核心是“三层结构,指的是系统 由集中的数据核心层、灵活的业务逻辑层和开放的接入层构成。其中数据核心 层又分为数据和服务两个子层,业务逻辑层又分为业务函数和业务过程两部分。 4 业务模型 业务规范确立了中国移动通信网b o s s 系统“客户一一用户一一账户为核 心的业务模型弘j 。在新的业务模型中,一个客户对应多个客户或主体服务,也 就是说一个客户可以是一个同时拥有多项业务的用户,也可以是多个拥有同类 业务的用户。而对于每个用户的服务使用记录都可以分成多个账目;账目与最 北京邮电大学硕士学位论文 终付费的账户是一对多的关系。这就形成了用户与帐户的多对多的对应关系。 这种业务模型建立后,企业可以灵活地组合和包装各种业务,充分地向客户提 供个性化的服务。同时,对于数据业务、智能网业务等,网络本身具备计费能 力,由于b o s 系统具有很强的整合能力,能够将各项使用费汇总计算出总费用, 为客户提供统一的服务。 b o s s 基本数据如下: 明细帐单、综合帐单、交费、销帐记录; 客户服务记录,服务时限记录,黑名单红名单纪录; 工单、客户服务定单; 1 8 6 0 1 8 6 1 产生的投诉、咨询、走访、建议; 1 8 6 0 1 8 6 1 日志记录: 计费清单,结算清单; 代销商人员信息资料,代销商考核数据; 客服人员信息资料; 卡、设备资源统计数据; 客户包括大客户资料。 2 1 2 网管系统数据 网管系统必须实时、定时的提供通信活动中的网管信息。主要数据如下: 交换类数据,基站类数据,传输类数据,o m c 数据,其它网管信息 o m c 操作维护对g s m 数字移动通信网通信系统和网络进行管理h 。g s m 系 统由b s c 、b t s 、ms c v l r 、e i r 、h l r a u c 系列网络单元构成,它们都是o m c 的管理对象。操作维护的功能基本上可以分为三大部分: 1 用户管理( 包括管理注册所需的信息) :记录进出系统的用户。所以相 关的参数都必须能接入运营者( 或业务提供者) ;与运营相关的另一个方面是呼 叫计费。对每个用户的呼叫计费都必须在同一个点收集、建立,再发出帐单 2 网络运行:重点是驱动网络,使操作人员能观察到网络的行为,诸如系 统加载,阻塞率、两个给定蜂窝间的切换次数等等 3 维护:目的是监测、定位和纠正错误由于g s m 数字移动通信网通信系 统一般分为基站子系统和移动通信网交换子系统两大部分,因此与之相对应, 操作维护中心o m c 也分为移动通信网的操作维护中心0 m c r 和交换操作维护 中心o m c s 两部分。 其它网管信息,由o m c 所得到的话务统计数据是一种统计意义上的结果,而 实地的移动通信网网络质量测试更能真正放映系统的实际运行情况和获取用户 北京邮电大学硕士学位论文 的主观感受,切实有效的网络质量测试有利于对系统的分析,有利于对实际运 营情况的掌握,是网络优化工作的重要组成部分。网络质量测试主要包括:c o t 测试和d t 测试。 北京邮电大学硕士学位论文 3 1 基础分析 第三章数据分析概述 一般针对数据产生的原理和属性,可以产生围绕提升服务水平、产品质量、 提高利润或降低成本、改善与客户之间的关系等为目标的数据分析方法,一般 此种数据分析方法比较原始和简单,产生于企业生产运营或者行业发展的早期 阶段。典型的有:增量分析、历史对比分析、周期分析等等。 3 2 统计分析 所谓统计学,指的是研究搜集和分析数据、研究客观事物数量特征和数量 关系的方法论科学h 。一级学科统计学首先是- - i - j 方法论,它是研究客观现象 ( 包括自然现象和社会现象) 数量特征和数量关系、具有明确对象的方法论科 学。统计方法论性质是指它作为一门认识方法论科学,为人们提供一套从不确 定的现象中探索现象规律性的理论和方法。这里作为统计学研究对象具体体现 的“数据 ,是指进行各种统计( 指统计工作) 、计算、科学研究或技术设计等 所依据的数值。 统计学作为- - i - j 研究客观事物数量特征和数量关系的方法论科学,其内容 构成错综复杂,既有层次性,又有交叉性,所以对其学科的分类迄今未得到合 理的解决。我们把统计学分为理论统计学、应用统计学、与其他统计学等( 如 图3 - 1 所示) 。 理论统计学包括各种统计基础理论,又可以分为描述统计学和推断统计学 旧1 。描述统计学指以总体全面资料或非随机性局部资料为基础的统计理论与方 法体系,包括统计总体论( 有关总体、指标和分组等理论) 、统计设计、统计调 查、统计整理、统计指数、动态分析理论、统计平衡理论、统计数据库等等, 不同于仅研究如何整理和概括大量数据的“描述统计学”。 推断统计学指依据随机样本推断总体特征的理论与方法体系,也就是数理 统计学,又可以分为理论数理统计学和应用数理统计学。理论数理统计学侧重 于统计方法的数理基础,包括概率论、经典统计理论、贝叶斯理论、统计判决 理论等。应用数理统计学( 现代意义上的数理统计学) 则侧重于统计方法的应 用形式,包括抽样技术、试验设计、相关分析、方差分析、多重应答分析、多 元统计分析、序贯分析、线性统计模型、时间序列分析、非参数统计等。 北京邮电大学硕士学位论文 这里的描述统计学与推断统计学并无“普通统计学”与“高级统计学之 分,实际上 4 i ,推断统计学的某些内容是非常初等的,而描述统计学中的某些 方法( 如统计指数理论) 却具有相当的理论深度和复杂性。 统 计 学 描 囊 婪 蓁一 j 簧 司几羹 蠢 l 莩 3 3 数据挖掘 3 1 统计学分类树图 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随机 的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以 t b 计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺 应这种需要应运而生发展起来的数据处理技术。是知识发现( k n o w l e d g e d is c o v e r yind a t a b a s e ) 的关键步骤。 一一一一一一一一一一一一一一一一一一一一一一一 一一一一 一一一一 掰一烩一撒一懒 一一一一一一 北京邮电大学硕士学位论文 3 3 1 数据挖掘的任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏 差分析等u 。 1 关联分析( a s s o c i a t i o na n a l y s i s ) 关联规则挖掘是由r a k e s ha p w a l 等人首先提出的。两个或两个以上变量的 取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要 的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的 目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关 联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符 合需求。 2 聚类分析( c l u s t e r i n g ) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不 同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以 及可能的数据属性之间的相互关系。 3 分类( c l a s s i f i c a t i o n ) 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该 类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分 类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述 和预测。 4 预测( p r e d i c a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的 种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。 5 时序模式( t i m e - s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一 样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的 不同。 6 偏差分析( d e v i a t i o n ) 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现 数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观 察结果与参照之间的差别。 3 3 2 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数 北京邮电大学硕士学位论文 据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库 以及i n t e r n e t 等 8 j 。 3 3 3 数据挖掘流程 1 定义问题:清晰地定义出业务问题,确定数据挖掘的目的n 1 。 2 数据准备:数据准备包括:选择数据一在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理一进行数据再加工,包括检查数据的 完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 3 数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净 化和转换过的数据集上进行数据挖掘。 4 结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用 户理解的知识。 5 知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。 3 3 4 数据挖掘的方法 1 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储 和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们 的关注u 。典型的神经网络模型主要分3 大类:以感知机、b p 反向传播模型、 函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以 h o p f i e l d 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反 馈式神经网络模型;以a r t 模型、k o h o l o n 模型为代表的,用于聚类的自组织 映射方法。神经网络方法的缺点是”黑箱”性,人们难以理解网络的学习和决策 过程。 2 遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿 生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使 得它在数据挖掘中被加以应用“。 s u n il 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对 两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数 据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的 结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除 多余的连接和隐层单元;用遗传算法和b p 算法结合训练神经网络,然后从网络 北京邮电大学硕士学位论文 提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未 解决。 3 决策树方法 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从 中找到一些有价值的,潜在的信息u 引。它的主要优点是描述简单,分类速度 快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由o u i n l a n 提出的著名的基于信息熵的i d 3 算法。它的主要问题是:i d 3 是非递增学习算 法;i d 3 决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强 调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如s c h l i m m e r 和f i s h e r 设计了i d 4 递增式学习算法:钟鸣,陈文伟等提出了i b l e 算法等。 4 粗集方法 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优 点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作u 训。 粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统 和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但 粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属 性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在 国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大r e g i n a 大学开 发的k d d - r :美国k a n s a s 大学开发的l e r s 等。 5 覆盖正例排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集 合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则 舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则( 选择子的 合取式) 。比较典型的算法有m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法 以及他的a e 5 方法。 6 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性 关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分 析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行 常用统计( 求大量数据中的最大值、最小值、总和、平均值等) 、回归分析( 用回 归方程来表示变量间的数量关系) 、相关分析( 用相关系数来度量变量间的相关 程度) 、差异分析( 从样本统计量的值得出差异来确定总体参数之间是否存在差 异) 等。 7 模糊集方法 北京邮电大学硕士学位论文 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别 和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶 属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计 的基础上,提出了定性定量不确定性转换模型一云模型,并形成了云理论 14 j 。 | 匕京邮电大学碗学位论立 第四章移动通信网数据基础分析 4 1b o s s o s s 数据基础分析一业务量分析 4 1 1 基干扈性的数据基础分析 使用基础分析方法,利用数据库o l t p 技术按照不同的呼叫类型、漫游类型、 对方类型等角度对客户的业务量及其增量、m o u 值进行分析,以了解不同业务 量的客户构成、业务量的变化与发展趋势,这是移动通信网之初对业务数据进 行分析以便分析企业利润率组成和提高利润率的主要方法。 图4 1 基础分析 其具体方法是分别从表4 一l 所标记的不同角度及各角度之间的不同组合, 在一定时间段内,对通信时长、通信次数、通信流量、m o l l 、新业务使用量以及 这些量值在指定对比时间上的增量进行比较分析、排名分析、意外分析。 对业务量中的关键指标( 如某一时问的业务量、某一地域的m o 【i 、某客户 群的业务量等) ,可设定预警条件( 涨跌告警、特定值告警等) ,从而实现对关 键指标的动态监测。当出现告警后,进行原园和影响分析,查找指标出现异常 的原因。 以下是通常情况下基础分析所采用的二维要素表,对公司推出的某一业务 对于业务量的影响进行要素分析,通过下表中两两间要素组合对比分析,帮助 决策部门制定更有利于提高有效业务量的政策。 表4 1 业务量分析要素表 | 匕京电 学j 岸位镕z 而卜 时问 地域 客户性别 年龄组 客户类型 客户职业 消费层次 服务品牌 业务类型 通话时段 漫游类型 对方类型 呼叫类型 单次通信时k 4 12 分析属性及方法的优劣 在进行业务量分析时,重点关注以下相关属性 表4 2 业务量分析属性表 通信次数通话次数按计赞系统的话单张数统计,不包括 无效薛单; 计费时艮按计费单元折算的通信时k ,目前一般以分钟 或6 秒为单位 给定条什f 客广月平均通话时k月总通话时长总客户 数 吁码资源数移动公r q 可米发放提供客户标识的通话号码1 3 5 、1 3 6 、】3 7 、1 3 8 、 的数量 资源数量移动公司川米提供服务的各种卡的数颦 s i m 卡、s t k 卡、i p 卡、 上m # 等 资渊金额移动公司米提供服务的各种 的面值 基础分析方法,采用较为简单、直接的数据直观图反映当前网络业务现状 北京邮电大学硕士学位论文 对当前及过去时间段内的业务量分析,感知今后某一时间段内或时间点上的业 务发展情况。以达到发现影响业务量指标的关键因素的目的。其缺点是: 1 使用数据单一; 2 虽然对关键指标分析的针对性强,但对指标间的关联分析缺乏必要的科 学论证; 3 分析方法简单,不能对整体数据进行全面分析,尤其针对数据维度关系 的分层统计实现困难,当市场细分要求越来越高时,更见其拙劣性。 4 20 m c 数据基础分析一网络优化 4 2 10 m c 基础分析途径 自从我国开通g s m 数字移动通信网以来,其业务已取得飞速发展,网络规 模也得到了很大扩展。在网络建设,发展业务的同时,提高网络质量,进行网 络优化就成为日常维护工作的关键。而进行网络优化的手段和途径,主要有以一 下几个方面: 1 用户投诉的汇总及处理; 2 网络各统计单元的统计与分析; 3 对整网或局部网进行d t ( d r i v et e s t ) 测试和c q t ( c a l lq a l i t yt e s t ) 测试; 以上几个方面在网优工作中相辅相成,缺一不可。只有把这几个处理手段 有机地结合起来,才能使网优工作尽善尽美。 4 2 2 对用户投诉汇总及分析处理 运营商把用户投诉与网络维护部门关系日趋紧密。接听用户投诉的话务员 将问题及时反映给运维部门,网优人员积极对待用户投诉,及时地找出问题, 解决问题,使网优工作更上一个台阶。 如:当接到客服中心电话,称有用户反映某地区手机不好打。检查该地区之 覆盖小区占用情况,没发现异常。驱车赶到现场,用手机进行拨打测试,发现 确实很难打电话。手机在发送上行r a c h 后,无a g c h 分配信道,然后手机送 忙音。回去后对该小区进行a g c h 和p c h 占用情况统计,发现拥塞率较高。检 查c c c h 构成,发现其c o n t r o lm u l t i f r a m e 为c o m b i n e d 模式,c c c h 只占用其中三个信息块。而此小区用户较多,寻呼量较大,造成小区c c c h 拥 塞,使用户不能很好地打进打出电话,于是将该小区增加一个c c c h ,结果问 北京邮电大学硕士学位论文 题得到解决。 4 2 3 网络各统计单元进行详细统计与分析 网络统计是进行网优工作的主要依托和手段。网络质量的好坏,直接体现在网 络各项指标的高低上。因此,对整个网络或某个网络单元进行细致的统计,有针 对性地进行优化,然后再重复统计,检查优化的实际效果。优化一统计,统计 一优化,周而复始,网络质量才能稳步提高。 移动通信网络数据统计重点在于无线方面,当然另外也包括一些交换方面 的统计,如长途来话接通率,话音接通率等。无线方面的统计主要涉及无线环 境,无线资源利用,软、硬件运行情况等。在统计过程中,我们通常把所有统 计项分为r o ws t a t i s t i c ( 原始统计) 和k e ys 盯i s t i c ( 根据g s m 供应商和 运营商定义的公式计算出的统计项) 。 在我国,由于各地g s m 运营商所采用的无线设备不同,因此其无线统计项 会有所区别。下面列举一些较常见的统计项,并对其进行简单分析u 引。 1 无线接通率 现阶段无线接通率的计算公式为:无线接通率= ( 1 一话音信道拥塞率) ( 1 一控制信道拥塞率) 1 0 0 ,由以上公式可以看出,只有降低话音信道和控制信 道的拥塞率,才能有效提高无线通率,并进一步提高整网话音接通率。其中话 音信道拥塞即指t c h 拥塞。某小区t c h 拥塞率过高,我们则统计该小区话务量, 然后计算出其每线话务量,如果每线话务量过大( 一般以o 5 e 竹c h 为界) , 则须对该小区进行话务控制或扩容。但如果此小区每线话务量并不大,而拥塞 依然严重,就需要检查该基站的硬件设备了。例如是否有载频或t c ho o s ( o u t o fs e r v i c e ) 。另外控制信道拥塞主要包括s d c c h 及c c c h 拥塞。某小区 s d c c h 拥塞过大,我们便相应统计该小区s d c c h 话务量和试呼次数等项,并 分析其原因:( 1 ) 业务量大;( 2 ) l o c a t i o nu p d a t a 过多;( 3 ) s d c c h 设 置太少等。解决的方法也有许多,如多设置s d c c h 数目,打开 c h a n n e lr e c o n f i g u r a t i o n ,i m m e d i a t e l ya s s i g n 诸如此类的 f e a t u r e 等。如果小区存在c c c h 拥塞,我们就要对其a g c h 与p c h 占用 情况进行统计,并根据结果相应增a n d , 区a g c h 和c c c h 的个数。 2 无线掉话率( r f _ l o s s r a t e ) 无线掉话也主要包括话音信道掉话及控制信道掉话两种。其中话音信道掉 话率是整个网络考核的一个重要指标。造成话音信道掉话的原因有很多,如基 站的软硬件问题,切换问题及干扰等。其相关的统计项也有许多,下面略举几 个对掉话影响较大的统计项。 北京邮电大学硕上学位论文 p a t hb a l a n c e - - 这个统计主要考察基站收发信系统接收部分性能,其 计算公式为 :p a t h b a l a n c e = u p l i n k p a t h l o s s d o w n l i n k p a t h l o s s 其中:u p l i n k p a s s l o s s - - a c t u a l m s t x p w r - - r x l e v - u l d o w n l i n k p a s s l o s s = a c t u a l b t s t x p w r - - r x l e v d l 不难看出,其统计的正常结果应在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康饮食指南从规划到执行的全方位方案解读
- WPS文字基础操作知识测试试题附答案
- 社交媒体营销策略及内容创作方案
- 模拟芯片设计工作计划及安排
- 物流专业运输仓储配送等知识点试题附答案
- 县级AI新闻事实核查师中级职业生涯规划案例
- 针对中级茶艺师的顾客服务态度与沟通技巧
- 网站开发团队任务分工与进度把控
- 成功总裁助理的日常工作安排全解析
- 项目管理从入门到精通
- 建筑企业管理制度大全-精品完整版
- 锚杆工程隐蔽验收记录
- 2020年汽车物流企业组织结构及部门职责
- 一句话营销技巧培训课件
- 批评话语分析
- 幼教培训课件:《家园共育体系建构与实施策略》
- 突发公共卫生事件健康教育与健康促进课件
- 2023版北京协和医院重症医学科诊疗常规
- (北师大版)六年级数学上册课件比赛场次公开课获奖课件
- 初中物理人教九年级(2022年更新)第十五章 电流和电路连接串联电路和并联电路教学设计
- CFRP板条加固钢筋混凝土梁在结构改造工程中的应用
评论
0/150
提交评论