已阅读5页,还剩67页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的移动客户虚假离网研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江人学顿i j 学位论艾基j :数据挖掘的移动客户 瞎假离网研究 摘要 随着移动通信业的迅速发展,移动运营商之问的竞争越来越激烈, 客户资源成为了企业竞争的焦点。当前各运营商都面临严重的客户流失 问题。大量而频繁的客户流失给企业造成了巨大的损失。同时通信市场 同趋饱和,成功挽留一个即将离网的客户比重新发展一个客户节约大量 成本。在这种形势下,如何防止客户流失、实施客户保持工作,己成为 运营商关注的焦点之一。 客户流失的原因很多,然而并非所有的客户都是真正流失的,相关 的研究也较少。对此本文提出了虚假离网这个概念,即指某在网用户因 各种原因暂时离网后,又以相同( 或不同) 的名义入网。 本文首先介绍了研究虚假离网所用的技术一一数据挖掘,它能从 大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信息和知识。接着介绍了为分析 虚假离刚客户、实施离网预警而设计的离网用户行为分析系统,描述了 该系统的整体架构、逻辑架构、网络结构、数据组织。最后按照数据挖 掘的基本步骤,肘虚假离网主题进行研究,提出了号码重合度、呼叫习 惯度等基于客户呼叫行为的评价标准,以此判断客户是否虚假离网,并 且利用数理统计和决策树等技术,建立了虚假离网用户判断的相关模型 和算法,通过对数据结果的分析不断调整完善模型并进行了系统优化。 该研究为分离出真正的离网用户做了理论准备,进而为分析离网原 因、挽留客户、降低客户流失率等一系列问题的研究提供帮助,同时也 为整个业务决策系统的实现打下了基础。 关键字:数据挖掘、决策树、虚假离网、客户流失、移动通信业 浙f f 大学硕上学位论文基十数姑挖掘的移动客户虚假离阚研究 a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fc o m m u n i c a t i o ni n d u s t r y ,t h ec o m p e t i t i o n a m o n gt h ec a r r i e r si sg e t t i n gm o r ea n dm o r ed r a s t i c c u s t o m e rr e s o u r c eh a s b e c o m et h ek e yo fe n t e r p r i s e s c o m p e t i t i o n n o w a d a y sa l m o s te a c hc a r r i e rf a c e s as e r i o u sp r o b l e m c u s t o m e rc h u r n j u s tf o rag r e a tq u a n t i t yo fc u s t o m e r s v a n i s h m e n t ,i t h a sb r o u g h tg r e a tl o s st o m a n yc o m p a n i e s a n d a st h e c o m m u n i c a t i o nm a r k e tb e c o m e ss a t u r a t e d ,a c q u i r i n gt h en e wc u s t o m e ri sg e t t i n g m u c hm o r ee x p e n s i v et h a nr e t a i n i n gt h ee x i s t i n gc u s t o m e r i n s u c has e v e r e c i r c u m s t a n c e ,i th a sb e c o m eo n eo ft h ef o c u s e so fo p e r a t i o nc o r p o r a t i o n st h a t h o wt oa v o i dc u s t o m e rc h u r na n dc a r r yo u tr e t a i n x n e n t t h er e a s o no fc u s t o m e rc h u r nv a r i e s ,b u tn o ta l lt h ec u s t o m e r sa r er e a l l yl o s t a n dt h e r ei sl i t t l er e s e a r c ho ni t s ot h i sp a p e rp r o p o s e st h ec o n c e p to fi l l u s i v e o f f l i n e ,t h a ti ss o m eo n l i n ec u s t o m e rj o i n st h en e ta g a i n + i ns a m e o rd i f f e r e n t ) n a l n ea f t e rh el e a v e st h en e tt e m p o r a r i l yf o ra l lk i n d so fr e a s o n s t h i sp a p e ri n t r o d u c e sd a t am i n i n gf i r s t l y ,t h et e c h n o l o g yo fs t u d y i n gi l l u s i v e o f f l i n e ,w h i c hc a nr e v e a li n s t r u c t i v eb u tb u r i e di n f o r m a t i o na n dk n o w l e d g e h i d d e ni nal a r g e ,i n c o m p l e t e ,f u z z y ,s t o c h a s t i cd a t a t h ep a p e ri n t r o d u c e st h e b e h a v i o ro fo f f l i n ec u s t o m e ra n a l y s es y s t e mn e x t ,w h i c hi sd e s i g n e dt oa n a l y s e o f f l i n ec u s t o m e r sa n dp r e d i c tc u s t o m e rc h u m , d e s c r i b e st h es y s t e m sw h o l e f r a m e w o r k ,l o g i cf r a m e w o r k ,n e t w o r ks t r u c t u r ea n dd a t ao r g a n i z a t i o n a c c o r d i n g t h eb a s i cp r o c e s s e so fd a t am i n i n g ,t h i sp a p e rs t u d i e st h es u b j e c to fi l l u s i v e o f f i i n ea tl a s t ,p r o p o s e st h ed e g r e eo fn u m b e rs u p e r p o s i t i o n ,t h ed e g r e eo fc a l l i n g h a b i ta n do t h e rc r i t e r i o n sb a s eo nc u s t o m e r sc a l l i n gb e h a v i o rt oj u d g ew h e t h e ra c u s t o m e ri si l l u s i v eo f ! e l i n e r e l a t e dm o d e l sa n da r i t h m e t i cw a y sa r ee s t a b l i s h e d , w h i c hu s em a t h e m a t i c ss t a t i s t i c s d e c i s i o nt r e ea sw e l la :so t h e rt e c h n i q u e s t h e m o d e li sa d j u s t e da n dt h es y s t e m sp e r f o r m a n c ew a so p t i m i z e dv i aa n a l y z i n gt h e d a t ar e s u l t s t h i sr e s e a r c hd o e st h ea c a d e m i cp r e p a r a t i o nw o r kf o ra c q u i r i n gt h et r u e o f f i i n ec u s t o m e r s ,a n dp r o v i d e sh e l pt os t u d yt h ep r o b l e m so fo f f l i n ec a u s a t i o n , s a v h a gc u s t o m e r sa n dr e d u c i n gt h er a t eo fc u s t o m e r sc h u m i ta l s of o r m st h e b a s ef o rr e a l i z i n gt h ew h o l eo p e r a t i o no ft h ed e c i s i o ns y s t e m k e yw o r d s :d a t am i n i n g ,d e c i s i o nt r e e ,i l l u s i v e o f f l i n e ,c u s t o m e rc h u r n ,m o b i l e c o m m u n i c a t i o ni n d u s t r y 沥江犬学硕i 学位论文 基于数据挖掘的移动客户虚假离列五j f 究 1 绪论 1 1 研究背景 1 1 1 我国移动通信产业的现状 全球移动通信发展虽然只有短短2 0 年的时间,但它已经创造了人类历史上 伟人的奇迹,截至2 0 0 5 年6 月份伞球移动用户已经达到1 9 亿 1 】a 我围的电信业 包括电信服务业、互联网业、有线电视网络、制造、f k 及相关的研究与开发等,近 1 0 年来电信业以惊人的速度持续增长,这在很大程度t 是由电信服务业中移动 通信市场的继续发展所推动的。纵观我国移动通信行业的发展,呈现出以下几个 特点【1 1 1 2 1 : 1 移动业务仍是电信行业收入的主导。 2 市场容量巨大,增长速度趋缓。 3 移动通信系统升级加速,产品不断更新。 4 市场竞争不断加剧,竞争的焦点仍然是争夺用户。 5 产权和资本运营模式多样化,资本运作力度将会继续加深。 在移动通信业发展的初期,每年新增的客户远远多于流失的客户。但是随着 市场的逐渐饱和,获取新客户的成本比留住现有客户群要昂贵得多,并且竞争对 手、技术以及法律法规等动态市场变化更容易使客户流失到其他公司,客户流失 对客户基数的影响也越来越明显。从移动运营商自身的角度来看,客户流失管理 是企业生存发展的需要。有关的数据显示【3 i : 1 发展一位新客户的成本是挽留一个老客户的4 倍; 2 客户忠诚度下降5 ,则企业利润下降2 5 : 3 向新客户推销产品的成功率是1 5 ,然而,向现有客户推销产品的成功 率是5 0 : 4 。如果将每年的客户关系保持率增加5 个百分点,可能使利润增长8 5 ; 5 向新客户进行推销的花费是向现有客户推销花费的6 倍; 6 如果公司对服务过失给予快速关注,7 0 对服务不满的客户还会继续与 其进行商业合作; 3 浙江大学填十学位论史 基于数据挖掘的移动客户虚假离网研究 7 6 0 的新客户来自玑有客户的推荐: 8 个对服务不满的客户会将他的不满经历告诉其他8 1 0 个人,而一位满 意的客户则会将他的满意经历告诉2 3 人。 以上数据充分说明,客户是目前商业活动的中心,衡量一个企业是否成功的 标准将不再仅仅是企业的投资收益率和市场份额,而是该企业的客户流失率、客 ,、份额及客户资产收益率等指标。所以面对当前的市场状况,移动通信企业必须 在发展新客户的同时,着手进行客户流失管理的研究,以有效的客户关系管理来 提高客户的挽留力度,留住有价值的客户,支持企业经济效益的不断增长。 1 1 2 中国联通存在的问题 中国联通是于2 0 0 1 年1 2 月成立的股份公司,近年业务规模急速发展,这很 大程度上是由于市场本身的自然成长和市场结构的原因带来的,因此容易掩盖业 务发展质量存在的问题1 2 l : 1 用户平均质量下降 随着移动通讯业务整体的发展,单个用户的业务量和业务收入呈下降趋势。 单个用户业务收入的下降速度快于业务量的下降速度。 2 用户离网率居高不下 图1 1 所示为2 0 0 2 年至2 0 0 3 年中国联通移动通讯g s m 业务离网率柱状图。 离网率柱状图反映出近年联通离网率始终保持在1 5 左右的较高水平,虽然2 0 0 3 年有所下降,但下降幅度同价格优惠政策的力度相比显得十分微弱,用户的流失 问题是营销管理重的重点问题之一。 图1 12 0 0 2 年至2 0 0 3 年中国联通移动通讯g s m 业务离网率柱状图。 3 新老用户的营销策略不协调 4 浙江人学硕士学位论文块r 数据挖掘的移动客户辟妻假离鲥研究 中国移动通信市场的大用户基本是老用户,有较强的消费能力,但是运营商 为扩人市场份额,片面追求争取新用户,为新用户提供过多的优惠,而没有考虑 老用户的优惠问题造成老用户流失。此外,在新增手机用,数量逐步趋于饱和的 情况下,中国移动和中国联通都把目光投向了对方的用户群。因此,提高服务水 平,降低用户流失率成为双方竞争的关键之一, 4 业务趋同 目前我国两大移动通讯运营商虽然相继推出g p r s 和c d m a 等新业务,在 产品和服务的差异化方面采取了许多措施,但用户所感受到的服务的同质化程度 仍然非常高。因此为用户提供优质服务,保持良好的客户关系成为移动运营商之 间竞争的焦点。 1 2 本文研究的意义和方法 1 2 1 现实意义 包括联通在内的各大移动运营商都面临着客户流失的问题。在移动通信业 界,“流失”( c h u r n ) 一词被专门用于指代客户的流失。客户离网给运营商带来 的主要问题是 4 】: 1 客户群大进大出,对营销成本造成很大压力。 2 是业务收入增长缓慢的主要原因之一。目前,新增用户是带动收入增长的 主要因素,而离网用户造成的收入损失占新增用户收入的很大一部分,大大降 低了收入增幅。 所以客户流失分析是移动运营商的一个重要课题,对流失客户和没有流失的 客户性质和消费行为进行分析,建立客户流失预测模型,分析哪些客户的流失率 最大,流失客户的消费行为如何,客户流失的其他相关因素,如竞争对手的优惠 政策、业务系统事故、国家政策和现行经济运行环境等为市场经营与决策人员 制订相应的策略、留住相应的客户提供决策依据,并预测在该策略下客户流失情 况。同时通过建立客户流失预测模型,使企业能够预测客户离网的可能性,并通 过对客户离网原因的分析,提出相应的挽留政策,从而保留客户,降低客户离网 率,从而减少企业的运营成本。 通常移动客户流失的方向有两种。第一种是客户的自然消亡。例如由于客户 5 浙江人学硕士学位论文 基1 徽据挖掘的移动客户虚假离嘲研究 的身故、破产、迁徙、移民等原因,导致客户不再存在;或者是由于客户的升级, 如g s m 升级为c d m a ,造成特定服务的目标客户消失。第二种是客户的转移流 失。通常指客广转移到竞争对手那边享受服务n 但在分析之前,首先是要分离 出真正的离网用户和虚假的离网的用户。 本文主要对联通公司的数据进行分析,设计了一个离网用户行为分析系统, 研究客户流失问题,特别是将其中的虚假离网用户甄别出来,为获驭最终的离网 用户打下基础,进而为分析离网原因、挽留客户、降低客户流失率等一系列问题 的研究提供帮助。 1 2 2 主要研究方法 数据仓库技术起源于对大量数据进行处理的需要,是随着业务应用的需要而 产乍的。与传统的数据库技术相比,数据仓库为决策分析提供了更好的支持,因 此近几年来发展很快,并在各个行业都得到了广泛的应用。而数据挖掘技术是目 前数据仓库领域最强大的数据分析手段。面对越来越激烈的竞争,移动通信企业 迫切地需要提高企业内部的科学决策能力,增强在市场经营等方面的正确判断能 力。因此,移动运营商迫切需要数据挖掘这项技术。 另一方面,电信运营商积累了大量的业务运营数据,这些数据都是已经电子 化的数据,通过数据挖掘技术。可以从这些用户数据中发现很多有价值的信息, 例如用户的消费行为分析特征等。根据这些消费性为特征,市场部门就可以提供 针对性更强的市场服务策略,并且解决了市场营销的成本。因此,电信企业的大 量电子化数据为其建设数据仓库奠定了技术基础。 因此,本文主要采用数据挖掘来进行数据的分析处理。 1 3 本章小结 本章简述了我国移动通信业的现状和中国联通存在的问题,分析了研究客户 流失、区分真正离网用户的重要性和迫切性,指出研究的意义所在及主要研究方 法。 6 浙江大学颂+ 学位论文 幕1 。数据挖撕的蒋动客户 目假离削研究 的身故、破产、迁徙、移民等原因,导致客户不冉存在;或者是由于客户的升级, 如g s m 升级为c d m a ,造成特定服务的目杯客户消失。第二种是客户的转移流 失。通常指客户转移到竞争对手那边享受服务1 5 】。但在分析之前,首先是要分离 出真f 的离网用户和虚假的离网的用户。 本文主要对跃通公司的数据进行分析,设汁了个离网用户行为分析系统, 研究客户流失问题,特别是将其中的虚假离网用户甄别出来,为扶取最终的离网 用户打下基础,进而为分析离网原因、挽留客户、降低客户流失率等一系列问题 的研究提供帮助。 1 2 2 主要研究方法 数据仓库技术起源于对火量数据进行处理的需要,是随着业务应用的需要而 产生的。与传统的数据库技术相比,数据仓库为决策分析提供了更好的支持,因 此近几年来发展很快,并在各个行业都得到了广泛的应用。而数据挖掘技术是目 前数据仓库领域最强大的数据分析手段。而对越来越激烈的竞争,移动通信企业 追切地需要提高企业内部的科学决策能力,增强在市场经营等方面的正确判断能 力。闻此,移动运营商迫切需要数据挖掘这项技术。 另一方面,电信运营商积累了大量的业务运营数据,这些数据都是已经电子 化的数据,通过数据挖掘技术,可咀从这些用户数据中发现很多有价值的信息, 例如用户的消费行为分析特征等。根掘这些消费性为特征,市场部门就可以提供 针对性更强的市场服务策略,并且解决了市场营销的成本。因此,电信企业的大 量f 乜了化数据为其建设数据仓库奠定了技术基础。 因此,本文主要采用数据挖掘来进行数据的分析处理。 1 3 本章小结 本章筒述了我国移动通信业的现状和巾国联通存在的问题,分析了研究客户 流失、区分真正离网用户的重要性和迫切性,指出研究的意义所在及主要研究方 流失、区分真正离网用户的重要性和迫切性,指出研究的意义所在及主要研究方 法。 6 浙江夫学硕士学位论文基于数据挖掘的移动客户虚镁离嗍讲究 2 数据挖掘 2 1 世纪人类对数据的存储已远远超过了以往任何个时代,当今数据库的 容量已经达到上万亿的水平( d 一1 ,0 0 0 , 0 0 0 ,0 0 0 ,0 0 0 个字节。传统的数据分析手 段已不能适应人们的要求,以往的关系数据库只能获得数据的表层信息,而不能 获得数据属性的内在管理和隐含的信息,即淹没了包含的知识,造成了资源的浪 费。这种数据的丰富性和知识的贫乏性的矛盾,导致了数据库中的知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t ab a s e ,g o d ) ,也称为数据挖掘( d a t am i n i n g ,d m ) 技术的出现【6 j 。 2 1 数据挖掘的概念 数据挖掘的定义现在很多,虽然表达方式有所不同,但本质都是一样的口l 。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机 的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知 识的过程。它是一门交叉学科,把人们对数据的应用从低层次的简单查询,提升 到从数据库中挖掘知识,提供决策支持。 从商业角度看,数据挖掘是一种崭新的商业信息处理技术。其主要特点是对 商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅 助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。它可以描述 成:按企业既定业务目标,埘大量的企业数据进行探索和分析,揭示隐藏的、未 知的或验证已知的商业规律,且进一步将其模式化的数据处理方法。它最吸引人 的地方就是能够建立预测型而不是回顾型的模型。 2 2 数据挖掘常用技术 总的来说,数据挖掘技术主要分为两大类:预测型数据挖掘、描述型数据挖 掘f 8 1 。 7 浙扛人学硕j 学位论文苯于数据挖掘的移动窖户虚 ! 妻高刚研究 2 2 1 预测型数据挖掘 预测型( p r e d i c t i v e ) 数据挖掘包括一系列在数据中查找特定变量( 称为“目标 变量”) 与其他变量之间关系的技术叽下面是预测挖掘技术的些示例。 1 分类( c l a s s i f i c a t i o n l 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个 记录都被赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分 析就是通过分析示例数据库( 训练集) 中的数据,为每个类别作出准确的描述或 建立分析模型或挖掘出分类规则,然后利用这个分类规则对其他数据库中的记录 进行分类。 分类要解决的问题是为一个事件或对象归类。在使用上,既可以用词模型分 析已有的数据,也可以用它来预测未来的数据。 2 回归分析( r e g r e s s i o n ) 回归模式的函数定义与分类模式相似,他们的差别在于分类模式的预测值是 离散的,回归模式的预测值是连续的。回归是通过具有已知值的变量来预测其他 变量的值。在最简单的情况下,回归采用的是像线性回归这样的标准统计技术, 但大多数现实世界中的问题是不能用简单的线性回归预测的。如商品的销售量、 股票价格、产品合格率等,这些事件很难找到筒单有效的方法来预测,因为要描 述这些事件的变化所需的数量以上百计,而且这些变量本身往往都是非线性的。 为此,人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、 神经网络等。 3 时问序列分析( r i m es e r i e s ) 时问序列是用变量过去的值来预测未来的值。与回归一样,它也是用已知的 值来预测未来的值,只不过这些值的区别是变量所处时间的不同。事件序列采用 的方法一般是在连续的时间流中截取一个时问窗口( 一个时间段) ,窗口内的数 据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所 需要的训练集。比如,可以用前6 天的数据来预测第7 天的值,这样就建立了一 个区间大小为7 的窗口。它支持时间序列模式,能够根据数据随时间变化的趋势 预测将来的值,也能够处理时间的特殊性质,如一些周期性的时问定义( 星期、 月、季节、年等) 。 8 浙江大学填 一学位论文 基十数据挖掘的移动客户虚假离| i :4 研究 2 2 2 预测型数据挖掘 描述型( d e s c r i p t i v e ) 数据挖掘用于了解系统实际数据存在的特性,其目的是 为了预测作准备。下面是描述型挖掘技术的一些示例。 1 聚类分析( c l u s t e r i n g ) 聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理地 划分录集合,确定每个记录所在类别。通过进行聚类分析,能够有效地把数据 划分到不同的组中,组之削的差别尽可能大,组内的差别尽可能小。与分类模式 不同,聚类分析输入的是一组未分类记录,进行聚类前并不知道将要划分成几个 组和什么样的组,也不知道根据哪几个数据项来定义组。 聚类分析所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很 多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方 法等。采用不同的聚类方法。对于相同的记录集合可能有不同的划分结果。 2 关联分析( a s s o c i a t i o na n a l y s i s ) 关联分析,即利用关联规则机型数据挖掘,寻找数据库中值的相关性,能够 支持发现同一事件中不同项目之问的关联规则。在数据挖掘研究领域,对于关联 分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如a _ p r i o r i 、 s t e m 、a i s 、d h p 等算法。其中最熟知地关联分析类型是市场购物篮分析。该 情况下数据记录是顾客在同义词事务中购买的物品,由于该技术来源于市场数据 地分析,因此称这些物品在同一个购物篮中。市场购物篮分析可发现不同顾客所 购买地物品组合,通过相互关联( 或链接) ,可以总结出哪些类型的产品是在一 起购买的,从而调整货品摆放位置,方便购买,促进消费。关联分析不仅限于市 场购物篮分析,如果将市场购物篮看作是一组数据记录,那么在任何情况下只要 存在大量数据记录,就可以使用该技术【”。 3 序列关联分析( s e q u e n f i a la n a l y s i s ) 序列关联分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序 列关联分析的侧重点在于分析数据洵的前后序列关系。他们之间的差别是序列关 联分析把数据之间的关联性与时间联系起来,它能够发现数据库中形如“在某一 段时间内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列a - b 一 c 出现的频度较高”之类的知识。序列关联分析描述的问题是:在给定交易序列数 9 浙江人学硕士学位论文 甚于数据挖掘的移动客户虚假离网研究 据库中,每个序列是按照交易时问排列的一组交易集,挖掘序列函数作用在这个 交易序列数据库上,返回该数据库中出现的高频序列。在进行序列关联分析时, 同样也需要由用户输入最小置信度c 和最小支持度s 。 2 3 数据挖掘常用算法 2 3 1 神经网络 神经网络近年来越来越受到人们的关注,囚为它为解决大复杂度问题提供了 一种相对比较有效的简单方法。神经网络可以很容易地解决具有上百个参数地问 题。神经网络常用于两类问题:分类和回归。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。输入层地 每个节点对应一个个的预测变量。输出层地节点对应目标变量,可有多个。在输 入层和输出层之问是隐含层( 对神经网络使用者来说不可见) ,隐含层的层数和 每层节点的个数决定了神经网络的复杂度。 神经网络的每个节点都可以表示成预测变量的值或值的组合。调整节点间连 接的权重就是在建立( 也称训练) 神经网络时要做的工作。决定神经网络拓扑结 构( 或体系结构) 的是隐含层及其所含节点的个数,以及节点之间的连接方式。 要从头开始设计一个神经网络,必须要决定隐含层和节点的数目,活动函数的形 式,以及对权重做那些限制等。 2 3 2 决策树 决策树代表着决策集的树形结构。决策树提供了一种展示类似在什么条件下 会得到什么值这类规则的方法。 决策树的基本组成部分为决策节点、分支和叶子。建立决策树的过程,即树 的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着 一个节点。对每个切分都要求分成的组之间的“差异”最大。各种决策树算法之 间的主要区别就是对这个“差异”衡量方式的区别。切分的过程也可称为数据的 “纯化”。如果经过一次切分后得到的分组,每个分组中的数据都属于同一个类 别,显然达到这样效果的切分方法就是我们所追求的。 1 0 浙强大学颀i 学位论史 基j :数据挖掘的移动客户虚假离嘲研究 实际中应用的决策树可能非常复杂。假定我们利用历史数据建克了个包含 了几百个属性,输出的类有十几种的决策树,这样的一颗树对人来说j 能太复杂 了,但每一条从根节点到叶子节点的路径所描述的含义仍然是呵以理解的。决策 树的这种易理解性对数据挖掘的使用者来说是个昆著的优点。 2 3 3 其它算法 1 遗传算法 遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设 计方法的优化技术 2 近邻算法 近邻算法是将数据集合种每一个记录进行分类的方法。 3 规则推导 推贝u 推导是从统计意义上对数据中的“如果一那么”规则进行寻找和推导的 方法。 2 4 数据挖掘的基本步骤 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的 过程,这些模型和关系可以用来做出预测。 在实施数据挖掘之前,先要制定采取什么样的步骤,每一步都做什么,达到 怎么样的目标是必要的。有了好的计划才能保证数据挖掘有条不紊地实施并且取 得成功。很多软件供应商和数据挖掘顾问公司都提供了一些数据挖掘过程模型, 来知道他们的用户一步步地进行数据挖掘工作。比如s p s s 的5 a 一评估 ( a s s e s s ) 、访i b ( a c c e s s ) 、分析( a n a l y z e ) 、行动( a c t ) 、自动化( a u t o m a t e ) ,以及s a s 的s e m m a 采样( s a m p l e ) 、探索( e x p l o r e ) 、修i e ( m o d i f y ) 、建模( m o d e l ) 、评 估( a s s e s s ) 。 无论目前存在有多少种的方法和步骤,总的来说,数据挖掘的基本过程为; 首先需要定义商业问题,而后根据选择的组建立数据挖掘库。数据挖掘库中的信 息可以从数据仓库中提取,如果还需要别的信息,还可以从外部数据源中直接获 取。建立数据挖掘库后,需要对数据进行分析,拟定初步的数据模型,这包括选 浙江大学硕i 学位论文 基 二数据挖掘的移动客户虚假离蛾研究 择变量、选择汜录集合,对变量进行转化或者创建新的变量。在模型初步建立后 需要对模型进行合理的评估,如果模型和实际系统有较大的误差,则模型需要重 新修改,直到模型和实际系统比较接近再对模型进行解释,并作为辅助决策信息 传递给管理人员l 8 1 。 a 。选择变量 b 选择记录 c 。创建新变量 c l 。转换变景 简单验证 变义验证 n 维交叉验证 自举法 定义商业问题 a 。数姑收集 一 b 。数据描述 ,一一“选择建立数措挖掘库 d 。数据质壤评估和数据清邢 c 。台井与整台 互匠:勰娑掘库 h 。维护数据挖掘库 准备建模数据 l 建奇模型修改模型 - - - - - - - - - - r - - - - - - - - - - - - - - - - - - - - - 一 l 模型的评价和解释l 一、 a 。模型验证 实旋b 外部验证 图2 1 数据挖掘的基本过程 2 4 1 定义业务问题 业务问题的定义要求非常明确。任何不明确的定义都会严重影响模型的准确 和应用时的效果,这是数据挖掘的基础。 2 4 2 数据准备 数据的准备包括数据取样、数据特征探索、分析和预处理,同时要明确问题, 选择适合的数据,必要时要进行调整。选择正确的数据源对整个数据挖掘项目的 成败至关重要。 数据取样要把好数据的质量关,在任何时候都不要忽视数据的质量,即使你 是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为数据挖掘 的目的是要探索企业运作的规律性的,如果原始数据有误,则还谈什么从中探索 规律性? 若真的从中还探索出来了什么“规律性”。再依此去指导工作,则很可 能是在进行误导。若是从正在运行着的系统中进行数据取样,则更要注意数据的 完整性和有效性。 1 2 浙江大学硕士学位论文基j i 数据挖摭的移动客户虚假离嘲研究 2 4 3 建立模型 这。步是数据挖掘工作的核心环节。对建立模型米 兑,要记住的最重要的事 就是塌实一个反复的过程。需要仔细考察4 :同的模型以判断哪个模型对你的商业 问题最有用。在寻找好的模型的过程中学到的东西会启发你修改你的数据,甚至 改变最初对问题的定义。 一旦决定了挖掘类型之后,就绪要选择模型的类型。模型的类型可能事一棵 决策树、神经刚络、甚至传统的数学统计。选择什么样的模型决定了你需对数据 做哪些预处理工作。如神经网络需要做数据转换,有些数据挖掘工具可能对输入 数据的格式有特定的限制等。一旦所有的数据准备好之后,就可以开始训练你的 模型了。就目前的技术发展水平而言,数理统计方法还是数据挖掘工作中最常用 的主流技术手段。 2 4 ,4 验证和评价模型 从上述过程中将会得出一系列的分析结果、模式或模型,评价的办法之一是 直接使用原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那么 决策支持信息的价值就不太大了。一般来说,这一步应得到较好的评价。这说明 确实从这批数据样本中挖掘出了符合实际的规律性。另一种办法是另外找一批数 据,已知这些数据反映了客观实际的规律性。这种办法的检验效果可能会比前一 种差。差多少是要注意的。若是差到不能容忍的程度,那就要考虑第一次构建的 样本数据是否具有充分的代表性或是否是模型本身不够完善。这时候可能要对前 面的工作进行反思了。若这一步也得到了肯定的结果,那数据挖掘应得到很好的 评价了。再一种方法是在实际运行的环境中取出新鲜数据进行检验。 一般来说,说用模型得到的如果是个直接的结论,则当然很好,但是,实 际上这种情况非常得少,更多的时候得出的是对目标问题多侧面的描述,这时就 要能很好地总结他们地规律性,提供合理地决策支持信息。所谓合理,实际上往 往是要在所付出的代价和达到预期目标地可靠性地平衡上做出选择。假如在数据 挖掘过程中,就预见到最后要进行这样的选择的话,那么最好把这些平衡的指标 尽可能地量化,以利于综合抉择。 在实际应用中,随着应用数据的不同,模型的准确率肯定会有所变化。更重 】3 浙江人学硬:学位论文 甚于数据挖掘的移动客户虚假离蚪研究 要的是,准确度自身并不定是选择最好模裂的证确评价方法,需要进一步了解 错误的类型和由此带来的相关费用的多少。 2 4 5 模型的实施 模型建立并经过验证之后,可以有两种主要的使用方法。第一种是提供给业 务人员或分析人员做参考,通过察看和分析这个模型之后提出行动方案建议。另 ,种是把此模型应用到不同的数据集上。模型可以用来标识一个事例的类别,给 一项申请打分等。还可以用模型在数据库中选择符合特定要求的记录,并用 o l a f 工具做进一步的分析。 数据挖掘过程并不是线性的,要取得好的结果就要不断重复上述步骤。比如 在“建立模型”时,- 叮能觉得在“数据预处理”时做得不够好,或者是要往里面 添加一些新的数据等。 2 5 商业智能系统 商业智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 系统由业务数据库系统、决策支持 系统等部分构成,如图2 2 所示。决策支持系统即d s s ( d e c i s i o ns u p p o f ls y s t e m 、 由三个层次的内容组成:数据仓库、联机分析处理( o n l i n e a n a l y t i c a lp r o c e s s i n g , o l a _ r ) 茅n 数据挖掘。 图2 2 商业智能系统的数据处理循环 1 4 决策信息反馈到实际的业务系统 浙江人学颈上学位沦文基于数姑挖掘的移动客户虚假离网研究 2 5 1 数据仓库 2 0 世纪8 0 年代中期,“数据仓库之父”w i l l i a mh i n m o n 先生在其建立数 据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓 库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数掘 集合。 数据仓库系统包括如下几个部分: 源数据部分,数据抽取、转换和装载( e t l ) 部分,以及中心数据仓库部分。 经过这些环节,可以完成将数据从源数据装载到数据仓库中的过程。 数据集市,根据部门的需要,可以从数据仓库中形成数据集市,以满足部 门级数据分析的需要。 数据访问和分析部分:在数据访问和分析过程中,可以采用o l a p 分析 及数据挖掘技术进行分析,得出有关的分析结果。 数据仓库技术的 h 现具有重要的意义。它不仅提高了数据的存储及处理能 力,而且也提高了分析能力。数据仓库技术能够让人们发现很多从来没有意识到 的知识,并带来相应的效益。 数据仓库的建立必然要考虑包括数据挖掘在内的数据分析技术,而数据挖掘 并不一定非要数据仓库。但有了数据仓库,数据进行了一定程度的整理、清洗后, 有利于改进提高系统数据挖掘活动的速度。数据仓库与数据挖掘有如下的关系: 数据仓库提供数据源 - 数据挖掘提供分析处理方法 数据挖掘并非完全依存于数据仓库 2 5 2 联机分析处理( 0 l a p ) 技术 联机分析处理的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的。 当时,c o d d 认为联机事务处理( o u 甲) 已不能满足终端用户对数据库查询分析的 需要,s o l 对大型数据库进行的简单查询也不能满足用户分析的需要。用户的 决策分析需求对关系数据库进行大量计算爿能得到结果,而查询的结果并不能满 足决策者提出的需求。 因此,c o d d 提出了多维数据库和多维分析的概念,即o l a p ,在通常意义 1 5 浙江大学颁 学位论殳 基于数据挖掘的移动客户虚假离网研究 上是指针对特定问题的联机数据访问和分析。o l a p 的目标时满足决策支持或多 维环境特定的查淘和报表需求。它的技术核心是“维”这个概念。维是人们观察 数据的一些特定角度,是考虑问题时的一类属性,属性集合构成一个维,例如时 问维、地理维等,也就是说,从时间的角度、地理位置的角度来分析数据。维还 可以是分层次的。维的层次是指人们观察数据的某个特定角度( 即某个维) 还可 以存在细节程度不同的各个描述方面,例如,时间维可以向下再划分出日期、月 份、季度、年度等不同的层次;地理维可以划分为省、市、县、乡等层次。在 o l a p 中,维的一个具体取值称为维的成员,也就是将数据项在某维中位置的描 述称为维的成员。在o l a p 分析中,我们通过对维进行不同的操作,能够更加深 入分析数据,了解数据中所包含的有用信息。 数据挖掘分析与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的模 式( 模型) 的正确性,而是在数据库中自己寻找模型。它在本质上是一个归纳的 过程,比o l a p 更自动化、更深入。从数据分析深度的角度来讲,o l a p 位于较 浅的层次,而数据挖掘所处的位置则比较深。 2 6 本章小结 本章主要从概念、常用技术、常用算法、基本步骤等各个方面介绍了数据挖 掘技术,并简单介绍了与数据挖掘技术紧密相关的数据仓库技术和联机分析处理 ( 0 u ) 技术。 1 6 浙汀大学颀l 学位论义 基1 数据挖掘的移动客户虚假离嘲研究 3 数据挖掘在移动通信领域的应用 数据挖掘的应用是极其广泛的,生物医学和d n a 分析( 如d n a 序列问相似 搜索和比较、可视化展现基因的复杂结构和序列模式) 、金融( 如贷款偿还预测和 客户信用政策分析) 、零售业( 如销售、顾客、产品、时间和地区的多维分析,促 销活动的有效性分析1 等各个行业,只要有数据的地方,基本上就有数据挖掘的 用武之地【6 j o 而在移动通信业使用数据挖掘也是大势所趋。 3 1 移动通信行业选择数据挖掘技术的必然 绪论中已经提到了数据挖掘技术为什么适合移动通信业,这里将做进一步的 阐述。移动通信企业为什么会选择数据挖掘技术,有以下的一些必然的原因【5 l : 1 ,垄断格局已经打破 由r 可以逐渐允许更多的企业经营移动业务,已有的高额利润将被打破,移 动运营企业面筋的生存环境将越来越紧迫,数据挖掘技术将提高企业在自由竞争 的市场中的竞争力,因此,受到了移动通信企业的高度重视。 2 竞争更趋激烈 在价格竞争的同时,移动运营企业也在进行网络质量方面的竞争,如提高自 己的网络服务覆盖率、接通率等内容,通过提高自己的网络设备的质量,加强市 场竞争力。随着设备投入方面的不断趋同,不同移动运营商问的网络质量差异将 逐渐减小,这就要求移动运营企业能够在更高的层面上进行竞争,数据挖掘提供 了必要的技术支持手段,因此,移动运营商最终必然选择数据挖掘。 3 提高服务质量的要求 移动通信市场的竞争,要求企业能够不断地为用户提供个性化、针对性的服 务,建立客户关系管理系统( c r m ) ,这是移动通信市场竞争的必然结果。这种服 务质量的提高,只有建立在数据仓库基础上,才能在技术层面提供足够的支持。 数据挖掘能够提供分析型c r m 系统,能够分析出用户的很多非直观的、隐 藏的信息,为市场活动提供更深层次的技术支持。通过数据挖掘技术,移动通信 企业能够区分出具有战略意义的用户,更好地理解用户的行为,并预测市场的发 展趋势。 1 7 浙扛大学硕上学位论文甚于数据挖掘的移动客户虚假离蝌酬究 4 数据电子化程度较高 数据挖掘较早地存移动通信行业应用还有一个重要的原因,就足移动通信企 业的数据电子化程度较高,降低了数据源前期整理的工作量。因此,移动通信企 业比较容易迅速提升企业自身的市场竞争能力,这电为移动通信企业应用数据挖 掘奠定了数据源基础。 建设基于数据挖掘技术的数据仓库系统能够极大地提高国内移动通信企业 的业务支撑能力,丰富企业的业务应用内容,提高国内移动通信企业的业务支撑 能力,丰富企业的业务应用内容,提高企业的市场竞争力,缩短与国际移动通信 企业在运营管理能力方面的差距,为迎接进入w t o 后更开放、竞争更激烈的移 动通信市场做好技术准备。 3 2 数据挖掘在国外的应用 数据挖掘在国外移动通信行业中有很多成功的案例,下面这些公司使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数据隐私保护策略讨论
- 2026年企业员工考勤管理实施细则
- 2026届漳州三检物理试题+答案
- 2026 学龄前自闭症情绪拓展课件
- 2026 学龄前自闭症家校训练实操课件
- 奉献爱心援助感谢信
- 婚礼新娘讲话稿范文
- 婚宴上父母讲话稿12篇
- 小区物业承包合同7篇
- 工程建筑协议书集合15篇
- 2026重庆黔江区公开选拔社区工作者49人考试备考试题及答案解析
- 精装修工程典型错误案例解析(可编辑版)
- 护理职业素养与人文关怀
- 2026年广东汕头市中考历史试卷含答案
- 检验科职业暴露应急预案演练脚本
- 2026年国家电网招聘《计算机类》题库综合试卷含答案详解【培优】
- 青年婚育意愿变迁及政策应对策略研究课题申报书
- 跨文化交际中的语境偏差-洞察与解读
- 派出所联防联控工作制度
- 焊工安全培训复审课件
- 武汉市汉阳区(2025年)辅警考试公安基础知识考试真题库及答案
评论
0/150
提交评论