基于数据挖掘的电话精确营销应用_第1页
基于数据挖掘的电话精确营销应用_第2页
基于数据挖掘的电话精确营销应用_第3页
基于数据挖掘的电话精确营销应用_第4页
基于数据挖掘的电话精确营销应用_第5页
已阅读5页,还剩54页未读 继续免费阅读

基于数据挖掘的电话精确营销应用.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学 硕士学位论文 基于数据挖掘的电话精确营销应用 姓名:伍国炫 申请学位级别:硕士 专业:电子与通信工程 指导教师:李宁 20090520 摘要 基于数据挖掘的电话精确营销应用 专业:电子与通信工程 硕士生:伍国炫 指导教师:李宁副教授 摘要 随着中国加入W T O ,国外通信行业可以进入中国开展通信行业竞争;另外 0 8 年3 G 牌照发放和电信行业重组,移动通信行业竞争空前。移动公司客户群庞 大,而在竞争环境中,客户流失是必然。事实表明,通信运营商每年平均有2 5 一一3 0 的客户流失。G a r t n e r 公司的调查数据表明,开发一个新客户的费用 是维持一个老客户成本的4 5 倍,一个公司如果将其顾客流失率降低5 ,利 润就能增加2 5 一8 5 。由此可见,客户保有对移动公司有着重要的意义。 移动运营商要降低客户流失,首先需要预先了解哪些客户会流失,流失的 原因是什么,然后再根据客户流失原因开展挽留。这就需要有数据预测和客户分 析的技术。数据挖掘技术是目前用于数据预测和分析的强大技术。它能够根据历 史数据建立客户流失的模型,并将该模型运用于实际公司环境中,找出哪些客户 可能会流失,从而为公司及时针对客户开展挽留提供时间和空间。 本文研究的主要成果有:针对移动公司拍照的全球通中高端客户建立客户流 失模型。整个模型建立需要经过业务分析、数据准备、属性选择、模型建立和模 型评估5 个步骤。其中数据准备和属性选择是5 个阶段的关键。数据挖掘采用决 策树和聚类方法,通过S P S S 软件开展建模过程。通过建立模型,得出客户流失 与客户本月话费下降比率、上月话费下降比率、是否呼叫转移到网外、与联通用 户通话比例和是否拨打1 0 0 1 0 有较大关系。 在模型建立后,本文将模型运用到实际工作当中,并深入分析流失客户的 话费、网龄,年龄特征,为客户挽留电话营销提供指导意见,提高客户挽留成功 率,降低电话营销资源投入。 在本文研究过程中,我根据我所在岗位工作内容,主要负责业务分析、数 据准备、部分属性选择以及模型建立后客户其他特征分析,为模型建立提供基础 I 摘要 数据。在模型建立后,我将预测数据分为3 个组,并对3 个组进行分析对比,同 时针对预警流失客户开展电话营销挽留工作,有效提高客户保有率。 关键词:数据挖掘,客户流失,流失模型,挽留 A B S T R A C T T h e T e l e p h o n eA p p l i c a t i o no fP r e c i s i o nM a r k e t i n g M a j o r : N a m e : Ba s e do nD a t aM i n i n g E l e c t r o n i c sa n dC o m m u n i c a t i o nE n g i n e e r i n g 、UG u oX u a n S u p e r v i s o r :P r o f L IN i n g A B S T R A C T W i t hC h i n a Sa c c e s s i o nt ot h eW T O ,f o r e i g nt e l e c o m m u n i c a t i o n si n d u s t r yi s a l l o w e dt oe n t e rc o m p e t i t i o ni nt h et e l e c o m m u n i c a t i o n si n d u s t r yi nC h i n a ;b e s i d e ,3 G l i c e n s ei s s u a n c ea n dt h er e s t r u c t u r i n go ft h et e l e c o m m u n i c a t i o n si n d u s t r yi n2 0 0 8 , m o b i l ec o m m u n i c a t i o ni n d u s t r yi sf a c e do f u n p r e c e d e n t e dc o m p e t i t i o n I nt h ef i e r c e c o m p e t i t i v ee n v i r o n m e n t ,w i t hal a r g em o b i l ec u s t o m e rb a s e ,c u s t o m e rl o s si s i n e v i t a b l e T h ef a c t ss h o wt h a tc o m m u n i c a t i o n so p e r a t o r sf a c ea na v e r a g eo f2 5 t o 3 0 l o s so fc u s t o m e r s G a r t n e r Ss u r v e yd a t ai n d i c a t et h a tt h ed e v e l o p m e n tc o s to fa n e wc u s t o m e ri sf o u rt of i v et i m eo ft h em a i n t a i nc o s to fa ne x i s t i n gc u s t o m e r I n a d d i t i o n ,s t u d i e sh a v es h o w nt h a tac o m p a n yi ft h el o s sr a t ef o u rp e r c e n tl o w e r , t h e p r o f i tw i l li n c r e a s e2 5 t o8 5 T h i ss h o w st h a tr e t a i n i n gc u s t o m e r si si m p o r t a n tt o t h em o b i l ec o m m u n i c a t i o ni n d u s t r y I fM o b i l eo p e r a t o r sw a n tt or e d u c ec u s t o m e rl o s s e s ,f i r s to fa l ln e e dt op r e d i c t w h i c hw i l ll e a dt ol o s so fc u s t o m e r s ;s e c o n d ,f o rt h el o s so fc u s t o m e r sf o rd i f f e r e n t c h a r a c t e r i s t i c s ,t od e v e l o pc u s t o m e rr e t e n t i o ns t r a t e g i e s ,t op r e v e n tt h el o s so f c u s t o m e r s T h i sr e q u i r e sa n a l y s i so fc u s t o m e r b e h a v i o r , i d e n t i f yt h el i n kb e t w e e nt h e l o s so fc u s t o m e r sa n dt h ec o r p o r a t es t r a t e g y D a t am i n i n gt e c h n o l o g yi sc u r r e n t l yt h e m o s tp o w e r f u lm e a n so fd a t aa n a l y s i si nt h ef i e l do fd a t aw a r e h o u s e I tc a nb eb a s e do nh i s t o r i c a ld a t at ob u i l dc u s t o m e r1 0 S Sm o d e l T h em o d e lw i l l b ea p p l i e dt ot h ea c t u a lc o r p o r a t ee n v i r o n m e n t ,a n df i n do u tw h i c hc u s t o m e r sm a yb e l o s t ,S Oi nt i m ef o rt h ec o m p a n yt or e t a i nc u s t o m e r sf o rt h ep r o v i s i o no ft i m ea n d s p a c e T h em a i nr e s u l t so ft h i ss t u d ya r et ot a k ep h o t o g r a p h so ft h ec o m p a n yf o rm o b i l e G S Mc u s t o m e r si nt h eh i g h e n dm o d e lo fc u s t o m e rc h u m I I I A B S T R A C T T h em o d en e e dt og ot h r o u g ht h ew h o l eb u s i n e s sm o d e la n a l y s i s ,d a t a p r e p a r a t i o n ,f e a t u r es e l e c t i o n ,m o d e lb u i l d i n ga n dm o d e la s s e s s m e n to ff i v es t e p s , D a t ap r e p a r a t i o na n dp r o p e r t i e so fw h i c hc h o i c ea r e t h ek e ys t a g e s D a t am i n i n gu s i n g d e c i s i o nt r e e sa n dc l u s t e r i n gm e t h o d ,c a r r i e do u tt h r o u g hS P S Ss o f t w a r ep r o c e s s m o d e l i n g M o d e lh a v ec o m et h i sm o n t ha n dc u s t o m e rc h u mr a t e sd e c r e a s et h er a t eo f d e c l i n ei nt h er a t eo fc h a r g e so nw h e t h e rt h ec a l lt r a n s f e r r e dt ot h en e t w o r k ,a n dt h e p r o p o r t i o no fE D IU S e r Sa n dw h e t h e ro rn o tt h ec a l lt h e r ea r em o r er e l a t e dt od i a l 1 0 0 1 0 I nt h em o d e l ,t h eu s eo ft h em o d e lw i l la p p l yt ot h ea c t u a lw o r k W ea n a l y s i st h e c h a r a c t e r i s t i c so fC u s t o m e r sc h a r g e s ,t h en e ta g e ,t h ea g e T h i sp r o v i d e dg u i d a n c ef o r T e l e p h o n em a r k e t i n gt or e t a i nc u s t o m e r s ,a n dt oi m p r o v et h es u c c e s sr a t eo fc u s t o m e r r e t e n t i o na n dr e d u c et e l e m a r k e t i n g I n p u t I nt h i ss t u d y , 1w o r ki na c c o r d a n c ew i t ht h ec o n t e n t so fm yp o s t s ,a n dIa m m a i n l yr e s p o n s i b l ef o rb u s i n e s sa n a l y s i s ,d a t ap r e p a r a t i o n ,s o m ep r o p e r t i e so fm o d e l s e l e c t i o na n do t h e rf e a t u r e sa f t e rt h ea n a l y s i so fc u s t o m e r s ,i no r d e rt op r o v i d et h e b a s i cd a t am o d e l I nt h em o d e l ,1w i l lp r e d i c tt h ed a t ai sd i v i d e di n t ot h r e eg r o u p s ,a n d a l la n a l y s i so ft h r e eg r o u pc o m p a r i s o n ,a tt h es a m et i m ew a r n i n ga g a i n s tt h el o s so f t d e p h o n em a r k e t i n g t or e t a i nc u s t o m e r se f f e c t i v e l yi n c r e a s ec u s t o m e rr e t e n t i o n K e yW o r d s :d a t am i m n g ,t h el o s so fc u s t o m s ,t h el o s so f p r e d i c t i o nm o d e l , r e t a i n I V 本人郑重声明: 原创性声明 所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表 或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以 明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 7 哥、酝 日期:细7 年5 月刃日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名:j 日期:砷年E , 92 0 日茹魏日 醐3 呷耵月日 第1 章绪论 第1 章绪论 本章将从课题研究背景着手,介绍课题研究的目的和意义;综述相关领域国 际、国内的发展现状,为数据挖掘在企业运用提供实际例子。最后本章还介绍论 文的研究思路以及各章节的结构。 1 1 本课题研究背景 行业背景:伴随经济增长和社会对移动事业的巨大需求,截至0 8 年1 2 月, 中国移动客户达4 5 7 亿户,排名世界第一。如何做好存量市场的保有,是 中国移动公司面临的课题。另外,2 0 0 8 年5 月2 4 日,移动行业重组,中国 移动独家垄断已不存在,三家运营商三足鼎立格局形成;2 0 0 9 年1 月7 日, 国家公布3 G 牌照正式发放,中国通信行业全业务运营时代到来;新形势下, 其他运营商将会开展客户开发工作,其目标客户群即为中国移动客户,特别 是中高端客户。所以客户保有将成为移动重组、3 G 时代的新课题。 环境背景:我国正式加入W T O 以后,国外通信行业可以在中国发展,而国外 通信行业网络技术先进,服务周到,价格偏低。基于以上原因,客户往往会 选择转网,这对移动公司运营带来较大挑战。从近几年情况看,通信运营商 每年平均有2 5 一3 0 的客户流失:G a r t n e r 公司的调查数据表明,开 发一个新客户的费用是维持一个老客户成本的4 “ - 5 倍;另外有研究表明, 一个公司如果将其顾客流失率降低5 ,利润就能增加2 5 一8 5 M 。由此 可见,客户保有对移动公司来说具有重大意义,所以移动公司必须向以客户 为中心、以数据为中心、以信息为基础的国际先进模式转变。,才能在电信 运营业日益残酷的国际化竞争中立于不败之地。 渠道背景:电话营销起源于6 0 年代的美国,后传入世界各国。在美国,1 9 9 5 年用于电话营销的总开支约为3 8 5 6 亿美元,2 0 0 0 年这个数字可能增长到 5 9 9 0 亿美元H 。目前,电话营销渠道是移动运营公司重要的营销渠道,电话 l 第1 章绪论 营销渠道具有三高一低特点:主动性高、实效高、互动性高和成本低嘲。它 是移动公司点对点主动服务的个重要渠道。通过电话营销渠道开展客户关 系管理,开展产品销售和客户挽留等工作具有重大的意义,电话营销已经成 为客户挽留的主要渠道之一。 通过以上三个方面的分析可知,得客户者得天下。在保持移动客户高速增长 的同时,提高客户价值,减少客户流失对提高移动公司竞争力有着重要意义。本 研究课题针对利用电话营销渠道,通过数据挖掘方法,开展精确营销和挽留,提 高客户A R P U 和提高客户保有率。 1 2本课题研究的目的和意义 客户关系管理。近年来己经成为移动企业持续发展的重要战略之一。它是以 “以客户为中心”开展各项营销活动和市场细分,充分与现代信息技术和数据 挖掘相结合,经过深入的研究和分析客户行为,针对移动市场,细分客户群,切 割市场,针对不同客户制定出相应的营销、挽留和服务策略,从而提高客户满意 度,提高客户保有率,在满足客户需求的情况下,创造需求,实现营利,促进企 业和客户的双赢。通过对客户数据的深入分析,更加全面准确地理解客户,从而 为涉及客户的营销活动制定、提供信息支持。管理实践表明,企业8 0 的利润往 往来自于其2 0 的客户,因此,保持和发展这2 0 的最大利润客户对企业来说就 显得尤为重要旧。由此可见,区分不同类型客户,更好地保持和发展高价值客户 对企业来说尤为重要。 本课题针对面向客户关系管理中客户挖掘问题,探索移动公司如何应用数据 挖掘技术和方法,利用S P S S 工具,实现准确、有效的客户精准营销和挽留。这 在理论上可以丰富移动中高端客户保有和挽留的研究,在实践上可为客户关系管 理和中高端客户保有问题的解决提供更多的方法选择,对我国移动企业在“以客 户为中心“ 的管理理念背景下,利用信息技术提高企业竞争力具有一定的应用价 值。 2 第l 章绪论 1 3本课题国内外研究现状分析 国外移动公司技术较为发达,特别是借助计算机技术,使用数据挖掘方法, 善于从数据中挖掘信息,发现问题和制定措施。他们从数据仓库系统进行客户分 类、服务分析、客户行为预测和流失模型制定,取得了较好的成效。下面是国内 外的数据挖掘精确营销应用情况p 。: 英国移动采用数据挖掘手段,建立模型来确定潜在客户购买倾向、确定成为 客户可能带来的业务收入。建立精确的客户特征以后,英国移动开发了针对 特定客户群的产品。 沃达丰利用数据挖掘技术建立模型研究客户离网原因,针对不同客户离网原 因开展挽留活动,提高客户保有率。 法国移动利用数据挖掘技术在客户流失分析和预测、交叉营销等各方面都取 得很多成果。 N T T 在自己的C R M 系统C O M W A R E 中使用数据挖掘的方法来分析数据和提高对 客户的管理水平。 中国移动公司对此也越来越重视对自己所掌握的客户信息的挖掘工作。从 2 0 0 2 年开始,中国移动开始建设自己的经营分析系统( B I 系统) ,其目的是使中 国移动适应日趋激烈的市场竞争环境,利用业务支撑系统产生的实时的动态的客 户信息资源,结合其它相关支撑系统( B O S S ,I C D 等系统) 提供的信息,构建经 营分析平台,对客户进行整合,筛选和挖掘,并最终为各级市场决策管理者提供 及时、准确、科学的辅助决策依据。 1 4论文研究思路和方向 本文研究的思路可以归纳为以下四点: 第一,分析目前各种数据挖掘算法和相关基础知识,为客户流失数据挖掘提 供理论知识和支撑: 第二,通过海量历史数据,建立客户信息宽表,寻找影响客户流失的重要属 3 第1 章绪论 性,根据这些数据建立相应的客户流失模型; 第三,在模型建立之后,通过相应的评估指标对模型进行评估,确保模型准 确性和有效性; 第四,将模型运用到实际环境中,提供预测流失名单,制定相应的措施,并 为电话营销挽留提供指导意见。在开展电话营销挽留后,我们对模型进行进一步 验证。 本文研究的实现步骤如下: 第一,客户流失业务需求:客户流失预测不单单是一个技术问题,还需要业 务方面的知识,本文通过业务知识经验,对客户流失模型进行业务分析,建立客 户流失模型的基础业务要素; 第二,数据准备和转化:数据准备和转化是从海量信息中筛选有效信息,同 时通过各信息进行整合和转化,组成客户信息宽表,为后续数据挖掘提供基础数 据; 第三,属性选择:在客户信息宽表中,通过建立相应的信息重要衡量指标, 筛选出重要的信息作为数据挖掘的要素,提高数据挖掘的效率; 第四,模型建立和评估:本文通过决策树算法与神聚类方法,采用S P S S 工 具进行模型建立,并制定相应的评估指标对模型进行评估; 第五,模型运用:模型运用于实际环境后效果评估和跟踪分析。 1 5 论文研究结构 本文主要分为以下五个部分: 第一章主要介绍论文的研究背景、意义与研究方向和思路,介绍论文的框架; 第二章主要介绍数据挖据的基本概念,包括数据挖掘的算法、O L A P 和一些 方法论,为数据挖掘提供理论知识; 第三章主要介绍客户流失模型的建立过程。针对历史客户数据,进行客户转 化和选择,通过相应的算法和工具,建立客户流失模型,并对模型进行评估; 第四章介绍该模型运用于实际工作当中的例子,深入分析流失客户特征以及 采取的方案,分析数据挖掘模型的效果; 4 第l 章绪论 第五章对整个论文的内容作了总结,总结模型的效果和不足。 1 6本章小结 本章从行业背景、环境背景和渠道背景3 个方面介绍了本论文研究的背景, 指出中高端客户保有对移动公司的重要性,还介绍了目前国内外数据挖掘运用取 得的价值,从而本文提供了实际例子运用说明,最终本章还介绍论文的整体研究 思路、方向和结构,使读者对本论文有整体的认识,方便读者了解整篇论文的内 容。 5 第2 章数据挖掘与客户流失预测 第2 章数据挖掘与客户流失预测 这一章主要介绍数据挖掘的基础知识,介绍各种数据挖掘算法以及数据的整 体基本步骤,为模型建立提供理论依据。 , 2 1 数据挖掘基础知识 数据挖掘用于辨认大量数据中所反映的有价值信息。数据挖掘从机器学习的 途径获取信息,使得这些信息能够在企业决策支持、预测、估计等诸多领域提供 帮助。数据通常是庞大而信息含量很低,在它未经加工时只有很小的直接使 用价值。简单的说,数据挖掘就是从海量数据中提取或“挖掘”知识。这些知识 必须是隐含的、事先未知的、并且潜在有用的信息。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的 过程,这些模型和关系可以用来做出预测。对公司来说,数据挖掘就是在“数据 矿山“ 中找到蕴藏的“知识金块“ ,帮助公司减少不必要投资的同时提高资金回 报。 数据挖掘不是数据分析。数据分析一般面对的数据量较小,深度也要求不高, 且没有预测功能。数据挖掘一般面对的都是“海量数据,因此其对算法的效率 要比分析类高出很多,数据挖掘需要具备预测功能,能够从错综复杂的信息中得 出信息之间的联系和因果关系,这些信息通常人力是很难发现的。概述来讲,数 据挖掘的任务有:关联分析、时序模式、聚类、分类与预测等u 引。 数据挖掘的从业人员不仅仅需要对数据挖掘的概念、算法、软件、模型有着 清楚的认识,还要对数据挖掘所应用的行业、业务有着深入的理解。因为数据挖 掘所挖掘的是较为深入的信息,在数据挖掘过程中需要对业务规则进行解释和认 识,一个没有深厚行业背景的人在理解、应用这些信息时会不可避免地产生困难, 任何不明确的定义都会严重影响模型的准确和应用时的效果引。所以说“做一 6 第2 章数据挖掘与客户流失预测 个行业的数据挖掘,首先要成为那个行业的市场专家。 2 2 各种挖掘算法介绍 数据挖掘中的算法是指为了达到模型的建立,而需要一套逻辑的推理过程。 模型的建立可以通过不同算法得到,不同算法之间并不互斥,并不是模型的建立 只能用唯一的算法。算法之间没有最好或最坏之分,算法的好坏与算法运用环境 和数据属性有一定关系。如神经网络适合解决较为复杂,且参数较多的问题的模 型,但神经网络算法比较复杂。对于简单类型的问题,如果采用神经网络,则会 出现简单问题复杂化的情况。而决策树的结构、规则推理的过程是开放的、清楚 的,对于参数不多的问题,比较适用;对于复杂问题采用决策树,则会使问题更 加复杂,难以理解和建模。由此可见,算法并没有最好,只有合适算法。要根据 不同情况的问题选择合适的、有效的算法来建立模型,确保模型容易理解、调整 和优化。图2 1 是数据挖掘算法在模型建立的过程图: 图2 1 模型建立过程图 接下来将针对客户流失预测常用的算法作简单介绍。 2 2 1 聚类 聚类( C l u s t e r i n g ) 是指根据“物以类聚“ 的原理,将数据集划分为若干组 ( C l a s s ) 或类( C l u s t e r ) 的过程,并使得同一个组内的数据对象具有较高的相似 度,而不同组中的数据对象是不相似的1 引。相似或不相似的描述是基于数据描 7 第2 章数据挖掘与客户流失预测 述属性的取值来确定的。通常就是利用( 各对象间) 距离来进行表示的。聚类是 一项基本的认识活动。通过适当聚类,确保事物按照既定的规则归类,各类间的 事物属性相同,有利于研究分析。聚类与分类不同,前者是一个无监督的学习过 程,后者是一个有监督的学习过程。分类时需要实现知道分类所依据的属性值, 而聚类直接对数据集进行处理,前期谁也不知道数据会分成哪些类别,需要考察 所有的个体,根据这些个体的特征才能决定类的划分,并由算法自动确定,这是 一个动态的过程。在概念聚类方法中,仅当一组对象可以由一个概念所描述 时,这些对象方才能构成一个类。 常用的聚类方法有系统聚类法、传递闭包法以及与此等价的最大值成熟P r m i 算法及K r u s k a l 算法、动态直接聚类法,基于摄动的模糊聚类方法F C M B P 、K M a e n 聚类法、人工神经网络模糊聚类法等等。 聚类有较多算法,聚类算法的选择需要根据应用所涉及的数据类型、聚类的 目的以及具体应用来确定。如果利用聚类分析作为描述性或探索性的工具,那么 就可以使用若干聚类算法对同一个数据集进行处理以观察可能获得的有关( 数据 特征) 描述。聚类算法主要可以分为5 种:划分方法、层次方法、基于密度方法、 基于网格方法和基于模型方法M 1 8 3 。 2 2 2 神经网络 人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻 辑规则进行推理的过程;而直观性的思维是将分布式存储的信息综合起来,结果 是忽然间产生想法或解决问题的办法。人工神经网络就是模拟人思维的第二种方 式。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。 神经网络现在己广泛用于人工智能与专家系统,因为它为解决大复杂度问题 提供了一种相对来说比较有效的简单方法K 。神经网络可以很容易的解决具有 上百个参数的问题。神经网络可以简单理解为是一组连接的输入输出单元,其 中每个连接都有一个权重。在调测阶段,通过调整神经网络的权重使得能够预测 输入样本的正确类标号来学习。 神经网络是一个以有向图为拓扑结构的动态系统,它适合于复杂的问题分析 第2 章数据挖掘与客户流失预测 和建模上M “,因为神经网络的参数一般来说比较多,不同参数的组合方式将会 影响结果的呈现。神经网络的算法和模型相当复杂,所以往往难以分析和解释神 经网络建立的模型。一般情况下,我们将神经网络当作“黑箱子“ ,箱子里面装 的是什么,如何进行转换,只要输出准确,那么该箱子则有用。比如警察系统可 能需要一个面相识别软件,该系统没必要知道为什么这些线条由人体面部各部分 组合在一起就能模拟出需要调查那个人,而另外相似的眼睛、鼻子眉毛等组合在 一起则不是。 2 2 3 决策树 决策树是一个类似于流程图的树结构“。其中每个内部节点表示在一个属 性上的测试,每个分支代表一个测试输出,它从根节点开始,对原信息样本进行 测试,通过多次调整,根据不同的测试结果将信息样本划分成不同的数据样本子 集,每个数据样本子集就是决策树的一个子节点。它是通过一系列规则对数据进 行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。 决策树一般都是自上而下的来生成的。每个决策或事件都可能引出两个或多 个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决 策树。决策树的结构有3 个重要组成部分:决策节点、分支和叶子。决策树中最 上面的节点称为根节点,是整个决策树的开始。从根节点开始进行决策,可以分 为2 个分支或多个分支。每个分支只有2 种可能,一种是可以继续再分支,称为 决策节点,一个是不能继续分支,是树的结尾,称为叶子。但从整体情况来看, 从决策树根节点到最后的叶子的遍历中,最终肯定会到叶子节点。从根到叶子节 点都有一条路径,这条路径就是一条“规则。决策树可以是二叉的,也可以是 多叉的怕“。对每个节点需要衡量的内容包括通过该节点的记录数、分类的路径 以及对叶子节点正确分类的比例。 2 2 4 关联规则 关联规则的挖掘问题就是从事物数据中找出具有用户给定最小支持度和最 小可信度的规则2 钊。关联规则在市场营销中最典型的应用就是整合销售。通过 9 第2 章数据挖掘与客户流失预测 关联规则算法找到满足定支持度与可信度的规则后,可以利用这些规则向老客 户进行整合销售,或将现有某些业务打包销售,能显著地促进销售。 在移动公司中,“彩铃与歌曲”是一个关联规则的例子。在2 0 0 5 年推广 彩铃功能的时候,我发现,在推广彩铃功能的同时,顺便推广歌曲更换业务,其 销售成功率明显提高。后来经我深入分析和听取推广录音,在推广彩铃的时候, 客户往往希望能听到办理彩铃功能后自己的彩铃是怎么样的,同时也希望能够选 一首自己喜欢或比较流行的歌曲,这个时候如果我们进行彩铃歌曲的推广,可以 事半功倍。所以,从2 0 0 6 年开始,我在进行彩铃功能电话营销过程中,将彩铃 功能和歌曲更换2 个业务进行组合,开展整合营销,果然两个业务的销售量均大 大提升,且实现彩铃和换歌一站式服务,提高客户满意度。 “彩铃与歌曲“ 是移动公司电话营销中一个典型的关联规则。这个规则的可 信度就是办理了彩铃功能的客户同时也办理了彩铃歌曲的概率。这个规则的支持 度就是在所有客户中同时办理了彩铃功能与彩铃歌曲的客户比例。可信度越高, 就说明购买了办理了彩铃功能的客户越有可能同时办理了彩铃歌曲。支持度越 高,就说明同时办理彩铃功能与彩铃歌曲占总客户中的比率越高。一个有价值的 关联规则应该同时具有令人满意的可信度与支持度。 2 3 O L A P 与数据仓库介绍 O L A P ( O n L i n eA n a l y t i c a lP r o c e s s i n g ) ,即联机分析处理,是针对特定问题 的联机数据访问和分析呦。在以前,营销活动分析人员,管理决策和执行人员 由于分工不同,涉及内容也不同,口径也和信息经常出现不对称情况,从而导致 前台与后台信息脱节,信息无法共享和利用。而O L A P 的开发,就是为了使营 销活动3 类人员的信息达成能够进行有效,高速互动,并将信息继续共享,提高 运营水平。O L A P 的目标是满足决策支持或者满足在多维环境下特定的查询和报 表需求“,它的技术核心是“维“ 这个概念。 目前数据处理大致可以分成两大类:联机事务处理O L T P 和联机分析处理 O L A P 。O L T P 是传统的关系型数据库的主要应用,它只提供相关的信息查询和 简单的信息操作。例如移动公司的B O S S 系统,为客户提供查询相关的信息以及 1 0 第2 章数据挖掘与客户流失预测 办理相关业务。而O L A P 除了可以查询和进行简单操作外,还可以进行深入挖 掘,能够预测接下来会如何,以及我们应该采取哪种相应的措施来防范。例如客 户流失问题,O L T P 只提供了客户A R P U 查询,通过查询,我们可以了解客户 A R P U 月趋下降;而O L A P 还还挖掘出该客户会有流失的可能,并第一时间进行 提醒,同时也会对该情况制定相应的措施。其措施制定过程首先是基于客户 A R P U ,假设客户A R P U 低的客户容易流失,然后用O L A P 进行验证,如果假设 不准确,系统会继续假设客户网龄低的客户容易流失。通过这个过程不断循环有 调整优化,最终得出客户容易流失模型。这就是O L A P 与O L T P 最主要的差异。 简单的说,O L A P 只提供简单的信息查询,而O L A P 可以进行数据挖掘,并提供 相关的模型和措施。 数据挖掘与O L A P 具有相同之处是都具有信息挖掘功能,不同之处是O L A P 是基于一定的假设进行挖掘归纳的,并验证假设是否准确;而数据挖掘是没有基 于任何假设情况下开展的,也不存在验证假设是否准确,是通过一定的算法,进 行不断的归纳过程。例如O L A P 可以客户流失与客户A R P U 和网龄进行假设验 证,从而得出两者与客户流失的关系;而数据挖掘是通过算法来挖掘客户流失的 原因和模型,最终结果有可能得出其他更多的因素,比如客户拨打其他运营商热 线电话也是影响客户流失的原因。从这角度看,数据挖掘能更全面找出问题的原 因,并建立全面的模型。 当然,数据挖掘和O L A P 虽然各有不同,但在实际运用中,却紧密相连。 因为数据挖掘在挖掘方面固然全面,但正是由于其算法复杂,如果针对所有的信 息进行挖掘,将会导致挖掘效率和效果。所以针对海量信息的挖掘,一般在早期 准备阶段,会通过O L A P 找出在海量信息中比较重要的变量,同时了解如果采 取相应行动后将会带来怎样的结果;通过O L A P 能在数据挖掘中过滤较多无效 的信息,加快发现真正影响的变量,从而确保模型建立更加精准。 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集 合,用于支持管理决策“。数据仓库不同于一般的数据库,它是用于支持决策, 面向分析型数据处理,是按照一定主题组织各业务系统的。另外,数据仓库是对 多个分散的数据源有效集成,确保数据源的一致性;同时数据仓库中的数据往往 是长期保留,不作修改,它反映了历史时刻点客户的信息,这比较有利于预测和 第2 章数据挖掘与客户流失预测 分析。 移动公司运营需要多个业务管理系统,各业务管理系统存储的数据均非常 多,且信息各不相同,而数据挖掘需要进行大量数据处理,如果直接在业务管理 系统( 如B O S S 系统和客服系统) ,将会导致业务运营系统运行较慢,容易使系 统出现故障,而且由于业务运营系统数据是动态变化的,这给数据处理带来一定 的麻烦,所以为了较好的进行数据挖掘,需要建立数据仓库( 有时会建立数据集 市) 。通过建立数据仓库,将各业务运营系统信息进行数据清洗和转化整合,确 保数据信息一致化和集成化,同时建立相对稳定的数据。在移动公司中,数据挖 掘一般建立在数据仓库之上。 整个数据仓库系统是一个包含四个层次的体系结构K 酬,具体由图2 2 表示: B o S S 系统 客服 系统 智能业 务系统 数据源 圃毋 O L A P 服 务器 数据仓库管理 查询工具 报表工具 分析工具 匿溺i 挖掘工具 函 前端运用 圈2 2 数据仓厍框架图 数据源:是数据仓库系统的数据来源。在移动公司中,该数据一般来源于 B O S S 系统、客服系统、智能业务系统等业务管理系统。数据主要包括客户 消费和个性化信息、公司各种营销方案,公司法规等信息。 数据仓库管理:它是数据仓库系统的重要组成部分,也是数据仓库的重要 功能。数据源的信息众多且各不相同,在数据源进入数据仓库的时候,需 要进行抽取、清理和集成,按照主题进行组织,并按照定格式进行存储。 数据仓库的存储和管理是整个数据仓库的关键,只有合理的存储和管理, 才能使数据源的信息有效利用,在后续数据挖掘中,提高效率,并确保模 型准确性。 1 2 8 8 8 8 凰凰鲤 第2 章数据挖掘与客户流失预测 O L A P 服务器:O L A P 是提高数据挖掘效率的有效工具。通过O L A P ,可以 在成千上百个信息中对部分信息进行假设和分析,剔除无效信息,确定信 息源的影响重要程度。从而有效提高数据挖掘效率。 前端工具:主要包括各种报表工具、查询工具、数据挖掘工具、结果报告 显示工具以及各种基于数据仓库或数据集市的应用开发工具。此部分主要 是给决策者使用。通过这些前端工具,使决策者不需要了解复杂的数据挖 掘过程,简单了解数据挖掘结果,并制定相关措施进行改善。 2 4 数据挖掘过程 数据挖据过程可以概括为以下6 个步骤,具体如图2 3 所示: 图2 - 3 数据挖掘6 大步骤 业务理解:这阶段的工作主要是从业务角度对项目进行理解。包括数据挖 掘的目标、信息源的来源和定义、应涉及的业务内容、各业务之间关系以 及本次数据挖掘涉及的业务系统范围。 数据理解:这阶段工作主要是针对挖掘目标以及基于业务理解基础上,收 集初步的数据,了解各数据含义、数据格式和数据来源。 准备数据:这阶段工作主要是数据的收集和存储,包括数据提取、数据清 洗、数据转换和数据扩充等,建立数据信息宽表,准备数据挖掘所需要的 各项数据。 建立模型:这阶段工作主要是选择合适的算法,合适数据挖掘技术,通过 不断测试和优化,建立数据挖掘模型。 模型评估:这阶段工作主要是针对已建立的挖掘模型进行评估,看模型是 否符合现实工作预期需要。这阶段需要建立评估指标和体系,采用模拟环 第2 章数据挖掘与客户流失预测 境下的数据进行评估。 模型实习:这是数据挖据的最后一个阶段,也是挖掘模型实操阶段。通过 建立的模型,对实际数据进行测试,并根据模型建立相应的措施开展工作, 深入评估模型实际运用效果,并将结果反馈给相关工作人员,为第一阶段 业务理解做出调整,实现闭环管理。 2 5 本章小节 本章主要介绍数据挖掘的基础知识,介绍各种挖掘算法内容和适用范围,同 时介绍在数据挖掘中数据仓库管理框架图,提出数据挖掘通用的6 大步骤,为下 章节模型建立提供理论依据和操作指引。 1 4 第3 章移动客户流失预测的分析 第3 章移动客户流失预测的分析 本章是在第2 章数据挖掘理论知识的指导下,根据移动公司实际情况,逐步 建立客户流失模型。 3 1 流失模型建立5 大阶段 客户流失预测不同于一般的数据库操作,它需要对历史数据进行收集、分析 和预测,是数据挖掘的一项具体应用。其流程也符合数据挖掘的主要流程,一般 包括以下五个阶段: 需求业务分析:主要针对移动客户流失的特征和定义进行初步了解,收 集相关市场信息,初步确定与流失相关的业务知识,了解现有业务政策, 圈定目标客户预测,确定预测的周期和目标等。 数据准备和转化:确定信息收集周期、范围和内容,收集相关的客户信 息,同时对各数据信息进行判断分析,将各项数据进行组合转化,增加 其他有意义的衍生指标,丰富客户信息库。 属性选择:客户流失数据仓库中的数据信息并不是越多越好,属性过多 会使模型分析重点难以突出,预测效率受到影响。在这阶段,我们需要 对海量客户信息进行深入分析,圈定能最有效体现客户流失的属性,对 于无效属性,将从数据仓库中剔除。这阶段为模型建立提供有效的数据 支撑。 建立模型:选择挖掘的算法,确定挖掘的工具,将挑选出来的客户信息 放入数据挖掘软件,建立预测模型。 模型评估:将建立的模型运用于实际数据当中,在实际环境中对客户进 行预测,并根据模型制定相关的措施开展挽留工作,分析模型实际运用 效果。作为下一阶段反馈需求分析和模型优化的经验沉淀。 第3 章移动客户流失预测的分析 “数据准备和转化与“属性选择是客户流失预测的关键阶段,这两项工 作决定了模型建立的效率和效果。“数据准备和转化将海量客户信息转化为能 体现客户流失的特征的信息,而“属性选择“ 是在这基础上选择优先重要客户信 息进行建模。这两阶段的工作如果出错,将会导致挖掘模型的基础数据出错,从 而导致模型不具备参考意义。 3 2 需求业务分析 3 2 1 客户流失原因分析 客户流失预测目的是为了提前对即将流失的客户进行预警,然后再对有流失 倾向的客户开展挽留维系工作,从而减少客户流失率。 移动客户流失是指拥有移动品牌的号码,由移动公司提供服务的客户,在某 个时间点上,不再继续使用移动品牌号码,不再依托移动公司服务的客户。图 3 1 是客户流失分类情况: 图3 1 客户流失分类 客户流失又分为被动流失和主动流失。被动流失是因为客户欠费或不履行责 1 6 第3 章移动客户流失预测的分析 任而被移动停机,包括欠费预销和欠费销号。而主动流失是由客户由于各种原因 ( 如搬迁、对公司服务或者话费不满意,竞争对手反挖等) 主动提出放弃使用移 动品牌号码,包括申请预销、申请销号。 欠费预销:客户出现欠费行为,在1 个月内未缴费,被移动公司强制停机。 欠费销号:客户出现欠费连续3 个月,仍未缴费者,移动公司作销号处理, 该号码将不再属于原客户。 申请预销:客户主动提出申请预销业务。 申请销号:申请预销的客户,在所有费用已经缴完后,移动公司正式办理销 号。 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论