[硕士论文精品]基于数据挖掘的电话精确营销应用_第1页
[硕士论文精品]基于数据挖掘的电话精确营销应用_第2页
[硕士论文精品]基于数据挖掘的电话精确营销应用_第3页
[硕士论文精品]基于数据挖掘的电话精确营销应用_第4页
[硕士论文精品]基于数据挖掘的电话精确营销应用_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要基于数据挖掘的电话精确营销应用专业电子与通信工程硕士生伍国炫指导教师李宁副教授摘要随着中国加入WTO,国外通信行业可以进入中国开展通信行业竞争;另外08年3G牌照发放和电信行业重组,移动通信行业竞争空前。移动公司客户群庞大,而在竞争环境中,客户流失是必然。事实表明,通信运营商每年平均有25一一30的客户流失。GARTNER公司的调查数据表明,开发一个新客户的费用是维持一个老客户成本的45倍,一个公司如果将其顾客流失率降低5,利润就能增加25一85。由此可见,客户保有对移动公司有着重要的意义。移动运营商要降低客户流失,首先需要预先了解哪些客户会流失,流失的原因是什么,然后再根据客户流失原因开展挽留。这就需要有数据预测和客户分析的技术。数据挖掘技术是目前用于数据预测和分析的强大技术。它能够根据历史数据建立客户流失的模型,并将该模型运用于实际公司环境中,找出哪些客户可能会流失,从而为公司及时针对客户开展挽留提供时间和空间。本文研究的主要成果有针对移动公司拍照的全球通中高端客户建立客户流失模型。整个模型建立需要经过业务分析、数据准备、属性选择、模型建立和模型评估5个步骤。其中数据准备和属性选择是5个阶段的关键。数据挖掘采用决策树和聚类方法,通过SPSS软件开展建模过程。通过建立模型,得出客户流失与客户本月话费下降比率、上月话费下降比率、是否呼叫转移到网外、与联通用户通话比例和是否拨打10010有较大关系。在模型建立后,本文将模型运用到实际工作当中,并深入分析流失客户的话费、网龄,年龄特征,为客户挽留电话营销提供指导意见,提高客户挽留成功率,降低电话营销资源投入。在本文研究过程中,我根据我所在岗位工作内容,主要负责业务分析、数据准备、部分属性选择以及模型建立后客户其他特征分析,为模型建立提供基础I摘要数据。在模型建立后,我将预测数据分为3个组,并对3个组进行分析对比,同时针对预警流失客户开展电话营销挽留工作,有效提高客户保有率。关键词数据挖掘,客户流失,流失模型,挽留ABSTRACTTHETELEPHONEAPPLICATIONOFPRECISIONMARKETINGMAJORNAMEBASEDONDATAMININGELECTRONICSANDCOMMUNICATIONENGINEERING、UGUOXUANSUPERVISORPROFLININGABSTRACTWITHCHINASACCESSIONTOTHEWTO,FOREIGNTELECOMMUNICATIONSINDUSTRYISALLOWEDTOENTERCOMPETITIONINTHETELECOMMUNICATIONSINDUSTRYINCHINA;BESIDE,3GLICENSEISSUANCEANDTHERESTRUCTURINGOFTHETELECOMMUNICATIONSINDUSTRYIN2008,MOBILECOMMUNICATIONINDUSTRYISFACEDOFUNPRECEDENTEDCOMPETITIONINTHEFIERCECOMPETITIVEENVIRONMENT,WITHALARGEMOBILECUSTOMERBASE,CUSTOMERLOSSISINEVITABLETHEFACTSSHOWTHATCOMMUNICATIONSOPERATORSFACEANAVERAGEOF25TO30LOSSOFCUSTOMERSGARTNERSSURVEYDATAINDICATETHATTHEDEVELOPMENTCOSTOFANEWCUSTOMERISFOURTOFIVETIMEOFTHEMAINTAINCOSTOFANEXISTINGCUSTOMERINADDITION,STUDIESHAVESHOWNTHATACOMPANYIFTHELOSSRATEFOURPERCENTLOWER,THEPROFITWILLINCREASE25TO85THISSHOWSTHATRETAININGCUSTOMERSISIMPORTANTTOTHEMOBILECOMMUNICATIONINDUSTRYIFMOBILEOPERATORSWANTTOREDUCECUSTOMERLOSSES,FIRSTOFALLNEEDTOPREDICTWHICHWILLLEADTOLOSSOFCUSTOMERS;SECOND,FORTHELOSSOFCUSTOMERSFORDIFFERENTCHARACTERISTICS,TODEVELOPCUSTOMERRETENTIONSTRATEGIES,TOPREVENTTHELOSSOFCUSTOMERSTHISREQUIRESANALYSISOFCUSTOMERBEHAVIOR,IDENTIFYTHELINKBETWEENTHELOSSOFCUSTOMERSANDTHECORPORATESTRATEGYDATAMININGTECHNOLOGYISCURRENTLYTHEMOSTPOWERFULMEANSOFDATAANALYSISINTHEFIELDOFDATAWAREHOUSEITCANBEBASEDONHISTORICALDATATOBUILDCUSTOMER10SSMODELTHEMODELWILLBEAPPLIEDTOTHEACTUALCORPORATEENVIRONMENT,ANDFINDOUTWHICHCUSTOMERSMAYBELOST,SOINTIMEFORTHECOMPANYTORETAINCUSTOMERSFORTHEPROVISIONOFTIMEANDSPACETHEMAINRESULTSOFTHISSTUDYARETOTAKEPHOTOGRAPHSOFTHECOMPANYFORMOBILEGSMCUSTOMERSINTHEHIGHENDMODELOFCUSTOMERCHUMIIIABSTRACTTHEMODENEEDTOGOTHROUGHTHEWHOLEBUSINESSMODELANALYSIS,DATAPREPARATION,FEATURESELECTION,MODELBUILDINGANDMODELASSESSMENTOFFIVESTEPS,DATAPREPARATIONANDPROPERTIESOFWHICHCHOICEARETHEKEYSTAGESDATAMININGUSINGDECISIONTREESANDCLUSTERINGMETHOD,CARRIEDOUTTHROUGHSPSSSOFTWAREPROCESSMODELINGMODELHAVECOMETHISMONTHANDCUSTOMERCHUMRATESDECREASETHERATEOFDECLINEINTHERATEOFCHARGESONWHETHERTHECALLTRANSFERREDTOTHENETWORK,ANDTHEPROPORTIONOFEDIUSERSANDWHETHERORNOTTHECALLTHEREAREMORERELATEDTODIAL10010INTHEMODEL,THEUSEOFTHEMODELWILLAPPLYTOTHEACTUALWORKWEANALYSISTHECHARACTERISTICSOFCUSTOMERSCHARGES,THENETAGE,THEAGETHISPROVIDEDGUIDANCEFORTELEPHONEMARKETINGTORETAINCUSTOMERS,ANDTOIMPROVETHESUCCESSRATEOFCUSTOMERRETENTIONANDREDUCETELEMARKETINGINPUTINTHISSTUDY,1WORKINACCORDANCEWITHTHECONTENTSOFMYPOSTS,ANDIAMMAINLYRESPONSIBLEFORBUSINESSANALYSIS,DATAPREPARATION,SOMEPROPERTIESOFMODELSELECTIONANDOTHERFEATURESAFTERTHEANALYSISOFCUSTOMERS,INORDERTOPROVIDETHEBASICDATAMODELINTHEMODEL,1WILLPREDICTTHEDATAISDIVIDEDINTOTHREEGROUPS,ANDALLANALYSISOFTHREEGROUPCOMPARISON,ATTHESAMETIMEWARNINGAGAINSTTHELOSSOFTDEPHONEMARKETINGTORETAINCUSTOMERSEFFECTIVELYINCREASECUSTOMERRETENTIONKEYWORDSDATAMIMNG,THELOSSOFCUSTOMS,THELOSSOFPREDICTIONMODEL,RETAINIV本人郑重声明原创性声明所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名7哥、酝日期细7年5月刃日学位论文使用授权声明本人完全了解中山大学有关保留、使用学位论文的规定,即学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。学位论文作者签名J日期砷年E,920日茹魏日醐3呷耵月日第1章绪论第1章绪论本章将从课题研究背景着手,介绍课题研究的目的和意义;综述相关领域国际、国内的发展现状,为数据挖掘在企业运用提供实际例子。最后本章还介绍论文的研究思路以及各章节的结构。11本课题研究背景行业背景伴随经济增长和社会对移动事业的巨大需求,截至08年12月,中国移动客户达457亿户,排名世界第一。如何做好存量市场的保有,是中国移动公司面临的课题。另外,2008年5月24日,移动行业重组,中国移动独家垄断已不存在,三家运营商三足鼎立格局形成;2009年1月7日,国家公布3G牌照正式发放,中国通信行业全业务运营时代到来;新形势下,其他运营商将会开展客户开发工作,其目标客户群即为中国移动客户,特别是中高端客户。所以客户保有将成为移动重组、3G时代的新课题。环境背景我国正式加入WTO以后,国外通信行业可以在中国发展,而国外通信行业网络技术先进,服务周到,价格偏低。基于以上原因,客户往往会选择转网,这对移动公司运营带来较大挑战。从近几年情况看,通信运营商每年平均有25一30的客户流失GARTNER公司的调查数据表明,开发一个新客户的费用是维持一个老客户成本的4“5倍;另外有研究表明,一个公司如果将其顾客流失率降低5,利润就能增加25一85M。由此可见,客户保有对移动公司来说具有重大意义,所以移动公司必须向以客户为中心、以数据为中心、以信息为基础的国际先进模式转变。,才能在电信运营业日益残酷的国际化竞争中立于不败之地。渠道背景电话营销起源于60年代的美国,后传入世界各国。在美国,1995年用于电话营销的总开支约为3856亿美元,2000年这个数字可能增长到5990亿美元H。目前,电话营销渠道是移动运营公司重要的营销渠道,电话L第1章绪论营销渠道具有三高一低特点主动性高、实效高、互动性高和成本低嘲。它是移动公司点对点主动服务的个重要渠道。通过电话营销渠道开展客户关系管理,开展产品销售和客户挽留等工作具有重大的意义,电话营销已经成为客户挽留的主要渠道之一。通过以上三个方面的分析可知,得客户者得天下。在保持移动客户高速增长的同时,提高客户价值,减少客户流失对提高移动公司竞争力有着重要意义。本研究课题针对利用电话营销渠道,通过数据挖掘方法,开展精确营销和挽留,提高客户ARPU和提高客户保有率。12本课题研究的目的和意义客户关系管理。近年来己经成为移动企业持续发展的重要战略之一。它是以“以客户为中心”开展各项营销活动和市场细分,充分与现代信息技术和数据挖掘相结合,经过深入的研究和分析客户行为,针对移动市场,细分客户群,切割市场,针对不同客户制定出相应的营销、挽留和服务策略,从而提高客户满意度,提高客户保有率,在满足客户需求的情况下,创造需求,实现营利,促进企业和客户的双赢。通过对客户数据的深入分析,更加全面准确地理解客户,从而为涉及客户的营销活动制定、提供信息支持。管理实践表明,企业80的利润往往来自于其20的客户,因此,保持和发展这20的最大利润客户对企业来说就显得尤为重要旧。由此可见,区分不同类型客户,更好地保持和发展高价值客户对企业来说尤为重要。本课题针对面向客户关系管理中客户挖掘问题,探索移动公司如何应用数据挖掘技术和方法,利用SPSS工具,实现准确、有效的客户精准营销和挽留。这在理论上可以丰富移动中高端客户保有和挽留的研究,在实践上可为客户关系管理和中高端客户保有问题的解决提供更多的方法选择,对我国移动企业在“以客户为中心“的管理理念背景下,利用信息技术提高企业竞争力具有一定的应用价值。2第L章绪论13本课题国内外研究现状分析国外移动公司技术较为发达,特别是借助计算机技术,使用数据挖掘方法,善于从数据中挖掘信息,发现问题和制定措施。他们从数据仓库系统进行客户分类、服务分析、客户行为预测和流失模型制定,取得了较好的成效。下面是国内外的数据挖掘精确营销应用情况P。英国移动采用数据挖掘手段,建立模型来确定潜在客户购买倾向、确定成为客户可能带来的业务收入。建立精确的客户特征以后,英国移动开发了针对特定客户群的产品。沃达丰利用数据挖掘技术建立模型研究客户离网原因,针对不同客户离网原因开展挽留活动,提高客户保有率。法国移动利用数据挖掘技术在客户流失分析和预测、交叉营销等各方面都取得很多成果。NTT在自己的CRM系统COMWARE中使用数据挖掘的方法来分析数据和提高对客户的管理水平。中国移动公司对此也越来越重视对自己所掌握的客户信息的挖掘工作。从2002年开始,中国移动开始建设自己的经营分析系统BI系统,其目的是使中国移动适应日趋激烈的市场竞争环境,利用业务支撑系统产生的实时的动态的客户信息资源,结合其它相关支撑系统BOSS,ICD等系统提供的信息,构建经营分析平台,对客户进行整合,筛选和挖掘,并最终为各级市场决策管理者提供及时、准确、科学的辅助决策依据。14论文研究思路和方向本文研究的思路可以归纳为以下四点第一,分析目前各种数据挖掘算法和相关基础知识,为客户流失数据挖掘提供理论知识和支撑第二,通过海量历史数据,建立客户信息宽表,寻找影响客户流失的重要属3第1章绪论性,根据这些数据建立相应的客户流失模型;第三,在模型建立之后,通过相应的评估指标对模型进行评估,确保模型准确性和有效性;第四,将模型运用到实际环境中,提供预测流失名单,制定相应的措施,并为电话营销挽留提供指导意见。在开展电话营销挽留后,我们对模型进行进一步验证。本文研究的实现步骤如下第一,客户流失业务需求客户流失预测不单单是一个技术问题,还需要业务方面的知识,本文通过业务知识经验,对客户流失模型进行业务分析,建立客户流失模型的基础业务要素;第二,数据准备和转化数据准备和转化是从海量信息中筛选有效信息,同时通过各信息进行整合和转化,组成客户信息宽表,为后续数据挖掘提供基础数据;第三,属性选择在客户信息宽表中,通过建立相应的信息重要衡量指标,筛选出重要的信息作为数据挖掘的要素,提高数据挖掘的效率;第四,模型建立和评估本文通过决策树算法与神聚类方法,采用SPSS工具进行模型建立,并制定相应的评估指标对模型进行评估;第五,模型运用模型运用于实际环境后效果评估和跟踪分析。15论文研究结构本文主要分为以下五个部分第一章主要介绍论文的研究背景、意义与研究方向和思路,介绍论文的框架;第二章主要介绍数据挖据的基本概念,包括数据挖掘的算法、OLAP和一些方法论,为数据挖掘提供理论知识;第三章主要介绍客户流失模型的建立过程。针对历史客户数据,进行客户转化和选择,通过相应的算法和工具,建立客户流失模型,并对模型进行评估;第四章介绍该模型运用于实际工作当中的例子,深入分析流失客户特征以及采取的方案,分析数据挖掘模型的效果;4第L章绪论第五章对整个论文的内容作了总结,总结模型的效果和不足。16本章小结本章从行业背景、环境背景和渠道背景3个方面介绍了本论文研究的背景,指出中高端客户保有对移动公司的重要性,还介绍了目前国内外数据挖掘运用取得的价值,从而本文提供了实际例子运用说明,最终本章还介绍论文的整体研究思路、方向和结构,使读者对本论文有整体的认识,方便读者了解整篇论文的内容。5第2章数据挖掘与客户流失预测第2章数据挖掘与客户流失预测这一章主要介绍数据挖掘的基础知识,介绍各种数据挖掘算法以及数据的整体基本步骤,为模型建立提供理论依据。,21数据挖掘基础知识数据挖掘用于辨认大量数据中所反映的有价值信息。数据挖掘从机器学习的途径获取信息,使得这些信息能够在企业决策支持、预测、估计等诸多领域提供帮助。数据通常是庞大而信息含量很低,在它未经加工时只有很小的直接使用价值。简单的说,数据挖掘就是从海量数据中提取或“挖掘”知识。这些知识必须是隐含的、事先未知的、并且潜在有用的信息。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。对公司来说,数据挖掘就是在“数据矿山“中找到蕴藏的“知识金块“,帮助公司减少不必要投资的同时提高资金回报。数据挖掘不是数据分析。数据分析一般面对的数据量较小,深度也要求不高,且没有预测功能。数据挖掘一般面对的都是“海量数据,因此其对算法的效率要比分析类高出很多,数据挖掘需要具备预测功能,能够从错综复杂的信息中得出信息之间的联系和因果关系,这些信息通常人力是很难发现的。概述来讲,数据挖掘的任务有关联分析、时序模式、聚类、分类与预测等U引。数据挖掘的从业人员不仅仅需要对数据挖掘的概念、算法、软件、模型有着清楚的认识,还要对数据挖掘所应用的行业、业务有着深入的理解。因为数据挖掘所挖掘的是较为深入的信息,在数据挖掘过程中需要对业务规则进行解释和认识,一个没有深厚行业背景的人在理解、应用这些信息时会不可避免地产生困难,任何不明确的定义都会严重影响模型的准确和应用时的效果引。所以说“做一6第2章数据挖掘与客户流失预测个行业的数据挖掘,首先要成为那个行业的市场专家。22各种挖掘算法介绍数据挖掘中的算法是指为了达到模型的建立,而需要一套逻辑的推理过程。模型的建立可以通过不同算法得到,不同算法之间并不互斥,并不是模型的建立只能用唯一的算法。算法之间没有最好或最坏之分,算法的好坏与算法运用环境和数据属性有一定关系。如神经网络适合解决较为复杂,且参数较多的问题的模型,但神经网络算法比较复杂。对于简单类型的问题,如果采用神经网络,则会出现简单问题复杂化的情况。而决策树的结构、规则推理的过程是开放的、清楚的,对于参数不多的问题,比较适用;对于复杂问题采用决策树,则会使问题更加复杂,难以理解和建模。由此可见,算法并没有最好,只有合适算法。要根据不同情况的问题选择合适的、有效的算法来建立模型,确保模型容易理解、调整和优化。图21是数据挖掘算法在模型建立的过程图图21模型建立过程图接下来将针对客户流失预测常用的算法作简单介绍。221聚类聚类CLUSTERING是指根据“物以类聚“的原理,将数据集划分为若干组CLASS或类CLUSTER的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象是不相似的1引。相似或不相似的描述是基于数据描7第2章数据挖掘与客户流失预测述属性的取值来确定的。通常就是利用各对象间距离来进行表示的。聚类是一项基本的认识活动。通过适当聚类,确保事物按照既定的规则归类,各类间的事物属性相同,有利于研究分析。聚类与分类不同,前者是一个无监督的学习过程,后者是一个有监督的学习过程。分类时需要实现知道分类所依据的属性值,而聚类直接对数据集进行处理,前期谁也不知道数据会分成哪些类别,需要考察所有的个体,根据这些个体的特征才能决定类的划分,并由算法自动确定,这是一个动态的过程。在概念聚类方法中,仅当一组对象可以由一个概念所描述时,这些对象方才能构成一个类。常用的聚类方法有系统聚类法、传递闭包法以及与此等价的最大值成熟PRMI算法及KRUSKAL算法、动态直接聚类法,基于摄动的模糊聚类方法FCMBP、KMAEN聚类法、人工神经网络模糊聚类法等等。聚类有较多算法,聚类算法的选择需要根据应用所涉及的数据类型、聚类的目的以及具体应用来确定。如果利用聚类分析作为描述性或探索性的工具,那么就可以使用若干聚类算法对同一个数据集进行处理以观察可能获得的有关数据特征描述。聚类算法主要可以分为5种划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法M183。222神经网络人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻辑规则进行推理的过程;而直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。人工神经网络就是模拟人思维的第二种方式。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。神经网络现在己广泛用于人工智能与专家系统,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法K。神经网络可以很容易的解决具有上百个参数的问题。神经网络可以简单理解为是一组连接的输入输出单元,其中每个连接都有一个权重。在调测阶段,通过调整神经网络的权重使得能够预测输入样本的正确类标号来学习。神经网络是一个以有向图为拓扑结构的动态系统,它适合于复杂的问题分析第2章数据挖掘与客户流失预测和建模上M“,因为神经网络的参数一般来说比较多,不同参数的组合方式将会影响结果的呈现。神经网络的算法和模型相当复杂,所以往往难以分析和解释神经网络建立的模型。一般情况下,我们将神经网络当作“黑箱子“,箱子里面装的是什么,如何进行转换,只要输出准确,那么该箱子则有用。比如警察系统可能需要一个面相识别软件,该系统没必要知道为什么这些线条由人体面部各部分组合在一起就能模拟出需要调查那个人,而另外相似的眼睛、鼻子眉毛等组合在一起则不是。223决策树决策树是一个类似于流程图的树结构“。其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,它从根节点开始,对原信息样本进行测试,通过多次调整,根据不同的测试结果将信息样本划分成不同的数据样本子集,每个数据样本子集就是决策树的一个子节点。它是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树一般都是自上而下的来生成的。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树的结构有3个重要组成部分决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。从根节点开始进行决策,可以分为2个分支或多个分支。每个分支只有2种可能,一种是可以继续再分支,称为决策节点,一个是不能继续分支,是树的结尾,称为叶子。但从整体情况来看,从决策树根节点到最后的叶子的遍历中,最终肯定会到叶子节点。从根到叶子节点都有一条路径,这条路径就是一条“规则。决策树可以是二叉的,也可以是多叉的怕“。对每个节点需要衡量的内容包括通过该节点的记录数、分类的路径以及对叶子节点正确分类的比例。224关联规则关联规则的挖掘问题就是从事物数据中找出具有用户给定最小支持度和最小可信度的规则2钊。关联规则在市场营销中最典型的应用就是整合销售。通过9第2章数据挖掘与客户流失预测关联规则算法找到满足定支持度与可信度的规则后,可以利用这些规则向老客户进行整合销售,或将现有某些业务打包销售,能显著地促进销售。在移动公司中,“彩铃与歌曲”是一个关联规则的例子。在2005年推广彩铃功能的时候,我发现,在推广彩铃功能的同时,顺便推广歌曲更换业务,其销售成功率明显提高。后来经我深入分析和听取推广录音,在推广彩铃的时候,客户往往希望能听到办理彩铃功能后自己的彩铃是怎么样的,同时也希望能够选一首自己喜欢或比较流行的歌曲,这个时候如果我们进行彩铃歌曲的推广,可以事半功倍。所以,从2006年开始,我在进行彩铃功能电话营销过程中,将彩铃功能和歌曲更换2个业务进行组合,开展整合营销,果然两个业务的销售量均大大提升,且实现彩铃和换歌一站式服务,提高客户满意度。“彩铃与歌曲“是移动公司电话营销中一个典型的关联规则。这个规则的可信度就是办理了彩铃功能的客户同时也办理了彩铃歌曲的概率。这个规则的支持度就是在所有客户中同时办理了彩铃功能与彩铃歌曲的客户比例。可信度越高,就说明购买了办理了彩铃功能的客户越有可能同时办理了彩铃歌曲。支持度越高,就说明同时办理彩铃功能与彩铃歌曲占总客户中的比率越高。一个有价值的关联规则应该同时具有令人满意的可信度与支持度。23OLAP与数据仓库介绍OLAPONLINEANALYTICALPROCESSING,即联机分析处理,是针对特定问题的联机数据访问和分析呦。在以前,营销活动分析人员,管理决策和执行人员由于分工不同,涉及内容也不同,口径也和信息经常出现不对称情况,从而导致前台与后台信息脱节,信息无法共享和利用。而OLAP的开发,就是为了使营销活动3类人员的信息达成能够进行有效,高速互动,并将信息继续共享,提高运营水平。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求“,它的技术核心是“维“这个概念。目前数据处理大致可以分成两大类联机事务处理OLTP和联机分析处理OLAP。OLTP是传统的关系型数据库的主要应用,它只提供相关的信息查询和简单的信息操作。例如移动公司的BOSS系统,为客户提供查询相关的信息以及10第2章数据挖掘与客户流失预测办理相关业务。而OLAP除了可以查询和进行简单操作外,还可以进行深入挖掘,能够预测接下来会如何,以及我们应该采取哪种相应的措施来防范。例如客户流失问题,OLTP只提供了客户ARPU查询,通过查询,我们可以了解客户ARPU月趋下降;而OLAP还还挖掘出该客户会有流失的可能,并第一时间进行提醒,同时也会对该情况制定相应的措施。其措施制定过程首先是基于客户ARPU,假设客户ARPU低的客户容易流失,然后用OLAP进行验证,如果假设不准确,系统会继续假设客户网龄低的客户容易流失。通过这个过程不断循环有调整优化,最终得出客户容易流失模型。这就是OLAP与OLTP最主要的差异。简单的说,OLAP只提供简单的信息查询,而OLAP可以进行数据挖掘,并提供相关的模型和措施。数据挖掘与OLAP具有相同之处是都具有信息挖掘功能,不同之处是OLAP是基于一定的假设进行挖掘归纳的,并验证假设是否准确;而数据挖掘是没有基于任何假设情况下开展的,也不存在验证假设是否准确,是通过一定的算法,进行不断的归纳过程。例如OLAP可以客户流失与客户ARPU和网龄进行假设验证,从而得出两者与客户流失的关系;而数据挖掘是通过算法来挖掘客户流失的原因和模型,最终结果有可能得出其他更多的因素,比如客户拨打其他运营商热线电话也是影响客户流失的原因。从这角度看,数据挖掘能更全面找出问题的原因,并建立全面的模型。当然,数据挖掘和OLAP虽然各有不同,但在实际运用中,却紧密相连。因为数据挖掘在挖掘方面固然全面,但正是由于其算法复杂,如果针对所有的信息进行挖掘,将会导致挖掘效率和效果。所以针对海量信息的挖掘,一般在早期准备阶段,会通过OLAP找出在海量信息中比较重要的变量,同时了解如果采取相应行动后将会带来怎样的结果;通过OLAP能在数据挖掘中过滤较多无效的信息,加快发现真正影响的变量,从而确保模型建立更加精准。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策“。数据仓库不同于一般的数据库,它是用于支持决策,面向分析型数据处理,是按照一定主题组织各业务系统的。另外,数据仓库是对多个分散的数据源有效集成,确保数据源的一致性;同时数据仓库中的数据往往是长期保留,不作修改,它反映了历史时刻点客户的信息,这比较有利于预测和第2章数据挖掘与客户流失预测分析。移动公司运营需要多个业务管理系统,各业务管理系统存储的数据均非常多,且信息各不相同,而数据挖掘需要进行大量数据处理,如果直接在业务管理系统如BOSS系统和客服系统,将会导致业务运营系统运行较慢,容易使系统出现故障,而且由于业务运营系统数据是动态变化的,这给数据处理带来一定的麻烦,所以为了较好的进行数据挖掘,需要建立数据仓库有时会建立数据集市。通过建立数据仓库,将各业务运营系统信息进行数据清洗和转化整合,确保数据信息一致化和集成化,同时建立相对稳定的数据。在移动公司中,数据挖掘一般建立在数据仓库之上。整个数据仓库系统是一个包含四个层次的体系结构K酬,具体由图22表示BOSS系统客服系统智能业务系统数据源圃毋OLAP服务器数据仓库管理查询工具报表工具分析工具匿溺I挖掘工具函前端运用圈22数据仓厍框架图数据源是数据仓库系统的数据来源。在移动公司中,该数据一般来源于BOSS系统、客服系统、智能业务系统等业务管理系统。数据主要包括客户消费和个性化信息、公司各种营销方案,公司法规等信息。数据仓库管理它是数据仓库系统的重要组成部分,也是数据仓库的重要功能。数据源的信息众多且各不相同,在数据源进入数据仓库的时候,需要进行抽取、清理和集成,按照主题进行组织,并按照定格式进行存储。数据仓库的存储和管理是整个数据仓库的关键,只有合理的存储和管理,才能使数据源的信息有效利用,在后续数据挖掘中,提高效率,并确保模型准确性。128888凰凰鲤第2章数据挖掘与客户流失预测OLAP服务器OLAP是提高数据挖掘效率的有效工具。通过OLAP,可以在成千上百个信息中对部分信息进行假设和分析,剔除无效信息,确定信息源的影响重要程度。从而有效提高数据挖掘效率。前端工具主要包括各种报表工具、查询工具、数据挖掘工具、结果报告显示工具以及各种基于数据仓库或数据集市的应用开发工具。此部分主要是给决策者使用。通过这些前端工具,使决策者不需要了解复杂的数据挖掘过程,简单了解数据挖掘结果,并制定相关措施进行改善。24数据挖掘过程数据挖据过程可以概括为以下6个步骤,具体如图23所示图23数据挖掘6大步骤业务理解这阶段的工作主要是从业务角度对项目进行理解。包括数据挖掘的目标、信息源的来源和定义、应涉及的业务内容、各业务之间关系以及本次数据挖掘涉及的业务系统范围。数据理解这阶段工作主要是针对挖掘目标以及基于业务理解基础上,收集初步的数据,了解各数据含义、数据格式和数据来源。准备数据这阶段工作主要是数据的收集和存储,包括数据提取、数据清洗、数据转换和数据扩充等,建立数据信息宽表,准备数据挖掘所需要的各项数据。建立模型这阶段工作主要是选择合适的算法,合适数据挖掘技术,通过不断测试和优化,建立数据挖掘模型。模型评估这阶段工作主要是针对已建立的挖掘模型进行评估,看模型是否符合现实工作预期需要。这阶段需要建立评估指标和体系,采用模拟环第2章数据挖掘与客户流失预测境下的数据进行评估。模型实习这是数据挖据的最后一个阶段,也是挖掘模型实操阶段。通过建立的模型,对实际数据进行测试,并根据模型建立相应的措施开展工作,深入评估模型实际运用效果,并将结果反馈给相关工作人员,为第一阶段业务理解做出调整,实现闭环管理。25本章小节本章主要介绍数据挖掘的基础知识,介绍各种挖掘算法内容和适用范围,同时介绍在数据挖掘中数据仓库管理框架图,提出数据挖掘通用的6大步骤,为下章节模型建立提供理论依据和操作指引。14第3章移动客户流失预测的分析第3章移动客户流失预测的分析本章是在第2章数据挖掘理论知识的指导下,根据移动公司实际情况,逐步建立客户流失模型。31流失模型建立5大阶段客户流失预测不同于一般的数据库操作,它需要对历史数据进行收集、分析和预测,是数据挖掘的一项具体应用。其流程也符合数据挖掘的主要流程,一般包括以下五个阶段需求业务分析主要针对移动客户流失的特征和定义进行初步了解,收集相关市场信息,初步确定与流失相关的业务知识,了解现有业务政策,圈定目标客户预测,确定预测的周期和目标等。数据准备和转化确定信息收集周期、范围和内容,收集相关的客户信息,同时对各数据信息进行判断分析,将各项数据进行组合转化,增加其他有意义的衍生指标,丰富客户信息库。属性选择客户流失数据仓库中的数据信息并不是越多越好,属性过多会使模型分析重点难以突出,预测效率受到影响。在这阶段,我们需要对海量客户信息进行深入分析,圈定能最有效体现客户流失的属性,对于无效属性,将从数据仓库中剔除。这阶段为模型建立提供有效的数据支撑。建立模型选择挖掘的算法,确定挖掘的工具,将挑选出来的客户信息放入数据挖掘软件,建立预测模型。模型评估将建立的模型运用于实际数据当中,在实际环境中对客户进行预测,并根据模型制定相关的措施开展挽留工作,分析模型实际运用效果。作为下一阶段反馈需求分析和模型优化的经验沉淀。第3章移动客户流失预测的分析“数据准备和转化与“属性选择是客户流失预测的关键阶段,这两项工作决定了模型建立的效率和效果。“数据准备和转化将海量客户信息转化为能体现客户流失的特征的信息,而“属性选择“是在这基础上选择优先重要客户信息进行建模。这两阶段的工作如果出错,将会导致挖掘模型的基础数据出错,从而导致模型不具备参考意义。32需求业务分析321客户流失原因分析客户流失预测目的是为了提前对即将流失的客户进行预警,然后再对有流失倾向的客户开展挽留维系工作,从而减少客户流失率。移动客户流失是指拥有移动品牌的号码,由移动公司提供服务的客户,在某个时间点上,不再继续使用移动品牌号码,不再依托移动公司服务的客户。图31是客户流失分类情况图31客户流失分类客户流失又分为被动流失和主动流失。被动流失是因为客户欠费或不履行责16第3章移动客户流失预测的分析任而被移动停机,包括欠费预销和欠费销号。而主动流失是由客户由于各种原因如搬迁、对公司服务或者话费不满意,竞争对手反挖等主动提出放弃使用移动品牌号码,包括申请预销、申请销号。欠费预销客户出现欠费行为,在1个月内未缴费,被移动公司强制停机。欠费销号客户出现欠费连续3个月,仍未缴费者,移动公司作销号处理,该号码将不再属于原客户。申请预销客户主动提出申请预销业务。申请销号申请预销的客户,在所有费用已经缴完后,移动公司正式办理销号。322客户流失时间分类分析流失预测的原理就是通过对客户历史数据的分析,在客户未流失的情况下,预测出客户在未来一个时间点上可能会出现流失现象。从这角度看,在模型精准前提下,越早发现客户会出现流失,早点开展挽留,对公司保有客户有较大的帮助。图32是客户流失预测月份分类图图32客户流失月份分类在整个模型建立期间,本文将时间段划分为3个种类观察月观察月是通过对历史数据进行观察和挖掘。原则上说观察月越长越好,数据越详细越好。但是,过多的数据量会给数据处理带来很多困难,从而降低分析的效率;从业务角度看,客户出现离网行为,一般可以从前36个月的消费行为预知。在模型建立中,本文设定的观察月的周期为4个月。流失月预测月是在通过观察月的数据挖掘出来客户有可能会流失的月份。在实际工作当中,一般为卜3个月。时间太长的话,会使市场营销人员把握17第3章移动客户流失预测的分析不了客户究竟在什么时候离网,时间太短,则表示模型非常精确,这对模型建立带来很大工作量。权衡市场营销需要和模型建立工作量,在模型建立中,本文设定的流失月为2个月。行动月观察月和流失月之间的空隙为行动月。原则上讲,行动月越长,对移动公司越有利。因为如果在流失月才开展挽留行动,这个时候客户往往已经联系不到,从而给挽留带来一定压力。但在实际工作当中,行动月一般为13个月,市场太长,会放松市场营销人员警惕性,认为有足够时间进行挽留,这样往往会导致流失挽留任务迟迟没有提上议程。时间太短,会使市场营销人员没有时间来进行相应的挽留。在模型建立中,本文设定的行动月为1个月。例如通过对客户14月观察月的数据进行收集分析挖掘,发现客户在67月流失月某个时间段会出现离网,那么在5月行动月的时候,移动公司就需要通过各种手段进行主动接触客户,采用各种方式挽留客户。323客户流失预测目标客户客户流失预测必须圈定一个目标客户群,不能泛泛预测。没有圈定的目标客户,会使客户流失预测范围大大增加,给客户预测带来困难。本文结合移动公司客户保有重点,针对圈定的中高端客户开展流失预测和挽留。中高端客户定义为去年1012月总ARPU大于360的全品牌客户。因为全品牌客户中,全球通客户所拥有的信息较多,而智能网品牌信息较少,为了更好开展客户数据挖掘,本文在建立流失模型的时候,目标客户圈定为全球通中高端客户。33数据准备和转化数据准备是需求业务分析阶段的关键环节,此阶段是在业务分析基础上确定需要收集的客户数据信息,此阶段仍然需要有一定业务基础的运营分析人员参与,为后续数据挖掘提供基础数据。第3章移动客户流失预测的分析331客户信息分类客户信息包括较多字节,为了更好对客户信息进行收集,我们将客户信息分为两大类客户基础信息和客户消费信息客户基础信息客户基础信息主要指客户成为移动公司客户时登记的信息,这些信息比较静态稳定,通过这信息能够大致了解客户的总体情况。表31是客户基础信息收集的范围表31客户基础信息表编号”JJ7字段”类型7编号。字段类跫鼍玩,、L客户编号CHAR1地址VARCHAR2客户名称VARCHAR2所属集团标识CHAR3客户状态CHAR3入网时间VARCHAR4客户性别CHAR4客户类型CHAR5所在区域CHAR5品牌CHAR6证件类型CHAR6客户等级CHAR7证件号码VARCHAR7联系电话CHAR客户消费信息客户成为移动公司客户后,在日常生活中,会产生一定的消费,进而出现一定的消费记录和轨迹,比如通话记录,短信记录,漫游记录数据业务消费记录等信息。这些消费将记录在相关的业务管理系统。客户基础信息是指客户固定的信息,而客户消费信息却是动态变化的,每月各不相同,需要动态变化更新,且每个客户消费记录都有记录,所以这些信息非常庞大。表32是客户消费信息的收集情况表32客户消费信息表R7一。萼段”一9一”。“7一字段名。”鼍1。、I。篮臻褫。如TTE抑IT,“T。J、。II拓。FEEL每月话费LOCALFEE2本地通话费FEE3主叫通话费19第3章移动客户流失预测的分析FEE3被叫通话费FEE4国际长途话费FEE5国内长途话费17951FEE617951费用12593FEE712593费用FEE8漫游话费SMSFEE9短信话费GPRSFEEGPRS费用TOTALTIME总通话次数ACTIVETIME主叫通话次数PASSIVETIME被叫通话次数LOCTIME本地呼叫次数INTERNALTIME5国内长途通话次数INTERNATIONALTIME国际长途通话次数10000TIME拨打10000次数10010TIME拨打10010次数10086TIME拨打10086次数UNICOMTIME拨打联通电话次数TELECOM_TIME拨打固定电话次数MOBIIE_TIME拨打移动电话次数TOCAL_LENGTH总通话时长ACTIVELENGTH主叫通话时长PASSIVE_LENGTH被叫通话时长LOCLENGTH本地通话时长INTERNALLENGTH国内长途通话时长INTERNATIONALLENGTH国际长途通话时长UNICOM_LENGTH拨打联通电话时长TELECOM_LENGTH拨打移动电话时长SMS_TIME短信发送条数第3章移动客户流失预测的分析MMS_TIME彩信发送条数GPRSGPRS流量IN_MONEY充值金额332数据转化数据转化的主要目的是对客户信息特别是客户消费信息进行拓展,因为客户消费信息虽然能够反映客户消费行为,但只能看到客户消费的绝对值,为客户反映客户消费情况,部分信息需要以相对值的形式展现,需要对客户消费信息进行组合,衍生出更多的客户信息指标,以下是本文所用到的部分其他客户信息1、长途费用比例器长途时长比例甬淼2、本地费用比例揣本地时长比例青譬燃3、17951费用比例器17951时长比例甬声17丽9雨51嚣时长面碾4、漫游费用比例糯漫游时长比例甬黥5、本月话费下降比率奎麟2L313233343536373839第3章移动客户流失预测的分析6、上月话费下降比率龋7、与联通通话比例量要瓣8、主叫时长比例甬砉淼被叫时长比例甬菪淼9、移动通信时长比例蓦筹然固话通信时长比例量号蓦喜薹群。、移动通信次数比例毒荔驾黼固话通信次数比例量景菩盖黼11、工作时间通话时长比例三等等墨嚣非工作时间通话时长比例韭毒蓦要墨器34属性选择3一103113123一13314315316317318夜晚、周末319在前两个步骤中,我们已经建立了客户信息宽表,数据众多,如果对所有的数据进行分析挖掘,将会大大提高挖掘难度。为了能够有效利用各项客户信息,提高预测分析效率,我们需要对宽表中的信息进行属性选择,按照一定的标准筛选重要的客户信息作为数据挖掘的基础信息。属性选择的标准是该属性在流失用户与在网用户间存在明显的差异。图33是客户信息属性筛选的3个步骤首先第3章移动客户流失预测的分析是假设2个样本来自同一个样本,并进行验证;其次是针对筛选出来的重要信息进行排序;最后根据排序结果进行属性筛选。运用统计假设检验的方法判断是否存在差异。如果存在差异,说明该属性比较重要341假设检验针对重要信息计算重要程度指标R,给所有存在差异的属性进行程度重要排序图33属性选择步骤假设检验是一种统计推断方法,它先对研究总体做出某种假设,然后通过观察样本来决定假设是否成立P。假设检验包括参数检验与非参数检验。常用的参数检验有T检验、F校验和分布校验等瞄圳,主要用于总体分布为正态分布且方差未知的情况。通过业务经验和对部分数据进行观察,客户的消费信息无法满足正态分布,所以无法用参数校验方式来进行属性筛选。非参数检验,是指当总体分布不是正态分布的时候,可以通过非参数校验来验证样本数据是否来自同一整体,如果是同一个整体,则说明该属性在客户流失特征方面贡献不大,无需加入数据挖掘中。在非参数校验中,本文采用MANNWHITNEY秩和检验。MANNWHITNEY秩和检验瞄圳可以用来校验两个独立样本是否取自同一个整体。它将两个样本放在一起,并对所有个案升序排列,计算样本一的每个观测值大于样本二每个观测值的次数,然后计算样本二的每个观测值大于样本一每个观测值的次数,若两者接近,说明两个样本来自同一个整体,如果相差较大,则说明来自不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论