数据挖掘论文_第1页
数据挖掘论文_第2页
数据挖掘论文_第3页
数据挖掘论文_第4页
数据挖掘论文_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、滨 江 学 院题 目 基于数据挖掘的客户流失问题 院 系 计算机系 专业班级 软件工程 学生姓名 许燕 学 号 20082344908 指导教师 闫雷鸣 二一一年 五 月 二十六 日基于数据挖掘的客户流失问题 摘要:在营销手段日益成熟的今天,我们的客户仍然是一个很不稳定的群体,因为他们的市场利益驱动杠杆还是偏向于人、情、理的。如何来提高客户的忠诚度是现代企业营销人一直在研讨的问题。关键词:客户流失,数据挖掘,决策树,聚类引言:客户的变动,往往意味着一个市场的变更和调整,一不小心甚至会对局部(区域)市场带来致命的打击。这个现象在医药企业的处方产品中突显,一个医院由一个代表做到一定的销售量,但是这

2、个医药代表离开后,那么销量的下滑是很明显的。如果你是公司的管理者,请务必在关键时刻擦亮你的眼睛,以免你的客户在不经意间流失,给公司的市场运作带来不利影响。当然,这其中的因素和地区的主管、经理也有很大的直接关系。所以,我们通过数据挖掘来分析数据挖掘问题。我们也可以对比已有的方法发现不足之处,然后进行改进。一、数据挖掘数据挖掘又称数据库中的知识发现,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分数据的准备、模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性的, 要取得好的结果就要不断重复这些步骤。在客户流失

3、分析系统中, 数据挖掘只是一小部分, 却是关键的一个部分, 系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来, 应用于数据库中的数据进行流失客户的预测、分析, 对确认有流失倾向的客户根据不同的情况进行预苦处理, 包括套餐资费调整、服务方式更改、竞争对手调查等, 同时将预誓客户名单通过公司的数据交换平台下发给各个业务分区, 进行摸底跟踪, 实施关怀工程。整个系统的业务流程如图所示, 其中流失客户的预测和分析是两个关键的环节, 需要选择讨, 实用案例,计算机系统应用年第期合适的数据挖掘算法, 获取有用的模型和知识应用于系统中, 才能进行科学的辅助决策。二、数据挖掘在系统中的应用流失又分为

4、被动流失和主动流失, 被动流失是因为客户欠费或不履行责任而被移动停机。主动流失有不同的原因, 一类是客观原因限制所引起的异动, 如搬迁等, 另一类是客户主动放弃, 如因为竞争对手的优惠政策, 对目前的服务不满意等。在这些群体中, 那些主动流失的客户是我们要分析的对象, 在这类群体中, 用户价值和信用度高的可能流失客户是我们最关心的对象, 如果能够成功预测出这类将要流失的客户, 并且能够成功的挽留这类大客户, 将给移动公司带来可观的利润。三、基于数据挖掘的电信客户流失分析步骤1、商业理解商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本文的目标确定为:针对目前在网客户进行流

5、失概率的预测。电信领域的客户流失有3 方面的含义3 : 一是指客户从本电信运营商转往到其他的电信运营商; 二是指客户使用的手机品牌发生改变, 从本电信运营商的高价值品牌转向低价值品牌; 三是指客户月平均消费量降低, 从高价值客户成为低价值客户。在以上3 类客户流失中,第一类是客户流失分析的重点,本文将第一类作为分析的对象。而在第一类客户中,又可具体将其分为被动停机3 个月、主动退网和注销用户。2、数据理解。数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。(1) 收集原始数据当进行数据挖掘时,首先要从企业数据仓库中取出一个与要搜索问题相关的数据子集。该问题的数据来源是某电信公司某

6、年度1 月7 月在某地区的数据。(2) 数据描述信息类别数据源时间窗口流失 自然用户 属性相关 行为信息 属性在网 自然用户 属性相关 行为信息 属性USER_BASIC_INFOUSER_BEHAVIOR_INFOUSER_BASIC_INFOUSER_BEHAVIOR_INFO某年7月某年1月、2月、3月某年7月某年7月某年4月、5月、5月、6月某年7月(3) 数据探索分析。在使用收集到的原始数据之前,必须要保证所有数据在数量和质量上符合要求。在数据探索阶段,对获取的各变量进行分析探索,选择对目标变量的影响相对较大的关键变量。此处,通过可视化的方式来展现,即利用Clementine 中的分

7、布图节点展示用户流失状态在每个变量上的分布图。从各分布图得出,用户的自然属性,例如性别、年龄等信息缺失值比较多,且存在较多的非法数据,所以在本文的分析中,不选该类变量,该类变量不参与建模。另外,像通话次数、通话时长等变量和客户流失概率之间存在着反比关系,即该类变量的值越大,则客户流失的概率相对来说就越小,所以在接下来的分析中,应该将该类变量或与该类变量相关的导出值作为分析的重点。通过上面对样本数据变量的数据探索工作,对各变量属性有了基本的了解,可以有针对性地选择适用变量或对一些变量进行过滤。3. 数据准备。数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应

8、的处理。在本次客户流失分析过程中,对数据的处理过程包括以下几个方面:(1) 整合数据。首先将流失客户的行为信息进行整合。为了便于后续建模,将行为信息按月份进行拆分与合并,并通过计算均值和比率来表示流失用户在流失前的消费行为突变情况。具体计算方法如下:FEE A V G = ( FEE 1 + FEE 2) / 2FEE ADD RA T E = ( FEE 3 +FEE A V G) / FEE A V G其中FEE 1 表示流失用户1 月份的消费额;FEE 2 表示流失用户2 月份的消费额; FEE 3 表示流失用户3 月份的消费额; FEE A V G表示流失用户在前2 个月的消费额平均;

9、 FEE ADDRA T E 表示3 月的消费额占其前2 个月消费额平均值的比率,该指标反映了用户在离网前的消费行为突变情况。其次将现有在网客户的行为信息进行整合。整合方法同上。最后,将用户自然属性和行为属性进行整合。整合时将流失用户信息和在网用户信息分开进行整合。流失用户的用户信息与其行为特征数据进行合并,在网用户的用户信息与其行为特征数据进行整合。整合之将其拆分成训练集和测试集。训练集用于训练模型,测试集用于对模型进行检验。(2) 清洗数据。在数据探索分析阶段,通过观察各变量分布图,我们得到了性别和年龄这2 个存在大量缺失值的字段,且通过变量分布图,发现这2 个字段对于目标字段的分布没有显

10、著影响,即客户流失在这2个字段上的分布不存在显著的差异,所以可以对这2 个字段采用过滤的操作。此外,对于在网状态字段,由于某些原因,可能有极少数属性值丢失了。对于这部分丢失的值,可以加上默认值,假设为在网状态,或者直接过滤掉。而不能将丢失的数据默认为离网,因为离网的记录在整个记录中比例过小,如果把丢失的记录直接加到离网中,势必会影响整个模型的可信度。相比而言,丢失的记录与在网记录比只是很小的一部分,不会影响大的趋势。当然,在不同的建模过程中,对于不同的原始数据集,对相同字段的处理是存在差异的。(3) 构造属性。从数据集中得到的原始字段,并不是所有的都适合直接用来建模分析,例如,以上在整合数据阶

11、段,利用导出节点,我们得到了消费额平均值字段和消费额增长率字段,并使用这些字段来对客户流失的情况做出更好的预测。可见,在数据准备过程中,各个阶段之间是没有明确的界限的,各个阶段是交叉进行,并不断重复的过程,只有通过这种方式,才能得到我们所需要的用于建模的数据。(4) 选择数据。选择数据过程包括字段的选择和记录的选择。在从业务系统获得的数据中会有许多字段是和分析无关的,这些字段在数据整合过程中被过滤掉。另外,从实际情况上看,国内电信企业每月的客户流失率一般在1 %3 % ,如果直接采用决策树模型,可能会因为数据概率太小而导致模型的失效,因此我们需要加大客户流失在总样本中的比例,但是这种过度抽样必

12、须谨慎小心,要充分考虑它的负面效应。4. 建立模型。运用数据准备阶段得到的训练集,并利用决策树对客户流失概率进行预测。决策树方法是一种从机器学习中引出的一种较为通用并被深入研究的分类函数逼近方法,在本文中运用Clementine 中的C5. 0 算法。该算法速度快、内存占用小、修剪能力和交互验证的特征能够使预测更精确。(1) C5. 0 决策树算法原理。将原始数据中的ON TA G和OU T TA G合并为仅含2 个变量, 即离网与不离网的新字段客户是否流失CHU RN 。将CHU RN 作为目标字段, 计算与CHU RN 相关的字段的信息增益的大小,按照由大到小的顺序对历史数据进行分类,最后

13、得到历史数据的n 个集合, 每个集合满足一定的规律。当新记录需要该模型对其确定CHURN 的值,则看其字段满足哪条规律。设S 是训练样本数据集, 该数据集中有m 个独立的类,记为Ci ( i = 1 ,2 , , m) 。Ri 为数据集S中属于Ci 类的子集, ri 表示Ri 中元组的数量。集合S 在分类中的期望信息量由以下公式给出4 :期望信息I ( r1 , r2 , , rm) = - mi =1Pilog2 Pi其中Pi = ri/ r ,表示任意一个样本属于Ci 类的概率( r 为总样本个数、ri 为类Ci 中的样本个数) 。若属性A 有v 个不同的取值,分别为 a1 , a2 ,

14、av ,根据属性A 将数据集S 划分为v 个子集 S 1 , S 2 , , S v ,其中S j 表示S 中A 的值为aj 的那些样本。如果A 被选为决策属性,则这些样本将对应该节点的不同分枝。设S j 包含类Ci 的样本有sij个。属性A 的这种划分的期望信息称作A 的熵:E( A ) = vj = 1s1 j + s2 j + + smjsI ( s1 j , s2 j , , smj)属性A 作为决策分类属性的信息增益为Gai n ( A ) = I ( r1 , r2 , , rm) - E( A )本模型中, S 为用以建立模型的客户集, 将客户集S 分为两个类: 在网( C1)

15、和离网( C2) 。S i ( i = 1 ,2) 分别表示S 中在网和离网的客户数。C5. 0 决策树的工作原理是根据提供最大信息增益的字段分割样本。然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去,直到无法继续分割子样本。最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。(2) 模型构建。建立数据模型的数据流程图如图1 所示 图1 中, TRAIN. dat 是数据准备阶段得到的训练集。使用Clementine 的C5. 0 建模节点来建立预测模型,将“churn”变量设置为“输出”,其他变量设置为“输入”。决策树是对这种算法建立分割的简单

16、描述。每一个终端节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况(离网或在网) 恰好属于树上的一个终端节点。以上模型得到的只是对用户离网状态的一个预测(离网或在网) ,我们所需要得到的不只是其状态,还要具体地了解其离网的可能性的大小,这样才能对高离失可能性的客户展开一定的挽留措施。通过建立导出字段CHURN PROB 来计算客户的离网可能性,其计算公式如下:CHURN PROB = 0. 5 +CC - CHU RN2if C - CHURN = 1CHURN PROB = 0. 5 -CC - CHU RN2if C - CHURN = 0式中: C - CHURN 为CHU R

17、N 字段的预测值;CC - CHURN 为置信度。最后,将计算得到的流失概率值按从大到小的顺序排列,为后续的潜在流失客户的挽留做好准备工作。5. 模型评估。运用分析节点预测分析模型的精确性,其结果如图2 所示。由图2 可以看出,模型的正确率为86. 01 %。及价值等因素对客户进行分类,并提供有针对性的产品、服务和营销模式。图3 评估结果流失分析过程中,我们将预测的概率按从大到小的顺序排列,取前35 %作为高流失概率客户群,但并不是所有的高流失概率客户都值得我们去挽留。如果挽留住的某些客户带来的盈利小于客户回夺时投入的营销成本,那么该类客户即不值得运营商挽留。从这些高流失概率用户中过滤掉那些低

18、价值”客户即FEE(出账收入) 50 元的客户。在高价值客户里我们也应针对不同的客户制定相应的营销方案,避免付出不必要的挽留成本。本文使用Kohonen 算法对高流失率高价值客户进行聚类分析,得出具有不同特征的客户群,以便根据其特征制定相应的挽留策略。选取其中的两类作简要分析。a. 以本地通话为主,很少有漫游通话和国内长途通话, S FEE A V G(平均短信出账收入) 相对较高, 但最近一个月S FEE ADD RA T E 0 ,V FEE (语音出账收入) 呈现明显下降趋势。针对这类客户,运营商可以通过赠送短信等方式来挽留客户。b. 长途通话次数和长途通话总时长都远高于其他用户,同时本

19、地通话次数也相对较高,漫游通话次数很少,很少发短信息。针对这类高流失概率的用户,可以通过减免月租费、降低长话费等方式来吸引并挽留客户。四、移动电话客户流失分析( 一) 收集资料为了能够定量地了解影响移动电话号码用户与手机用户之间的关系。我们对此做了一次资料收集。并对数据进行了数据挖掘, 数据挖掘的主要框架如图1 所示。收集资料的内容主要包括以下几个方面的内容:1、 移动电话客户的个人情况, 如年龄、职业、教育程度、籍贯等;2、 付费方式;3、 不同场所移动电话的接收质量;4、 电信公司的服务质量;5、 是否更换移动电话服务商及次数;6、 手机品牌与型号;7、 是否换过手机及次数;8、 购买手机

20、优先考虑的因素;9、 对于所使用手机外型、功能等的满意程度;10、 手机对电磁辐射的态度;11、 每月本地话费数量或次数;12、 每月长途话费数量;13、 是否经常使用呼叫转移;14、 发送和接收短信的次数;15、 通话弧度的大小, 即每个月平均与多少个人通话;16、 每月收发短信息的个数;( 二) 数据处理在进行数据处理的时候, 我们使用STAT IST ICS 软件进行处理, 其中包括如下几个过程,在这里给出简要描述。1、 数据净化与处理分析数据的原始样本数据为131, 024 笔, 数据属性( 字段) 部分共有33 个项目。因有些样本数据中的项目有过多的缺失值, 不适用于分析, 因此在这

21、个阶段会将数据作数据净化与处理。步骤如下:步骤一: 将数据表中有缺失值的记录先给予删除。步骤二: 将数据中不分析的属性删除, 删除后所剩样本为57194 笔。2、 母体与样本的结构比较为了减少数据分析的数据量, 提高分析的效率, 我们采用随机抽样方法, 从步骤二中抽取5%的样本来作分析, 共有2892 笔样本。当然, 在做分析前, 还必须比较样本是否能够代表母体的特征, 我们利用性别、年龄、教育程度、职业以及户籍来比较母体与样本的结构是否有差异, 以确定样本抽样的无误。结果( 数据略) 显示结构比例在统计意义上无差别。因而可以利用抽样的数据来代表母体数据进行分析。3、 进行数据的结构分析数据的

22、结构分析, 主要使用交叉列联表的方法来进行。分析的主要内容是研究更换手机与人口结构的关系, 更换号码与人口结构的关系。我们利用Pearson 的卡方检验( Yates 修正) 进行卡方分析, 分析结果如下:性别教育程度职业卡方值p. 值卡方值p. 值卡方值p . 值换过手机64. 6736 0.0000 3. 5377 0. 1705 113.0173 0. 0000换过号码22. 3073 0.0000 0. 358 0. 8361 30.7756 0. 0002从结果可以看出, 从性别与职业角度看, 不同性别与不同职业的人都对换手机和换号码都有显著影响, 而从教育程度, 教育程度的不同并不

23、影响人们的换手机和换号码。从分析结果我们还知道( 数据列表略) , 男性换手机和号码的人数比例要明显大于女性。在职业方面, 电信运营商换过手机和换过号码的比例都是最高的, 换手机比例最低的是失业退休人员, 换过号码比例最低的是专业技术人员, 其次是退休人员。4、 聚类分析( k- means 聚类)( 1) 电话号码的聚类分析表1 两类的典型代表Cluster 1 Cluster2室内信号质量1834574 1831028室外信号质量1940957 1916008郊外信号质量1837766 1911067车上信号质量1968617 1988142通话清晰度1995745 2433794计费方式

24、2502128 3084980服务效率2041489 3459486服务态度1751596 4497036整体品质1940957 2936759 表2 两类之间的欧氏距离NO. 1 NO. 2NO. 1 0000000 1230863NO. 2 1109443 0000000 表3 方差分析Between df Within Df F signif.室内信号质量0. 008 1 533. 658 2890 0. 045 0. 832355室外信号质量0. 410 1 236. 307 2890 5. 008 0. 025303郊外信号质量3. 535 1 911. 515 2890 11. 2

25、07 0. 000825车上信号质量0. 251 1 319. 006 2890 2. 272 0. 131828通话清晰度126. 237 1 1948. 530 2890 187. 231 0. 000000计费方式223. 490 1 3660. 683 2890 176. 438 0. 000000服务效率1322. 789 1 3372. 103 2890 1133. 673 0. 000000服务态度4958. 655 1 1683. 986 2890 8509. 875 0. 000000整体品质652. 357 1 2662. 399 2890 708. 126 0. 0000

26、00( 2) 手机型号的聚类分析( 三) 结果分析针对所收集数据, 以换过号码做为主要变量, 利用CHAID 分析方法进行分析, 发现其中性别、年龄、永籍及职业四个人口统计变量在区隔数据上有显著影响, 将资料做适当的区隔, 根据CHAID 分析方法所区隔出的各群, 找出各群中不同的趋势、特征及各群之间的相关性, 还可以建立判别模式进行预测。( 四) 营销建议数据挖掘的目的是从数据中发掘客户价值, 因此分析结果只有应用到企业的实际营销策略中, 并给企业带来显著的利润, 才是资料挖掘的初衷。对移动服务提供商来说, 利用数据挖掘的结果还要综合考虑企业的自身状况, 例如, 先弄清楚客户流失对企业到底有

27、多大影响。可以先将客户依贡献价值分级, 如果A 级占相当比例, 那表示问题就比较严重了, 如果都是C级, 那么也不一定需要花大量的人力、物力和财力来处理。找出那些A 级流失客户, 邀请他们来个面对面的深度讨论( 如: Focus Group) , 了解他们走失的原因, 如何能改变他们的想法。依照这些原因设计改善方案或挽回方案, 立刻联系那些已走或快走的人。设立监控机制纪录, 每周或每月份分析所有客户的RFM( Recency , Frequency, Monetary) 的变动, 随时找出贡献度高( M 高的) , 但最近消费次数降低( R 或F) 的人, 先给予问候, 再看看是否有任何不满意

28、见, 必要时给予一些预先计划好的糖#, 在事发前就先避免。客户关系管理对企业而言乃是将客户关系放在企业经营的核心, 规划以满足客户需求的营销理念; 而利用数据挖掘分析客户数据, 有效掌握客户特性、发掘客户价值, 并配合企业的实际营销策略, 才能有效的给企业带来显著的利润。( 下转第44 页)68 中文核心期刊 数理统计与管理 24 卷 1 期 2005 年1 月行以中央银行建立的中央信贷登记为主体的企业征信评价体系, 并辅以商业银行协会建立的会员制征信机构与商业性征信机构为主体的企业征信管理体系。从长期来看, 随着我国市场经济和现代企业制度的逐步完善, 以征信公司的商业运作为主体的企业征信管理

29、体系应该作为我国企业信用评价体系的基本模式。其次, 在指标体系的选择方面, 不仅要选择各种财务指标, 还要用管理、人才资源、制度建设、历史记录等指标全面考察企业的信用状况, 而且还应该将企业放在整个行业甚至整个国民经济中考察其信用状况。只有将行业指标及国民经济指标纳入信用评价指标体系内, 才能全面、系统地评估企业的信用状况。最后, 在评估模型的选择方面, 应该选择发展比较成熟的评估模型。上述几种模型在实际应用中各有优劣, 在实际操作中应该用不同的模型进行评估, 然后对各种模型的评估结果进行拟合、检验与比较, 找出满意的评估模型。五、总结全球经济一体化的竞争环境使得企业应充分认识到客户流失防范的重要性。本文通过运

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论