版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、电信客户流失的相关性因素分析摘要:随着市场体制的不断完善,行业竞争的加剧,为了不断吸引新的客户,许多行业愈来愈重视对客户流失管理的研究。本文主要采用SPSS Modeler作为处理工具,对已获取的电信企业客户流失情况与相关因素的数据作出相关性分析,目的是为了探究客户流失与哪些方面有关,进而得出相关结论与建议。关键词:SPSS Modeler;相关性;客户流失目录 TOC o 1-3 h z u HYPERLINK l _Toc485310909 一、引言 PAGEREF _Toc485310909 h 6 HYPERLINK l _Toc485310910 (一)研究背景 PAGEREF _T
2、oc485310910 h 6 HYPERLINK l _Toc485310911 (二)研究的问题和意义 PAGEREF _Toc485310911 h 6 HYPERLINK l _Toc485310912 二、数据处理 PAGEREF _Toc485310912 h 7 HYPERLINK l _Toc485310913 (一)数据来源 PAGEREF _Toc485310913 h 7 HYPERLINK l _Toc485310914 1.读取数据 PAGEREF _Toc485310914 h 7 HYPERLINK l _Toc485310915 2.修改变量名称 PAGEREF
3、 _Toc485310915 h 8 HYPERLINK l _Toc485310916 (二)变量定义 PAGEREF _Toc485310916 h 8 HYPERLINK l _Toc485310917 1.变量角色说明 PAGEREF _Toc485310917 h 8 HYPERLINK l _Toc485310918 2.规范变量取值 PAGEREF _Toc485310918 h 9 HYPERLINK l _Toc485310919 3.生成新变量 PAGEREF _Toc485310919 h 10 HYPERLINK l _Toc485310920 (三)数据处理 PAGE
4、REF _Toc485310920 h 11 HYPERLINK l _Toc485310921 1.样本的分类汇总 PAGEREF _Toc485310921 h 11 HYPERLINK l _Toc485310922 2.计算描述统计量 PAGEREF _Toc485310922 h 12 HYPERLINK l _Toc485310924 3.绘制散点图 PAGEREF _Toc485310924 h 14 HYPERLINK l _Toc485310927 4.两分类变量相关性的数值分析 PAGEREF _Toc485310927 h 15 HYPERLINK l _Toc48531
5、0934 5.决策树C5.0分析 PAGEREF _Toc485310934 h 17 HYPERLINK l _Toc485310951 6.Logistic回归分析 PAGEREF _Toc485310951 h 19 HYPERLINK l _Toc485310952 三、研究结论与建议 PAGEREF _Toc485310952 h 21 HYPERLINK l _Toc485310953 (一)研究结论 PAGEREF _Toc485310953 h 21 HYPERLINK l _Toc485310954 1.从基本描述统计量来看 PAGEREF _Toc485310954 h 2
6、1 HYPERLINK l _Toc485310955 2.从决策树C5.0分析来看 PAGEREF _Toc485310955 h 22 HYPERLINK l _Toc485310956 3从Logistic回归分析看 PAGEREF _Toc485310956 h 22 HYPERLINK l _Toc485310957 (二)建议 PAGEREF _Toc485310957 h 22 HYPERLINK l _Toc485310958 参考文献 PAGEREF _Toc485310958 h 24 HYPERLINK l _Toc485310970 附录 PAGEREF _Toc485
7、310970 h 25 HYPERLINK l _Toc485310971 1.部分原始数据 PAGEREF _Toc485310971 h 25 HYPERLINK l _Toc485310972 2.课程论文成绩评定标准 PAGEREF _Toc485310972 h 26引言研究背景数据挖掘数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧,运营商普遍开始向“客户驱动”管理模式转变。(2)SPSS Modeler软件SPSS Modeler(12.0以前
8、叫Clementine)是一个业界领先的数据挖掘平台。SPSS Modeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型。 SPSS Modeler 14.1 相比 SPSS Modeler 13.0,在数据可视化和算法可视化方面做了改进和完善,这样更便于数据挖掘工作者进行数据探索和模型的优化。同时,增强了数据源连接、数据处理、建模分析等功能。(3)相关性分析相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎
9、覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。研究的问题和意义所谓电信行业的客户流失,传统观念认为就是电信客户从某一运营商退网或转网。电信市场的竞争愈来愈激烈,为使企业的利润最大化,各通信运营商都把争取更多的客户作为营销的最终目标。但是随着竞争的不断加剧,客户流失成为各企业运营过程中面临的主要问题,不仅使市场份额减少,还会出现客户恶意离网产生欠费行为,增加了企业的运营成本,造成严重的经济损失。有分析称,开发一个新的客户比挽留一个老的客户所产生的成本高很多倍。因此,做好客户关系管理,防止客户流失是通信行业提升企业核心竞争力的有效手段。本文搜集了大量电信客户的基本信息与流
10、失情况的数据,利用SPSS Modeler作为分析工具,通过对数据的基本分析,以及建立决策树C5.0和Logistic模型系统分析客户流失的相关性因素。针对以往客户关系管理过程中无法监控客户流失的问题,将数据挖掘技术应用到通信客户流失预警分析中,利用其强大的数据分析手段,建立客户消费特征等属性与客户流失可能性之间的关联模型,可实现对客户状态的实时监控。数据处理数据来源本案例采用的是来自互联网的1000份电信客户流失数据,有一定的真实性和研究分析价值。1.读取数据将“电信客户流失数据.sav”文件导入到数据流中,读取文件。图2.1 原始数据导入结果浏览2.修改变量名称由于原始数据中的变量名称为英
11、文,不便于理解,因此,将变量名称替换成中文。将“tenure”替换为“在网月数”,将“custcat”替换为“客户种类”,将“churn”替换为“是否流失”,将“ed”替换为“教育水平”,将“employ”替换为“当前工作年限”,将“retire”替换为“是否退休”,将“gender”替换为“性别”,将“reside”替换为“家庭人数”。图2.2 修改变量名称变量定义变量角色说明将“在网月数”“当前工作年限”“家庭人数”设为“连续”,将“客户种类”“是否流失”“性别”设为“名义”,将“教育水平”“有序”,将“是否流失”角色设置为“目标”。读取值。图2.3 变量角色说明规范变量取值 对各变量逐个
12、添加标签,以规范变量的取值。如“客户种类”字段中,“1”表示基本服务,“2”表示上网服务,“3”表示附加服务,“4”表示所有服务。性别字段中“0”代表男性,“1”代表女性。其他名义类型字段中,“0”均表示“否”,“1”均表示“是”。“教育水平”字段中,“1”表示低于高中水平,“2”表示高中,“3”表示大学,“4”表示学士,“5”表示硕士。图2.4 规范“客户种类”变量取值图2.5 规范“教育水平”变量取值生成新变量为了更直观了解样本的用户忠诚度,对用户的在网月数进行了多级评定计算。选择【字段选项】【导出】节点,与数据流链接。双击【导出】节点,选择“多个”模式,导出自“在校得分”,导出为“名义”
13、,字段类型“名义”。通过建立【输出】【表】节点可以浏览评级结果。图2.6 生成新变量参数设置图2.7 生成新变量结果浏览数据处理样本的分类汇总通过对样本数据进行分类汇总,可以观察不同的性别用户在使用电信宽带的时间上的不同。选择汇总节点,与数据流链接。双击【汇总】节点,关键字段选择“性别”、汇总字段选择“在网月数”、勾选“总数”“平均值”“标准差”选项。通过建立【输出】【表】节点可以浏览评级结果。由图可以看到,男性用户的平均在网月数略低于女性用户。图2.7 样本的分类汇总结果浏览计算描述统计量数据分析通常是从基本描述分析开始。通常对数值型变量,应计算基本描述统计量以准确把握变量的集中趋势和离散程
14、度。描述集中趋势的统计量一般有均值、中位数、众数等,描述离散程度的统计量包括方差、标准差、极差等。在这里,对电信用户数据的分析目标是:“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数”的基本描述统计量,计算上述变量与“是否流失”变量之间的相关性。选择输出统计量节点,与数据流链接。双击统计量节点,检查:“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数”,导出自“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数”,相关:“是否流失”,统计其“计数”、“最大值”、“最小值”、“平均值”、“范围”、“方
15、差”、“标准差”以及“平均值标准误差”。在相关设置中选择“按重要性(1-p)定义相关强度”。运行后生成新窗口,可以浏览计算结果。图2.8 描述统计量参数设置图2.9 描述统计量计算结果浏览从结果上,我们可以得到“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数”和“是否流失”都存在相关性。其中“在网月数” “教育水平”“当前工作年限”“是否退休”与“是否流失”相关性强,而“性别”“客户种类”“家庭人数”则与“是否流失”相关性弱。绘制散点图根据散点图更加直观地观察家庭人数、当前工作年限与是否流失之间的关系。选择图形卡中的“图”节点并将其接到数据流恰当的位置,鼠标右
16、击“图”节点,选择弹出菜单中的编辑选项。在X字段与Y字段框中选择散点图的X轴变量和Y轴变量,分别选择“家庭人数”“当前工作年限”。在交叠字段框中指定交叠字段变量,以期在散点图中观测交叠字段变量不同取值样本点的分布情况,这里选择了“流失”,并用不同颜色表示。图2.10 散点图绘制参数设置图2.11 散点图绘制结果浏览从结果上来看,图中点的分布没有明显的线性趋势,可见变量间的相关性并不高。两分类变量相关性的数值分析为了更精准分析数值,我们将对数据进行列连分析。分析目标是“性别”、“是否是党员”“是否当过干事”与“是否流失”相关。选择【输出】【矩阵】节点,与数据流链接。双击【矩阵】节点,行:“是否流
17、失”,列:“客户种类”、“教育水平”“是否退休”“性别”,选择“交叉列表”。【应用】后点击【运行】生成新窗口,可以浏览计算结果。图2.12 客户种类与是否流失相关性结果浏览从图2.12可以看出,种类3(选择了附加服务的用户的流失率最小)的客户基数最大,但流失率最小。281名选择了附加服务的客户中,流失的人数为44,仅占16.058%。图2.13 教育水平与是否流失相关性结果浏览从图2.13可以看出,教育水平为高中的用户数量最多,占到了30.854%。并且从图中可以发现,随着受教育水平的上升,客户流失率也随之提高,可见受教育水平越高的用户越容易流失。图2.14 是否退休与是否流失相关性结果浏览从
18、图2.14可以看出,在没有退休的953名客户中,未流失的占71.563%;而在退休的44名用户中,未流失的占到了93.617%。说明未退休用户较退休用户更容易流失。图2.15 性别与是否流失相关性结果浏览从图2.15可以看出,两个性别在流失情况上的差异并不大,基本可以判断电信用户的流失与性别的相关性不大。决策树C5.0分析决策树分析法是一种运用概率与图论中的树对决策中的不同方案进行比较,从而获得最优方案的风险型决策方法。图论中的树是连通且无回路的有向图,入度为0的点称为树根,出度为0的点称为树叶,树叶以外的点称为内点。决策树由树根(决策节点)、其他内点(方案节点、状态节点)、树叶(终点)、树枝
19、(方案枝、概率枝)、概率值、损益值组成。构造决策树的方法是采用自上而下的递归构造。其基本思路是:(1)以代表训练样本的单个结点开始建树;(2)若样本都在同一个类中,则该结点为叶子结点,并用该类标记;(3)否则,算法使用信息增益作为启发信息,选择能够最好地将样本分类的属性,作为该结点的“测试”或“判定”属性;(4)对测试属性的每一个已知的值,创建一个分支,并据此划分样本;(5)算法使用同样的过程,递归地形成每一个划分上的样本决策树;(6)递归划分步骤,当下列条件之一成立时停止:给定结点的所有样本属于同一类;没有剩余属性可以用来进一步划分样本;该分支没有样本。具体操作是:从源中引入Statiscs
20、节点,选择电信客户流失数据.sav输入数据,输出表查看结果。选择“建模”选项卡中的C5.0节点与Statiscs节点相连接,右击鼠标进行参数设置。选择“是否流失”为输出变量,选取相关性较大的“当前工作年限”“教育水平”“客户种类”为输入变量。图2.16 规则集运行结果浏览从决策树C5.0来看,在这些因素中,最重要的是“当前工作年限”,比较重要的是“教育水平”,其次是“客户种类”。图2.17 决策树C5.0运行结果1当前工作年限小于11年的620名用户中,流失人数为226人,置信度为36.452%;当前工作年限大于11年的380名用户中,流失的人数为48人,置信度为12.632%。图2.18 决
21、策树C5.0运行结果2教育水平低于高中,高中和大学的399名用户中,流失人数为121人,置信度为30.326%;教育水平达到学士和硕士的221名用户中,流失的人数为105人,置信度为47.511%。图2.19 决策树C5.0运行结果3选择了基本服务或所有服务的138名用户中,流失人数为62人,置信度为55.072%;选择了上网服务或附加服务的83名用户中,流失的人数为29人,置信度为34.940%。Logistic回归分析将数据sav文件导入数据流中,将sav与类型节点连接起来,编辑类型,读取值,将“是否流失”,将类型节点与建模中的logistic节点连接起来,编辑logistic节点,使用类
22、型节点设置,过程选择二项式,方法选择进入法,字段输入“性别”“是否退休”,应用并运行。图2.20 Logistic模型运行结果1图2.20显示了logistic回归分析第一步时回归方程显著性检验的情况,个数据项的含义依次是似然比卡方的观测值、自由度、概率-P值。似然比卡方的观测值为185.106,概率-P值为0.000。如果显著性水平为0.05.由于概率-p值小于显著性水平,应拒绝0假设,认为所有回归系数不同时为0,解释变量的全体和LogitP之间的线性关系显著,采用该模型合理。图2.21 Logistic模型运行结果2图2.21显示了当前模型拟合优度方面的指标,各个数据项的含义依次为-2倍的
23、对数似然值,Cox&Snell R及Nagelkerke R倍的对数似然值越小则拟合优度越高,该表值为1201.188. Nagelkerke R值接近0,拟合效果一般。图2.22 Logistic模型运行结果3图2.22显示的是模型的错判矩阵。在没有流失的726人中,模型正确识别了698人,错误识别28人,正确率为96.1%。在没有流失的274人中,模型正确识别2人,错误识别272人,正确率为0.7%。模型总的正确预测率为70%。因为预测概率值大于0.5,所以输出变量的分类预测值为1.图2.23 Logistic模型运行结果4图2.23显示了模型中各个回归系数检验方面的指标,显著性水平为0.
24、05,因为性别的概率-P值大于显著性水平,不应该拒绝0假设;而是否退休的概率-P值小于显著性水平,拒绝0假设。进一步证明了用户流失与其性别无相关性,而与是否退休存在着相关性。研究结论与建议研究结论本文通过对1000份电信用户流失情况的调查数据来看,对“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数”等七个因素与“是否流失”进行相关性分析,得出以下结论:1.从基本描述统计量来看“在网月数”“教育水平”“当前工作年限”“是否退休”与“是否流失”相关性强,而“性别”“客户种类”“家庭人数”则与“是否流失”相关性弱。原因可以考虑到,在网月数直接关系到客户的忠诚度,忠诚
25、度高的客户自然不易流失。而客户受教育的水平,工作年限以及客户是否退休,都与其收入有着一定的联系,受教育水平高,工作年限久,尚未退休的客户自然有更多的可支配收入,对于服务选择面更广,较容易流失。2.从决策树C5.0分析来看规则集显示在这些因素中,最重要的是“当前工作年限”,比较重要的是“教育水平”,其次是“客户种类”。相对来说, 当前工作年限小于11年的用户更容易流失;受教育水平达到学士或硕士的也更容易流失,进一步证明了从两分类变量相关性因素分析中得到的“受教育水平越高的用户越容易流失”的推论。而从客户类型上来说,选择了上网服务和附加服务的用户流失率相对较小。3从Logistic回归分析看二项式
26、过程我们选择了进入法,在这个模型中,解释变量的全体和LogitP之间的线性关系显著,拟合优度方面的指标拟合效果一般,分析结论是“性别”对“是否流失”无显著影响。“是否退休”对“是否流失”显著性影响比较大。建议大数据时代下的信息具有体量大、复杂性高、更新速度快的特点,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升。要在发展中抢占先机,在大数据时代获取竞争优势,就必须对原有的情报分析思路进行必要的升级改造,以满足信息的情报属性。电信行业在提取有用信息分析客户特征时,应注意:一是样本数据的选取,尤其客户流失所占的比重应该跟实际值相符。二是应该对缺失值以及异常值的处理和对不显
27、著信息进行过滤。三是应该选择合适的模型和算法。这样才能得出科学合理的结论。客户流失是通信行业运行过程中常见的问题,直接影响到运营商的企业效益。数据挖掘可以根据客户信息、消费行为等历史数据判断客户流失的可能性,避免因营销手段的盲目性造成的成本浪费。得出客户流失预警规则或者建立预警模型都是为了挽留客户,防止流失。从本文研究结果来看,收入因素和客户流失呈正相关。电信行业竞争加剧,但因为客户的受教育水平和收入有了提高,客户对价格敏感度降低了,某一网内客户大规模重新选择运营商、品牌或套餐而造成的移动电话用户数大幅度增减变化的现象越来越普遍。面对这样的情况,首先,电信运营商要合理定价,并且时刻关注竞争对手
28、的定价策略和营销方式,及时对自己的服务作出调整,弥补现有的不足,提高客户忠诚度。对那些价值高流失倾向大的客户优先采取相应的挽留措施,以保证优质客户的持有率。参考文献1 薛薇,陈欢歌.SPSS Modeler数据挖掘方法及应用M.电子工业出版社2 余路.电信客户流失的组合预测模型.华侨大学学报:自然科学N.2016,37(5);637-6403 吴占福.统计分析软件SPSS介绍:河北北方学院学报N.2012-124 刘洋.如何减少移动客户流失: 中国电信业N.2013-4;74-775 谭宏伟. Logistic回归模型的影响分析J. 数理统计与管理6 施朝健. Logistic回归模型分析M.
29、 计算机辅助工程7 纪希禹. 数据挖掘技术应用实例M. 机械工业出版社7 旷岭.电信客户流失数据分析方案设计与应用研究.中南林业科技大学学报:自然科学版N,2011,31(6);207-2118 王晓佳,杨善林,陈志强.大数据时代下的情报分析与挖掘技术研究电信客户流失情况分析.情报学报N,2013,32(6);564-5749 顾光同,王力宾,费宇.电信客户流失预警规则及其信度测定实证研究以云南电信为例.云南财经大学学报N,2010,(6);94-9810赵京辉,李媛,冉宏坤.数据挖掘在电信客户流失分析中的应用.信息通信J,2014,(1);223-223附录部分原始数据在网月数客户种类是否流
30、失教育水平当前工作年限是否退休性别家庭人数13.0001.0001.0004.0005.0000.0000.0002.00011.0004.0001.0005.0005.0000.0000.0006.00068.0003.0000.0001.00029.0000.0001.0002.00033.0001.0001.0002.0000.0000.0001.0001.00023.0003.0000.0001.0002.0000.0000.0004.00041.0003.0000.0002.00016.0000.0001.0001.00045.0002.0001.0002.0004.0000.000
31、1.0005.00038.0004.0000.0002.00010.0000.0000.0003.00045.0003.0000.0004.00031.0000.0000.0005.00068.0002.0000.0001.00022.0000.0000.0003.0005.0001.0001.0004.0005.0000.0001.0001.0007.0003.0000.0002.00015.0000.0001.0001.00041.0001.0000.0002.0009.0000.0001.0003.00057.0004.0001.0004.00023.0000.0001.0003.0009.0001.0000.0001.0008.0000.0001.0002.00029.0002.0000.0005.0001.0000.0000.0004.00060.0003.0000.0002.00030.0000.0000.0001.00034.0003.0000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年热带海洋环境与岛礁生态全国重点实验室科研助理岗位招聘备考题库及答案详解(新)
- 2026年广东女子职业技术学院第三批公开招聘工作人员备考题库及完整答案详解一套
- 2026年赣州市信丰县卫生健康总院赣南医科大学第二附属医院院区招聘合同制人员备考题库完整答案详解
- 2026年四川省肿瘤医院中西医结合旗舰项目管理人员招聘备考题库及一套答案详解
- 2026年宁德师范学院附属宁德市医院编外工作人员招聘12人备考题库(三)及1套完整答案详解
- 2026年中国证券投资基金业协会校园招聘备考题库及答案详解(新)
- 2026年中国农业科学院招聘359人备考题库及答案详解(新)
- 2026年威海市教育局直属学校引进急需紧缺人才备考题库有答案详解
- 2026年宁波市北仑区小港街道办事处招聘编外人员备考题库有答案详解
- 基于绿色出行的城市公共空间规划与设计研究教学研究课题报告
- 2020北京丰台六年级(上)期末英语(教师版)
- 建筑冷热源课程设计说明书
- 2022-2023学年北京市大兴区高一(上)期末数学试卷及答案解析
- 教练场地技术条件说明
- 高三英语阅读理解:文章标题型
- 石油开采-潜油电泵采油优秀PPT
- 《乡土中国》 《无讼》课件
- JJG 229-2010工业铂、铜热电阻
- GB/T 9870.1-2006硫化橡胶或热塑性橡胶动态性能的测定第1部分:通则
- GB/T 4675.1-1984焊接性试验斜Y型坡口焊接裂纹试验方法
- 2023届二轮复习 第十四讲 两次世界大战与国际格局的演变 课件(67张)(山东重庆河北专用)
评论
0/150
提交评论