




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Statistics Department of Economic School of Anhui University,Jianhua Cheng 2019年6月8日 Email: Mobile Phone:A Series Course of Data Mining,案例2电信客户流失分析,电信行业数据挖掘 客户流失研究之商业理解,移动通信业是一个竞争异常激烈的行业,对于移动通信运营商来说,如何对其客户进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题。在这里我们将介绍数据挖掘在移动通信业关于客户流失研究中的应用。 数据挖掘技术将提供功能强大的模型,可以回答“哪些客户最可能流失?”和“为什么这些客户会流失?”等问题。,电信行业数据挖掘 客户流失研究之商业理解,什么是流失,流失如何定义 连续欠费不交?号码长期不用?二分标记变量? 流失和哪些因素相关 顾客年龄?性别?收入?行业?话费水平?话务质量? 确定数据挖掘目标 (1)对客户进行聚类分析,寻找那些流失量比较大的客户群 (2)建立规则,描述那些易于流失的客户群的特征 (3)建立打分模型,对客户流失可能性(概率)进行评价,顾客信息资料 (共31769条记录,10个变量),电信行业数据挖掘 流失问题研究之数据理解,CDR数据资料 (190,614条记录,10个变量),电信行业数据挖掘 流失问题研究之数据理解,资费数据资料 (共5条记录,9个变量),电信行业数据挖掘 流失问题研究之数据理解,电信行业数据挖掘 流失问题研究之数据准备,把CDR月度数据汇总成6个月的总体数据 根据CDR数据生成各种不同的平均数据和组合数据 归并客户信息数据、CDR数据与话费数据 对客户现在付费类型的合理性进行简单分析,电信行业数据挖掘 流失问题研究之建模和评估,Kohonen聚类 Kmeans聚类 C5.0建立规则 C&RT决策树 Logistic回归模型 神经网络模型,对客户进行聚类分析,并比较不同客户群流失可能性,建立规则,描述那些易于流失的客户群的特征 建立打分模型,对客户流失可能性(概率)进行评价,结论决策:流失概率高和低的都不管,关注中间层,范围多大?,Modeler 14.2,文件:数据理解_观察各种因素和流失的关系如何.str,文件:数据理解_各种费用比例和流失的关系.str,文件:建立模型_研究不同客户群流失情况.str,6. 案例分析,文件:建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str,建立模型:(1)利用数据训练集训练模型,看模型是否合适。,6. 案例分析,文件:建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str,建立模型 (2)利用数据检验集对已经建立的模型进行查看,看预估数据与实际数据是否吻合,出错比例大概多少。,理解数据挖掘 应用/建模图,6. 案例分析,电信行业数据挖掘 流失问题研究之模型发布,对每个特定客户的流失可能性进行打分评估 写回数据库,您需要将您对数据挖掘结果是否达到业务成功标准的评估记录在案。在报告中考虑以下问题: 您的结果是否明确声明并且采用可以轻松展示的格式? 是否存在应该突出强调的特别故事或独特的发现问题? 您是否能够按照模型和发现的问题对于业务目标的适用顺序对他们进行排序? 总的来说,这些结果能在多大程度上满足您组织的业务目标? 您的结果还引发了哪些其他问题?您将如何使用商业术语表述这些问题? 评估完结果后,编辑汇总一个已批准的模型列表以包含在最终报告中。此列表应该包含同时满足您组织的数据挖掘目标以及业务目标的那些模型。,模型评估,如果要评估模型的准确度,则需要对一些记录进行评分,并将模型预测的响应与实际结果进行比较。接下来对用于评估该模型的相同记录进行评分,以将观察到的响应与预测响应进行比较。 表在名为 $R-Credit rating 的字段中显示预测分数,该字段由模型创建。我们可以将这些值与包含实际响应的原始信用评价字段进行比较。 按照惯例,在评分过程中生成的字段的名称基于目标字段,但是要加上标准前缀,例如 $R- 表示预测值,$RC- 表示置信度值。不同的模型类型使用不同的前缀集。置信度值是模型自己的评估,尺度从 0.0 到 1.0,表示每个预测值的精确程度。 与预期的一样,预测值与大多数(并非全部)记录的实际响应相匹配。原因是每个 终端节点均有混合响应。预期值与最常见的响应相匹配,但对于该节点中的其他响应,该预期值是错误的。(记住,16% 的少部分低收入客户没有拖欠。) 若要避免出现此情况,应继续将树分割为更小的分支,直到每个节点都是不含混合响应的 100% 纯节点为止即全部为优良或不良。但是,这样的模型可能会非常复杂,并且不易推广到其他数据集。,模型评估,增益图 红线为“随机线”,即随机抽取总体数据的预测结果,是参照基线,$Best-流失评分线是“理想线”,即模型准确预测应得到的结果,中间三条即三个模型的实际预测的累计增益结果。模型曲线越靠近理想线,与随机线包围面积越大,模型的预测效果越好,上图三个模型均很靠近理想线。横轴表示总体数据的百分比,图中可以看出,利用总体约45%的数据已经可以通过这三个模型达到接近理想线的预测结果。,模型评估,提升图 提升图与累计增益图解释类似,均是描述模型预测的准确性,它衡量与不利用模型(即图中红色的基线)相比,模型的预测能力“变好”了多少。由图可以看出,各模型的峰值也是在总体约45%的位置,超过45%,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025重庆三峰环境集团股份有限公司招聘16人笔试参考题库附带答案详解
- 2025河南省储备粮管理集团招聘12人笔试参考题库附带答案详解
- 2025江苏徐州东创新能源科技有限公司招聘19人笔试参考题库附带答案详解
- 2025年贵州仁怀市营商环境建设局公开招聘编制外合同制人员招聘4人笔试参考题库附带答案详解
- 2025年河北保定钞票纸业有限公司人员招聘29名笔试参考题库附带答案详解
- 2025年广东深圳供电局有限公司校园招聘(140人)笔试参考题库附带答案详解
- 2025年中国能建陕西院工程承包公司招聘笔试参考题库附带答案详解
- 2025上半年浙江温州瓯海科技产业发展集团有限公司及下属子公司招聘19人笔试参考题库附带答案详解
- 地铁施工部培训课件
- 地铁安全巡逻队培训内容课件
- 2025年中国地震局事业单位公开招聘考试历年参考题库含答案详解(5卷)
- 劳动保障监察条例课件
- 呼吸科出科考试题临床及答案2025版
- 仓储能力及管理办法
- ROCK1蛋白:解锁食管鳞癌奥秘的关键密码
- 心理健康教育:男生女生
- 《大中型企业安全生产标准化管理体系要求》
- 政策变迁课件
- 电机维护检修培训课件
- 物理课程与教学论 课件 第五章 物理教学模式、方法与策略
- 行政执法实务培训课件
评论
0/150
提交评论