6-2 案例2 电信客户流失(程建华).ppt_第1页
6-2 案例2 电信客户流失(程建华).ppt_第2页
6-2 案例2 电信客户流失(程建华).ppt_第3页
6-2 案例2 电信客户流失(程建华).ppt_第4页
6-2 案例2 电信客户流失(程建华).ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining Statistics Department of Economic School of Anhui University Jianhua Cheng * Email: Mobile Phone:A Series Course of Data Mining 案例2电信客户流失分析 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 电信行业数据挖掘 客户流失研究之商业理解 移动通信业是一个竞争异常激烈的行业,对于移动通信 运营商来说,如何对其客户进行有效的管理,尽可能的减 少客户的流失和跳网是一个紧迫的问题。在这里我们将介 绍数据挖掘在移动通信业关于客户流失研究中的应用。 数据挖掘技术将提供功能强大的模型,可以回答“哪些 客户最可能流失?”和“为什么这些客户会流失?”等问 题。 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 电信行业数据挖掘 客户流失研究之商业理解 什么是流失,流失如何定义 连续欠费不交?号码长期不用?二分标记变量? 流失和哪些因素相关 顾客年龄?性别?收入?行业?话费水平?话务质量? 确定数据挖掘目标 (1)对客户进行聚类分析,寻找那些流失量比较大的客户群 (2)建立规则,描述那些易于流失的客户群的特征 (3)建立打分模型,对客户流失可能性(概率)进行评价 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 字段名称字段含义义指标标解释释 Customer_ID顾顾客ID Gender性别别 Age年龄龄 Connect_Date入网时间时间顾顾客生命周期的开始,日期型 L_O_S服务时间务时间服务顾务顾 客时间长时间长 Dropped_Calls掉线线次数在6个月内电话电话 掉线线次数 Pay Method支付方式话费话费 支付方式预预交还还是后付 tariff话费类话费类 型 Churn是否流失二分标记变标记变 量,是或否 Handset手机品牌 顾客信息资料 (共31769条记录,10个变量) 电信行业数据挖掘 流失问题研究之数据理解 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 字段名称字段含义指标解释 Customer_ID顾顾客ID Peak_calls高峰时时期电话电话 数 Peak_mins高峰时时期电话时长电话时长 OffPeak_calls低谷时时期电话电话 数 OffPeak_mins_Sum低谷时时期电话时长电话时长 Weekend_calls周末时时期电话电话 数 Weekend_mins周末时时期电话时长电话时长 International_mins国际电话时长际电话时长 Nat_call_cost_Sum国内电话电话 花费费=高峰+低谷+周末花费费 Month月份 CDR数据资料 (190,614条记录,10个变量) 电信行业数据挖掘 流失问题研究之数据理解 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 字段名称字段含义指标解释 tariff资费资费种类类 fixed_cost固定费费用该该种资费类资费类 型每月需支付固定费费用 Free_mins免费时长费时长该该种资费类资费类 型每月提供免费费(国内)时长时长 peak_rate高峰时时期话费话费该该种资费类资费类 型在高峰时时期每分钟话费钟话费 (超过过免费时长费时长 部分 ) OffPeak_rate低谷时时期话费话费该该种资费类资费类 型在低谷时时期每分钟话费钟话费 (超过过免费时长费时长 部分 ) Weekend_rate周末时时期话费话费该该种资费类资费类 型在周末时时期每分钟话费钟话费 (超过过免费时长费时长 部分 ) International_rate国际长际长途话费话费该该种资费类资费类 型国际长际长途电话电话每分钟话费钟话费 Voicemail语语音信箱语语信信箱收费费(未用) SMS短信服务务短信服务务收费费(未用) 资费数据资料 (共5条记录,9个变量) 电信行业数据挖掘 流失问题研究之数据理解 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 电信行业数据挖掘 流失问题研究之数据准备 把CDR月度数据汇总成6个月的总体数据 根据CDR数据生成各种不同的平均数据和组合数据 归并客户信息数据、CDR数据与话费数据 对客户现在付费类型的合理性进行简单分析 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 电信行业数据挖掘 流失问题研究之建模和评估 Kohonen聚类 Kmeans聚类 C5.0建立规则 C&RT决策树 Logistic回归模型 神经网络模型 对客户进行聚类分析,并比 较不同客户群流失可能性 建立规则,描述那些易于流 失的客户群的特征 建立打分模型,对客户流失 可能性(概率)进行评价 结论决策:流失概率高和低的都不管,关注中间层,范围多大? 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining Modeler 14.2 文件:数据理解_观察各种因素和流失的关系如何.str 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 文件:数据理解_各种费用比例和流失的关系.str 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 文件:建立模型_研究不同客户群流失情况.str 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 6. 案例分析 文件:建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str 建立模型:(1)利用数据训练集训练模型,看模型是否合适。 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 6. 案例分析 文件:建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str 建立模型 (2)利 用数据检 验集对已 经建立的 模型进行 查看,看 预估数据 与实际数 据是否吻 合,出错 比例大概 多少。 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 理解数据挖掘 应用/建模图 P1 aggregate cust call P2 value cust call plus E1 explore E2 ratios M1 churnclust cust info cdrtariff P3 split traintest M2 churnpredict D1 churnscore 图例: 数据 流 Model 电信数据挖掘流失应用 6. 案例分析 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 电信行业数据挖掘 流失问题研究之模型发布 对每个特定客户的流失可能性进行打分评估 写回数据库 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 您需要将您对数据挖掘结果是否达到业务成功标准的评估记录在案 。在报告中考虑以下问题: l 您的结果是否明确声明并且采用可以轻松展示的格式? l 是否存在应该突出强调的特别故事或独特的发现问题? l 您是否能够按照模型和发现的问题对于业务目标的适用顺序对他们 进行排序? l 总的来说,这些结果能在多大程度上满足您组织的业务目标? l 您的结果还引发了哪些其他问题?您将如何使用商业术语表述这些 问题? 评估完结果后,编辑汇总一个已批准的模型列表以包含在最终报告中。 此列表应该包含同时满足您组织的数据挖掘目标以及业务目标的那些模 型。 模型评估 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 如果要评估模型的准确度,则需要对一些记录进行评分,并将模型预测的响应 与实际结果进行比较。接下来对用于评估该模型的相同记录进行评分,以 将观察到的响应与预测响应进行比较。 1.表在名为 $R-Credit rating 的字段中显示预测分数,该字段由模型创建。我 们可以将这些值与包含实际响应的原始信用评价字段进行比较。 2.按照惯例,在评分过程中生成的字段的名称基于目标字段,但是要加上标 准前缀,例如 $R- 表示预测值,$RC- 表示置信度值。不同的模型类型使用 不同的前缀集。置信度值是模型自己的评估,尺度从 0.0 到 1.0,表示每个 预测值的精确程度。 3.与预期的一样,预测值与大多数(并非全部)记录的实际响应相匹配。原 因是每个 终端节点均有混合响应。预期值与最常见的响应相匹配,但对于 该节点中的其他响应,该预期值是错误的。(记住,16% 的少部分低收入 客户没有拖欠。) 4.若要避免出现此情况,应继续将树分割为更小的分支,直到每个节点都是 不含混合响应的 100% 纯节点为止即全部为优良或不良。但是,这样的 模型可能会非常复杂,并且不易推广到其他数据集。 模型评估 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 增益图 红线为“随机线”,即随机抽取总体数据的预测结果,是参照基线, $Best-流失评分线是“理想线”,即模型准确预测应得到的结果,中间三条即三个 模型的实际预测的累计增益结果。模型曲线越靠近理想线,与随机线包围面积越 大,模型的预测效果越好,上图三个模型均很靠近理想线。横轴表示总体数据的 百分比,图中可以看出,利用总体约45%的数据已经可以通过这三个模型达到接 近理想线的预测结果。 模型评估 安徽大学经济学院 The Economic School of Anhui University 数据挖掘 Data Mining 提升图 提升图与累计增益图解释类似,均是描述模型预测的准确性,它衡量与 不利用模型(即图中红色的基线)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论