第四篇-电信客户流失影响因素与预测分析_第1页
第四篇-电信客户流失影响因素与预测分析_第2页
第四篇-电信客户流失影响因素与预测分析_第3页
第四篇-电信客户流失影响因素与预测分析_第4页
第四篇-电信客户流失影响因素与预测分析_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信客户流失影响因素与预测分析电信客户流失影响因素与预测分析 一 一 引言引言 目前电信运营商面临着激烈的市场竞争 对电信运营商来说 客户即生命 如何保持 现有客户是企业客户管理的重中之重 因此 电信运营商拥有的客户越多 作为主要成本 的前期投资就会越大 企业的利润也就越大 客户资源对于电信运营商来说其意义不言而 喻 电信运营商之间的竞争实际上就是对客户资源的竞争 可以说 未来的电信行业 得 客户者得天下 当今电信市场竞争激烈 运营商每月客户流失率在 1 3 挽留将要流失客户 降低客 户流失率是近年来热门的研究领域 而数据挖掘技术是解决这一问题的有效途径 本文使用 IBM Spss Clementine IBN SPSS Modeler 进行数据挖掘与分析 深入了解电信客户流失 的关键 以对该类客户的行为特性进行预警分析 采取针对性的措施改善客户关系 避免 客户流失或者挽留客户 二 二 问题分析问题分析 根据已有的结果 流失客户 在数据中直接有判别数据有没有流失的字段 churn 寻找他们流失的原因 即流失客户的特征 通过数据处理 统合数据 根据以前拥有的客 户流失数据建立基本属性 服务属性和客户消费数据与客户流失可能性的数据模型 找出 其潜在的关系 分析出客户流失的因素 计算出客户流失的可能性 预测客户是否流失的 可能性 对于客户的基本数据 客户行为数据及消费数据 进行数据挖掘 研究已流失客户数 据 从中找出先前未知的 对企业决策有潜在价值的知识和规则 发掘潜在流失客户 让 企业适时把握住市场及客户动态 掌握客户流失的规律 三 三 算法简介算法简介 3 13 1 分类分析分类分析 分类就是找出一个类别的概念描述 它代表了这类数据的整体信息 即该类的内涵描 述 并用这种描述来构建模型 一般用规则或决策树模式表示 分类是数据挖掘的主要方 法 分类模型能很好地拟合训练样本集中属性集与类别之间的关系 也可以预测一个新样 本属于哪一类 分类技术已经在很多领域得到成功应用 如医疗诊断 客户流失预测 信 用度分析 客户分群和诈骗侦测 常见的分类方法有贝叶斯分类 Bayesian 神经网络 2 neural networks 遗传算法 genetic algorithms 和决策树分类器 decision trees 在这些分类方法中 决策树分类器在大规模的数据挖掘环境中已经获得了最为广 泛的应用 3 23 2 决策树演算法决策树演算法 决策树演算法是在进行数据挖掘时经常使用的分类和预测方法 一个决策树的架构 是由三个部分所组成 叶节点 Leaf Node 决策节点 Decision nodes 以及分支 决策树演算法的基本原理为 通过演算法中所规定的分类 条件对于整体数据进行分类 产生一个决策节点 并持续依照演算法规则分类 直到数据 无法再分类为止 3 33 3 决策树演算法的比较决策树演算法的比较 决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算 法 在 IBM SPSS Modeler 中 主要提供了四种常用的决策树演算法供使用者选择 分别 为 C5 0 CHAID QUEST 以及 C R Tree 四种 使用者可依据数据类型以及分析需求的不 同 选择适当的决策树演算法进行分析 虽然不同的决策树演算法有各自适用的数据类型 以及演算架构等差异 但概括来说 决策树的主要原理均为通过演算法所定义的规则 对 数据进行分类 以建立决策树 鉴于篇幅所限 以下部分将会针对这四类决策树演算法进 行简单的介绍和比较 而详细演算法原理将不会在本文中详述 3 43 4 决策树的几大优点决策树的几大优点 第一 与神经网络和贝叶斯分类器相比 决策树提供非常直观的描述 这种描述易于被吸 收 转化为标准的数据库查询 第二 训练神经网络模型时要花费大量的时间 要进行大量的重复操作 与之相比决策树 效率要高很多 适合于大的训练集 第三 决策树生成算法除了训练集中包含的信息外不需要附加的信息 即领域知识或类标 签以前的分布情况 第四 决策树有着可比的或更高的准确率 在使用决策树演算法进行分析之前 首要工作就是选择适当的演算法 一般来说 会 根据所要分析数据的特性以及数据型态等选择初步的演算法 接下来再通过比较初步筛选 的决策树分析出来的结果 选择最适合的决策树演算法 四 四 实验与分析实验与分析 4 14 1 数据准备数据准备 数据来源 电信客户流失数据 sav 共有 8 个字段 1000 个记录 数据有 8 个字段 其中包含一些客户个人信息 例如年龄 教育程度 退休 性别和 客户类别 还包含一些客户使用电信服务信息 有附加服务 基本服务 上网服务和所有 服务 以及客户的上网月数 这里老师我不会把 sav 格式转换成 xlsx 格式的 所以用的 还是原来的那个 1000 个记录的 但是我把样本抽样选择了前 200 了 由于我用前 200 的 3 样本数据进行数据挖掘 发现挖掘出来的结果完全失去了真实性 与现实不符合 所以我 还是将数据样本量改成了 1000 了 为了保证我做出数据挖掘预测结果的真实性 因为我不 能将数据修改 所以下面我使用了分区将数据分为训练 测试以及验证 为了展示预测数 据的结果 以下为部分数据的截图 4 24 2 参数设置参数设置 目标变量表示了数据挖掘的目标 在客户流失分析中目标变量通常为客户流失状态 churn 输入变量用于在建模时作为自变量寻找与目标变量之间的关联 我们主要从客户种类 信息 客户在网月数信息 客户基本信息 年龄 性别 教育水平 家庭人数等 客户的 工作年限信息 客户的退休信息这几方面选取输入变量 4 34 3 挖掘过程挖掘过程 4 3 14 3 1 读取数据读取数据 SPSS Modeler 中需要根据数据档案格式 来选择不同的源节点读取数据 本篇文章中 我们使用的数据档案格式为 sav 档 因此我们将使用 Statistics 文件节点 在节点设定 方面 文件标签下我们先读入数据 电信客户流失数据 sav 接着勾选读取名称和标签以 及读取数据和标签 以下为读取数据截图 4 4 3 24 3 2 数据类型定义数据类型定义 为了产生决策树模型 我需要在数据建模前就定义好各栏位的角色 也就是加入字段 选项下的 类型 节点 将类型节点拉入串流后 我会先点选读取值按钮 接着设定角色 是否流失 churn 是我最后预测的目标 因此先将其角色设定为 目标 余下的栏位则是 要设定为 输入 4 3 34 3 3 数据分区数据分区 为了在训练出模型后能够分析模型准确度 在此我加入字段选项下的分区节点 将数 据分为 50 训练数据 40 测试数据以及 10 验证数据 在分区节点的编辑页中 点选预览 5 可发现每笔数据已经多出了一个栏位 分区 栏位中的值被随机归类为 1 训练 2 测试 以及 3 验证 让决策树节点可判别是否要使用此资料做为训练数据 测试 数据以及验证数据 在完成资料分区后 我已经完成数据准备 可以套用决策树模型节点 了 4 3 44 3 4 决策树节点设定决策树节点设定 SPSS Modeler 共提供四种决策树节点建模 包括 C5 0 C R 树 Quest 和 CHAID 考量到数据特性以及我希望提供的决策树具有多元分类法 因此我将建立 C5 0 和 CHAID 两种分类模型 1 C5 0 节点设定 将 C5 0 节点与类型节点连结后 我将于此节点编辑页面中的模型标签下设定相关的 变数 以下为各变数的详细介绍 此定义来自 SPSS Modeler 15 Modeling Nodes 文件 使用分区数据 如果定义了分区字段 则此选项可确保仅训练分区的数据用于构建模 型 为每个分割构建模型 给指定为分割字段的输入字段的每个可能值构建一个单独模型 输出类型 在此指定希望结果模型块是决策树还是规则集 组符号 如果选中此选项 C5 0 将试图组合输出字段中具有相似样式的符号值 如果 未选中此选项 C5 0 将为用于分割父节点的符号字段的每个值创建一个子节点 使用 boosting C5 0 算法有一个特殊的方法用于提高其准确率 称为 boosting 它 的工作原理是在序列中构建多个模型 第一个模型按常规方式进行构建 构建第二个模型 时 将焦点集中于由第一个模型误分类的记录 构建第三个模型时 将焦点集中于第二个 模型的错误 依此类推 最后 通过将整个模型集应用到观测值 并使用加权投票过程将 单独的预测组合为一个总预测来分类观测值 推进可以显着提高 C5 0 模型的准确性 但 也需要更长的训练时间 通过试验次数选项可以控制在推进模型过程中使用的模型数目 交互验证 如果选中此选项 C5 0 将使用一组模型 根据训练数据的子集构建 来估 计某个模型 根据全部数据集构建 的准确性 专家模式 修剪严重性 确定对决策树或规则集的修剪程度 增加该值可获得一个更 简洁的小型树 减小该值可获得一个更精确的树 专家模式 每个子分支的最小记录数 可使用子组的大小限制树的任何分支中的分割 数 仅当两个或多个生成的子分支中至少包含从训练集合得到的这一最小记录数时 才可 分割树的分支 默认值为 2 以下为创建 C5 0 节点的截图 6 2 CHAID 节点设定 将 CHAID 节点与分区节点连结后 我将于此节点编辑页面中的模型标签下设定相关的 变数 由于 CHAID 节点设定较多 介绍一些变数 此定义来自 SPSS Modeler 15 Modeling Nodes 文件 最大树深度 指定根节点以下的最大级数 递归分割样本的次数 修剪树以防止过拟合 修剪包括删除对于树的精确性没有显着贡献的底层分割 修剪 有助于简化树 使树更容易被理解 在某些情况下还可提高广义性 停止规则 设置最小分支大小可阻止通过分割创建非常小的子组 如果节点 父 中 要分割的记录数小于指定值 则父分支中的最小记录数 将阻止进行分割 如果由分割创建 的任意分支 子 中的记录数小于指定值 则 子分支中的最小记录数 将阻止进行分割 以下为创建 CHAID 节点的截图 7 3 C R 树节点设定 将 C R 树 节点与分区节点连结后 我将于此节点编辑页面中的模型标签下设定相关 的变数 由于 C R 树节点设定较多 介绍一些变数 此定义来自 SPSS Modeler 15 Modeling Nodes 文件 修剪树以防止过拟合 修剪包括删除对于树的精确性没有显著贡献的底层分割 修剪 有 助于简化树 使树更容易被理解 在某些情况下还可提高广义性 如果需要完整的未经 修剪的树 请保持此项处于未选中状态 大风险差值 标准误 通过此选项可指定更自由的修剪规则 标准误规则使算法 能 够选择简单的树 该树的风险评估接近于 但也可能大于 风险小的子树 的风险评估 此 值表示在风险评估中已修剪树和风险小的树之间所允许的风险 评估差异大小 例如 如果 指定 2 则将选择其风险评估 2 标准误 大于完 整树的风险评估的树 大代用项 代用项是用于处理缺失值的方法 对于树中的每个分割 算法都会对 与选 定的分割字段相似的输入字段进行识别 这些被识别的字段就是该分割的代用 项 当必须 对某个记录进行分类 但此记录中的分割字段中具有缺失值时 可以使用 代用项字段的值 填补此分割 增加此设置将可以更加灵活地处理缺失值 但也会导致 内存使用量和训练时 间增加 以下为创建 C R 树节点的截图 8 4 44 4 结果展示结果展示 生成决策树模型 决策树节点设定完成后 点击主工具列的运行当前流前即可看到三个决策树模 型的产生 双击决策树模型则可看到模型结果 而我们最主要要观察的是模型 标签及查看器标签下的内容 模型标签内容如图所示 左栏位使用文字树状展 开 表现每一阶层的分类状况及目标变数的模式 右栏位则是整体模型预测变 量的重要性比较 我也将会根据变量重要性调整模型设定 变数选择 持续的 训练出较佳的模型 查看器标签则是将一样的决策树结果用树状图的方式展现 1 C5 0 法 9 10 2 CHAID 法 11 3 C R 树法 12 决策树流示意图 如下截图 五 五 结果分析结果分析 5 15 1 比较决策树模型分析结果比较决策树模型分析结果 正确率 由于各决策树的演算法不同 最后的分枝结果以及预测的准确性亦不同 本文使用 C5 0 CHAID 及 C R 树三种决策树节点 C R 树图省略 因为 CHAID 图相近 其预测正确率 如下图所示 从结果来看 C5 0 的正确率都高于 CHAID 及 C R 树 因此接下来我们会使 用 C5 0 结果为主 进一步观察实际值与预测值的重合矩阵 可发现模型预测正确的准确 性远高于预测错误的准确性 以 C5 0 测试数据来看 1 训练 正确的预测准确性为 84 8 远大于错误的 15 2 2 测试 正确的预测准确性为 71 43 远大于错误的 28 57 3 验证 正确的预测准确性为 73 远大于错误的 27 C5 0 法 13 变量重要性变量重要性 C5 0 与 CHAID 模型的变量重要性如图下所示 C R 树图省略 因为与 CHAID 图相近 比较左边与右边的图可发现 尽管变量重要性的排序两个模型相差不是特别大 前三个一 样 不过在重要性的大小上不一样 但是最重要的三个分析变量在网月数 tenure 教 育水平 ed 和当前工作年限 employ 相同 且都比其他变量相对重要许多 而客户种 类 custcat 和家庭人数 reside 则不一样 CHAID 法 14 5 25 2 解读预测结果解读预测结果 预测规则 C5 0 决策树模型产生许多预测规则 而大部分的预测结果如同实际数据一样 都是顾客流 失了 为了降低顾客的流失率率 电信的员工可由这些规则来筛选目标 SPSS Modeler 提 供的决策树结果 包括了分类结果 实例数字和置信度 当分类的实例置信度较高 则可 导出预测规则 1 是流失 0 是没有流失 以下图为例 其中之一的规则为 employ 当 前工作年限 3 模式 0 其预测结果是没有流失 实例数字为 11 笔数据符合 C5 0 法 CHAID 法 15 其中 72 7 被正确预测 同样 ed in 4 5 教育水平为学士和硕士 模式 1 其预测结果是流失 实例数字为 23 笔数据符合 其中 78 3 被正确预测 六 六 方案与对策方案与对策 电信业的竞争重点集中在对大客户市场的争夺 这一竞争态势迫切要求各大电信运营 商将更多的精力投入到大客户市场 做好大客户的培育 巩固和回流工作 这三个方面的 工作是相互促进 相互补充的 讲究大客户的回流工作而言 可采取以下措施以尽可能地 是大客户的流失率降低 1 开展品牌工程建设 实施品牌经营 向客户宣传推广产品 品牌服务 培养品牌消费者 品牌工程建 设是一项长期性 战略性的工作 电信运营商要本着立足长远 着眼未来的原则 将 企业业务经营

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论