




免费预览已结束,剩余7页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XX 电信经营分析与决策支持系统二期电信经营分析与决策支持系统二期 数据挖掘分析数据挖掘分析 1 前言前言 小灵通用户是 XX 电信企业利润的主要来源之一 也是市场竞争的焦点 在目前的市场形势下 发展新客户的成本远远大于留住已有客户的成本 因此 加强对小灵通用户的营销和服务工作 减少小灵通用户的流失 是 XX 电信的 重要任务 目前在 XX 电信经营分析与决策支持系统中 存在对离网小灵通数 据的事后分析 但是这样的分析无法做到提前预警 挽留用户 利用数据挖掘 技术则可以发现离网小灵通用户的潜在模式 提前进行预测 从而变被动服务 为主动服务 CRISP DM cross industry standard process for data mining 是 一个跨行业的 以用户为中心 交互式的数据挖掘标准流程 是目前数据挖掘 领域内较成熟的方法论 它将数据挖掘过程分为商业理解 数据理解 数据准 备 建立模型 模型评估和结果部署等 6 个阶段 本挖掘分析遵循数据挖掘标 准流程 讨论小灵通用户流失预测模型建立的方法和过程 并对预测结果进行 分析 以帮助业务人员及时 准确地做出针对性营销服务 2 后付费小灵通用户离网预测后付费小灵通用户离网预测 2 1 理解理解 商业理解是从业务角度来理解数据挖掘的目标和要求 再转化为数据挖掘 问题 本挖掘分析的目标确定为 针对目前在网的后付费小灵通数据进行离网 概率的预测 该目标涉及后付费小灵通用户和离网两个概念 其中 后付费小 灵通在业务系统中已有标识 离网的用户定义为主动及被动拆机用户 2 2 数据理解数据理解 数据理解的任务是对原始数据进行收集和熟悉 检查数据质量 对数据进 行初步探索 并发现可能存在的 有分析价值的数据特征 以形成对隐藏信息 的假设 2 1 1研究对象选取研究对象选取 以全省 2007 年 1 月离网的后付费小灵通用户为研究对象 同时选取同期 在网的后付费小灵通用户作为对照研究对象 确定离网时间点为 2007 年 1 月 因此对后付费小灵通用户从 2006 年 7 月至 12 月共 6 个月的相关变量进行研究 离网用户的选取 选取 2006 年 7 月前入网 2007 年 1 月内拆机的用户 共选出满足条件的用户 31862 名 在网客户的选取 2006 年 7 月前入网 2007 年 1 月 31 日状态为正常的后付费小灵通用户共 1805006 名 同时 为避 免一些偏差数据的影响 在用户的选择中屏蔽了公免后付费小灵通用户 2 1 2变量选取变量选取 基本假设 后付费小灵通用户的行为在年度上不存在强的季节性 即后付 费小灵通用户的行为特征和离网影响变量不会因为处于一年中的不同月份 季 度 而发生较大变化 根据对业务的理解 选定以下 3 方面的变量进行数据理解 1 后付费小灵通用户产品订购数据 主要反映用户与服务商关系的数据 如产品类型 在网时长 订购增值业务信息 是否加入套餐等 2 用户消费行为特征数据 主要通过用户每月帐务数据反映 且这类数据 可以从平均水平和变动情况 2 个方面来反映 本挖掘分析采用离网时 间前 6 个月 用户的帐务数据变化情况来反映用户消费行为的变动 主要数据包括 用户 6 个月的收入 平均月租费 市话费 传统长话 费 IP 长话费 以及用户平均月租费占总费用的比例 6 个月总收入 波动率 最大收入 最小收入 平均收入 等 3 用户其他行为特征数据 如欠费时长 累计欠费金额等 2 2 数据准备数据准备 数据准备阶段初步完成变量的选择和导出变量的生成 同时对一些存在数 据质量问题的字段进行相应的处理 首先按照选取的数据范围和变量生成数据 如下图结构 在 Clementine 中对数据进行实例化分析 数据结果如下所示 1 后付费小灵通用户产品订购数据 主要反映用户与服务商关系的数据 如产品类型 在网时长 订购增值业务信息 是否加入套餐等 此部 分数据来自于 97 系统用户资料 经检测 除入网时长外 这些数据 准确度较高 无缺失值和偏差值 从上图可看出 入网时长取值范围 为 6 个月到 24071 个月 很明显 存在错误数据 故将超过入网时长 在 180 个月 15 年 以上的用户 共 3314 个 定义为入网时长 180 个月 因总数据量大 此操作直接在数据库中进行 2 用户消费行为特征数据 主要包括 用户 6 个月的收入 平均月租费 市话费 传统长话费 IP 长话费 以及用户平均月租费占总费用的比 例 6 个月总收入波动率 最大收入 最小收入 平均收入 等 经 数据质量核查 发现有部分用户 6 个月收入都为 0 这些数据 共 88322 条记录 中 绝大部分是由于 97 计费系统资料不统一造成 少量是由于用户长期欠费 造成停机 不产生费用 这些数据由于特 征值相同 对模型会造成偏差影响 故直接删除这些数据 3 用户其他行为特征数据 如欠费时长 累计欠费金额等 经核查 数据 较准确 不进行任何处理 进行上述处理后 数据质量报告如下 2 3 建立模型建立模型 在建立模型过程中 将根据实际模型的效果对变量做进一步的筛选和处理 既保证模型准确率 又尽量减少最终模型输入的变量 便于业务解释 离网预 测模型的准确率 在技术上主要包含预测命中率和预测覆盖率 2 个指标 其中 预测命中率表示在被预测出离网的客户当中 实际离网所占的比率 它是描述 模型精确性的指标 预测覆盖率表示在实际离网客户中 被预测出为离网的客 户所占的比率 它是描述模型普适性的指标 从业务的角度来说 对离网用户 的预测是尽可能地将存在离网倾向的后付费小灵通用户预测出来 以便能及时 采取措施进行挽留 因此 要求在控制预测命中率的前提下尽量提高模型的预 测覆盖率 2 3 1变量筛选变量筛选 首先选择除主体产品实例标识 业务接入号 本地网代码 拆机标志外的 所有字段作为模型的输入变量 拆机标志作为输出变量 类型节点定义如图 分别生成神经元网络 C5 0 Logistic 回归模型 如图 对生成的模型进行实际值和预测值比较 得出结果如下 图中纵坐标表示 实际离网情况 横坐标表示预测离网情况 以上三个模型 命中率和覆盖率分别是 神经元网络模型 命中率 79 01 覆盖率 74 36 C5 0 模型 命中率 90 25 覆盖率 84 02 Logistic 回归模型 命中率 79 36 覆盖率 72 61 从以上分析可以看出 这 3 种模型均达到较理想的状态 尤其是 C5 0 模 型 命中率超过 90 但是模型中用到了所有的变量 不利于业务理解和解释 对这三种模型进行详细分析 进行变量筛选 神经元网络变量关联度图 Logistic 回归关联图 C5 0 模型树 对三种模型中 变量关联度与重要性进行筛选 最终确定以下变量作为最 终模型变量 入网时长 定购增值业务个数 是否加入套餐 平均月租费 平均月租费 占比 平均市话费 平均长话费 平均 IP 长话费 总收入波动率 2 3 2建立模型和模型参数调整过程建立模型和模型参数调整过程 以筛选后的变量作为输入 分别建立神经网络模型 C5 0 模型和 Logistic 回归模型 类型节点定义如下 神经网络模型评估 命中率 70 62 覆盖率 80 19 C5 0 模型评估 命中率 86 33 覆盖率 84 60 Logistic 回归模型评估 命中率 70 18 覆盖率 87 02 从以上建立模型的过程中发现 不同的模型达到的准确率 命中率和覆盖 率 都比较高 能够达到业务上的要求 实际应用中 可以根据具体需要选择使 用不同的模型 2 4 模型评估模型评估 从技术角度来看 建立的神经网络模型 C5 0 模型和 Logistic 回归模型 中 C5 0 模型的综合准确率最高 但是与其它模型的准确率相比并无大的差异 从业务角度来看 由于目前竞争激烈 小灵通用户是企业利润的关键 业务人 员最关注的是能够尽可能多地获取可能离网的小灵通用户的信息 即要求预测 模型的覆盖率尽可能高 其次的要求才是保证模型的命中率 因此 在实际应用过程中 可以将利用神经网络 C5 0 Logistic 回归 模型预测出的离网用户 都作为可能离网的用户 以尽量提高模型的覆盖率 从模型评估结果来看 模型的覆盖率达到了 87 02 而模型的命中率也达到 了 86 33 2 5 结果发布结果发布 结果部署的目标是将预测模型生成的结果以一定的形式展现给业务人员使 用 因此 应当从业务的角度来关注模型发布的形式 后付费小灵通用户离网预测模型的预测结果主要包括 给出具体的离网用 户的名单 针对预测出可能离网的用户 给出其离网可能性的量化指标 即离 网概率 这些结果是针对单个用户的 可以以列表的形式提供给业务人员 采 取一对一的服务 如果是采用决策树 C5 0 算法建立模型 还可以得到离网用户的特征描 述 但由于其中特征描述是以规则的形式表现的 过于技术化 很难从业务角 度加以理解和解释 也不适合业务人员获取真正的离网用户的特征信息 因此 在分析离网用户特征时 考虑以预测出的离网用户为研究对象 将输入模型的 变量作为分析角度 利用多维联机分析处理 MOLAP 技术辅助业务人员获取离 网用户的群体特征 得出定性的结论 从而采取有针对性的挽留措施 2 6 总结总结 本文遵循数据挖掘标准流程 CRISP DM 介绍了后付费小灵通离网预 测模型的建立过程 建立的预测模型的准确率能够满足业务人员的需求 但是 仍存在一定的局限性 一方面 在数据准备过程中 将满足条件的数据随机地 拆分成了训练集和检验集 训练集用于模型的训练 而检验集用来判断模型效 果的好坏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 森林防灭火知识培训简讯课件
- 森林管护培训课件
- 森林消防知识培训
- 森林安全知识培训简报课件
- 2.1住宿革新乡宿品牌的打造与推广2024040376课件
- 2025年新闻媒体行业编辑岗位招聘笔试预测试题集
- 2025年PMP项目经理认证考试题库及答案
- 2025教师资格考试题库及答案
- 2025年建筑设计师招聘考试模拟题及解题技巧
- 2025年边防巡逻员招聘面试常见问题与答案
- 《分娩指导及助产技巧》课件
- 图像数据采集与处理方法-洞察分析
- 云南省昆明市官渡区2023-2024学年九年级上学期期末语文试卷(解析版)
- JTGT 3832-2018 公路工程预算定额 说明部分
- (新)旅行社部门设置及其职责
- 酒店会议服务标准流程作业指导书
- 网络攻防原理与技术 第3版 教案 -第12讲 网络防火墙
- 第一响应人应急培训
- 初中数学七年级上册思维导图
- 《认识感官》课件
- 工程伦理课程课件
评论
0/150
提交评论