




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Dataminingfordecisionsupportoncustomerinsolvencyintelecombusiness 第一部分 应用背景及客户需求分析 为什么要建立这样一个决策支持来区分无力偿还客户 情况描述 电信公司与其他服务提供公司一样 经常会遭受无力偿还客户 使用了所提供的服务却没有付费 尽管针对这些客户采取了一定的预防措施 然而在大多数情况下 这些措施显得太晚了 并且没有显著的作用 因此 一些客户逃脱付费的行为导致了公司财政遭受相当大的损失 解决方法 在电信行业垄断局面被打破的今天 各方面竞争日益激烈 侦测和预防此类行为对该行业来讲是个重要的目标 建立一个可以事先预测客户无力偿还行为的可用的模型 对服务供应商来说就意味着一个有用的决策支持工具 决定使用数据挖掘技术的原因 注意到电信公司收集到了大量的数据 这些数据涉及到公司与客户间交流的多个不同方面 这些数据可能包含了关于无力偿还预测的有价值的信息 比如 a 客户简介b 所使用的服务c 公司与客户间的经济联系 最终目标 与其他欺诈检测问题中的欺诈者相似 普遍认为无力偿还客户一般与其它客户表现不同 尤其是在该要付费的关键时期 目标 揭示这些行为模式 可以把无力偿还客户同其他的客户区别开来 一些固有难题 一些固有的限制使得该研究是一个特殊的难题 a 无力偿还客户的行为可归结为欺诈性结果或一些不从属客户意愿的因素 如不可抗力 社会因素 很明显我们要研究的是前者 因为预测后者是相当困难的 实际上 后者的存在使得对前者的确认变得相当困难 b 可获得的数据集 常常以一种有限而失真的方式表现各个客户 这是因为信息的来源只限于电信公司以及该公司所维护的关于客户的信息 由于各种道德和法律因素 这些信息不能和其他来源的信息相互联系 客户只是被表示为某些服务的使用者 而没有揭示其它可能影响客户行为模式或无力偿还行为的社会或财政方面的因素 c 在大量可用的数据中 可以定义许多参数 常常由主要的交易数据演绎而来 可以描述客户行为 绝大多数相关参数的选择对我们的问题来讲是个冗长乏味的过程 部分基于统计分析工具技术 部分基于相关研究人员对所给问题的参数重要性的理解 因此 确定这些参数的子集 并随后使用适当的工具来选出大部分相关参数是个关键的阶段 第二部分 类似应用问题的回顾 电信公司对无力偿还客户的预测和以下几个领域的欺诈检测问题相似 a 移动通讯b 常规通讯c 信用卡或名片操作 几个问题的共同点 a 提供服务的公司收入损失显著 超出了允许的毛差额 b 无法预测的人类行为给欺诈检测带来了相当大的困难 c 只有在处理了海量数据后才能获取信息 d 欺诈案例很少与合法的作比 第三部分 无力偿还检测 KDD过程的结果 KDD的9个步骤 1 问题定义和应用领域2 创建目标数据集3 数据清洗和预处理4 数据缩减和投影5 选择数据挖掘函数 6 选择数据挖掘算法7 实施数据挖掘8 解释结果9 利用发现的知识 1 问题定义和应用领域 无力偿还预测的功能 可预测拒绝在接下来的支付日拒绝支付电话帐单的无力偿还客户 以便于电信公司仍有时间采取预防措施 三个目标 为该公司设定的3个主要目标 1 检测到尽可能多的无力偿还客户2 最小化虚假警报 比如 有偿还力的客户被错判为无力偿还的客户3 及时对SP发出警告以便对可能的无力偿还者采取措施 帐单过程 BP 的时间序列图 研究项目的任务 调查研究如下的假设 无力偿还客户在BP结束及之前的一个关键时期内 他们的呼叫习惯和电话使用通常会发生变化 此外 呼叫习惯的改变和支护习惯的模式都被检验是否可以对未来的无力偿还行为进行安全的预测 2 建立一个目标数据集 客户行为可能由许多特征来描述 大部分不能简单的从信息系统和电信设备操作中获得 对本研究来讲 可得的两种数据 1 统计客户信息 客户资料 2 可提供帐单信息 支付行为和电话服务使用情况 CDR 的时间依赖数据 涉及的未加工数据 前提 数据被整合并保存在一个为此研究目标而构建的数据仓库中 在本研究中所涉及的未加工数据 来自客户资料的客户信息 来自交换中心的电话连接信息 来自帐单信息系统的帐单数据 来自帐单信息系统的客户支付报告 由于支付失败而引起的电话连接断开报告 支付后电话重新连接的报告 永久废弃合同的报告 数据来源情况 地域跨度 数据来自三个不同的地域 农村 半农村 工业区 城镇 数据量 三个数据的共100 000客户 时间跨度 17个月 即帐单数据从10 1999 2 2001 呼叫记录数据从8 1999 12 2000 总计有10GB的未加工数据 3 数据清洗和预处理 任务 评估所收集数据的质量 过虑掉对该研究无用的信息 找出数据仓库中各种数据项的内在联系 方法 1 去除低费用的电话呼叫 2 数据同步 4 数据缩减与投影 在统计推理的协助下 对一些特征进行和最终目标之间的相关测试 来揭示有区分力的特征 对此两类客户分类 而那些无区分力的特征就被去除了 在此阶段所做的统计测试 1 每个电话帐户都从属于23种中的某一种 使用chi square假设检验来核对不同类别的电话帐户对于两类客户的分布独立性 Reject2 计算两类客户的双月帐单的欠费平均数 且发现无力偿还客户的尤其高 该发现在所有的电话连接种类中是一致的 为证实此点实施了一项假设检验 两类客户和不同种类的帐户的平均欠费数是同质的 Reject 3 对特征 双月帐单的额外收费 在两类客户和不同种类帐户中的同质性实施假设检验 证明了两类用户间在此特征上差异显著 Reject4 对特征 分期付款 研究一个客户要求分期付款的次数 假设 两类客户中要求分期付款的客户的比例相同 被拒绝 证明在两类客户在此特征上有明显不同 Reject 5 定义数据挖掘功能及特征选择 预测客户是否是无力偿还客户可以视为一个分类问题 该问题具有以下特征 1 在原始数据集中 已知的帐户组中每个BP期间两类客户的分布非常不平均 大约有99 3 的有力偿还客户 0 7 的无力偿还客户 2 在数据集中无力偿还客户的绝对数目很小 因为在每个已知的BP期间只有几个无力偿还客户的case 3 如前所述 两类的错分引起的代价不同 解决方案 创建一个新的数据集 专用于数据挖掘功能 新数据集特性目标 创建一个有力偿还客户的代表性的样本 使得算法可以有效的训练 组成结构 两类用户的比例发生了变化 90 的有力偿还客户 10 的无力偿还客户 实现方法 保留原始数据集中所有无力偿还客户的例子 对有力偿还的客户进行层层抽样 依据一组3个特征 地理区域 电话连接类型 电话帐户组 用于层次化抽样 这3个特征在抽样中应该与在原始数据集中比例相同 使得a 保持3种不同的地域区别b 代表不同的电话连接c 减少电话帐户组的季节性影响 处理结果 两类客户在关键时期的平均付费单元数 6 选择分类算法 本研究使用的算法及结果如下 1 回归分析 给出了一个线性分类器 2 神经网络 给出了一个非线性分类器 3 决策树 给出了一个基于规则的分类器 我们实验中的依赖变量为描述顾客的SOLVENT 置为0 或INSOLVENT 置为1 7 数据挖掘实验的结果 为了测试和比较不同分类算法的性能 做了一些实验 实验所用数据集创建的数据集被分为了两部分 第一部分 含有2 3的例子 作为训练集 第二部分 含有1 3的例子 作为测试集 所做实验都采用该划分好的数据集 8 逐步回归分析 回归分析使用工具 SPSSVersion10 0 决策树 在回归分析阶段选出的17个变量作为决策树的输入 如前所述 2 3的数据用于训练以建立一个基于规则的分类器 余下的1 3用于测试生成的决策树 决策树的结点表示特征的测试 叶子表示可能的有力偿还和无力偿还客户 神经网络 利用后向传播算法 仍然使用回归分析中选出的17个变量作为训练网络的输入 对三种分类器结果的解释说明 从上表可以看出 对于第一个目标 最大化无力偿还客户的分类正确率 决策树的效果最好 对于第二个目标 最小化有力偿还客户的错分率 仍是决策树的效果最好 9 使用发现的知识 在case by case的比较中 每个case 一个客户 被分别检验 做法 如果三个分类器意见一致 则该case就被分类 否则 该case被认为无法分类 结果 虽然无力偿还客户的分类准确率下降了不少 但是有力偿还客户的错判警报改进了很多 从下表中可以看出 1866个有力偿还客户中 只有1个被错判的 在结果评估的最后一步 对被正确预测为无力偿还的客户所实际占有的帐目作了评估 第四部分 总结及未来研究方向 本文主旨 该长期研究项目目的是研究数据挖掘技术对于客户无力偿还问题在电信领域的特殊应用 然而 项目的发现远不止在该案例的研究领域的应用 出于一些原因考虑 该研究的成果是有重大意义的 1 该研究所用的数据 需求和目标的设置 以及实验的规模 都是来自真实世界的问题 2 实验规模相当的大 MB级的数据量 3 构建了一个 知识发现数据项目 并从始至终完整的执行 4 在初始阶段 需要多种工具和专家的直觉来定义数据集特征 选择合适的变量描述需求模型特征 数据挖掘过程总结 数据挖掘是个多步的过程 使用多种算法 最后选择最好最合适该数据集的算法 1 实施特征选择 用回归分析中的逐步前向选择 在这个阶段 46个变量被减至17个 2 选出的特征被用于构造基于决策树和后向传播的神经网络算法的分类器 大致上三种算法性能相差不大 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单人住宿改造方案(3篇)
- 公司疫情防御管理制度
- 厂内特种机械管理制度
- 工厂改造防尘方案(3篇)
- 推销计划方案文案(3篇)
- 工地现场垃圾管理制度
- 华为软件资产管理制度
- DB62T 4316-2021 岷山猫尾草规范
- DB62T 4462-2021 小麦品种 兰天33号
- 小型活动安保方案(3篇)
- 《脑出血护理》课件
- 习惯性违章行为培训课件
- 北京师范大学珠海分校《学校心理学》2021-2022学年第一学期期末试卷
- (TCSEB 0011-2020)《露天爆破工程技术设计规范》
- 2025年煤矿井下作业安全员理论全国考试题库(含答案)
- 《化工新材料生产技术》课件-知识点2 聚碳酸酯生产工艺流程
- 电力安全工作规程-变电部分
- 工程绿化合同范例
- 高素质农民培训课程设计
- 2024年广东省深圳市南山区学府中学中考英语四模试卷
- 铁路基础知识题库单选题100道及答案解析
评论
0/150
提交评论