版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Data mining for decision support on customer insolvency in telecom business第一部分应用背景及客户需求分析应用背景及客户需求分析为什么要建立这样一个决策支持来为什么要建立这样一个决策支持来区分无力偿还客户?区分无力偿还客户?n情况描述:n电信公司与其他服务提供公司一样,经常会遭受无力偿还客户(使用了所提供的服务却没有付费)。尽管针对这些客户采取了一定的预防措施,然而在大多数情况下,这些措施显得太晚了,并且没有显著的作用。因此,一些客户逃脱付费的行为导致了公司财政遭受相当大的损失。解决方法解决方法n在电信行业垄断局面被打破
2、的今天,各方面竞争日益激烈,侦测和预防此类行为对该行业来讲是个重要的目标。建立一个可以事先预测客户无力偿还行为的可用的模型,对服务供应商来说就意味着一个有用的决策支持工具。决定使用数据挖掘技术的原因决定使用数据挖掘技术的原因n注意到电信公司收集到了大量的数据,这些数据涉及到公司与客户间交流的多个不同方面,这些数据可能包含了关于无力偿还预测的有价值的信息。比如:na)客户简介nb)所使用的服务nc)公司与客户间的经济联系最终目标最终目标n与其他欺诈检测问题中的欺诈者相似,普遍认为无力偿还客户一般与其它客户表现不同,尤其是在该要付费的关键时期。n目标:n揭示这些行为模式,可以把无力偿还客户同其他的
3、客户区别开来。一些固有难题一些固有难题n一些固有的限制使得该研究是一个特殊的难题。na)无力偿还客户的行为可归结为欺诈性结果或一些不从属客户意愿的因素(如不可抗力、社会因素)。很明显我们要研究的是前者,因为预测后者是相当困难的,实际上,后者的存在使得对前者的确认变得相当困难。nb)可获得的数据集,常常以一种有限而失真的方式表现各个客户。这是因为信息的来源只限于电信公司以及该公司所维护的关于客户的信息。由于各种道德和法律因素,这些信息不能和其他来源的信息相互联系,客户只是被表示为某些服务的使用者,而没有揭示其它可能影响客户行为模式或无力偿还行为的社会或财政方面的因素。nc)在大量可用的数据中,可
4、以定义许多参数,常常由主要的交易数据演绎而来,可以描述客户行为。绝大多数相关参数的选择对我们的问题来讲是个冗长乏味的过程,部分基于统计分析工具技术,部分基于相关研究人员对所给问题的参数重要性的理解。因此,确定这些参数的子集,并随后使用适当的工具来选出大部分相关参数是个关键的阶段。第二部分类似应用问题的回顾类似应用问题的回顾n电信公司对无力偿还客户的预测和以下几个领域的欺诈检测问题相似。na)移动通讯nb)常规通讯nc)信用卡或名片操作n几个问题的共同点:na)提供服务的公司收入损失显著,超出了允许的毛差额。nb)无法预测的人类行为给欺诈检测带来了相当大的困难。nc)只有在处理了海量数据后才能获
5、取信息。nd)欺诈案例很少与合法的作比。第三部分 无力偿还检测无力偿还检测 KDD过程的结果过程的结果KDD的9个步骤n1)问题定义和应用领域n2)创建目标数据集n3)数据清洗和预处理n4)数据缩减和投影n5)选择数据挖掘函数?n6)选择数据挖掘算法n7)实施数据挖掘n8)解释结果n9)利用发现的知识1)问题定义和应用领域)问题定义和应用领域n无力偿还预测的功能:n可预测拒绝在接下来的支付日拒绝支付电话帐单的无力偿还客户,以便于电信公司仍有时间采取预防措施。三个目标三个目标n为该公司设定的3个主要目标:n1)检测到尽可能多的无力偿还客户n2)最小化虚假警报,比如:有偿还力的客户被错判为无力偿还
6、的客户n3)及时对SP发出警告以便对可能的无力偿还者采取措施。帐单过程(帐单过程(BP)的时间序列图)的时间序列图研究项目的任务研究项目的任务n调查研究如下的假设:n无力偿还客户在BP结束及之前的一个关键时期内,他们的呼叫习惯和电话使用通常会发生变化。此外,呼叫习惯的改变和支护习惯的模式都被检验是否可以对未来的无力偿还行为进行安全的预测。2)建立一个目标数据集)建立一个目标数据集n客户行为可能由许多特征来描述,大部分不能简单的从信息系统和电信设备操作中获得。n对本研究来讲,可得的两种数据:n1.统计客户信息(客户资料)n2.可提供帐单信息,支付行为和电话服务使用情况(CDR)的时间依赖数据。涉
7、及的未加工数据涉及的未加工数据n前提:数据被整合并保存在一个为此研究目标而构建的数据仓库中。n在本研究中所涉及的未加工数据: 来自客户资料的客户信息 来自交换中心的电话连接信息 来自帐单信息系统的帐单数据 来自帐单信息系统的客户支付报告 由于支付失败而引起的电话连接断开报告 支付后电话重新连接的报告 永久废弃合同的报告数据来源情况数据来源情况n地域跨度: 数据来自三个不同的地域,农村、半农村、工业区/城镇。n数据量:三个数据的共100,000客户。n时间跨度:17个月,即 帐单数据从 10/19992/2001; 呼叫记录数据从 8/199912/2000。总计有总计有10GB的未加工数据!的
8、未加工数据!3) 数据清洗和预处理数据清洗和预处理n任务:任务: 评估所收集数据的质量,过虑掉对该研究无用的信息,找出数据仓库中各种数据项的内在联系。n方法:方法: 1.去除低费用的电话呼叫。 2.数据同步。4) 数据缩减与投影数据缩减与投影n在统计推理的协助下,对一些特征进行和最终目标之间的相关测试,来揭示有区分力的特征,对此两类客户分类。而那些无区分力的特征就被去除了。在此阶段所做的统计测试在此阶段所做的统计测试n1.每个电话帐户都从属于23种中的某一种。使用chi-square假设检验来核对不同类别的电话帐户对于两类客户的分布独立性。Rejectn2.计算两类客户的双月帐单的欠费平均数,
9、且发现无力偿还客户的尤其高。该发现在所有的电话连接种类中是一致的。为证实此点实施了一项假设检验:两类客户和不同种类的帐户的平均欠费数是同质的。 Rejectn3. 对特征“双月帐单的额外收费”在两类客户和不同种类帐户中的同质性实施假设检验。证明了两类用户间在此特征上差异显著。Rejectn4.对特征“分期付款”研究一个客户要求分期付款的次数。假设“两类客户中要求分期付款的客户的比例相同”被拒绝。证明在两类客户在此特征上有明显不同。Reject5) 定义数据挖掘功能及特征选择定义数据挖掘功能及特征选择n预测客户是否是无力偿还客户可以视为一个分类问题,该问题具有以下特征:n1.在原始数据集中,已知
10、的帐户组中每个BP期间两类客户的分布非常不平均,大约有99.3%的有力偿还客户,0.7%的无力偿还客户。n2. 在数据集中无力偿还客户的绝对数目很小,因为在每个已知的BP期间只有几个无力偿还客户的case。n3.如前所述,两类的错分引起的代价不同。解决方案解决方案n创建一个新的数据集,专用于数据挖掘功能。n新数据集特性新数据集特性n目标:创建一个有力偿还客户的代表性的样本,使得算法可以有效的训练。n组成结构:两类用户的比例发生了变化,90%的有力偿还客户,10%的无力偿还客户。n实现方法:保留原始数据集中所有无力偿还客户的例子,对有力偿还的客户进行层层抽样。依据一组3个特征(地理区域,电话连接
11、类型,电话帐户组)用于层次化抽样。这3个特征在抽样中应该与在原始数据集中比例相同,使得 a)保持3种不同的地域区别 b)代表不同的电话连接 c)减少电话帐户组的季节性影响处理结果处理结果 两类客户在关键时期的平均付费单元数两类客户在关键时期的平均付费单元数6) 选择分类算法选择分类算法n本研究使用的算法及结果如下: 1.回归分析,给出了一个线性分类器。 2.神经网络,给出了一个非线性分类器。 3.决策树,给出了一个基于规则的分类器。n我们实验中的依赖变量为描述顾客的SOLVENT(置为0)或INSOLVENT(置为1)。7) 数据挖掘实验的结果数据挖掘实验的结果为了测试和比较不同分类算法的性能
12、,做了一些实验。n实验所用数据集实验所用数据集n创建的数据集被分为了两部分: 第一部分,含有2/3的例子,作为训练集; 第二部分,含有1/3的例子,作为测试集。 所做实验都采用该划分好的数据集。8) 逐步回归分析逐步回归分析n回归分析回归分析 使用工具:SPSS Version 10.0决策树决策树n在回归分析阶段选出的17个变量作为决策树的输入。如前所述,2/3的数据用于训练以建立一个基于规则的分类器,余下的1/3用于测试生成的决策树。决策树的结点表示特征的测试,叶子表示可能的有力偿还和无力偿还客户。神经网络神经网络n利用后向传播算法,仍然使用回归分析中选出的17个变量作为训练网络的输入。对
13、三种分类器结果的解释说明对三种分类器结果的解释说明从上表可以看出,对于第一个目标,最大化无力偿还客户的分类正确率,决策树的效果最好;对于第二个目标,最小化有力偿还客户的错分率,仍是决策树的效果最好。9)使用发现的知识使用发现的知识n在case-by-case的比较中,每个case(一个客户)被分别检验。n做法:如果三个分类器意见一致,则该case就被分类,否则,该case被认为无法分类。n结果:虽然无力偿还客户的分类准确率下降了不少,但是有力偿还客户的错判警报改进了很多。从下表中可以看出,1866个有力偿还客户中,只有1个被错判的。在结果评估的最后一步,对被正确预测为无力偿还的客户所实际占有的
14、帐目作了评估。第四部分总结及未来研究方向总结及未来研究方向本文主旨本文主旨n该长期研究项目目的是研究数据挖掘技术对于客户无力偿还问题在电信领域的特殊应用。然而,项目的发现远不止在该案例的研究领域的应用。出于一些原因考虑,该研究的成果是有重大意义的。n1. 该研究所用的数据,需求和目标的设置,以及实验的规模,都是来自真实世界的问题。n2.实验规模相当的大,MB级的数据量。n3.构建了一个“知识发现数据项目” 并从始至终完整的执行。n4.在初始阶段,需要多种工具和专家的直觉来定义数据集特征,选择合适的变量描述需求模型特征。数据挖掘过程总结数据挖掘过程总结n数据挖掘是个多步的过程。使用多种算法,最后选择最好最合适该数据集的算法。 1. 实施特征选择(用回归分析中的逐步前向选择)。在这个阶段,46个变量被减至17个。 2. 选出的特征被用于构造基于决策树和后向传播的神经网络算法的分类器(大致上三种算法性能相差不大)。 3.该研
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学八年级下册4.5 一次函数的应用教学设计
- 科学五年级下册8 二氧化碳教案
- 精神科患者防走失管理制度
- 绿化材料验收保养方案制定
- 储料场堆放安全防护规范方案
- 心电监护仪应用与护理
- 机加工车间晚班追赶进度计划
- 赣美版美的体验第16课 电脑绘画教案
- 自动恢复链路验证执行细则
- 地裂缝救援队伍
- 经胸超声心动图标准切面及标准测量
- 深度解读2025年家庭教育指导服务行业市场规模、增长速度及政策环境分析报告
- 2024年高考语文全国二卷(含答案)精校版
- 腾讯公司质量管理制度
- 教育事业十五五发展规划
- CJ/T 409-2012玻璃钢化粪池技术要求
- 单独支付药品用药申请表
- T/CNPPA 3017-2021塑料和橡胶类药包材自身稳定性研究指南
- 2025年合肥兴泰金融控股(集团)有限公司招聘23人笔试参考题库附带答案详解
- 太钢不锈钢产品手册
- 施工单位安全生产汇报材料
评论
0/150
提交评论