客户流失中数据挖掘常用算法_第1页
客户流失中数据挖掘常用算法_第2页
客户流失中数据挖掘常用算法_第3页
客户流失中数据挖掘常用算法_第4页
客户流失中数据挖掘常用算法_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用数据挖掘算法 数据挖掘;客户流失;算法 例如,电信行业的应用领域主要有客户关系管理,客户欺诈分析,客 户流失分析,客户消费模式分析,市场推广分析等。在国内随着对数 措施,减少客户流失的发生。这对企业降低运营成本,提高经营业绩.1 客户流失分析(Customer Churn Analysis) 够;或者是注意到了又找不到好的方法,显得有点无能为力。一方面 的保持,只注重发展新客户,长此以往,电信企业将会出现“增量不 1.1 客户流失的原因种类型: .和经营分公司,或者提供网上服务等方式,让客户在任何地方、任何 如很多电信运营商的用户在拖欠了大额通信费用后离开这家电信运 牌的产品或服务的市场占有

2、率情况,了解市场中最有价值产品或服 对手发展情况进.上述3种情况之外的客户流失称为过失流失。这些流失都是由于 1.2 客户流失预测客户流失预测的任务是: 及1.3 客户流失模型一般客户流失模型的建立和应用过程如下:的 流 失的群体;运用客户流失行为模型对当前客户数据库中客户的行为进行分 失。其分析过程如图所示:数据仓库客户分析数据现有客户数据 流失客户数据流失客户基本特征 流失客户行为特征流失行为预测流失原因分析及对策流失群体预测的分析流程图2 常用数据挖掘算法数据挖掘(Data Mining)作为数据库知识发现的核心技术,就是 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含 .

3、 性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决 在目前商用数据挖掘软件中一般对客户分析的重点是首先对客 户行为及需求进行分析,以及对客户细分群进行定义。在此客户细分 基础上就可以建立周期价值分析模型,挽留响应模型以及流失预测模2.1 抽取数据与数据分析 2.2 聚类概述 市场营销等。一般采用聚类的方法,对流失客户的消费行为进行“细 . 2.2.1 EM聚类算法 布的EM聚类模型与基于欧氏距离的K均值模型是一致 适合基于“海量数据”的聚类分析。当然,也存在一些不足之处,比。2.3 决策树 再被表示为多个If-Then的规则,该算法己经被成功应用到医疗诊断 的分布。树的最顶层节点是

4、根节点。下图为一棵简单决策树,它是一 棵贷款申请的决策树模型,从中我们可以看到决策树的基本组成部 是负债是风险低风险否工作时间是低风险否风险2.3.1 决策树的建立 过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要 段:建树和剪枝。决策树归纳 . ttribute ttribute8)for each test_attribut的己知值a ;ii22Generate_decision_tree(S,attribute_list-test_attribu1剪枝的目的是降低由于训练集的噪声而产生的起伏。算法的基本 否则,算法使用称为信息增益的基于熵的度量作为启发信息, 散值,连续值的属

5、性必须离散化。 算法使用同样的过程,递归地形成每个划分上的样本判定树。 一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代 .(c)分枝test_attribute=a没有样本(步骤11)。在这种情况i2.3.2 属性划分的度量方法算法ID3和C4.5使用信息增益作为选择属性对节点进行划分的指 SA集S划分前 n 是一个衡量信息混乱程度的统计量。熵越大,表示系统越混乱。分类 信息增益最大的属性。通常,决策树是“贪心算法+深度优先搜索” 免这个不足的一种方法是用其它度量而不是信息增益来选择决策属 .| S | 2 | S |i=11增益比率度量是用前面的增益度量和这里的分裂信息度量来共 G

6、ain(S,A)SplitInformation(S,A)使用增益比率代替增益来选择属性产生的一个实际问题是,当某个 点进行划分的标准。设数据集S的分 i=11 2.尼指数就是: Gini(S) = (S1 ) *Gini(S ) + (S1 ) *Gini(S )S 1 S 2 4 用数值型属性划分节点方法 录数)。数值型属性A将数据集S划分为两组。对应的条件为Aa。如何选择A呢?可以先对数据集S按字段A的值递增排序,设A的1 2 n取信息增益最大(基尼指数最小)的一个就是A的最佳划分。若V 为最1佳分裂点,通常取a=( V +V )/2。建树时,在每个节点上都需要对i i-1基尼指数)。2

7、.3.3 剪枝 的过度拟合(OverFitting)问题。它表现为用某些分类规则对训练集 . 方法,去掉最不可靠,可能是噪音2.3.3.1 剪枝的分类 uning先建树,后修剪。让树“完全生长”,然后采用一定的标准评估 2.3.3.2 剪枝的标准 2) 最小描述长度原则;最简单的解释是最期望的,对决策树二2.4 人工神经网络ArtificialNeuralNetwork记为ANN)是在 对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能 因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方 个预测变量。输出层的节点对应目标变量,可有多个。在输入层和输 12输入层3456输出层经网络模型 点的值就是通过它所有输入节点的值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论