数据挖掘与电信行业客户关系管理.ppt_第1页
数据挖掘与电信行业客户关系管理.ppt_第2页
数据挖掘与电信行业客户关系管理.ppt_第3页
数据挖掘与电信行业客户关系管理.ppt_第4页
数据挖掘与电信行业客户关系管理.ppt_第5页
免费预览已结束,剩余28页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘与电信行业客户关系管理,主讲:严宇飞,一数据挖掘与电信行业,国内电信市场的不断壮大和繁荣,人们对通讯产品的认知水平和消费能力不断提高,虽然给各家电信企业提供了前所未有的发展空间和机会,但也使得各家电信企业都不得不直接面对一些问题,什么是数据挖掘?,数据挖掘(Data Mining),也叫知识发现、数据开采等,是指是从大量数据中,提取正确的、新颖的、潜在有用的并能够被理解的知识的过程。数据挖掘能进行分类预测、聚类分析、关联规则和序列模式的发现、相关分析、异常监测和趋势分析。,电信行业客户数据的特点,作为信息化方面一直处于领先地位的电信业,一方面在长期的经营中积累了海量的客户数据,同时业务

2、经营迫切需要从浩如烟海的数据中获得更多的、更有价值的客户特征信息。因此,数据挖掘在电信行业得到了广泛重视和大力发展。,因此适合数据挖掘技术的应用,国外知名的电信运营企业都已经建立了基于数据挖掘的商业智能系统:如英国电信采用数据挖掘手段,建立模型来确定潜在客户的购买倾向和他们变为客户之后可能的价值;法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、交叉销售等各方面都取得很多成果;沃达丰利用数据挖掘技术建立模型研究客户离网的原因,并从不同的角度来进行市场细分。,国内电信业前几年的发展目标主要是抢占市场,技术领域主要是业务运营支撑系统BOSS的更新换代,但是近年来,山西电信、杭州电信、云南电信

3、等电信企业也意识到挖掘历史数据对于降低坏帐损失,识别和防范恶意欠费行为的重要性,已经着手建立对自己所掌握的客户信息进行挖掘的智能化信息平台。,电信行业中的数据挖掘主题,客户细分 客户流失预测 客户欺诈识别 客户价值分析 交叉销售 事件营销 新产品、业务潜在客户预测,数据挖掘贯穿于整个客户生命周期,潜在客户,成熟客户,新客户,预测: 流失预测,维持: 交叉销售 客户细分 客户忠诚和保持 客户价值分析 客户受益分析 欺诈识别,获得: 顾客特征 目标市场 市场细分 关联分析,下面我们将对以下几方面着重介绍,基于数据挖掘的电信客户细分 基于数据挖掘的电信客户流失预测,二基于数据挖掘的电信客户细分,电信

4、CRM的数据体系结构,右图为结合了通信行业的行业特征以及数据挖掘技术的特点提的一套基于数据挖掘的电信CRM的体系结构。在这套体系结构中我们还可以清晰地看到一条价值增值链, 数据知识利润, 可以说这正是数据挖掘技术和客户关系管理地结合。,1.基于数据挖掘的客户细分过程,采用客户价值矩阵进行客户细分是一种有效而又易于实现的方法, 本次设计中结合了聚类和决策数算法进行了客户细分, 具体的分析过程右图所示。,2.聚类分析,什么是聚类分析? 聚类分析如同通常所说的“物以类聚”, 是把一组个体按照相似性归成若干类别。根据电信客户聚类分析的应用实际, 分为以下几个步骤: 确定细分主题、数据准备、选择聚类模型

5、及聚类结果发布。,2.聚类分析,2.1 确定细分主题 本次设计中定义的目标是基于客户行为的客户细分, 行为特征是主要特征, 自然属性是辅助的特征。即需提取与客户基本信息、客户行为信息有关的数据。 2.2 数据理解 行为特征主要包括呼叫行为特征与业务行为特征, 这些数据都是CDR( 话单) 数据, 具有较高的可靠性。 2.3 数据准备 数据大致可分为两类:原始数据( 可以直接从客户信息表提取, 例如: 性别、年龄等) 和统计数据。 2.4 数据预处理 由于电信行业的数据量极大, 设计中采用抽样的方法分别为对缺失值和对异常值的处理, 例如: 客户属性数据为空的客户; 剔除存在消费额为负值的客户。,

6、2.5 建模 在原有的k- means 算法中, 我们注意到两个问题: ( 1) 在k- means算法中初始聚类中心的选择都是任意选择, 这样会导致聚类结果的不稳定。( 2) 一次迭代内把每一个数据对象分到离它最近的聚类中心所在类, 这个过程的时间复杂度为O(nkd)。在数据量比较大时算法的时间开销也很大。针对以上的两个问题, 设计中采用了以下的改进k- means 聚类分析方法: ( 1) 选取K 个初始聚类中心:对数据集S 进行J 次搜索K 个近似聚类中心。Search( S, K, J) 输入数据取样次数J、数据集S、类别数目K; 输出K 个初始聚类中心 ( 2) 减少迭代次数:借用三

7、角形三边不等定律的思想, 即三角形两边之和大于第三边的定律, 减少每次迭代的计算次数, 从而简化计算比较过程。,2.聚类分析,2.6 试验结果 1.选取K 值为10 的10000 个样本点 选取某电信公司的2006 年客户缴费数据, 选取10000 个样本, 经过数据清理后, 产生8725 条客户记录。对这些客户在13 月份的账单金额进行分析, 利用改进的K- means 算法细分成lO 个客户群见下表:,2.聚类分析,从这个结果中可以看到: 第1 类客户和第9 类客户长途话费占比较高。第5、第6 类客户的长途费远远高于市活费。第7 类客户的长途费与市话费相比, 比例也较高。,2.聚类分析,2

8、.基于客户价值矩阵, 选取K 值为4 的2000 个样本点 选取2000 个样本, 在完成数据清理后, 共产生1854 条客户记录。假设Cl、C2、C3、C4 分别代表最有价值客户、乐观型客户、经常性客户、不确定客户。把客户聚成四簇.每簇的客户数量、数量比及其对公司收入贡献比如右图所示:,2.聚类分析,2.7 模型应用及营销策略 根据以上“选取K 值为10 的10000 个样本点”的结果采取有关行动如下: ( 1) 对第1、5、6 类客户设计长途优惠的套餐, 刺激客户多打长途电话。 ( 2) 对第2、第1O 类客户鼓励其继续使用原优惠套餐。 ( 3) 对上述第2、3、4、1O 类短信费高的客户

9、推荐叠加使用短信包月套餐。,3.应用决策树发现规则,3.1 应用ID3 进一步细分,3.1 应用ID3 进一步细分,设计中以“客户类别”为主属性, 选取了代表特征性的3 个属性:客户年龄段、学历以及职业, 然后根据ID3 决策树构造过程, 得到图3- 1 所示的决策树。( I 类客户- 高价值客户、类客户- 乐观型客户、类客户- 经常性客户、类客户- 不确定客户) 。,3.2 规则发现,图3- 1 的决策树共产生了96 条信息, 下面为其中的一部分( 以第类客户为例) : IF 职业=“商业员工”AND 年龄25 AND 年龄25 AND 年龄(50 AND(学历=“初等教育”0R 学历=“中

10、等教育”)THEN 属于类客户,3.3 营销策略,根据上面分析第类客户的结果, 可以得出: 不论客户职业是什么, 只要年龄在2550 岁之间, 学历为“初等教育”的客户, 都属于类客户。由于类客户是企业目前利润的重要来源, 所以企业就要吸引和保持住与类客户之间的客户关系, 需要把营销策略更倾向于年龄在2550 岁之间的客户, 而对于在该区间之外的客户, 需要有选择性地开展促销方式。,三基于数据挖掘的电信业客户流失预测,1.模型分析,客户流失的模型构造过程如下图所示,它包括神经网络特征简约部分以及分类树算法对流失客户的划分部分.,2.模型的建立与评估,以下以某电信公司提供的2005 年8 月份的

11、数据为例,对其进行建模,在经过上述数据理解过程后,选择其中的41 个客户属性作为用于客户流失分析的客户属性.,2. 1 神经网络训练,网络结构:采用3 层的BP 网络结构,输入层根据客户属性的个数设置为41 个,隐含层节点为15 个,由于本系统中客户分为流失和非流失两类客户,因此输出层节点个数为2 个. 学习速率为0. 01 ,分别采用标准的BP 算法、附加动量的BP 算法(MOBP) 和可变学习速度(VLBP) . 训练数据:选择8 月份的242 260 条客户记录进行训练,其中193 808 条记录作为训练集,48 452 条记录作为检验集. 训练停止条件:在进行神经网络训练时,采用了误差

12、平方和(SSE) 和最大迭代次数作为神经网络训练结果的评价标准. (1) SSE 0. 05 ; (2) 最大迭代次数50 000 次.,2. 1 神经网络训练,从表可以看出VLBP 在满足训练精度的情况下,训练次数最少. 因此选择VLBP 算法作为进行客户属性简约的神经网络算法.,2. 2 客户属性简约,将前面选择的41 个相关因素送入神经网络模型,利用网络进行学习,最终得到各属性的流失相关度权值,按照权值大小对客户属性进行排序,结合数据探索的结果以及行业专家的意见,决定采用客户在网时间、年龄等33 个属性作为决策树的输入,进行客户流失建模.,2. 3 分类树模型的评估,(1) 模型评价标准

13、. 根据商业理解的目标制定模型评价方法,客户流失模型要求两个方面的准确率,一个是预测命中率,一个是预测覆盖率,如表2 所示. 其中,A 代表预测不流失,实际也不流失的客户;B 代表预测不流失,实际流失的客户;C 代表预测流失,实际不流失的客户;D 代表预测流失,实际流失的客户.,在实际系统的应用当中,预测命中率、预测覆盖率两项指标实际上决定了决策者是否对特定客户群采取必要的措施,来降低流失率以及对哪些客户进行挽留措施. 如果覆盖率过低,例如,覆盖只达到40 % ,也就是说预测流失的客户数远远少于实际流失的客户数,这可能给决策者一个错误的信息,认为该指定客户群没有进行挽留的必要或者进行挽留的代价

14、过高,造成决策的失误. 预测命中率同样也是一个非常重要的指标,它反映了预测模型的准确性. 当预测覆盖率达到要求时,需要对客户采取挽留措施. 但如果预测命中率过低,则会造成对目标客户的误分类,其结果可能是对一些没有流失倾向的客户采取了挽留措施,而对一些流失倾向较大的客户则由于其被错误的划分为非流失客户没有进行挽留造成客户流失,使商业投入造成浪费. 根据电信公司商业成本核算的结构,要求预测覆盖率达到80 %以上,预测命中率在65 %以上.,(2) 模型评估 由于模型最终的应用将面向某电信公司1 000 多万用户,为了使模型的适用度和准确度更高,从2005 年8 月份的数据随机选择240 000 条客户记录进行建模. 将8 月份的数据分为两部分,训练集160 000 条记录,测试集80 000 条记录. 应用经过数据探索和神经网络检阅的数据建立分类树模型,并进行应用评估. 以下 给出采用8 月份数据对客户流失模型的应用结果.,根据表3 可以得到预测覆盖率为93. 29 % ,预测命中率为91. 29 %.,从8 月份数据的测试结果来看,其覆盖率和命中率均达到90 %以上,可以看出针对当月的数据,模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论