案例分析---数据挖掘在通信业中的应用.ppt

上传人：过*** IP属地：江西上传时间：2020-01-07 格式：PPT 页数：99 大小：2.21MB 积分：15 举报 版权申诉

免费预览已结束，剩余94页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘在通信业中的应用案例分析案例1 电信业务数据分析案例2 电话通话记录分析案例分析案例1 电信业务数据分析案例2 电话通话记录分析概述本案例学习如何为通信业公司建立客户流失模型在电信业界流失 Churn 一词专指客户的流失客户流失模型是用来预测哪些客户不久将流失建立客户流失模型是数据挖掘在许多不同行业的共同应用特别对电信而言全球几乎每一家电信公司都正在或将要建立客户流失模型而没有或不准备建立流失模型的公司是缺乏竞争力的概述续在本案例中研究如何使用数据挖掘技术加强客户关系管理问题通过客户流失预测模型的建立和客户流失原因分析找出适当的促销方式及客户保留措施提高客户满意度和忠诚度提升客户价值找出有客户流失倾向的有价值的以及潜在有用的客户让更多的客户享受更好的待遇和实惠从而降低客户流失率提高客户保留率从根本上提升客户关系管理水平达到全面提高企业赢利能力和核心竞争能力的目的最终为电信行业创造出更多的价值和财富同时也为企业经营管理活动提供决策支持客户流失分析流程电信客户流失预测分析是数据挖掘技术在实际领域中的一项基本应用其流程也符合数据挖掘的一般流程主要包括以下几个方面客户流失分析流程续客户流失分析流程续数据准备具体工作有数据收集商业理解数据理解确定预测对象及目标等数据处理根据收集到的实际数据进行具体分析和处理主要包括数据清理数据转换特征构造以及数据调整等步骤通过对历史数据进行分析并建立模型对未来客户消费情况进行预测这就要求有正确合理的历史数据因此数据集中的特征需要挖掘出能够体现客户消费价值及消费倾向的特征在建立模型时并不需要保留太多的特征需挑选出能够充分体现客户价值及客户流失倾向的特征即需要进行特征选择客户流失分析流程续建立模型利用合适的数据挖掘算法对整理好的数据进行聚类细分并建立流失预测模型结果优化根据企业实际情况调整预测模型优化预测结果制定策略依据模型分析得到的结果制定相应的客户保持策略电信客户流失原因分类从世界各地的电信运营商运营情况来看电信客户流失主要具有以下几个方面的性质 1 客户流失问题具有普遍性 2 客户流失不可避免 3 客户流失代价昂贵 4 客户流失难以控制电信客户流失原因分类续电信客户流失原因分类续从电信客户流失原因分类图上可以看出最易于辨别的流失者类型是非自愿流失者非自愿客户流失已经成为某些运营商最大的一种流失类别这一类别包括由于欺诈不付款和使用不足而流失的客户一般来说这类用户存在的比例不大处理非自愿客户流失的一个有利之处是运营商在如何管理这种客户流失问题上具有很大的回旋余地有许多手段可以处理非自愿客户流失带来的风险例如欺诈信用以及使用不足都是可以提前预料的问题通过加强对客户的筛选可以减少此类情况的发生虽然非自愿客户流失是相当大一部分客户流失问题的根源但是当人们想到电信运营商的客户流失的时候通常想到的还是自愿客户流失电信客户流失原因分类续自愿客户流失出现在客户开始终止服务合同之际根据不同市场不同的国家不同的文化中各有不同但大多数调查发现自愿客户流失所声称的主要原因包括电信客户流失原因分类续电信客户流失原因分类续调查显示存在许多不同的原因但是价格质量覆盖范围和客户服务这四个原因在所有客户流失原因列表中总是名列前茅从客户流失的性质来看又可以把上述具体客户流失原因又可以总结为以下几类自然流失恶意流失竞争流失及过失流失电信客户流失原因分类续数据准备为了建立客户流失预测模型必须收集大量的客户信息资源数据同时需要对其进行数据预处理得到构建模型所需的格式因此在这个阶段需要对模型所需的历史数据训练数据和测试数据进行分析和处理以便能充分挖掘出客户的关键行为特征数据准备续样本选择和数据描述以某地区电信行业的客户业务数据作为实验数据包括训练样本集和测试样本集该样本数据集中总共包含了176921条正常客户记录156885条流失客户记录20036条记录每条记录由18个客户基本特征和108个客户行为特征以及一个类别特征来刻画样本数据集中主要包含三类特征数据客户基本特征主要客户资料数据客户基本特征数据是客户的静态数据如表7 1 相对来说是比较稳定的但由于这些数据在收集时会包含大量的缺失值不一致的值甚至是错误的数据所以需要进行大量的数据转换和清理工作数据准备续客户行为特征主要是客户的消费行为特征数据每条记录包含了客户在一个年度内的消费行为数据包括一年中每个月的总费用月租费用本地通话费传统国内通话费用传统国际通话费用传统港澳台通话费用 IP国内通话费用 IP国际通话费用以及IP港澳台通话费用等9个基本消费行为特征所以该样本数据集中共包含108个 12 9 108 消费行为特征详细内容见表7 2 数据准备续数据准备续数据准备续客户类别特征实验样本数据集中包含一个能够判定类别信息的类别特征根据类别信息可知道每个样本的基本状态如表7 3 在样本数据集中客户类别特征 Class 由0和1来表示 0表示该客户已经流失 1则表示该客户是正常客户数据准备续数据预处理数据预处理是数据建模前的准备工作数据预处理的效果会直接影响到模型的性能及分类预测的效果一方面通过对数据格式和内容的调整可以使建立的模型更加准确简单且便于理解另一方面可以降低学习算法的时间和空间复杂度数据预处理主要包括数据清洗数据转换特征构造和特征选择等几个过程数据准备续数据清洗数据清洗的目的是补全数据处理缺失值除去噪声以及改正不协调的数据例如在客户样本数据集中有些客户的套餐名称套餐生效时间套餐失效时间及套餐竣工时间等数据为空在处理含有缺失值的特征时如果有些特征的有效值少于总记录数据的1 5 则可删除此类特征如果某记录中存在大量的空缺值而这些空缺值难以以正常方法给予补全则可以去除此类记录数据准备续数据变换数据转换主要包括构造新的衍生特征和对连续型数据进行规范化在实验数据集中除了有表示客户类别信息的特征外也是用其它方法赋值的没有直接体现客户价值和客户流失倾向的特征在本实验数据集中消费行为特征中只包含了12个月的消费行为月总费用月租费用本地通话费传统国内通话费用传统国际通话费用传统港澳台通话费用 IP国内通话费用 IP国际通话费用以及IP港澳台通话费用这几个特征不能充分体现客户在季度和年度的消费情况根据需要可以构造以下特征季度总费用将实验数据中的12个月平均分成四份每三个月为一个季度数据准备续数据准备续季度消费比率的大小可以从客观上反映客户的消费行为趋势根据已知特征还可构造两个非常重要的特征 ForthQ total Rate为第四季度占总年度消费的百分比该特征也能从一定程度上反映客户的消费近况其计算如下根据客户在一个年度内的消费情况可构造未消费月份数Non fee 此特征可反映样本客户消费情况及流失情况数据准备续同时为了体现不同类别客户群体之间的消费差别我们还需要构造8个不同的消费行为特征分别为年度月租总费用年度本地通话总费用年度传统国内通话总费用年度传统国际通话总费用年度传统港澳台通话总费用年度IP国内通话总费用年度IP国际通话总费用年度IP港澳台通总话费用其计算方法比较简单就是将12个月份的相关费用进行累加数据准备续通过构造新特征该样本数据集中总共包含了126个消费行为特征 108 原始行为特征 4 季度总费用 1 年度总费用 3 季度消费比率 1 Non fee 8 消费行为总费用 1 ForthQ total Rate 在样本数据集中我们可以根据客户的年度总费用及其它消费行为的总费用来判断客户的价值以季度总消费季度消费比率及未消费月份数来判断客户的潜在价值采用消费行为总费用识别不同客户群体的消费倾向数据准备续考虑到要对数据进行聚类分析而聚类算法中要求对各连续型数据进行规范化使得各连续数据的取值范围在 0 1 之内因此需要对所有连续特征数据进行规范化规范化的采用最大最小值规范化方法具体方法如下假设S和S 分别表示某有限值域的原值和新值 max s和min s分别在该值域中数据的最大值和最小值那么在该值域范围内各数据的规范化表达式可表示为数据准备续特征选择经过数据清理和数据变换后接下来就要进行特征选择特征选择的效果会直接影响到分类预测模型的性能通过特征选择可以减少样本的维度大大减少计算量降低时间和空间复杂度简化学习模型例如该样本数据集中电话号码和客户编号的相关性很强我们可以认为它们之间存在冗余性则可删除与目标特征相关性小的特征即电话号码字段被删除掉我们主要采用第三章介绍的基于混合特征相关性的特征选择方法进行特征选择通过特征选择服务编号行业大类ID 行业小类ID 电话号码竣工时间拆机时间最后一个月的IP港澳台通话费用最后一个月的IP国际通话费用最后一个月的传统港澳台通话费用倒数第二个月的IP港澳台通话费用倒数第二个月的IP国际通话费用倒数第二个月的传统港澳台通话费用以及一年之中的月租费等12个特征被删除数据准备续经过数据预处理实验数据集中最后留下的客户基本特征和行为特征分别为5个客户编号客户类别用户类型渠道产品和108个 90个行为特征和18个构造特征最后该数据集中保留下来的特征总数为113个为了保证实验数据的分布能够很好地与现实情况相吻合我们定义浓度这个概念来解释其目的就是要使得训练出来的预测模型能尽可能的抓住流失客户的特征所谓浓度就是训练集中流失客户与正常客户的比例如果训练集中的正常客户与流失客户的比例为1 1 那么就说该训练集的浓度为1 1 通过观察我们会注意到数据分布不平衡现象广泛存在于现实生活中一般地对于绝大多数电信企业来说客户流失率都比较低也就是说正常客户与流失客户的分布是不平衡的每月流失的客户总是少数而正常客户占绝大多数数据准备续经过上述分析我们需要调整正常和流失数据的分布比例据电信部门统计当正常流失率不超过20 时客户流失特征不是很明显因此我们在实验中取实验训练集的浓度为4 1 正常客户流失客户经过数据预处理有效客户流失样本记录数为15326条结合预先定义的训练集浓度 4 1 我们在样本集随机选取61304条正常样本与流失样本共同组合成训练数据集所以用于实验数据集的样本总记录数为76630条客户聚类分析在讨论客户流失问题之前我们首先要对客户进行细分在电信市场业务中清楚地了解客户类别是对每个客户群采取有针对性措施的基础对电信业而言不同的用户群在流失前后表现出不同的消费特征这就需要将不同的群体分别开来对待针对不同的用户群体建立分类预测模型使得预测分析达到更好的效果客户聚类是根据一个或多个客户特征组合把所有客户划分成不同的群体相同群体的客户间具有最大的行为相似性不同群体的客户间具有最大的行为差异性通过对客户合理的类别划分并对当前客户以及预期的客户群作区段分析判断不同区段的突出特点使电信企业对客户总体构成有准确的认识同时对客户的服务和营销具有针对性对客户聚类可以达到如下目标了解客户群体的消费特征了解客户的总体构成了解各种客户价值的客户群体特征了解流失客户的客户群体特征客户聚类分析续根据常识我们知道任何企业的客户按不同的标准可以划分为不同的类型同样在电信行业中也存在着不同类型的客户群体签于此需要对客户进行聚类可以得到更小更精细的客户群体在对客户进行聚类后会得到不同的客户群体而不同群体的客户对电信企业创造的价值是不同的这里采用一趟聚类算法作为客户细分的基本方法具体的客户细分流程见图7 5 客户聚类分析续客户聚类分析续在一趟聚类算法实验中我们取聚类阈值S在 EX 0 5DX EX 中随机选取得到的最后聚类结果为训练集被聚成36个簇聚类精度为87 94 其中大簇8个小簇28个且几乎都是单条记录聚成的簇相当于噪音由于小簇对我们的研究没有任何实际意义所以忽略28个小簇在聚类结果中 8个大簇的正常样本和流失样本分布及各簇的年度消费总金额各簇中客户的平均季度消费比率分别如表7 4和表7 5所示客户聚类分析续客户聚类分析续从各簇的类别分布情况来看有6个簇簇1 簇2 簇3 簇4 簇6和簇7 的客户基本上都是由正常客户组成的只有两个簇簇5和簇8 的客户基本上是由流失客户组成依据客户对企业所创造的价值主要是各簇年度总费用平均值可以将电信客户分为VIP客户群簇7 约占总客户数的1 7 主要客户群簇4 约占总客户数的8 5 普通客户群簇2 约占总客户数的22 以及小客户群簇1 簇3 簇5 簇6和簇8 约占总客户数的67 8 客户聚类分析续客户聚类分析续同时从各簇的平均季度消费比率来看簇6和簇8的消费比率呈下降趋势所以属于流失型客户群而簇6属于具有潜在流失可能性的客户群因为簇6中季度消费比率是逐渐减少甚至第四季度的消费额只占到全年总消费额的1 5 所以可以判定簇6是具有流失倾向的客户群而其它几个簇则可以认为是属于正常的客户群但是它们的消费行为也存在较大的差别再从各簇的类别分布分析得知不同价值群都或多或少地存在着流失客户即所有客户群中都存在着客户流失现象只是流失程度不同而已客户聚类分析续注 A G分别表示各簇单个客户的年度本地通话总费用年度传统国内通话总费用年度传统国际通话总费用年度传统港澳台通话总费用年度IP国内通话总费用年度IP国际通话总费用及年度IP港澳台通话总费用客户聚类分析续从上述两个表中同样也可以看出 8个簇中存在着两对消费趋势相似的簇簇1和簇3 簇5和簇8 为了更清楚地了解不同簇中客户消费行为的区别表4 6列出了簇1 簇3 簇5和簇8的单个客户年度消费平均值从表7 6中可以看出簇1和簇3的消费行为主要区别簇1偏向于国际通话消费而簇3主要是港澳台通话消费同样可以看出簇5和簇8的区别在于国内和国际的通话消费偏向不同根据聚类分析的结果在簇6这一易流失的客户群中他们的年度消费额度也比较大如果不挽留这些客户将会带来很大的损失查看客户的详细信息了解客户具体的消费行为分析客户的流失倾向和原因等等这些都是电信企业的重要工作建立分类预测模型客户聚类作为预测的基础目标是将客户划分为不同的类别这样可以使预测分析在不同的客户群体上进行也就是说可以根据各记录的簇标号判定客户的类别因此需要将聚类结果作为一个新的特征增加到实验数据集中用于分类建模的数据集中包含了115个特征 113 1个聚类标号 1个目标特征和76630条记录样本实验根据各种分类算法的特点我们选择算法结构和推理过程都比较好的决策树进行建模本实验采用Weka的决策树分类器 C4 5 作为分类预测的基本工具在实验中对数据集采用随机选取2 3的数据用于训练剩余的数据作为测试集建立分类预测模型续决策树从顶部开始直到获得最佳分类结果时才停止分支当其达到最佳结果并获得按同一规则分类的客户时便在底部出现叶节点通过决策树的树形可视化可以了解每个叶节点的分类规则所需的最重要的变量如图7 6所示第四季度年度总费这个特征被认为是最重要的变量接着是年度总费用第一季度总费用以及渠道等等现举例说明被分类为流失客户的一个分支节点根据所显示的规则这些客户为 1 第四季度占全年总费用的比率大于0 33656 2 年度总费用小于或等于61728元 3 第一季度总费用大于2630元 4 在符合上述条件的所有客户中大客户类型为正常客户而商业客户类型则为流失客户建立分类预测模型续建立分类预测模型续表7 7列出了实验数据集的分类正确率 CorrectlyClassifiedInstances 分类精度 Precision 召回率 Recall F度量 F measure 以及混淆矩阵等测试结果根据测试结果可以判定测试结果是比较理想的能够用于电信行业的分类预测对于几种评估方法的实际意义我们将在下一节中具体说明此外为了说明本文方法的有效性我们未加聚类结果作为新特征的数据集进行同样的分类测试其分类正确率为96 325 流失客户类别的召回率为0 932 经过对比可以看出将聚类和分类相结合可以提高分类的性能也能提高少数类的识别率建立分类预测模型续模型评估与调整优化聚类和分类预测模型所挖掘的是基于不同层面的知识两模型的用途和作用也不同很难评价这两种模型获取的知识之间是否存在优劣但是由于选取的数据可能存在一定的偶然性和必然性不能保证挖掘出来的知识能直接判定其正确性和适用性因此需要对挖掘出的模型进行评估和检验在评估和检验的分析结果的基础上对模型进行调整和优化以保证所挖掘的知识更有效更适用能更准确的反映出市场状况模型评估与调整优化续 1 模型评估在数据样本选择预处理建模过程中都会得出一系列的分析结果知识模式或模型它们是对目标问题的多个侧面的描述但要形成最终的决策支持信息还需要对这些结果和模型进行综合的解释和分析由此可以看出模型评估是数据挖掘过程中必不可少的一个步骤通过对模型进行评估检验样本数据的代表性以及模型的完备性模型的评估分为两个步骤第一步是由数据挖掘模型使用检验数据对挖掘出的模型进行评估第二步是由数据分析人员对经过系统检验的数据进行评估由于在进行数据挖掘时特别是对大规模的数据进行挖掘时有可能是数据预处理中的特征选择方法在处理具体问题时产生了偏差当模型建立起来后这些问题往往会很容易被发现这时挖掘出的知识虽然正确但并不一定具有实际价值这就需要利用数据分析人员的业务知识对其进行过滤模型评估与调整优化续一般来说模型的优劣可以从两个方面来进行评估一是从商业角度来评估模型的准确性并尽可能找出解释的原因和理由二是从理论角度来解释模型的合理性从理论上判断挖掘结果的可行性从理论上说对数据挖掘模型评估的数据应该利用未参与建模的数据进行检验这样才能得到更准确的结果利用建模数据进行检验很容易导致分类模型出现较大的误差一个好的分类器不仅要能够很好地拟合训练数据而且对未知样本也要能准确地分类换句话说一个好的分类模型必须具有低训练误差和低泛化误差因为对训练数据拟合太好的模型其泛化误差可能比具有较高训练误差的模型高这种情况下就会导致所谓的过分拟合模型评估与调整优化续聚类模型评估聚类模型的评估无法在测试集上进行评估聚类模型的主要方法就是看它所产生的每个簇对应的规则集是否能给出确切的商业解释对于聚类模型来说聚类模型的建立的是用户整体特征用整体特征去判断某个客户的具体行为可能是不合理的为了能够更全面地反映客户整体特征使用越多的数据并且选择合适的特征结果就越贴近真实存在的客户特性从聚类结果中可以判定客户价值以及簇与簇之间的相似性与区别不同客户群的客户在基本特征及消费行为特征方面的表现都是不相同的模型评估与调整优化续分类预测模型的评估针对分类模型的检验方法是对已知客户状态的数据利用模型进行预测得到模型的预测值和实际的客户状态进行比较由于并不指望挖掘出普遍真理只是希望能够挖掘出在客户服务和市场决策中可供参考的知识因此在进行模型检验时需要对模型进行评估如果在评估时达到要求就可以认为是合理的可以接受的并能够进行实际使用的知识分类预测模型评估主要是在测试集上进行验证评估分类预测模型的主要方法有分类正确率召回率预测覆盖率预测命中率分类精度以及F measure值如表7 8所示模型评估与调整优化续模型评估与调整优化续分类正确率和预测命中率都是描述模型精确度的指标其中分类正确率是预测正确记录数占总记录数的比值预测命中率是预测流失中实际流失的比例召回率是描述模型的普适性的指标是实际流失中预测正确的比例在实际模型的应用中这三项指标实际上决定了决策者是否对特定客户群采取必要措施来降低流失率以及对哪些客户进行挽留如果覆盖率过低例如覆盖率仅达到40 也就是说预测流失的客户数远远少于实际流失的客户数这可能给决策者一个错误的信息认为该指定客户群没有进行挽留的必要或者进行挽留代价过高造成决策失误影响企业的最终营业收入模型评估与调整优化续预测命中率和分类正确率同样也都是一个非常重要的指标它反应了预测模型的准确性当预测覆盖率达到要求时需要对客户采取挽留措施但如果预测命中率过低则会造成对目标客户的误分类其结果可能是对一些没有流失倾向的客户采取了挽留措施而对一些流失倾向较大的客户则出于其被错误的划分为非流失客户没有进行挽留造成客户流失商业投入的浪费因此合适的预测命中率和覆盖率对企业的经营决策有重大的影响由上述分析可知这几个指标值越大说明模型的预测效果好从行业标准来看基于决策树的分类模型已经达到了要求几个主要指标都比较理想可以投入使用模型评估与调整优化续 2 模型调整与优化运用模型是将数据挖掘结果运用到业务操作中的关键步骤而预测结果会直接影响到电信部门的营销和市场动作所以当建立预测模型后必须要根据测试集的预测效果对模型进行一定的调整与优化提高模型的预测效果当得到被认为正确的知识后希望业务人员可以针对得到的知识做出一些合理的业务理解例如可能发现客户的消费总金额与客户的流失可能性相关度较高模型评估与调整优化续对于分类模型的调整其主要方法是对模型的参数的进行设定不同的挖掘算法建立的模型所得结果也不尽相同所以参数也不同其调整与优化的方式也有很大的差异对于聚类算法来说聚类算法的选取聚类阈值的确定和记录顺序会直接影响到聚类性能对聚类结果进行改进的方法有试用多个聚类算法及多次试验探索聚类阈值取舍以能得到最好聚类性能聚类精度高和可解释性强的算法和阈值作为实验算法和参数将训练数据随机打乱顺序多次比较多次实验结果在性能差异相差不大的几个训练集中抽出一个训练集进行实验经过理论分析和实验测试从聚类的性能和时间复杂度两方面进行综合考虑选择一趟聚类算法作为客户细分的基本方法模型评估与调整优化续对于分类算法来说我们主要调整的是误分类成本和模型参数大多数预测模型都把在正常客户预测为流失客户与流失客户预测为正常客户这两种默认预测错误代价认为是相同的但是针对于不平衡数据而言多数类和少数类的错分代价是不相同的把多数类的样本预测为少数类代价相对较低而把少数类预测为多数类的代价往往是较高的所以我们要尽量提高少数类流失客户类的分类精度从而降低少数类的错分成本对于决策树模型来说我们主要是调整树的结构比如设定树的最大层数每个节点的分支数量等等小结数据挖掘技术在为电信企业争夺客户资源制定营销策略扩大市场份额拓展业务领域等方面都可以起到不事或缺的作用使用两类模型进行挖掘聚类和分类预测模型针对客户流失这个问题来说聚类有利于分析客户特征让经营决策者可以根据流失客户的特征制定具有针对性的市场策略来减少客户的流失而分类预测模型通过数据挖掘获得的知识更主要地是对每个客户的消费行为进行评估对客户的流失行为进行预测结合聚类和分类模型的结果基本上判定流失客户的类别及价值从这些知识的用途来说聚类模型建立的是战略方面的知识分类预测模型建立的是战术层面的知识小结续分类和聚类的方法各有利弊可以应用于不同的场合和目标来帮助我们解决不同的问题将两者结合起来可以发挥更大的效益在进行电信市场客户细分时由于我们对电信的业务数据的特性已经有非常深刻的认识并掌握了丰富的业务规则客户细分的业务目标也常常是很明确的知道什么是我们应该关注的并明确我们要解决的问题因此常可以用分类的方法快速达到客户细分的目标并将结果立竿见影地应用于市场营销但我们也需要周期性地采用聚类分析方法对我们的客户来进行全方位地洞察并发现一些被我们忽视的可以带来潜在商机的业务规则和有趣的细分总之通过综合分析客户流失的关键性特征和原因对现有有价值的客户进行预测对客户进行细分再根据分类预测的结果为市场部门针对不同类型易流失客户制定不同的客户挽留策略提供信息支持案例分析案例1 电信业务数据分析案例2 电话通话记录分析概述电信业已经把目光从基础建设为中心的业务转移到以客户为中心的业务上来能卖出获利最多的服务给最多客户的人就是赢家了解客户行为是这项业务战略中最关键的部分而详细的交易数据包含了丰富的一般而言尚未被这些公司开发利用的信息那么对这么大量的数据进行投资做挖掘值得吗过去这些纯通话明细记录阻碍了他们去了解客户行为这种状况通常导致的结果是需要一个向导性的项目来说明这些通话明细记录进行挖掘的价值这种结果是一种对业务使用者的描述而不是马上的行动然而令人兴奋的结果是这的确导致更进一步的工作以及客户更好的了解简而言之业务问题就是展现对大量通话明细记录进行挖掘的价值如何更深刻地理解客户如何实现存量客户的流失保有如何挖掘增量潜在客户如何进行交叉销售提升客户价值如何进行欺诈识别防范经营风险如何推出适合客户消费特点的产品及套餐这些成为经营必须面对的问题案例背景一个典型项目的开发或者会展现数据仓库中数据的价值或者会鼓励公司投资于通话明细记录的数据仓库该案例的数据本身包含了几个行为在数据挖掘工作之前需要设立能处理这些数据的硬件及软件系统而数据则必须集合在一起数据挖掘工作本身包含三个部分第一个部分是调查工作从而决定哪些信息会令人感兴趣达到该目标的唯一方法是和业务人员讨论其结果是一张列着令人感兴趣的问题的列表数据探索是下一步工作花费的时间会因不同的因素的数量从一周到数周不等像数据量提出的特定问题数据的质量硬件和软件的能力最后一部分工作是把结果总结成一致的表现形式并请适当的人一起来听业务需求分析和业务人员讨论强调分析的几个关键领域这些领域是指导方针第一了解消费者之间的关系根据消费者的潜在关系业务人员可以借助其中一个消费者向其关系性高的消费者进行产品或业务的推销第二通话模式有地区性的不同对控制和定价部门而言了解这一点非常重要因为它能显示为什么不同地区应该以不同的方式衡量收费业务使用者对此并不全部知道以什么模式解释这些不同这个问题留给分析团队来解决业务需求分析续第三通话模式有时间性的不同一周中的某一天或一天中的某个时段通话的频率有所不同了解这一点可以知道通话的闲时和忙时同样可以帮助业务人员制定合理的收费方式第四高利润则是另一个令人感兴趣的部分国际电话仅占所有通话量的少部分但利润贡献与其通话量并不对称数据能告诉我们哪些与国际通话模式有关的信息随着因特网的快速发展哪些客户使用因特网第五了解个别消费者的行为消费者什么时候会使用电信服务谁比较有可能在家进行在线工作什么号码转接到移动电话谁使用了ISDN连接网络通话明细记录能够帮助回答类似的典型问题数据准备在本案例里使用得最多的数据源就是通话明细记录同时这些记录的结构通常相当简单这些数据可保存在以逗号分隔的纯文本文件中这种类型的文件和输入电子表格的数据文件相当类似不过文件比较大通话明细可以从三个典型的有代表性的来源得到直接交换机记录这是直接从交换机产生的记录大体来说这是最不干净的数据但却是包含了最多的信息的数据数据准备续计费系统的输入数据交换机的记录最终要转换成计费记录这里的数据比较干净但不完整有些记录如免费电话记录比如打给公共服务电话的通话记录就不会输入到计费系统中数据仓储提供的输入数据这是另一个数据源这里的数据更加干净但是会受到数据仓储需求的限制当然我们还需要其他数据源的数据需要描述客户以及参考文件的表格稍后将提及最一般性的表格有趣的是有些更重要的信息有时就存放在桌面的电子表格里尤其是参考数据更是如此例如因特网服务提供者的存取次数表国际电话的国家代码等等数据准备续 1 通话明细数据每一个通话明细记录都是由电话网络对每一次通话进行的详细记录因为通话量非常大所以通话明细记录也非常大通常通话明细数据用来让计费系统产生客户的账单也就是说这样的数据源仅包含拨打者必须付费的通话并不包含接入电话因为受话端的人通常不需因此付费免付费电话或者公司内部电话通话明细记录也包含潜在的付费事件例如开启电话转接服务或通过ISDN进行数据转发事件记录通常占全部记录的小部分数据准备续 2 记录格式本节描述典型的通话记录格式首先介绍一些重要的字段表7 9显示具体的字段描述数据准备续数据准备续要注意的是每一个字段的绑定可能有几种不同的类型下面列出四种类型通话记录为固话市内通话时其主叫和被叫的号码长度是固定的并且长度是一致的若是本地固定电话和本地手机的通话主叫和被叫的长度固定的当长度不一致对国内固话长途来说有两种情况如果是打往到国内非本地时则被叫号码的前3或4个码为被叫所在地的区号如果是国内非本地打进时则主叫号码的前3或4为主叫所在地的区号对国内固话和手机之间的长途通话来说无论是本地固话打给国内外地手机还是国内外地手机打给本地固话手机号前都加 0 对于国际通话来说若是本地电话打往国外则被叫号码的前两位为 00 接下来几个数为国家地区代码具体长度不定从1到4位可查阅表7 12 数据准备续 3 数据预处理在现实世界中数据库极易受噪声数据空缺数据和不一致性数据的侵扰这些数据可能会影响甚至改变数据挖掘的结果导致无效或错误的决策此外数据挖掘时在大量数据上进行的不相关或弱相关的数据往往会影响挖掘的效率因此在进行数据挖掘之前应使用数据预处理技术提高数据挖掘模式的质量降低实际挖掘所需的时间从而提高其后挖掘过程的精度和性能采用的数据预处理技术包括数据清洗数据集成和数据变换数据准备续数据清理无效数据在通话记录数据中由于机器通信信号或者机器记录时的故障可能会出现空缺值不完整数据或者噪声数据如类似 0 00 000 的电话号码这些数据在检测设备故障时可能会起到重要作用但这些数据会降低数据挖掘的效率影响数据挖掘的效率和结果所以将这类数据输出到误单数据集中时长验证通话时长通话结束时间开始时间大于24小时的超长话单做误单处理数据准备续数据集成对于显示的电话号码由于以下这些因素将会导致同一电话号码形式多种多样网络运营商采用的IP电话接入号不同如电信为179 移动为17950 17951 通话所在的区域不同如长途电话相对本市电话固定电话前加区号国际长途电话固定电话前加00 国家代码与移动电话之间的长途通话移动电话前加0 针对以上各种情况消除不一致数据进行数据统一包括以下几个方面被叫号码处理从被叫号码中识别不同的ip电话接入运营商从被叫号码中分离国内各地级市的区号话单事件处理如果主被叫区号不同判是否为国际长途国内长途如果主被叫区号相同判是否为信息台等特殊话务数据准备续数据变换通过数据清洗数据集成消除了噪声统一了不一致但数据仍然没有规律这时应该进行数据变换将数据转化成适合挖掘的模式提取与公话服务电话通话的记录电话通话的明细数据被分成三类市话包括本地固定电话和本地固定电话的通话本地固定电话和本地手机的通话国内长途电话国际电话根据分析需求生成衍生变量数据准备续 4 客户数据除了通话明细记录外该项目需要一些基本的客户信息如表7 10 幸运的是电信公司投巨资建立了客户档案这些数据模型一般是使用电子表格来描述居民和商业客户的信息由于客户可能使用多条电话线因此客户数据需要与客户的电话号码相关资料做匹配数据准备续数据准备续 5 辅助文件通话明细分析通常需要格外的参考表这些表一般包含几十行到几百行的数据这些数据如ISP存取号码因特网服务器提供商的存储号码列表传真号码已知传真机的号码列表无线交换机移动通讯提供商的交换机电话号码的前3码列表交换机布局由电话号码交换机所展现的布局区字段列表如表7 11 国家代码以及对应国家的列表如表7 12 国内公共服务电话号码中国电话号码归属及收费说明表如表7 13 数据准备续数据准备续发现之旅 1 在通话记录中发现什么通话时长分析通话时间长短是客户行为的一个基本面然而更重要的是它能告诉我们很多关于数据质量的信息并给出该数据源是否产生合理价值的提示某些超短通话是否为骚扰电话超长电话是否为机器故障所致呢解决方法解决的方法就是产生通话时间的长条图由于通话时长按照秒进行存储这样的时间区间太小因此有太多的数据从而无法看到条形图本案例首先对时长进行分组以10分钟作为区间然后查看时长的分布条形图再分析10分钟及以内和10秒钟及以内的分布情况在时长分析时同时探索在每个时长中各种通话类型的比例发现之旅续结果本案例的通话时长有96 28 都分布在10分钟及以内且大部分为市内通话如图7 7所示这样的条形图对通话时长的探索还不够具体故将抽取时长为10分钟及以内的通话数据来观察时长的分布情况并以1分钟为区间在10分钟及以内的时长分布条形图中如图7 8所示共有19 553 655条通话数据主要数据分布在3分钟及以内最后抽取10秒及以内的数据来观察时长的分布情况如图7 9所示发现之旅续发现之旅续发现之旅续发现之旅续 2 每日时段通话分析感受通话明细数据的一个好方法是去分析不同类型的通话话单类型给本地电话 local 国内长途电话也称区域电话 national 国际电话 international 以及座机到移动电话的通话提供了一个明细分类什么时候会造成不同类型的通话呢此外有些通话的开始时间和结束时间分布在

人人文库> 全部分类> 应用文书 > 规章制度

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

案例分析---数据挖掘在通信业中的应用.ppt

文档简介

温馨提示

最新文档

评论

案例分析---数据挖掘在通信业中的应用.ppt

文档简介

温馨提示

最新文档

评论

相关文档