案例分析---数据挖掘在通信业中的应用.ppt_第1页
案例分析---数据挖掘在通信业中的应用.ppt_第2页
案例分析---数据挖掘在通信业中的应用.ppt_第3页
案例分析---数据挖掘在通信业中的应用.ppt_第4页
案例分析---数据挖掘在通信业中的应用.ppt_第5页
免费预览已结束,剩余94页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在通信业中的应用 案例分析 案例1 电信业务数据分析案例2 电话通话记录分析 案例分析 案例1 电信业务数据分析案例2 电话通话记录分析 概述 本案例学习如何为通信业公司建立客户流失模型 在电信业界 流失 Churn 一词专指客户的流失客户流失模型是用来预测哪些客户不久将流失 建立客户流失模型是数据挖掘在许多不同行业的共同应用 特别对电信而言 全球几乎每一家电信公司都正在或将要建立客户流失模型 而没有或不准备建立流失模型的公司是缺乏竞争力的 概述 续 在本案例中 研究如何使用数据挖掘技术加强客户关系管理问题 通过客户流失预测模型的建立和客户流失原因分析 找出适当的促销方式及客户保留措施 提高客户满意度和忠诚度 提升客户价值 找出有客户流失倾向的 有价值的以及潜在有用的客户 让更多的客户享受更好的待遇和实惠 从而降低客户流失率 提高客户保留率 从根本上提升客户关系管理水平 达到全面提高企业赢利能力和核心竞争能力的目的 最终为电信行业创造出更多的价值和财富 同时也为企业经营管理活动提供决策支持 客户流失分析流程 电信客户流失预测分析是数据挖掘技术在实际领域中的一项基本应用 其流程也符合数据挖掘的一般流程 主要包括以下几个方面 客户流失分析流程 续 客户流失分析流程 续 数据准备具体工作有数据收集 商业理解 数据理解 确定预测对象及目标等 数据处理根据收集到的实际数据进行具体分析和处理 主要包括数据清理 数据转换 特征构造以及数据调整等步骤 通过对历史数据进行分析并建立模型 对未来客户消费情况进行预测 这就要求有正确合理的历史数据 因此 数据集中的特征需要挖掘出能够体现客户消费价值及消费倾向的特征 在建立模型时 并不需要保留太多的特征 需挑选出能够充分体现客户价值及客户流失倾向的特征 即需要进行特征选择 客户流失分析流程 续 建立模型利用合适的数据挖掘算法对整理好的数据进行聚类细分 并建立流失预测模型 结果优化根据企业实际情况调整预测模型 优化预测结果 制定策略依据模型分析得到的结果制定相应的客户保持策略 电信客户流失原因分类 从世界各地的电信运营商运营情况来看 电信客户流失主要具有以下几个方面的性质 1 客户流失问题具有普遍性 2 客户流失不可避免 3 客户流失代价昂贵 4 客户流失难以控制 电信客户流失原因分类 续 电信客户流失原因分类 续 从电信客户流失原因分类图上可以看出 最易于辨别的流失者类型是非自愿流失者 非自愿客户流失已经成为某些运营商最大的一种流失类别 这一类别包括由于欺诈 不付款和使用不足而流失的客户 一般来说这类用户存在的比例不大 处理非自愿客户流失的一个有利之处是 运营商在如何管理这种客户流失问题上 具有很大的回旋余地 有许多手段可以处理非自愿客户流失带来的风险 例如欺诈 信用以及使用不足 都是可以提前预料的问题 通过加强对客户的筛选 可以减少此类情况的发生 虽然非自愿客户流失是相当大一部分客户流失问题的根源 但是 当人们想到电信运营商的客户流失的时候 通常想到的还是自愿客户流失 电信客户流失原因分类 续 自愿客户流失出现在客户开始终止服务合同之际 根据不同市场 不同的国家 不同的文化中各有不同 但大多数调查发现 自愿客户流失所声称的主要原因包括 电信客户流失原因分类 续 电信客户流失原因分类 续 调查显示存在许多不同的原因 但是 价格 质量 覆盖范围和客户服务这四个原因在所有客户流失原因列表中总是名列前茅 从客户流失的性质来看 又可以把上述具体客户流失原因又可以总结为以下几类 自然流失 恶意流失 竞争流失及过失流失 电信客户流失原因分类 续 数据准备 为了建立客户流失预测模型 必须收集大量的客户信息资源数据 同时需要对其进行数据预处理 得到构建模型所需的格式 因此 在这个阶段需要对模型所需的历史数据 训练数据和测试数据 进行分析和处理 以便能充分挖掘出客户的关键行为特征 数据准备 续 样本选择和数据描述以某地区电信行业的客户业务数据作为实验数据 包括训练样本集和测试样本集 该样本数据集中总共包含了176921条 正常客户记录156885条 流失客户记录20036条 记录 每条记录由18个客户基本特征和108个客户行为特征以及一个类别特征来刻画 样本数据集中主要包含三类特征数据 客户基本特征 主要客户资料数据客户基本特征数据是客户的静态数据 如表7 1 相对来说是比较稳定的 但由于这些数据在收集时会包含大量的缺失值 不一致的值甚至是错误的数据 所以需要进行大量的数据转换和清理工作 数据准备 续 客户行为特征 主要是客户的消费行为特征数据每条记录包含了客户在一个年度内的消费行为数据 包括一年中每个月的总费用 月租费用 本地通话费 传统国内通话费用 传统国际通话费用 传统港澳台通话费用 IP国内通话费用 IP国际通话费用以及IP港澳台通话费用等9个基本消费行为特征 所以该样本数据集中共包含108个 12 9 108 消费行为特征 详细内容见表7 2 数据准备 续 数据准备 续 数据准备 续 客户类别特征实验样本数据集中包含一个能够判定类别信息的类别特征 根据类别信息可知道每个样本的基本状态 如表7 3 在样本数据集中 客户类别特征 Class 由0和1来表示 0表示该客户已经流失 1则表示该客户是正常客户 数据准备 续 数据预处理数据预处理是数据建模前的准备工作 数据预处理的效果会直接影响到模型的性能及分类预测的效果 一方面 通过对数据格式和内容的调整 可以使建立的模型更加准确 简单且便于理解 另一方面 可以降低学习算法的时间和空间复杂度 数据预处理主要包括数据清洗 数据转换 特征构造和特征选择等几个过程 数据准备 续 数据清洗数据清洗的目的是补全数据 处理缺失值 除去噪声以及改正不协调的数据 例如在客户样本数据集中有些客户的套餐名称 套餐生效时间 套餐失效时间及套餐竣工时间等数据为空 在处理含有缺失值的特征时 如果有些特征的有效值少于总记录数据的1 5 则可删除此类特征 如果某记录中存在大量的空缺值 而这些空缺值难以以正常方法给予补全 则可以去除此类记录 数据准备 续 数据变换数据转换主要包括构造新的衍生特征和对连续型数据进行规范化 在实验数据集中除了有表示客户类别信息的特征外 也是用其它方法赋值的 没有直接体现客户价值和客户流失倾向的特征 在本实验数据集中 消费行为特征中只包含了12个月的消费行为 月总费用 月租费用 本地通话费 传统国内通话费用 传统国际通话费用 传统港澳台通话费用 IP国内通话费用 IP国际通话费用以及IP港澳台通话费用 这几个特征不能充分体现客户在季度和年度的消费情况 根据需要可以构造以下特征 季度总费用 将实验数据中的12个月平均分成四份 每三个月为一个季度 数据准备 续 数据准备 续 季度消费比率的大小可以从客观上反映客户的消费行为趋势 根据已知特征还可构造两个非常重要的特征 ForthQ total Rate为第四季度占总年度消费的百分比 该特征也能从一定程度上反映客户的消费近况 其计算如下 根据客户在一个年度内的消费情况可构造未消费月份数Non fee 此特征可反映样本客户消费情况及流失情况 数据准备 续 同时为了体现不同类别客户群体之间的消费差别 我们还需要构造8个不同的消费行为特征 分别为年度月租总费用 年度本地通话总费用 年度传统国内通话总费用 年度传统国际通话总费用 年度传统港澳台通话总费用 年度IP国内通话总费用 年度IP国际通话总费用 年度IP港澳台通总话费用 其计算方法比较简单 就是将12个月份的相关费用进行累加 数据准备 续 通过构造新特征 该样本数据集中总共包含了126个消费行为特征 108 原始行为特征 4 季度总费用 1 年度总费用 3 季度消费比率 1 Non fee 8 消费行为总费用 1 ForthQ total Rate 在样本数据集中我们可以根据客户的年度总费用及其它消费行为的总费用来判断客户的价值 以季度总消费 季度消费比率及未消费月份数来判断客户的潜在价值 采用消费行为总费用识别不同客户群体的消费倾向 数据准备 续 考虑到要对数据进行聚类分析 而聚类算法中要求对各连续型数据进行规范化 使得各连续数据的取值范围在 0 1 之内 因此 需要对所有连续特征数据进行规范化 规范化的采用最大最小值规范化方法 具体方法如下 假设S和S 分别表示某有限值域的原值和新值 max s和min s分别在该值域中数据的最大值和最小值 那么在该值域范围内各数据的规范化表达式可表示为 数据准备 续 特征选择经过数据清理和数据变换后 接下来就要进行特征选择 特征选择的效果会直接影响到分类预测模型的性能 通过特征选择可以减少样本的维度 大大减少计算量 降低时间和空间复杂度 简化学习模型 例如该样本数据集中电话号码和客户编号的相关性很强 我们可以认为它们之间存在冗余性 则可删除与目标特征相关性小的特征 即电话号码字段被删除掉 我们主要采用第三章介绍的基于混合特征相关性的特征选择方法进行特征选择 通过特征选择 服务编号 行业大类ID 行业小类ID 电话号码 竣工时间 拆机时间 最后一个月的IP港澳台通话费用 最后一个月的IP国际通话费用 最后一个月的传统港澳台通话费用 倒数第二个月的IP港澳台通话费用 倒数第二个月的IP国际通话费用 倒数第二个月的传统港澳台通话费用以及一年之中的月租费等12个特征被删除 数据准备 续 经过数据预处理 实验数据集中最后留下的客户基本特征和行为特征分别为5个 客户编号 客户类别 用户类型 渠道 产品 和108个 90个行为特征和18个构造特征 最后该数据集中保留下来的特征总数为113个 为了保证实验数据的分布能够很好地与现实情况相吻合 我们定义浓度这个概念来解释 其目的就是要使得训练出来的预测模型能尽可能的抓住流失客户的特征 所谓浓度就是训练集中流失客户与正常客户的比例 如果训练集中的正常客户与流失客户的比例为1 1 那么就说该训练集的浓度为1 1 通过观察我们会注意到 数据分布不平衡现象广泛存在于现实生活中 一般地 对于绝大多数电信企业来说 客户流失率都比较低 也就是说正常客户与流失客户的分布是不平衡的 每月流失的客户总是少数 而正常客户占绝大多数 数据准备 续 经过上述分析 我们需要调整正常和流失数据的分布比例 据电信部门统计 当正常流失率不超过20 时 客户流失特征不是很明显 因此 我们在实验中 取实验训练集的浓度为4 1 正常客户 流失客户 经过数据预处理 有效客户流失样本记录数为15326条 结合预先定义的训练集浓度 4 1 我们在样本集随机选取61304条正常样本与流失样本共同组合成训练数据集 所以用于实验数据集的样本总记录数为76630条 客户聚类分析 在讨论客户流失问题之前 我们首先要对客户进行细分 在电信市场业务中 清楚地了解客户类别是对每个客户群采取有针对性措施的基础 对电信业而言 不同的用户群在流失前后表现出不同的消费特征 这就需要将不同的群体分别开来对待 针对不同的用户群体建立分类预测模型 使得预测分析达到更好的效果 客户聚类是根据一个或多个客户特征组合把所有客户划分成不同的群体 相同群体的客户间具有最大的行为相似性 不同群体的客户间具有最大的行为差异性 通过对客户合理的类别划分 并对当前客户以及预期的客户群作区段分析 判断不同区段的突出特点 使电信企业对客户总体构成有准确的认识 同时对客户的服务和营销具有针对性 对客户聚类可以达到如下目标 了解客户群体的消费特征 了解客户的总体构成 了解各种客户价值的客户群体特征 了解流失客户的客户群体特征 客户聚类分析 续 根据常识我们知道 任何企业的客户按不同的标准可以划分为不同的类型 同样在电信行业中也存在着不同类型的客户群体 签于此 需要对客户进行聚类 可以得到更小 更精细的客户群体 在对客户进行聚类后 会得到不同的客户群体 而不同群体的客户对电信企业创造的价值是不同的 这里采用一趟聚类算法作为客户细分的基本方法 具体的客户细分流程见图7 5 客户聚类分析 续 客户聚类分析 续 在一趟聚类算法实验中 我们取聚类阈值S在 EX 0 5DX EX 中随机选取 得到的最后聚类结果为 训练集被聚成36个簇 聚类精度为87 94 其中大簇8个 小簇28个且几乎都是单条记录聚成的簇 相当于噪音 由于小簇对我们的研究没有任何实际意义 所以忽略28个小簇 在聚类结果中 8个大簇的正常样本和流失样本分布及各簇的年度消费总金额 各簇中客户的平均季度消费比率分别如表7 4和表7 5所示 客户聚类分析 续 客户聚类分析 续 从各簇的类别分布情况来看 有6个簇 簇1 簇2 簇3 簇4 簇6和簇7 的客户基本上都是由正常客户组成的 只有两个簇 簇5和簇8 的客户基本上是由流失客户组成 依据客户对企业所创造的价值 主要是各簇年度总费用平均值 可以将电信客户分为VIP客户群 簇7 约占总客户数的1 7 主要客户群 簇4 约占总客户数的8 5 普通客户群 簇2 约占总客户数的22 以及小客户群 簇1 簇3 簇5 簇6和簇8 约占总客户数的67 8 客户聚类分析 续 客户聚类分析 续 同时 从各簇的平均季度消费比率来看 簇6和簇8的消费比率呈下降趋势 所以属于流失型客户群而簇6属于具有潜在流失可能性的客户群 因为簇6中季度消费比率是逐渐减少 甚至第四季度的消费额只占到全年总消费额的1 5 所以可以判定簇6是具有流失倾向的客户群 而其它几个簇则可以认为是属于正常的客户群 但是它们的消费行为也存在较大的差别 再从各簇的类别分布分析得知 不同价值群都或多或少地存在着流失客户 即所有客户群中都存在着客户流失现象 只是流失程度不同而已 客户聚类分析 续 注 A G分别表示各簇单个客户的年度本地通话总费用 年度传统国内通话总费用 年度传统国际通话总费用 年度传统港澳台通话总费用 年度IP国内通话总费用 年度IP国际通话总费用及年度IP港澳台通话总费用 客户聚类分析 续 从上述两个表中同样也可以看出 8个簇中存在着两对消费趋势相似的簇 簇1和簇3 簇5和簇8 为了更清楚地了解不同簇中客户消费行为的区别 表4 6列出了簇1 簇3 簇5和簇8的单个客户年度消费平均值 从表7 6中可以看出 簇1和簇3的消费行为主要区别 簇1偏向于国际通话消费 而簇3主要是港澳台通话消费 同样可以看出簇5和簇8的区别在于国内和国际的通话消费偏向不同 根据聚类分析的结果 在簇6这一易流失的客户群中 他们的年度消费额度也比较大 如果不挽留这些客户将会带来很大的损失 查看客户的详细信息 了解客户具体的消费行为 分析客户的流失倾向和原因等等 这些都是电信企业的重要工作 建立分类预测模型 客户聚类作为预测的基础 目标是将客户划分为不同的类别 这样可以使预测分析在不同的客户群体上进行 也就是说可以根据各记录的簇标号判定客户的类别 因此 需要将聚类结果作为一个新的特征增加到实验数据集中 用于分类建模的数据集中包含了115个特征 113 1个聚类标号 1个目标特征 和76630条记录样本 实验根据各种分类算法的特点 我们选择算法结构和推理过程都比较好的决策树进行建模 本实验采用Weka的决策树分类器 C4 5 作为分类预测的基本工具 在实验中 对数据集采用随机选取2 3的数据用于训练 剩余的数据作为测试集 建立分类预测模型 续 决策树从顶部开始 直到获得最佳分类结果时才停止分支 当其达到最佳结果并获得按同一规则分类的客户时 便在底部出现叶节点 通过决策树的树形可视化 可以了解每个叶节点的分类规则所需的最重要的变量 如图7 6所示 第四季度 年度总费这个特征被认为是最重要的变量 接着是年度总费用 第一季度总费用以及渠道等等 现举例说明被分类为流失客户的一个分支节点 根据所显示的规则 这些客户为 1 第四季度占全年总费用的比率大于0 33656 2 年度总费用小于或等于61728元 3 第一季度总费用大于2630元 4 在符合上述条件的所有客户中 大客户类型为正常客户 而商业客户类型则为流失客户 建立分类预测模型 续 建立分类预测模型 续 表7 7列出了实验数据集的分类正确率 CorrectlyClassifiedInstances 分类精度 Precision 召回率 Recall F度量 F measure 以及混淆矩阵等测试结果 根据测试结果可以判定测试结果是比较理想的 能够用于电信行业的分类预测 对于几种评估方法的实际意义我们将在下一节中具体说明 此外 为了说明本文方法的有效性 我们未加聚类结果作为新特征的数据集进行同样的分类测试 其分类正确率为96 325 流失客户类别的召回率为0 932 经过对比可以看出 将聚类和分类相结合可以提高分类的性能 也能提高少数类的识别率 建立分类预测模型 续 模型评估与调整优化 聚类和分类预测模型所挖掘的是基于不同层面的知识 两模型的用途和作用也不同 很难评价这两种模型获取的知识之间是否存在优劣 但是由于选取的数据可能存在一定的偶然性和必然性 不能保证挖掘出来的知识能直接判定其正确性和适用性 因此需要对挖掘出的模型进行评估和检验 在评估和检验的分析结果的基础上对模型进行调整和优化 以保证所挖掘的知识更有效 更适用 能更准确的反映出市场状况 模型评估与调整优化 续 1 模型评估在数据样本选择 预处理 建模过程中都会得出一系列的分析结果 知识 模式或模型 它们是对目标问题的多个侧面的描述 但要形成最终的决策支持信息 还需要对这些结果和模型进行综合的解释和分析 由此可以看出 模型评估是数据挖掘过程中必不可少的一个步骤 通过对模型进行评估 检验样本数据的代表性以及模型的完备性 模型的评估分为两个步骤 第一步是由数据挖掘模型使用检验数据对挖掘出的模型进行评估 第二步是由数据分析人员对经过系统检验的数据进行评估 由于在进行数据挖掘时 特别是对大规模的数据进行挖掘时 有可能是数据预处理中的特征选择方法在处理具体问题时产生了偏差 当模型建立起来后 这些问题往往会很容易被发现 这时挖掘出的知识虽然正确 但并不一定具有实际价值 这就需要利用数据分析人员的业务知识对其进行过滤 模型评估与调整优化 续 一般来说 模型的优劣可以从两个方面来进行评估 一是从商业角度来评估模型的准确性 并尽可能找出解释的原因和理由 二是从理论角度来解释模型的合理性 从理论上判断挖掘结果的可行性 从理论上说 对数据挖掘模型评估的数据应该利用未参与建模的数据进行检验 这样才能得到更准确的结果 利用建模数据进行检验很容易导致分类模型出现较大的误差 一个好的分类器不仅要能够很好地拟合训练数据 而且对未知样本也要能准确地分类 换句话说 一个好的分类模型必须具有低训练误差和低泛化误差 因为对训练数据拟合太好的模型 其泛化误差可能比具有较高训练误差的模型高 这种情况下就会导致所谓的过分拟合 模型评估与调整优化 续 聚类模型评估聚类模型的评估无法在测试集上进行 评估聚类模型的主要方法就是看它所产生的每个簇对应的规则集是否能给出确切的商业解释 对于聚类模型来说 聚类模型的建立的是用户整体特征 用整体特征去判断某个客户的具体行为可能是不合理的 为了能够更全面地反映客户整体特征 使用越多的数据并且选择合适的特征 结果就越贴近真实存在的客户特性 从聚类结果中可以判定客户价值以及簇与簇之间的相似性与区别 不同客户群的客户在基本特征及消费行为特征方面的表现都是不相同的 模型评估与调整优化 续 分类预测模型的评估针对分类模型的检验方法是对已知客户状态的数据利用模型进行预测 得到模型的预测值和实际的客户状态进行比较 由于并不指望挖掘出普遍真理只是希望能够挖掘出在客户服务和市场决策中可供参考的知识 因此在进行模型检验时 需要对模型进行评估 如果在评估时达到要求就可以认为是合理的 可以接受的并能够进行实际使用的知识 分类预测模型评估主要是在测试集上进行验证 评估分类预测模型的主要方法有分类正确率 召回率 预测覆盖率 预测命中率 分类精度 以及F measure值 如表7 8所示 模型评估与调整优化 续 模型评估与调整优化 续 分类正确率和预测命中率都是描述模型精确度的指标 其中分类正确率是预测正确记录数占总记录数的比值 预测命中率是预测流失中实际流失的比例 召回率是描述模型的普适性的指标 是实际流失中预测正确的比例 在实际模型的应用中 这三项指标实际上决定了决策者是否对特定客户群采取必要措施来降低流失率以及对哪些客户进行挽留 如果覆盖率过低 例如 覆盖率仅达到40 也就是说预测流失的客户数远远少于实际流失的客户数 这可能给决策者一个错误的信息 认为该指定客户群没有进行挽留的必要或者进行挽留代价过高 造成决策失误 影响企业的最终营业收入 模型评估与调整优化 续 预测命中率和分类正确率同样也都是一个非常重要的指标 它反应了预测模型的准确性 当预测覆盖率达到要求时 需要对客户采取挽留措施 但如果预测命中率过低 则会造成对目标客户的误分类 其结果可能是对一些没有流失倾向的客户采取了挽留措施 而对一些流失倾向较大的客户则出于其被错误的划分为非流失客户没有进行挽留造成客户流失 商业投入的浪费 因此 合适的预测命中率和覆盖率对企业的经营决策有重大的影响 由上述分析可知 这几个指标值越大 说明模型的预测效果好 从行业标准来看 基于决策树的分类模型已经达到了要求 几个主要指标都比较理想 可以投入使用 模型评估与调整优化 续 2 模型调整与优化运用模型是将数据挖掘结果运用到业务操作中的关键步骤 而预测结果会直接影响到电信部门的营销和市场动作 所以当建立预测模型后 必须要根据测试集的预测效果对模型进行一定的调整与优化 提高模型的预测效果 当得到被认为正确的知识后 希望业务人员可以针对得到的知识做出一些合理的业务理解 例如 可能发现客户的消费总金额与客户的流失可能性相关度较高 模型评估与调整优化 续 对于分类模型的调整 其主要方法是对模型的参数的进行设定 不同的挖掘算法建立的模型所得结果也不尽相同 所以参数也不同 其调整与优化的方式也有很大的差异 对于聚类算法来说 聚类算法的选取 聚类阈值的确定和记录顺序会直接影响到聚类性能 对聚类结果进行改进的方法有 试用多个聚类算法及多次试验探索聚类阈值取舍 以能得到最好聚类性能 聚类精度高和可解释性强 的算法和阈值作为实验算法和参数 将训练数据随机打乱顺序多次 比较多次实验结果 在性能差异相差不大的几个训练集中抽出一个训练集进行实验 经过理论分析和实验测试 从聚类的性能和时间复杂度两方面进行综合考虑 选择一趟聚类算法作为客户细分的基本方法 模型评估与调整优化 续 对于分类算法来说 我们主要调整的是误分类成本和模型参数 大多数预测模型都把在正常客户预测为流失客户与流失客户预测为正常客户这两种默认预测错误代价认为是相同的 但是针对于不平衡数据而言 多数类和少数类的错分代价是不相同的 把多数类的样本预测为少数类代价相对较低 而把少数类预测为多数类的代价往往是较高的 所以我们要尽量提高少数类 流失客户类 的分类精度 从而降低少数类的错分成本 对于决策树模型来说 我们主要是调整树的结构 比如设定树的最大层数 每个节点的分支数量等等 小结 数据挖掘技术在为电信企业争夺客户资源 制定营销策略 扩大市场份额 拓展业务领域等方面都可以起到不事或缺的作用 使用两类模型进行挖掘 聚类和分类预测模型 针对客户流失这个问题来说 聚类有利于分析客户特征 让经营决策者可以根据流失客户的特征制定具有针对性的市场策略来减少客户的流失 而分类预测模型通过数据挖掘获得的知识 更主要地是对每个客户的消费行为进行评估 对客户的流失行为进行预测 结合聚类和分类模型的结果基本上判定流失客户的类别及价值 从这些知识的用途来说 聚类模型建立的是战略方面的知识 分类预测模型建立的是战术层面的知识 小结 续 分类和聚类的方法各有利弊 可以应用于不同的场合和目标来帮助我们解决不同的问题 将两者结合起来可以发挥更大的效益 在进行电信市场客户细分时 由于我们对电信的业务数据的特性已经有非常深刻的认识 并掌握了丰富的业务规则 客户细分的业务目标也常常是很明确的 知道什么是我们应该关注的 并明确我们要解决的问题 因此常可以用分类的方法快速达到客户细分的目标 并将结果立竿见影地应用于市场营销 但我们也需要周期性地采用聚类分析方法对我们的客户来进行全方位地洞察并发现一些被我们忽视的可以带来潜在商机的业务规则和有趣的细分 总之 通过综合分析客户流失的关键性特征和原因 对现有有价值的客户进行预测 对客户进行细分 再根据分类预测的结果为市场部门针对不同类型易流失客户制定不同的客户挽留策略提供信息支持 案例分析 案例1 电信业务数据分析案例2 电话通话记录分析 概述 电信业已经把目光从基础建设为中心的业务转移到以客户为中心的业务上来 能卖出获利最多的服务给最多客户的人 就是赢家 了解客户行为是这项业务战略中最关键的部分 而详细的交易数据包含了丰富的 一般而言尚未被这些公司开发利用的信息 那么 对这么大量的数据进行投资做挖掘值得吗 过去 这些纯通话明细记录阻碍了他们去了解客户行为 这种状况通常导致的结果是 需要一个向导性的项目来说明这些通话明细记录进行挖掘的价值 这种结果是一种对业务使用者的描述 而不是马上的行动 然而 令人兴奋的结果是 这的确导致更进一步的工作以及客户更好的了解 简而言之 业务问题就是 展现对大量通话明细记录进行挖掘的价值 如何更深刻地理解客户 如何实现存量客户的流失保有 如何挖掘增量潜在客户 如何进行交叉销售提升客户价值 如何进行欺诈识别防范经营风险 如何推出适合客户消费特点的产品及套餐 这些成为经营必须面对的问题 案例背景 一个典型项目的开发 或者会展现数据仓库中数据的价值 或者会鼓励公司投资于通话明细记录的数据仓库 该案例的数据本身包含了几个行为 在数据挖掘工作之前 需要设立能处理这些数据的硬件及软件系统 而数据则必须集合在一起 数据挖掘工作本身包含三个部分 第一个部分是调查工作 从而决定哪些信息会令人感兴趣 达到该目标的唯一方法是和业务人员讨论 其结果是一张列着令人感兴趣的问题的列表 数据探索是下一步工作 花费的时间会因不同的因素的数量 从一周到数周不等 像数据量 提出的特定问题 数据的质量 硬件和软件的能力 最后一部分工作是 把结果总结成一致的表现形式并请适当的人一起来听 业务需求分析 和业务人员讨论 强调分析的几个关键领域 这些领域是指导方针 第一 了解消费者之间的关系 根据消费者的潜在关系 业务人员可以借助其中一个消费者向其关系性高的消费者进行产品或业务的推销 第二 通话模式有地区性的不同 对控制和定价部门而言 了解这一点非常重要 因为它能显示为什么不同地区应该以不同的方式衡量收费 业务使用者对此并不全部知道以什么模式解释这些不同 这个问题留给分析团队来解决 业务需求分析 续 第三 通话模式有时间性的不同 一周中的某一天或一天中的某个时段 通话的频率有所不同 了解这一点可以知道通话的闲时和忙时 同样可以帮助业务人员制定合理的收费方式 第四 高利润则是另一个令人感兴趣的部分 国际电话仅占所有通话量的少部分 但利润贡献与其通话量并不对称 数据能告诉我们哪些与国际通话模式有关的信息 随着因特网的快速发展 哪些客户使用因特网 第五 了解个别消费者的行为 消费者什么时候会使用电信服务 谁比较有可能在家进行在线工作 什么号码转接到移动电话 谁使用了ISDN连接网络 通话明细记录能够帮助回答类似的典型问题 数据准备 在本案例里使用得最多的数据源就是通话明细记录 同时 这些记录的结构通常相当简单 这些数据可保存在以逗号分隔的纯文本文件中 这种类型的文件和输入电子表格的数据文件相当类似 不过文件比较大 通话明细可以从三个典型的有代表性的来源得到 直接交换机记录 这是直接从交换机产生的记录 大体来说 这是最不干净的数据 但却是包含了最多的信息的数据 数据准备 续 计费系统的输入数据 交换机的记录最终要转换成计费记录 这里的数据比较干净 但不完整 有些记录如免费电话记录 比如打给公共服务电话的通话记录 就不会输入到计费系统中 数据仓储提供的输入数据 这是另一个数据源 这里的数据更加干净 但是会受到数据仓储需求的限制 当然 我们还需要其他数据源的数据 需要描述客户以及参考文件的表格 稍后将提及最一般性的表格 有趣的是 有些更重要的信息 有时就存放在桌面的电子表格里 尤其是参考数据更是如此 例如因特网服务提供者的存取次数表 国际电话的国家代码等等 数据准备 续 1 通话明细数据每一个通话明细记录都是由电话网络对每一次通话进行的详细记录 因为通话量非常大 所以通话明细记录也非常大 通常通话明细数据用来让计费系统产生客户的账单 也就是说 这样的数据源仅包含拨打者必须付费的通话 并不包含接入电话 因为受话端的人通常不需因此付费 免付费电话或者公司内部电话 通话明细记录也包含潜在的付费事件 例如开启电话转接服务或通过ISDN进行数据转发 事件记录通常占全部记录的小部分 数据准备 续 2 记录格式本节描述典型的通话记录格式 首先介绍一些重要的字段 表7 9显示具体的字段描述 数据准备 续 数据准备 续 要注意的是 每一个字段的绑定可能有几种不同的类型 下面列出四种类型 通话记录为固话市内通话时 其主叫和被叫的号码长度是固定的 并且长度是一致的 若是本地固定电话和本地手机的通话 主叫和被叫的长度固定的 当长度不一致 对国内固话长途来说 有两种情况 如果是打往到国内非本地时 则被叫号码的前3或4个码为被叫所在地的区号 如果是国内非本地打进时 则主叫号码的前3或4为主叫所在地的区号 对国内固话和手机之间的长途通话来说 无论是本地固话打给国内外地手机 还是国内外地手机打给本地固话 手机号前都加 0 对于国际通话来说 若是本地电话打往国外 则被叫号码的前两位为 00 接下来几个数为国家 地区代码 具体长度不定 从1到4位 可查阅表7 12 数据准备 续 3 数据预处理在现实世界中 数据库极易受噪声数据 空缺数据和不一致性数据的侵扰 这些数据可能会影响甚至改变数据挖掘的结果 导致无效或错误的决策 此外 数据挖掘时在大量数据上进行的 不相关或弱相关的数据 往往会影响挖掘的效率 因此在进行数据挖掘之前 应使用数据预处理技术 提高数据挖掘模式的质量 降低实际挖掘所需的时间 从而提高其后挖掘过程的精度和性能 采用的数据预处理技术包括 数据清洗 数据集成和数据变换 数据准备 续 数据清理无效数据 在通话记录数据中 由于机器通信信号或者机器记录时的故障 可能会出现空缺值 不完整数据或者噪声数据 如类似 0 00 000 的电话号码 这些数据在检测设备故障时可能会起到重要作用 但这些数据会降低数据挖掘的效率 影响数据挖掘的效率和结果 所以将这类数据输出到误单数据集中 时长验证 通话时长 通话结束时间 开始时间 大于24小时的超长话单做误单处理 数据准备 续 数据集成对于显示的电话号码 由于以下这些因素 将会导致同一电话号码 形式多种多样 网络运营商采用的IP电话接入号不同 如电信为179 移动为17950 17951 通话所在的区域不同 如长途电话相对本市电话 固定电话前加区号 国际长途电话 固定电话前加00 国家代码 与移动电话之间的长途通话 移动电话前加0 针对以上各种情况 消除不一致数据 进行数据统一 包括以下几个方面 被叫号码处理 从被叫号码中识别不同的ip电话接入运营商 从被叫号码中分离国内各地级市的区号 话单事件处理 如果主被叫区号不同 判是否为国际长途 国内长途 如果主被叫区号相同 判是否为信息台等特殊话务 数据准备 续 数据变换通过数据清洗 数据集成 消除了噪声 统一了不一致 但数据仍然没有规律 这时应该进行数据变换 将数据转化成适合挖掘的模式 提取与公话服务电话通话的记录 电话通话的明细数据被分成三类 市话 包括本地固定电话和本地固定电话的通话 本地固定电话和本地手机的通话 国内长途电话 国际电话 根据分析需求生成衍生变量 数据准备 续 4 客户数据除了通话明细记录外 该项目需要一些基本的客户信息 如表7 10 幸运的是 电信公司投巨资建立了客户档案 这些数据模型一般是使用电子表格来描述居民和商业客户的信息 由于客户可能使用多条电话线 因此客户数据需要与客户的电话号码相关资料做匹配 数据准备 续 数据准备 续 5 辅助文件通话明细分析 通常需要格外的参考表 这些表一般包含几十行到几百行的数据 这些数据如ISP存取号码 因特网服务器提供商的存储号码列表 传真号码 已知传真机的号码列表 无线交换机 移动通讯提供商的交换机 电话号码的前3码 列表 交换机布局 由电话号码交换机所展现的布局区字段列表 如表7 11 国家代码以及对应国家的列表 如表7 12 国内公共服务电话号码 中国电话号码归属及收费说明表 如表7 13 数据准备 续 数据准备 续 发现之旅 1 在通话记录中发现什么 通话时长分析通话时间长短是客户行为的一个基本面 然而更重要的是 它能告诉我们很多关于数据质量的信息 并给出该数据源是否产生合理价值的提示 某些超短通话是否为骚扰电话 超长电话是否为机器故障所致呢 解决方法解决的方法就是 产生通话时间的长条图 由于通话时长按照秒进行存储 这样的时间区间太小 因此有太多的数据从而无法看到条形图 本案例首先对时长进行分组 以10分钟作为区间 然后查看时长的分布条形图再分析10分钟及以内和10秒钟及以内的分布情况 在时长分析时 同时探索在每个时长中各种通话类型的比例 发现之旅 续 结果本案例的通话时长有96 28 都分布在10分钟及以内 且大部分为市内通话 如图7 7所示 这样的条形图对通话时长的探索还不够具体 故将抽取时长为10分钟及以内的通话数据来观察时长的分布情况 并以1分钟为区间 在10分钟及以内的时长分布条形图中 如图7 8所示 共有19 553 655条通话数据 主要数据分布在3分钟及以内 最后 抽取10秒及以内的数据来观察时长的分布情况 如图7 9所示 发现之旅 续 发现之旅 续 发现之旅 续 发现之旅 续 2 每日时段通话分析感受通话明细数据的一个好方法是 去分析不同类型的通话 话单类型给本地电话 local 国内长途电话 也称区域电话 national 国际电话 international 以及座机到移动电话的通话提供了一个明细分类 什么时候会造成不同类型的通话呢 此外 有些通话的开始时间和结束时间分布在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论