




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
客户流失分析 数据挖掘 案例分析1 上海 通信技术有限公司MrJim seniordba 2014 02 培训大纲 一 统计知识二 案例背景三 商业理解四 数据理解与数据准备五 建立模型与模型评估六 模型应用七 总结 CRISP DM CRISP DM 即跨行业数据挖掘标准流程 的缩写 是一种业界认可的用于指导数据挖掘工作的方法 指标变量获取 从业务系统中取出的数据都是根据业务的需要考虑设计的 但往往不能达到取得良好数据挖掘结果的目的 这时需要对数据进行各种变换或者生成相关的衍生变量 下面介绍一些数据的常用变换形式和衍生变量生成的常用方法 1 单变量的变换为了建立模型的便利 经常要对现有的变量进行某种形式的变化 这里总结出以下几个类型的单变量变换方法 指标变量获取 连续变量向连续变量的转化 连续变量的变换通常有这样几种情况 使数据便于计算和比较进行的变化 例如由单位是分变为单位是元 入网时间 时间型号变量 向在网时长的转化 为了修正数据的分布对数据进行适当的变化 例如对数变换 倒数变换等 使不同量纲和数量级的数据具有可比性的变化 即标准化变化 标准化变换通常有两种形式 一种是 原值 平均值 标准差 另一种是 原值 最小值 最大值 最小值 这种变换后取值范围在0 1之间 指标变量获取 连续变量向离散变量的转化 一个变量取值是大是小 往往只是相对而言 分析中经常需要把一个连续取值变换为离散的分级变量以使业务上更好理解 连续变量向离散变量的转化可以完全基于业务来考虑 比如对客户的年龄分群 有些企业就是把18 40岁算作他们的青年客户 如果从统计学角度考虑 连续型变量向离散型变量转换主要是进行分箱变换 可以分为三种 按照等距离进行分箱 按照等数量进行分箱 按照分布进行分箱 例如把数据分为3段 小于平均数 3个标准差为第一段 大于平均数 3个标准差且小于平均数 3个标准差为第二段 大于平均数 3个标准差为第三段 指标变量获取 离散变量向连续变量的转化 对于有些分级类型的离散变量 可以将它理解为对连续变量做处理和建立模型 例如 对于二分的标志变量 也可以将它们转化为连续变量 即将标量的一个取值记为1 另一个取值记为0 这样 如果将1理解为1 0 将0理解为0 0 则这个标志变量可以理解为是分布在0 0 1 0之间的一个连续变量 只不过这个连续变量比较特殊 在观察到数据中只有0 0和1 0两个取值 离散变量向离散变量的转化 当离散变量的类别数特别多时 可以对它们适当的归并 例如将个数特别少的类别统一归为其它就是典型的一种 另外 一个多分的离散变量也可以变为多个二分的标志变量 比如有一个离散变量是X 它有a b c三个取值 那么完全可以把它变为Xa Xb Xc三个变量 每个变量有1和0两个取值 而当X取值为a时 对应的情况是Xa取值为1 而Xb Xc的取值都为0 指标变量获取 2 衍生变量为了更清晰的说明衍生变量的生成 我们把数据分为两类 一类是横截面数据 指某一时点上收集到的数据 另一类是时间序列数据 一条记录代表一个时间点或者时间段上的取值 通常会有一个表示时间的变量 对横截面数据的衍生变量来说有以下一些常用的生成衍生变量的方法 强度相对指标 有一个联系的两个指标之间相比的结果得到的指标 例如平均通话时长 总通话时长 总通话次数 比例相对指标 用来反映总体中各组成部分所占比例的一个指标 指标变量获取 2 衍生变量对时间序列数据有以下一些常用的生成衍生变量的方法 滞后类指标 对于时间序列数据 各条记录之间联系更加紧密 我们通常会取上一条记录 例如代表上月取值 及上年同期 例如去年同月 与当前记录相比得到环比增长率 例如本月值 上月值 和同比增长率 例如本月值 上年同期值 为了消除波动 有时我们还对多个时间段数值进行求和 平均等操作 例如股市中常用的股价5日平均值 这类指标可以被归结为滞后类指标 汇总类指标 汇总类指标 求和 平均值 最小值 最大值 标准差 记录数等 指标变量获取 3 趋势类指标对时间序列变量来说 一个重要的方面是看趋势 例如在这个案例中 我们特别关注每个客户的通话时长等指标的趋势 是变多 变少 还是随机性的波动 我们有理由猜测 如果一个客户的通话时长趋势是变少 那么这个客户流失的可能性会更大 但是如何衡量趋势呢 最朴素的想法是用最后一个月的取值除以第一个月的取值看增长率 但是这样会丢失很多中间月份的数据信息 我们还可以使用下面的方法来查看趋势 即建立变量与时间的回归模型 例如在这个案例中 自变量为月份 因变量为通话时长 将自变量的回归系数作为趋势 也可以使用标化回归系数作为趋势 这个值大于 则趋势是变多 这个值小于 则趋势是变少 趋势的计算公式如下 以x作为月份 y代表通话时长 n代表月份数量 则 指标变量获取 4 波动类指标对时间序列变量来说 趋势只反映了大致方向 但是这个方向的过程是一帆风顺 还是惊淘骇浪呢 可以使用波动指标来进行度量 简单地 可以使用标准差或变异系数来衡量波动 也可以使用如下公式计算波动 培训大纲 一 指标变量获取二 案例背景三 商业理解四 数据理解与数据准备五 建立模型与模型评估六 模型应用七 总结 案例背景 现在假设你是电信企业的一个数据分析经理 发现最近电信市场又在血拼 竞争对手不断挖公司的墙角 公司的高端客户这个月又流失了不少 公司打算组织一个市场营销活动来遏止这种趋势 可是这个客户挽留活动毕竟只是公司众多市场活动中的一个 预算也有限 看看数据仓库里积累了那么多数据 能不能挖挖这些数据 看看哪些客户可能会流失 这些客户都有些啥特征 做这样的市场活动大概会有啥投资汇报 培训大纲 一 指标变量获取二 案例背景三 商业理解四 数据理解与数据准备五 建立模型与模型评估六 模型应用七 总结 通信业是一个竞争异常激烈的行业 如何对客户进行有效的管理 尽可能的减少客户的流失和跳网是一个紧迫的问题 这里将介绍数据挖掘在移动通信业关于客户流失研究中的应用 数据挖掘技术将提供功能强大的模型 可以回答诸如 哪些客户最可能流失 和 为什么这些客户会流失 等问题 商业理解 流失与哪些因素相关顾客年龄 性别 收入 行业 话费水平 话务质量 确定数据挖掘目标对客户进行分群 寻找高流失的客户群建立规则 描述那些可能流失的客户特征建立打分模型 对客户流失可能性进行评价 商业理解 商业理解 我们可以把流失问题归结为如下 个问题 预测哪些客户 尤其是哪些高价值的客户 可能会流失 可能流失客户的特征是什么 市场挽留活动的预计收益是多少 商业理解 如何定义流失经过与业务人员的充分沟通 最终定义 销号 欠费超过 个月 后付费客户 个月无通话行为 预付费客户 变量值记为 否则为不流失 变量记为 商业理解 哪些变量可用于预测流失 客户基本信息数据 包括客户的年龄 性别 入网时间等 客户行为数据 主要是客户使用电信产品和服务情况的数据 比如客户的通话详单记录 客户订阅 使用 退订增殖服务情况等 这部分数据容易获得 存放在业务系统中 一般数据质量较好 客户交互数据 包括客户投诉 业务咨询以及客户对电信的市场营销活动等响应情况等数据 尤其是客户拨打客服电话的的情况 客户态度数据 包括客户对电信服务的满意程度 意见和建议 客户流失的真正原因 是被竞争对手挖角 搬家 对产品或服务不满意 还是特别喜欢特定手机终端 等 这部分数据需要通过市场调查获得 但获得成本过高 往往不在我们考虑的范围之内 希望全面使用以上 个类别的客户数据 但实际项目中有些数据或者由于获取成本太高 或者由于数据库系统中没有记录 导致分析时无法使用 最终可能发现 真正能用于作为数据挖掘的预测自变量只剩下客户基本信息和客户行为数据两类 甚至这两个类别中包含的变量也只有在数据理解阶段完成数据质量审核后才能决定是否可用 商业理解 定义分析用数据的时间窗口如何定义预测的输入变量 自变量 和预测变量 因变量 的时间窗口 对自变量窗口来说 进行流失分析的目的显然是希望在客户流失之前发现他 而在业务系统中 客户行为是连续发生的 那么在分析时应该取多长时间的数据呢 取的时间过短 可能客户的行为受随机因素影响太大 不具有代表性 取的时间过长 历史太久远的数据不能反映客户最新的趋势 综合考虑数据的可获取性和有效性以后的结果 我们这里取6个月的历史数据 对因变量 是否流失 的数据窗口来说 为了使得到的预测结果既具有前瞻性 又能给营销部门充分的营销时间 我们考虑流失定义的时间窗口与自变量的定义窗口间隔一个月 通常需要3 7天的数据处理时间 再考虑到如前述流失定义需要3个月的观察期 欠费与无通话行为情形 具体预测自变量和目标变量 因变量 的时间窗口如下图所示 预测自变量时间窗口 预测目标变量时间窗口 间隔 商业理解 如何从分析结果中获取实际收益得到了流失预测结果 如何使用 如何事先预估市场挽留活动的收益 通过数据挖掘得到流失分析的结果往往有两类 一类是流失客户的特征描述另一类是针对每一个客户的流失评分 流失客户的特征描述可用来帮助市场部业务人员在制订挽留性营销策略时参考 从而制订出有针对性的挽留策略 而流失评分结合其它变量 例如客户价值 可以帮助业务人员决定应该对哪些客户进行挽留 经过与市场业务人员的讨论 我们得知针对特定客户的挽留措施往往是给他们一定折扣或者优惠政策 这样就大体上得到了预估市场挽留活动预期收益的数据公式 预期收益 流失客户预期收入 流失客户挽留预期成本其中 流失客户预期收入可以用流失客户过去若干个月的总花费或者平均花费来表示 流失客户挽留预期成本包括 电信公司进行时常挽留活动的总体策划 宣传成本 针对客户的集体折扣或优惠成本 培训大纲 一 指标变量获取二 案例背景三 商业理解四 数据理解与数据准备五 建立模型与模型评估六 模型应用七 总结 套餐数据 数据理解 数据理解与数据准备 在数据理解与数据准备阶段 我们将对数据做初步探索性分析 了解数据质量状况 考察数据的大致分布情况 此外还要将各方面的数据进行合并 整理成可以进行数据挖掘的宽表形式 即行代表记录 列代表变量的二维表 并进一步根据业务上的考虑 生成一些有业务含义的衍生变量 在实际的数据挖掘项目中 我们会发现 数据理解和数据准备的时间经常会占到整个项目周期的60 70 甚至更多 数据理解 接口1 数据理解 接口2 数据理解 接口3 数据理解 接口4 数据理解 宽表生成 输出 数据理解 宽表生成 续 数据理解 宽表生成 续 数据理解 关键术语和指标定义 数据探索性分析 离散变量的探索性分析方法离散变量分为两类 名义型和有序型 名义型 取值之间没有大小关系 也无法比较好坏优劣有序型 取值之间可以比较大小 有好坏优劣之分1 名义型离散变量的探索性分析方法离散变量各个取值的数量及占比图形 饼图 条形图2 有序型离散变量的探索性分析方法离散变量各个取值的数量及占比图形 饼图 条形图频数表 累积频数 累积频率 数据探索性分析 连续变量的探索性分析方法1 集中趋势 均值 中位数 众数2 离散趋势 最小值 最大值 全距 标准差 变异系数3 分布形态 偏度 峰度4 使用图形 直方图 箱线图 数据探索性分析 变量之间关系的探索性分析方法1 离散变量与离散变量条形图 网络图2 离散变量与连续变量直方图 箱线图3 连续变量与连续变量散点图 培训大纲 一 指标变量获取二 案例背景三 商业理解四 数据理解与数据准备五 建立模型与模型评估六 模型应用七 总结 建模和评估 Kohonen聚类Kmeans聚类C5 0建立规则C RT决策树神经网络模型 对客户进行聚类分析 并比较不同客户群流失可能性 建立规则 描述那些易于流失的客户群的特征建立打分模型 对客户流失可能性 概率 进行评价 模型的选择 1 因素一 业务角度的考虑商用数据挖掘是从业务中来到业务中去的过程 在数据挖掘项目的整个过程中都不能忘记我们的服务对象是业务 选择什么样的模型首先应该考虑 模型结果的表现形式如何 这个模型对业务有帮助吗 模型的结果如何应用 具体到流失问题来说 从营销挽留策略来看 不同级别客户的服务方式大不一样 对VIP客户 可以采取一对一的挽留策略 而对普通客户 往往针对客户群设计挽留策略会更加经济有效 这就提示我们 应当根据客户的价值高低建立两类模型 模型的选择 模型的选择 2 因素二 工具角度的考虑市面上数据挖掘工具很多 选择使用哪个进行数据挖掘呢 对数据挖掘项目组来说 要从价格 功能 易用性 与企业现有系统是否兼容等考虑选购 选定工具以后 选择模型就要从工具支持角度考虑 这是工作中的一个现实约束条件 3 因素三 模型准确性角度的考虑针对同样的问题 科学家往往发明了多种算法来实现 对于不同的业务问题 不同的数据 不同的模型往往得到的结果准确性也有很大的差异 而模型的准确性无疑是选择何种模型的一个重要考量 模型的选择 4 因素四 模型可应用性角度的考虑模型结果最终是为了帮助业务的开展 为了真正用起来 模型结果描述的通俗性 模型涉及变量获取的方便性等也是选择使用什么模型的重要依据之一 数据挖掘中提供了很多种类型的算法 每种算法各有特点 例如决策树模型结果可以决策数或者规则集的方式表述 业务人员容易理解 而神经网络模型更像一个黑盒子 预测结果可能较精确 但是预测结果却难以理解 在选择模型的时候 我们要考虑业务人员是只关心数据挖掘评分结果还是同时关注模型预测依据来决定选择使用哪个模型 另外 为了保证模型应用的便利性和可推广性 最终使用的模型应该是能够保证一定准确度的较简单模型 而不是一味为提高模型准确度去选择涉及大量变量 形式异常复杂费解的模型 数据挖掘模型 1 预测类模型目标变量为离散变量的预测模型 该类模型的目标变量是离散变量 相关的模型有 Logistic回归 决策树 贝叶斯网络 判别分析 最近邻酸法 支持向量机 C5 0 C RT QUEST CHAID 神经网络目标变量为连续变量的预测模型 相关的算法有回归分析 广义线性模型 最近邻算法 支持向量机 C RT CHAID 神经网络时间序列预测模型 一类特殊的连续变量预测问题 时间序列是将某种统计指标的数值按相等时间间隔及先后顺序排列而形成的数列 时间序列预测的目标正是预测该数列未来的值 2 细分类模型一种无监督的数据挖掘方法 该模型无目标变量 只有输入变量 无输出变量 该模型的好坏通常通过是否具有业务含义来评价 相关算法有K Means Kohonen和Two Step三种聚类分析方法可以实现细分 3 关联规则模型一种无监督的数据挖掘方法 该模型有若干输入变量和目标变量 有些变量甚至同时是输入变量和目标变量 相关算法有Apriori和Carma 如果在关联中考虑到时间的先后 还可以使用Sequence算法 目标变量是二分标志变量的预测结果转换 1 从离散的预测结果向连续的评分预测结果的转换对于使用C5 0得到的离散变量是否流失的预测结果 可以通过如下变换将它转化为流失评分 如果SC Churn 1 则流失评分 0 5 CC Churn 2如果SC Churn 0 则流失评分 0 5 CC Churn 2这时流失评分的取值范围为 0 0 1 02 从连续的评分预测结果向离散的预测结果转换对于使用神经网络得到的流失评分结果 假设流失评分结果取值范围是0 0 1 0 可以通过如下转换将它变为流失预测及流失预测的把握程度 如果 N Chrunscore 0 5 则流失预测 1 流失预测把握程度 2 N Churnscore 0 5如果 N Churnscore 0 5 则流失预测 0 流失预测把握程度 2 N Churnscore 0 5 目标变量是标志变量的的几种常用评估方法 预测模型 1 指标法这里介绍几个用来评价模型优劣的常规指标 为了准确描述各个指标的计算公式 预测值和实际值的预测关系表如右图所示 模型准确率 一个描述模型总体准确情况的百分比指标 主要用来说明模型的总体预测准确情况 计算公式如下 模型命中率 对很多标志变量的预测问题来说 往往关注的并不只是模型的准确率 例如对于这个案例中的流失问题 我们更多的关注预测流失且实际流失的那部分人 也就是提供给营销部门的预测流失名单中到底最后有百分之多少真正流失了 于是引入了一个模型命中率的新指标 它主要用来反映提供名单的准确性 计算公式如下 模型查全率 命中率高似乎也不灵 就以本方案来说 假设通过数据挖掘模型给出了一个20人的流失名单 如果该名单中有16个人确实流失了 这个模型的命中率达到了80 相当不错 可是问题是最终有1000个人流失 而你只发现了其中的16个 相关部门显然不会认可这一模型 据此又引入了模型查全率 该指标也称为模型覆盖率 它主要反映模型的覆盖程度 计算公司如下 目标变量是标志变量的预测模型的几种常用评估方法 2 图形法这两种图形的结果都是按照将预测结果变量转化为连续的评分结果来做的图形 我们通常使用累积增益图和累积提升图 将评分结果按照从大到小的顺序排列并标准化为百分位数表示 增益图和提升图的横轴代表的就是这样的内容 增益图纵轴表示的是1 或者T 预测正确所占的比例 我们也把它标准化化为百分位数表示 基线代表随机选择所得到的结果 它总是一条45度角的直线 模型增益线则代表使用模型后预测结果的优劣 这条线从左到右开始阶段越陡峭且下面所围的面积越大 则模型效果越好 最佳增益线是指理论上模型可以达到的最优效果 提升图纵轴表示使用模型相对随机选择预测正确的提升倍数 基线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 救援技师考试题库及答案
- 电工考试的实操电路题及答案
- 国际组织视角下的兽药残留风险分析与管理策略探究
- 全国教师笔试试题及答案
- 2025年自考审计学试题及答案
- 2025年保护环境知识竞赛题库及答案
- 青岛市幼师考编笔试题及答案
- 青岛地铁招聘笔试题库及答案
- 前端面试笔试题及答案
- 2025年岗位模拟主管护师考试试题及答案
- 高支模工程监理细则
- 环氧乙烷应急救援预案
- 南昌大学 2018-2019学年第二学期期中考试大学英语试卷
- 2025-2030酒吧行业市场发展分析及投资前景研究报告
- 预防阿尔茨海默症
- 2025-2030中国妇科中成药市场营销趋势及投融资发展状况研究报告
- 艾滋病防治知识宣传
- 危重患者肠内营养的护理
- 主题班会:养成教育
- 2024年全国职业院校技能大赛高职组(建筑工程识图赛项)考试题库(含答案)
- 《简单相信傻傻坚持》课件-中职语文高二同步课件(高教版2023职业模块)
评论
0/150
提交评论