四川经分应用模型-准沉默客户识别模型设计说明书_第1页
四川经分应用模型-准沉默客户识别模型设计说明书_第2页
四川经分应用模型-准沉默客户识别模型设计说明书_第3页
四川经分应用模型-准沉默客户识别模型设计说明书_第4页
四川经分应用模型-准沉默客户识别模型设计说明书_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四川 移动 准 沉默客户识别 模型 分析设计说明书 版本号 1.0 2 项目名称 四川移动 准 沉默客户 模型建设 文档名称 四川移动 准 沉默客户 模型分析设计说明书 版本号 1.0 发布日期 2010.6 文档变更记录 版本 修改章节 修改类型 日期 修改人 备注 目 录 1. 模型概述 . 1 2. 业务理解与目标定义 . 1 2.1 模型定义 . 1 2.2 目标定义 . 1 3. 数据准备与数据探索 . 2 3.1 数据准备 . 2 3.2 数据探索 . 7 4. 模型构建 . 8 4.1 建模工具 . 8 4.2 建模流程 . 8 5. 模型评估 . 9 5.1 模型评估 . 9 5.2 结果解释 . 10 6. 模型部署 . 14 附录 . 14 本文件属保密资料 1 1. 模型 概述 沉默客户的存在,不仅造成了资源的大量浪费,也为市场运营及营销工作带来了困难,同时,也造成了离网用户的大量增加和挽留难度的大幅提升。 准 沉默客户识别 模型的目标 在于为 营销 工作 提供决策参考 , 协助需求部门 有效的进行营销前移,通过沉默客户预判工作,在客户接触点尚未消失前进行 针对性的 营销及挽留 相关工作 , 保证其资源利用和效率提升,进一步深入进行市场精细化 运营 。 由于最后一次通话状态和用户在网时长在用户沉默原因上的差异 性较明显,如最后一次通话为漫游状态的用户一般认为是自然流失客户,如网 3 个月以内的号码稳定性一般较差,受渠道、 SP 厂商的影响也较大。因此, 在进行模型建设的具体工作的之前,结合业务经验及具体数据分析,为使模型结果更能够符合实际使用需要,将 准 沉默客户细分成三类:最后一次通话为漫游的客户、最后一次通话非漫游且在网时长 3个月以内的客户和最后一次通话非漫游且在网时长 3 个月以上的客户,针对每一类客户均建立了预测模型。 2. 业务 理解与 目标 定义 2.1 模型定义 沉默客户 定义: 指上月上网本月未上网 的客户 上网客户定义:当月产生语 音、短信、 GPRS 等话单的客户 净增客户定义:当月上网客户数减去上月上网客户数 2.2 目标定义 建立 准 沉默客户 识别 预测模型并且产生最可能的 目标客户 的名单,结合每个客户的价值评分 ,用 0 到 1 之间的值来量化 目标 客户的可能性大小。 本文件属保密资料 2 3. 数据 准备 与数据探索 3.1 数据准备 基础变量表: 字段名 数据类型 解释 ID_NO_1 BIGINT 用户编码 PHONE_NO_1 VARCHAR(20) 手机号码 RUN_NAME VARCHAR(32) 截止提数日用户状态 RUN_CODEOLD CHARACTER(10) 截止提数日用户状态编码 GROUP_ID VARCHAR(32) 入网渠道编码 GROUP_NAME VARCHAR(300) 入网渠道名称 AREA_NAME VARCHAR(32) 归属地市 COUNTY_NAME VARCHAR(64) 归属区县 OPEN_TIME VARCHAR(20) 入网时间 SM_CODE CHARACTER(10) 资费代码 BRAND_NAME VARCHAR(100) 品牌名称 MODE_NAME CHARACTER(100) 资费名称 VIPFLAG INTEGER vip 客户标记 VIP_CLASS VARCHAR(10) vip 客户等级 GRPFLAG INTEGER 归属集团编码 GRP_NAME VARCHAR(300) 归属集团名称 HIGHFLAG INTEGER 中高端客户标记 ALLDURATION05 INTEGER 总通话时长 ALLCALLTIMES05 INTEGER 总通话次数 ALLDURATION04 INTEGER 上月通话时长 ALLCALLTIMES04 INTEGER 上月总通话次数 ALLDURATION03 INTEGER 上上月通话时长 ALLCALLTIMES03 INTEGER 上上月总通话次数 BDDURATION05 INTEGER 本地通话时长 BDCALLTIMES05 INTEGER 本地通话次数 BDDURATION04 INTEGER 上月本地通话时长 BDCALLTIMES04 INTEGER 上月本地通话次数 BDDURATION03 INTEGER 上上月本地通话时长 BDCALLTIMES03 INTEGER 上上月本地通话次数 CTDURATION05 INTEGER 长途通话时长 CTCALLTIMES05 INTEGER 长途通话次数 本文件属保密资料 3 CTDURATION04 INTEGER 上月长途通话时长 CTCALLTIMES04 INTEGER 上月长途通话次数 CTDURATION03 INTEGER 上上月长途通话时长 CTCALLTIMES03 INTEGER 上上月长途通话次数 MYDURATION05 INTEGER 漫游通话时长 MYCALLTIMES05 INTEGER 漫游通话次数 MYDURATION04 INTEGER 上月漫游通话时长 MYCALLTIMES04 INTEGER 上月漫游通话次数 MYDURATION03 INTEGER 上上月漫游通话时长 MYCALLTIMES03 INTEGER 上上月漫游通话次数 ZJDURATION05 INTEGER 主叫通话时长 ZJCALLTIMES05 INTEGER 主叫通话次数 ZJDURATION04 INTEGER 上月主叫通话时长 ZJCALLTIMES04 INTEGER 上月主叫通话次数 ZJDURATION03 INTEGER 上上 月主叫通话时长 ZJCALLTIMES03 INTEGER 上上月主叫通话次数 BJDURATION05 INTEGER 被叫通话时长 BJCALLTIMES05 INTEGER 被叫通话次数 BJDURATION04 INTEGER 上月被叫通话时长 BJCALLTIMES04 INTEGER 上月被叫通话次数 BJDURATION03 INTEGER 上上月被叫通话时长 BJCALLTIMES03 INTEGER 上上月被叫通话次数 LTDURATION05 INTEGER 与联通通话时 长 LTCALLTIMES05 INTEGER 与联通通话次数 LTDURATION04 INTEGER 上月与联通通话时长 LTCALLTIMES04 INTEGER 上月与联通通话次数 LTDURATION03 INTEGER 上上月与联通通话时长 LTCALLTIMES03 INTEGER 上上月与联通通话次数 DXDURATION05 INTEGER 与电信通话时长 DXCALLTIMES05 INTEGER 与电信话次数 DXDURATION04 INTEGER 上月与电信通话时长 DXCALLTIMES04 INTEGER 上月与电信通话次数 DXDURATION03 INTEGER 上上月与电信通话时长 DXCALLTIMES03 INTEGER 上上月与电信通话次数 DDUSRS05 INTEGER 通话对端用户数 DDUSRS04 INTEGER 上月通话对端用户数 DDUSRS03 INTEGER 上上月通话对端用户数 YDDDUSRS05 INTEGER 移动通话对端用户数 本文件属保密资料 4 YDDDUSRS04 INTEGER 上月移动通话对端用户数 YDDDUSRS03 INTEGER 上上月移动通话对端用户数 LTDDUSRS05 INTEGER 联通通话对端用户数 LTDDUSRS04 INTEGER 上月联通通话对端用户数 LTDDUSRS03 INTEGER 上上月联通通话对端用户数 DXDDUSRS05 INTEGER 电信通话对端用户数 DXDDUSRS04 INTEGER 上月电信通话对端用户数 DXDDUSRS03 INTEGER 上上月电信通话对端用户数 BD1008605 INTEGER 拨打 10086 次数 BD1008604 INTEGER 上月拨打 10086 次数 BD1008603 INTEGER 上上月拨打 10086 次数 BD1000005 INTEGER 拨打 10000 次数 BD1000004 INTEGER 上月拨打 10000 次数 BD1000003 INTEGER 上上月拨打 10000 次数 BD1001005 INTEGER 拨打 10010 次数 BD1001004 INTEGER 上月拨打 10010 次数 BD1001003 INTEGER 上上月拨打 10010 次数 HZCALLTIMES05 INTEGER 呼转次数 HZCALLTIMES04 INTEGER 上月呼转次数 HZCALLTIMES03 INTEGER 上上月呼转次数 YDHZCALLTIMES05 INTEGER 呼转移动次数 YDHZCALLTIMES04 INTEGER 上月呼转移动次数 YDHZCALLTIMES03 INTEGER 上上月呼转移动次数 LTHZCALLTIMES05 INTEGER 呼转联通次数 LTHZCALLTIMES04 INTEGER 上月呼转联通次数 LTHZCALLTIMES03 INTEGER 上上月呼转联通次数 DXHZCALLTIMES05 INTEGER 呼转电信次数 DXHZCALLTIMES04 INTEGER 上月呼转电信次数 DXHZCALLTIMES03 INTEGER 上上月呼转电信次数 SMSFS05 INTEGER 点对点短信发送量 SMSFS04 INTEGER 上月点对点短信发送量 SMSFS03 INTEGER 上上月点对点短信发送量 LASTROMA INTEGER 最后通话为漫游标记 GPRSFLOW05 DECIMAL(16,4) GPRS 流量 GPRSFLOW04 DECIMAL(16,4) 上月 GPRS 流量 GPRSFLOW03 DECIMAL(16,4) 上上月 GPRS 流量 ID_NO BIGINT 用户编码 PREPAY_FEE DECIMAL(16,4) 截止取数日话费余额 本文件属保密资料 5 ARPU DECIMAL(16,4) ARPU MONTH_FEE DECIMAL(16,4) 月租费 PAY_COUNT BIGINT 充值次数 PAY_MONTY DECIMAL(16,4) 充值金额 LPREPAY_FEE DECIMAL(16,4) 上月月底话费余额 LARPU DECIMAL(16,4) 上月 ARPU LMONTH_FEE DECIMAL(16,4) 上月月租费 LPAY_COUNT BIGINT 上月充值次数 LPAY_MONTY DECIMAL(16,4) 上月充值金额 LLPREPAY_FEE DECIMAL(16,4) 上上月月底话费余额 LLARPU DECIMAL(16,4) 上上月 ARPU LLMONTH_FEE DECIMAL(16,4) 上上月月租费 LLPAY_COUNT BIGINT 上 上月充值次数 LLPAY_MONTY DECIMAL(16,4) 上上月充值金额 CUNFEI_FLAG VARCHAR(2) 是否参与存送捆绑标记 INNET_TIME VARCHAR(20) 存送捆绑到期时间 FAMILY_FLAG VARCHAR(2) 合家欢客户标记 CHANGTU_FLAG VARCHAR(2) 长途风暴客户标记 YANG_FLAG VARCHAR(2) 疑似渠道养卡标记 SHOUJIBAO_FLAG VARCHAR(2) 手机报客户标记 FEIXIN_FLAG VARCHAR(2) 飞信客户标记 TOUSHU_FLAG VARCHAR(2) 投诉客户标记 TOUSHU_NUMS BIGINT 投诉次数 SHUXIN_FEE DECIMAL(16,4) 数信业务费用 CHENGSHI_FLAG VARCHAR(10) 城市农村客户标记 ZHONGDUAN_FLAG DECIMAL(16,4) 是否参与终端捆绑标记 ZD_BEGIN_TIME VARCHAR(10) 参与终端捆绑时间 ZD_END_TIME VARCHAR(10) 终端捆绑到期时间 TERM_BIND_NAME VARCHAR(200) 参与终端捆绑活动名称 SAVE_BIND_NAME VARCHAR(200) 存送捆绑活动名称 ACCOUNT_TYPE VARCHAR(32) 账户类型 INNET_FEE DECIMAL(16,4) 开户缴费金额 生成衍生变量表: 字段名 数据类型 解释 ID_NO BIGINT 用户编码 PHONE_NO_1 VARCHAR(20) 手机号码 CHANNEL_NAME VARCHAR(300) 入网渠道 BRAND_NAME VARCHAR(100) 品牌 本文件属保密资料 6 MODE_NAME CHARACTER(100) 资费 OPEN_TIME VARCHAR(20) 开户时间 NET_AGE INTEGER 网龄 RUN_NAME VARCHAR(32) 截止取数日期用户状态 FAMILY_FLAG VARCHAR(2) 合家欢客户标记 CHANGTU_FLAG VARCHAR(2) 长途风暴客户标记 LASTCALL_ROAM INTEGER 最后一次通话为漫游标记 CHENGSHI_FLAG VARCHAR(10) 城市农村客户 标记 TOUSHU_NUMS BIGINT 投诉次数 SHOUJIBAO_FLAG VARCHAR(2) 手机报用户标记 FETION_FLAG VARCHAR(2) 飞信用户标记 VIPFLAG INTEGER VIP 客户标记 HIGHFLAG INTEGER 中高端客户标记 GRPFLAG INTEGER 集团客户标记 GRP_NAME VARCHAR(300) 归属集团名称 CUNFEI INTEGER 是否参与存送捆绑活动标记 ZHONGDUAN INTEGER 是否参与终端捆绑活 动标记 KUNBANG_LEFTTIME INTEGER 捆绑剩余周期 SHUXIN_RATIO_08 DECIMAL(31,14) 数信业务费用占比 =数信业务费用 /ARPU MONTHFEE_RATIO_08 DECIMAL(31,14) 月租费用占比 =月租 /ARPU LEFT_FEE DECIMAL(19,4) 话费余额 PAY_COUNT BIGINT 充值次数 PAY_MONEY DECIMAL(16,4) 充值金额 ARPU_AVG DECIMAL(31,18) 近三月 ARPU 平均值 MOU_AVG INTEGER 近三月 MOU 平均值 BD_DURA_AVG INTEGER 近三月本地通话时长平均值 CT_DURA_AVG INTEGER 近三月长途通话时长平均值 MY_DURA_AVG INTEGER 近三月漫游通话时长平均值 LT_DURA_AVG INTEGER 近三月与联通通话时长平均值 DX_DURA_AVG INTEGER 近三月与电信通话时长平均值 DD_NMB_AVG INTEGER 近三月通话对端数量平均值 LT_NMB_AVG INTEGER 近三月 联通通话对端数量平均值 DX_NMB_AVG INTEGER 近三月电信通话对端数量平均值 BD1008605 INTEGER 拨打 10086 次数 BD1000005 INTEGER 拨打 10000 次数 BD1001005 INTEGER 拨打 10010 次数 HZCALLTIMES05 INTEGER 呼转次数 YDHZCALLTIMES05 INTEGER 呼转移动次数 本文件属保密资料 7 LTHZCALLTIMES05 INTEGER 呼转联通次数 DXHZCALLTIMES05 INTEGER 呼转电信次 数 SMS_FASONG_AVG INTEGER 点对点短信发送量 GPRS_MOUNT_AVG DECIMAL(31,18) GPRS 流量 BD_DURA_RATIO DECIMAL(31,19) 近三月本地通话时长占比 CT_DURA_RATIO DECIMAL(31,19) 近三月长途通话时长占比 MY_DURA_RATIO DECIMAL(31,19) 近三月漫游通话时长占比 DD_YD DECIMAL(31,19) 近三月移动通话对端占比 DD_LT DECIMAL(31,19) 近 三月联通通话对端占比 DD_DX DECIMAL(31,19) 近三月电信通话对端占比 ARPU_STD DOUBLE 近三月 ARPU 波动值 MOU_STD DOUBLE 近三月 MOU 波动值 BD_DURA_STD DOUBLE 近三月本地通话时长波动值 CT_DURA_STD DOUBLE 近三月长途通话时长波动值 MY_DURA_STD DOUBLE 近三月漫游通话时长波动值 LT_DURA_STD DOUBLE 近三月联通通话时长波动值 DX_DURA_STD DOUBLE 近三月电信 通话时长波动值 HUZHUAN_STD DOUBLE 近三月呼转通话次数波动值 YDHUZHUAN_STD DOUBLE 近三月呼转移动通话次数波动值 LTHUZHUAN_STD DOUBLE 近三月呼转联通通话次数波动值 DXHUZHUAN_STD DOUBLE 近三月呼转电信通话次数波动值 SMS_FASONG_STD DOUBLE 近三月点对点短信发送量波动值 GPRS_MOUNT_STD DOUBLE 近三月 GPRS 流量波动值 3.2 数据探索 利用 SPSS 的 Clementine 软件 对建模字段进行数据审核和探索。 本文件属保密资料 8 4. 模型 构建 4.1 建模工具 经过数据预处理、探索型数据分析, 最终确定了 准沉默 客户预测分析模型的变量, 采用 SPSS 公司的 Clementine 软件 的 决策树 结点作为数据挖掘工具及数据挖掘技术来建立 准 沉默客户 识别 模型。 4.2 建模流程 为使模型尽量精确,针对每一个地市均单独进行识别模型的建设工作。以宜宾分公司为例,建模流程如下: TOUSHU_NUMS( 投诉次数 ) 、VIPFLAG( VIP 标识)等 字段经审核无法用于建立模型,需剔除 本文件属保密资料 9 选 择 建 设 模 型 需 要的 目 标 客 户数 量 : 约 1 2 1 万已 知 沉 默 用 户数 量 : 约 1 1 万已 知 非 沉 默 用 户数 量 : 约 1 1 0 万数 据 准 备拟 定 数 据 需 求 字 段并 进 行 统 计数 据 审 核 清 洗通 过 数 据 审 核 选 择 输 入 字 段字 段 数 量 : 6 0数 据 分 区将 数 据 分 为 用 于 生 成 模 型 的 训 练 区和 用 于 评 估 模 型 效 果 的 测 试 区训 练 区随 机 抽 取8 0 %测 试 区随 机 抽 取2 0 %模 型 构 建通 过 软 件 自 带 的 二 元 分 类 器 对 不 同 算 法 进 行 初 步评 估 并 生 成 模 型数 据 平 衡使 沉 默 用 户 与 非 沉 默 用 户 在 数 量 上成 1 : 4 左 右 的 比 例模 型 生 成利 用 测 试 区数 据 对 模 型进 行 评 估形 成 查 全 查 准 评 估结 果数 据 输 入将 准 备 的 数 据 输 入 建 模 软 件字 段 数 量 : 6 6用 户 编 码 、 号 码 、 品 牌 、 入 网 渠 道 、 主 资 费 、入 网 时 间 、 在 网 时 长 、 家 庭 用 户 标 识 、 长 途 产品 包 标 识 、 最 后 一 次 通 话 漫 游 标 识 、 投 诉 次数 、 月 均 A R P U 及 变 动 值 、 月 均 本 长 漫 费 用 及 变动 值 、 月 均 数 据 业 务 费 占 比 、 飞 信 标 识 、 交 往圈 人 数 、 月 均 M O U 、 手 机 报 标 识 等 品 牌 、 在 网 时 长 、 月 均 A R P U 及 变 动 值 、 月 均 本长 漫 费 用 及 变 动 值 和 占 比 、 月 均 数 据 业 务 费 及占 比 、 飞 信 标 识 、 手 机 报 标 识 、 捆 绑 剩 余 时间 、 呼 转 次 数 、 呼 转 竞 争 对 手 次 数 、 月 均 M O U及 变 动 值 等 账 户 余 额 较 少 、 月 均 A R P U 低 且 波 动 性 大 、在 网 时 间 短 、 交 往 圈 人 数 少 、 缴 费 次 数 和金 额 均 较 少 等 特 征 的 用 户 成 为 沉 默 用 户 的可 能 性 较 大5. 模型 评 估 5.1 模型评估 用模型增益 和 测试集查全查准率进行模型评估工作。 以最 后一次通话非漫游且在网时长 3 个月以上的客户识别模型为例。 1、 增益评估 增益图是不同阀值下命中率( PV+,正确预测到的正例数占预测正例总数的比例)与预测成正例的比例( Depth)的轨迹。随着阈值的减小,更多的客户就会被归为正例,也就是 Depth 变大,这样 PV+就相应减小。一个好的模型,在阈值变大时,相应的 PV+就要变大,曲线足够陡峭。 如下图所示,在阀值设定为 20%的时候,曲线足够陡峭,模型效果较好 ,使用模 本文件属保密资料 10 型之后效果提升了约 4.2 倍。 2、 查全查准评估 查全率 =模型准确识别出的 准 沉默客户数 /实际总的沉 默用户数 查准率 =模型准确识别出的 准 沉默用户数 /模型识别出的总用户数 5.2 结果解释 准 沉默用户识别 模型的规则 非常复杂,适用于 准 沉默用户的规则就达 658 个,无法在文档中进行详细展示,如图所示(以最后一次通话非漫游且在网时长在 3个月以上的沉默用户识别模型为例): 因此,仅将决策树的前四层节点展示如下: 本文件属保密资料 11 模型规则概率如下表所示: 本文件属保密资料 12 筛选规则 概率余额/ A R P U 0 .1 1 1 A ND 月均本地通话时长 0 .1 1 1 A ND 月均本地通话时长 0 .1 0 08 7 . 5 %余额/ A R P U 4 4 分钟 A ND 网龄 = 2 个月A ND 捆绑剩余时间 = 1 个月5 5 . 7 %其规则 大致可总结为: 1、账户余额很低、且与月均 ARPU 的比例在 0.01 以下的客户容易产生沉默,有约70%以上的客户具有此特征 2、 准 沉默客户一般为网龄较短的客户,有约 60%的沉默客户网龄小于 5 个月 3、 准 沉默客户的 MOU 波动性及月均本地通话时长较短的特征也很明显,一般 MOU波动较大且呈减少趋势、本地通话时长小于 20 分钟的客户有 90%左右的可能性会沉默 4、捆绑剩余时间低于 12 个月的客户有 60%左右的可能性会沉默,低于 1个月的客户有超过 80%的可能性会沉默 5、月缴费次数在 2次以上、平均缴费金额低于 2元或平均缴费金额与 ARPU 的比值在 0.21 以下的客户有约 60%的可能性会沉默 本文件属保密资料 13 同时, 在 准 沉默客户识别的基础上进行聚类: 分析 并总结 客户沉默原因及规则: 准 沉默客户 模型 主要 输出 三 个字段: 沉默 标识( $C-SILENCE_FLAG)和 沉默概率( $CC-SILENCE_FLAG) 、沉默原因( reason) 。 沉默 标识可以用来识别用户是否 疑似沉默客户 ( 0:否 1:是); 沉默概率 可以用来作为用户是否 疑似沉默客户 的概率(介于 0 到 1之间),如一个 客户 的目标标识为 1,目标可能性为 0.9 的要比 0.7 的更可能成为 沉默客户 。 如下图所示: 本文件属保密资料 14 6. 模型部署 准 沉默客户识别 模型的主要成果为提供 各地市分公司当月疑似沉默客户 清单, 营销策划 人员可以依据这份清单进行针对性的 疑似沉默客户挽留及激活 工作。 附录 模型分析 报告 四川经分应用模型-准沉默客户识别模型分析报告.pptx感谢您的使用 “小萍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论