运营商数据挖掘项目汇报新增用户维系_第1页
运营商数据挖掘项目汇报新增用户维系_第2页
运营商数据挖掘项目汇报新增用户维系_第3页
运营商数据挖掘项目汇报新增用户维系_第4页
运营商数据挖掘项目汇报新增用户维系_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、某运营商数据挖掘项目汇报某运营商数据挖掘项目汇报_新增用新增用户维系户维系2010年3月系新增用户维系基本流程新增用户维系基本流程 建立新增用户维系闭环管理体系,准确分群,分级预警,制定针对性的维系策略和建立新增用户维系闭环管理体系,准确分群,分级预警,制定针对性的维系策略和方案并实施,实现新增用户保有。方案并实施,实现新增用户保有。新增用户分群新增用户分群1、新增用户分群: 渠道养卡 重入网与反复重入网用户 正常低网龄用户细分根据正常低网龄用户偏好进行细分异动预警监控异动预警监控1、采用生存分析法,对有流失倾向的用户进行提前预警,并可根据用户流失概率的高低划定预警级别 流失高危用户群 在网异

2、动用户群 正常用户群维系策略及方案维系策略及方案1、维系策略方案生成 渠道养卡监管措施 重入网与反复用户管控措施 正常低网龄用户维系措施2、维系方案实施 营销案实施流程 维系渠道维系效果评估维系效果评估1、维系情况反馈2、目标达成情况3、维系效果评估: 渠道养卡识别及监管 重入网与反复重入网 正常低网龄用户维 维系方式-2-新增用户维系新增用户维系渠道养卡识别与监控渠道养卡识别与监控 重入网与反复重入网管理 正常低网龄用户维系-3-pppppp柳州渠道养卡行为特征及监控思路建议柳州渠道养卡行为特征及监控思路建议 通过研究发现柳州渠道养卡行为特征及监控思路建议通过研究发现柳州渠道养卡行为特征及监

3、控思路建议 如下:如下:柳州渠道养卡行为特征柳州渠道养卡行为特征产品:渠道养卡一般选择无月租或最低月租产品:渠道养卡一般选择无月租或最低月租的产品,以降低养卡的成本,研究发现柳州2种类型产品均被渠道选择使用arpu:渠道养卡号码消费额一般较低,研究:渠道养卡号码消费额一般较低,研究发现柳州养卡号码月均消费一般低于15元主叫时长:渠道养卡号码主叫时长非常低,主叫时长:渠道养卡号码主叫时长非常低,研究发现柳州有70%以上无通话行为,有通话行为用户主叫时长主要集中在3分钟以内用户状态:研究发现柳州渠道养卡新增号码用户状态:研究发现柳州渠道养卡新增号码停机流失高峰出现在入网后的第1-3个月消费情况:同

4、一个渠道发展的养卡号码中,消费情况:同一个渠道发展的养卡号码中,出现多个号码消费行为一致的情况,如多个号码入网当月和次月消费完全一致激活激活imei:养卡号码在激活时,一般用同一:养卡号码在激活时,一般用同一个手机激活,因此养卡号码中大量号码的激活imei一致养卡行为监控思路建议养卡行为监控思路建议p 制定疑似养卡渠道的判断规则:从渠道发展用户的产品、arpu、用户状态进行判断,当用户数占比符合一定标准后,即判断为疑似养卡渠道;p 制定疑似养卡号码的判断规则:从用户消费情况、激活imei等进行判断,符合一定标准的号码为疑似养卡号码;p 分析疑似养卡渠道的养卡号码量,计算养卡号码占其当月新发展的

5、比,并按各渠道此比例排序-4-似似养养卡卡渠渠似似养养卡卡号号-5-疑似养卡渠道和养卡号码判断规则疑似养卡渠道和养卡号码判断规则p消费情况消费情况:疑疑道道p产品:渠道新增用户中,产品:渠道新增用户中,30%以上的以上的用户都为两广情零听计划或都市“零听”计划二,该渠道为疑似养卡渠道parpu:渠道新增用户中,:渠道新增用户中,30%以上或以上或100人以上的用户入网当月和次月arpu低于5元,该渠道为疑似养卡渠道p主叫时长:渠道新增用户中,主叫时长:渠道新增用户中,50%以上或100人以上的用户入网当月和次月主叫时长在3分钟内,该渠道为疑似养卡渠道p用户状态:渠道新增用户中,入网用户状态:渠

6、道新增用户中,入网后在第3个月,30%以上的用户状态为停机流失,该渠道为疑似养卡渠道疑疑码码a.出现5个或以上号码号码入网当月和次月主叫时长都在3分钟内;b.或出现5个或以上号码号码入网当月和次月消费在5元以内; c.或出现2个以上号码入网当月或次月应收费完全一致,这些号码为疑似养卡号码p激活情况:激活情况: a.出现5个或以上号码号码激活imei一致;b.或2个或以上号码登记身份证号一致这些号码为疑似养卡号码 以上判断标准,都以同一渠道发展的用户作为判断基础数据; 判断步骤是首先判断疑似养卡渠道,在判断其为疑似养卡渠道后,统计其疑似养卡号码数量 对养卡号码的判断模型是对渠道养卡违规行为进行分

7、析的基础,需要在执行中进一步分析、调研完善优化判断规则,提升判断准确率。新增用户维系新增用户维系 渠道养卡识别与监控 重入网与反复重入网管理重入网与反复重入网管理 正常低网龄用户维系-6-7-重入网与反复重入网(跳蚤)用户识别规则重入网与反复重入网(跳蚤)用户识别规则识别规则:通过对新入网用户使用手机的imei号(或身份证号码)与存量用户的imei号历史库(或身份证号码历史库)进行分析识别出重入网和反复重入网用户。为了提高分析结果的准确率,每月定期对上月新入网的用户(上月入网并激活的用户)进行分析。分析示意如下:用户在n月入网并激活(有话单产生),则在n+1月(计算月)对n月入网并激活的所有用

8、户进行重入网分析。新入网激活月前半年的存量用户历史新入网激活月前半年的存量用户历史imei库或身份证库库或身份证库新入网激新入网激活月活月新入网激新入网激活后第活后第1月月n-6n-5n-4n-3n-2n-1nn+1判断新入网用户判断新入网用户的有效的有效imei或身或身n月在网用月在网用户,区分户,区分新增和存新增和存量用户量用户剔除无效剔除无效imei或身或身份证号码份证号码份证号码份证号码生成、维护历史生成、维护历史有效有效imei库或身库或身判断重入网用户判断重入网用户n月新入网用户中月新入网用户中的重入网和反复重的重入网和反复重入网用户名单入网用户名单份证号库份证号库 重入网:新用户

9、重入网:新用户imei或身份证号与历史或身份证号与历史imei或身份证号码能够匹配(或身份证号码能够匹配(6个月以内)。如,个月以内)。如,9月新入网用户月新入网用户imei或身份证号与3月到8月用户imei或身份证号码库匹配后,得到9月新入网用户中重入网用户。 反复重入网(跳蚤反复重入网(跳蚤 用户):重入网用户在用户):重入网用户在6个月以内重入网个月以内重入网2次及次及2次以上的用户。次以上的用户。用户重入网主要原因分析用户重入网主要原因分析竞争对手竞争对手 竞争对手以低资费、大力度的优惠活动吸引用户,但整体质量未能让用户满意,从而使用户在短暂离(移动)网后重新入网产品产品价格价格促销促

10、销/宣传宣传渠道渠道服务服务公司内部公司内部 产品线过长,产品重叠较多,目标用户群存在较多交叉,不同品牌及资费存在内部竞争 产品价格调整比较频繁,而且在价格调整过程中没有考虑产品体系间的平衡问题 预存费用低,用户入网门槛不高,使其可以轻易弃卡 新入网促销活动优惠力度过大 品牌及资费资费套餐互转门槛过高,停机保号、套餐互转等宣传不足 部分社会渠道迫于指标压力或利益驱动,诱导用户换卡 社会渠道虚假激活,通过养卡恶意套取酬金 补卡成本高,手续复杂,补卡不如买新卡 欠费提醒不及时,欠费后被停机,选择重入网用户用户 追求经济收益,受入网优惠的吸引 换取吉祥号码 欠费-8-从产品、促销、渠道、传播、服务等

11、多方面入手加强重从产品、促销、渠道、传播、服务等多方面入手加强重入网与反复重入网管理,降低重入网比率入网与反复重入网管理,降低重入网比率重入网与反复重入网管理措施重入网与反复重入网管理措施产品/促销 加强入网促销活动管理,减少促销活动对在网用户的干扰; 提高入网首次预存费用,增加在网时长; 用户忠诚度管理:网龄营销。渠道 加强(社会)渠道掌控,规范渠道行为,减少系统性离网行为。传播 采用户外广告、报纸等大众媒体及营业厅、10086短信、网站、wap等自有媒体体开展网龄营销、优惠补卡及带号转品牌、套餐、停机保号等的传播。服务 加强欠费管理,减少无效欠费; 主卡付费+亲情网; 账户低余额时充值提示

12、; 优惠或免费补卡; 推荐带号转品牌或带号转套餐。-9-新增用户维系新增用户维系 渠道养卡识别与监控 重入网与反复重入网管理 正常低网龄用户维系正常低网龄用户维系-10-正常低网龄用户维系基本策略正常低网龄用户维系基本策略剔除了渠道养卡用户和反复重入网用户后所获得的正常低网龄用户是新增用户流失控制的重点。运用数据挖掘方法,识别出不同流失预警级别的用户,针对高危用户和异动用户分别采取针对性的营销捆绑手段进行维系,同时结合网龄营销,延长用户生命周期。细分用户群细分用户群基本策略基本策略正常低网龄用正常低网龄用户分群户分群用户用户流失高危用户在网异动用户相对稳定用户 重绑:针对高危用户在网黏性已很弱

13、的特重绑:针对高危用户在网黏性已很弱的特点,采取较大力度的营销捆绑策略,以返还周期短的财务捆绑和力度较大的业务捆绑为主,以服务捆绑为辅。 力保:针对异动用户尚处于流失犹豫期、力保:针对异动用户尚处于流失犹豫期、还具有一定黏性的特点,维系策略将以强化用户的业务黏性为重点,以业务捆绑和较长返还周期的财务捆绑为主,以服务捆绑为辅。 全用户常规保有(不研究)。-11-1-12-多级预警,多级维系多级预警,多级维系在模型挖掘的基础上,准确判别正常低网龄用户的流失倾向,根据用户流失概率的高低分别实施针对性的维系策略和措施,对可能流失的用户提前预防,多级维系,有效地防止用户流失。流失异动用户流失异动用户低网

14、龄用户低网龄用户模型匹配营销捆绑未办理日常维系及异动监控办21流失高危用户流失高危用户理是否流失流失未流失1 一级匹配和维系; 2 二级匹配和维系。增增用用户户细细分分正常低网龄用户细分、预警及维系框架正常低网龄用户细分、预警及维系框架精准营销模型精准营销模型新新当月新增用户当月新增用户其他新增用户其他新增用户商务高端用户群商务高端用户群新增网用户流失模型新增网用户流失模型模模型型漫游突出用户群漫游突出用户群长途话务突出群长途话务突出群本地话务突出群本地话务突出群本地话务偏好群本地话务偏好群本地低端用户群本地低端用户群数据业务突出群数据业务突出群漫游突出用户群漫游突出用户群长途话务突出群长途话

15、务突出群本地话务突出群本地话务突出群本地话务偏好群本地话务偏好群本地低端用户群本地低端用户群数据业务兴趣群数据业务兴趣群数据业务发烧群数据业务发烧群流失高危用户流失高危用户在网异动用户在网异动用户用户清单用户清单用户号码用户价值在网时长渠道偏好促销偏好消费特征话费余额营销案营销案-13-用户流失预警和细分建模过程用户流失预警和细分建模过程n 流失现状分流失现状分析析n 流失原流失原因分因分析析n 流失用流失用户特户特征分析征分析n 流失预警建流失预警建模目标沟通模目标沟通确确定定n 流失细流失细分模分模型目标沟通确型目标沟通确定定n 根据建模要求根据建模要求和现有数据情和现有数据情况,构思、沟

16、通况,构思、沟通和确定建模数据和确定建模数据提取需求提取需求n 提取提取09年年1-10月新增用户在月新增用户在1-10月的自然属性月的自然属性和消费行为数据和消费行为数据n 提取提取09年年10月新增用户在月新增用户在10月的日消费行为月的日消费行为数据数据n 数据质数据质量审核量审核n 数据探索数据探索n 非正常用户非正常用户的的剔除。根据渠道剔除。根据渠道养卡和跳蚤用户养卡和跳蚤用户识别模型提取异识别模型提取异常用户常用户n 数据抽样。确数据抽样。确定建模用户集合定建模用户集合n 建模衍生变量建模衍生变量计算。根据提取计算。根据提取的基础数据宽表的基础数据宽表计算衍生变量计算衍生变量n

17、建模变量筛选建模变量筛选 特征建模分析特征建模分析 卡方分析卡方分析 方差分析方差分析 双变量分析双变量分析 pearson 相关分析相关分析 wald显著性检验显著性检验 量重要性分析量重要性分析n 建模变量数据建模变量数据转换转换 对数变对数变换换 标准化变换标准化变换n 确定建模用户确定建模用户集集n 确定建确定建模用户模用户数据集数据集n 采用采用two step聚类算法,建立用聚类算法,建立用户细分模型户细分模型 月数据用户细月数据用户细分模型(高价值分模型(高价值用户和在网用户和在网2月及月及2月以上的新增用户月以上的新增用户细分细分 日数据用户细日数据用户细分模型(在网分模型(在

18、网1月月新增用户细分)新增用户细分)n 业务解释聚类结业务解释聚类结果,调整模型参数果,调整模型参数和和建模变量,直到建模变量,直到得到满意结果得到满意结果n 确定建模用确定建模用户集户集n 确定建模用确定建模用户数据集户数据集n 采用逻辑回采用逻辑回归和决策树算归和决策树算法法建立流失预警模建立流失预警模型型 在网在网2月新增月新增用户流失预警模用户流失预警模型型 在网在网2月以上月以上新增用户流失预新增用户流失预警模型警模型 在网在网1月新增月新增用户流失预警用户流失预警模模型型n采用生存分析算法建立高价值算法建立高价值用户流失预警模用户流失预警模n 模型的评估模型的评估 提升图、收益提升

19、图、收益图图 混淆矩阵。准混淆矩阵。准确率和确率和查全率查全率n 模型的优化模型的优化 建模训练集比建模训练集比例例 异常异常值处理值处理 建模变量建模变量 建模方法建模方法 模型参数模型参数 显著性检验显著性检验方方法法 显著性检验变显著性检验变量剔量剔除阈值除阈值 树的深度和页树的深度和页节点记录个数节点记录个数 型型-14-数据准备数据准备数据准备确保建模数据的完整性、可用性和完整性数据准备确保建模数据的完整性、可用性和完整性缺失数据处理缺失数据处理极值数据处理极值数据处理错误数据处理错误数据处理冗余数据处理冗余数据处理 数据挖掘宽表构数据挖掘宽表构建建数据提取数据提取 提取建模所需数据

20、提取建模所需数据数据清洗数据清洗数据审核数据审核 数据统计错误审数据统计错误审核核数据集成数据集成 数据源错误审核数据源错误审核 数据统计口径审数据统计口径审核核-15-建模准备建模准备筛选建模变量、根据模型要求进行数据变换筛选建模变量、根据模型要求进行数据变换经分数据经分数据变量清洗变量清洗变量筛选变量筛选挖掘宽表挖掘宽表变量转换变量转换健康度建健康度建模指标库模指标库-16-用户细分采用凝聚层次聚类算法用户细分采用凝聚层次聚类算法层次聚类可以分为两种:凝聚的方式和分割的方式,凝聚是一种至底向上的方法,将每层次聚类可以分为两种:凝聚的方式和分割的方式,凝聚是一种至底向上的方法,将每一条记录看

21、作一个一条记录看作一个 类,然后根据一些规则将他们聚合成越来越大的类,直到满足一些预类,然后根据一些规则将他们聚合成越来越大的类,直到满足一些预先设定的条件。先设定的条件。初始化初始化选择选择更新更新结束结束执行执行n-1次步次步骤骤2和步骤和步骤31计算包含每对样本间距离(如欧氏本间距离(如欧氏距离)的相似矩距离)的相似矩阵,把每个样本作阵,把每个样本作为一个簇为一个簇2使用相似矩阵查找最相似的两个簇找最相似的两个簇3将两个簇合并为一个簇,簇的个数一个簇,簇的个数通过合并被更新;通过合并被更新;同时更新相似矩同时更新相似矩阵,将两个簇的两阵,将两个簇的两4当所有样本都合并成一个簇或满足并成一

22、个簇或满足指定的簇的数目指定的簇的数目时,整个过程结束。时,整个过程结束。行(两列)距离用行(两列)距离用1行(行(1列)距离替列)距离替换反映合并操作。换反映合并操作。-17-网龄网龄2月及以上新增用户细分模型月及以上新增用户细分模型 采用spss及clementine作为数据分析与聚类建模工具 算法为two step 聚类算法 使用细分矩阵,按照语音消费行为和数据业务消费行为两次聚类的方法分别聚类,多维聚类的方法较传统单维聚类方法,聚类后的用户细分特征更明显 聚类数据集为2009年1-9月新增用户入网后第二个月,且第二月状态正常的用户的基础数据和消费行为数据 数据在聚类前需进行标准化变换和

23、极值处理低端低端 中低中低 长途长途 本地本地端端 突出突出 突出突出漫游漫游突出突出商务商务使用使用 占比占比 兴趣兴趣 短信短信 上网上网少少 高高 突出突出 突出突出发烧友发烧友本地通话次数长途通话次数计费通话时长漫游通话次数arpugprs流量新业务费新业务使用种类数彩信条数短信条数新业务费占比-18-123456细分群主要消费行为特征(网龄细分群主要消费行为特征(网龄=2个月)个月)-1序号序号细分群名称细分群名称商务高端用户群漫游突出用户群长途话务突出群本地话务突出群本地话务偏好群本地低端用户群细分群特征细分群特征语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;arp

24、u最高为240元/户以上,交往圈最大,本长漫语音话务均高,且每次通话时长较长语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;arpu为85元/户左右,经常去外地,漫游话务突出,本地及长途话务较少,且漫游通话频次最高语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;arpu为120元/户左右,交往圈中有大量外地号码,长途话务突出,漫游很少,且长途通话频次最高语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;arpu为120元/户左右,交往圈主要集中在本地,本地话务突出,长途漫游较少,且本地通话频次最高语音消费行为相对数据业务消费行为更为突出,为用户主要行为属

25、性;arpu为67元/户左右,交往圈主要集中在本地,通话时长相对较低,但本地话务相对突出,长途漫游很少语音和数据业务消费行为均较低,用消费户行为相对均衡;arpu较低为30元/户左右,很少去外地,漫游和长途时长比例最低,平均每次通话时长最短规模占比规模占比2.4%3.9%7.6%4.7%14.8%33.5%-19-789细分群主要消费行为特征(网龄细分群主要消费行为特征(网龄=2个月)个月)-2序号序号细分群名称细分群名称短信突出用户群细分群特征细分群特征数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;arpu为40元/户左右,数据业务消费占比高于50%,主要使用短信业务,规模占

26、比规模占比8.0%且短信上行条数最高gprs突出用户群数据业务兴趣群数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;arpu为30元/户左右,数据业务消费占比高于50%,gprs流量高,其他数据业务使用较少数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;arpu为20元/户左右,订购数据业务种类最多,但消费不高,数据业务费用占比高于50%8.1%13.3%10数据业务发烧群数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;arpu为65元/户左右,订购数据业务种类最多,且数据业务消费最高,占比高达67%3.9%-20-使用使用网龄网龄1月新增用户细分模型

27、月新增用户细分模型 采用spss及clementine作为数据分析与聚类建模工具 算法为two step 聚类算法 使用细分矩阵,按照语音消费行为和数据业务消费行为两次聚类的方法分别聚类,多维聚类的方法较传统单维聚类方法,聚类后的用户细分特征更明显 聚类数据集为2009年10月125日入网,11月1日之前未流失的用户从入网当日至月底的日均消费行为数据 数据在聚类前需进行标准化变换和极值处理低端低端中低中低端端本地本地突出突出长途长途突出突出商务商务占比占比占比占比 兴趣兴趣 上网上网高高 少少 突出突出发烧友发烧友日均gprs流日均本地通话量次数日均彩信条数日均长途通话次数日均漫游通话次数日均

28、计费通话时长日均短信条数新业务使用种类数新业务费占比-21-12345细分群主要消费行为特征(网龄细分群主要消费行为特征(网龄1个月)个月)-1序号序号细分群名称细分群名称细分群特征细分群特征规模占比规模占比语音消费行为相对数据业务消费行为更为突出,为用户主要行为属漫游突出用户群长途话务突出群本地话务突出群本地话务偏好群本地低端用户群性;入网当月arpu为100元/户左右,经常去外地,漫游话务突出,本地及长途话务很少,且漫游通话频次最高语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月arpu为100元/户左右,交往圈中有大量外地号码,长途话务突出,基本无漫游,且长途通话频

29、次最高语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月arpu为75元/户左右,交往圈主要集中在本地,本地话务突出,基本无漫游,长途很少,且本地通话频次最高语音消费行为相对数据业务消费行为更为突出,为用户主要行为属性;入网当月arpu为55元/户左右,交往圈主要集中在本地,通话时长相对较低,但本地话务相对突出,基本无漫游,长途很少语音和数据业务消费均较低,且二者消费相对均衡;入网当月arpu为25元/户左右,主要在本地活动,本、长、漫通话时长均为最低,基3.0%4.5%7.7%12.6%36.7%本无数据业务使用量-22-678细分群主要消费行为特征(网龄细分群主要消费行

30、为特征(网龄1个月)个月)-2序号序号细分群名称细分群名称细分群特征细分群特征规模占比规模占比数据业务消费行为相对语音消费行为更为突出,为用户主要行为属数据业务突出群gprs偏好用户群短信突出用户群性;入网当月arpu为30元/户左右,订购数据业务种类最多,且数据业务消费占比高, 高达79%数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;入网当月arpu为54元/户左右,gprs消费最高,远高于其他群,且数据业务消费占比高, 高达77%数据业务消费行为相对语音消费行为更为突出,为用户主要行为属性;入当月arpu为80元/户左右,数据业务消费占比为65%左右,日平均发送短信10条左

31、右,主要使用短彩信业务,且短信和彩信上行21.3%9.2%4.9%条数均为最高-23-v新增用户中的流失用户有新增用户中的流失用户有76%在入网后的四个月内流失在入网后的四个月内流失流失用户的在网时长分布流失用户的在网时长分布n 流失用户的流失用户的76% 是在是在入入网后的四个月内流失网后的四个月内流失n 分别有分别有22%和和23%的流失的流失用户在入网后的第一个月用户在入网后的第一个月和第二月内流失和第二月内流失数据来源:数据来源:09年1月-10月新增用户流失用户定义:当月停机,且连续停机60天以上用户,到2009年11月仍未开机用户网龄举例:3月入网,3月流失的用户,网龄为0个月新增

32、用户中的流失用户超过四分之三的用户生命周期不超过四个月,不具有完整的生命周期特征v cox生存分析模型,隐含了一条假设,即在时间越长,其离网的可能性就越大,这样一生存分析模型,隐含了一条假设,即在时间越长,其离网的可能性就越大,这样一来,是否离网和在网时间应该是正相关的,来,是否离网和在网时间应该是正相关的,cox模型在拟合的时候,会在这个约束之下,模型在拟合的时候,会在这个约束之下,所以其对数据的拟合没有所以其对数据的拟合没有logit效果好效果好因此对新增用户离网预警,采用因此对新增用户离网预警,采用logit回归模型或决策模型回归模型或决策模型-24-正常低网龄用户流失采用预警分类算法正

33、常低网龄用户流失采用预警分类算法模型模型逻辑回归预测模型:也称定性变量回归,类似于线性回归,但是目标字段使用字符型字段而不是数值型字段。logistic回归建立一组方程,把输入属性值与输出字段每一类的概率联系起来。一旦生成模型,便可用于估计新记录属于某类的概率。概率最大的目标类被指定为该记录的预测输出值。决策树预测模型:决策树是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。比较比较优点优点 逻辑回归算法逻辑回归算法 具有训

34、具有训练集和测试集预测准练集和测试集预测准确率的差异是最小的确率的差异是最小的优点优点 能给出用户属于某类能给出用户属于某类型概率,可精确控制型概率,可精确控制用户群大小用户群大小缺点缺点 对有缺失值的记录对有缺失值的记录不能给出预测概率不能给出预测概率 模型自变量之间可模型自变量之间可能存在多重共线性能存在多重共线性干扰干扰 业务可解释性较决业务可解释性较决策树差策树差结论结论 逻辑回归算法逻辑回归算法 具有训练集和具有训练集和测试集预测准确率的差异是最测试集预测准确率的差异是最小可以精确控制筛选用户群大小可以精确控制筛选用户群大小的小的 优点,同时我们采用缺失优点,同时我们采用缺失值处理、

35、相关性分析可以规避值处理、相关性分析可以规避算法的缺点,优先选用逻辑回算法的缺点,优先选用逻辑回归算法。归算法。比较模型预测效果,选择预测效果较佳分类算法效果较佳分类算法-25-在网在网2月新增用户流失预警模型月新增用户流失预警模型n 采用采用spss和和clementine 作为数据分析和建模工具作为数据分析和建模工具n 分别采用逻辑回归算法和决策树算法建模,比较模型预测效果,确定使用逻辑回归算法分别采用逻辑回归算法和决策树算法建模,比较模型预测效果,确定使用逻辑回归算法建模变量建模变量基本情况基本情况语音通话情况语音通话情况数据业务使用情况数据业务使用情况品牌 arpu 余额套餐名称本地通

36、话 长途通话 漫游通话次数 次数 次数数据业务 数据业务 数据业务使用费用 消费占比 种类数入网月份流失月份取数月份流失观察月份3月4月5月6月7月8月9月10月11月建模时间窗口建模时间窗口测试时间窗口测试时间窗口3月3月3月4月4月4月5月5月5月6月6月6月7月7月7月8月8月8月9月9月9月10月10月10月11月11月11月-26-建模结果建模结果n 所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响n 逻辑回归算法逻辑回归算法 使用的方法是进入法,模型调整变量的依据是回归参数的使用的方法是进入

37、法,模型调整变量的依据是回归参数的wald检验,模型拟合优度的评判检验,模型拟合优度的评判标准时是标准时是-2对数似然值,值越小,拟合效果越好对数似然值,值越小,拟合效果越好n 模型的结果为对数流失风险比的线性拟合表达式,应用模型时输入为用户当前在建模变量上的值,输出模型的结果为对数流失风险比的线性拟合表达式,应用模型时输入为用户当前在建模变量上的值,输出为用户的流失概率为用户的流失概率n 下图展示了建模变量的重要性(调整后的实际建模变量)下图展示了建模变量的重要性(调整后的实际建模变量)变量重要性变量重要性余额余额通话次数通话次数套餐名称套餐名称本地被叫次数本地被叫次数欠费金额欠费金额本地主

38、叫次数本地主叫次数网内通话对端数网内通话对端数网外通话对端数网外通话对端数彩铃订购标志彩铃订购标志通话时长大于通话时长大于5分钟标志分钟标志多次充值标志多次充值标志欠费标志欠费标志arpu大于大于0标志标志长途通话次数长途通话次数漫游通话次数漫游通话次数新业务费新业务费通话标志通话标志包打套餐标志包打套餐标志手机报费用手机报费用本地主叫通话标志本地主叫通话标志拨打拨打10086次数次数重入网标志重入网标志-27-考察模型筛选用户三个月流失情况,模型准确率为考察模型筛选用户三个月流失情况,模型准确率为48%用户集:用户集:09年年07月入网、月入网、08月仍然正常的用户;模型筛选用户:通过模型筛

39、模型筛选用户:通过模型筛52.2%选出的用户集中20%的用户,其中, 包含了用户集中包含了用户集中52.2%的的9月流失用户;月流失用户;模型筛选用户9月、10月和和11月的流失率(模型准确月的流失率(模型准确率)分别为率)分别为16%、34%和和48%,比用户集中用户的流失率,比用户集中用户的流失率(不使用模型筛选的准确率(不使用模型筛选的准确率)提升度分别为)提升度分别为2.4、2.5和和3.2倍。倍。* 提升度=模型筛选用户流失率/用户集中用户流失率-28-在网在网2月以上新增用户流失预警模型月以上新增用户流失预警模型n分别采用逻辑回归算法和决策树算法建模,比较模型预测效果,确定使用逻辑

40、回归算法基本情况基本情况语音通话情况语音通话情况建模变量建模变量数据业务使用情况数据业务使用情况月数据月数据时间段变化趋势数据时间段变化趋势数据月数据月数据时间段变化时间段变化趋势数据趋势数据品牌 arpu 余额建模时间窗口建模时间窗口套餐名称3月3月3月3月3月本地 长途 漫游通话 通话 通话 次数 次数 次数4月5月4月5月4月5月4月5月4月5月本地通话次数波动率6月6月6月6月6月长途通话次数波动率漫游通话次数 波动率7月7月7月7月7月数据业务费用8月8月8月8月8月数据业务消费占比9月9月9月9月9月数据业务使用 种类数10月10月10月10月10月数据业务费用 波动率11月11月

41、11月11月11月测试时间窗口测试时间窗口3月3月4月4月5月5月6月6月7月7月8月8月9月9月10月10月11月11月-29-建模结果建模结果n 所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响n 回归分析方法和参数设置同在在网回归分析方法和参数设置同在在网2月新增用户流失预警模型月新增用户流失预警模型n 模型的结果为对数流失风险比的线性拟合表达式模型的结果为对数流失风险比的线性拟合表达式n 用户余额、本地被叫通话次数、欠费金额、本地被叫次数波动率、通话标志、通话时长大于用户余额、本地被叫通话次数、

42、欠费金额、本地被叫次数波动率、通话标志、通话时长大于5分钟标志变量分钟标志变量重要重要变量重要性变量重要性余额余额本地被叫通话次数本地被叫通话次数欠费金额欠费金额本地被叫次数波动率本地被叫次数波动率通话标志通话标志通话时长大于通话时长大于5分钟标志分钟标志多次充值标志多次充值标志其他费用其他费用本地主叫次数波动率本地主叫次数波动率新业务费新业务费通话次数通话次数月租费月租费arpu彩铃订购标志彩铃订购标志长途通话次数长途通话次数漫游通话次数漫游通话次数本地主叫次数本地主叫次数-30-模型预警模型预警20%的正常用户,包含的正常用户,包含61%的下月流失用户的下月流失用户用户集:用户集:09年年

43、06月(包括月(包括06月)以前入网、08月仍然正常的用户;61.4%模型筛选用户:通过模型筛模型筛选用户:通过模型筛选出的用户集中20%的用户,其中, 包含了用户集中包含了用户集中61.4%的的9月流失用户;月流失用户; 模型筛选用户模型筛选用户9月、月、10月月和和11月的流失率(模型准确月的流失率(模型准确率)分别为率)分别为26.7%、36%和和43%,比用户集中用户的流,比用户集中用户的流失率(不使用模型筛选的准失率(不使用模型筛选的准确率)提升度分别为确率)提升度分别为3.4、2.7和和2.3倍。倍。* 提升度=模型筛选用户流失率/用户集中用户流失率-31-在网在网1月新增用户流失

44、预警模型月新增用户流失预警模型n在网1月新增用户没有月数据,只有日数据,由于系统只保留最近3月的日数据,9月的日数据不完整,据不完整,11月的新增用户不能判定用户流失,只能取月的新增用户不能判定用户流失,只能取10月新增用户的日数据为建模数据集月新增用户的日数据为建模数据集n 用户的样本量小,考虑到决策树算法如使用交叉验证,能一定程度上弥补样本量小的不足用户的样本量小,考虑到决策树算法如使用交叉验证,能一定程度上弥补样本量小的不足,采用决策树算法作为预警建模算法,采用决策树算法作为预警建模算法建模变量建模变量基本情况基本情况语音通话情况语音通话情况数据业务使用情况数据业务使用情况日均数据日均数据时间段日数据时间段日数据/变化趋势变化趋势数据数据日均数据日均数据时间段变化时间段变化趋势数据趋势数据品牌 arpu 余额套餐名称本地 长途 漫游通话 通话 通话 次数 次数 次数本地 长途 漫游通话 通话 通话次数 次数 次数 波动 波动 波动率 率 率短信 彩信 gprs条数 条数 流量短信条数波动率建模时间窗口建模时间窗口入网时间在入网时间在10月月125日的用户从入网当天直到日的用户从入网当天直到10月底的日数据月底的日数据12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论