




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多目标决策树研究客户职业细分1 概述以客户为中心,深化客户导向的服务管理体系是中国移动2008年的重点市场工作。目前市场管理按照三大品牌分别对各类客户进行,但是随着客户和业务的不断发展,品牌对客户的区分能力逐渐弱化,需要按新的维度来重新刻画客户,使不同群体的客户特征区别更为明显,对不同的群体进行差异化的服务和营销,真正做到以客户为中心。同时,使同一群客户的价值或需求更加相似,他们对营销手段的反应也非常相似,这样就为有效的主动营销奠定了良好的基础。现代社会中,职业是决定人们生活形态和消费模式的重要因素之一。职业与人们所处的社会地位以及获得的社会资源密切相关,也与人们的收入高度相关。职业在很大程度上决定了人们对移动通信、资讯服务的需求,上班时是否需求更多的工作交流?是否要经常出差?是否经常收发邮件?关心哪方面的资讯?职业仿佛是一个巨大的力场,牵引着人们的日常运行轨迹。因此,把客户从职业角度进行细分,归纳每种职业客户的消费行为特征,就可以把握他们对移动服务需求的规则,实现更有效的客户服务和营销。2 模型方法本项目主要解决的业务问题是根据现有客户的消费和行为数据,利用分类预测模型算法把客户按职业特点分为8个群:1. 学生2. 家庭主妇和离退休人员3. 个体户4. 中高层管理者5. 白领6. 蓝领7. 求职者8. 公务员该问题可利用数据挖掘的手段或者方法加以解决。问题本身是一个multinomial分类预测问题,目标值是以上八类职业。对于多元分类预测问题,可以选用决策树、神经网络、逻辑回归、判别分析等数据挖掘算法进行分析建模。此处我们选用决策树模型对客户进行职业细分。选用决策树模型进行多元分类预测较其他方法具有其优点:1 相对于神经网络,决策树方法可详细了解从变量到目标的每一规则,分析每一规则每一节点下的数据特征,而神经网络方法无法了解从变量到目标的规则;2 相对于逻辑回归,决策树方法可同时进行多目标的分类预测,而一次逻辑回归只能进行预测是否属于某一类,多元预测时需要多次逻辑回归,且回归算法对变量的要求较高,如变量正态分布、残差同分布等;3 相对于判别分析,决策树理论更成熟,且具有更高的准确性。2.1 多目标决策树介绍决策树方法通过自顶向下,分而治之的策略,采用信息煽理论构建树状结构,最终得到符合每组规则条件下的目标群体成为样本目标的概率,通过可读规则展示用于对定类和定序目标变量的分类。运算过程中,如果熵值越小,数据的纯度越高:同时优先选取信息增益最大的字段应用决策树模型,可以判断某一组目标群成为样本目标的可能性,用于最终决策。2.2 利用多目标决策树研究客户职业细分的方法2.2.1 基于多目标决策树的业务问题定义基于以上介绍的多目标决策树分析方法,可将当前的业务问题定义如下:1. 移动通信网络中的客户行为是研究的对象,用户个体是多目标决策树分析中的分析对象;2. 目标是通过客户的通信行为,以职业维度将客户分为学生、家庭主妇和离退休人员、个体户、中高层管理者、白领、蓝领、求职者、公务员八类职业。3. 除了准确地对客户职业进行细分之外,还需要分析出各职业客户的属性、消费行为等方面的特征,并对未来的经营分析与业务开展具有指导意义。2.2.2 基于多目标决策树分析的客户行为研究思路根据以上的业务问题定义,我们可以选取反映样本客户行为特征的属性,如ARPU值、MOU、数据业务费用等指标,训练多目标决策树,获得职业识别的规则,分析各类各指标的在判别职业中的作用和程度。同时利用另外的测试样本来检查职业识别的准确性。这个过程需要反复调整,来获得最好的细分模型。2.3 基于多目标决策树的职业细分模型的构建2.3.1 数据准备与数据探索数据准备中需注意的相关问题:1. 提取的数据细化到每一客户,我们的分析对象层面是客户级;2. 对于金额、时长、比例等连续性指标,需提取最近三个月每月平均值,使得数据及分析的结论具有稳定性;3. 选择的关键性指标不宜过多,且需排除之间相关性较强的指标。当选择的指标较多时,需要用因子分析等降维方法降低维度以利于后期对类别的命名;4. 对数据进行标准化处理。在后面数据分析全过程中,通过可视化(Visualization)工具及统计分析等方法来展示及探索(Explore)各个变量的效能,从而最终获得模型的输入变量。通过数据探索进行变量筛选的分析方法很多,因为业务目标是分类数据,此处主要以直方图分析(Hitogram Analysis)、箱线图的方法进行数据探索。通过比较变量在各类职业群体中的分布情况,观察其集中趋势,分析是否因职业不同而有显著差异。2.3.2 客户职业细分分析通过运用Teradata Warehouse Miner中决策树进行分析:1. 选择数据表;2. 选择决策树分析模块,选择自变量和因变量;3. 设置参数:选择分裂算法(splitting method)、修剪方法(Pruning Method)等参数4. 运行程序;5. 检查生成的树和细分的准确率。6. 反得进行3至5步,直到得出理想的决策树。3 模型实现3.1 模型定义3.1.1 样本数据职业标签数据的来源主要分为三部分:1 移动公司委托市场调研公司以问卷调研方式获得的有效样本数据共1137个;2 移动公司提供的个体户及家庭主妇样本数据509个,剔除名单内重复号码剩余321个;3 运用数据挖掘的方法选取部分深圳集团客户下属成员,总共确定包括中高层管理者、学生、白领、蓝领、公务员五类共62.6万个样本,为提高准确性再经条件过滤,剩余51万有效样本。以上三种来源的职业标签数据经再次剔除重复后合计511928个。3.1.2 问题定义分析变量:1 客户信息类(如:品牌、在网时长);2 通话行为类(如:通话次数、通话时长、通话占比);3 费用类(如:ARPU、通话费用、数据业务费用)4 数据业务类(如:点对点短信量、点对点彩信量、是否使用手机报)5 交往圈类(如:交往圈人数、工作日小区号月数量)目标变量: 职业标签3.2 数据探索根据对业务问题的定义,我们选取如下指标进行探索性分析:初始变量名称变量描述c_usr_nbr手机号c_brand品牌int_occupation_flag职业标签si_innet_dur在网时长scale_data_fee最近三月数据业务费用占比avg_per_dur最近三月平均每通话时长scale_day_dur最近三月白天通话时长占比avg_arpu最近三月平均arpuavg_fee最近三月平均通话费call_cnt最近三月主叫通话次数called_cnt最近三月被叫通话次数cdr_mms_o_cnt最近三月外发点对点彩信数flux_gprs最近三月GPRS流量full_cnt最近三月通话次数si_mou最近三月平均MOU值local_cnt最近三月本地通话次数long_cnt最近三月长途通话次数manyou_cnt最近三月漫游通话次数p2p_mms_cnt最近三月点对点彩信数p2p_sms_o_cnt最近三月外发点对点短信数phn_oi_cnt最近三月交往圈人数scale_call_called_dur最近三月主被叫通话时长比例scale_local_dur最近三月本地通话时长占比scale_long_dur最近三月长途通话时长占比scale_manyou_dur最近三月漫游通话时长占比f_cnt_12580最近三个月拨打12580次数f_cnt_12593最近三个月拨打12593次数f_cnt_12590 最近三个月拨打12590次数int_l_cal_cnt最近三个月与本地固话通话次数int_staday_cell_cnt周六小区号月数量int_sunday_cell_cnt周日小区号月数量int_workday_cell_cnt工作日小区号月数量login_cnt最近三个月网站登陆次数cdr_211_cnt是否使用211天气预报si_139mail是否使用手机邮箱si_aimcon是否使用一起玩吧si_fet_usr是否使用飞信si_music是否无线音乐俱乐部会员si_phone_paper是否使用手机报si_vip是否vipsi_wap是否使用手机wapavg_data_fee最近三月平均数据业务费call_dur最近三月主叫通话时长called_dur最近三月被叫通话时长day_dur最近三月白天通话时长local_dur最近三月本地通话时长long_dur最近三月长途通话时长manyou_dur最近三月漫游通话时长p2p_sms_cnt最近三月点对点短信数int_l_cal_dur最近三个月与本地固话通话时长经数据探索后发现:1. 几乎各指标在各职业群体中都体现出有差异,差异程度大小不一。2. 个别职业群体之间有相似性,如学生和蓝领的消费行为较相似,白领和公务员的消费行为较相似。群体之间的相似性越大,类别区分的难度也越大。3.3 多目标分类模型构建利用Teradata Warehouse Miner 的决策树进行建模。1. 将数据随机抽样分组,训练集数据用于模型构建,测试集数据用于检测模型。2. 此次建模所使用样本剔除了最近三月无通话记录的26043个样本(如不剔除,则会降低各群体的预测准确率),剩余485885个样本以7:3比例分成训练集数据与测试集数据分别为:340660、145225。3. 受限于目前的条件无法获取“求职者”手机号作为模型训练的样本,未能在职业类别中预测出“求职者”这一类群体。4. 因各职业群体样本比例悬殊,需运用统计抽样技术对各群体样本量调整,使得各群体样本比例接近现实世界的比例。5. 经过试验比较,选择分裂算法(splitting method)为吉尼系数法(Gini Index)6. 经过试验比较,选择最大分裂数为300,最大节点数为300,最大深度为87. 经过试验比较,选择决策树修剪方法(Pruning Method)为最大增益法(Gain Ratio)3.4 结果评估经过训练后,决策树中包括以下变量:变量名称变量描述avg_arpu最近三月平均arpuavg_fee最近三月平均通话费avg_per_dur最近三月平均每通话时长c_brand品牌call_cnt最近三月主叫通话次数called_cnt最近三月被叫通话次数cdr_mms_o_cnt最近三月外发点对点彩信数full_cnt最近三月通话次数int_l_cal_cnt最近三个月与本地固话通话次数int_staday_cell_cnt周六小区号月数量int_workday_cell_cnt工作日小区号月数量local_cnt最近三月本地通话次数login_cnt最近三个月网站登陆次数long_cnt最近三月长途通话次数manyou_cnt最近三月漫游通话次数p2p_mms_cnt最近三月点对点彩信数p2p_sms_o_cnt最近三月外发点对点短信数phn_oi_cnt最近三月交往圈人数scale_call_called_dur最近三月主被叫通话时长比例scale_day_dur最近三月白天通话时长占比scale_local_dur最近三月本地通话时长占比scale_long_dur最近三月长途通话时长占比scale_manyou_dur最近三月漫游通话时长占比si_fet_usr是否使用飞信si_innet_dur在网时长si_mou最近三月平均MOU值决策树的一部分如下图所示:测试结果显示除了样本量较小的个体户、中高层管理者、家庭主妇和离退休人员的较差外,其他各类群体测试准确率都较高。职业群体训练准确率训练LIFT值测试准确率测试LIFT值1.个体户49.27%9.85 17.87%3.57 2.中高层管理者45.45%9.09 36.42%7.28 3.学生58.64%14.66 56.56%14.14 4.家庭主妇和离退休人员56.51%14.13 25.04%6.26 5.白领59.78%1.71 57.57%1.64 6.蓝领74.17%1.77 70.58%1.68 8.公务员55.29%11.06 47.05%9.41 总体准确率65.38%-61.02%-从各类职业群体的LIFT值看,除了白领和蓝领这两类职业人群占比较大的原因使得LIFT值较低(但仍然达到1.6以上),其他都较高,学生类甚至超过14,说明模型具有较好的分类预测效果。从总体看,训练准确率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新解读《GB-T 30961-2014嵌入式软件质量度量》
- 新解读《GB-T 31031-2014机场除雪车》
- 新解读《GB-T 31085-2014国际货运代理单证签发规范》
- 代理牙膏合同范本
- 房租快速出租合同范本
- 农户房屋出售合同范本
- 消防挂资质合同范本
- 整装家居销售合同范本
- 乡村建设桥合同范本
- 殡葬服务合作合同范本
- 绿化项目养护监理方案投标文件(技术方案)
- 大学英语四级高频词汇1500+六级高频词汇1500
- 混凝土结构跳仓施工方案
- 水稳摊铺作业安全技术交底
- 二年级劳动与技术折扇课件
- 公墓施工组织设计
- 油气集输管线管道工程征地外协管理方案
- 《智慧农业》的ppt完整版
- 小升初英语学习方法指导PPT
- CT图像伪影及处理
- 住宅给水设计秒流量计算举例
评论
0/150
提交评论