基于数据挖掘的家庭客户识别模型_第1页
基于数据挖掘的家庭客户识别模型_第2页
基于数据挖掘的家庭客户识别模型_第3页
基于数据挖掘的家庭客户识别模型_第4页
基于数据挖掘的家庭客户识别模型_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的家庭客户识别模型研究1 背景1.1 现状分析随着各电信运营商进入全业务运营时代,竞争对手利用其全业务优势,围绕宽带和固定电话推出捆绑服务,利用移动在这两块业务非常薄弱的弱点,实施差异化的竞争战略,积极渗透移动业务,市场竞争日趋激烈。为适应新形势下市场竞争的要求,移动必须积极拓展家庭客户市场,立足于移动通信的先发优势和规模优势,重点发展和推广家庭业务,增加客户对移动业务的粘性。这样不仅能防范个人客户被蚕食的风险,更能在传统语音业务和数据业务基础上取得进一步发展。然而当前移动在拓展家庭市场上存在如下几个问题: 家庭客户的识别缺少依据,缺乏有效的手段来支撑家庭客户的精确营销; 传统的三户模型以单个客户为单位进行管理和分析,但在真实社会中,家庭是组成社会组织的基本单位,当前移动的用户管理模型中尚未以家庭为单位对全量用户进行划分,缺乏对客户的深入理解和通信需求的深度挖掘;1.2 研究目标及演进移动对于家庭客户的理解及研究尚处于起步阶段,计划通过以下三个阶段的研究来逐步加深对家庭客户的了解,从而更好地为家庭客户市场的发展提供技术支撑: 第一阶段:建立家庭客户识别模型通过对家庭客户成员和非家庭客户成员之间的对比分析,找到家庭客户成员之间的一些显著特征,帮助我们更好地了解家庭客户成员之间的通信行为,并利用数据挖掘模型进行分析,从而找到识别家庭客户的一些规律; 第二阶段:利用家庭客户识别模型,对全量用户以家庭为单位进行划分利用第一阶段得到的成果,识别出浙江移动全量用户中的家庭客户,并将浙江移动的全量用户以家庭为单位进行划分,建立以家庭为单位的客户模型; 第三阶段:以家庭为单位进行分析,深度挖掘家庭客户的潜在需求根据第二阶段得到的成果,以家庭作为基本研究对象,分析整个家庭的通话行为与消费特征,发掘家庭客户的潜在需求,为家庭客户的营销提供技术支撑;本文的研究目的是解决第一阶段的问题,即通过数据挖掘的方式识别出存在家庭关系的两个独立的移动用户。1.3 假设与约定本文中用到的一些基本假设如下: 本文假设办理了家庭套餐业务的户主和成员之间存在家庭关系; 本文假设家庭成员之间必然存在通信联系,例如电话或者短信,如果家庭成员之间不存在任何通信联系,这种情况不在我们的考虑范围之内;2 家庭客户识别模型2.1 数据准备表1为本模型中使用到的所有输入变量,涉及到语音、短信、终端、小区位置信息等15个指标,除了表中的15个输入变量之外,同时还有一个输出目标变量“是否家庭关系”,我们将同一家庭套餐内的两个成员号码定义为存在家庭关系,将不在同一家庭套餐内且有过通话的两个号码定义为不存在家庭关系,各个变量的角色及数据类型如图1所示。以“是否家庭关系”为目标变量,其它15个变量为输入变量,分别选取杭州地区存在家庭关系和不存在家庭关系的号码对5000个,共10000个样本,最终形成含有号码对,及号码对之间15个统计指标的数据集,数据集的格式如下:号码A ,号码B,是否家庭关系,指标1,指标2,指标15图1变量的角色及数值类型配置图序号变量名称备注1号码A与号码B夜间通话最为频繁的小区位置信息是否一致取用户在夜间产生的本地市通话详单,统计用户各小区(CELL_ID)的通话次数,取通话次数占比超过50%的小区,判断两用户的小区是否存在重叠2号码A对号码B的闲时通话次数占号码A总闲时通话次数的比例号码A对号码B的闲时通话次数/号码A总闲时通话次数3号码A对号码B的闲时通话时长占号码A总闲时通话时长的比例号码A对号码B的闲时通话时长/号码A总闲时通话时长4号码A对号码B闲时有过通话的天数5号码A对号码B的下班高峰时间通话次数占号码A总下班高峰时间通话次数的比例号码A对号码B在下班高峰的通话次数/号码A总下班高峰通话次数6号码A对号码B的下班高峰时间通话时长占号码A总下班高峰时间通话时长的比例号码A对号码B在下班高峰的通话时长/号码A总下班高峰通话次数7号码A对号码B的上班高峰时间通话次数占号码A总上班高峰时间通话次数的比例8号码A对号码B的上班高峰时间通话时长占号码A总上班高峰时间通话时长的比例9号码A对号码B的午间休息时间通话次数占号码A总午间休息时间通话次数的比例10号码A对号码B的午间休息时间通话时长占号码A总午间休息时间通话时长的比例11号码A对号码B在周末的通话次数占号码A总周末通话次数的比例周末:星期六+星期天12号码A对号码B的下班高峰时间短信次数占号码A总下班高峰时间短信次数的比例13一方漫游一方本地的情况下闲时是否有通话14是否属于同一统一支付帐号号码A和号码B在同一个统一支付帐号下则为true,否则为false15最近三月内是否曾经使用过同一终端根据IMEI使用记录,如果号码A和号码B曾经使用过同一个终端则为true,否则为false表1输入变量列表2.2 变量特征分析2.2.1 输入变量与目标变量的卡方分析卡方分析可用于两个或者多个分类变量之间的相关性分析,通过各输入变量与目标变量的卡方分析,可以观察输入变量对家庭客户和非家庭客户的分类能力,卡方分析中的值介于0和1之间,值越大,表示相关性越强。表2为各输入变量与目标变量的卡方分析结果,从分析结果来看,“下班高峰通话次数占比”、“下班高峰通话时长占比”、“闲时通话次数占比”、“周末通话次数占比”、“闲时通话小区位置是否存在重合”这五个指标与判断两个号码是否存在家庭关系具有较强的相关性,也就是说,存在家庭关系的号码对与不存在家庭关系的号码对在上述五个指标上存在显著的差异,而且从p值可以看到这种差异由于偶然的因素引起的概率极其小,我们有理由相信,存在家庭关系的号码对与不存在家庭关系的号码对在上述的通信行为上存在显著的差异,这种差异为我们后续识别两个号码是否为家庭客户提供了理论依据。“下班高峰通话次数占比”这个指标与“是否是家庭关系”具有最强的相关性,值达到0.5638,两个号码在下班高峰时段的通话次数占某一号码总下班高峰时段所有通话次数的比率超过0.0255的3521个号码对中,其中存在家庭关系的为3107对,非家庭关系的为414对,家庭关系的用户占比达到88%,而总共存在家庭关系的5000个号码对中,3107个号码对具有这种行为特征(下班高峰通话次数占比超过2.55%),占比达到62%。因此,单独用该指标判断家庭关系的准确率为88%,查全率为62%。“下班高峰通话时长占比”、“周末通话次数占比”、“闲时通话次数占比”这三个指标也表现出类似的特征。除在下班高峰的通话行为之外,家庭关系的号码对与非家庭关系的号码对在闲时通话小区位置是否存在重叠这一属性上存在显著的差异。通过对样本的分析来看,共有3674个号码对存在闲时通话小区存在重叠的情况,其中存在家庭关系为3118对,准确率达85%。总共5000个为家庭关系的号码对中,共有3118个号码对表现出这种特征,查全率为62.4%。部分指标与是否是家庭关系的相关性虽然不大,但仍然表现出一种有意思的现象,以是否曾经使用过同一终端为例,曾经使用过同一终端的用户中,92%的用户为家庭关系,但是只有大约不到10%的用户曾经使用过同一终端,使得该变量的分类能力大打折扣。这种现象可以理解为部分变量对于识别两个号码是否为家庭关系具有很高的准确性,但是这种特征很难被我们捕获到,或者说家庭客户不太容易表现出某种特征,但是一旦表现出这种特征,我们有很高的概率来确定这两个用户为家庭客户。序号指标名称指标取值是否家庭关系合计值P值否是1上班高峰通话次数占比 0.0274472032697989=0.362P= 0.027428017312011合计50005000100002上班高峰通话时长占比 0.013469232307922=0.3603P= 0.01330817702078合计50005000100003午间休息通话次数占比 0.026457424327006=0.4677P= 0.02642625682994合计50005000100004午间休息通话时长占比 0.016443123396770=0.4474P= 0.01656926613230合计50005000100005下班高峰通话次数占比 0.0255458618936479=0.5638P= 0.025541431073521合计50005000100006下班高峰通话时长占比 0.021455420156569=0.5348P= 0.02144629853431合计50005000100007闲时通话次数占比 0.023455322006753=0.5025P= 0.02344728003247合计50005000100008闲时通话时长占比 0.012446521686633=0.4861P= 0.01253528323367合计50005000100009周末通话次数占比 0.026457818986476=0.561P= 0.02642231023524合计500050001000010闲时通话天数 1.5459725227119=0.4582P= 1.540324782881合计500050001000011下班高峰时间短信次数占比 0.024476134378198=0.3445P= 0.02423915631802合计500050001000012闲时通话小区位置是否存在重合否444418826326=0.5314P0.001是55631183674合计500050001000013是否使用过同一终端否493242059137=0.2589P0.001是68795863合计500050001000014是否统一支付否499344589451=0.2349P0.001是7542549合计500050001000015漫游是否通话否422628627088=0.3002P0.001是77421382912合计5000500010000表2 各输入变量与目标变量之间的卡方分析2.2.2 小结从上面的卡方分析结果可以得到如下结论:l 存在家庭关系的号码对在下班高峰时段、闲时及周末的通话情况与非家庭关系的号码对存在显著的行为差异,家庭成员之间在上述时间段内会较为频繁地相互通信;l 家庭关系的号码对与非家庭关系的号码对在闲时通话小区位置是否存在重叠这一属性上存在显著的差异,这也与家庭成员在夜间会共同呆在家中的现象相互吻合;l 两个号码是否曾经使用过同一个终端及是否在统一支付帐号下能够较为准确地预测两个号码是否为家庭关系,但是家庭客户的这种特征很难被捕获到,大部分家庭客户不太容易表现出上述特征。2.3构建识别模型2.3.1 建模流程图2为家庭客户识别模型建模流程图,首先将在数据准备阶段得到的数据在SAS中建立数据集,接着将数据集拆分成两部分,一部分用于模型的训练,另外一部分用于验证模型,然后选用多个不同的数据挖掘模型进行训练,分别得到不同的挖掘结果,最后利用SAS Enterprise Miner中的模型比较功能对不同挖掘模型的结果进行评估比较,从中选择出最佳的模型。图2 家庭客户识别模型建模流程2.3.2 数据分区在数据分区阶段中,我们将67%的样本用作训练数据,剩余33%的样本用作验证数据,采用分层抽样的方式,将基础数据拆分成训练数据和验证数据两部分,其中训练数据用于建模,验证数据用于对得到的模型进行验证比较,数据分区后的结果如表3所示:类别变量数值型值格式化值频数计数百分比数据=TRAINIS_FAMILY00334950IS_FAMILY11334950数据=VALIDATEIS_FAMILY00165150IS_FAMILY11165150表3 数据分区结果2.3.3 模型训练在模型训练阶段,我们选取了三个决策树模型,一个神经网络模型。三个决策树模型在一些参数的设置上有所区别,决策树基准模型中显著性水平设置为0.05,输入变量允许使用多次(即在规则中允许同一变量出现多次),最大的分支为2(即最多允许分拆成2个子节点),叶大小要求为50(即叶子节点最少要求有50个样本),其余参数均采用SAS Enterprise Miner中的默认参数。决策树(变量用1次)模型在基准模型的基础上只允许输入变量使用一次。决策树(3分支)模型在基准模型的基础上允许节点最多拆分成3个子节点。神经网络模型均采用SAS中的默认参数。四个挖掘模型的主要参数设置如表4所示:参数类别参数名决策树(基准模型)决策树(变量用1次)决策树(3分支)神经网络决策树模型参数显著性水平0.050.050.05/输入变量是否只使用一次否是否/最大分支223/叶大小505050/神经网络模型参数参数/默认表4 决策树及神经网络模型的参数设置2.3.4选择最佳模型SAS中的模型比较节点提供了一系列的模型评估和比较的工具,可以帮助我们从多个训练模型中找出最佳的模型,图3、图4和图5是模型比较节点输出的结果,分别为模型的ROC图、拟合统计量表和累计提升图。图3 挖掘模型ROC曲线图图4 挖掘模型拟合统计量图5 挖掘模型累计提升图ROC曲线刻画了随着阀值的变化,模型的灵敏度和特异度的变化情况。这里的灵敏度代表的是模型将家庭客户正确地预测为家庭客户的比率,特异度代表的是样本实际为非家庭客户,而模型准确地将其预测为非家庭客户的比率,1-特异度代表的是模型的误报率。因此模型的灵敏度越高,1-特异度越小,表示模型的预测效果越好。ROC图中模型的好坏可以用ROC曲线下面的面积来衡量,面积越大,模型的效果越好。从图3的ROC曲线图中可以看到,这四个模型在训练集及验证集上的曲线形状基本保持一致,显示了良好的稳定性。“决策树(3分支)”模型最靠近左上角,ROC曲线下的面积最大,模型效果最好,而神经网络模型ROC曲线下的面积最小。从拟合统计量表中也可以看到,模型比较节点选出的最佳模型(选定模型栏中标记为Y)为“决策树(3分支)”模型。从图5可以看到,各模型在训练数据上的提升与在验证数据上的累计提升曲线基本保持一致,不存在过度拟合的情况。在训练数据的累计提升图(图5左半部分)中,在0到20百分位数的区间段内,从上到下的四条线分别为神经网络模型、决策树基准模型、决策树3分支模型和决策树(变量用1次)模型。神经网络模型在前20百分位数的累计提升效果要明显高于其它三个模型,但是在20百分位数之后提升效果显著恶化;决策树基准模型和决策树3分支模型在累计提升上的表现基本接近,而决策树(变量用1次)模型的提升效果明显地低于其它三个模型。综合上面的各项因素,我们选择“决策树(3分支)”模型作为识别家庭客户的最佳模型。2.4模型结果根据模型比较的结果,我们选择决策树3分支模型作为识别家庭客户的最佳模型,图6、图7和表5是该模型的输出结果。图6是决策树(3分支)模型的累计提升图,累计提升图表现的是使用模型后与不使用模型(只用随机的判断)相比预测效果的提升倍数,提升倍数越高,表示模型的预测效果越好。图6中最上面的那条曲线代表的是理论上的最佳提升曲线,它假设模型能够完全正确地对样本进行分类,那么前50%分位数的观测值都能被正确地识别成家庭客户,预测准确率为100%,比随机预测的准确率50%相比能够累计提升2倍。图6中间的那条曲线代表的是决策树3分支模型的累计提升情况,最下面的那条曲线代表的不使用任何模型的提升效果。从图中可以看到,决策树(3分支)模型的累计提升图较接近理论最佳曲线,对预测效果具有较好的提升。图7表现的是模型在训练数据集及验证数据集上的预测准确率和误报率情况,目标为1表示两号码实际为家庭客户,目标为0表示两号码实际为非家庭客户,从图中可以看到,实际为家庭客户,模型准确地将其识别为家庭客户的比率为40.83%,实际为非家庭客户,模型准确地将其识别为非家庭客户的比率为42.18%,样本被错误分类的比率为16.99%。图6决策树(3分支)模型累计提升图图7 模型的准确率及误报率表5为“决策树(3分支)”模型输出的判断规则,每一条规则是对总样本数据的一个分类,并给出了每条规则下的观测值为家庭客户的比率,这些规则可以在实际工作中用于家庭客户的识别。序号规则描述总观测数正例数(家庭客户)占比反例数占比1是否属于同一统一支付帐号 = 1 AND 夜间通话小区是否一致 = 0 AND 下班高峰通话次数占比 0.02738596.5%3.5%20.05765 = 下班高峰通话次数占比181394.2%5.8%3是否使用过同一终端= 1 AND 夜间通话小区是否一致 = 1 AND 下班高峰通话次数占比 0.027311789.7%10.3%4夜间通话小区是否一致 = 1 AND 0.0273 = 下班高峰通话次数占比 0.0576526187.7%12.3%5是否使用过同一终端= 1 AND 是否属于同一统一支付帐号 = 0 AND 夜间通话小区是否一致 = 0 AND 下班高峰通话次数占比 0.027310177.2%22.8%60.00655 = 周末通话次数占比AND 是否使用过同一终端= 0 AND 夜间通话小区是否一致 = 1 AND 下班高峰通话次数占比 0.027321274.5%25.5%70.0474 = 周末通话次数占比AND 夜间通话小区是否一致 = 0 AND 0.0273 = 下班高峰通话次数占比 0.057658571.8%28.2%80.00465 = 周末通话次数占比 0.0474AND 夜间通话小区是否一致 = 0 AND 0.0273 = 下班高峰通话次数占比 0.0576510058.0%42.0%90.0389 = 周末通话次数占比AND 是否使用过同一终端= 0 AND 是否属于同一统一支付帐号 = 0 AND 夜间通话小区是否一致 = 0 AND 下班高峰通话次数占比 0.02739853.1%46.9%10周末通话次数占比 0.0021AND 是否使用过同一终端= 0 AND 夜间通话小区是否一致 = 1 AND 下班高峰通话次数占比 0.027338752.7%47.3%11周末通话次数占比 0.00465AND 夜间通话小区是否一致 = 0 AND 0.0273 = 下班高峰通话次数占比 0.05765

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论