CPDA考试 移动客户细分聚类.doc_第1页
CPDA考试 移动客户细分聚类.doc_第2页
CPDA考试 移动客户细分聚类.doc_第3页
CPDA考试 移动客户细分聚类.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、 假如你是某移动运营商的数据分析师,结合用户通话行为数据,通过数据分析为用户推荐相应套餐或者结合用户现有套餐优化套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。运营商收集到的数据包含下列字段;变量名称变量标签Customer_ID用户编号Peak_mins工作日上班时间电话时长OffPeak_mins工作日下班时间电话时长Weekend_mins周末电话时长International_mins国际电话时长Total_mins总通话时长average_mins平均每次通话时长根据客户行为数据,进行数据的预处理(可以自行根据现有变量构造新变量进行分析),预处理之后选择适合变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,并为运营商提供客户精准营销的相关建议。(请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议)。K-Means据类的步骤:1. 确定所有聚类变量(聚类因子);2. 数据预处理(分类变量数值化、处理缺失值、分析是否存在共线性等,若只有两个变量共线则用比值法,较多变量共线用主成分分析进行降维);3. 确定聚类个数并用处理后的聚类因子进行聚类分析(若未说明则需要尝试不同的聚类个数3,4,5,6,7,从中选择平均轮廓系数较大且结果易于分析解释的模型);4. 分析聚类效果和聚类结果(类中心点和每个类等);5. 结合实际情况分析每类的意义等 。(聚类分析处理共线性时不能直接删除,可用比值替代或主成分分析等来消除共线性)案例分析:观察数据类型,检查数据是否具有缺失值。数据类型为数值型,原始数据没有缺失值。我们把数据导入DATAHOOP平台,在展示分析中进行异常值分析。分析结果如下表:Peak_minsOffPeak_minsWeekend_mins上四分位1382.1426.82574.875中间值1030.2274.0544.4下四分位700.2154.42525.05异常值个数655International_minsTotal_minsaverage_mins上四分位389.031781.34.2075中间值294.0751370.852.73下四分位221.22751094.9252.1异常值个数131136由上面可以得到异常值的个最多的具有36个,在数据总体样本中占比比较大。所以不处理异常值,这些异常值有可能是数据中一些特殊的类。进行相关系数矩阵分析,分析得到的相关系数矩阵如下:Peak_minsOffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_minsPeak_mins10.1210.14480.69150.9415-0.0367OffPeak_mins0.12110.02470.2620.44250.0094Weekend_mins0.14480.024710.12820.2006-0.1066International_mins0.69150.2620.128210.7123-0.034Total_mins0.94150.44250.20060.71231-0.0364average_mins-0.03670.0094-0.1066-0.034-0.03641观察相关系数矩阵中有一个相关系数为0.9415,该系数比较大。所以我们要处理,我们用比值替换法(把两个变量做比,得到的比值替换其中的一个变量)。我们在数据中重新插入一列为Peak_minsTotal_mins得到他们的变量比值,替换Peak_mins变量。得到新的变量,我们把新的数据导入DATAHOOP中求出相关系数矩阵:OffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_minsPeak_mins/Total_minsOffPeak_mins10.02470.2620.44250.0094-0.4771Weekend_mins0.024710.12820.2006-0.10660.0079International_mins0.2620.128210.7123-0.0340.3939Total_mins0.44250.20060.71231-0.03640.4492average_mins0.0094-0.1066-0.034-0.036410.0116Peak_mins/Total_mins-0.47710.00790.39390.44920.01161得到的相关系数矩阵中的相关系数没有大于0.85,所以解决了共线性。我们可以直接进行K-Means聚类。聚类的参数在有聚类的个数为5,进行标准化,初始中心点选择的次数要大,最大迭代次数也要大。然后进行K-Means聚类,运行结果如下:平均轮廓系数: 0.2467该平均轮廓系数是比较小,平均轮廓系数越接近于1越好。实际案例里面我们有可能我们得不到太大的轮廓系数,聚类效果是不明显。聚类不是太明显,但聚类是有区别的。我们研究该聚类的区别。类别类中心点坐标样本个数0-0.6972-0.00146-0.10973-0.08154-0.159090.78666919110.469649-0.071891.43651.293804-0.043520.473255892-0.03111-0.5675-0.53938-0.487123.645248-0.107161830.7210840.237837-0.25106-0.18959-0.11827-0.830471754-1.37056-0.98922-2.12987-2.30509-0.4263-1.8045225我们得到上面表格的类中心点坐标是经过我们标准化的,我们还原成原来的数据。得到原始的分类,然后求每一类的平均值,总结如下表:Peak_minsOffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_mins01068.376300.131753.96551315.54131422.4733.59957911305.872349.061157.77315366.63261712.7063.59243721078.467300.940452.69453314.9941432.1024.00812231068.291300.633953.96841315.95931422.8933.602067452.695239.3786118.2343215.56027110.30812.785264对类进行特征分析:0类:总通话(Total mins)较长,下班通话时间(Offpeak mins)最长,上班通话时间(Peak mins)比较长,命名为中端客户;1 类:总通话(Total mins)长,上班通话时间(Peak mins)长,周末通话时间(Weekend mins)较长,国际通话时间(International mins)长,命名为高端用户;2类:总通话(Total mins)较长,上班通话时间(Peak mins)仅次于第一类,周末通话时间(Weekend mins)居中,国际通话时间(International m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论