通话数据分析方案论文.doc_第1页
通话数据分析方案论文.doc_第2页
通话数据分析方案论文.doc_第3页
通话数据分析方案论文.doc_第4页
通话数据分析方案论文.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通话数据分析方案 摘 要用户分类是通讯公司改善通讯设施、拓展新的通讯业务的基石。用户价值包括当前价值和潜在价值两部分,对于通讯公司实现用户价值目标,最主要的两个用户信息变量为通话时间和通话频数。对用户的两个变量的离群数据进行分析,将用户分为49小类3大类,不同类别的用户应采取不同的管理策略。在此基础上构建用户分类器和用户分类模型,并进行用户分类的实例研究。本文主要完成的任务有:I 关于用户类型转化预测的研究中, 划分用户群体的原则是采用帕累托“二八法则”。II 对于问题一,根据给出的通话记录信息,采用帕累托“二八法则” 来划分用户群体,以用户的通话时间和通话频数这两个信息变量为指标,可建立一个用户分类模型。对用户的两个变量的离群数据进行分析,将主叫和被叫均分为49小类,3大类。III 对于问题二,分析了主叫与被叫之间的关系,因其不存在必然的联系,同时根据现有的通讯公司的收费情况和运转方向,故可不考虑被叫。进而可根据问题一的分类结果,则可为通讯公司开发一项新的业务选择合理的用户作为推广人选。IV 对于问题三,计算出每个通讯设施(基站)上调查的总的通话时间和通话频数,将基站划分成8个区域,则算出每个区域的相应的用户指标和基站个数,即可得相应区域的单位面积上的用户指标数t。观察用户指标数t与其对应的基站个数是否相协调,若相协调,则表明其通讯设备设置合理;否则,根据每区域的用户指标数t调整各区域的基站个数。关键词:离群数据用户分类 通讯业务 通讯设施 通话时间 通话频数 帕累托“二八法则”一、问题重述与问题分析1.1 问题重述通讯技术的不断发展拉近了人与人之间的距离。电话作为主要的通讯工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。这个巨大的社交网咯对当前的 通讯设备和业务提出了更高的要求。如何利用现有的通话记录数据进行概括分析,以便做出合理的决策,进而改善通讯设施、拓展新的通讯业务,依然是很多通讯公司所面临的一个难题。附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题。1. 请根据这些通话记录信息建立数学模型以对用户分类。2. 如果需要退出一款新的通信业务,如何合理选择部分用户作为首选推广人群。说明你的理由,并撰写一份不超过两页的给公司经理的建立。3. 该地现有的通信设施(如基站等)建设情况是否合理。如需改进,请给出合理的建议。 图一 基站的位置2.1 问题分析对用户分类的依据在于用户对通讯公司的效益会产生多大的影响,以用户的通话时间和通话频数为指标,通过对这两个变量参数的离群数据的挖掘,可以发现重要用户的有利信息。从而可根据帕累托“二八法则”对用户进行分类,即可分为49小类,3大类。对于问题二,选择合理用户作为新业务的推广人选,则要基于用户分类的基础上。同时,先要分析主叫与被叫之间的联系,若其之间无必然的联系,同时根据现有的通讯公司的收费情况和运转方向,则可不考虑被叫。若其之间有相关的联系,则要同时考虑被叫情况。考虑主叫根据问题一得分类,则可从用户的当前价值和潜在价值两个维度分析,被叫同理。对于问题三,根据调查给出的通话记录,即可得每个通讯设施(基站)的通话总时间和通话总频数,分析其两种之间的关系,若其两者对反应基站的利用合理性能达到统一效果,则可选其一进行分析,否则用他们的综合效应来衡量基站的合理性。可利用相应区域的单位面积上的用户指标数t作为衡量指标,若t小,而其区域所占的基站数多,则表明基站设施不合理,否则设施合理。二、模型假设根据题意,可以进行如下假设:1、当前用户的消费习惯在短期时间内没有很大变化2、现有的通讯设施对当地居民无很大的障碍3、通讯公司的效益大致符合帕累托“二八法则”4、通讯公司调查的通话记录数据具有代表性5、基站的地理位置以图中一个小方格为最小划分区域6、若基站处于方格线上,则认为该基站同时属于此相连的两个方格三、符号说明 变量名称 符号说明 A 通话数据 T 最高通话时间 P 最高通话频数 ti 第i阶段通话时间对应的人数比例 pi 第i阶段通话频数对应的人数比例 count(i,j) 落在ti、pi相应区间的人数比例 t 相应区域的单位面积上的用户指标数 Ti 第i个用户的通话总时间Ti Pi 第i个用户的通话总频数Pi其中i、j=1、2、3.7四、模型的建立与求解本文模型的整体框架如下:模型一模型二模型三 检验通讯设施模型用户分类模型选择用户模型采用帕累托“二八法则”分类根据用户类别选择根据相应区域的单位面积上的用户指标数检验4.1 划分用户群体的原则采用帕累托“二八法则”。 即通讯公司80%收入来自20%的用户,70%的用户只提供了不足20%的利润,另有10%的用户不仅不会为通讯公司带来任何利润,甚至会削弱通讯公司的赢利水平。4.1 用户信息变量1、 用户通话时间用户在通讯公司调查的时间段内的通话总时间Ti2、 用户通话频数用户在通讯公司调查的时间段内的通话总频数Pi模型一 对问题一的求解1.1 模型的建立将给出的编号1300的用户的10天中的通话时间和通话频数这两个指标都从通话记录中提炼出来,并记录下最大的通话时间T和最大的通话频数P,同时将每个通话时间和通话频数段内占的用户比绘画出来。进而将这两个指标综合起来,即可得综合指标下的用户比count。这样就可按帕累托“二八法则”建立一个用户分类模型。图二 主叫的分析图图三 被叫的分析图1.2 模型的求解 根据模型建立的过程中,对主叫、被叫的分析,被叫明显不满足帕累托“二八法则”,且考虑通讯公司现有的收费情况和运转模式,可以不考虑被叫,同时也为其分类。根据综合指标下的count(i,j),就可以顺利地将用户划分器分为49个空间,由帕累托“二八法则”约束条件,从count(i,j)最大的开始相加,直到加到用户比总和占0.2,则可得到第一类用户,同理可划分第二类、第三类用户。这样就实现了用户分类。其求解的程序代码见附录1.1。其结果如下:countl = 0.0007 0.0040 0.0109 0.0128 0.0080 0.0033 0.0003 0.0023 0.0137 0.0374 0.0437 0.0273 0.0114 0.0009 0.0042 0.0253 0.0692 0.0811 0.0507 0.0211 0.0017 0.0051 0.0303 0.0829 0.0971 0.0607 0.0253 0.0020 0.0031 0.0187 0.0510 0.0597 0.0373 0.0156 0.0012 0.0011 0.0067 0.0182 0.0213 0.0133 0.0056 0.0004 0.0002 0.0013 0.0036 0.0043 0.0027 0.0011 0.0001当3000=t5000时:k1 = -0.0060b1 =54当5000=t=6000时:k2 =-0.0060b2 =48.0000当0=t=3000时:k3 =-0.0060b3 =24当3000=t4000时:(3000,0) 结果分析: 当用户的通话时间t在3000=t=k1*t+b1时;或用户的通话时间t在5000=t=k2*t+b2时,则这一类用户为第一类用户,即为通讯公司赢得效益近80%的20%黄金用户。 当用户的通话时间t在0=t=3000这一范围时,其通话频数满足p cover(i,2)时,应减少的基站数为(-n(i)-1)。五、模型的分析误差分析 对于模型一是使用了帕累托“二八法则”对用户进行分类,因通讯公司的效益可能不是完全符合这一原则,故会存在一些不可避免的误差,但这一法则在市场上对用户分类是比较经典的分类原则,故这一模型可用。 对于模型二,因在对主叫和被叫关系的分析下,其两者不存在很大的关系,故没有考虑被叫,这样对选择合理的推广用户会造成一些误差,但根据现有的通信公司的运转方向,其误差不会很大,故此模型也可用。 对于模型三,在分析通话时间和通话频数之间的关系中,发现其两者对反应基站设施是否合理性有同等的效应,故只考虑的通话时间作为衡量标准,以相应区域的单位面积上的用户指标数t来判断基站设施的合理性,如此可能会造成一些误差,但其误差可忽略不计,故该模型可用来求解此问题。 灵敏度分析 对于模型一、三,灵敏度很好,模型的准确性很高。 对于模型二,由于主叫与被叫没有进行综合分析,其准确性还不是很高,但其灵敏度很好,因此模型可以使用。六、模型的评价、改进和推广6.1 模型的评价 优点: 充分的利用了已知数据来建立模型,使其具有很高的准确性和可行性 使用的准确的分类原则和适当的假设,使模型的准确性和实用性达到统一 运用了功能强大的Matlab工具使数据处理误差达到最小 缺点: 由于数据太多,没法使用工具进行模型的检验,只能一步一步地精化模型6.2 模型的改进 对于模型一主要进行模型的验证 对于模型三,将用户通话时间和通话频数综合成衡量基站设施是否合理,这样得到的结果更加精确 主要是对模型二的改进,可以考虑被叫这一方面,通过对被叫进行分析,来改变公司现有的运转模式也是很有实效性的6.3 模型的推广 可充分使用到市场上用户分类,为企业和公司制定相关策略和管理奠定了基础。用户分类是企业用户关系管理战略的第一个基石,用户关系管理能帮助企业掌握用户的需求趋势,加强与用户的关系,有效地发掘和管理用户资源,获得市场竞争优势。总之,本文模型对市场管理的影响和效益是不可估量的。七、参考文献1:姜启源、谢金星、叶俊编,数学模型-3版,北京,高等教育出版社,2003.8 2:吴建国、汪名杰、李虎军、刘仁云编,数学建模案例精编-1版,北京,中国水利水电出版社,2005.53:杨兰,卢润德.基于客户价值的客户分类方法研究J.现代管理科学,2007(11):95-962AndrisAZoltners,MichaelBMoorman.CVM模式基石之一: 客户分类J.商学院,2008(8):504:于红霞,汪波,钱荣.基于三维客户分类价值体系的客户关系管理研究J.商业经济与管理,2006(11):43-475王维兵,刘苗. 客户分类方法综述J.现代商业,2009(3):74-756夏火松.知识管理市场营销知识获取与共享模式M.北京:科学出版社,2005:60附录:Matlab程序代码1.1 问题一的求解1.1.1 对主叫的分析clcclearA=xlsread(data.xls);A;n=size(A,1);max=0;%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数for i=1:300 person(i,1)=0; person(i,2)=0;endfor i=1:n person(A(i,2),1)=person(A(i,2),1)+A(i,5); person(A(i,2),2)=person(A(i,2),2)+1;end%绘制图形for i=1:300 x(i)=i;endsubplot(2,2,1)bar(person(:,1)title(用户通话时间图)xlabel(用户的编号1300)ylabel(10天内通话时间:分钟)subplot(2,2,2)bar(person(:,2)title(用户通话频数图)xlabel(用户的编号1300)ylabel(10天内通话次数)%T表示最高消费时间,P表示最高消费次数T=0;P=0;for i=1:300 if Tperson(i,1) T=person(i,1); end if P1000*(i-1)&person(j,1)6*(i-1)&person(j,2)=6*i p(i)=p(i)+1; end end p(i)=p(i)/300;end%对每阶段的人数绘图subplot(2,2,3)bar(t)title(用户比例-通话时间图)xlabel(通话时长*1000)ylabel(用户比例)subplot(2,2,4)bar(p)title(用户比例-通话频数图)xlabel(通话次数*6)ylabel(用户比例)hold on%用矩形区域count(i,j)表示落在t,p相应区间的人数比例for i=1:7 for j=1:7 count(i,j)=t(i)*p(j); endend%找到消费时间最长次数最多的%20的人对应的区间prob=0;k=14;while prob=1&i=0.2 break; end end end k=k-1;end m=i;n=j;t1=m+n-7;t2=n-1;k1=(m*6-n*6)/(n-1)*1000-(m+n-7)*1000);b1=m*6-k1*(n-1)*1000;k2=(m-2)*6-(m-1)*6)/(n*1000-(n-1)*1000);b2=(m-2)*6-k2*n*1000;%找到消费时间最短次数最少的%10的人对应的区间prob=0;k=0;while prob=1&j0.1 break; end end end k=k+1;end mm=i;nn=j;last=prob;for i=1:7 for j=1:7 countl(i,j)=count(8-i,j); endenddisp(每个矩形区间内的人数比例。横坐标时间,总坐标频率)countldisp(当3000=t5000时:)k1b1disp(当5000=t=6000时:)k2b2disp(当0=t=3000时:)k3=(mm-1)*6-(mm+nn-2)*6)/(nn-1)*1000)b3=(mm+nn-2)*6disp(当3000=t4000时:)disp(3000,0)1.1.2 对被叫的分析clcclearA=xlsread(data.xls);A;n=size(A,1);max=0;%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数for i=1:300 person(i,1)=0; person(i,2)=0;endfor i=1:n person(A(i,3),1)=person(A(i,3),1)+A(i,5); person(A(i,3),2)=person(A(i,3),2)+1;end%绘制图形for i=1:300 x(i)=i;endsubplot(2,2,1)bar(person(:,1)title(用户通话时间图)xlabel(用户的编号1300)ylabel(10天内通话时间:分钟)subplot(2,2,2)bar(person(:,2)title(用户通话频数图)xlabel(用户的编号1300)ylabel(10天内通话次数)%T表示最高消费时间,P表示最高消费次数T=0;P=0;for i=1:300 if Tperson(i,1) T=person(i,1); end if P1000*(i-1)&person(j,1)6*(i-1)&person(j,2)=6*i p(i)=p(i)+1; end end p(i)=p(i)/300;end%对每阶段的人数绘图subplot(2,2,3)bar(t)title(用户比例-通话时间图)xlabel(通话时长*1000)ylabel(用户比例)subplot(2,2,4)bar(p)title(用户比例-通话频数图)xlabel(通话次数*6)ylabel(用户比例)hold on%用矩形区域count(i,j)表示落在t,p相应区间的人数比例for i=1:7 for j=1:7 count(i,j)=t(i)*p(j); endend1.2 对问题二的求解1.2.1 主叫与被叫关系的分析clcclearA=xlsread(data.xls);A;n=size(A,1);max=0;%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数for i=1:300 total(i,1)=0; total(i,2)=0; total(i,3)=0; total(i,4)=0;endfor i=1:n total(A(i,2),1)=total(A(i,2),1)+A(i,5); total(A(i,2),2)=total(A(i,2),2)+1; total(A(i,3),3)=total(A(i,3),3)+A(i,5); total(A(i,3),4)=total(A(i,3),4)+1;endxlswrite(total.xls,total);B=xlsread(paixu.xls);for i=1:300 x(i)=i; B(i,2)=B(i,2)*170;endfigure(1)plot(x,B(:,1),b,x,(B(:,3),g)title(主叫时间-被叫时间图)xlabel( 用户编号)ylabel(主叫时间( 蓝)-被叫时间(绿))pausefigure(2)plot(x,B(:,1),b,x,(B(:,2),g)title(主叫时间-主叫次数图)xlabel( 用户编号)ylabel(主叫时间( 蓝)-主叫次数*170(绿))pauseC=xlsread(beijiaopaixu.xls);for i=1:300 C(i,4)=C(i,4)*180;endfigure(3)plot(x,C(:,3),b,x,(C(:,4),g)title(被叫叫时间-被叫次数图)xlabel( 用户编号)ylabel(被叫时间( 蓝)-被叫次数*180(绿))pause其中,paixu.xls是对total.xls关于拨打时间升序排序后得到的。beijiaopaixu.xls是对total.xls关于接听时间升序排序后得到的。1.2.2 建议书尊敬的经理:您好!因了解到你们公司现需推出一款新的通讯业务,而合理选择用户作为首选推广人选,对这新的通讯业务在市场上能否成功实现是至关重要的。故现在根据你们的需求,我可为你们提供的建议如下:如果这一新的通讯业务的目的是为了提高公司的当前效益,则可以选择我们分的第一类用户。因这一类用户虽然只占公司所有用户的20%,但其为公司带来的利益时公司所获的总利润的80%。这一类用户对提高公司的当前效益是最具有价值性的,而且是最显著的,是最具有实效性的。对这一类用户的管理可坚持如下原则:管理必须坚持“重点开发,关键维持”的原则。这一类用户下通电话的频率高,通话时间长,一般来说很大可能是公司型大用户,是公司最重要的用户来源,公司应采取关键维持的策略,为用户提供额外优惠的特别服务,派出经理级管理人员重点监管,了解用户需求,为用户主动推荐商品,重点抓售后服务,提高用户的忠诚度。这一类用户的通话时间长,可能频率不是特别高,一般来说也是公司型大用户,但忠诚度相对较低,公司应采取重点开发的策略,加大对这些用户的公关,为用户提供更加周到与满意的服务,和用户搞好关系或结成联盟。如果这一新的通讯业务的目的是为了挖掘公司的潜在效益,则可以选择我们分的第二类用户。因这一类用户虽然只提供了公司所获的总利润的不足20%,但其所占的用户数是公司所有客户的70%。这相当于是大众客户,这样的客户的潜在价值是不可估量的。只要公司开发的新的业务是合理地,对挖掘中这些潜在价值的方向是正确的,这一类用户从长远来看,将来为公司带来的利益有可能会超过公司的黄金客户,甚至有可能上升为公司的黄金客户。其对挖掘公司的潜在利益时非常乐观的,也是不可替代的,同时也是最具有潜力的。对这一类用户的管理可坚持如下原则:管理必须坚持“高效发掘,有效攻守”的原则。这一类用户可能通话频率高,但通话时间短,一般来说是个人型中小用户,但这类用户的忠诚度非常高,公司应该做的是主动为用户提供商品清单,介绍各种商品的功能,开发用户对公司产品的需求,但要注意的是,由于每个用户的需求量很小,公司在对其进行管理的过程中要非常注意节约成本,比如邮件广告就是一种较好的模式。这类用户可能通话频率低,通话时间也不是很长,但该类用户对各种商品都有一定需求,如果公司能下功夫有效攻守,则这类用户很有可能成为通话时间长这一类用户,成为公司的重要用户,同样在用户发掘过程中要控制成本。如果这一新的通讯业务的目的是确保公司的基本效益,则可以选择我们分的第三类用户。因这一类用户只占公司总的客户数的10%,并且这一类客户不仅不会为公司带来任何利润,甚至会削弱公司的赢利水平。对这一类用户,公司主要是要确保公司的基本效益,设置一个合理的消费水平,如设置一个基本月租或月基本费用,这样也许会流失一些用户,但这不仅不会减少公司的利益,反而会增加公司的效益。因这一类用户中有些用户本身就会削弱公司的赢利水平,故这些用户的流失是百利而无一害的。同时,可以通过一些优惠政策,可能把这一类的一些相对有潜力的提升为第二类用户,虽然这潜力是远远不如第二类用户的潜力,但同样也可提升公司的赢利水平。选择这一类用户来确保公司的基本效益,是最客观的,同时也是最明智的,最明确的。对这一类用户的管理可坚持如下原则: 第三大类用户的管理必须坚持“培养有度,弃守结合”的原则。这一类用户是 忠诚度非常低的小用户,这类用户如果公司在一定时期内不能将其培养成第二大类 用户,则应及时将其放弃,至少不能浪费过多的资源和精力在开发这类用户上,以将公司有限的资源更加高效的配置。这一类中的通话时间长,但频数不高的用户是公司的在这一类用户的主要用户来源,公司应将部分资源用于该类用户的培养与关系维持,以保证公司营销的可持续,降低公司的市场风险。1.3 对问题三的求解clcclearA=xlsread(data.xls);A;n=size(A,1);%用二维数组station(1,2)表示基站的信息,第一维通话时长,第二维通话次数for i=1:30 station(i,1)=0; station(i,2)=0;endfor i=1:n station(A(i,6),1)=station(A(i,6),1)+A(i,5); station(A(i,6),2)=station(A(i,6),2)+1;endstationfor i=1:30 x(i)=i;endxlswrite(stationdata.xls,station)B=xlsread(paistationdata.xls)for i=1:30 x(i)=i; B(i,2)=B(i,2)*180;endfigure(1)plot(x,B(:,1),x,B(:,2)title(基站通话时间-次数图)xlabel(基站的编号130)ylabel(10天内服务时间,次数*180)pause%绘制图形figure(2)bar(station(:,1)title(基站通话时间图)xlabel(基站的编号130)ylabel(10天内服务时间)pausefigure(3)bar(station(:,2)title(基站通话次数图)xlabel(基站的编号130)ylabel(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论