数学建模论文-手机用户的异网高端识别模型.doc_第1页
数学建模论文-手机用户的异网高端识别模型.doc_第2页
数学建模论文-手机用户的异网高端识别模型.doc_第3页
数学建模论文-手机用户的异网高端识别模型.doc_第4页
数学建模论文-手机用户的异网高端识别模型.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模论文学校:洛阳理工学院 系别:电气工程与自动化系 小组成员: 手机用户的异网高端识别模型摘要我们首先利用软件对用户资料表中的数据进行了分析,发现了数据中的一些联系,但由于数据量太大,最终我们决定用随机抽样分析的方法来挑选数据。最后用型聚类分析和单因子分析的方法来解决问题。对于问题一:首先,我们运用spss对附表一中所有数据进行了综合处理,得出其各项指标的平均水平,如月消费情况等等。之后,考虑到数据量过大,我们选择通过多次不放回抽样的方法来进行数据的其他收集工作。我们选用套餐资费,月均消费额,通话费三项作为主要指标,然后采用型聚类分析利用spss直接聚成了三类,选出了属于高端用户的那一类进行分析,列出了具体判别准则,但由于过于模糊,我们又将主要的指标客观赋权,将定性指标定量化。最终给出了本网高端用户的判别准则,然后我们根据上网查找资料和自己的理解给出了本网的营销优先级,即1、提高通话质量的前提下适当降低资费,2、对老客户给予更多的优惠活动,3、采用更优惠的分层套餐结构,让客户真正体验到实惠等等。对于问题二:首先我们通过对本网用户的月消费信息进行了分析,在假设本网与异网月消费额相当的情况下得到了异网用户的月均消费金额。然后我们通过对模型一得出的本网高端用户的数据进行综合分析,利用单因子分析的方法,统计出异网联通用户与本网用户通话频率,在综合本网高端用户判别准则近似得出了异网高端手机用户的判别准则。关键字:抽样分析q型聚类分析单因子分析一、 问题重述科技的进步带来了通信技术的快速发展,并且随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录。因此,分析手机用户的消费倾向及其价值观、社会认可度的倾向对于研究人们的手机消费心理有很大的作用。 与本网高端手机用户相同,异网高端手机用户在消费力度,通话量、以及手机交往圈(与之有通信行为的所有手机用户构成其手机交往圈)大小等方面均远高于整体平均水平。高端用户往往更关注信号强度和通话质量,追求个性化服务。他们往往是企业的骨干、是家庭的核心,对电信业务发展有着重要意义,其手机交往圈中多数也是高端手机用户,相互之间产生重要影响。 请根据附件数据完成以下任务: 1、 研究本网手机用户行为特征,给出本网高端手机用户的判别准则以及营销优先级。 2、 估算异网手机用户的月均消费金额,研究异网手机用户行为特征,并给出异网高端手机用户判别准则以及营销优先级。 3、 评估本网、异网高端手机用户的判别准则是否合理以及异网手机用户月均消费金额的估算是否准确,有哪些需要改进的地方,改进方法是什么,还需要什么信息?4、 自行收集手机号码,研究手机号码的靓号分级工作,给出分级标准并评估其合理性。二、问题分析 由题意知,其目的是建立一种模型用于筛选异网高端用户。但考虑到本题数据量比较大,我们采用了多次随机不放回抽样取平均值的的方法。我们首先分别对本网的个人信息表中随机筛选出的三组数据中的套餐档次、月消费金额、流量费、市话费、长途费、漫游费、通话费、增值费、短信费、上网流量以及上网时长做了基本的统计(包括求极大值、极小值、均值、标准差和方差),然后把得出的数据的分析结果互相做了对比,发现数据基本吻合,所以我们的抽样还算成功。对于本网手机高端用户,我们首先对本网个人信息表中的所有数据运用spss进行统计分析,得出本网用户的月平均消费情况。之后,我们在通过分析以上相关因素的前提下,通过聚类将本网中的手机高端用户筛选出来,然后多次随机抽选出50名手机高端用户,仔细认真的分析了他们的个人信息,发现了本网手机高端用户的一些明显的共有特性,如套餐费,月消费,以及通话费均高于一般用户的平均水平,我们便按照这些特性的标准制定出了本网手机高端用户的判别准则。之后,我们又对我们所做的判别准则做了改进,将判别准则的定性指标做了定量化的处理,利用客观赋权中的均方差法对选出出来的三个指标(套餐档次、消费金额、通话费)进行了赋权,然后可根据赋权的结果对一个手机号码进行一个评分,根据所得分来判别该号码属于高端用户的隶属度。再详细分析本网用户的个人信息表,通过上网查资料,给出了本网高端用户的营销优先级。最后通过本网手机高端用户在本网所有用户中所占的比例和单因子分析的方法,再有假设利用异网手机在二月份的通话频率,最终确定出异网手机高端用户。最后,通过随机筛选出的本网10名手机高端用户,用spss从通话记录表中筛选出他们在二月份的全部通话记录并进行分析,最终确定异网高端手机用户的判别准则。三、模型的假设1、假设所给的数据都是准确的。2、假设异网用户的套餐资费标准与本网的相当。3、假设异网的手机高端用户和本网的手机高端用户在总的用户中的比例是相当的。4、假设手机用户可分为高端、中端、低端三种。5、假设每个号码每月打电话次数和接电话次数大致相当。四、符号说明v2 本网手机用户的城乡标识v4 本网手机用户的性别v5 本网手机用户的年龄v6 本网手机用户的等级v10 本网手机用户的号码办理日期v11 是否3g用户v12 是否vip用户v13 本网用户的套餐类型(元)v14 本网用户消费金额(元) v15 本网用户当月上网流量费(元) v16 本网用户当月市话语音费用(元) v17 本网手机用户号码长途语音费用(元) v18 本网手机用户漫游语音费用(元) v19 本网手机用户号码语音费用(元) v20 本网手机用户增值费用(元) v21 本网手机用户短信费用(元) v24 本网手机用户当月上网流量(m) v25 本网手机用户当月上网时长(分钟)五、模型的建立及求解首先,我们用对本网的个人用户信息表中的相关数据进行了分析,其中分析了相关数据的极大值、极小值、均值、方差、标准差,得到结果如下图:描述统计量n极小值极大值均值标准差方差v133761750899115.5948.5632358.377v14382779-360.007660.6739.626949.216842422.298v15382779-200.001000.005.269119.93548397.424v16382779-134.30907.9715.039519.91288396.523v17382779.00878.418.509917.95058322.223v18382779.00681.942.873311.31604128.053v19382779-86.721308.4126.422634.340421179.264v20382779.007418.00.283313.41839180.053v21382779-.10442.133.35028.3766170.168v24382779.00159911.8379.54861141.800561303708.530v25382779.00816.3732.421879.998816399.809有效的 n (列表状态)376175我们通过分析这张表中的数据,很容易就发现,相关数据的差值波动都比较大,通过分析他们的均值、最大值、最小值、方差,发现他们可以作为我们分析本网高端用户的一些依据。对这些数据的分析,我们采用型聚类分析的方法。聚类分析的基本思想:我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想 q型聚类分析的优点是:1、可以综合利用多个变量的信息对样本进行分类;2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。数据标准化:在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。我们采用以下变换方式:平移极差变换 ,显然有,而且也消除了量纲的影响。其中:其中表示第个分类对象的第个指标的原始数据。识别本网高端用户模型首先我们从个人信息资料表中通过随机不放回抽样的办法抽出1%的数据,数据分析结果如下表: 描述统计量n极小值极大值均值标准差方差v1336630399115.3848.5202354.220v143719-29.80836.7039.296745.091642033.256v153719-66.00836.705.569322.91507525.100v163719-47.07202.2615.183219.77025390.863v173719.00193.338.027515.74393247.871v183719.00208.322.803710.12559102.528v193719-41.20309.8526.014331.889321016.929v203719.0084.67.22292.629476.914v213719.00127.303.36078.2247567.647v243719.0061945.9395.85291265.032701600307.732v253719.00717.0233.509679.741776358.750有效的 n (列表状态)3663 我们将这张表中的相关数据同上张表做了比较,发现数据吻合程度较高,说明我们的抽样还是成功的,我们以供选择三次抽样求平均值的办法,由于篇幅限制,后两张表见附件。对选出来的数据我们进行了q型聚类分析,将他们分成了三类,结果如下图:我们依照上面办法做了三次抽样,平均其结果,以达到较高的准确率。然后,我们从筛选出的本网高端用户中有随机筛选出50名高端手机用户,对他们的个人信息又做了更加细致的研究,如此反复三次,求平均值。其中一组信息如下:统计量v2v4v5v6v10v11v12n有效50504750505050缺失0030000v2频率百分比有效百分比累积百分比有效-11530.030.030.002958.058.088.0124.04.092.0248.08.0100.0合计50100.0100.0v4频率百分比有效百分比累积百分比有效 36.06.06.0f1734.034.040.0m3060.060.0100.0合计50100.0100.0v5频率百分比有效百分比累积百分比有效1912.02.12.12212.02.14.32324.04.38.52424.04.312.82524.04.317.02636.06.423.427612.012.836.22912.02.138.33024.04.342.63124.04.346.83224.04.351.13336.06.457.43412.02.159.63512.02.161.73624.04.366.03812.02.168.13924.04.372.34012.02.174.54112.02.176.64324.04.380.94512.02.183.04712.02.185.14812.02.187.25012.02.189.45212.02.191.55524.04.395.75812.02.197.96712.02.1100.0合计4794.0100.0缺失系统36.0合计50100.0v6频率百分比有效百分比累积百分比有效-11428.028.028.0224.04.032.032652.052.084.04816.016.0100.0合计50100.0100.0v11频率百分比有效百分比累积百分比有效03876.076.076.011224.024.0100.0合计50100.0100.0v12频率百分比有效百分比累积百分比有效-11428.028.028.0224.04.032.032652.052.084.04816.016.0100.0合计50100.0100.0最后,我们对初级筛选出的本网高端用户进行了具体分析,发现他们的年龄大部分都在25岁以上,其中35岁以上的占大多数;手机号码办理平均年限在2年以上;70%的高端用户户口在市区;3g用户和vip用户比例也远远高于非高端用户。其它相关变量未发现有直接关系。经过以上分析总结,我们给出的本网手机高端用户最初的基本判别准则为:1、 消费级别在月平均120元以上。其中,通话费在月平均79元以上。套餐级别在月平均137元以上2、 户口在市区。3、 手机号码使用年限平均在2年以上。4、 平均年龄在35岁以上。5、 3g用户和vip用户可以优先考虑。(说明:以第一第二条为主要指标)之后我们又对其中的对高端用户影响较大的变量进行了分析,最后发现其中的套餐档次、消费金额、通话费对本网手机高端用户判别的影响较大,故对这三个指标采用了客观赋权的办法,最终完成了将定性指标定量化。客观赋权:均方差法记第j项指标的样本均值与样本均方差为则取第j项指标的权重系数为由上式我们求得套餐档次的权重系数x1=38.66%;消费金额的权重系数x2=35.93%;通话费的权重系数x3=25.41%。号码得分公式x=x1*v13+x2*v14+x3*v15最后,我们利用matlab算出了我们随机挑选的50名本网手机高端用户的各自得分,所得信息如下表:最大值最小值平均值174.8261.334108.25554所以我们可以认为,如果一个号码得分超过最小值,我们便可以认为这个手机号码的主人就是手机高端用户;如果一个号码得分小于这个值,我们可以利用公式y=x/61.334*100%来求出这个手机号码属于高端用户的隶属度。关于营销优先级,我们在网上得到的定义是:由于不同级别的客户对不同的套餐感兴趣,所以网络运营商根据不同级别客户的喜好,而推出具有针对性的优惠套餐。而对于本网的高端客户来讲,我们认为应当给出的营销优先级为:1 在提高通话质量的前提下适当降低资费2 对使用一定年限的手机号码给予一定的优惠3 优化分层套餐结构,让不同消费阶层的人感到实惠。异网高端识别关于异网高端用户平均月消费金额,我们假设异网的资费标准同本网的资费标准大致相当,所以得出,异网月平均消费金额大约为40元。对于异网高端识别这个模型,因为异网还有联通,移动等其他多个运营商,我们以联通用户为例。我们用spss软件对用户的通话清单表做了处理,把标识为联通的手机号码提取了出来,然后用spss软件统计出了他们在二月份被叫的频率。但由于数据量巨大,我们只选取其中的部分数据进行统计分析。我们在对随机抽取其中的1%、2%、3%、4%的数据进行分析以后发现通话频率随着抽取数据的增多不断加大,所以,我们可以认为如果把全部数据都进行分析的话,将会有部分用户的通话频率非常高,而我们就认为这部分用户为异网高端用户。结果如下表统计量v3n有效189326缺失0由于另一部分数据量较大,故不再附最后我们由模型1 可以得到本网高端用户在本网所有用户中所占的比例大约为10.2%,然后按照这个比例我们就可以利用单因子分析法,通过联通用户的被叫的频率来确定联通用户中的手机高端用户。关于判别准则的给出,我们从本网高端用户中随机筛选出10名高端用户,把他们二月份的通话记录从通话记录表中调了出来,分析了他们的通话频率,分析结果如下表:通话频率分析表最大值最小值平均值458127289由于假设打电话和接电话的次数大致相当,所以,我们可以认为每月的通话频率大于127次的号码都为高端用户,小于127次的可利用公式h(高端用户隶属度)=z(通话频率)/127求出。而对于手机号码的靓号分级工作,我们的思路是从全部的手机号码的高端用户中确定,但具体的手机号码收集工作,由于我们能力和相关知识有限,故暂时不再考虑。六、模型评价与改进方向对模型的评价,对于本网识别高端用户的模型,由于我们采用抽样分析的办法,所以还存在随机性的误差,误差大小不好把握。但可以通过多次试验求平均值的办法来尽量减小误差。而对于判别准则的给出,由于我们缺乏这方面的相关知识而采用上网查资料和我们对数据的分析相结合的办法,通过我们的理解给出,缺乏官方的权威,具有一定的局限性。改进措施可以将更多定性指标定量化,例如,城乡户口,年龄等等,再次可以通过加强与相关工作人员的联系,从他们哪儿得到相关信息和定义,由此,可以给出较为准确的判别准则。对于异网的月均消费金额,由于我们缺

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论