手机用户异网高端识别_第1页
手机用户异网高端识别_第2页
手机用户异网高端识别_第3页
手机用户异网高端识别_第4页
手机用户异网高端识别_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、答卷编号(竞赛组委会填写):答卷编号(竞赛组委会填写):论文题目: 手机用户精准识别模型(B)选择方向: 异网高端用户识别(1)参赛队员:1.姓名: 王文天 学院:材料学院 2.姓名: 姚湘筱 学院:材料学院 3.姓名:肖佩豪杰 学院: 材料学院 指导老师:潘克家答卷编号(参赛报名号):答卷编号(竞赛组委会填写):评阅情况(评阅专家填写):评阅1.评阅2.评阅 3.手机用户异网高端识别摘要本文用已有的本网手机用户资料对部分本网用户高端能力进行了研究,并利用这部分本网用户资料对其它本网用户及异网手机用户的行为特征进行了预测,并给出了一个靓号分级模型。对于问题一,本队首先使用svm神经网络模型对缺

2、失数据进行了补充并对影响用户高端程度的数据进行了归一化与极大化处理。之后,本队采用层次分析法给上述数据赋予权值,再采用聚类分析的方法将用户分为1000级。将各项数据与对应乘积的加和可以得到一个反应用户高端程度的具体数值,对分好的1000类求其高端指数的均值,并按照指数的升序重新排列命名这1000类,使第1组用户为最低端,1000组为最高端。以此1000个级别判别相对高端用户,再结合运营商的具体服务能力确定绝对高端用户。 对于问题二,本队假定手机用户在选择手机号码时不考虑本网异网差别,并且通话短信行为上有差别。因此可以由本网用户的高端预测结果加上所有用户的通话行为来预测异网用户的高端程度及营销优

3、先级别。预测异网用户的分类时,本队利用本网用户的高端分类对用户的通化行为进行标定,得到94个行为变量,再对两个用户求算行为差异度,将任意一个没有分类的用户用一个第一问已经分类的用户替代,迭代不断利用其它用户矫正过的分类信息矫正某一用户通话行为,再用该用户的通化行为矫正该用户的分类信息,最后得到分类结果。由于内存与篇幅有限,本文列举出随机抽样的30名异网用户分类结果以及通话费预测值。并抽样了本网1000名用户进行一次迭代预测检验,得到分类误差在100组以内的用户比例为,并且有一定的可区分性,预测分布方差为组。对于问题三,本队从判别准则合理性的评价、异网手机用户月均消费金额的估算评价、需改进的地方

4、及改进方法三个方面着手分析。本队认为已建立模型可以对相关数据进行较为精准的分析。但是家用计算机对本算法的操作可行度不高,算法简化余地不大。同时给出了利用本队方法更精确预测异网用户高端与否的资料要求:一小部分但数量庞大的异网用户的用户资料。对于问题四,本队创造性地运用了问卷调查法来预测人们对靓号的偏好。并对数据进行了科学的计算与统计,并得出了相应靓号分级系统,将各种号码分为54个级别。关键字: 层次分析法 聚类分析 差异度分析 svm神经网络 问卷调查法一、 问题重述随着科技发展和经济的全球化,手机用户日益增多,各网运营商之间的竞争也愈加激烈。手机用户的级别划分成为了手机运营商必须解决的问题。手

5、机用户的级别高低应从用户的消费力度、通话量、手机交往圈大小、个性服务使用、手机档次等因素来考虑,并使用一些题给数据来度量这几个因素。经过这种分级后,通过手机用户所在级别亦可反推其消费力度、通话量等行为特征。本题要求用数学建模的方法,利用附件中的数据解决以下四个问题:问题一:通过本网手机用户资料,给本网手机用户分类。从多方面因素全面考察各个类别手机用户的级别高低,并确定好分级标准,给本网用户一个明确的分级。问题二:参考对本网手机用户行为特征的研究对异网手机用户进行级别划分,并在获知异网手机用户一定量相关信息后,估计其月均消费金额。问题三:对所设立的分级标准进行评价,并对已做模型进行评价和改进。问

6、题四:收集靓号以确定靓号范围;了解人们对靓号的偏好情况,并根据人们对靓号的偏好设计一个靓号分级系统。二、 问题分析用户组成对于运营商来说极其重要,直接影响其经济效益和长远发展计划。而高端用户则是其中很重要的组成部分,其往往更关注信号强度和通话质量,能促进运营商提高服务质量。所以从用户中分辨出高端用户至关重要。本题主要是在三个数据表格的基础上,给出本网与异网高端用户的判别准则以及营销优先级,然后再判断结果是否准确。本网高端用户的预测属于统计预测类数学问题,要从大数据里面分析出高端用户的行为准则,可以运用聚类分析的方法,先通过分析数据,运用层次分析法确定权值,再聚类分析,通过比较类与类之间的差异以

7、及相似度,确定高端用户及其判别准则,再制定营销优先级。对于问题2,如果能知道异网用户的月均消费额与高端用户的多少等重要信息,运营商便可以制定出更好的商业政策,使自己的利益最大化。故研究这类问题很有意义。对于异网的用户,因为只知道与本网用户少量的通话记录以及短信记录,而要估算出其月均消费额,便要用已知本网的数据区拟合,通过一系列假设将异网用户的消费行为与本网用户的行为比较,找到与之行为最相似的本网用户,从而判断其的月均消费额。 关于靓号分级,因为主观因素太强,本队认为可采用调查问卷的形式,然后收集数据进行分析,得到结果。三、 模型假设(1) 附件数据能真实反映用户行为。(2) 异网用户与本网用户

8、的消费数额在整体上与本网用户没有差异。(3) 异网用户面临的手机消费环境,入套餐等跟本网没有差别(4) 用户选择哪个运营商,跟用户本身高端与否没有任何关系,在本题可以看做是按一个固定概率随机选择运营商。(5) 对于本网用户,通话记录和短信记录应该是用户的完整记录;对于异网用户,得到的通话记录与短信记录只有该用户的一部分,并假设对于同一个运营商来说每位用户记录的可见部分与不可见部分之间的比例是定值,且可见部分的通话行为与不可见部分的通化行为的期望是相等的。(6) 靓号类型为顺子号、连号以及吉祥号四、 符号说明用户数用户的性态指标最大特征值一致性指标随机一致性指标一致性比率相应的特征向量性态指标矩

9、第i个用户m个性态指标的总和第r类用户性态指标和的平均值显著度观测样本比例本网内部月总通话数量本网用户与其他运营商用户通话量本网参与被叫记录的人数其它运营商参与被叫的人数行为差异度时间复杂度残差绝对值的数学期望标准差分组残差绝对值小于100的比例预测分布方差五、 模型的建立与求解5.1 问题1的模型问题1是要研究本网手机用户行为特征,给出本网高端手机用户的判别准则以及营销优先级。现在,手机用户数量众多,相关数据统计和分析都十分困难。所以,本项研究对本网营销方面可起到一定的参考与应用价值。问题1属于一种评价问题,对此类问题,本队先从附件中所给文件入手建立了如下模型。本网用户高端手机用户判别模型高

10、端手机用户的定义:高端手机用户在消费力度,通话量、以及手机交往圈(与之有通信行为的所有手机用户构成其手机交往圈)大小等方面均远高于整体平均水平。高端用户往往更关注信号强度和通话质量,追求个性化服务。因此定义高端用户为消费力度大、通话量大、手机交往圈大、个性服务多、手机高档(的用户,并定义增值费、套餐档次、是否3G用户、上网流量、手机操作系统的加权值为用户高端程度的量化值。5.1.1模型的准备 (一) 缺失资料的补充经过本队的观察,用户资料缺失的情况主要发生在城乡用户识别资料,性别资料以及年龄资料三个变量上,而且其中各个变量的缺失比例不太一样,例如用户城乡资料有大约25%左右的缺失而年龄资料只有

11、10%的缺失。对于缺失资料的用户,本队首先采取的办法是做预测,通过数据挖掘来尽量使缺失值减少。首先本队进行双变量之间的相关性分析。采用SPSS进行双侧相关性检验后,结果如附录1所示。 由附录1可知,各个变量之间虽然存在显著的相关性,但相关性系数任然小于0.5,要进行预测有一定的难度。经讨论本队决定使用神经网络的模型来解决此问题。首先对城乡资料与性别资料进行预测:由于这个变量是定类变量,因此本队选用一种比较合适的分类方法。这里本队组采用matlab环境下的svm神经网络进行分类。SVM神经网络(支持向量机)的原理是通过在超维空间中利用支持向量来建立一个决策超平面,以该平面跟支持向量同时进行分类。

12、这样,虽然城乡分类、性别分类与单个其它变量(如总通话费等)的关联不大,但如果分类是可以在多变量所正交的空间中产生明显决策超平面,则预测也是可能实现的。之所以不采用其它神经网络例如简单的bp,是考虑到分类器对于变量的敏感性问题,由于用于决策的变量较多,且在相关性检测表格中可以看出决策变量内部的自相关性也不强,因此本队不敢轻易对变量做降维(主成分提取)处理。图1svm神经网络基本分类原理:利用支持向量设置分界超平面本队对归一化后的变量直接使用svm工具箱处理(这里,本队队采用的是台湾大学林志仁教授的科研小组研发的libsvm工具箱,它也是当今公认的在各个领域平台上发挥最稳定的工具箱)。使用步骤为:

13、 神经网络分类器算法外层结构示意图因变量2.利用分类器对部分测试数据分类已知数据判断预测效果自变量自变量与因变量训练集测试集数据流算法进行方向未知数据调整训练方法,或重新对数据预处理预测数据效果不满意1.训练分类器3.计算测试数据分类准确率 因变量自变量 初始测试时本队提取出所有的有全纪录的用户资料作为训练集以及测试集的提取。由于总体数目庞大,本队队采用1%的数据作为训练样本,0.5%的数据作为测试样本进行训练。首先处理城乡资料预测,得到的预测准确率稳定在66%左右。但是本队发现,总体样本中有66%的人全部属于同一个类别(城镇),也就是说完全蒙城镇也能有66%的准确率,因此预测失败。那是不是说

14、决策平面就无法建立呢?是否缺失变量真的预测不了呢?为了验证变量之间是否可能预测,本队重新选择测试集和训练集,本队分别提取两个类别(城镇,农村)的用户各占50%,测试集也同样处理,发现预测准确率能达到58%,也就是说,完全蒙的话,准确率是在50%,而高出的准确率可以表示预测是由一定效果的。而之前的分类效果差的原因在于归一化处理不得当。本队尝试着把本队已经归一到0,1之间的变量重新归一到更大的区间内,而不同的自变量也并不归一到完全相同的区间而是根据预测性能找到一个最佳的收敛区间内。因此本队去掉了很多没有明显相关性的变量(发现这些变量归一区间大小并不影响预测结果),并用梯度收敛的办法找到了一个较优的

15、收敛区间,大部分变量归一到-41,41的区间,而不同变量之间的比例依靠收敛计算出来的权值而定。收敛权值:最终分类器的结果稳定在了82%,高出最低水平约16个百分点。性别分类也是同样的方法得到的预测结果收敛至75%,高出最低水平5个百分点。关于预测结果的评判:由于分类预测已经能达到70%以上的准确率,基本上可以拿来预测缺失值。由于变量之间的相关性实在太低(一般相关系数要在0.6以上才能做预测),能得到有一定水平的准确预测结果已经很不容易。考虑到总体分类准确率还比较高,因此本队就使用svm预测结果来进行数据填充。对于年龄预测:年龄属于定距变量,本队队最先采用svm回归预测来处理,但得到的结果离差太

16、大,并且把预测的测试数据结果分布图与测试数据的分布比较,发现形状有比较大的差别。之后本队任然采用归一化收敛的办法处理,并且还使用了降维技术提取出5个主成分,但预测结果本队任然认为不够准确(见图),由于年龄缺失用户的比例并不大,本队最后决定舍弃这些用户的资料(但并不表示本队没有对这些用户进行高端识别,只是在这里本队把它们与那些不知道用户资料的用户归为同一类处理而已)。数据的归一化全部个人资料都有的=334090 用户的性态指标 (当月出账金额,是否为VIP用户,增值费,套餐档次,是否为3G用户,上网流量,手机操作系统,城乡标识,手机价格,市话,长途,漫游)设论域,每个于是可以得到原始数据矩阵A=

17、。A中不同的数据有不同的性质和不同的量纲,为了使原始数据适合模糊聚类的要求,欲将原始数据矩阵A用平移标准差变换 作归一化处理,即令 (i=1,2,3,,n,j=1,2,m)其中(j=1,2,m)得到结果后发现其中还有一些 (j=1,2,m)显然所有的,且也不存在量纲应属的影响,从而可以得到标准矩阵 R=然后用层次分析法来确定各个性态指标的权数,以便于聚类分析,处理第一问。5.1.2 模型的建立层次结构模型1 建立层次结构模型如下图2 构造成准则层对比较矩阵如下:A消费力度通话量手机圈大小个性服务通话质量消费力度15789通话量1/51456手机圈大小1/71/4113个性服务1/81/5114

18、通话质量1/91/61/31/41A的最大特征值max=5.34相应的特征向量为一致性指标CI和随机一致性指标RI分别为: 一致性比率: 通过一致性检验。3 依次构造子标准层对比较矩阵。1 消费力度B1当月出账金额是否VIP用户当月出账金额15是否VIP用户1/51B1的最大特征值max=2相应的特征向量为一致性指标CI为: 一致性比率: 通过一致性检验。2 个性服务B2增值费套餐档次是否3G用户上网流量手机操作系统增值费14657套餐档次1/41435是否3G用户1/61/411/32上网流量1/51/3314手机操作系统1/71/51/21/41B2的=5.28为: 为: 通过一致性检验。

19、 3 通话质量B3城乡标识手机价格城乡标识15手机价格1/51B3的最大特征值max=2相应的特征向量为一致性指标CI为: 一致性比率: 通过一致性检验。 4 通话量B4市话费长途费漫游费市话费11/51/9长途费511/2漫游费921B4的最大特征值max=3.00相应的特征向量为一致性指标CI为: 随机一致性指标RI为: 一致性比率: 通过一致性检验。 5 手机圈大小B5通话圈大小短信圈大小通话圈大小15短信圈大小1/51B5的最大特征值max=2相应的特征向量为一致性指标CI为: 一致性比率: 通过一致性检验。 4 组合权向量计算 子标准层对目标层的权向量是, 是以下列5个向量为列向量的

20、15×5的矩阵。=因为,使用matlab的矩阵求算功能,可以得出子标准层各个因素(当月出账金额,是否为VIP用户,增值费,套餐档次,是否为3G用户,上网流量,手机操作系统,城乡标识,手机价格,市话,长途,漫游,通话圈大小,短信圈大小)对目标层的影响加权:基于K均值的聚类模型l 将上一步的得到的性态指标权数乘以相应的性态指标,得到加权后的性态指标矩 其中 (i=1,2,n,j=1,2,m)l K均值聚类K 均值聚类是聚类分析中最常用的聚类算法之一。K 均值聚类算法随机选取k 个点,假设作为各类的代表点,然后通过多次迭代来逼近最佳聚类的各个类的重心,算法步骤如下:1) 从 n 个数据对象

21、任意选择k 个对象作为初始聚类中心;2) 循环 3)到4),直到每个聚类不再发生变化;3) 根据每个聚类对象的均值,计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;4) 重新计算每个(有变化)聚类的均值(中心对象)。将加权归一化好的数据用SPSS软件进行k均值聚类分析,快速聚类数定为1000类,得到的聚类分布表如附录2然后令:为第i个用户m个性态指标的总和。 为第r类用户性态指标和的平均值因为性态指标已经进行过了加权处理,故其大小便可以用来判断该用户在所处类别的优先顺序,值越大优先级越高。其他类均按照此类处理,得到此1000类性态指标和的平均值。按照的大小,将这1000

22、类升序排列,本队询问电信知高端用户所占的百分比约为1%,故我们认为排在前面10类的用户为高端用户。用Matlab将其提取出来(程序见附录),进一步分析他们的行为,分析得到,这些用户的共同特点为:用户均为VIP用户,且等级较高。套餐等级高,通话量多,绝大多数为城市用户,上网流量也偏高等。 而按照公众的消费观念,一般会按照自己的消费额来确定自己的套餐档次,故在此给出本网高端手机用户的判别准则:(1)手机用户为城市类型,且年龄在25岁以上(2)用户等级为最高(3)套餐在160元以上(4)为VIP用户,3G用户且等级较高依据营销级别的划分对应用户的高端程度即可确定该用户的营销优先级。如:将营销优先级平

23、均划为5等,则用户高端程度处于前200级的可以享受一级营销,用户高端程度处于前400200级的可以享受二级营销,用户高端程度处于前600400级的可以享受三级营销,用户高端程度处于前600800级的可以享受四级营销,用户高端程度处于后200的可以享受五级营销。当然,具体情况需要参考服务商的服务能力以及消费者的分布情况来定,但定距变量分组与消费者在这些组中分布已经求出,只需参考运营商服务能力即可判断服务区分点位置。注:此问只解决了有用户资料的本网用户的高端判别,对于没有资料的本网用户,由于其观察方法与异网用户的观察方法基本相同,故放在了第二问的模型中一起解决。5.2 问题2的模型 问题2是要研究

24、异网手机用户的行为特征。如今,各大手机网络之间竞争激烈,而知己知彼方能百战百胜,因此,异网手机用户行为特征研究在各营销商的竞争中起到了关键作用。问题2属于预测问题,又因为我们只有本网手机用户数据,所以本队决定使用假设2来预测异网手机用户行为特征,并提出迭代收敛的方法来提高预测的精准度。5.2.1 模型的建立由于本网有一部分用户拥有通话记录,但并没有用户资料记录,并且所有异网可见用户也全部都只有部分的被叫通话记录,因此要判别异网用户分组,只能通过其通话行为特征进行判断。又由于通话记录是一个不定维度的数据,直接比较两通电话或者短信来确定通话双方(短信双方)的分组变量是没有意义的。对此,本队先对用户

25、的通话与短信进行统计处理。本队在此阶段考虑到模型应该尽量简单为的原则,并同时兼顾了本队的工作量,对此暂时只对通话记录进行处理。由于短信记录本身包含有所有的特征,通话记录中都有相应的特征(例如通话条数以及发起者接受者),因此对短信记录的处理可以直接仿照下面本队对通话记录的处理来做。异网手机用户的月均消费金额估算模型用户行为特征的表示用户行为的校准与迭代补充对异网手机用户用户的聚类分组月消费金额估算 1 用户行为特征的表示第一次模糊化统计:由于本网一部分用户已经分组,与这些用户经常通话的用户的部分行为特征可以得到统计。这里我们把用户的通话行为分为100个变量表示其中其中Ti表示该用户与第i组用户通

26、话的总时间。第二次模糊化处理:由于事先分好的1000组是经过平均高端值排序过后的,因此其用户分组序数就已经可以反映高端与否,两用户孰优孰劣可以以所在分组的序号比较得到。因此这里把类别相近的分组合并进行行为计算。同时考虑到组与组之间任然存在可能的混搭,例如第一组与第二组的分界线实际上就是原有的第10类与11类的分界线,那么10跟11组的相近行为就不能表现出来。因此引入第二步模糊化处理,将100组行为分为94组。其中 这里以指数递减权值的方式将相邻的7项行为加和得到新的行为项,这样,最初的通话记录与定类分组变量就被统计处理成了95类行为变量,其均为定距变量。2 用户行为的校准与迭代补充显著度矫正:

27、显著度是本队生造的一个函数量,某位用户的显著度其定义由下式给出:设与该用户通话记录中有a通电话的另一方用户已经分类(已经分入11000类中),有b通电话的另一方分类未知。则显著度对于的用户,暂时无法解出其所属分组,但对于的用户,可以校准其真实的通话时间。.观测样本比例矫正:对于本网用户,本队默认每个用户的所有通电全部有记录,并把呼叫者与被呼叫者做等同处理。但对于异网用户,本队认为其只有部分通话记录被本网运营商所获得,对于一个异网用户来说,还存在有很多通电话并未被本网运营商记录在案。在此假设异网用户平均通话量与本网用户基本一致。设本网内部月总通话数量为本网用户与其他运营商用户通话量为 本网参与被

28、叫记录的人数为其它运营商参与被叫的人数为其中 n为运营商编号,1代表本网 的计算结果表 各项指标运营商128147760143581812417107534083287363054396462862.00934201563453通话行为量的校准: 其中,n为运营商编号,1代表本网显然这里用到假设: 已知类别的通话用户只是对所有与该用户通话的用户的抽样,其总体分布可以直接用样本分布代替;异网的用户平均通话数量与本网该项平均值相等,且异网用户的通话环境,通化消费环境与本网用户完全一致,用户高端程度与用户选择何运营商完全不相关。3 对异网手机用户用户的聚类分类标准行为的确定:因为得出每一个用户的行为

29、后,要用已知信息的用户行为来代替未知用户的用户行为,所以首先需要建立一个数据库用于储存若干已知分类信息的用户行为以及对应用户的分类和消费额度。在问题一中,对于给出用户个人信息的号码,已经将其分类至1-1000类中,同样这一部分用户有很大一部分(大约13万人)的通话记录行为统计中拥有非0显著度(其通话行为可以统计)。在此由于家用电脑内存有限,本队只从中抽取出30000个用户进行行为统计。得到矩阵T其中每一行代表一个已知分组的用户的通话行为,每一列代表一种通话行为。并记录每一个标准用户的编号和分组,保存至矩阵。第一列表示每个标准用户的编号,第二列保存已知标准用户的分组。差异度计算:得到参考行为标准

30、后,对于任意给定的未知分组用户,通过行为统计,模糊处理以及显著度校准得到一个行为向量 ,将与已知的30000个用户行为经行比较,分别计算与这30000个人中每个人的行为差异度 其中i=1,2,3.30000找到最近聚类中心:在得到差异度向量后,找出所在的位置ce:则ce为最近聚类中心,即在30000人中编号ce的人的行为与待测者的行为最接近。4 月消费金额估算上一步找到的聚类中心者的所在分组表示待测者的分组,用上一步找到的聚类中心者的月消费额代替待测者的月消费额。迭代收敛:由于一开始大部分人的分组信息未知,则所有参与统计的用户显著度都不高,因此对于行为的统计判断有一定的偏差,但当一部分相对显著

31、度比较高的用户的分组确定下来之后,已分组人群范围扩大,与他们通话的所有人显著度都将得到提高,这样再计算以前显著度低的用户的级别时,就会有新的用户显著度达到分级要求。通过多次迭代,基本不会存在显著度为0的用户。利用这种方法,理论上是可以将所有具有统计意义的用户进行分组。5.2.2 模型的求解模型的数据预处理本队采用SPSS处理,得到一些需要的汇总表格。具体算法在matlab下进行,由于内存有限,算法无法直接读入所有变量,本队采用分布式计算分割问题处理,但分布式计算由于要多次重复性访问硬盘,其时间损耗远高于一次性算法。算法代码可参考附录。由于时间有限,本队抽出了1000个本网已知分组的用户当做分组

32、未知的个案进行处理,来测试分组算法的可靠性。同时对异网用户由于检验缺乏令人信服的标准,本队随机抽取了在第一次迭代中可以求出解的30个电话号码,用本文方法求解,得到了这30个样本的估计高端分组以及估计月消费额。抽样求解列表异网手机号码(省去前面的y)其运营商代号匹配的本网号码所在分类级别估算的月消费金额58466324480217945754143.49367659089922106501455539.7440968077312212867545185.6336065976320292621166792.335064406016283925865112.923883156275239538955

33、182339212552192310579456782.3660559601664319701280895.5738872158208346784854854.075825551974428349254929.0341426255872258407354417.9935820666880275608868389.1739560085504392289168223.3358459463680299116151625.2340972124160277211315556.8736064923648258374254177.0827740749824238577154869.1239981879296

34、2134979852962.9560559212544362180154536.363851186995231334620663120.2367717662722106501455539.7435365543936211790156549.0757768828928229783446935.83676548300824257966012.26367691284482104870346913.07603006279683116184055544.35332368936962126868153264.6841672273920233850062869.85360687943682107692537

35、16.7736769353728259434954131.8560568846336377555666072.0135401109504291118155512.64277408378882338819680177.4535362578432243687266726.373606554624021226261612252.92在建模中开发出的小算法:1. 分布式计算:由于通话记录的表格过大,对于一般的计算软件来说无法一次读入这么大的变量,即使分步读入,家用机也不可能同时在内存中存储如此大的矩阵。但是进行行为统计的时候必须要访问这个大家伙,为解决此问题,本队开发出专门针对此题数据的分布式算法,分

36、布式算法步骤如下:(1) 使用SPSS对原文件使用快排得到以主叫或被叫电话号码为升序的记录表,其中将同一个人的电话(按需要主叫或被叫排好序)集中在一起。(2) 使用SPSS分类汇总办法,找出每一个主叫者(被叫者)的起始序号和终止序号,因为已经进行过排序,因此在起始号码和终止号码之间的所有电话记录应该都是同一个主叫者(被叫者)的,记录上每一个人的起始点和终止点。得到一个导航表。(3) 在matlab中,当需要提取某个人的所有通化行为记录时,先访问导航表,搜索出该人记录的起始点和终止点,再采用部分读入的命令强制matlab只读取总行为表中的一小部分(从起始行到终止行)。(4) 利用现有内存里的资料

37、进行计算行为,可用于标准行为的保存或者与标准行为的比较,由于保存标准行为和比较行为后,得到的要么是一个行为向量,要么是一个与之相似的电话编号,因此接下来不再需要用到刚刚读入的通话记录。(5) 读取下一个人的行为,进行下一次的计算,读取时任然先访问导航表,读入的通话记录可以直接覆盖上一次读入的通话记录,以保证不占用过多的内存资源。2. 优化matlab中的find函数:本题中,所有电话号码均使用的加密编号,并没有连续性,但是转化成连续编号列后要将某个加密编号转变为有序编号,需要查找整个映射表,例如要找到编号为874141的电话是第几号排列,需要用到find函数,但是在映射表格很大的情况下,多次使

38、用find函数的时间代价太高,因为find函数是将给定的值与映射表格中的每一个元素进行比较。那有没有比较节约时间又能代替find函数功能的方法呢?对此,本队在解决此题的过程中提出了一个对于本题数据更加节约时间的算法:二分查找。由于通话记录是经过排序后保存的,同时导航表也是在排序条件下做出的分类汇总,因此导航表中的号码变量本省就具有升序性质。同时,可知需要查找的值在导航表的号码栏内有唯一地址(赞不考虑不同运营商的尾号相同情况)。因此采用二分查找快速收敛至要找的位置,步骤如下:(1) 设定存在域Est,end=1,K,其中st与end分别为存在域的下限/上限,k为表格行总数;(2) 将预查号码与位

39、置上的号码比较大小,如果大于这个位置的数,则调整存在域Est,end=,end,如果小于则调整存在域,并返回执行第二步;Est,end=,并返回执行第二步;如果等于,则直接取该位置元素地址,并退出。理论上,对于一个大小为k行的导航表来说,find函数的时间复杂度而对于升序列设计的二分查找来说,时间复杂度显然,对于行数超过600,000行的导航表来说,新设计出的算法速度远高于find函数,经过实践平均时间约为find函数的,在附录中本队也贴出来了这个小小的设计改动。5.2.3 模型的检验对真正分组未知的用户进行预测已经可以实现,检验模型是很必要的。由于总体集过大不易于检测,本队采用抽样检测,使用

40、1000个已知信息的用户使用上述相似预测方法进行预测,并将预测结果与实际分组进行比较。1. 精度计算分组的预测不一定完全准确,但如果预测组别与实际组别数值相差不大,则可以判定分组估计是比较准确的. 分组的残差绝对值分布如下图,得到几个指标量残差绝对值的数学期望 标准差 分组残差绝对值小于100的比例 如此看来,这样的误差还是可以接受的。 2. 分布差异性检测估计出的分组是否能比较均匀地分散在各个区间内,还是会大量集中在某一组,直接反应出估计方法是否有用。如果估计出来的分组全部集中在一起,则实际上相当于没有分组。分组效果见预测分布图指标:预测分布方差可以看出:离散程度并不是太令人满意,此模型还存

41、在可以改进的地方,例如加入对短信行为的统计,加入通话星期数的分布进行预测,或者求出最近的多个聚类中心进行均值处理。但不可不说,本队现有的分组估计模型已经可以在一定程度上对两个处于不同组的用户进行相对高端的比较,并且比较值也具有一定说服性。但模型的改进空间还很大。5.3 问题3的解决问题3是对问题1、2的总结和发展,对于此问题本队将从三个方面着手回答,这三个方面是:判别准则合理性的评价、异网手机用户月均消费金额的估算评价、需改进的地方及改进方法。(1) 判别准则合理性的评价 高端用户判别准则是根据题给信息以及可靠相关资料进行定义的,由此本队提取出了成为高端用户所需14个因素,并利用层次分析法得出

42、一个数值来表示用户高端度,再对此类数值进行归一化和分类,从而得到最终的高端用户。这种方法极大程度上利用了附件中所给14种数据,全面分析了用户高端度,并且非常清楚明了的将用户高端程度进行了量化,适用于判断所有具备上述14个数据的用户。但是,层次分析法的使用难免带有自己的主观想法,造成微小的判别误差。(2) 异网手机用户月均消费金额的估算评价 本队在解决此题时,天马行空的运用了神经网络模型从手机用户的通话量方面对手机用户进行了归类,并通过其所在相应得到了该用户大致的月消费金额。这类估算简单易行,只需要得到用户的通话情况即可获知其月消费金额。(3) 需改进的地方及改进方法在第二题的模型求解过程中,由

43、于计算机内存的限制,本队不得不采用分布式拆分算法来计算,使得时间复杂度无法满足计算全局用户的需要。但是只要给matlab分配的内存高于8G则可以保证完整型算法成功实现,可以使得运算速度有质的变化(每次访问硬盘需要花费平均时间1s,但换做是访问一次内存空间,则速度提高很多倍)。5.4 问题4的模型手机靓号一般分为连号、顺子号和吉祥号。然而,手机号码的靓号分级工作又涉及到这些特殊号码的位置排放,靓号位数等问题。接下来,我们将以调查问卷的形式征集大家的意见,并用科学的方法对问卷数据进行分析以对手机号码的靓号进行明确分级。5.4.1标准的设立设立靓号分级的三级标准,靓号分级时依次按照三大标准进行分级。

44、第一标准:根据人们的喜好对靓号位置、靓号类型和靓号位数进行排序;第二标准: 根据人们对靓号类型(顺子号、连号和吉祥号)的喜好程度进行排序,根据人们对靓号位置(前、中、后)的喜好程度进行排序,根据人们对靓号位数的喜好程度进行排序;第三标准:根据人们对升序顺子号和降序顺子号的偏好对二者进行排序, 根据人们对纯连号和杂连号的偏好对二者进行排序。首先按照第一标准把靓号分为三大级别,然后按照第二标准再把三大级别中相应的那一类进行分级,依此类推,把按照第三标准把对应级别再分级。5.4.2 问卷调查标准设计好后,需要对各个标准中各分级因素进行高低级的划分。由于我们不能凭空预测出大众对靓号的偏好,所以问卷调查

45、成了完成本项目必不可少的一个阶段。该阶段可分为三个步骤问卷设计、发放与数据的统计分析。1. 问卷设计为了划分分级因素高低应当设计2. 问卷发放3. 数据的统计分析使用spss软件设计数据表格,输入数据。对各变量进行统计。a. 为了对第一标准中的各因素进行分级,我们对第9题中的数据进行统计即您觉得靓号所处位置(前、中、后)与靓号类型(连号,顺子号,吉祥号)以及靓号位数相比较哪个更重要? ( )A靓号位置 B靓号类型 C靓号位数 D都一样得到下表(0.00表示缺失,1.00表示选A, 2.00表示选B,3.00表示选C,4.00表示选D )a9频率百分比有效百分比累积百分比有效.004.5.5.5

46、1.00799.99.910.42.0027334.134.144.53.0034443.043.087.54.0010012.512.5100.0合计800100.0100.0由表可知,在大多数人看来靓号位数最重要,部分人认为靓号类型最重要,小部分人认为靓号位置最重要,极少数人认为位数多少是一样的。由此可对第一标准中的三个因素进行分级即:首先考虑靓号位数再考虑靓号类型最后考虑靓号的位置。b. 为了对第二标准中各个因素分别分级,我们对4、5、8题的数据进行统计。靓号类型的分级可由第4题数据得到,即:连号、顺子号和吉祥号三种靓号,哪一种对您的吸引力最大? ( ) A连号 B顺子号 C吉祥号(如1

47、68、520 ) D一样大可得到下表(0.00表示缺失,1.00表示选A, 2.00表示选B,3.00表示选C,4.00表示选D ):a4频率百分比有效百分比累积百分比有效.005.6.6.61.0033141.441.442.02.0031038.838.880.83.0011314.114.194.94.00415.15.1100.0合计800100.0100.0由表可知,在大多数人看来连号最好,部分人认为顺子号最好,小部分人认为吉祥号最好,极少数人认为是一样的。因为最喜欢连号的人数和最喜欢顺子号的人数的相对差值非常小,即:所以,可忽略二者的差别,将其归为一级。由此可对第二标准中的靓号类型

48、因素进行分级即:连号和顺子号为高级,吉祥号为低级。靓号位置的分级可由第5题得出,即:您倾向于把特殊号码放在手机号码的哪个位置 ( ) A号前 B号中 C号尾 D都一样 可得到下表(0.00表示缺失,1.00表示选A, 2.00表示选B,3.00表示选C,4.00表示选D ):a5频率百分比有效百分比累积百分比有效1.0014918.618.618.62.0021526.926.945.53.0041251.551.597.04.00243.03.0100.0合计800100.0100.0由表可知,在大多数人看来特殊号码放在手机号尾最好,部分人认为特殊号码放在号码中部最好,小部分人认为特殊号码放在号码前段最好,极少数人认为是一样的。由此可对第二标准中的靓号位置因素进行分级即:手机号尾为高级,手机号中部为中级,手机号前为低级。特殊号码位数的分级可由第8题得出,即:特殊号码的位数是不是越多越好? ( A 肯定是越多越好 B 一般是越多越好 C差不多 D 越少越好 可得到下表(0.00表示缺失,1.00表示选A, 2.00表示选B,3.00表示选C,4.00表示选D ):a8频率百分比有效百分比累积百分比有效.003.4.4.41.0045056.356.356.62.0029937.437.494.03.00455.65.699.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论