基于因子分析和K-means聚类的异网高端用户识别_第1页
基于因子分析和K-means聚类的异网高端用户识别_第2页
基于因子分析和K-means聚类的异网高端用户识别_第3页
基于因子分析和K-means聚类的异网高端用户识别_第4页
基于因子分析和K-means聚类的异网高端用户识别_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于因子分析和K-means 聚类的异网高端用户识别 基于因子分析和K-means聚类的异网高端用户识别摘要:本文研究异网高端手机用户的识别问题,采用因子分析法、K-means聚类算法进行研究与识别。首先利用SPSS软件对数据预处理,去除了异常数据,采用因子分析法将本网手机用户分为三类,分别为:高端用户、中端用户和普通用户。然后通过通话对时长和短信数量估测费用,用K-means聚类方法对用户分类。最后从判别准则合理性的评价、异网手机用户月均消费金额的估算评价,并识别出异网高端用户。关键词: 分类 因子分析法;K-means聚类算法中图分类号: O29 文献标识码: A Rete Mirabile High User Identification Based on Factor Analysis And K-means Clustering JI Ben-ming(ScienceCollege, Northeast Dianli University, Jilin Jilin )Abstract: Factor analysis and K-means clustering are used for the identification of the rete mirabile high user. SPSS is used for data preprocessing, removing abnormal data. The phone users, by Factor analysis, are divided into three categories: high user, secondary user and common users. Based on K-mean clustering analysis of cost estimated by the duration of call and the number of SMS, the phone users are divided. Finally, from the assessment and the consumption of month cost, identify the different network users.Keywords: classification; factor analysis method; K-means clustering method随着移动通信、互联网业务的迅速发展,手机已经成为人们日常生活中不可缺少的一部分。本问题来自于深圳杯数学建模竞赛B题,精准识别手机用户的类型,制定合理有效的营销策略,就能吸引更多的用户,对扩大电信运营商的影响力与市场占有率,促进电信业务的发展有重要意义。随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录;与本网高端手机用户相同,异网高端手机用户在消费力度,通话量、以及手机交往圈(与之有通信行为的所有手机用户构成其手机交往圈)大小等方面均远高于整体平均水平。高端用户往往更关注信号强度和通话质量,追求个性化服务。他们往往是企业的骨干、是家庭的核心,对电信业务发展有着重要意义,其手机交往圈中多数也是高端手机用户,相互之间产生重要影响1 问题的提出与本网高端手机用户相同,异网高端手机用户在消费力度,通话量、以及手机交往圈(与之有通信行为的所有手机用户构成其手机交往圈)大小等方面均远高于整体平均水平。高端用户往往更关注信号强度和通话质量,追求个性化服务。他们往往是企业的骨干、是家庭的核心,对电信业务发展有着重要意义,其手机交往圈中多数也是高端手机用户,相互之间产生重要影响。本文解决下列问题:1)研究本网手机用户行为特征,给出本网高端手机用户的判别准则以及营销优先级。2)估算异网手机用户的月均消费金额,研究异网手机用户行为特征,并给出异网高端手机用户判别准则以及营销优先级。3)评估本网、异网高端手机用户的判别准则是否合理以及异网手机用户月均消费金额的估算是否准确,有哪些需要改进的地方,改进方法是什么,还需要什么信息?2 模型建立与求解2.1 因子分析法因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示,通过此变量来对原始变量评价。因子分析法求解分为以下步骤1)原始变量的选取。2)对原始变量标准化处理并求相关阵。对数据进行标准化处理,并对求相关阵R。3)求初始公共因子及因子载荷矩阵。设有p个主成分,记为,变量记为,则主成分与原始变量之间存在如下关系式: (1)(1)式中,为随机向量相关矩阵的特征值所对应的特征向量的分量,特征向量彼此正交,则矩阵可转化为: (2)对上面(1)(2)式只保留前m个主成分而把后面的部分用代替,则(2)式变为: (3)其中之间相互独立,且与之间相互独立,把转化为公因子,令,则(3)式变为: 即就得到了载荷矩阵和一组初始公因子。其中4)因子旋转假设前提:公共因子的解释能力能够以其因子载荷平方的方差,即的方差来度量。用一个正交矩阵T右乘A,是旋转后的因子载荷阵结构简化,即使得每个变量仅在一个公共因子上有较大的载荷,而在其余的因子上载荷较小。下面求解正交阵T。,为了计算方便,对于矩阵A每次取两列进行全部配对旋转,为了说明问题先取列进行旋转令为正交阵。记经过如上变换,希望所得结果能使载荷矩阵的每一列元素的绝对值向1和0两极分化,或者说是因子的贡献尽量分散。这实际上就是希望把变量分成两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关,也就是要求的方差要尽可能的大。定义相对方差为其中为变量的共同度,取是为了消除符号不同的影响,除以是为了消除各个变量对公共因子依赖程度不同的影响,现在要求总的方差达到最大,即要求使达到最大值,则求得其中 而求解得到T值,相似的再任取两列也进行相同的处理,一共进行m(m+1)/2次,所有的匹配都进行旋转,就完成了第一轮旋转,再根据所得结果进行第二轮旋转,直到相对方差改变不大时,停止旋转,得到新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。5)因子得分建立以公共因子为因变量、原始变量为自变量的回归方程:用回归的思想求出线性组合系数的估计值,在最小二乘的意义下,得到F的估计值其中,A为转换后的载荷矩阵;D为原始向量,F为公共因子的估计得分,用公共因子得分去描述原始变量取值,即可以根据此值分类。2.2 聚类模型的建立与求解 K-means是一种经典的聚类算法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式2.3 模型的校验对附件数据进行随机抽取,再利用高端用户的评判准则进行高端用户的提取,判定模型的合理性。3 模型的应用模型求解及结果分析3.1 本网高端用户识别第一步,用SPSS标准化的数据进行因子分析第二步,对输出结果分析选取主因子具体选取因子的初始特征值数据如下表1所示。选择以主成分法作为因子提取方法,选定因子提取标准是:成员特征值1。由表1可知,有4个满足条件的特征值,它们对样本方差的累计贡献率达到了62.814%,因此提取4个因子。表1 初始特征值成员解释方差特征值% 解释方差累计%13.41731.06631.06621.47813.43244.49831.0139.21253.71041.0019.10462.8145.9328.47771.2906.8337.57178.8617.7867.14986.0118.7386.70792.7189.6886.25398.97110.1131.029100.000第三步,计算主因子得分和综合得分 表2 部分号码主因子得分号码第1主因子第2主因子第3主因子第4主因子6046-.97319.10849-.11799-.942009688-.101601.28090-.11565.2893028570-.165621.46982.738131.6512851245.624121.51756-.23848.15668.16334.24508.05785-.51811-.84977.30746-.10670-.92176由,综合得分计算综合得分,其中主因子系数为主因子的贡献率占4个主因子贡献率的比值。第四步,分类。以综合得分作为分级指标,将用户分为三个等级,综合得分在大于1的有8416人,占总数的2.3%,为高端用户;综合得分在01的为人,占总数的,为中端用户;综合得分小于0的有人,占总数的,为低端用户。3.2 异网高端用户识别3.2.1 异网高端用户识别本文采用了SPSS Clementine提供的方法来确定聚类个数,应用SPSS软件得到联通用户通过短信聚类表3 联通用户短信聚类表类每类成员数类中心(短息条数)1222.00055522472.0001593.0008高端短信用户占0.15%,中端短信用户占1.8%,普通短信用户占98.0%联通用户通过通话聚类表4 联通用户通话聚类表类每类成员数类中心(通话次数)144344.00002468.000537668.0002高端通话用户占0.89%,中端通话用户占14.6%,普通通话用户占84.5%移动用户通过短信聚类表5 移动用户短信聚类类每类成员数类中心(短息条数)11.000495321162.0006993.0005417274.000203高端短信用户占0.15%,中端短信用户占0.85%,普通短信用户占98.0%移动用户通过通话聚类表6 移动用户通话聚类类每类成员数类中心(通话次数)1.000022640.0004349435.0002高端通话用户占0.75%,中端通话用户占14.2%,普通通话用户占85.1%其他用户通过短信聚类表7 其他用户短信聚类类每类成员数类中心(短息条数)11.000382323.0002987310546.0004432.00029051.000222064.0001248普通用户占99.6%(第4类),即可认为全为普通用户3.2.2 异网月消费估计由于资料的不足,无法掌握异网用户上网费用、增值费等消费情况,只能通过通话记录与短信记录估算异网用户的消费情况。表8 本网用户月消费统计月消费长途市话短信平均39.967715.28408.60933.3700用户数量本网用户月均消费金额为39.97元。其中,通话费平均23.89元,平均短信费3.37元,为了消除用户群体大小对估算结果的影响,我们决定用每次通话的平均时长,即:作为所属不同运营商的用户消费水平的标准。随机抽取部分通话记录用SPSS统计分析,记录汇总如下:表9 通话数据统计异网用户类型平均时长平均短信量电信100.5212.91移动105.807.23联通113.6311.33其他6.59通话平均时长之比为电信:联通:移动=1:1.0525:1.1304估算出,移动公司用户通话费消费金额约为25.14元,联通公司用户通话消费金额为27.00元,略高于移动用户。发送短信条数之比为电信:其他:联通:移动=1:0.5104:0.8776: 0.5600。结合电信用户的短信消费情况,我们可以估算出,移动公司用户短信消费金额约为1.89元,联通公司用户月均消费金额为2.96元,其他运营商用户短信消费为1.72元。3.3 高端用户识别模型校验为了对本网高端用户判别准则进行检验,在缺乏更多数据的情况下对附件数据进行随机抽取,再利用高端用户的评判准则进行高端用户的提取。为了尽可能的验证评判准则的可信度,进行了多次抽取,统计结果如表:表10 随机检验统计随机样本1000150130021938高端用户23346647 百分比(%)2.32.32.22.4所以高端用户所占比重基本在2.3%左右,没有太大的波动,认为本网高端用户判别准则是合理的。在模型2中,随机抽取用部分用户,用K-mean聚类算法聚类,得到与整体一样的结果,认为异网高端用户判别准则是是合理的。 需改进的地方:在模型2的求解过程中,由于计算机内存的限制,只提取部分数据。在估算异网用户消费金额时,只有异网用户通话记录和短信记录,使估测不准。4 结束语本文将大规模的高端用户识别的实际问题转化为对手机用户分类问题。对于这个问题的解决,建立了因子分析模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论