




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
A职场新人手机用户精准识别 福州大学数学与计算机科学学院 11级研究生 福州大学第八届数学建模竞赛A题 职场新人手机用户精准识别 参赛组号:4参赛人员: 何立鹰 110320051 (组长)陈丽珠 110320038陈赛英 110320020福州大学第八届数学建模竞赛A题 职场新人手机用户精准识别摘 要本文基于统计的思想,并利用数据挖掘技术,对职场新人手机用户识别的方法进行了研究,并设计出一套用户识别的模型体系,该体系能够对职场新人手机用户进行有效识别。这个模型体系主要包括六个步骤:数据预处理、数据分析、模型建立、结果输出、模型验证、用户识别。将已知数据导入SPSS统计软件中,并在SPSS软件环境下对数据进行预处理、相关性分析,得出各个特征的相关性系数,从而进行特征降维,并从中获取决策特征:用户级别、套餐档次、消费金额、是否3G用户、资费变更次数、手机操作系统类型。根据分析结果建立模型,采用比例标度法对上述六个决策特征进行权重计算,并对用户的特征数据进行数据标准化处理。最后使用特征指数计算模型进行得分计算,根据输出结果和参考信息进行用户识别。本建模对于问题一,利用SPSS对影响本网用户是否为职场新人手机用户的最重要的六个特征等进行了统计分析,对相关量的平均值、最大最小值以及方差进行了计算,并进行相关性分析,得出了判断是否为职场新人手机用户的准则。关键词:职场新人、用户识别、SPSS、层次分析法、比例标度法 一、问题重述随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录。职场新人,通常指处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上学历)工作不到一年的年轻群体。他们虽然收入不高,但暂时也没有太多压力,经常追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求,是社会的潜在精英,将成为运营商未来的高端用户。下面给出某城市某运营商的手机公众用户数据,其中:l 用户资料表:本城市本运营商2012年2月时在网的所有手机公众用户的个人基本信息、终端信息、套餐情况、费用情况等数据;l 通话清单表:记录了上述手机号码在2012年2月份每天的通话情况,包括主叫、被叫以及市话、长途和漫游通话;l 短信清单表:记录了上述手机号码在2012年2月份每天的短信发送和接收情况。 为了便于针对不同用户推出合适的产品和服务,需要精准地识别用户类型。请结合以上三张表,识别该城市的职场新人。二、基本假设1)假设本网手机用户的行为特征在相当长的一段时间内没有太大的变化。2)本网手机用户的等级是相对固定的。3)手机用户定时缴纳话费及相关费用。4)假设获取的用户信息都是真实的、准确的。5)假设用户信息可以准确量化。6)假设身份证归属地、性别、号码办理日期对分析是否是职场新人没有影响。三、符号说明G目标层PROB_LEVEL套餐档次C准则层CUST_LEVEL用户级别P方案层OS_TYPE操作系统类型A判定矩阵IS_3G是否3G用户W权重向量CONSUME_AMT消费金额SCORE加权得分OFR_CHANGE_CNT资费变更次数四、问题分析根据搜到的相关资料以及对数据的分析,我们给出职场新人的相关定义:1) 年龄基本上在20岁以上,28岁以下。 2) 经常追求新鲜事物、乐于且敢于消费,具有较高的消费倾向。3) 需求多样化,个性化和高档化,喜欢高质量高价值的品牌商品。 由于数据量大,因此小组决定采用SPSS1数据统计软件进行数据处理。经过初步数据分析后,发现数据中99.9%的用户停机次数为零,因此该特征对决策的贡献不大,将不作为决策特征。用户信息中的身份证、性别特征与用户是否为职场新人关系粘滞度较弱,因此SPSS统计时不对这两个特征进行分析。经过对问题分析后,小组制定出本次建模的基本处理流程,如下图1所示:图1 五、模型建立及求解5.1 数据分析及特征降维针对所给数据中的用户特征字段,包括本网手机号码、城乡标识、身份归属地、是否3G等25个用户特征字段,进行数据分析前先进行数据预处理,如将操纵系统类别映射为0-2区间值,用户年龄为空或者值非法将其置为0等。手机操作系统类型预处理,如图2所示:图2首先,将数据导入SPSS软件后,使用分析-描述统计-描述,功能统计字段的均值、方差、最大和最小值等,分析样本数据数据分布情况,统计结果如图3所示(图中特征字段代表意义见附录一):图3其次,使用SPSS软件的分析-相关-距离,计算变量间的距离,对结果进行标准化2到0-1区间,使用Pearson方法进行相关性检验3。从中计算各个变量间的相关性系数,统计结果如图4所示:图4根据上面表格提供的信息,我们无法从中获取相关的信息,因为数据变化比较大,变量之间的相关性较均匀,根据在问题分析中,给出的职场新人的年龄区间在20到28岁,使用SPSS软件的数据-选择个案功能,对数据进行筛选,分析统计20-28岁区间的用户的相同变量的均值、方差、最大和最小值,以及相关性统计,结果如图5和图6所示:图5图6最后,通过对比均值、最值和方差,并进行相关性系数分析,以及结合问题分析中职场新人的相关定义,可观测到:1)消费金额与流量费、市话费、长途费、漫游费、通话费、增值费和短信费密切相关;2)流量费与上网流量和上网时长密切相关;3)用户等级和是否VIP密切相关。根据上述数据分析结果,把相关性大的那些特征用具有表征意义的特征表示,这样避免用户特征权重计算时重复计算,而影响用户识别,因此进行用户特征降维,最后得出六个具有代表意义的特征:用户级别、套餐档次、消费金额、是否3G用户、资费变更次数、手机操作系统类型。5.2 模型建立5.2.1 模型层次根据5.1降维所得的特征,采用层次分析法4建立模型,如图6所示。层次分析法,简称AHP法(Analytical Hierarchy Process)是一种综合定性和定量的分析方法,可以将人的主观判断标准,用来处理一些多因素、多目标、多层次复杂问题。图75.2.2 模型分析层次性是系统结构的一般形式,它普遍存在于自然界、生物界、人类社会乃至人们的思维方式。一个复杂的系统,通过层次分解,可以化成若干个简单的系统,因此这对简化问题具有普适性,这是层次结构模型的优势。针对上一层某个准则,把下一层与之相关的各个不可公度的因素通过两两对比,按重要性等级赋值,从而完成从定性分析到定量分析的过渡,这是层次分析法的又一个优势。但是模型求解中的合成权重向量之和为1,方案越多,方案权重差距会越小,虽然可以比较,但是差距越小,比较结果的信服度越低。方案越多时,方案层对准则层每个因素的判断矩阵越大,导致确定判断矩阵的工作量和求解模型的工作量都增大,层次分析法虽可理论上解决本文问题,但在实际应用中并不值得推广。因此我们对此层次模型进行改进,对准则层仍然采用层次分析法,而对方案层采用特征加权法进行问题的处理。具体处理过程见5.3模型求解说明。5.3 模型求解5.3.1比例标度法计算特征权重1. 比例标度法5基于5.2层次结构模型,采用常用A.L.Sarry的1-9比例标度法(以下简称比例标度法)作为确定指标重要性的标准,对指标的重要性进行量化。比例标度法主要是基于人们在估计事物的质的区别时,一般可以用5种判别很好地表示出来,当需要更高的精度时,还可以在相临判别之间做出比较,从而形成9种判别,用数量表示就是9个标度(参见下表)标度及其含义如表1所示:表1标度含义1表示两个元素相比,具有同样重要性3表示两个元素相比,前者比后者稍重要5表示两个元素相比,前者比后者明显重要7表示两个元素相比,前者比后者强烈重要9表示两个元素相比,前者比后者极端重要2,4,6,8表示上述相邻判断的中间值倒数若元素与的重要性之比为,那么元素与元素重要性之比为2.权重计算5.2中准则层元素为【用户级别、套餐档次、消费金额、是否3G用户、资费变更次数、手机操作系统类型】,准则层对目标层的判定矩阵为:上述矩阵中数字4/3表示指标CUST_LEVEL与指标CONSUME_AMT相比CUST_LEVEL重要。一般比值大于1表示前者重要, 比值越大越重要;比值小于1表示前者不重要,比值越小重要性越低。又如:表中数字3/4表示指标CONSUME_AMT比指标CUST_LEVEL不重要。根据上述矩阵,在Matlab中计算判定矩阵A的特征向量,得出权重向量。3.一致性检验判定矩阵对应于最大特征值的特征向量,经归一化后即为同一层次相应因素对于上一层次某因素相对重要性的排序权值,这一过程称为层次单排序。即:若的最大特征值对应的特征向量为,则即。对判定矩阵的一致性检验的步骤如下:(i) 计算一致性指标:。(ii) 查找相应的平均随机一致性指标(random index)。下表给出了110阶正互反矩阵计算1000次得到的平均随机一致性指标。表2 平均随机一致性指标矩阵阶数12345678910000.520.891.121.261.361.411.461.49计算一致性比例:。(iii) 当时,认为判断矩阵的一致性是可以接受的;当时,应该对判断矩阵做适当修正。本次建模中计算得出=6,计算过程和结果见附录二,将结果计算可得,判定矩阵A的一致性是可接受的,计算出的特征向量也是可接受的。5.3.2 数据标准化6数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,如一个百分制的变量与一个5分值的变量只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,本次建模对5.1得出的特征数据进行Z标准化,即均值为0,方差为1。Z标准化方法基于原始数据的均值和标准差进行数据的标准化。将用户数据的原始值标准化到。Z标准化方法适用于属性值超出取值范围的离群数据的情况,由于原始值存在离群数据情况,因此这种方法刚好适合。Z标准化可表述为:(:算术平均值,:标准差) 公式一标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。5.3.3 特征加权进行完上述数据标准化步骤后,对处理后的数据进行特征加权计算,其中用户数据记为,权重向量为,使用公式二计算用户加权得分记为。 公式二其中,为用户级别,为套餐档次,为消费金额,为是否3G用户,为资费变更次数,手机操作系统类型。5.3.4 结果输出 特征加权所得得分结果降序排列结果,如图8所示:图8根据5.3.3计算得分,得分结果分布情况和统计量如图9、图10所示:图9图10阈值7选择:由图9的得分分布情况、图10的得分统计量以及输出结果的数据分析,我们选择得分在-0.65以上的用户为职场新人,这些用户占年龄20-28以及未标记年龄的用户的85%左右,表明20-28年龄段的群体中85%的用户属于职场新人,符合现实世界中的概率分布。六、模型检验本模块检验计算得到的得分比较高的用户的六个特征是否与我们分析的职场新人定义相同。观察图8,我们可以看出,得分较高的用户,使用的手机操作系统基本上是android以及windows mobile操作系统,且大部分是3G用户,由于android手机操作系统以及3G技术的普及,目前较多年轻人都使用该系统的手机并成为3G的用户,职场新人处于这一年轻群体中,必然会追求新鲜事物,购买android手机,并体验3G服务。观察下表3和表4的统计结果,可以看出,在得分较高的前1000名用户中,套餐档次以及消费金额均比年龄处于20-28岁以及年龄未知用户的平均水平高出很多,可见我们所选择出的职场新人具有较高的消费水平,符合我们定义的职场新人的准则。表3 表4统计量PROB_LEVELCONSUME_AMTN有效122654128844缺失61900均值107.5939.7989标准差53.16246.73937方差2826.1592184.568统计量PROB_LEVELCONSUME_AMTN有效999999缺失00均值170.90180.2693标准差55.754153.68509方差3108.52423619.108通过图8,我们还可观察到,得分较高的用户均更改过1次资费,验证了职场新人乐于尝试新鲜事物,享受改变带来的乐趣。得分较高的用户等级基本上是3,属于中等用户,其中有小群体属于高级用户,因此职场新人有倾向成为高级用户。综上所述,通过建立的模型,我们找到符合本文定义的职场新人。通过得分较高用户的数据观察,我们还得出以下结论:1、职场新人较多居住在市区,这可能与市区具有较多工作岗位有关;2、得分较高的职场新人通常会购买价位较高的手机,这也符合职场新人虽工资不高,但勇于消费的特征。3、职场新人较多是VIP,可成为运营商的潜在高端用户。4、职场新人的上网流量以及上网时长都很高,这符合追求新鲜事物的年轻群体的特征。七、模型优缺点(一)模型优点1本文考虑了特征之间的相关性,进行了特征降维处理,有效地消除无关和冗余特征,提高挖掘任务的效率,改善识别的精确性。2模型能够适应于不同类型的用户识别,适用范围广。对于具体的情况,可以对模型进行适当的调整与修改。3本文在数据的处理分析过程中运用了SPSS软件,通过这个软件处理并分析数据,准确而效率高。(二)模型改进1.本文使用特征选择方法进行特征降维,即从特征集中选择一个真子集,满足()。其中:s为原始特征集的大小;是选择后的特征集大小。该方法具有一定的经验风险,特征子集的大小确定也将影响识别效果。本问题中用户具有手机号码、城乡标识、身份证归属地、年龄、用户等级、用户行业、手机价格、是否3G用户等25个特征,可以考虑采用主成分分析法降低特征的维度。主成分分析将具有一定相关性的众多变量重新组合成新的无相互关系的综合变量来代替,通常数学上的处理就是将原始特征进行线性组合作为新的综合指标。设原始变量指标为,它们的综合指标主成分为,则分别称为原变量指标的第一,第二,第m主成分。这些综合变量集中了原始变量的大部分信息;通过计算综合主成分函数得分,对客观现象进行科学的评价;它在应用上也更侧重于信息贡献影响力的综合评价。但由于时间和精力限制,我们未进行主成分分析方法的应用。2.本文未考虑职业对职场新人的影响,因此可以将职业类型纳入职场新人的特征之一。3.由于本文考虑的特征比较少,所以在模型改进方面还有很大的空间。八、参考文献1 谭荣波等 SPSS统计分析实用教程 科学出版社 2007.52 /view/945094.htm3 /view/5996049.htm4 刘晓波.基于网络层次分析法的图书馆评估模型J.现代情报.2011,115 吴定祥.比例标度法在评价雷达网探测效能方面的应用J.雷达与对抗,2003,36 /weizican/blog/item/66a35499c346aabfc8eaf446.html7 秦锋,黄傻,程泽鼠.用于多标记学习的阈值确定算法J.计算机工程,2010,11附录一字段名字段含义备注ACC_NBR 本网手机号码该号码已做加密处理,转换为ID形式表示。作为分群的基础号码表URBAN_RURAL_ID 城乡标识0:市区 1:县城 2:农村CERTI_LATN 身份证归属地区号GENDER 性别AGE 年龄CUST_LEVEL 用户等级1:最高; 2:高; 3:中; 4:低; -1:未知;CUST_WORK_TYPE 用户的行业(银行、医疗等)具体行业类型参见附件4OS_TYPE 手机操作系统类型TERMINAL_PRICE 手机价格元INNET_DATE 号码办理日期IS_3G 是否3G用户IS_VIP 是否VIP用户PROB_LEVEL 套餐档次(元)CONSUME_AMT 消费金额当月出账金额(元)WEB_FEE 流量费当月上网流量费(元)LOCAL_CALL_FEE 市话费当月本网号码市话语音费用(元)LONG_CALL_FEE 长途费当月本网号码长途语音费用(元)ROAM_CALL_FEE 漫游费当月本网号码漫游语音费用(元)CALL_FEE 通话费当月本网号码语音费用(元)VALUE_ADDED_FEE 增值费当月本网号码增值费用(元)SMS_FEE 短信费当月本网号码短信费用(元)STOP_CNT 停机次数连续半年统计停机次数OFR_CHANGE_CNT 资费变更次数连续半年统计用户的资费变更次数INNET_FLOAT_AMT 上网流量当月上网流量(M)INNET_DUR 上网时长当月上网时长(分钟)附录二A=1 1 4/3 2/3 4 4/51 1 4/3 2/3 4 4/53/4 3/4 1 1/2 3 3/53/2 3/2 2 1 6 6/51/4 1/4 1/3 1/6 1 1/55/4 5/4 5/3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高效电机设计的专利策略-洞察与解读
- 海南2025自考碳中和科学碳排放监测与核算高频题考点
- 7.3 撒哈拉以南的非洲 说课稿-2023-2024学年七年级地理下学期商务星球版
- 1 English is fun说课稿初中英语沪教版五四学制2024七年级上册-沪教版五四学制2024
- 建筑防水施工质量控制方案
- Lesson 4 Go to No.1 Bathing Beach.说课稿-2023-2024学年中职英语第一册人教版(中职三年制)
- 2025年广东食品考试试题及答案
- 2025年会计成本岗考试题及答案
- 以阅赋能 知识内化闭环:绘制体育教师阅读地图
- 2025年永川医疗面试真题及答案
- 2024年贵州黔南州招聘国有企业工作人员真题
- 2025-2030儿童语言启蒙教育市场现状与未来潜力分析报告
- 2025年全国高校港澳台大学生中华文化知识大赛备赛考试题库-上(单选题、多选题)
- 2025年中国动态视觉传感器行业市场全景分析及前景机遇研判报告
- 灌南七年级上册月考试卷及答案
- 李光平-哈工大-机械工程材料单元1课件
- (单元培优卷)第4单元 人体的奥秘-比 单元全真模拟培优卷(含答案)数学青岛版(六三学制)六年级上册
- 综合实践活动 绘制公园平面地图教学设计-2025-2026学年初中数学浙教版2024八年级上册-浙教版2024
- 第一讲-决胜十四五奋发向前行-2025秋形势与政策版本-第二讲-携手周边国家共创美好未来-2025秋形势与政策版本
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 运营管理指导手册(运营)
评论
0/150
提交评论