




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 主成分分析法在大学生上网行为分析中的应用 徐勇+杨佳梅+段妮歌+弋改珍摘要:随着大数据时代的到来,大数据分析技术已经在各行各业得到了应用和发展。研究了数据分析技术中主成分分析方法的原理和数据建模方法。以咸阳师范学院大学生上网行为数据为数据源,借助sas软件中的数据库和分析模块,对数据源进行采集、整理、清洗,建立分析指标,对预处理后的数据从购物、社交、科技等网址类别指标进行主成分分析,得到大学生上网的高峰期和不同类别对大学生上网情况的影响。最后,根据对大学生上网情况的分析提出合理的规划与建议。关键词:大数据;主成分分析;大学生上网行为数据:g
2、202 :a :1009-3044(2016)33-0018-03abstract: with the advent of the era of big data, big data analysis technology has been applied and developed in all walks of life. the principle of principal component analysis and data modeling methods are studied. using the students online behavior data for data s
3、ource in xianyang normal university, using database and analysis module in sas software, the data source collection, sorting, cleaning and set up the index, and the pre processed data from shopping, social, science and technology. the types of indicators for principal component analysis, university
4、students' in internet the peak and different categories of internet influence on students, finally put forward the planning and reasonable suggestions for college students.key words: big data; principal component analysis; university students' internet behavior data隨着互联网的飞速发展,生活在信息时代下的大学生们,自
5、然少不了对于网络的使用。根据中国互联网络信息中心发布报告中的数据,表明网民的规模在迅速增大1。为了研究网络对大学生的影响,利用主成分分析方法对大学生上网行为数据进行分析。主成分分析方法先是由k.皮尔森针对非随机变量引入的,尔后h.霍特林将此方法推广到随机向量的情形,其实际应用十分广泛,比如人口统计学、数学建模、数理分析等学科中,是一种常用的多变量分析方法2。sas作为统计分析的标准软件,被广泛应用于科研,教育,生产和金融等不同的领域,并且发挥着越来越重要的作用3。本文通过研究主成分分析方法的原理和数据建模方法,以我校大学生上网行为数据为数据源,借助sas软件中的数据库和分析模块,对数据源进行采
6、集、整理、清洗,建立分析指标。并对预处理后的数据在一定时间段的上网人数,从购物、军事、科技、旅游、社交、体育、新闻、学习、音乐、影像、游戏、工具、其他等13个不同类别的网址指标进行主成分分析。通过数据分析得到大学生上网的高峰期以及不同类别对大学生上网情况的影响,最终针对大学生上网情况提出合理的规划与建议。1 主成分分析方法的数学原理在实际问题的研究中,往往需要考虑很多因素,由于每个变量彼此之间都存在一定的相关性,导致所得到的观测值所反映的信息在内容上存在重叠,而研究者往往希望变量越少越好,少量的变量所反映的信息量越多越好,主成分分析4正是解决了这类问题,是将多个指标化为少数互相无关的综合指标的
7、一种多元统计分析方法。2 数据预处理利用主成分分析的降维思想,选取每天24小时作为变量,用主成分分析方法来处理一周中每天的时间段的数据,其分析结果将会为我们找到包含大部分信息的时间段,这样有助于进一步的分析。2.1 数据预处理数据源来源于我校大学生上网行为数据,由于原始数据是日志文件,不是数据分析需要的结构化数据。在数据分析之前,需要对数据进行预处理,即数据的整理与清洗。数据源选取时间为4月11号4月16号一个星期的上网数据。数据的观测是按时间进行排序的,指标有日期、学号、网址等。在运用主成分分析的分析方法进行分析大学生上网数据分析之前,要将数据进行预处理。数据预处理主要分为以下几个步骤: 数
8、据的合并及导入原始数据是每小时的数据,要利用(copy *.log 合并文件.txt)进行每小时数据的合并,合并成为一天的数据。接下来在sas中利用import过程将一天的数据导入。 数据的整理为了通过主成分分析上网高峰期,先选取学生作为指标,利用proc sql过程查找有效学号信息,并进行记录。通过sas中drop variable-list过程过滤掉缺省值,比如无效学号、教职工信息、网址等。 数据的清洗利用sas中nodupkey函数对不完整的数据、错误的数据、重复的观测进行清洗。2.2 建立指标 选取每一类网址(n)的每天作为样本指标(p),分别用符号x0,x1,x2,x3,x4,x5,
9、x6,x7来表示。其表示矩阵为mij (i=1,2,n;j=1,2,p)。3 主成分分析法在大学生上网行为数据中的应用1)计算指标的相关系数矩阵利用sas中的主成分分析函数,计算出2.2中建立的指标的相关系数矩阵,如图1所示。从系数矩阵中分析部分数据可知网址之间相关性都比较高,说明每个网址分类之间存在着的一定的相关性,他们内部有一定的关联。2)计算相关系数阵的特征值,特征向量及碎石图结合上节中的主成分分析的原理,利用sas中主成分分析函数,计算相关系数矩阵的特征值、特征向量及碎石图,如图2所示。一周上网数据的特征值结果可以看出前5个特征值的累计贡献率达98.91%。前3个特征值的累计贡献率达9
10、1.06%,说明前3个主要成分基本包含了全部指标,则取前三个特征值,并计算出相应的特征向量,特征向量的结果如图3所示。从图3可以看出第一主成分的表达式中,各个指标系数之间有一定差距,其中x0,x8,x10,x11的系数均大于0.3,说明可以把第一主成分看成是工具,学习,影像,游戏的综合指标。第二主成分表达式中,x5,x9的指标系数大,故起主要作用,说明第二主成分可以看作音乐和社交的综合指标。第三主成分表达式中,x2,x6,x7的指標系数大,故可以看作军事,体育,新闻的综合指标。一周的和一天的主成分分析还是有一点差距的,从其差距中看出同学们对军事,体育,新闻还是有一定的爱好的。图4是碎石图,前3
11、个主成分占了全部的主成分的91%以上,也可以说,在主成分3左右出现一个拐点,在这个拐点之后,曲线变得平滑,所以可以用3个主成分来表示原有样本数据信息。4 分析结果通过分析我们发现,有一部分人经常熬夜上网,并且绝大多数人每天的上网时长都在两三个小时以上,而针对他们上网的类别,分析其特征值可看出影像,学习,社交,购物的影响比较大。其次游戏和使用工具的人数也占不少的比例。在科技、旅游、军事、体育、新闻等方面,也有不少学生进行浏览,说明这是一个健康的上网数据,但对于当代大学生来说,这些方面所占比例较少。针对这些问题,我们提出以下建议:1)大学生应减少上网时长,做到用电脑两个小时后休息一小时。培养良好的
12、上网习惯。2)大学生应多关注新闻,科技,军事等相关资讯,及时了解时事新闻,获取各种最新的知识和信息。3)大学生应减少在购物以及娱乐上所花的时间,将其投入到学习中去,充实自己的知识。4)学校应开设网络素质教育课程,培养学生良好的上网习惯。宣传正确的上网心态。5 结束语通过研究主成分分析方法,更加了解了数据分析的重要性,而主成分分析方法不仅消除了各变量之间的共线性,减少了变量的个数,还减少了指标选择的工作量,使后续分析在指标的选择上相对容易,在用主成分分析法作综合评估时,由于选择的是累计贡献率大于等于85%的成分,这样就不会因为节省了工作量,而把关键指标遗漏掉,从而在一定程度上影响了评估的结果。但当主成分的因子的符号有正有负时,综合评估的意义就不明确了,这也是主成分分析的缺点。参考文献:1 中国互联网络信息中心. 第37次中国互联网络发展状况统计报告r. 2016.2 何晓群. 现代
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政工程常见材料及性能分析试题及答案
- 完整工作经历与岗位证明文书(5篇)
- 智慧供应链管理 课件 第七章 智慧采购管理
- 旅游目的地文化与特色知识题
- 经济师考试预测试题及答案准备
- 数字化时代的品牌转型策略计划
- 班级心理健康周的活动安排计划
- 经济法与企业责任试题及答案
- 班主任应对突发事件的能力计划
- 公共关系的职业发展路径试题及答案
- 统计学试题及答案解析
- 跨学科实践制作微型密度计人教版物理八年级下学期
- 2025届高考语文作文备考之审题立意30道选择题训练(附答案)
- 21. 三黑和土地 课件
- 挖掘机理论试题及答案
- 2025年银行从业资格考试个人理财真题卷权威解读
- 建筑工程保修承诺及保障措施
- 兴安盟2025年兴安盟事业单位春季专项人才引进30人笔试历年参考题库附带答案详解
- 和歌手合作合同协议
- 2024年甘肃酒泉事业单位招聘考试真题答案解析
- 西部计划考试试题及答案
评论
0/150
提交评论