因子分析作业.docx_第1页
因子分析作业.docx_第2页
因子分析作业.docx_第3页
因子分析作业.docx_第4页
因子分析作业.docx_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于因子分析的学生成绩信息挖掘一、研究背景进入21世纪以来,高校学生的综合素质培养越来越成为关注的热点。如何科学地对学生的综合成绩进行评价也越来越受到教育人士的重视。在中国的目前,大多数高校采取的是以学习成绩加权平均的传统评价方式,但这一方法存在很多弊端,比如说它掩盖了学生的个性,对学生的评价不够全面,不能够突出学生的独特优势和特点。这就大大降低了评价本身激励、调节等作用的发挥,使得很多学生一味地追求总成绩,而忽略自己的特长发展和自身成长。2002年12月,国家教育部公布了体现全新教育理念的中小学评价与考试制度改革方案,要求评价内容要多远、评价方法要多样。就在即将要来临的高等教育“大文大理”教育改革中,如何正确地评价一个学生,就显得更为重要。一个好的评价体系,应该形成有效的激励机制,全面并且有针对性地评价学生,使得学生能够了解自我,发展自我优势,扬长避短。进而也帮助学校和用人单位能够了解学生情况,更有针对性地选拔人才。针对这种按照综合成绩对学生进行笼统排队的方法所存在的种种诟病,考虑到现代教育改革对科学评价方式的迫切需求,本文将利用因子分析的方法,尝试提出更为科学、全面的评价方面,尽力能从学生的考试成绩中挖掘出最有价值的信息。二、数据说明本案例的数据来自于北京师范大学某专业21名学生,前两个学年的部分考试成绩。成绩来源于教务处内部数据库,可信度与准确度都较高。数据均为百分制的数值型数据,代表每一名学生在这门课上的所得有效成绩。本次研究将主要运用回归分析的方法对数据进行研究。具体包括线性(逐步)回归、参数检验、显著性检验等方法。三、研究方法其实对于怎样科学、综合评价一个学生质量和水平,一直以来都困扰着很多教育工作者和评价计量学家。有的学者通过相关分析、回归分析等手段来探究学生成绩与某些指标之间的关系【1】,有的是以学分绩点为标准来对学生成绩进行分析【2】。美国哈佛大学的著名心理学家加德纳曾经提出了多元智力理论,该理论认为人类的所有智力大体分为以下七类:语言智力、节奏智力、数理智力、运动智力、自我认知智力和人际关系智力。本文从其中得到想法:是否能利用因子分析的方法,将学生各个学科的成绩降维为类似于多元智力理论中的分类。因子分析是指研究从变量群中提取共性因子的统计技术。最早有英国心理学家斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而猜想是否存在某些潜在的共性因子,或称为某些一般智力条件影响着学生的成绩。因此分析可在许多变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目,达到降维的作用,还可检验变量间关系的假设【3】。四、数据检验和预处理(一) 奇异点的剔除和数据的筛选由于部分同学没有选修某些课程,加上某些同学由于特殊情况存在缺考现象,对于这些课程进行了删除,重新筛选出了部分课程共计15门。最后使用的数据是21名同学两学年中共15门课程的成绩。(二) 前提条件检验因子分析是将多个实测变量转换为少数几个不相关的综合指标的多远统计分析方法,它要求自变量之间要有一定的关联,表现出一定程度的共线性。因此在进行因子分析之前要先进行检验。检验方法主要有以下三种:相关系数矩阵、巴特利球形检验、KMO检验。一般来说,当变量之间的相关系数一般都大于0.3时比较适合做因子分析。而巴特利球形检验用于检验相关阵是否是单位阵,即各变量是否独立,检验的零假设是“相关系数矩阵是一个单位阵”如果巴特利球形检验统计量的数值较大且符合显著性检验时,就认为变量之间相关,适合进行因子分析,反之则不能拒绝零假设,不适合做因子分析。而KMO是用于比较变量间简单相关系数和偏相关系数的指标,当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值越接近1,意味着变量间的相关性越强,越适合做因子分析。Kaiser给出的常用kmo度量标准如下:0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1极不适合不太适合一般适合比较适合很适合非常适合表格 1 KMO度量标准根据以上检验方法,利用SPSS检验结果如下(相关性系数矩阵见附录):KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.728Bartletts Test of SphericityApprox. Chi-Square204.842df105Sig.000表格 2条件检验由检验结果看,相关系数矩阵大部分都大于0.3;KMO值为0.728,比较适合做因子分析;同时巴特利球形检验的P值为0.000小于0.05,拒绝原假设。综上所述,对于本研究中的数据,基本符合因子分析中的前提假设。五、具体计算学生在大学期间所修课程众,但是不同课程之间存在某些或多或少的联系,因为无论是哪些课程公共课、专业课、选修课等,决定其成绩高低的都是逻辑思维能力、记忆能力等等,只要能找出这些潜在的、共同的因子,那么就可以化繁为简。而因子分析的基本思想就能体现出这些。首先建立正交因子的模型如下:其中表示学生成绩,表示成绩背后隐藏的“共同因子”,表示一些不可测量的误差因子。用向量的方式进行表示,则上式可看作是。而其中构成的矩阵A是被称为因子载荷矩阵,表示为第i门课成绩在第j个共同因子上的载荷。而因子分析的目的就是通过实际数据来求解载荷矩阵,据此对公共因子进行归类和推导。在提取因子的时候,可利用主成分分析法、最小平方法、主因子解法、极大似然法等等,本文采用比较普遍的主成分法。六、结果分析与模型修正(一) 结果分析与说明根据上述方法的过程,首先得到方差贡献率表如下:Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %18.10254.01454.0148.10254.01454.0144.67731.17831.17821.53110.20664.2201.53110.20664.2203.66324.42055.59831.3799.19473.4141.3799.19473.4142.67217.81573.4144.7645.09478.5085.7104.73383.2416.5613.73886.9807.5523.67790.6578.4422.94793.6049.3362.24295.84610.1961.30897.15311.1581.05698.20912.107.71398.92213.081.53999.46214.050.33699.79815.030.202100.000Extraction Method: Principal Component Analysis.表格 3 方差贡献率表从上述结果可以看出,在选取三个公因子之后累计方差贡献率就已经达到73.414%,第四个特征根相比下降比较快,因此这里选取了三个公共因子。而下面的碎石图也能从直观上印证这一点:前3个特征值的变化比较明显,而后面12个变化都比较缓慢。图表 1 碎石图在确定抽取的公共因子有三个之后,可以来看选取的因子的解释能力,这一点通过公因子方差表来体现,结果如下:CommunalitiesInitialExtraction线性代数1.000.750数据库1.000.772普通物理学21.000.754毛泽东思想1.000.870数理方法1.000.775windows程序设计1.000.785matlab基础与应用1.000.781计算机基础1.000.599大学数学11.000.742管理学原理1.000.795经济学原理1.000.592大学数学21.000.764信息管理概论1.000.621C语言1.000.660普通物理学11.000.752Extraction Method: Principal Component Analysis.表格 4公因子方差表从表格4可以看出,所有课程信息抽取比例都超过50%,大部分都超过70%,这意味着这三个因子已经都能反映出课程成绩大部分的信息,解释能力已经满足要求,并且遗失的信息也不是很多。得到的载荷图如下:Component MatrixaComponent123线性代数.861.035-.083数据库.837-.129-.232普通物理学2.581.229-.604毛泽东思想.456.694.423数理方法.829-.027.294windows程序设计.870-.118.115matlab基础与应用.806-.093.350计算机基础.535-.430.358大学数学1.765.176-.355管理学原理.736-.285-.414经济学原理.554.516-.138大学数学2.854.107.152信息管理概论.692.371.074C语言.733-.251.245普通物理学1.743-.425-.138a. 3 components extracted.表格 5载荷图为了获得意义明确的因子含义,在这里我们将因子载荷矩阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下,通过此法,我们可以更加清楚的来对因子进行定义。Rotated Component MatrixaComponent123线性代数.541.571.363数据库.542.672.165普通物理学2-.007.837.232毛泽东思想.145-.053.920数理方法.732.244.425windows程序设计.724.409.305matlab基础与应用.777.182.379计算机基础.774.006-.016大学数学1.269.740.349管理学原理.469.755-.071经济学原理.042.453.621大学数学2.609.378.500信息管理概论.317.356.627C语言.761.219.179普通物理学1.680.530-.092a. Rotation converged in 6 iterations.表格 6 旋转后载荷图可以看出数理方法、windows程序设计、Matlab基础与应用、计算机基础、c语言等课程在因子1上的载荷比较大;普通物理学2、大学数学1、管理学原理在因子2上的载荷比较大;毛泽东思想、经济学原理、信息管理概论在因子3上的载荷比较大;还有像线性代数、数据库、普通物理学1等课程在因子1、2上的载荷相对都比较大。通过和实际课程设置与考察导向来看,特归纳因子意义如下:因子载荷比较大的课程因子意义因子1数理方法、windows程序设计、matlab、计算机基础、C语言、线性代数、数据库、普通物理学1、大学数学2算法与程序思维因子2大学数学1、普通物理学2、普通物理学1、管理学原理、数据库、线性代数逻辑与理解能力因子3毛泽东思想、经济学原理、信息管理概论、大学数学2记忆与文字能力表格 7 因子意义因子1主要反映的是算法思与逻辑思维,其中的程序设计课程是显而易见的,但是想数理方法、线性代数为什么载荷也不低呢?因为这些课程都有较为固定和成熟的解题算法,在考试过程中考查的也是这一能力。因子2反应的是逻辑与理解能力,因为大学数学、普通物理等课程的考查更偏重于对概念或定义的真正理解,还有对待一个新题型的逻辑能力;而管理学原理虽然是偏向文科的课程,但根据现实情况,本门课程的老师在考察中更关心的是学生的逻辑理解能力(比如大量的主观案例分析题)并不是考查背诵,所以也有较强的载荷。因子3反应的是记忆与文字能力,毛泽东思想、信管概论、经济学原理都是偏向于考查概念定义(名词解释)等等,而像大学数学2为什么载荷也较高呢。作者认为,可能是由于大学数学2的老师在最后考试的时候所有题目均出自课本课后题原题,所以存在某些同学由于将所有题目都做过并记住,所以考试成绩相对较高的情况。同时也得到因子得分系数矩阵如下:Component Score Coefficient MatrixComponent123线性代数.033.112.043数据库.037.194-.084普通物理学2-.239.403.008毛泽东思想-.059-.200.509数理方法.182-.114.100windows程序设计.156-.008.009matlab基础与应用.223-.150.077计算机基础.321-.182-.121大学数学1-.119.268.049管理学原理.021.290-.220经济学原理-.181.133.279大学数学2.088-.026.140信息管理概论-.045.015.258C语言.236-.097-.040普通物理学1.166.125-.229表格 8 因子得分系数矩阵通过以上矩阵,就可以得出每一个因子的计算公式,进而得到每一名学生在各个因子上的得分情况,以此来判断学生的各项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论