基于主成分分析的免费师范生生源多因素分析_第1页
基于主成分分析的免费师范生生源多因素分析_第2页
基于主成分分析的免费师范生生源多因素分析_第3页
基于主成分分析的免费师范生生源多因素分析_第4页
基于主成分分析的免费师范生生源多因素分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业论文(设计)题目基于主成分分析的免费师范生生源多因素分析_作者单位计算机科学学院基于主成分分析的免费师范生生源多因素分析摘要应用主成分分析原理,以少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成几个主成分,再以这几个主成分的贡献率为权数进行加权平均,构造出一个综合评价函数。本文以目前国家正在实施的免费师范生政策为背景,对陕西师范大学的免费师范生进行了系统性的问卷式抽样调查,并对调查结果进行整理统计和主成分分析,从而提取出免费师范生生源变化的主要影响因素即特征。本文所应用的学科为模式识别,涉及到的理论方法是特征选择与特征提取,同时深刻理解KL变换的定义、概念,以及在特征提取中的应用。关键词主成分分析综合评估特征选择特征提取BASEDONPRINCIPALCOMPONENTANALYSISINTHEVARIOUSSOURCEOFTUITIONFREENORMALCOLLEGESTUDENTABSTRACTTHETHEORYOFPRINCIPLECOMPONENTANALYSISCANUSELESSCOMPREHENSIVEVARIABLESTOINSTEADOFTHEMULTIVARIATEVARIABLES,THISMETHODCANSIMPLIFYTHESTRUCTUREOFTHEDATAANDAGGREGATETHEORIGINALINDEXINTOSEVERALPRINCIPALCOMPONENTSREGARDINGTHECONTRIBUTIONRATEOFTHISPRINCIPALCOMPONENTASRIGHT,COUNTWEIGHTEDAVERAGEANDMAKEUPACOMPREHENSIVEASSESSMENTFUNCTIONTHEPAPERTAKETHEPRESENTCOUNTRYPOLICYOFTUITIONFREENORMALCOLLEGESTUDENTASABACKGROUND,THENTHESTUDENTSINTHESHAANXINORMALUNIVERSITYHASBEENCARRIEDONASYSTEMATICQUESTIONNAIREANDITUSESTHETHEORYTOANALYSISTHESTATISTICALRESULTS,THUSEXTRACTTHEMAJOREFFECTFACTORSTHATISCHARACTERISTICTOTHECHANGINGSOURCEOFTUITIONFREENORMALCOLLEGESTUDENTTHERELATEDSUBJECTSISPATTERNRECOGNITION,INTHISPROCESS,THEFEATURESELECTIONANDEXTRACTIONAREALSOUSEDATTHESAMETIME,ACCORDINGTOTHEANALYSIS,ITNEEDSTOUNDERSTANDSOMETHINGASDEFINITIONS,CONCEPTSOFKARHUNENLOEVETRANSFORMANDITSAPPLICATIONINFEATUREEXTRACTIONKEYWORDSPRINCIPLECOMPONENTANALYSISCOMPREHENSIVEASSESSMENTFEATURESELECTIONFEATUREEXTRACTION1绪论411课题的背景及提出的意义4111课题提出的背景4112课题提出的意义412研究现状4121主成分分析理论简介4122理论原理及基本思想5123主成分分析理论在实验研究的应用情况52主成分分析的前提621模式识别622样品与特征623特征提取624特征选择725KL变换73主成分分析的设计与实现731基本概念732主成分分析方法的设计833主成分分析方法的计算步骤1034主成分分析方法的实例1035主成分分析方法的优缺点124关于免费师范生生源问题分析1341研究方法1342生源分析过程14421原始数据的标准化处理14422计算相关系数矩阵15423计算R的特征值与特征向量16424确定主成分个数16425综合评价1743计算机分析相关代码195结论21结束语21附录【参考文献】21致谢221绪论11课题的背景及提出的意义111课题提出的背景2007年国家决定在六所教育部直属的师范大学进行师范生免费教育,在这一政策实施三年以来,事实已经证明这六所大学北京师范大学、华东师范大学、东北师范大学、华中师范大学、陕西师范大学、西南大学的生源较之以前发生了明显的变化,至于是什么原因引起了这个变化呢不外乎是个人、家庭、社会等诸多方面的因素直接或间接导致的,在这些因素中,大多数人也肯定是由于同样的某些理由使他们选择了报读上述院校,鉴于这个事实,本文就选用主成分分析方法去探讨免费师范生生源多因素这一问题。112课题提出的意义免费师范生生源因素众多,而基于主成分分析的免费师范生生源多因素分析的目的则在于在我们对这种分析方法的原理充分理解下,灵活地运用一种科学理论去解释现实问题,培养理论联系实际的能力。同时,在免费师范生生源问题日益得到社会各界重视的前提下,运用一种科学理论去分析这一热门话题,一方面得出的结论具有较高的可信度,反之,另一方面如果结论和人们的直观感觉相一致,也同时对主成分分析方法的科学性和合理性进行了验证。12研究现状121主成分分析理论简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量或因素,因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的问题时,变量个数太多自然就增加课题的复杂性。在很多情形,变量之间是有一定的相关关系的,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映的信息方面尽可能保持原有的信息。它是模式识别学科中特征选择所运用到的方法之一。122理论原理及基本思想设法将原来众多具有一定相关性变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法,这即是主成分分析理论的原理之所在,它也是数学上处理降维的一种方法。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1选取的第一个线性组合,即第一个综合指标的方差来表达,即VARF1越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求COVF1,F20,则称F2为第二主成分,依此类推可以构造出第三、第四,第M个主成分,这M个主成分包含原来P个指标的所有信息。123主成分分析理论在实验研究的应用情况“多元统计分析”是近几十年来迅速发展起来的一门学科。随着微机的普遍使用及统计软件的推广普及,回归分析、判别分析、聚类分析因子分析、对应分析等等,各种多元统计方法已广泛应用于自然科学各学科乃至社会科学各个领域。主成分分析是一种常用的多元统计分析方法,相对于其他统计学方法,它更强调用数据本身来指导分析过程,而不是依赖于事先给定的某些假设。主成分分析在地震预测中的应用。根据主成分分析可以得到反应地震强度异常特征的综合指标形,发现该指标在2次地震前出现明显的异常变化,震后异常恢复,综合指标形可以较好地反映地震活动异常增强的特征。主成分分析在生命科学研究中的应用。生物样品特征谱的复杂多变性,对生物的每一个细小特征都进行处理分析已经是不现实的一种方法,因此很多的统计分析方法自然就被排除了,而主成分分析对于高维度的分子生物学数据则似乎是一种最恰当的分析方法。主成分分析在经济评价中的应用。在研究较复杂的经济问题时,利用多元统计分析中的主成分分析,可从多个经济指标中找出起支配作用的共同因素,从而抓住主要矛盾,以较少的变量进行定量分析,对企业的经济效益进行公正的评价。此外,主成分分析方法已经被作为一种科学的分析方法广泛地运用于工农业生产、环境保护、商业盈利等等,并且主成分分析方法的应用领域会随着技术的进步越来越广阔。2主成分分析的前提21模式识别所谓模式识别技术,是随着现代科学技术的发展,特别是计算机技术的发展而形成的一种模拟人的各种识别能力和方法的技术。它基本上属于一种自动判别和分类的理论。模式识别当前主要运用在地球环境的调查研究、生物医学工程、生产管理自动化、军事侦查等领域。模式识别技术是在计算机上实现的,而计算机只识别数字和字符,故所有模式都必须首先数值化或符号化,才能进行自动识别,也就是说前提是对模式的特征测量数值化。22样品与特征在模式识别中,被观测的每个对象成为一个样品。对每个样品必须确定一些与识别有关的因素,作为研究的根据;每个因素成为一个特征。例如,在研究地震危险区域划分时,每个样品是一块区域,与之对应的特征可以取该区域内的各项地质地貌特征,如主活动断裂数,主活动断裂的端点及交汇点个数,区域内的最大高程等。又如,在医学诊断中,每个样品是一个患者,特征便可取与诊断有关的各项病理指标等,如体温、血压、白血球数目等。23特征提取模式识别建立在对模式特征量化的基础上,也就是说,首先要对表征模式的各种特征加以量测或量化,得到每一模式的特征数值集合或特征向量,然后根据不同类型模式具有不同的特征数值集合,进行自动辨别。特征的引入通常要经过一个从少到多,又从多到少的过程。所谓从少到多,是指在设计识别方案的初期阶段应尽量多地列举出各种可能与分类有关的特征,这样可以充分利用各种有用的信息,改善分类效果,这一步骤称为特征提取或特征抽提,如利用KL变换的分类来进行特征提取。这里产生的问题是特征数值向量的分量个数很多或维数很多,但是否都能有效地代表各类模式,针对不同的对象,是否都需要那么多特征来进行辨别,这是需要考虑的问题。由于模式识别是由计算机自动处理的来完成的,在模式维数很高的情况下,计算量太大,且识别精度并不一定随着维数增多而提高,因此就很有必要对已有的众多特征进行选择与提取,也就是说需要选择最有代表性的特征,另外,针对不同的研究对象,还需要进行不同的特征组合。24特征选择为了使特征数目从多到少,需要进行所谓的特征选择。特征选择通常包括两方面的内容一方面是对单个特征的选择,即对每个特征分别进行评价,从中找出那些对识别作用最大的特征,如KW检验、直方图方法、不确定性选择等等;另一方面是从大量原有特征出发,构造少数有效的新特征,有时也称为降维映射,如主成分分析、对应分析。在模式识别技术中最常使用的特征选择方法就是降维映射方法,而降维对分方法中所得到的新特征D,D是原有特征X1,X2,X3的二次函数,因此这种映射21称为非线性映射。目前比较普遍使用的降维映射方法仍然是线性映射,即各个新特征YII1,2,V,V085BREAKENDEND记下累积贡献率大85的特征值的序号放入NEWI中FPRINTF主成分数GNN,LENGTHNEWIFPRINTF主成分载荷NFORP1LENGTHNEWIFORQ1LENGTHYRESULTQ,PSQRTNEWVALNEWIPVECQ,NEWIPENDEND计算载荷DISPRESULT3CWSCOREMCWSCOREM,计算得分FUNCTIONSCORECWSCOREVECTOR1,VECTOR2SCOVECTOR1VECTOR2CSUMSUMSCO,2NEWCSUM,ISORT1CSUMNEWI,JSORTIFPRINTF计算得分NSCORESCO,CSUM,J得分矩阵SCO为各主成分得分;CSUM为综合得分;J为排序结果4CWPRINTMFUNCTIONPRINTCWPRINTVECTORFPRINTF标准化结果如下NV1ZSCOREVECTORRESULTCWFACV1CWSCOREV1,RESULT5结论通过对免费师范生生源的主成分分析可以看出,最终从24个特征中进行提取,但最终仍然还有多达12个主成分来概括,说明的原因是免费师范生生源的确很复杂,各种因素对不同的人群都有一定程度的影响。对贡献率较高的主成分分析归纳,得出影响免费师范生生源最主要的因素有特征X8是否喜欢教师这个职业、X21支教对人生价值的实现、X4和X5父母的学历,X1个人性别,X11免费师范生志愿的决定人,X17国家政策性影响以及X16免费师范生的弊与X23免费师范生的利的对比等等,这些因素在很大程度上对免费师范生的生源起到了关键性的影响,换句话说绝大数免费师范生报考免费院校的原因都源自上述因素。结束语主成分分析能降低所研究的数据的空间维数,是把原来多个变量划为少数几个综合指标的一种统计分析方法,关于主成分的实际意义要结合具体问题和有关专业知识才能给出合理的解释。利用主成分分析本身可以对所研究的问题在一定程度上作分析,但主成分分析本身往往不是最终目的,更重要的是利用主成分综合原始变量的信息,达到降维的目的,然后对数据做进一步的分析,如回归分析、聚类分析、判别分析等。附录【参考文献】1希SERGIOSTHEODORIDIS,希KONSTANTINOSKOUTROUMBAS模式识别李晶皎等译北京电子工业出版社,20062美MARIOFTRIOLA初级统计学北京清华大学出版社,20083美RICHARDAJOHNSON,美DEANWWHICHERNAPPLIEDMULTIVARIATESTATISTICALANALYSIS应用多元统计北京清华大学出版社,20084李静萍,谢邦昌多元统计分析方法与应用北京中国人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论