




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号: 本科生毕业论文(设计)题目: 基于主成分分析的免费师范生生源多因素分析_作 者 单 位 计算机科学学院 基于主成分分析的免费师范生生源多因素分析 (陕西师范大学计算机科学学院, 陕西 西安710062)摘 要:应用主成分分析原理,以少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成几个主成分,再以这几个主成分的贡献率为权数进行加权平均,构造出一个综合评价函数。本文以目前国家正在实施的免费师范生政策为背景,对陕西师范大学的免费师范生进行了系统性的问卷式抽样调查,并对调查结果进行整理统计和主成分分析,从而提取出免费师范生生源变化的主要影响因素(即特征)。本文所应用的学科为模式识别,涉及到的理论方法是特征选择与特征提取,同时深刻理解k-l变换的定义、概念,以及在特征提取中的应用。关键词:主成分分析 综合评估 特征选择 特征提取based on principal component analysis in the various source of tuition-free normal college studentgao yuliang(college of computer science,shaanxi normal university,xian 710062,shaanxi, china)abstract: the theory of principle component analysis can use less comprehensive variables to instead of the multivariate variables, this method can simplify the structure of the data and aggregate the original index into several principal components.regarding the contribution rate of this principal component as right, count weighted average and make up a comprehensive assessment function. the paper take the present country policy of tuition-free normal college student as a background,then the students in the shaanxi normal university has been carried on a systematic questionnaire and it uses the theory to analysis the statistical results, thus extract the major effect factors(that is characteristic) to the changing source of tuition-free normal college student. the related subjects is pattern recognition, in this process, the feature selection and extraction are also used. at the same time , according to the analysis, it needs to understand something as definitions, concepts of karhunen-loeve transform and its application in feature extraction. key words: principle component analysis comprehensive assessmentfeature selection feature extraction1.绪论41.1 课题的背景及提出的意义41.1.1课题提出的背景41.1.2课题提出的意义41.2 研究现状41.2.1 主成分分析理论简介41.2.2 理论原理及基本思想51.2.3 主成分分析理论在实验研究的应用情况52.主成分分析的前提62.1模式识别62.2样品与特征62.3特征提取62.4特征选择72.5 k-l变换73.主成分分析的设计与实现73.1基本概念73.2主成分分析方法的设计83.3主成分分析方法的计算步骤103.4主成分分析方法的实例103.5主成分分析方法的优缺点124.关于免费师范生生源问题分析134.1研究方法134.2生源分析过程144.2.1原始数据的标准化处理144.2.2计算相关系数矩阵154.2.3计算r的特征值与特征向量164.2.4确定主成分个数164.2.5综合评价174.3计算机分析相关代码195 结论21结束语21附录 【参考文献】21致 谢221.绪论 1.1 课题的背景及提出的意义 1.1.1课题提出的背景2007年国家决定在六所教育部直属的师范大学进行师范生免费教育,在这一政策实施三年以来,事实已经证明这六所大学(北京师范大学、华东师范大学、东北师范大学、华中师范大学、陕西师范大学、西南大学)的生源较之以前发生了明显的变化,至于是什么原因引起了这个变化呢?不外乎是个人、家庭、社会等诸多方面的因素直接或间接导致的,在这些因素中,大多数人也肯定是由于同样的某些理由使他们选择了报读上述院校,鉴于这个事实,本文就选用主成分分析方法去探讨免费师范生生源多因素这一问题。1.1.2课题提出的意义免费师范生生源因素众多,而基于主成分分析的免费师范生生源多因素分析的目的则在于在我们对这种分析方法的原理充分理解下,灵活地运用一种科学理论去解释现实问题,培养理论联系实际的能力。同时,在免费师范生生源问题日益得到社会各界重视的前提下,运用一种科学理论去分析这一热门话题,一方面得出的结论具有较高的可信度,反之,另一方面如果结论和人们的直观感觉相一致,也同时对主成分分析方法的科学性和合理性进行了验证。1.2 研究现状1.2.1 主成分分析理论简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的问题时,变量个数太多自然就增加课题的复杂性。在很多情形,变量之间是有一定的相关关系的,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映的信息方面尽可能保持原有的信息。它是模式识别学科中特征选择所运用到的方法之一。1.2.2 理论原理及基本思想 设法将原来众多具有一定相关性变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法,这即是主成分分析理论的原理之所在,它也是数学上处理降维的一种方法。 通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。最经典的做法就是用f1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即var(f1)越大,表示f1包含的信息越多。因此在所有的线性组合中选取的f1应该是方差最大的,故称f1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取f2即选第二个线性组合,为了有效地反映原来信息,f1已有的信息就不需要再出现再f2中,用数学语言表达就是要求cov(f1, f2)=0,则称f2为第二主成分,依此类推可以构造出第三、第四,第m个主成分,这m个主成分包含原来p个指标的所有信息。1.2.3 主成分分析理论在实验研究的应用情况 “多元统计分析”是近几十年来迅速发展起来的一门学科。随着微机的普遍使用及统计软件的推广普及,回归分析、判别分析、聚类分析因子分析、对应分析等等,各种多元统计方法已广泛应用于自然科学各学科乃至社会科学各个领域。主成分分析是一种常用的多元统计分析方法,相对于其他统计学方法,它更强调用数据本身来指导分析过程,而不是依赖于事先给定的某些假设。 主成分分析在地震预测中的应用。根据主成分分析可以得到反应地震强度异常特征的综合指标形,发现该指标在2次地震前出现明显的异常变化,震后异常恢复,综合指标形可以较好地反映地震活动异常增强的特征。 主成分分析在生命科学研究中的应用。生物样品特征谱的复杂多变性,对生物的每一个细小特征都进行处理分析已经是不现实的一种方法,因此很多的统计分析方法自然就被排除了,而主成分分析对于高维度的分子生物学数据则似乎是一种最恰当的分析方法。主成分分析在经济评价中的应用。在研究较复杂的经济问题时,利用多元统计分析中的主成分分析,可从多个经济指标中找出起支配作用的共同因素,从而抓住主要矛盾,以较少的变量进行定量分析,对企业的经济效益进行公正的评价。 此外,主成分分析方法已经被作为一种科学的分析方法广泛地运用于工农业生产、环境保护、商业盈利等等,并且主成分分析方法的应用领域会随着技术的进步越来越广阔。2.主成分分析的前提2.1模式识别所谓模式识别技术,是随着现代科学技术的发展,特别是计算机技术的发展而形成的一种模拟人的各种识别能力和方法的技术。它基本上属于一种自动判别和分类的理论。模式识别当前主要运用在地球环境的调查研究、生物医学工程、生产管理自动化、军事侦查等领域。模式识别技术是在计算机上实现的,而计算机只识别数字和字符,故所有模式都必须首先数值化或符号化,才能进行自动识别,也就是说前提是对模式的特征测量数值化。2.2样品与特征在模式识别中,被观测的每个对象成为一个样品。对每个样品必须确定一些与识别有关的因素,作为研究的根据;每个因素成为一个特征。例如,在研究地震危险区域划分时,每个样品是一块区域,与之对应的特征可以取该区域内的各项地质地貌特征,如主活动断裂数,主活动断裂的端点及交汇点个数,区域内的最大高程等。又如,在医学诊断中,每个样品是一个患者,特征便可取与诊断有关的各项病理指标等,如体温、血压、白血球数目等。2.3特征提取 模式识别建立在对模式特征量化的基础上,也就是说,首先要对表征模式的各种特征加以量测或量化,得到每一模式的特征数值集合或特征向量,然后根据不同类型模式具有不同的特征数值集合,进行自动辨别。 特征的引入通常要经过一个从少到多,又从多到少的过程。所谓从少到多,是指在设计识别方案的初期阶段应尽量多地列举出各种可能与分类有关的特征,这样可以充分利用各种有用的信息,改善分类效果,这一步骤称为特征提取或特征抽提,如利用k-l变换的分类来进行特征提取。 这里产生的问题是特征数值向量的分量个数很多(或维数很多),但是否都能有效地代表各类模式,针对不同的对象,是否都需要那么多特征来进行辨别,这是需要考虑的问题。由于模式识别是由计算机自动处理的来完成的,在模式维数很高的情况下,计算量太大,且识别精度并不一定随着维数增多而提高,因此就很有必要对已有的众多特征进行选择与提取,也就是说需要选择最有代表性的特征,另外,针对不同的研究对象,还需要进行不同的特征组合。2.4特征选择为了使特征数目从多到少,需要进行所谓的特征选择。特征选择通常包括两方面的内容:一方面是对单个特征的选择,即对每个特征分别进行评价,从中找出那些对识别作用最大的特征,如k-w检验、直方图方法、不确定性选择等等;另一方面是从大量原有特征出发,构造少数有效的新特征,有时也称为降维映射,如主成分分析、对应分析。在模式识别技术中最常使用的特征选择方法就是降维映射方法,而降维对分方法中所得到的新特征d,d是原有特征x1,x2,x3的二次函数,因此这种映射称为非线性映射。目前比较普遍使用的降维映射方法仍然是线性映射,即各个新特征yi(i=1,2,v,v0.85 break; end end %记下累积贡献率大85%的特征值的序号放入newi中fprintf(主成分数:%gnn,length(newi);fprintf(主成分载荷:n)for p=1:length(newi) for q=1:length(y) result(q,p)=sqrt(newval(newi(p)*vec(q,newi(p); endend %计算载荷disp(result)3 cwscore.m%cwscore.m,计算得分function score=cwscore(vector1,vector2);sco=vector1*vector2;csum=sum(sco,2);newcsum,i=sort(-1*csum);newi,j=sort(i);fprintf(计算得分:n)score=sco,csum,j %得分矩阵:sco为各主成分得分;csum为综合得分;j为排序结果4 cwprint.mfunction print=cwprint(vector); fprintf(标准化结果如下:n)v1=zscore(vector)result=cwfac(v1);cwscore(v1,result);5 结论 通过对免费师范生生源的主成分分析可以看出,最终从24个特征中进行提取,但最终仍然还有多达12个主成分来概括,说明的原因是免费师范生生源的确很复杂,各种因素对不同的人群都有一定程度的影响。对贡献率较高的主成分分析归纳,得出影响免费师范生生源最主要的因素有特征x8(是否喜欢教师这个职业)、x21(支教对人生价值的实现)、x4和x5(父母的学历),x1(个人性别),x11(免费师范生志愿的决定人),x17(国家政策性影响)以及x16(免费师范生的弊) 与x23(免费师范生的利)的对比等等,这些因素在很大程度上对免费师范生的生源起到了关键性的影响,换句话说绝大数免费师范生报考免费院校的原因都源自上述因素。结束语 主成分分析能降低所研究的数据的空间维数,是把原来多个变量划为少数几个综合指标的一种统计分析方法,关于主成分的实际意义要结合具体问题和有关专业知识才能给出合理的解释。利用主成分分析本身可以对所研究的问题在一定程度上作分析,但主成分分析本身往往不是最终目的,更重要的是利用主成分综合原始变量的信息,达到降维的目的,然后对数据做进一步的分析,如回归分析、聚类分析、判别分析等。附录 【参考文献】1(希)sergios theodoridis,(希)konstantinos koutroumbas. 模式识别. 李晶皎等译. 北京: 电子工业出版社,2006.2(美)mario f triola. 初级统计学. 北京: 清华大学出版社,2008.3(美)richard a johnson,(美)dean w whichern. applied multivariate statistical analysis(应用多元统计).北京: 清华大学出版社,2008.4李静萍
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论