




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目 录引言 1第一章 主成分分析的基本思想 21.1数学思路 21.2几何解释 3第二章 主成分和权重的推导及它们的性质 42.1两个线性代数的结论 42.2主成分的推导 52.3权重的计算 82.4主成分的性质 8第三章 数学模型 93.1构造综合评价函数 93.2样本主成分 103.3样本主成分的性质 123.4主成分模型中各统计量的意义 123.5主成分个数的选取原则 133.6主成分分析的基本步骤 133.7主成分分析主要有以下几方面的应用 14第四章 实例分析 154.1 问题的提出 154.2 主成分分析的计算步骤及实例 164.3构造综合评价指数的方法 19附表1 20参考文献 21致谢 22附录2:英语文献译 231、英语原文 232、译文 引 言一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。主成分分析就是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。其中关于主成分分析方法的理论先辈们已经做了很多研究,本设计的设立和研究,就是为了寻找一个合理的评价指标体系和比较评价方法,利用主成分分析的方法来获取各个综合指标的权重,构造一个综合评价函数。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。第一章 主成分分析的基本思想主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:(1)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。(2)选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的实际意义。1.1数学思路假设我们所讨论的实际问题中,有个指标,我们把这个指标看作个随机变量,记为,主成分分析就是要把这个指标的问题,转变为讨论个指标的线性组合的问题,而这些新的指标,按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合yi。满足如下的条件:每个主成分的系数平方和为1。即主成分之间相互独立,即无重叠的信息。即 主成分的方差依次递减,重要性依次递减,即1.2几何解释为了方便,我们在二维空间中讨论主成分的几何意义。 设有个样品,每个样品有两个观测变量和,在由变量和所确定的二维平面中,个样本点所散布的情况如椭圆状。由图可以看出这个样本点无论是沿着轴方向或轴方向都具有较大的离散性,其离散的程度可以分别用观测变量的方差和 的方差定量地表示。显然,如果只考虑和中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。如果我们将轴和轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴和。和是两个新变量根据旋转变换的公式:旋转变换的目的是为了使得个样品点在轴方向上的离 散程度最大,即的方差最大。变量代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量也无损大局。经过上述旋转变换原始数据的大部分信息集中到轴上,对数据中包含的信息起到了浓缩作用。,除了可以对包含在,中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上各个点的方差大部分都归结在轴上,而轴上的方差很小。和称为原始变量和的综合变量。简化了系统结构,抓住了主要矛盾。 第二章 主成分和权重的推导及它们的性质2.1两个线性代数的结论 1、若是阶实对称阵,则一定可以找到正交阵,使其中,是的特征根。2、若上述矩阵的特征根所对应的单位特征向量为 令则实对称阵 A 属于不同特征根所对应的特征向量是正交的,即有2.2主成分的推导(一) 第一主成分设的协方差阵为由于为非负定的对称阵,利用线性代数的知识可得,必存在正交阵,使得其中为的特征根,不妨假设。而恰好是由特征根相对应的特征向量所组成的正交阵。下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。设有维正交向量当且仅当时,即时,有最大的方差。因为。如果第一主成分的信息不够,则需要寻找第二主成分。(二) 第二主成分在约束条件下,寻找第二主成分 因为所以则,对维向量 ,有所以如果取线性变换: 则的方差次大。类推 写为矩阵形式: 2.3权重的计算所谓权重,即测评指标在测评体系中的重要性或测评指标在总分中所应占的比重。其数量表示即为权数。在此也称为贡献率。第个主成分的方差在全部方差中所占权重 ,反映了原来个指标多大的信息,有多大的综合能力 。前个主成分共有多大的综合能力,用这个主成分的方差和在全部方差中所占权重 来描述,称为累积贡献率。我们进行主成分分析的目的之一是希望用尽可能少的主成分代替原来的个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。2.4 主成分的性质一、 均值二、方差为所有特征根之和说明主成分分析把个随机变量的总方差分解成为个不相关的随机变量的方差之和。协方差矩阵的对角线上的元素之和等于特征根之和。三、原始变量与主成分之间的相关系数 可见, 和的相关的密切程度取决于对应线性组合系数的大小第四章 数学模型3.1构造综合评价函数变量X利用主成分作线性组合,并以每个主成分的权重作为权数构造一个综合评价函数:其中表示:第个主成分的权重,即3.2样本主成分样本协方差为总体协方差的无偏估计 相关矩阵R为总体相关矩阵的估计若X已标准化,则可用相关矩阵代替协方差矩阵 为相关矩阵的特征值将的特征根依大小顺序排列其对应的特征向量记为说明有最大方差,有次大方差 说明新的综合指标即主成分彼此不相关。3.3样本主成分的性质1、第个主成分的系数向量是第个特征根所对应的标准化特征向量。2、第个主成分的方差为第个特征根,且任意两个主成分都是不相关的,也就是的样本协方差矩阵是对角矩阵。3、样本主成分的总方差等于原变量样本的总方差,为4、第个样本主成分与第个变量样本之间的相关系数为: (因子载荷量)3.4主成分模型中各统计量的意义、 主成分的方差贡献率:这个值越大,表明第主成分综合信息的能力越强。2、主成分的累计贡献率表明取前几个主成分基本包含了全部测量指标所具有信息的百分率。3.5主成分个数的选取原则1.累积贡献率达到85%以上2.根据特征根的变化来确定 3.6主成分分析的基本步骤一、基于协方差矩阵在实际问题中,的协方差通常是未知的,样品有 第一步:由X的协方差阵,求出其特征根,即解方程 ,可得特征根 。第二步:求出分别所对应的特征向量。第三步:计算累积贡献率,给出恰当的主成分个数。第四步:计算所选出的个主成分的得分。将原始数据的中心化值: 代入前个主成分的表达式,分别计算出各单位个主成分的得分,并按得分值的大小排队。二、基于相关系数矩阵如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。3.7主成分分析主要有以下几方面的应用根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。1主成分分析能降低所研究的数据空间的维数。即用研究维的空间代替维的空间,而低维的空间代替 高维的空间所损失的信息很少。即:使只有一个主成分(即 )时,这个仍是使用全部变量(个)得到的。例如要计算的均值也得使用全部的均值。在所选的前个主成分中,如果某个的系数全部近似于零的话,就可以把这个删除,这也是一种删除多余变量的方法。2有时可通过因子负荷的结构,弄清变量间的某些关系。3. 多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量做回归分析。5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。结论第四章 实例分析用主成分分析模型构造中学考试综合评价指数背景 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。通过简单加权的合成方法,难以得到科学的结果。主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。4.1 问题的提出在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。这样,个学科的考试评价的项指标将多达个。在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响做出正确的判断。因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。某些地区采用一种“降维”的方法,较成功地把维指标降为维指标,即在使用“总分平均分”的同时,用“科平均率”取代各科的“率”(计算方法见备注1)。如何把维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。较好地解决了这一课题。4.2 主成分分析的计算步骤及实例求解满足上述要求的方程组系数的运算,在数学上可以变为求方程组中的系数向量,即矩阵的特征值及其相应的单位特征向量的问题。建立模型时,首先将原始数据写成矩阵。注意:原始数据矩阵的个指标需要有一定的联系,而且为正相关(如果为负相关,需要进行相应的转化)。1、将原始数据标准化。2、建立变量的相关系数矩阵: 不妨设3、求R的特征值 及其相应的单位特征向量:4、写出主成分: 5、计算第个主成分(特征值)的方差贡献率及前几个主成分的累计方差贡献率。选取累计贡献率大于某值(如定为90%、95%、99%等)的前几个主成分。6、对选取的主成分进行解释或分析。主成分分析计算过程举例:对兰州市中考的5项指标作主成分分析,原始数据如附表1:由于“低分率”指标与其他指标之间呈显著的“负相关”,直接代入必然产生严重的干扰,故实际写入矩阵时该指标以“100% - 低分率”的形式出现。第一步、将原始数据标准化。第二步、建立变量的相关系数矩阵如下:1.0000.8850.9420.9790.9890.8851.0000.9660.9330.8180.9420.9661.0000.9830.8890.9790.9330.9831.0000.9490.9890.8180.8890.9491.000表1、相关系数矩阵R第三步、求特征值、特征向量和方差贡献率由表1求其特征值得:=(4.73501,0.2298,0.0287,0.0051,0.0013) 即:所以:第一主成分的权重为:第二主成分的权重为:第三主成分的权重为:第四主成分的权重为:第五主成分的权重为:列表如下:主成分特征根方差贡献率(%)累计贡献率(%)14.735094.7094.7020.22984.6099.3030.02870.5799.8740.00510.1099.9750.00130.03100.00表2、特征根和方差贡献率从表2看,第一个主成分的权重为94.70%,第二个的权重为4.60%,说明前2个主成分包括了全部指标具有的99.30%的信息,我们取前2个特征值,并计算出相应的特征向量。第一特征向量第二特征向量0.4530120.3363460.434557-0.6421300.451546-0.3209310.4576400.0089460.4388760.609478表3、单位特征向量第四步、写出主成分:第一主成分:第二主成分:第五步、分析。从第一主成分的各项指标的系数大小基本相当可见:这5个指标对的作用也基本相当。“良好率”指标的系数(0.451546)甚至略大于“优秀率”指标的系数(0.434557)。从第二主成分的各项指标的系数分析可见:“低分率”指标(0.609478)对的作用最大。本例说明把“良好率”和“低分率”纳入指标考核的体系是有必要的(某些地区未采用这2个指标)。4.3 构造综合评价指数的方法方法一:利用主成分作线性组合,并以每个主成分的权重作为权数构造一个综合评价函数: 也称为评估指数,可以依据对每个样品计算出的值大小进行排序或分类划级。在上述例子中,兰州市中考指标主成分分析的综合评价函数可以表述为:方法二:只用第一主成分作综合评价指数。在本例中,第1个特征值累计贡献率已达94.70%,说明第一主成分已经基本包括了主要指标具有的信息。当主成分特征向量的各分量符号不一致时(如本例第二主成分),只用作综合评价指数是适宜的。某市中考指标主成分分析的结果见附表1。该表中分别列出了“第一主成分指数”和“综合评估指数”的数值、标准分值及其排序名次。附表1、某市中考指标主成分分析统计表总分平均分科平优秀率科平良好率科平及格率科平低分率第1主成分指数第1主成分指数Z第1主成分指数名次综合评价指数综合评价指数Z综合评价指数名次444.9440.6268.4384.444.393.8561.77213.6091.7511439.7439.7267.4884.384.123.7421.72023.5041.7002436.934.7668.6685.474.273.5311.63233.3221.6123425.4738.3163.1378.618.443.0991.42442.8921.4034425.1732.9459.5179.824.752.8521.31152.6881.3055422.5629.8561.5380.515.722.7291.2546
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 狼嚎叫课件教学课件
- 安全教育文案培训总结课件
- 电气工程节能方案(3篇)
- 安全教育培训需求报告课件
- 农业产业链金融2025特色农产品电商平台创新研究评估报告
- 粮食贸易面试题库及答案
- 联合利华ai面试题库及答案
- 客户导向面试题库及答案
- 考研机构面试题库及答案
- 农业产业园项目2025年农业生态保护与效益评估报告
- 危险化学品氯乙烯应急处置信息卡
- 《灭火器维修》GA95-2015(全文)
- 纳米材料ppt课件精品课件
- 广东工业大学年《电机学》期末试题及答案解析
- 解读《义务教育体育与健康课程标准(2022年版)》2022年体育与健康新课标专题PPT
- 2019版外研社高中英语必修三单词默写表
- 食堂合作协议范本食堂档口合作协议.doc
- 直接还原铁生产工艺
- 建筑识图题库及答案
- 《幂的运算》习题精选及答案
- 异质结TCO设备:RPD与PVD比较分析(2021年).doc
评论
0/150
提交评论