版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、STATISTICAL METHODSFor Master Candidates 2009,Sun Xin School of Statistics and Applied Mathematics, Anhui University of Finance and Economics,目 录,第一讲 前言 第二讲 基础知识 第三讲 总体参数的估计 第四讲 总体参数的检验 第五讲 相关与回归分析 第六讲 列联表 第七讲 方差分析 第八讲 主成分与因子分析,第九讲 聚类与判别分析 第十讲 典型相关与对应分析 第十一讲 时间序列分析 第十二讲 非参数检验 第十三讲 生存分析 第十四讲 统计综合评价 第
2、十五讲 前沿分析方法(一) 第十六讲 前沿分析方法(二),第八讲 主成分与因子分析,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,主成分分析,每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。 这些数据的共同特点是变量
3、很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等
4、等。在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,8.1.1 基本思想,8.1 主成分分析,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。 主成分分析试图在力保数据信息丢失最少的原则下,对这种
5、多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。,在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是: (1)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 (2)选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 (3)如何解释主
6、成分所包含的经济意义。,8.1.2数学模型与几何解释,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,为了方便,我们在二维空间中讨
7、论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量F
8、l代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。 Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,
9、平移、旋转坐标轴,根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。 1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。 2有时可通过因子负荷aij的结构,弄清X变量间的某些关系。,8.1.3主成分分析主要应用,
10、3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。 4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。 5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量
11、来选择量,获得选择最佳变量子集合的效果。,8.1.4主成分分析结果的解释,成绩数据(student.txt)。100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,对于我们的数据,SPSS输出为,这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。,特征值的贡献还可以从SPSS的所谓碎石图看出,怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化
12、学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。,如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分为,系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,第1步 选择【Analyze】【Data Reduction-Factor】 主对话框。 第2步 将所有原始变量选入【Variables】 第3步 点击【Descri
13、ptives】【correlation Matrix】【 Coefficirnts 】 【Continue】 第4步 点击【Extraction】,在【Method】框中选择因子的提取方法(本例使用隐含的Principal components);在【Display】下选择【Scree Plot】 【Continue】 第5步 点击【Rotation】,在【Display】下选择【Loading Plot】 【Continue】,用SPSS进行主成分分析,主成分分析在综合评价中的得分计算,综合评价值,其中,各学生成绩综合得分为: y=(62.254/81.142)*(-0.806*zmath-
14、0.674*zphys-0.675*zchem +0.893*zliterat+0.825*zhistory+0.836*zenglish)/sqrt(3.735) +(18.887/81.142)*(0.353*zmath+0.531*zphys+0.513*zchem +0.306*zliterat+0.435*zhistory+0.425*zenglish)/ sqrt(1.133),8.2 因子分析,主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量,就有几个主成分。 而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。 这使得在数学模型上,因子分
15、析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factor rotation);这个步骤可以使结果更好。 软件分析的的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。 因子分析也给出了二维图;其解释和主成分分析的载荷图类似。,因子分析的步骤(数据检验),因子分析要求样本的个数要足够多 一般要求样本的个数至少是变量的5倍以上。同时,样本总数据量理论要求应该在100以上 用于因子分析的变量必须是相关的 如果原始变量都是独立的,意味着每
16、个变量的作用都是不可替代的,则无法降维 检验方法 计算各变量之间的相关矩阵,观察各相关系数。若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析 使用Kaiser-Meyer-Olkin检验(简称KMO检验)和 Bartlett球度检验(Bartletts test of sphericity)来判断(SPSS将两种检验统称为“KMO and Bartletts test of sphericity”),因子分析的步骤(数据检验),Bartlett球度检验 以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素不为0,非对角线元素均为0)。如果相关矩阵是单位阵,则各变量是独立的
17、,无法进行因子分析 KMO检验 用于检验变量间的偏相关性,KMO统计量的取值在01之间 如果统计量取值越接近1,变量间的偏相关性越强,因子分析的效果就越好 KMO统计量在0.7以上时,因子分析效果较好;KMO统计量在0.5以下时,因子分析效果很差,因子分析的步骤(数据检验),Principal components(主成分法):多数情况下可以使用该方法(这也是SPSS的默认选项)。通过主成分分析的思想提取公因子,它假设变量是因子的线性组合 Unweight Least Square(不加权最小平方法):该方法使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小 Generalized Leas
18、t Square(加权最小平方法):用变量值进行加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小 Maximum Likelihood(最大似然法):该方法不要求数据服从正态分布,在样本量较大时使用较好 Principal Axis Factoring(主轴因子法):该方法从原始变量的相关性出发,使得变量间的相关程度尽可能地被公因子解释,因子分析的步骤(数据检验),因子数量的确定 用公因子方差贡献率提取:与主成分分析类似,一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子 用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因子的解释力度太
19、弱,还不如使用原始变量的解释力度大 实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验,因子分析的步骤(数据检验),因子命名是因子分析重要一步 一个因子包含了多个原始变量的信息,它究竟反映了原始变量的哪些共同信息? 因子分析得到的因子的含义是模糊的,需要重新命名,以便对研究的问题作出合理解释 可通过考察观察因子载荷矩阵并结合实际问题完成 命名已经不是统计问题。它需要研究者自身的专业素质和对实际问题背景的了解程度,这需要更多的实践经验,因子分析的步骤(数据检验),观察因子载荷矩阵 如果因子载荷aij的绝对值在第i行的多个列上都有较大的取值(通常大于0.5),表明
20、原始变量与多个因子都有较大的相关关系,意味着原始变量xi需要由多个因子来共同解释 如果因子载荷aij的绝对值在第j列的多个行上都有较大的取值,则表因子fi能共同解释许多变量的信息,而对每个原始变量只能解释其中的少部分信息,表明因子不能有效代表任何一个原始变量,因子的含义模糊不清,难以对因子给出一个合理的解释 需要进行因子旋转,以便得到更加合理的解释,因子分析的步骤(数据检验),因子旋转(factor rotation)的目的是使因子的含义更加清楚,以便于对因子的命名和解释 旋转的方法有正交旋转和斜交旋转两种 正交旋转是指坐标轴始终保持垂直90度旋转,这样新生成的因子仍可保持不相关 斜交旋转坐标
21、轴的夹角可以是任意的,因此新生成的因子不能保证不相关。因此实际应用中更多地使用正交旋转 SPSS提供5种旋转方法,其中最常用的是Varimax(方差最大正交旋转)法,因子分析的步骤(数据检验),Varimax(方差最大正交旋转):最常用的旋转方法。使各因子保持正交状态,但尽量使各因子的方法达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释 Quartimax(四次方最大正交旋转):该方法倾向于减少和每个变量有关的因子数,从而简化对原变量的解释 Equamax(平方最大正交旋转):该方法介于方差最大正交旋转和四次方最大正交旋转之间 Direct Oblimin(斜交旋转):该方法需要事先
22、指定一个因子映像的自相关范围 Promax:该方法在方差最大正交旋转的基础上进行斜交旋转,因子得分(factor score)是每个因子在每个样本上的具体取值,它由下列因子得分函数给出,因子分析的步骤(计算因子得分),因子得分函数,因子得分是各变量的线性组合,主成分分析与因子分析的公式上的区别,主成分分析,因子分析(mp),因子得分,【例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序,因子分析 (实例分析),31个地区6项经济指标的因子分析,第1步 选择【Analyze】【Data Reduction-Factor】主对话框
23、。将所有原始变量选入【Variables】 第2步 点击【Descriptives】【correlation Matrix】【KMO and Bartletts test of sphericity】(其他选项根据需要) 【Continue】 第3步 点击【Extraction】,在【Method】框中选择因子的提取方法(本例使用隐含的Principal components);在【Extract】中输入选择因子的最小特征根(隐含的是特征根大于1);在【Display】下选择【Scree Plot】 【Continue】 第4步 点击【Rotation】,在【Method】框中选择因子旋转方法
24、(隐含的不旋转,本例选择【Varimax】);在【Display】下选择【Loading Plot】 【Continue】 第5步 点击【Scores】,并选中【Display factor Score coefficient matrix】(SPSS隐含的估计因子得分系数的方法是Regression) 【Continue】 【OK】,用SPSS进行因子分析, 数据的相关性检验,因子分析 (实例分析),KMO检验和Bartlett球度检验,Bartlett球度检验统计量为277.025。检验的P值接近0。表明6个变量之间有较强的相关关系。而KMO统计量为0.695,接近0.7。适合作因子分析,
25、 共同度量,因子分析 (实例分析),变量共同度量,所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的, 因子方差贡献率,因子分析 (实例分析),各因子所解释的原始变量的方差,除最后3列外,其余部分与主成分分析中的表相同。 “Rotation Sums of Squared Loadings”部分是因子旋转后对原始变量方差的解释情况。旋转后的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。, Varimax法得到的旋转后的因子载荷矩阵,因子分析 (实例分析),旋转后的因子载荷矩阵,第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财
26、政收入这几个载荷系数较大,主要解释了这几个变量。从实际意义上看,可以把因子1姑且命名为“经济水平”因子。而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑且命名为“消费水平”因子 (是否合理读者自己评判),原始的6个变量与两个因子的关系(模型表达),因子分析(实例分析),因子分析的数学模型,表达式中的xi已经不是原始变量,而是标准化变量, 旋转后的因子载荷图,因子分析 (实例分析),旋转后的因子载荷系数更加接近于1(如果旋转后的因子载荷系数向01分化越明显,说明旋转的效果越好),从而使因子的意义更加清楚了, 按回归法(Regress
27、ion)估计的因子得分系数矩阵,因子分析 (实例分析),因子得分系数矩阵,根据因子得分系数矩阵可将因子表示为变量的线性组合,由因子得分系数矩阵,可以将公因子表示为各变量的线性组合。得到的因子得分函数为,因子分析 (实例分析),上面表达式中的xi标准化变量。根据这一表达式便可以计算每个地区对应的第一个因子和第二个因子的取值,也称为因子得分(factor score)。有了因子得分,就可以对每个地区分别按照前面命名的“经济水平”因子和“消费水平”因子进行评价和排序,因子得分函数, 综合评价 计算每个地区的因子得分 每个地区的因子得分计算方法是:用每个共因子的方差贡献率做权数,对每个因子进行加权,然
28、后加总得到每个地区的总因子得分 按总得分的多少进行排序,以反映各地区经济发展的差异,因子分析 (实例分析),要由SPSS得出各样本的不同因子得分,点击【Scores】【Save as variables】即可。SPSS会计算出每个因子的得分,并保存在工作表的FAC1_1和FAC2_1中,因子综合得分, 各地区的因子得分及排名,因子分析 (实例分析), 地区两个因子得分的散点图,因子分析 (实例分析),因子1得分最高的是广东,最低的西藏,这说明广东是经济发展水平较高的地区,西藏是经济发展水平较低的地区;因子2得分最高的是上海,最低的是贵州,说明上海是消费水平较高的地区,而贵州则是消费水平较低的地
29、区,对于上面成绩的数据,SPSS因子分析输出为,这个表说明六个变量和因子的关系。为简单记,我们用x1, x2, x3, x4, x5, x6来表示math(数学), phys(物理),chem(化学),literat(语文),history(历史),english(英语)等变量。这样因子f1和f2与这些原变量之,间的关系是(注意,和主成分分析不同,这里把因子写在方程的右边,把原变量写在左边;但相应的系数还是主成分和各个变量的线性相关系数,也称为因子载荷):,这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。 从这个例子可以看出,因子分析的结果比主成分分析解释性更强。,这些系数所形成的散点图(在SPSS中也称载荷图)为,计算因子得分,可以根据输出,算出每个学生的第一个因子和第二个因子的大小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目预算编制与执行分析工具
- 科技创新推动智能保障承诺书5篇
- 智能工业物联网智能制造解决方案
- 雪中的童话冬天的美丽景色写景7篇范文
- 依法合规专业团队责任承诺书范文7篇
- 林区资源保护职责承诺书(6篇)
- 生产运营部生产线节能量化目标达成确认函(3篇)
- 技术参数确认与交付标准商洽函6篇范文
- 合作双方商业诚信承诺函(9篇)
- 平台安全运维责任落实承诺书(3篇)
- 2026年3月山东济南轨道交通集团运营有限公司社会招聘备考题库带答案详解ab卷
- 2026年陕西财经职业技术学院单招职业技能测试题库附答案详解(突破训练)
- 律师自我学习与工作总结
- 《亲近大自然》教学课件-2025-2026学年统编版(新教材)小学道德与法治二年级下册
- 3.1公民基本权利 课件(34张幻灯片)+内嵌视频 道德与法治统编版八年级下册
- 零碳园区白皮书系列-苏州工业园区-
- 数字乡村规划方案
- 2025年江苏食品药品职业技术学院单招综合素质考试试题及答案解析
- 2026年六安职业技术学院单招职业适应性考试题库带答案详解(达标题)
- 2026年上海建桥学院单招职业适应性考试题库附参考答案详解(满分必刷)
- 客户生命周期及其价值管理
评论
0/150
提交评论