DPS数据处理系统V2(C18-多因子分析).doc_第1页
DPS数据处理系统V2(C18-多因子分析).doc_第2页
DPS数据处理系统V2(C18-多因子分析).doc_第3页
DPS数据处理系统V2(C18-多因子分析).doc_第4页
DPS数据处理系统V2(C18-多因子分析).doc_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第18章 多因子分析多因子分析是一种将多变量(指标)样本在结构上进行简化的有效方法。通过分析找到一个包含最佳变量的子集合,使其所包含的变量能反映总体的结构。这种简化结构的处理对研究多因素之间的规律和构造模型等有重要的作用。DPS系统提供的关于多因素分析的主要功能模块包括主成分分析、因子分析、对应分析及典型相关分析等5种分析方法。18.1 主成分分析18.1.1 基本原理主成分概念由Karl Pearson于1901年提出,由Hottelling于1933年推广到随机变量,主成分分析是多元统计分析中的重要统计方法,是用较少的综合指标来代替原来较多的指标。多元分析中的随机变量,是对同一个体进行测量结果。从多个实测变量提取较少、互不相关综合指标,反映总体信息,这种综合指标就称为主成分。主成分分析可在不丢掉主要信息前提下,避开变量间共线性问题,便于继续用其他多元统计方法进行分析。设两个变量n个样品,在二维空间分布大致为一椭圆。作坐标旋转,使新坐标系为椭圆长、短轴方向,坐标旋转公式为对于标准化后的数据,旋转角度为45。如有11个样本的两个变量数据,实施标准化后显示如图18-1中的小圆圈。 图18-1 两变量主成分分析坐标旋转从图18-1可以看出,各点坐标呈正相关。主成分分析,数据点顺时针旋转45后处于星号点位置。这时数据点大部分在横坐标方向,变异(方差)集中在横轴,为第一主成分;纵轴方向变异(方差)较小,为第二主成分。且相关为零。一般地,设变量xi的样本均数和样本样本差分别为和si,i=1,2,m。变量标准化公式为对标准化后的变量zi寻求主成分。第一主成分C1是z1,z2,zm的线性组合,即C1要尽可能多地反映原m个变量的信息,在的条件下,C1的方差Var(C1)要尽可能大。如把 a11,a12,a1m视为向量,代表m维空间的一个方向,相当于个体z1,z2,zm在此方向的投影最为分散。若第一主成分不足以代表原m个向量,则再考虑第二主成分C2。为有效地代表原变量的信息,C1中已有的信息不再在C2中出现,C2与C1协方差为0。这相当于在与前一个向量垂直的所有方向中,寻找一个方向,使所有个体在其上的投影最分散。类似地,考虑第三主成分,即C1、C2中已有的信息不再在C3中出现。这相当于在与前两个向量垂直的所有方向中,寻找一个方向,使所有个体在其上的投影最分散,即Cov(C1,C3)=0,Cov(C2,C3)=0这样,直至找到最多m个主成分。设相关系数矩阵的特征根,按从大到小排列顺序为12m0。可以证明,各主成分对应的系数ai1,ai2,aim就是相关系数矩阵的特征向量,特征根i就是第i个主成分的方差,所有主成分方差之和等于特征根之和,即。每个特征根所占总方差的比例,称为特征根的贡献。通常取主成分的个数为包含80%以上信息的变量,即特征根的累积贡献率80%。18.1.2 DPS平台的操作示例在编辑状态下输入编辑数据,每一行为一个样本,每一列为一个变量,编辑好数据后将待分析的所有数据定义成数据矩阵块。例如,选取x1为城镇单位在岗职工平均工资(元),x2为各市固定资产投资(万元),x3为各市进口总额(万美元),x4为社会消费品零售总额(万元),x5为各市工业增加值(亿元),x6为财政收入(亿元)。原始数据编辑和定义如图18-2。ABCDEFGHI1代码地区X1X2X3X4X5X621合肥163693504887660472397739198.4600104395532淮北13379566257474445610076.960020263743毫州9707397183130388703418.880010594854宿州10572414932175375198427.670012826165蚌埠1228487666718269101566960.090033270076阜阳97386049355822130790830.540022279987淮南16970778830243863001476.640027220398滁州100066174361354386601358.5900222794109六安10217636760996799691234.55001610251110马鞍山20946138078116406526527150.15004269371211巢湖11469720416714185377843.41001572741312芜湖141651504005294131025363149.17005688991413宣城127959661881158072327845.13001653191514铜陵127625846961358334310765.31001664541615池州12008501780498627831015.0400865751716安庆1120898136713364129518979.80003379471817黄山12719716491444840879615.68009994919图18-2 主成分分析的数据编辑与数据块定义示意图在菜单下选择“多元分析”“多因素分析”“主成分分析”项,执行后系统首先显示第一、第二主成分得分图(图18-3)。图18-3 主成分分析结果图形界面散点图显示出了各个样本的第一、第二主成分得分情况。DPS v13.01以后的版本增加了可以根据协方差阵进行主成份分析(前面版本是根据相关系数进行分析)的功能,取消了样本数必须大于变量数的限制。同时主成份分析输出结果图增加了95%的置信区间椭圆图(Confidence ellispses,蓝色)、凸多边形(Convex hulls,红色)、以及最小支撑树(Minimal spanning tree,粉红色)。该图形是主成分分析结果的常用表达方式。点击上部的按钮可对图形进行编辑加工,加工处理后可放到研究报告、论文之中。点击右上角,退出图形界面,系统输出结果如下:变量平均值标准差相关 X(1)X(2)X(3)X(4)X(5)X(6)X(1)12783.182892.8910.53940.3968-0.00110.72720.5323X(2)926683709397.260.539410.96060.76570.85850.9637X(3)13223.9414951.110.39680.960610.77610.83280.9513X(4)868454.17484542.57-0.00110.76570.776110.53840.7866X(5)67.415950.89490.72720.85850.83280.538410.9196X(6)276569.17228243.580.53230.96370.95130.78660.91961相关系数临界值,a=0.05时,r=0.4821;a=0.01时,r=0.6055 偏相关系数矩阵(略)Bartlett球形检验,卡方值Chi=155.7152,df=15,p=0.0000规格化特征向量因子1因子2因子3因子4因子5因子6x(1)0.26920.75790.38510.32060.18190.2625x(2)0.4550-0.0469-0.11420.5278-0.5763-0.4088x(3)0.4438-0.1602-0.62470.16740.25630.5417x(4)0.3536-0.57240.66670.0081-0.02560.3196x(5)0.43130.2606-0.0550-0.7482-0.41860.0897x(6)0.4610-0.04690.0293-0.17560.6271-0.6003No特征值百分率%累计百分率%Chi-Squaredfp值14.641277.353977.3539155.7152200.000021.100718.344495.698390.1542140.000030.13132.187897.886132.846090.000140.10641.773899.659925.496550.000150.01150.191999.85180.218820.896460.00890.1482100001.0000主成分得分NoY(i,1)Y(i,2)Y(i,3)Y(i,4)Y(i,5)Y(i,6)N(1)7.3317-1.0901-0.08340.4158-0.0138-0.0251N(2)-0.79680.8219-0.0956-0.3874-0.0749-0.1062N(17)-1.53180.4054-0.20730.6270-0.0191-0.132518.1.3 主成分分析结果解释主成分分析结果一般根据图18-3,即分析样本从高维投影到两维空间后,它们之间关系,结合专业背景进行解释。解释结果,需取多少个主成分,没明确指标。一般建议是取当特征值累积贡献率达80%,或特征值大于1,或特征值统计检验显著水平p气象水文统计-经验正交函数里面。分析时的数据格式和主成分相同,分析结果亦相似。18.2 因 子 分 析因子分析方法用于研究相关矩阵的内部依赖关系,它将多个变量综合为少数几个“因子”,但仍可再现原始变量与“因子”之间的相关关系。在统计学中,因子分析属于多元分析的范畴。因子分析主要是由心理学家发展起来的,1904年Chales Speraman 用这种方法对智力测验得分进行统计分析。目前,因子分析在心理学、社会学、经济学、人口学、地质学、生物学、生态学、医学,甚至在化学和物理学领域都有成功的应用。它主要应用于两个方面:一是将为数众多的变量减少为几个新因子,再现系统内变量之间的内在联系;二是用于分类,根据变量或者样本的因子得分值在因子轴所构成的空间中进行分类处理。关于因子分析与主成分分析的联系与区别,有多种看法。作者认为,这两种方法的概念基础是截然不同的,主要区别如下:主成分分析:(1). 用较少的变量表示原来的样本,这些变量即为主成分(原来变量的线性组合)。(2). 目的是样本数据信息损失最小的原则下,对高维变量进行降维;用各个主成分解释个变量的总方差。(3). 参数估计,一般是求相关矩阵的特征值和相应的特征向量(主成分分析法),并取前几个主成分。(4). 应用方面:应用较少变量来解释各个样本的特征(数据降维、综合平价)。因子分析:(1). 用较少的因子表示原来的变量,即把变量用各因子的线性组合表达。(2). 目的是尽可能保持原变量相互关系(结构)原则下,寻找变量的公共因子;用因子来解释各变量之间的协方差(还原的相关矩阵尽量接近原变量的相关矩阵)。(3). 参数估计,指定几个公因子,将其还原成相关系数矩阵,在和原样本相关矩阵最相似的原则下,估计各个公因子的估计值。(4). 应用方面:找到具有本质意义的少量因子来归纳原来变量的特征(因子降维、潜在因子)。如果说主成份分析和因子分析有联系的话,那就是因子分析中公因子模型参数估计方法很多,其中有一种公因子模型参数估计方法是“主成份分析法”。18.2.1 正交因子模型看一个实际例子。设有n个学生,每个学生考5门课:语文、外语、数学、物理、化学,第i个学生第j门课的成绩用表示,于是,n个学生的成绩组成一个矩阵考试成绩反映了学生的素质能力,这些成绩是由学生的理解能力、记忆能力、(对文字、符号、概念的)反映速度所决定的。若将理解能力、记忆能力、反映速度称为因子。则因子分析就是要从考试成绩中寻找出这些因子,以及成绩与这些因子的关系。用表示5门课的考试成绩,用表示3个因子。显然,每门课程都与f(理解能力、记忆能力、反映速度)有关(称为公共因子),并假定它们之间是线性关系,即:其中,是x中不能完全被(理解能力、记忆能力、反映速度)解释的部分,称为特殊因子,这就是因子模型。因子模型可用矩阵表示为简记为。其中,称为公共因子向量,称为特殊因子向量,称为因子载荷,称为因子载荷矩阵。式中,因子载荷是原始变量与公因子的协方差。若x为已标准化的随机变量,则是原始变量与公因子的相关系数,它度量了原始变量在公因子中的相对重要性。由于历史的原因心理学家称其为“载荷”,即变量在公因子中的负荷。因子载荷矩阵中第行元素的平方和, 称为的共性方差(共同度)。因总的方差,这时称是特殊因子对的方差贡献(特殊方差)。不难看出,共性方差它反映了所有公因子对的影响(贡献)大小,或者说,度量了所有公因子从中提取的信息量大小。若已经标准化,则越接近,说明公共因子提取的信息越多,由原始变量空间变换到因子变量空间的性质越好。例如若,则说明有的信息被提取了。特殊因子与有关,与无关,不能由公共因子解释。若已经被标准化,则,这时共性方差考虑的是与某原始变量的关系。类似可考虑公因子与所有原始变量的关系。即因子载荷矩阵中第列元素的平方和称为公因子对的原始变量的方差贡献。因为,对求和因此这里的表示某一公因子对原始变量的各分量所提供的方差之和,它度量了公因子对原始变量的重要性。越大,表明公因子对原始变量的影响和作用越大。若将所有的都计算出来,并按大小排序,则可依此提取最有影响的公共因子。综上所述,因子f的载荷矩阵A的统计意义、因子模型的统计意义如下:、是原始变量与公因子的协方差(相关系数)、行元素平方和是对的依赖程度、列元素平方和是对的贡献其统计性质有:、x的协差矩阵的分解:,即,、因子模型与量纲无关:改变x的量纲后仍为因子模型、因子载荷不惟一:也是因子模型的载荷矩阵(为正交矩阵)18.2.2 因子模型参数估计从因子模型可看出,x、m是可观测的,f是不可观测的随机变量,e是不可观测的特殊因子。又因为,所以,因子分析的关键是求解因子载荷矩阵A和特殊因子方差阵。因子模型参数估计方法很多,在DPS系统中,提供了主成份法、迭代主因子法、极大似然法、最小二乘法、广义最小二乘法和a因子分析法等6种方法。1. 主成分法设样本协方差矩阵S 的特征根依次是,对应的单位特征向量是,。由前面主成分分析可知,S可分解为:对照S的分解式,是由特征值和特征向量构造的矩阵,有。又注意到,与共性方差、特殊方差的关系当共性方差很大,特殊方差很小时,注意:,因此,对角阵,故,是因子载荷阵A的一个很好的估计:即 。至此,因子载荷阵A已估计出来了。如果S已知,则D也可以求出。实际应用中,总希望因子个数小于变量个数,即,因此,通常略去最后个较小的特征根所对应的项。令,则。其中,因子载荷阵的第i列与S的第i个主成分的系数向量(特征向量)仅相差一个倍数。因此,此解称为主成分解,此法称为主成分法。实际应用中,我们一般用相关系数矩阵R来代替样本协方差矩阵S。由估计过程可以看出,主成分解的近似程度由残差矩阵S(AA+D)度量。当残差矩阵非对角线上的元素很小时,可认为取m个因子的模型很好地拟合了原始数据。A的主成分解是一个近似解。其近似程度可由R(AA+D)决定,称其为残差矩阵。R(AA+D)的主对角线上的元素为0,当非对角线上的元素很小时,可认为取m个因子的模型很好地拟合了原始数据。同时,由于有R(AA+D)的元素平方和小于等于,故略去的特征根的平方和较小时,表明因子模型的拟合较好。2. 主因子法主因子法是对主成份法的修正,若变量的相关矩阵为,从样本的相关系数矩阵R出发,设R=AA+D,则称为约相关矩阵。这时中的对角线元素是而不是,非对角线元素和相关系数矩阵R一样,并且也是一个非负定矩阵。设是特殊方差的一个合适的初始估计值,则约则约相关矩阵R*=R-D为特殊方差或公共因子方差(即共同度)初始估计,DPS里面取的是,即,其中rii是相关系数矩阵的逆矩阵的对角线元素,是xi和其它p-1个变量间样本复相关系数的平方。计算R*的特征值和单位正交特征向量,并取前m个正特征值,其相应的特征向量为,则A的主因子解为:它和组成因子模型的一个解,这个解就称为主因子解。3. 极大似然法假定原变量服从正态分布且为标准化变量,公共因子和特殊因子也服从正态分布,则因子负荷A和特殊方差D的极大似然估计为这里的R一般为样本的相关系数矩阵,C为一常数。极大似然法提取因子时,需用迭代方法求解。在求解过程中,常出现特征根为负值、即公因子方差等于或大于1的Heywood现象,因此在计算过程中必须进行调整。4. 其他方法未加权最小平方法 该方法以使得观察相关系数矩阵和还原相关系数矩阵之间的差值的平方之和最小(忽略对角线)作为目标函数来估计因子模型系数。广义最小二乘法 该方法也是以使得观察相关系数矩阵和还原相关系数矩阵之间的差值的平方值之和最小作为目标函数来估计因子模型系数。但在迭代过程中,用特殊因子方差的倒数调整相关系数矩阵,给特殊因子方差大的变量的相关系数更大的权数。a因子分析法 也是一种因子模型初始值估计方法。它将分析中的变量视为来自潜在变量全体的一个样本,其因子解应使得提取的公因子和假设存在的公因子有最大的相关,即使因子的a可靠性最大。18.2.3 方差最大正交旋转因子分析不仅要找出主因子,更要知道每个主因子的意义,但用上述方法所求出的主因子解,初始因子载荷矩阵并不满足“简单结构准则”,各因子的典型变量的代表性也不很突出,因而容易使因子意义含糊不清,不便于对因子进行解释。因此,需对因子载荷矩阵施行旋转,使因子载荷的平方按列向0和1 两极转化,达到使结构简化的目的。方差极大旋转(varimax rotation)方法,就是将因子载荷阵A的任意两列因子,如第h列和第k列正交旋转一个角度,即旋转角度应使得旋转后的因子载荷阵的总方差达到最大。这两列元素平方的相对方差之和达到最大,而其余各列不变。即使达到最大,其中正交变换矩阵为其中未标明的元素均为0。A经变换后,中的元素为 其中旋转角q 仍按下式求得m个因子,每次两个配对旋转,共需旋转次,称其为完成第一轮旋转。记第一轮旋转后的因子载荷阵为,则由算出的方差记为。若第一轮旋转后的因子载荷阵未达到要求,则对进行第二轮旋转。第二轮需进行次配对旋转。设第二轮旋转后的因子载荷阵为,则由算出的方差记为。如此重复旋转,得到V的一个非降序列:因为因子载荷的绝对值不大于1,故此序列有上界,序列有极限,记为。因此,只要循环次数k充分大,就有e为事先给定的精度。在实际中,经多次旋转后,若相对方差改变不大,则停止旋转。最后得到的即为旋转后的因子载荷矩阵。18.2.4 Promax斜旋转在方差极大旋转过程中,因子轴互相正交,始终保持初始解中因子间互不相关的特点。然而在生物学、生态学、社会学、经济学、心理学等领域的研究中,如果相互影响的各种因素不太可能彼此无关,事物变化的各种内在因素之间可能存在错综复杂联系。这时需引入斜交因子解,即用相关因子对变量进行线性描述,使得到的新因子模型最大程度地模拟自然现象。这即为斜交因子模型和斜交因子解。Promax斜旋转计算过程较复杂,且在实际应用中,由于斜交旋转的结果太容易受研究者主观意愿的左右,所以建议尽量采用默认的正交旋转。18.2.5 因子得分若已得到的因子模型设为一组样本,根据这组样本估计出了公共因子个数m、因子载荷矩阵A和特殊方差矩阵D,并通过因子旋转使公共因子有了比较明确的实际意义。然而,有时需反过来将公共因子表示为原来变量的线性组合称为因子得分函数,以对原始数据进行进一步地分析。由于因子得分函数的方程个数m小于变量个数p,因此不能精确计算因子得分,只能对因子得分进行估计。常用的估计方法有加权最小二乘法和回归法。1.加权最小二乘法加权最小二乘法因子得分估计公式为因每个特殊方差不全相等,故加权最小二乘法寻求的一组值,使得加权的“残差”平方和达到最小。如此求得的就是加权最小二乘法得到的因子得分,也称为巴特莱特(Bartlett,1937)得分。加权最小二乘法得到的因子得分是f的无偏估计。2、回归法回归法因子得分估计公式是 即为回归法得到的因子得分,也称为汤姆森(Thompson,1951)得分。回归法因子得分是f的(条件期望意义下的)有偏估计,但回归法的平均估计误差小于加权最小二乘法平均估计误差。实际应用一般采用回归法来估计因子得分。18.2.6 公因子模型数量确定及因子模型参数初始估计因子数目的确定,取决于所选因子是否解释了每个变量,以及残差矩阵RRES的大小,残差矩阵RRES=R-AA-D。根据残差可选择适当的公因子数量。如果采用极大似然估计估计模型参数,则可用Bartlett校正卡方统计量来检验k个公因子是否足够。由于提取公共因子的数量及公因子模型参数方法都有多个可供选择,该用哪种组合好呢?公因子数量,一般是结合因子分析中的用户界面(图18-5)进行,图中左边为特征值衰减图、各特征值及累积百分率,它可供选取因子个数参考,一般原则是:(1) 选择因子个数,使得累积方差占总方差的90(或80%)以上。(2) 按特征值大于等于1来选择因子个数。(3) 根据特征值衰减情况确定因子个数,在图形中,把陡降后曲线走势趋于平坦的因子舍弃不用。(4) parallel分析线(图18-4中红色虚线)和特征值衰减线(绿色线)交叉处。图18-4 因子估计用户界面图18-4右边上部是公因子提取方法选项,DPS提供了种方法。一般建议是选主成份分析和极大似然估计法。18.2.7 DPS平台的操作示例罗积玉等运用因子分析方法研究影响小春粮食总产量的指标共有9个:小春粮食播种面积x1 (万公顷)、小麦播种面积x2 (万公顷)、小麦良种推广比例x3 (%)、化学肥料用量x4 (万吨)、肥猪出栏数x5 (万头)、农业人口x6 (万人)、耕牛数量x7 (万头)、小麦抽穗扬花期间气温x8 ()和小麦抽穗扬花期间降雨量x9 (mm)。共获得28年数据。现采用因子分析方法研究各个变量之间的相关关系。首先,在编辑状态下按系统格式将数据编辑、定义成数据矩阵块,如图18-5。ABCDEFGHIJK1X1X2X3X4X5X6X7X8X92272.5104.626.90.464856944591746.93281.1112.3281.011465839465.115.169.74282.2113.528.12.313085894490.515.273.15285.6124.230.42.512196008492.714.758.36309.3135.632.95.510536096509.716.463.67319.1138.232.56.910806188515.616.1528333180.543.417.23245552503.515.840.59327.9173.942.418.32145487473.215.564.110311.5156.740.324.63835672473.815.259.711288.5139.838.835.6754584950216.169.412283.9137.838.844.712566042523.916.861.91327812836.868.015246227552.415.855.714260.6120.437119.516986413574.816.328.315270.9133.539.4105.317286627587.4156216259.1126.739.158.715846875600.114.285.617258.112639.198.516297115605.216.474.618262.5130.939.9123.316107356617.513.649.419269.3139.641.5168.415397567641.716.333.620290.3166.445.9168.21898777064115.471.621297.7173.646.7208.41974800263317.18322295.7173.749.9205.818958205625.115.862.723291.117250.2231.418078402615.216.138.524306185.651.6244.017548504601.913.842.125310.9187.254.2365.318318566582.315.48126336.120454.6479.221558575594.815.938.427350.5228.558.7542.92736859462615.451.528321.3217.460.95703100861562715.239.229299.1203.7805803200867062713.553.930图18-5 因子分析的数据编辑、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论