




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二十章 主成分分析与因子分析第一节 主成分分析 主成分分析(principal components analysis)也称主分量分析,于1901年由Pearson首先引入,1933年由Hotelling作了进一步的发展。主成分分析是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法。本节主要介绍主成分分析的基本理论和方法,并结合实例讨论其在医学研究中的应用。 一、主成分分析的基本思想在医学研究中,为了客观、全面地分析问题,常要记录多个观察指标并考虑众多的影响因素,这样的数据虽然可以提供丰富的信息,但同时也使得数据的分析工作更趋复杂化。例如,在儿童生长发育的评价中,收集到的数据包括每一儿童的身高、体重、胸围、头围、坐高、肺活量等十多个指标。怎样利用这类多指标的数据对每一儿童的生长发育水平作出正确的评价?如果仅用其中任一指标来作评价,其结论显然是片面的,而且不能充分利用已有的数据信息。如果分别利用每一指标进行评价,然后再综合各指标评价的结论,这样做一是可能会出现各指标评价的结论不一致,甚至相互冲突,从而给最后的综合评价带来困难;二是工作量明显增大,不利于进一步的统计分析。事实上,在实际工作中,所涉及到的众多指标之间经常是有相互联系和影响的,从这一点出发,通过对原始指标相互关系的研究,找出少数几个综合指标,这些综合指标是原始指标的线性组合,它既保留了原始指标的主要信息,且又互不相关。这样一种从众多原始指标之间相互关系入手,寻找少数综合指标以概括原始指标信息的多元统计方法称为主成分分析。二、主成分分析的数学模型及几何意义(一)主成分的数学模型设有个指标,欲寻找可以概括这个指标主要信息的综合指标。从数学上讲,就是寻找一组常数(),使这个指标的线性组合: (20-1)能够概括个原始指标的主要信息(其中,各互不相关)。为叙述方便,我们引入如下的矩阵形式:令:, , 则公式(20-1)可表为: (20-2)或: (20-3)如果满足:,且 ,则称是原始指标的第一主成分。一般地,如果满足:(1);(2)则称是原始指标的第主成分。由上述定义可知,当时,主成分与是互不相关的,并且是原始指标的一切线性组合中方差最大者,是与不相关的、除以外的的一切线性组合中方差最大者,是与都不相关的、除以外的的一切线性组合中方差最大者。从理论上讲,求得的主成分个数最多可有个,这时,个主成分就反映了全部原始指标所提供的信息。鉴于主成分分析的目的主要是用较少个数的综合指标来反映全部原始指标中的主要信息,因此在实际工作中,所确定的主成分个数总是小于原始指标的个数。(二)主成分的几何意义为讨论方便,我们以为例来讨论主成分分析的几何意义。设个体具有二个观测指标 和,它们之间具有较强的相关性。测量例这样的个体的值,将所得的对数据在以为横轴、为纵轴的二维坐标平面中描点,得到如下的散点图(图20-1a)。图20-1 主成分分析示意图由图20-1a可以看出,由于与具有较强的相关性,这个点的分布呈现出直线化的趋势;同时,它们沿轴方向和轴方向都具有较大的变异度。我们知道,个体在某个方向上的变异度可用该方向上相应观测变量的方差来定量地表示。显然,如果只考虑、中任何一个方向上的方差,就将损失原始观测数据中很大一部分信息。如果我们将坐标轴、同时按逆时针方向作一个旋转(如图20-1b),得到新的坐标轴、,使得在新的坐标平面上,这个点的分布基本上不再具有相关性,且它们的变异主要集中在方向上,而在方向上则变异较小。这时,若取作为第一主成分,则就反映了原始指标、所包含的主要信息。三、主成分的求法及性质(一)主成分的求法下面我们来考虑主成分的求法。由主成分的定义可知,各主成分互不相关,即任意两个主成分、的协方差 (20-4)且各主成分的方差满足: (20-5)于是由公式(20-2)定义的随机向量的协方差矩阵为:由主成分定义中的条件(1)可知,这里的方阵是正交阵,即(为单位矩阵)。由此可解得 (20-6) 由公式(20-6)知,求原始指标的主成分问题,实际上就是要求满足上述条件的正交阵,即随机向量的协方差矩阵的特征值(eigenvalue)与特征向量(eigenvector)。下面我们来讨论怎样由一组的样本观测值求出主成分。假设收集到的原始数据共有例,每例测得个指标的数值,记录如下表的形式:表20-1 主成分分析的原始数据表样品号观测指标11.对各原始指标数据进行标准化 通常先按下式,j=1,2,3, ,m将原始指标标准化,然后用标准化的数据来计算主成分。为方便计,仍用表示标准化后的指标数据,为标准化后的数据矩阵,则2.求出的相关矩阵(标准化后,的相关矩阵即为协方差矩阵):3.求出相关矩阵的特征值和特征值所对应的特征向量 由公式(20-6)知,求主成分的问题,实际上就是要求出的协方差矩阵(这里即为的相关矩阵)的特征值和特征向量。由于为半正定矩阵,故可由的特征方程 求得个非负特征值,将这些特征值按从大到小的顺序排列为:再由 解得每一特征值对应的单位特征向量,从而求得各主成分: (二)主成分的性质1.各主成分互不相关 即与的相关系数 (20-7)于是,各主成分间的相关系数矩阵为单位矩阵。2.主成分的贡献率和累积贡献率 可以证明,各原始指标的方差和与各主成分的方差和相等: (20-8)将数据标准化后,原始指标的方差和为,各主成分的方差和为,即有。我们知道,各指标所提供的信息量是用其方差来衡量的。由此可知,主成分分析是把个原始指标的总方差分解为个互不相关的综合指标的方差之和,使第一主成分的方差达到最大(即变化最大的方向向量所相应的线性函数),最大方差为。表明了第一主成分的方差在全部方差中所占的比值,称为第一主成分的贡献率,这个值越大,表明这个指标综合原始指标的能力越强。也可以说,由的差异来解释的差异的能力越强。正是因为这一点,才把称为的第一主成分,也就是的主要部分。了解到这一点,就可以明白为什么主成分是按特征值的大小顺序排列的。一般地,称 () (20-9)为第主成分的贡献率;而称 () (20-10)为前个主成分的累积贡献率。3.主成分个数的选取 通常我们并不需要全部的主成分,只用其中的前几个。一般说来,主成分的保留个数按以下原则来确定:(1)以累积贡献率来确定。当前个主成分的累积贡献率达到某一特定的值时(一般以大于70%为宜),则保留前个主成分。(2)以特征值大小来确定。即若主成分的特征值,则保留,否则就去掉该主成分。当然,在实际工作中,究竟取前几个主成分,除了考虑以上两个原则之外,还要结合各主成分的实际含义来定。一般说来,保留的主成分个数要小于原始指标的个数。4.因子载荷 为了解各主成分与各原始指标之间的关系,在主成分的表达式(20-1)中,第i主成分的特征值的平方根与第j原始指标的系数的乘积 (20-11)为因子载荷(factor loading)。由因子载荷所构成的矩阵称为因子载荷阵。事实上,因子载荷就是第i主成分与第j原始指标之间的相关系数,它反映了主成分与原始指标之间联系的密切程度与作用的方向。5.样品的主成分得分 对于具有原始指标测定值的任一样品,可先用标准化变换式(j=1,2,3, ,m)将原始数据标化,然后代入各主成分的表达式 求出该样品的各主成分值。这样求得的主成分值称为该样品的主成分得分。利用样品的主成分得分,可以对样品的特性进行推断和评价。四 实例例20-1 某医院测得20名肝病患者的4项肝功能指标,分别为SGPT(转氨酶),肝大指数(),ZnT(硫酸锌浊度),AFP(甲胎球蛋白)。数据见表20-2,试作主成分分析。表20-2 20例肝病患者的4项肝功能指标的观测值病例号转氨酶SGPT(U/L)肝大指数硫酸锌浊度ZnT(U)甲胎球蛋白AFP(ng/ml)1402.05202101.553031203.0135042504.518051203.59506101.512507401.0194082704.0136092803.51160101703.0960111803.51440121302.03050132201.51720141601.53560152202.51430161402.02020172202.0141018401.010019201.01260201202.0200利用SAS统计分析系统的Princomp过程,可得如下结果:表20-3 简单统计量 X1 X2 X3 X4Mean138.00002.325015.000035.5000StD88.88791.05487.419721.8789表20-4 相关矩阵的特征值EigenvalueDifferenceProportionCumulativeZ11.718250.6247160.4295630.42956Z21.093540.1121890.2733840.70295Z30.981350.7744810.2453370.94828Z40.20687.0.0517161.00000表20-5 相关矩阵的特征向量Z1Z2Z3Z4X10.6999640.095010-0.240049-0.665883X20.689798-0.2836470.0584630.663555X30.0879390.904159-0.2703140.318895X40.1627770.3049830.930532-0.120830对计算结果的解释:1.主成分个数的选取 由表20-4,从特征值的大小来看,前两个特征值、均大于1,第三个特征值很接近于1,而则远小于1;从贡献率来看,的贡献率最大,约为0.43,与的贡献率相差不大,为0.25左右,而的贡献率则很小,仅为0.05左右;从累积贡献率来看,取前两个特征值时,累积贡献率仅约高于0.70,而的贡献率与的贡献率相当,因此,若舍去不合理,故本题取前三个主成分为宜,此时累积贡献率接近95%。2.列出主成分的表达式 由表20-5,根据各主成分所对应的特征向量,可得前三个主成分为:由此可知,第一主成分主要反映了来自原始指标(转氨酶)和(肝大指数)的信息;第二主成分主要反映了来自原始指标(硫酸锌浊度)的信息;而第三主成分则主要反映了来自原始指标(甲胎球蛋白)的信息。据此可认为三个主成分分别综合了原始指标中的三类不同性质的信息,即急性炎症、慢性炎症和癌变三类信息,故可称为急性炎症成分,为慢性炎症成分,为癌变成分。 由以上讨论可知,经主成分分析,在基本保留原数据信息量的前提下,将四个具有一定相关性的原始指标降为三个相互独立主成分,这就为利用主成分作进一步的统计分析奠定了基础。3.求出因子载荷阵 为进一步了解各主成分与原始指标之间的相互关系,由公式(20-11)可求出反映主成分与原始指标之间相关关系的因子载荷矩阵:表20-6 因子载荷矩阵X1X2X3X4Z10.917530.904200.115270.21337Z20.09935-0.296620.945500.31893Z3-0.237800.05792-0.267780.92181Z4-0.302860.301800.14504-0.05496从因子载荷阵可知,第一主成分与原变量和之间的关系较为密切,第二主成分与原变量之间的关系较为密切,而第三主成分与原变量之间的关系较为密切。4.主成分得分式 本例各主成分的特征明显,可利用主成分得分为肝病的诊断提供参考。如现有一肝病患者,测得4项肝功能指标分别为:SGPT(转氨酶)= 260 肝大指数= 5.0ZnT(硫酸锌浊度)= 14 AFT(甲胎球蛋白)= 10由于从结果3得出的主成分为标准化指标的表达式,为了应用的方便,可将指标还原为未经标准化的指标。由计算结果1知,于是,用未标准化指标表达的主成分为:将测得的四项肝功能指标代入主成分表达式,得的值最大,故该肝病患者可能为急性炎症。五、主成分分析的应用根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括地说,主成分分析主要有以下几方面的应用。1.对原始指标进行综合 从方法学上讲,主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原始指标所提供的信息,这就为进一步的统计分析奠定了基础。例如,若需将多个存在多元共线性的自变量引入回归方程,由于共线性的存在,直接建立的多元线性回归方程具有不稳定性,严重时可导致正规方程组的系数矩阵为奇异矩阵,从而无法求得偏回归系数。若采用逐步回归,则不得不删除一些自变量,这亦与初衷相悖。如果将主成分分析与多元线性回归结合使用,则可解决这类问题。具体作法是:先对多个自变量作主成分分析,综合出少数几个主成分,然后以这几个主成分为自变量与因变量建立回归方程。这里,既减少了回归分析中自变量的个数,而且作为自变量的各主成分互不相关,保证了回归方程的稳定性,同时,由于主成分是各原始变量的线性组合,因此,通过主成分建立的回归方程实际上亦可视为因变量与各原始自变量之间的线性回归方程。这样就可把存在多元共线性的多个自变量引入回归方程。这种将主成分分析与多元线性回归分析结合使用的方法称为主成分回归(1965,W.F.Massy)。2.探索多个原始指标对个体特征的影响作用 主成分分析可以视为一种探索性方法,对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,弄清原始指标对各主成分的影响作用。这在医学研究中具有较为广泛的用途,如对于观察了多个原始指标(如身高、体重、胸围、头围、坐高、肺活量等)的特定人群,通过主成分分析,求出了生长发育、身体素质、健康状况等方面的综合指标,然后再根据因子载荷阵,就可以对影响各综合指标的原始指标进行探索,找出影响各综合指标的主要影响因素(原始指标)。3.对样品进行分类 利用主成分分析还可对样品进行分类。求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。如例20-1,求得的三个主成分具有较为明显的专业意义:为急性炎症成分、为慢性炎症成分、为癌变成分,于是可求出各病例的三个主成分得分,并以此为根据来对病例进行分类。如本例由SAS求得的各病例主成分得分及分类情况见表20-7。表20-7 20例肝病患者按主成分得分的分组OBS转氨酶X1肝大指数X2硫酸锌浊度X3甲胎球蛋白X4第一主成分得分Z1第二主成分得分Z2第三主成分得分Z3分组G42504.51801.58361-0.56848-1.81809182704.013601.74964-0.202300.85929192803.511601.54217-0.296560.877611111803.514400.85504-0.315780.181221152202.514300.53966-0.15103-0.413111172202.014100.17669-0.28905-1.2997517401.01940-1.188090.766680.239122121302.030500.007722.016640.074512132201.517200.011110.32242-1.008722141601.535600.040452.891840.210212161402.02020-0.192900.46166-0.87299218401.0100-1.49649-0.81530-1.147232201202.0200-0.426560.17461-1.6771321402.0520-0.92927-1.38851-0.0487332101.5530-1.30219-1.157290.43441331203.013500.29285-0.231760.78293351203.59500.50614-0.826460.9580136101.51250-1.12539-0.074981.035653101703.09600.61381-0.513471.22306319201.01260-1.258010.197131.409743需要注意的是,病例按主成分得分进行分组时,各组之间并不一定互斥(这一点与判别分析不同,对样品作判别分析时,显然各类之间是互斥的),这应根据专业意义而定。如本例,分在急性组的8号及9号病例的得分偏高,可以认为这两例急性炎症患者同时有癌变可能。第二节 因子分析 因子分析(factor analysis)的概念起源于本世纪初Karl Pearson 和Charles Spearman等人关于智力测验的统计分析。近年来,随着现代高速计算机的出现,因子分析已经广泛地应用于医学、心理学、气象、地质、经济学等领域,使得因子分析的方法更加丰富。因子分析的用处已为许多实际工作所证实,本节介绍因子分析的一些基本概念和具体方法,并结合实例讨论其在医学研究中的应用。 一、因子分析的基本思想我们知道,在医学研究中有一些现象是难以直接观测的,通常称为不可测现象,它们只能通过其他多个可观测的指标来间接地反映。例如,脑部疾病患者的意识清醒状态是一个不可测现象,但可以通过患者的语言能力、辨识能力、记忆能力、理解能力、思维的逻辑能力等一系列可观测的指标来反映。这里,由于各个可观测指标都程度不同地反映了意识清醒状态这一不可测现象,因此这些可观测指标之间呈现出一定的相关性。很自然地,人们可以认为这些可观测指标之间的相关性主要是由它们所共同反映的不可测现象支配的。一般地,对于多指标数据中呈现出的相关性,是否存在对这种相关性起支配作用的潜在因素?如果存在,如何找出这些潜在因素?这些潜在因素是怎样对原始指标起支配作用的?这些问题,都可以通过因子分析来解决。事实上,因子分析就是一种从分析多个原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量,并用这些潜在变量来解释原始指标之间的相关性或协方差关系的多元统计分析方法。二、因子分析的数学模型我们先来看一个例子。观察5个生理指标:收缩压、:舒张压、:心跳间隔、:呼吸间隔、:舌下温度。从生理知识知道,这5个指标是受植物神经的交感神经和副交感神经支配的,而交感神经和副交感神经状态又不能直接测定。若用、分别表示交感神经和副交感神经这2个因子,则可以设想,可测指标是不可测因子的线性函数,即对各的影响是线性的,再加上其它对这些有影响的因子,则各与、的关系可表示为:由于、与每一个都有关,故称、为各的公因子或共性因子(common factor),而各只与相应的一个有关,故称为的特殊因子或个性因子(specific factor)。在这里,我们感兴趣的是如何从一组观测数据出发,找出起支配作用的较少个数的公因子。一般地,假设对例样品观测了个指标,得观测数据形如表20-1。我们的任务就是从一组观测数据出发,通过分析各指标之间的相关性,找出起支配作用的潜在因素公因子,使得这些公因子可以解释各指标之间的相关性。就统计学而言,就是要建立如下的模型(为方便计,我们假设各为标准化数据): (20-12)在上式中,令则公式(20-12)可写成如下的矩阵形式: 且(1)各的均数为0,方差为1();各公因子的均数为0,方差为1();各特殊因子的均数为0,方差为,即。(2)各公因子之间的相关系数为0,即;各特殊因子之间的相关系数为0,即;各公因子与各特殊因子之间的相关系数为0,即。即原始指标向量的协方差矩阵、公因子向量的协方差矩阵(此时均为相关矩阵)为单位阵;特殊因子向量的协方差矩阵为对角阵: (20-13)由此可知,求公因子的问题,就是求满足上述条件的阶矩。三、因子模型的性质由条件(1)、(2)知的协方差阵 (20-14)下面我们来看矩阵的统计意义。1.公共度 由公式(20-12)、(20-13)及公式(20-14)得到 (20-15)记,则有。的大小反映了全体公因子对原始指标的影响,称为“公共度”或“共性方差”(communality)。当时,即只由公因子的线性组合来表示,而与特殊因子无关;当接近于0时,表明原始指标受公因子的影响不大,而主要是由特殊因子来描述的。因此“公共度” 反映了原始指标对所有公因子的依赖程度。2.因子贡献及因子贡献率 另一方面,考虑指定的一个公因子对各原始指标的影响。矩阵中第j列元素反映了第j个公因子对所有原始指标的影响,称为公因子对所有原始指标的“贡献”。显然,的值越大,则对原始指标的影响也越大。注意到数据标准化后,全部原始指标的总方差为指标个数,故称为公因子对原始指标的方差贡献率。3.因子载荷及因子载荷阵 由公式(20-15)可得原始指标与公因子之间的协方差为由于我们假定各原始指标与各公因子的方差均为1,故有即就是与之间的相关系数。显然,作为与之间的相关系数,它反映了与之间相互联系的密切程度;另一方面,作为公式(20-12)中公因子的系数,它又体现了原始指标的信息在公因子上的反映,因此称为原始指标在公因子上的因子载荷,而称矩阵为因子载荷矩阵。四、因子载荷阵的求解及计算步骤(一)因子载荷阵的求解若已知原始指标的相关矩阵和,则由式(20-14)知记,称为约相关矩阵(reduced correlation matrix)。注意,中对角线元素是而不是1,其余非对角元素则与完全一样。现在依次求出矩阵的各列,使各因子贡献按如下顺序排列:由于,故有 (20-16)欲求矩阵的第一列元素,使达到最大。这是一个条件极值问题,按条件极值的求解法可得 (20-17)这表明是约相关矩阵的(最大)特征值,是所对应的特征向量。若取约相关矩阵的最大特征值以及所对应的单位特征向量(为阶列向量),则不能满足的条件(因为),但由特征值与特征向量的关系知,对于任意常数c,还是的特征向量,故只需取,则有,故满足要求。类似地,可求得,。一般地,有,(注意,由于是非负定矩阵,且的秩为,故只有前个特征值大于零,即),从而得就是我们要求的解。上面求解过程的前提是原始指标的相关阵及特殊因子的协方差阵和均为已知,但对于一个实际问题,通常只有为已知,而则是未知的。因此,在实际问题中欲建立因子分析模型,必须对约相关矩阵进行估计。我们知道,约相关矩阵与相关矩阵除主对角元素外是完全相同的,因此,只需对的主对角元素进行估计, 估计的方法不同,所进行的因子分析方法就不同。下面介绍两种常用的约相关矩阵的估计方法。 1.主成分解 取,这时,进行分析的结果即为主成分分析的结果,按相应规则保留一定数目的主成分,所得主成分就是公因子。这样所得的解称为因子分析的主成分解。2.主因子解 先估计,一般可用(1)取为第个指标与其它所有指标的多元复相关系数的平方;(2)取为第行上各相关系数绝对值的最大值(主对角元除外);(3)确定第行上最大的两个值(主对角元除外),如第行上最大的两个相关系数为,取;(4)取,它等价于主成分解;(5)由分析者自行确定。由此估计出约相关矩阵,进行因子分析的计算,所得结果即为主因子解。注意,公因子的主成分解和主因子解实际上均为近似解,为了得到近似程度更好的解,常常采用迭代法,即将上述的各种取值视为共性方差的初始估计值,求得的因子载荷矩阵则为初始解,再由解得的,按计算出共性方差,重复上述步骤,直至解稳定为止。此外,还可以用极大似然法来估计因子载荷阵。假定公因子和特殊因子服从正态分布,则可以利用迭代方法求得因子载荷矩阵和特殊因子协方差阵的极大似然估计和,所得的解称为公因子的极大似然解。该法需要较多的计算,有时还可能不收敛,但所获得的结果具有较好的统计性质。(二)主要计算步骤1. 搜集原始数据并整理为表20-1的形式;2. 对各指标作标准化;3. 求指标间的相关系数矩阵;4. 求指标间的约相关矩阵(1)的非对角元素与相关矩阵的非对角元素相等,即(2)的对角线元素为共性方差,即。由此得5.求出约相关矩阵所有大于零的特征值及相应的特征向量 由的特征方程 求得个特征值,取前个大于零者,并按从大到小的顺序排列为:再由矩阵方程求得各所对应的特征向量,并将单位化,仍记为; 6.写出因子载荷阵,并得出原始指标的公因子表达式 注意,这里得到的原始指标的公因子表达式实际上仍是近似的。根据因子模型的性质及因子载荷阵的求解过程可知,在进行因子分析时我们总是希望:(1)保留的公因子个数远小于原始指标个数,一般按以下原则来确定:若,则保留其对应的公因子;若前k个公因子的累积贡献率达到一特定的数量(一般认为达到70%以上为宜),则保留前k个公因子,使个原始指标的总方差基本上能被所保留的公因子解释。(2)各共性方差接近于1,即各原始指标的方差绝大部分能由所保留的公因子解释。(3)各原始指标在同一公因子上的因子载荷的绝对值(. 即竖读因子载荷阵)之间的差别应尽可能大,使得公因子的意义主要由一个或几个值大的原始指标所表达。五、实例例20-2 某医院为了合理地评价该院各月的医疗工作质量,搜集了三年有关门诊人次、出院人数、病床利用率、病床周转次数、平均住院天数、治愈好转率、病死率、诊断符合率、抢救成功率等9个指标数据,如表20-8。现采用因子分析方法,探讨其综合评价指标体系。表20-8 某医院三年的医疗工作质量有关指标实测值年月X0门诊人次X1出院人数X2病 床利用率X3病床周转次数X4平均住院天数X5治 愈好转率X6(%)病死率X7(%)诊 断符合率X8(%)抢 救成功率X9(%)91.014.3438999.061.2325.4693.153.5697.5161.6691.023.4527188.280.8523.5594.312.4497.9473.3391.034.38385103.971.2126.5492.534.0298.4876.7991.044.1837799.481.1926.8993.862.9299.4163.1691.054.32378102.011.1927.6393.181.9999.7180.0091.064.1334997.551.1027.3490.634.3899.0363.1691.074.5736191.661.1424.8990.602.7399.6973.5391.084.3120962.180.5231.7491.673.6599.4861.1191.094.0642583.270.9326.5693.813.0999.4870.7391.104.4345892.390.9524.2691.124.2199.7679.0791.114.1349695.431.0328.7593.433.5099.1080.4991.124.1051492.991.0726.3193.244.22100.0078.9592.014.1149080.900.9726.9093.684.9799.7780.5392.023.5334479.660.6831.8794.773.59100.0081.9792.034.1650890.981.0129.4395.752.7798.7262.8692.044.1754592.981.0826.9294.893.1499.4182.3592.054.1650795.101.0125.8294.412.8099.3560.6192.064.8654093.171.0727.5993.472.7799.8070.2192.075.0655284.381.1027.5695.153.1098.6369.2392.084.0345372.690.9026.0391.944.5099.0560.4292.094.1552986.531.0522.4091.523.8498.5868.4292.103.9451591.011.0225.4494.882.5699.3673.9192.114.1255289.141.1025.7092.653.8795.5266.6792.124.4259790.181.1826.9493.033.7699.2873.8193.013.0543778.810.8723.0594.464.0396.2287.1093.023.9447787.340.9526.7891.784.5794.2887.3493.034.1463888.571.2726.5395.161.6794.5091.6793.043.8758389.821.1622.6693.433.5594.4989.0793.054.0855290.191.1022.5390.363.4797.8887.1493.064.1455190.811.0923.0691.652.4797.7287.1393.074.0457481.361.1426.6593.741.6198.2093.0293.083.9351576.871.0223.8893.823.0995.4688.3793.093.9055580.581.1023.0894.382.0696.8291.7993.103.6255487.211.1022.5092.433.2297.1687.7793.113.7558690.311.1223.7392.472.0797.7493.8993.123.7762786.471.2423.2291.173.4098.9889.80利用SAS系统的Factor过程,可得如下结果:1. 主成分解(取约相关矩阵主对角元素)表20-9 约相关矩阵的特征值123456789Eigenvalue2.80741.99111.44830.78510.68070.54130.45300.17450.1186Difference0.81630.54280.66320.10440.13940.08820.27850.0560.Proportion0.31190.22120.16090.08720.07560.06010.05030.01940.0132Cumulative0.31190.53320.69410.78130.85700.91710.96740.98681.0000表20-10 因子载荷阵FACTOR1FACTOR2FACTOR3FACTOR4X1-0.254580.770000.007760.47017X20.765870.127680.090550.50844X30.244340.77639-0.08574-0.44304X40.689270.66058-0.07059-0.01973X5-0.724230.124570.440130.18939X60.03929-0.070760.88821-0.00886X7-0.40462-0.16381-0.663260.24270X8-0.622760.401900.04132-0.11635X90.73732-0.365900.058940.02089表20-11 由每个公因子所解释的方差FACTOR1FACTOR2FACTOR3FACTOR42.8074241.9911301.4483220.785073表20-12 主成分因子分析后的公共度X1X2X3X4X5X6X7X8X90.87880.86960.86610.91680.76960.79560.68940.56460.6814由表20-9,前三个特征值大于1,但其累积贡献率仅为0.6941,不足70%,故考虑取前4个公因子,这时累积贡献率为0.7813。竖读表20-10所提供的因子载荷阵,发现因子1在多数原始指标上都有较大的载荷;因子2在门诊人次、病床利用率、病床周转次数、诊断符合率、抢救成功率等指标上有较大的载荷;因子3在治愈好转率、病死率、平均住院天数等指标上有较大的载荷;因子4在出院人数、门诊人次、病床利用率等指标上有较大的载荷。由此可知,除因子1可初步认定为综合因子外,其余三个因子的意义不明显。由表20-12可知,各共性方差均超过50%,其中绝大多数都接近或超过70%,这说明4个公因子已经能够较好地反映各指标所包含的大部分信息。2.主因子解(取初始为主成分解所得的各共性方差)表20-13 约相关矩阵的特征值123456789Eigenvalue2.58621.83171.21120.64370.39840.22570.17760.0124-0.0549Difference0.75450.62050.56750.24530.17270.04810.16530.0673Proportion0.36780.26050.17220.09150.05670.03210.02530.0018-0.0078Cumulative0.36780.62830.80050.89200.94870.98081.00611.00781.0000表20-14 因子载荷阵FACTOR1FACTOR2FACTOR3FACTOR4X1-0.206030.778690.028060.44456X20.769750.052910.114200.44864X30.291430.73145-0.06817-0.45377X40.738010.59634-0.04936-0.04615X5-0.685850.176010.406040.10782X60.03084-0.081000.84054-0.08262X7-0.37769-0.09703-0.562190.12771X8-0.524130.370690.02901-0.03089X90.65797-0.384080.044990.03205表20-15 由每个公因子所解释的方差FACTOR1FACTOR2FACTOR3FACTOR42.5861641.8317031.2112020.643692表20-16 因子分析后的公共度X1X2X3X4X5X6X7X8X90.84720.80960.83050.90480.67790.72080.48440.41390.5835由表20-13知,本例主因子解的前三个特征值均大于1,且它们提供的累积贡献率已达到80%,本可只取前三个公因子即可,但注意到本例用主因子法求解时,约相关矩阵对角线元素的取值为主成分解所得的共性方差,而本例主成分解中又取了4个公因子,因此,本例主因子解中仍应取4个公因子为宜。再由表20-14的因子载荷阵可以发现,本例主因子解与主成分解没有大的区别,除因子1可初步认定为综合因子外,其余三个因子的专业意义尚不明显。从共性方差的角度看,由表20-16知,大多数指标的共性方差都较为理想(接近或超过60%),但病死率、诊断符合率这两个指标所对应的共性方差偏低(不足50%)。六、因子旋转建立因子分析模型的目的不仅是找出公因子,更重要的是弄清各公因子的专业意义,以便对实际问题进行分析。然而在很多情况下,因子分析的主成分解、主因子解及极大似然解中的各公因子的典型代表变量并不是很突出,容易使各公因子的专业意义难于解释,从而达不到因子分析的主要目的。对于这个问题,可以通过因子旋转来解决。从数学上可以证明,对任一正交阵而言,若是公因子,则仍是公因子;若矩阵是一个因子载荷阵,则仍是因子载荷阵。从这个意义上讲,因子分析的解是不唯一的。利用这一点,在实际工作中,如果求得的因子载荷阵不甚理想,则可右乘一个正交阵,使能有更好的实际意义。这样一种变换因子载荷矩阵的方法,称为因子轴的正交旋转,或称因子正交旋转。正交旋转具有下列性质:(1)保持各指标的共性方差不变;(2)旋转后所得的公因子保持互不相关。可以按不同的原则来求得正交变换矩阵,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业银行2025资阳市笔试英文行测高频题含答案
- 交通银行2025本溪市秋招笔试专业知识题专练及答案
- 建设银行2025九江市秋招无领导模拟题角色攻略
- 工商银行2025周口市秋招英文面试题库及高分回答
- 交通银行2025渭南市秋招笔试价值观测评题专练及答案
- 邮储银行2025乌兰察布市秋招无领导小组面试案例题库
- 建设银行2025黄南藏族自治州信息科技岗笔试题及答案
- 农业银行2025合肥市秋招笔试热点题型专练及答案
- 班组建安全和培训课件
- 中国银行2025松原市秋招笔试创新题型专练及答案
- 新人教版高一语文必修1第一单元测试试卷及答案
- 《电化学储能电站消防验收规范》
- 2024秋新人教版物理8年级上册教学课件 1.1 长度和时间的测量
- 化学专业职业生涯规划书
- 合规岗位招聘笔试题及解答2025年
- 癌症的预防与治疗
- 《特种设备重大事故隐患判定标准》培训
- 2024-2025学年广东省广州四中教育集团九年级(上)月考语文试卷
- 大学英语四级考试阅读理解真题及答案详解(全套)
- 国家电网公司招聘高校毕业生应聘登记表
- 工程预决算书
评论
0/150
提交评论