




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高铁梅 第13章 主成分分析和因子分析,13.1 主成分分析 13.2 因子分析,13.1 主成分分析,主成分分析通过投影的方法,实现数据的降维,在损失较少数据信息的基础上把多个指标转化为几个有代表性意义的综合指标。 假如对某一问题的研究涉及 p 个指标,记为X1,X2, , Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, , Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 , , Yp)为对 X 进行线性变换得到的合成随机向量,即: (13.1.1) 设i=(i1,i2, ,ip),( ), A=(1, 2,p),则有: (13.1.2),由式(13.1.1
2、)和式(13.1.2)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然是不一样的。每个Yi应尽可能多地反映 p 个原始变量的信息,通常用方差来度量“信息”,Yi的方差越大表示它所包含的信息越多。由式(13.1.3)可以看出将系数向量i扩大任意倍数会使Yi的方差无限增大,为了消除这种不确定性,增加约束条件: 为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重叠。综上所述,式(13.1.1)的线性变换需要满足下面的约束: (1) ,即 , i=1, 2, , p。 (2) Yp是在满足约束(1) ,且与Y1,Y2,Yp-1不相关的条件下,在各种线性组合
3、中方差达到最大者。,13.1.2 总体主成分求解及其性质,1.从协方差矩阵出发求解主成分 设1是任意 p1向量,求解主成份就是在约束条件 下,求X的线性函数 使其方差 达到最大,即达到最大,且 ,其中 是随机变量向量X =(X1, X2, , Xp)的协方差矩阵。设12 p0为的特征值,e1,e2,ep为 矩阵各特征值对应的标准正交特征向量,则对于任意的ei和ej,有: 且: 因此:,当1=e1时有: 此时 达到最大值为1。同理有 由上述推导得: 可见Y1, Y2, , Yp 即为原始变量的 p 个主成份。因此,主成分的求解转变为求 X1, X2, , Xp 协方差矩阵 的特征值和特征向量的问
4、题。,2.主成分的性质,性质1 Y的协方差矩阵为对角阵,即: 性质2 主成分分析是把p个随机变量的总方差分解为p个不相关随机变量的方差之和12 P,则总方差中属于第 i 个主成分(被第 i 个主成分所解释)的比例为: 称为第 i 个主成 分的贡献度。定义: 称为前 m 个主成分的累积贡献度,衡量了前 m 个主成份对原始变量的解释程度。,性质3 记第k个主成分Yk与原始变量Xi的相关系数为r(Yk,Xi),称为因子载荷,或者因子负荷量,则有:,3.从相关矩阵出发求解主成分,在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化: 原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相
5、关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一致的。如果仍然采用(i,ei)表示相关矩阵R对应的特征值和标准正交特征向量,根据式(13.1.9)有:,13.1.3 样本的主成分,1.样本统计量 样本协方差矩阵 S 是总体协方差矩阵 的无偏估计量,样本相关矩阵 是总体相关矩阵 R 的估计量。 2.样本主成分及其性质 第i个样本主成分的贡献度为 ,前m个样本主成份的累计贡献度为: 3.主成份个数的确定 主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分没有确切的回答。通常需要综合考虑样本总方差的量、特征值的相对大小以及各成分对现实的阐述。一般所取 m 使得累积贡献率达到85%以
6、上为宜。另一种比较常用的方法是碎石图。,13.2 因子分析,因子分析(factor analysis,简称FA)是主成分分析的推广,相对于主成分分析,因子分析更侧重于解释被观测变量之间的相关关系或协方差之间的结构。 研究多指标问题时常常会发现,这些指标相关性形成的背景原因是各种各样的,其中共同的原因称为公共因子;每一个变量也含有其特定的原因,成为特定(特殊)因子。因子分析的实质就是用几个潜在的但不能观察的互不相关的随机变量去描述许多变量之间的相关关系(或者协方差关系),这些随机变量被称为因子。为了使得这些因子能很好的替代原始数据,需要对这些因子给出合理的解释。同时为了使用这些因子,还需要对提取
7、结果进行评价。,将因子分析的目标概括为以下几方面: (1)首先考虑是否存在较少的不相关的随机变量可用于描述原始变量之间的关系; (2)如果存在公共因子,那么究竟应该选择几个; (3)对提取的公共因子的含义进行解释; (4)评价每一个原始变量与公共因子之间的关系; (5)可以将这些公共因子用于其他的统计分析。,13.2.1 基本的因子分子模型,假如对某一问题的研究涉及 p 个指标,且这 p 个指标之间存在较强的相关性,则基本的因子模型可以表示为: 假设: 且 F与 独立,即:,13.2.2 正交因子模型的性质,1.正交因子模型的协方差结构 假定随机变量Z的协方差矩阵为,则有:,2因子载荷 lij
8、 的意义 由式(13.2.7)可得 由于假定 Zi 和 Fj 都是方差为1的随机变量,因此 lij 即为变量 Zi 与因子Fj 的相关系数。,3共同度与公因子的方差贡献 由式(13.2.6)可得 令: 则有: 其中 反映了公共因子对 Zi 方差的贡献,称为共性方差,或者变量共同度。i 称为特殊方差,或者剩余方差。 反映了变量 Zi 对公共因子的依赖程度。,13.2.3 因子载荷的估计方法,因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷矩阵L,注意在式(13.2.1)和式(13.2.2)中的F1, F2, , Fm是不可观测的随机变量,因此因子载荷矩阵L的估计方法都比较复杂,常用的方法有
9、极大似然法、主成分法、迭代主成分方法、最小二乘法、 因子提取法等。,1.极大似然法,如果假设公共因子 F 和特殊因子服从正态分布,即F Nm(0, I), Np(0, ),X1, X2, , Xp 的均值为 = (1, 2 , , p) ,则观测值 X1, X2, , Xp 为来自正态总体 Np(, ) 的样本,可以采用极大似然法估计因子载荷矩阵和特殊方差,似然函数是 和 的函数 L( , )。 由于 ,因此似然函数可以更清楚地表示为L( , L, ),记( , L, )的估计量为 ,则有:,2.主成分法,用主成分法确定因子载荷,就是对随机变量进行主成分分 析,把前面几个主成分作为原始公共因子
10、。其过程如下: 设有 p 个变量 Z = (Z1, Z2 , , Zp),可以求得从大到小排 序的 p 个主成分Y1,Y2,Yp,原始变量与主成分之间 存在如下的关系: 如果在式(13.2.13)中仅取前m个主成分,把其余的 p-m 个主成分用特殊因子i 代替,则式(13.2.13)可以 表示为:,为了使 Yi 符合式(13.2.3)假设的公共因子,需要将主成分Yi 的方差转变为1。由13.1节的介绍可知,主成分方差为特征根 i,只需要将 Yi 除以标准差 即可,令: 则式(13.2.15)转变为: 式(13.2.15)已与式(13.2.1)不仅在形式上一致,而且完全符合式(13.2.3)式(
11、13.2.5)的假设。由此就得到因子载荷矩阵和一组初始公共因子。,3.分块的协方差矩阵估计方法,这个方法是一种封闭形式(非迭代)的估计量。主要思想是将相关矩阵(或协方差矩阵)按照变量进行分块,因此成为分块的协方差估计量。不同的变量分块可能会导致不同的估计结果。,4.迭代主成分法,迭代主成分方法也叫主因子法,或主轴因子方法,是对主成分法的一种修正。首先对原始变量进行标准化处理,其相关矩阵与协方差矩阵一致,使其因子模型满足式(13.2.1),根据式(13.2.6)有: 令: 称R*为调整相关矩阵,或约相关矩阵。不妨设特殊因子i 的方差的初始估计为i*,则有hi*2 = 1- i* ,且相应的样本相
12、关矩阵为 ,则对应的约相关矩阵为,设 的前m个特征值依次为1* 2* m* 0,相应的正交单位特征向量为e1* , e2*, em*,则对应的因子载荷矩阵 L 的解为 根据式(13.2.21)和式(13.2.18),可以进一步得到特殊因子方差的最终估计量为: 如果希望得到拟合程度更好的解,则可以采用迭代的方法,即利用式(13.2.22)得到的特殊因子方差估计量带入式(13.2.20)重复上述步骤,直到所求解比较稳定为止。,下面介绍几种求特殊因子方差和公共因子方差初始估计的几种常用方法:,(1)复合相关系数(简称SMC)方法 SMC是比较常用的一种方法,令 ,其中rii是 的第i个对角元素,此时
13、公共因子方差的估计值为: 它表示 Xi 与其他 p-1 个解释变量之间的复相关系数。 (2)最大相关系数方法(max absolute correlation) 最大相关系数方法是用第 i 个变量 Xi 与其他变量相关系数绝对值的最大值来估计,即令 ,其中 rij 表示第 i 个变量 Xi 与第 j 个变量 Xj 的相关系数。 (3)对角线比例方法(fraction of diagonals) 相关矩阵(或协方差矩阵)对角线元素的固定比例 。特殊的可以取 =1,此时结果等同于主成分求解得到的结果。 (4)分块的协方差矩阵估计方法(简称PACE) (5)特殊的直接取 ,则 i*=0,此时得到的
14、也是一个主成分解。,13.2.4 因子数目的确定方法及检验,1.因子数目确定的方法 (1) 最小特征值 Kaiser-Guttman规则也叫做“特征值大于1”方法,是最常用的一种方法。只需要计算离差矩阵(相关矩阵、协方差矩阵)的特征值,特征值超过平均值的个数作为因子个数。特别地,对于相关矩阵,特征值的均值为1,所以通常取特征值大于1的数作为公因子数。 (2) 总方差比例 选择公因子个数m使得前m个特征值的和超过公因子总方差的某一门限值。这种方法多用于主成分分析方法,比较典型的是这些成分构成总方差的95%(Jackson, 1993)。,(3) MAP方法 Velicer (1976) 提出的最
15、小平均偏相关(简称MAP)方法原理是:给定m个成分(m = 0,1,p-1),计算偏相关系数平方的平均值,应保留因子的个数是使得平均值最小化的个数。 (4) 分割线段 分割线段模型的基本原理是:首先,计算离差矩阵中第j个最大特征值对方差的贡献度,然后计算从分割线段分布得到的相应的期望值 。当前者超过后者时,所对应的j即为应该保留的因子个数(Jackson, 1993)。 (5) 平行分析 平行分析模拟使用的数据与原始数据有着相同方差和观测值个数,是由随机生成器生成的独立随机变量数据集。计算模拟数据的Pearson协方差和相关矩阵及其特征值。只要原始数据的特征值超过模拟数据的对应值,相应的个数将
16、作为保留因子数。,2.公共因子个数的大样本检验,采用极大似然估计模型时,假设公共因子和特殊因子均服从正态分布,而正态分布的假定,可以帮助我们构造模型充分性的检验。设提取m个公共因子的模型成立,则检验m个公共因子的充分性等价于检验 对应的备择假设 H1 为 是任意其他的正定矩阵。 在原假设成立的条件下可以构造下面的似然比统计量: (13.2.28) 其中 Sn 表示协方差矩阵的极大似然估计; 其中 和 分别表示 L 和 的极大似然估计量,而 是 的极大似然估计量。式(13.2.28)的统计量服从2分布。,13.2.5 因子旋转,因子分析的目的不仅是求出公共因子,更重要的是知道每个公共因子的实际意
17、义,以便对所研究的问题作出进一步的分析。公共因子是否容易解释,很大程度上取决于因子载荷矩阵 L 的元素结构。假设因子载荷矩阵 L 是基于相关矩阵得到的,则其所有元素均在 -1 到 1 之间,如果 L 的所有元素都接近 0 或1,公共因子的含义就容易解释了,否则公因子含义将含糊不清。 设L是通过某种方法估计得到的因子载荷矩阵,令 且 (13.2.31) (13.2.32) 上面两式表明因子载荷矩阵是不唯一的,对一任意正交阵 T, 也是一个因子载荷矩阵。因此,实际中求得一个载荷矩阵 之后,可通过右乘正交阵 T,使 更具有实际意义,这种变换载荷矩阵的方法称为因子轴旋转。因子的旋转方法有正交旋转和斜交
18、旋转。正交旋转与斜交旋转区别就在于:正交旋转得到的新公共因子仍然是相互独立的,但斜交旋转则放宽了这一限制。,正交矩阵 T 的不同选取法构成了正交旋转的各种不同方法,如最大方差旋转法(Varimax)、全体旋转(变量和因子同时旋转,Equamax)、四分旋转(Quartimax)等。最常采用的是最大方差旋转法,其旋转目的是使得因子载荷矩阵的元素取值尽可能地向两极分化,部分元素取尽可能大的值,部分元素尽量接近零值。 下面主要介绍最大方差旋转法,其基本思想如下:,先考虑两个因子(m=2)的平面正交旋转,设因子载荷矩阵为: 取正交矩阵为: 其中 表示坐标平面上因子轴旋转的角度,则,当公共因子个数大于2
19、时,可以逐次对每两个进行上述的旋转,如果存在m个公共因子,则需要进行 次变换,这样就完成一轮旋转。 如果旋转完毕,并不能认为已经达到预期的效果,可以在第一轮所得结果基础上继续上述旋转过程,可得第二轮旋转结果。 每一次旋转以后,所得载荷矩阵各列平方的相对方差之和总会比上一次有所增加,而另一方面由于载荷矩阵每一个元素的绝对值均不大于1,因此,其方差最终一定会收敛于某一个极限。 实际中,通常经过若干次旋转以后,如果总方差改变不大,则可以停止旋转。,13.2.6 因子得分,前面说了如何获得公共因子和估计因子载荷矩阵,但有时候需要把公共因子表示成原始变量的线性组合,对每个样本计算公共因子的估计值,也就是
20、求因子得分,因子得分可以作为进一步分析的原始数据。 例如:对学生的各科成绩进行分析,可发现依赖于两个因子全面智力和适应开闭卷的能力,实际中我们不仅仅希望归纳出影响学生成绩的因子,而且希望知道每一个学生对这两种能力作出什么评价,或者说他在这两个公共因子上应打多少分。这就需要求解个体在公共因子上的得分。下面是两种常用的因子得分估计方法。,1.加权最小二乘法,对于因子模型: 因子载荷矩阵L及特殊因子方差阵是已知的,可以假定特殊因子 是误差。如果 var(i) = i 对于i = 1, 2, , p 不全相等,巴特莱特(1937)建议采用加权最小二乘法。采用误差方差的倒数作为权系数,则误差平方的加权和可以表示为: 选择F的估计值使得式(13.2.41)最小化,其解为: 当采用极大似然法求解因子载荷矩阵时,需要满足唯一性条件: L L是对角矩阵。若对原载荷矩阵改用旋转后的载荷矩阵L*=LT,则相应的因子得分可表示为: 如果采用主成分分析方法估计因子载荷矩阵,习惯上采用未加权的最小二乘过程生成因子得分,则因子得分为:,2.回归法,因子模型: 假设原始变量已标准化。在因子模型中也可以反过来将公共因子表示为变量的线性组合,建立公因子 F 对变量 Z 的回归方程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政公用事业改革考察报告
- 公司行政相关管理制度
- 公司订单流程管理制度
- 2025企业管理资料范本天津市合作协议范本(模板)
- 广东省惠州市2024~2025学年 高二下册3月阶段考试数学试卷附解析
- 2025年中考语文(长沙用)课件:微专题精练 群文阅读(古诗文联读)
- 走进文化生活 同步练习
- 自然语言处理中的强化学习应用研究-洞察阐释
- 神秘宝藏之旅基础知识点归纳
- 2024年广州市第一人民医院招聘真题
- 线性代数知到智慧树章节测试课后答案2024年秋广西师范大学
- 2024年江西省高考化学试卷(真题+答案)
- 八年级下剑桥第2课课件
- 设备供应商评估报告
- 信息安全管理体系认证方案-北京中大华远认证中心
- GB∕T 15468-2020 水轮机基本技术条件
- 学习单元3.2钢结构工程清单计价.课件
- “克勤克俭、厉行节约”PPT课件:如何过“紧日子”
- 粉末材料合成及加工新技术
- 4S店新员工入职及成长培训ppt课件
- 内审内审员培训试题对内审员的考试版
评论
0/150
提交评论