因子分析 1.ppt_第1页
因子分析 1.ppt_第2页
因子分析 1.ppt_第3页
因子分析 1.ppt_第4页
因子分析 1.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、讲解人:董 燕 杨 青,因子分析,因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。 起源于英国心理学家Charles Spearmen的理论。,因子分析的概念,因子分析的特点,因子个数远远少于原有变量个数 因子能够反映原有变量的绝大部分信息 因子之间的线性关系不显著 因子具有命名解释性,因子分析的核心,用较少互相独立的因子反映原有变量绝大部分信息。,因子分析的数学模型,设原有p个变量x1 x2 x3,xp,且每个变量的均值为0,标准差均为1.现将原有变量用k(kp

2、)个因子f1,f2,f3,fk的线性组合来表示,即有:,此模型也可用矩阵形式表示:X=AF+ 其中F称为因子(公共因子)。A称为因子载荷矩阵,aij(i=1,2p;j=1,2k)称为因子载荷,是第i个原有变量在第j个因子上的负荷。称为特殊因子,表示原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。,因子分析的几个相关概念,因子载荷,因子载荷aij是变量xi与因子fj的相关系数,反映了变量xi与因子fj的相关程度。因子载荷aij值小于等于1,绝对值越接近1,表明因子fj与xi的相关性越强。因子载荷aij也反映了因子fj对解释变量xi的重要作用和程度。,因子分析的几个相关概

3、念,变量共同度,变量共同度用来说明变量的方差,变量xi的共同度hi的数学定义为:,上式表明,变量xi的共同度是因子载荷矩阵A中第i行元素的平方和。在变量xi标准化时,由于变量xi的方差可以表示成hi2 +i2 =1,因此原有变量xi的方差可有两个部分解释: (1)共同度hi2,体现了因子全体对变量xi的解释贡献度。该值越接近1,说明因子全体解释说明了变量xi的较大部分方差,信息丢失较少。 (2)特殊因子i的平方,反映了变量xi方差中不能由因子全体解释说明的比例。该值越小说明变量xi的信息丢失越少。,因子分析的几个相关概念,因子的方差贡献,因子fi的方差贡献的数学定义为:,上式表明,因子fi的方

4、差贡献是因子载荷矩阵A中第 j 列元素的平方和。因子fi的方差贡献反映了因子fi对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。,因子分析的基本步骤,1,2,3,4,考虑因子分析的前提条件,因子提取,因子旋转,计算各样本的因子得分,因子分析的前提条件,若各因子相关性很小,则不适合进行因子分析,进行相关性判断通常可以采用以下几种方法:,计算相关系数矩阵 计算反映像相关矩阵 巴特利特球度检验(Bartlett test of sphericity) KMO(Kaiser-Meyer-Olkin)检验,计算相关系数矩阵,计算原有变量的简单相关系数矩阵并进行统计检验。如果相关系数矩阵中

5、的大部分相关系数值均小于0.3,即各个变量间大多为弱相关,那么原则上这些变量是不适合进行因子分析的。,相关系数计算公式:,计算反映像相关矩阵,反映像相关矩阵主要包括负的偏协方差和负的偏相关系数 反映像相关矩阵的对角线上的元素为某变量的MSA(Measure of Sample Adequacy),rij是变量xi和其他变量xj(ij)间的简单相关系数,pij是变量xi和变量xj(ij)在控制了剩余变量下的偏相关系数。0MSAi1。MSAi越接近于1,变量xi与其他变量间的相关性越强;当MSAI越接近于0,变量xi与其他变量间的相关性越弱。,巴特利特球度检验(Bartlett test of s

6、phericity),该检验以原有变量的相关系数矩阵为出发点,其零假设H0是:相关系数矩阵为单位矩阵,即相关系数矩阵主对角元素均为1,非主对角元素均为0。(即原始变量之间无相关关系) 依据相关系数矩阵的行列式计算可得其近似服从卡方分布。如果统计量观测值较大且对应的概率p值小于给定的显著性水平,零假设不成立。即说明相关系数矩阵不太可能是单位矩阵,变量之间存在相关关系,适合做因子分析。,KMO(Kaiser-Meyer-Olkin)检验,KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标,数学定义为:,KMO与MSA区别是它将相关系数矩阵中的所有元素都加入到了平方和计算中。KMO

7、值越接近1,意味着变量间的相关性越强,原有变量适合做因子分析;越接近0,意味变量间的相关性越弱,越不适合作因子分析。 Kaiser给出的KMO度量标准:0.9以上非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。,因子提取,因子分析的关键是根据样本数据求解因子载荷矩阵。求解因子载荷矩阵的方法有很多,其中占有主要地位且使用最为广泛的是主成分分析法。 主成分分析法能够为因子分析提供初始解。 主成分分析法通过坐标变换的手段,将原有的p个相关变量xi标准化后进行线性组合,转换成另一组不相关的变量yi,因子提取,主成分数学模型的系数求解步骤:,因子提取,因子提取,此时

8、可算出因子载荷矩阵,因子提取,因子分析的目的是减少变量个数,因此,现在要做的是在组成分分析所得的基础解中取前k个特征值,确定因子数k通常有以下两个标准:,(1)根据特征根i确定因子数 (2)根据因子的累计方差贡献率确定因子数,根据特征根i确定因子数,观察各个特征根的值,一般选择特征根值大于1的特征根;另外,还可以绘制特征根数与特征根值的碎石图,通过观察碎石图确定因子数。,根据因子的累计方差贡献率确定因子数,前k个因子的累计方差贡献率定义为:,通常选取累计方差贡献率大于0.85时的特征根个数为因子个数k,因子旋转,所谓的因子旋转就是将因子载荷矩阵A右乘一个正交矩阵后得到一个新的矩阵B。它并不影响

9、变量的共同度,却会改变因子的方差贡献。 通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷。,f1,f2,0,f1,f2,0,f2,f1,计算因子得分,因子得分是因子分析的最终体现。当因子确定后,就可以计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。在以后的分析中可以用因子变量代替原有变量进行建模等。,因子得分计算途径是通过原有变量描述因子,第j个因子在第i个样本上的值可以表示为:,因子得分可以看做各变量值的加权总和,权数大小表示了变量对因子的重要程度,于是得出因子得分函数:,对因子值系数通常采用最小二乘意义下的回归法进行估计,应用举例,为研究全国各地区年人均收入的差异性和相似性,收集到1997年全国31个省市自治区各类经济单位包括国有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论