




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、注意电子文档使用范围多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 许启发(xuqifa1975)统计学院应用统计学教研室School of Statistics2004年10月第五章 因子分析【教学目的】1 让学生了解因子分析的背景、基本思想;2 掌握因子分析的基本原理与方法;3 掌握因子分析的操作步骤和基本过程;4 学会应用因子分析解决实际问题。【教学重点】1 因子旋转与因子得分;2 因子分析与主成分分析的联系与区别。§1 概述一、 引言1问题提出(研究背景)在上一章,已经介绍了一种简化数据结构的方法主成分分析法。其基本目的
2、是从尽可能多地占有原始数据的总变差出发来构造少数变量的线性组合变量综合变量。本章来讨论另外一种简化数据结构的方法因子分析,它不同于主成分分析,可以看成是其推广形式。在经济学、人口学、社会学、心理学、教育学等领域中,有许多基本特征,例如:“态度”、“认识”、“爱好”、“能力”、“智力”等,实际上是不可直接观测的量。但是这些基本特征常常对事物的结果起着决定性作用。比如学生通过考试得到英语、高等数学、大学物理、计算机、统计学、多元统计、数理统计、经济学等课程的成绩。把每门课的成绩看作一个变量,显然这些变量必定受到一些共同因素的影响,比如全面智力,或者细分一点,如逻辑思维能力,形象思维能力和记忆力等,
3、都是影响这些课程成绩的公共因素。另外,每门课程的成绩还可能受自己特点因素的影响,如英语的语言能力、大学物理的动手实验能力、高等数学的推理能力等。2因子分析的产生1904年Charles Spearman发表对智力测验得分进行统计分析一文,标志着因子分析方法的产生。因子分析最早用于心理学和教育学方面的研究,目前广泛应用于各领域。3什么是因子分析因子分析就是要利用少数几个潜在变量或公共因子去解释多个显在变量或可观测变量中存在的复杂关系。换句话说,因子分析是把每个原始(可观测)变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的;另一部分是每个原始变量独自具有的因素,即所谓的特殊
4、因素部分或特殊因子部分。正是特殊因子的存在,才使一原始变量有别于其它原始变量。属于多元统计分析中处理降维的一种统计方法。由此可知,因子分析注重的是因子分析的具体形式,而不考虑各变量的变差贡献大小。例如,某公司对100名招聘人员的知识和能力进行测试,出了50首题的试卷,其内容包括的面较广,但总的来讲可以归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中的因素 因子是一种比较抽象的概念,后者具有极为明确的经济意义。现假设100人测试的分数可以用上述六个因子表述为线性函数: 因子模型与回归
5、模型在形式上相同,在实质上不同:是抽象因子,不是变量,其值不可直接观测;参数的统计意义不一样。其中,表示六个因子,它对所有是共有的因子,通常称为公共因子 公共因素,也称公共因子,是事物的基本特征或本质因子,是不可直接观测的潜在变量。它们的系数称为因子载荷,它表示第个应试人员在六因子方面的能力。是第个应试人员的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定:。因子分析的任务,首先估计出和方差,然后将这些抽象因子赋予实际背景的解释或予以命名。因子分析有两种类型:R型,对变量作因子分析;Q型,对样品作因子分析。二、 基本思想因子分析的思想是通过变量(或样品)的相关系数矩阵(相似系数矩阵
6、)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间相关(相似)关系。这样因子分析一方面可简化观测系统,简化原始变量结构,再现变量之间的内在联系,达到降维的目的;另一方面可对原始变量进行分类,把相关性较高,即联系比较紧密的变量归为同一类,而不同类的变量之间的相关性较低。§2 因子分析的数学模型实际工作中,我们所掌握的只是搜集到的样本数据资料,例如学生的各科成绩,企业的各项指标等。所以这里我们帖变量出发,通过变量模型,即总体因子分析模型引伸出样本因子分析模型。一、 因子模型(正交因子模型)1总体因子模型 R型因子分析和Q型因子的计算过程完全相同,
7、只不过出发点不同:R型是从相关系数矩阵出发;Q型是从相似系数矩阵出发。用矩阵表示:简记为:或满足条件:;,即不相关且方差均为1;,即不相关且方差不同;,即与不相关。模型解释:模型将原始变量表为个公共因子的线性组合,即将原始变量置于个公共因子张成的空间下进行研究,因子分析的实质是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系;称为的公共因子(综合变量),是不可观测的向量,可以理解为在高维空间中互相垂直的个坐标轴;为因子载荷,是第个变量在第个公共因子上的负荷。如果把看成维空间中的一个向量,则表示在坐标轴上的投影。矩阵被称为因子载荷矩阵;为的特殊因子,理论上要求
8、的协方差矩阵为对角阵;不相关,若相关,模型称为斜交因子模型;因子分析与主成分分析的联系联系:同属降维技术,求解过程相似,特征向量和因子载荷之间具有联系。区别:因子分析注重模型的具体形式,而不考虑变量变差贡献大小;主成分分析的数学模型实质上是一种变换,而因子分析模型则是用来描述协差阵结构的一种模型,当时,不考虑,因子分析也对应一种变量变换;主成分分析中每个主成分相应系数是唯一确定的,每个因子的相应系数不是唯一的,即因子载荷阵不唯一,这为因子旋转奠定了基础。事实上,不妨设为一阶正交矩阵,则因子模型可写成:,则也是公共因子,是相应的因子载荷矩阵,因为仍满足约束条件:,。2样本因子模型标准化后的数据为
9、,则由总体因子模型可得样本因子模型其中为因子载荷矩阵,含义同前;,特殊因子矩阵;,公共因子矩阵;样本因子模型的性质可由总体因子模型得出 这里。:二、 因子载荷的统计意义及性质1因子载荷矩阵的统计意义已知模型: 这里已经标准化。两端右乘并取数学期望得:由于在标准化条件下,有:,。因此,所以上式可以写成 各因子互不相关,相关系数为0。故因子载荷的统计意义就是第个变量与第个公共因子的相关系数即表示依赖于的份量(比重)。统计学的术语应该叫作权,但由于历史的原因,心理学家将它称作载荷,即表示第个变量在第个公共因子上的负荷,它反映了第个变量在第个公共因子上的相对重要性。2因子载荷矩阵的统计意义因子载荷矩阵
10、中,各行元素的平方和 或 称为的共同度。为说明其统计意义,现在考察的方差。由于已经标准化,所以有即:变量方差公共因子方差特殊因子方差这说明的方差由两部分组成:第一部分为共同度,它刻划全部公共因子对变量的总方差所作的贡献;第二部分是特定变量所产生的方差,称为特殊因子方差,仅与变量本身的变化有关,它是使的方差为1的补充值。易见越接近于1,因子分析越有效。3公共因子的方差贡献及其统计意义因子载荷矩阵中,各列元素的平方和 或 称为公共因子的方差贡献,它是第个公共因子对所有原始变量的方差贡献总和。当公共因子的方差贡献与个变量的总方差进行比较时,称的方差贡献率为第个公共因子的方差贡献率。方差贡献率是衡量公
11、共因子相对重要程度的一个指标。方差贡献率越大,该公共因子就相对地越重要。4正交因子载荷不具有唯一性因为,所以相关系数矩阵为 这时,协方差阵与相关系数阵等价。: 其中,。说明相关系数矩阵可以分解为两部分,但这种分解并不唯一。设为一正交矩阵这里,令,相当于作一正交变换或正交旋转。前面已经讨论满足因子分析的要求所以,有。NOTE:若不考虑正交旋转时,因子载荷矩阵是唯一的;即使在正交旋转情况下,共同度保持不变;变量与的相关系数(或协方差)为因子载荷矩阵中第行与第行对应元素乘积之和,即。§3 因子分析模型求解或估计可以说,因子载荷矩阵的确立是因子分析中至关重要的一步,求解因子分析模型的过程就是
12、寻找因子载荷矩阵的过程。实际工作中,求解因子模型的方法很多,这里只介绍两种常用的方法。一、 主因子法1基本思想如果共同度已知,随之特殊因子方差也已知;或者特殊因子方差已知,随之公共因子方差或共同度也已知,则便精确地知道。为非负定矩阵,存在正交矩阵将其变为对角矩阵,即其中,为的非零特征根,为单位正交特征向量,并且。则我们可以取即得到的精确解,并且这个解满足:该式进一步说明了全部特征根之和就是总共同度。然而,实际工作中和都是未知的,甚至也未知。于是不可能象上面那样求出和的精确解。然而,仿此可以求出其近似解。如果先给出共同度的一个估计值,随即可以求出的一个估计值,于是可以得到约化相关矩阵然后,由方程
13、求出的特征根(不妨设)及对应的前特征向量,于是若取,则。根据,可有因此,是因子载荷矩阵的一个估计,再求特殊因子方差矩阵的估计,为为了提高精度,往往采用迭代法,即利用上面得到的代替前面的进行迭代,直到解稳定为止。2基本步骤STEP01:给出共同度的初始估计值;STEP02:由求出 ,并求出约化相关系数矩阵;STEP03:求约化相关系数矩阵的前个特征根及对应的前特征向量,且令;STEP04:求出的估计;STEP05:返回STEP02用代,直到的值和的值达到稳定为止。给出初始估计计算和计算和,令计算的估计及是否稳定?给出公共因子和特殊因子YNNOTE:的选取问题。尽管是非负定阵,但由其得到的约化相关
14、矩阵却不一定是非负阵,可能会有负特征根。这时侯正的特征根之和将超过总共同度(即的迹),因为全部特征根之和就是总共同度。常用的确定的办法是按特征根由大至小的次序抽取,直到与接近为止。这样确定的不超过正特征根的个数;共同度的选取法一:取,其中是相关系数矩阵的逆阵中的主对角线元素。因此有法二:取为第个变量与其它所有变量的复相关系数的平方。法三:取为第个变量与其它所有变量的相关系数的最大值(绝对值),即,其中为变量与的相关系数。二、 主成分分析法1主成分分析与因子分析的区别与联系P1772主成分解设相关系数矩阵的特征根,对应的单位正交特征向量为。设矩阵,则可以分解为为一个精确的因子分解式,使用了主成分
15、成分方法。事实上,由,令,即可以实现。同时,因子分析还要只选择个因子,因此当后个特征根较小时,去掉矩阵的最后几列。将分块:,则 该式即为因子分析模型的主成分解。与的主对角线元素是相等的,而非主对角线上的元素却不相等。其中, 与的最大差异就是忽略了其中的非主对角线元素。NOTE:该方法在实际使用中也会遇到的选择问题如果取个因子后,使残差矩阵的元素绝对值都很小,则认为该值合适;根据公共因子的累积方差贡献率需要达到一定的比例来选择;选择的个数为公共因子数。三、 其它解法除上述的两种方法以外,常用的还有不加权的最小二乘法,一般的加权最小二乘法、重心法、因子分析法、映象因子分析法、最小残差法、最大似然法
16、、典型最大似然法等。§4 因子旋转一、 因子旋转的必要性和可能性1必要性建立因子分析数学模型不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义。为此需要考察各个变量在公共因子上的载荷,绝对值越大的代表关系越密切。为了避免相关不大不好解释,需通过坐标旋转,使因子载荷在新的坐标中能按0或1两极分化,以便得到一个简化结构 简化结构就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷较小。主要表现在:(1)每一列上的载荷大部分应是很小的,尽可能地接近于0;(2)每一行中只有少量的,最好是只有一个较大的载荷值;(3)每两列中大载荷和小载荷的排列模式不同。
17、2可能性因子载荷矩阵不唯一。设为因子载荷矩阵,为一正交矩阵,则就相当于对实施了正交变换或因子旋转。这时,载荷矩阵和,公共因子和都会产生相同的相关系数矩阵二、 因子旋转1当时(1)图解法:详见孙慧钧P185。(2)方差最大正交旋转其基本思想:是选择适当的正交变换,使各因子载荷的总方差达到最大,而不是某一因子方差极大。换言之,如果第个变量在第个公共因子上的载荷,经过“方差极大”旋转后其值增大或减少,意味着这个变量在另一些因子上的载荷要缩小或增大。所以“方差极大”旋转是使载荷按列向0、1两极分化,同时也包含着按行向两极分化。设因子载荷矩阵变量共同度。考虑到各变量共同度之间的差异所造成的不平衡,需要对
18、中的数字进行规格化处理,即每行的元素用每行的共同度除之。而后对规格化后的矩阵(仍记为)施行方差最大正交旋转。设正交矩阵记为了使载荷阵的结构简化,使其中的每一列元素的平方值向0或1两极分化,或者说公共因子的贡献越分散越好。即希望变量分成两部分,一部分主要与第一公共因子有关,另一部分与第二公共因子有关,因此要求,两组数据的方差与尽可能地大。为此,正交旋转的角度必须满足使旋转后所得到因子载荷阵的总方差达到最大值,即 因为,。达到最大值。根据求极值原理,令,经过计算,其旋转角度可按下面的公式求得:其中,。2当时这时需逐次对每两个公共因子进行上述旋转,也既是说对每两个因子所决定的因子面正交旋转一个角度,
19、每次的转角必须满足使旋转后所得到的因子载荷矩阵的总方差达到最大值,即使达到最大,其中为如下的正交阵:经过旋转(变换)后,矩阵,其元素为其中旋转角度仍按下面公式求得:个因子,每次取两个全部配对进行旋转,共需旋转次,完成一次循环,此时因子载荷矩阵即对实施正交变换而得到,并计算其方差记为。如果一轮旋转达不到要求,则继续进行第二轮次配对旋转,直至达到要求为止。§5 因子得分到目前为止,只求出了因子载荷矩阵或特殊因子方差贡献,而因子分析模型中的和仍未知,并且由于公共因子能反映原始变量的相关系数。用公共因子代表原始变量时,更有利于描述研究对象的特征。因而往往需要反过来将公共因子表示为变量的线性组
20、合,即称为因子得分函数 由于因子得分函数中方程的个数小于变量的个数,因此不能精确计算出因子得分,只能对因子得分进行估计。一、 回归分析法先对公共因子与变量作回归,建立回归方程;然后将变量数值代入回归方程,求得因子得分。二、 巴特莱特因子得分 最小二乘法。1基本思想这种方法是把一个个体的个变量的取值当作因变量,把求因子解中得到的作为自变量数据阵,对于这个个体在公因子上的取值当作未知参数,而特殊因子的取值(未知)看作误差,于是得到如下的线性回归模型:则称未知参数为个体在公因子上取值为的因子得分。2基本做法由先将的协差阵(即因子模型中特殊因子的方差贡献)单位化利用最小二乘法可求出的估计:称之为Bar
21、tlett因子得分。三、 巴特莱特因子得分 回归分析法。由Thomson于1939年提出该得分。假设公共因子可以对个变量作回归,回归方程为: ,因为变量及公共因子已标准化。的值待估。利用样本值可得因子载荷阵,由因子载荷的意义可知: 即其中,。因此,记则称为Thomson因子得分。式中:为因子载荷矩阵;为样本相关阵,;为。§5 因子分析与主成分分析的区别一、 基本思想的异同1共同点:从二者表达的含义上看,主成分分析法和因子分析法都寻求少数的几个变量(或因子)来综合反映全部变量(或因子)的大部分信息,变量虽然较原始变量少,但所包含的信息量却占原始信息量的85%以上,用这些新变量来分析经济
22、问题,其可信程度仍然很高,而且这些新的变量彼此间互不相关,消除了多重共线性。2不同点:主成分分析所得到的新变量是原始变量的线性组合;因子分析所得到的新变量是对每一个原始变量进行内部剖析,是对原始变量进行分解,分解为公共因子与特殊因子两部分,而不是对原始变量的重新组合。二、 软件操作中的异同主成分分析与因子分析都可利用SPSS软件中的FACTOR过程来实现 所以状态都是默认时,可以进行主成分分析。,在此过程中应该注意以下几点:1指标的选定指标最好具有同趋势化,一般为了评价分析的方便,需要将逆指标转化为正指标 转化的方式可以有若干种,其中最为简单的是用逆指标的倒数值代替原指标值。2因子变量个数的确
23、定在利用FACTOR实现主成分分析时,在确定公共因子个数时,一般直接选择与原变量数目相等的个数,这样可以避免由于采用默认形式后累积方差贡献率达不到85%而造成的二次操作。在利用FACTOR实现因子分析时,可以选择的选项较多,首先是撮公因子的方法,除了主成分分析法之外,还有不加权最小二乘法、普通最小二乘法、最大似然估计法、主因子法、因子分析法、映象因子分析法。这七种方法中只有用主成分分析法求解因子载荷时可以选择与变量个数相等的因子变量个数,其它方法都必须因子变量个数小于原始变量个数。而且在计算的过程中不能像主成分分析法那样一次计算因子载荷成功,如主因子法,往往需要经过多次尝试,才能得到因子载荷矩
24、阵。3模型的生成经过FACTOR过程都产生因子载荷阵,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需要将因子载荷量输入到数据的编辑窗口,利用“主成分相应特征根的平方根与特征向量乘积为因子载荷量”性质来计算特征向量,从而得到主成分的线性表达式。因子分析直接采用因子载荷量即可得到因子模型。4计算得到的方法主成分是根据表达式将标准化后的相应数据代入得到的。主成分得分一般用来对研究现象进行综合评价、排序及筛选变量。因子得分的计算在SPSS中提供了三种方法:一是回归法;二是巴特莱特法;三是安德森-鲁宾法,这种方法是为了保证因子的正交性而对巴氏方法的因子得分进行的调整,其因子得分的均值为0,方
25、差为1。因子得分多用于对样本及变量的分类,也可用于综合评价。5有关统计量的取得有关因子载荷的统计量在SPSS输出窗口可直接得到,如变量与公共因子的相关系数,实际上为所求得的因子载荷量;变量共同度(反映每个变量对所提取的公共因子的依赖程度的统计量)可由输出窗口中的“component commulity”中直接显示出来 实际此数值是因子载荷矩阵中每一行的因子载荷量的平方和。,提取的因子个数不同,变量共同度也不同。另外,公共因子的方差(反映每个公因子与所有变量的相关程度的统计量)可由“extraction sums of squared loadings”直接读出 实际此数值是因子载荷矩阵中每列的因子载荷量的平方和。我们所求得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CA证书制作管理办法
- 仓储财产安全管理办法
- 业务合同登记管理办法
- 上街宣传物料管理办法
- 管道业仓储管理办法
- 质量检测员管理办法
- 西藏基金机构管理办法
- 中学财务后勤管理办法
- 蒸汽用户稽查管理办法
- 上海此次疫情管理办法
- 咸味香精基础知识培训课件
- 2025年9月新版劳务用工合同范本(可规避风险)
- 《焊接结构生产》课件-第一单元 焊接结构生产基础知识
- 中国钾离子电池行业市场前景预测及投资价值评估分析报告
- 烟草局联合快递企业开展涉烟寄递违法行为培训
- 高一历史秋季开学第一课:走进高中历史的星辰大海
- 医药公司经营风险管理
- 2025年全国“质量月”质量知识竞赛题库及答案
- 2025年人工智能训练师(三级)职业技能鉴定理论考试题库(含答案)
- 土方开挖培训课件
- 变电运维培训课件
评论
0/150
提交评论