研究方法-因子分析_第1页
研究方法-因子分析_第2页
研究方法-因子分析_第3页
研究方法-因子分析_第4页
研究方法-因子分析_第5页
免费预览已结束,剩余5页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、因子分析、, 、-前言因子分析方法的实际作用已为广大实际工作所证实。但并非每次运用它都是成 功的。有时,特别是针对多维变量所做的因子分析,难以有清晰的解释。因此,有 的实际工作者开始怀疑因子分析方法的科学性。但同时,不同的人针对相同的数据 所做的因子分析。解释其结果却又不尽相同。有的人通过因子分析能给出问题近乎 完美的答案。于是,又有人称因子分析是一种“艺术” 因子分析因此也变得神秘 起来了。因子分析到底是艺术还是科学呢?因子分析的统计思想在实践中,往往收集到的数据是多指标的。各指标之间通常不是独立的,或多 或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去描述这众多变 量见的协方差

2、关系。这少数几个变量是潜在的,但不能观察的。我们称之为因子。1 以相关为基础在所收集到的众多变量中,必定存在某些是高度相关的,把这些高度相关的变 量组成各组。这样同一组内变量具有高度相关,而与其他的各组变量却只有较小的 相关或是不相关。这些组内高度相关的变量可以设想是一个共同的东西在影响着它 们而导致高度相关。这个共同的东西称之为公共因子。如前所述,这些公共因子是 潜在但不能观测的。2 通过协方差来实现 因子分析是以相关为基础,从协方差或相关阵开始把大部分变异归结为少数几 个公共因子所为。把剩余的部分称为特殊因子。3 作用:寻求基本结构、数据化简 通过因子分析,可以用几个较小的有实际意义的因子

3、来反映原来数据的基本结 构。例如:例 1: Linden 对二战以来奥运会十项全能比赛的得分作了研究,将 100 米、跳远、铅球、跳高、 400 米、 110 米栏、铁饼、撑杆跳、标枪、 1500 米的成绩 归结到短跑速度、爆发性臂力、爆发性腿力、耐力四个方面。例 2 :公司面试,从简历、外貌、专业能力、讨人喜欢的能力、自信 心、洞察力、诚实、理解力等 15 个方面进行打分,最后归结外申请者的外露能 力、受欢迎程度、工作经验、专业能力这四个方面通过因子分析,可以用少数几个因子代替原来的变量做回归分析十据类分析 等。正交因子模型分析1 模型的直观描述既然因子分析的目的是用少数几个称之为公共因子的

4、因子去描述众多变量间 协方差关系。巡着这一思路,针对每一个具体的变量。去掉共同的东西剩余的变异 部分由两个部分组成,一个是公共因子的贡献的部分,另一个就是剩余的部分,即 特殊因子。须提醒一下,这里特殊因子与公共因子不应相关。直观上,若公共因子 与特殊因子相关则说明特殊因子中还可以抽出共同的东西到公共部分。由此可见模 型中公共因子与特殊因子是不相关的。2正交因子模型的数学表达式考虑个成分的随机观测向量,。因子模型要求线性相依,其中有m个公共因子fl f2.fm 和特殊因子组成。具体如下:场二斗十码m £ +側即嘉+矶场=< +北於£十饪口匚十心为公冏了,片为特殊凶子,畑

5、册忖MfcX= AF + £f papv l如果fi与fj相互独立(i工j ),则称该因子模型为正交因子模型。正交因子模 型具有如下特性:x的方差可表示为:sn - I -心 * 却二 + + "二 * 此h: 心 + "九 * + 畀二(1 ) hi2是m个公共因子对第i个变量的贡献,称为第i个共同度(com mun ality ) 或共性方差,公因子方差( com mon varia nee)(2)3 i称为特殊方差(specific varianee),是不能由公共因子解释的部分因子负载aij是随机变量xi与公共因子fj的相关系数。/»i伍一

6、9;戈£ j =2卫和J =1 2» *称gj2为公共因子fj对x的“贡献”,是衡量公共因子fj重要性的一个指标。3因子分析的步骤输入原始数据xn*p,计算均值和方差,进行标准化计算求样本相关系数矩阵R=(rij)p*p求相关系数矩阵的特征根入i (入1,入2,入p>0)和相应的标准正交的特征向量B,求出负载矩阵(2 h,负载矩阵还有其他的求法:1. 最小二乘法2. 极大似然估计法3. 主轴因子法4. a 法因子提取法5. 映象分析法 确定公共因子数:6. 由特征根大于 1 所对应的长度为以的特征响亮,来计算公共因子的负载7. 碎石准则:把特征更从大到小绘在坐标图上,

7、把特征根减少速度变缓的 特征根都删掉。 计算公共因子的共性方差 hi2 对载荷矩阵进行旋转,以求能更好地解释公共因子 对公共因子作出专业性的解释4 正交因子模型的几点解释1、“正交因子模型”中“正交”一词。意味着各个公共因子间是不相关的。这一 点是来自于因子分析初始思想。在“正交因子模型”统计思想中曾提到:“组内高 度相关”而“组间相关性很小”这表明各个组受制于不同的因子。到底小到什么程 度才算“小”呢?这是个模糊的概念,在实际应用中不易确定。于是表现在模型中 就把它理想化为不相关即公共因子间是独立的。2、因子分析不易解释的原因 许多实际工作者在按正交因子模型做完因子分析后,总会得到摸棱两可的

8、解 释。其根本原因出在“正交”上。正交因子模型是个理想化的模型。它要求公共因 子间不相关,然而现实问题中,这些公共因子并非完全不相关的(可能相关性很 小)。这样就出现了现实问题同模型间的矛盾。依因子分析模型把事实上存在关系 的变量“强行”让它们不相关。但用正交模型做的结果,却要用实际收集到的数据 去解释。于是,实际问题与模型的矛盾导致解释上的麻烦。这一点我们将在后面的 例中看到。因子旋转与因子解释的艺术 在实际应用因子分析中出现了难以解释的现象,根本原因是模型同实际数据 的矛盾,而其直接原因表现在因子对变量的贡献不明确。我们可以通过下图来说明 这一情况,于是设想在不改变因子协方差结构的情况下,

9、通过旋转坐标轴来实现这 一目的。(见图 1)1. 旋转的理论基础? 通过对载荷阵乘以一正交阵来实现因子旋转。变换坐标轴以后的因 子模型的协方差结构与原来相同,这为因子旋转提供了坚实的理论基础。旋 转的目的是以达到较理想的解释,通常通过最大方差旋转来实现。此外因子 旋转还有:斜交旋转、四分旋转等等。图13因子解释的艺术对相同的数据做因子分析,结果会因人而异。解释的是否妥当与应用者本人对 因子分析把握程度有关也与分析者对实际问题所涉及的专业知识有关。下面以对二 战后,奥运会十项全能运动数据的因子分析为例来说明因子分析的艺术。每项得分经标准化后所得的相关阵如下:Wtf韩林CMisro *-03onD

10、JCOJDDJI冲04DJ3DM0 21DAL-0GUI.036onDJMDM4I»W齐Q峙QCQJfrgpIDZ017013Q l>Id0 口DQIEomn1 QOMUMmUM-DJM>变量X因子载何ML估计(未旋转)特殊方差因子载何ML估计(已旋转)特殊方差和&耳片F: F;KP;100-0.0900.3410.830 -0.1690.160.1670.8570.246-0.16米0.0650.4330.5950.2750.380.1380.38跳远-0.000.2400.4770.5800.0110.00铅球0.1390.9900.0000.0000.500

11、.9660.1540.200-0.50跳咼0.1560.4060.3360.4450.330.0580.334000.3760.2450.671-0.540.2420.1730.6320.1130.54米0.1370.460.0550.7090.2360.3300.46110-0.700.2050.2610.589-0.70米栏0.0210.3610.4250.3880.800.0710.80铁饼-0.000.6970.1330.180-0.00撑杆0.0630.7280.0300.0190.009跳咼0.1550.2640.2290.3940.1370.0780.5130.116标枪-0.0

12、260.441-0.010 0.0980.4160.0190.1750.00215000.9980.0590.0000.000-米0.0550.0560.1130.990被解0.120.370.550.610.180.340.500.61释方差累积比从主成分因子分析发现前四个特征值为3.781.521.110.91下旋转前后起因子载荷与特殊方差对比如下表:未旋转时,因子解释:我们看到因子 F1上唯有1500米有较大的载荷,而在其余的 项目上载荷均较小,因此,可以称F1为耐力因子。在第二因子 F2上,铅球,铁饼,标枪有较大的载荷因为这些项目都是投掷项目,可以归结为手臂强壮因子。在 第三因子F3上

13、有较大载荷的是100米,400米,可以命之为速度因子。但 F4上各 项均有不大的载荷,这样F4的因子就不好命名。旋转后,F1*上有较大载荷的是铅球,铁饼,都与手臂爆发力有关,可以将因子F1*命名感为爆发性臂力强度因子。而 400米,100米在F2*上有高载荷,因为这两 项主要反映跑的速度的,故命之为跑的速度因子。F3*上有高载荷的是跳远,跳高,110米栏,撑杆跳高。通过比较发现这些项目主要反映腿部爆发力的,可以命之为腿部爆发性强度因子。在 F4*上唯有1500米有较高的载荷可以命之为跑的耐 力因子。比较旋转前后,可以看到旋转后载荷的重新分配更易于因子的解释。尽管,F1*和F2*上也有不易解释的

14、高载荷现象(通常大于 0.4都看成有较大的载荷),但同旋 转前比较起来要清晰多了。我们看以下旋转前,表中的载荷分布情况,跳远和跳高 在F2均有较大的载荷。另外,在F3中跳远和110米栏均有高载荷,这些在旋转前 都不能有清晰的解释。更甚至因子 F4中均没有较大的载荷,所以不能解释。 须提醒的一点是,跳高 , 110 米栏,撑杆跳高,标枪等几个项目上,无论是旋转 前还是旋转过以后均有较大的特殊方差(大于 0.4)这说明,前几个公共因子在解 释这些项目上并不理想。从这几项体育运动本身的特点来看,这几项均属于技术性 较强的项目,成绩的好坏的关键在技术是否完善。可能这几项有着其他几项所不具 备的因子。因

15、此才出现特殊方差较大的情况。由分析可以看出,称因子分析是一种 “艺术”亦不为过。小结 通过对正交因子模型的分析,说明了正交因子模型的“理想化”同现实中的数 据相矛盾导致了因子分析结果在解释上的困难。表现在形式上就是载荷的分布不明 确,给因子命名带来了麻烦。客观上,在多数情况下实施因子旋转可以使得结果有个较清晰的解释。通常遵循方 差最大准则做因子旋转直到因子分析在解释上较满意为止。但这不能从根本上消除 其矛盾,从文中例子可以看出,无论怎么旋转,总会有部分解释不是很清爽,这是 很正常的。我们期待因子旋转后,能使较重要的变量有清晰的解释就够了。因子解释的是否恰当,不仅与数据本身性质有关,而且与应用者

16、对专业知识的掌 握以及因子分析技巧掌握程度有关。须提醒的是,因子分析以相关为基础的,故有 些数据不宜于因子分析,所以建议分析者在做因子分析前应对数据检验是必要的。用SPSS故因子分析1. 打开数据文件Rwn itig 巒黑/Rm an ewting querjiJ>pe in dataCrM<« rw&w fliMffi uiWSW 的S哋件 atwe WiEd|D 二右“丁庖门馆 刮1已 LiEbnjaijthQp前 sn ewshng dat4 bouc«ocumertg wid SMnijsVl押導面価壬"严祈sp辭SJocuneriE: and面分肝ksp护*h广 Opw jnotbcr lype ot hieMtxeFfesCtMD ocunents- and leitinqgWe'MI直廿王冷poP pa ml shewdbatag in the bLAmeOK2.进入因子分析界面二常當-.页血:HEu-aFi'B-'三三三AI三一 43. 选择题项直£1*上芳&丄2£越勻等唱斎|吃1Msf*onViMk I宀楫.曲 EidwiiQit. rsv.-K,S,m.tn4. 选择要输出的图5输出结果1 : H-i1|l 111 IIOi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论