版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/10/13,1,第八章 因子分析,因子分析的目的与类型 探索性因子分析的模型 因子模型的求解 因子旋转 因子得分 因子分析的SPSS实现 实例分析 确认性因子分析,Origins of Factor Analysis,In conjunction with his famous two-factor theory of intelligence,Charles Spearman 1863-1945,一、因子分析的目的与类型,因子分析的目的:用少数几个不可观测的隐变量来解释原始变量间的协方差关系,Origins of Factor Analysis,Wanted to estimate
2、 intelligence of 24 children in a village school. Realized way of measuring intelligence was imperfect and that the correlation between any two variables (say, ones score on a mathematics exam and on a classics exam) would be underestimated. Noticed that the observed correlations between the variabl
3、es he was interested in were all positive and followed a pattern. Spearman wanted to develop a model that would reflect the pattern he saw.,What did Spearman notice?,Correlations Between Examination Scores,Notice the trend across each row on the upper diagonal,认为存在着“general intelligence”,影响着个体在所有智力活
4、动中的表现(解释各变量间的高度相关),而个体在不同智力活动中表现的差异则是由另一些“specific factors”决定的(解释相关程度差异)。区分这两类因素可以更准确地预测出某个人在某项工作中的表现。,two-factor theory of intelligence,Could model each test score as having two types of components: one common to all the scores and one specific to the particular test f: available to the same indivi
5、dual to the same degree for all intellectual acts : varies in strength from one act to another If one knows how a person performs on one task that is highly saturated with “f, one can safely predict a similar level of performance for a another highly “f saturated task. the most important information
6、 to have about a persons intellectual ability is an estimate of their “f,Schematically,f,f因子:不可观测,可观测,特殊因子:不可观测,难以估计 构成:测量误差+个性因素,Goals of Factor Analysis,model correlation patterns in useful way 通过对多个变量的相关系数矩阵的研究,找出同时影响或支配多个变量的共性因素。 allow for contextual interpretation of the new variables evaluate
7、the original data in light of the new variables,注意:因子分析是一种用来分析隐藏在表象背后的潜在因子作用的统计模型,这些共同因素通常是不可直接观测的,基本思想:认为存在一些潜在共性因素影响着事物在多方面的表现,实例1,考查人体的五项生理指标:收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度。 从生理学知识可知,这五项指标是受植物神经支配的,植物神经又分为交感神经和负交感神经,因此这五项指标至少受到两个公共因子的影响,也可用因子模型去处理。 五项指标均可观测,而两个公共因子是不可直接观测的:通过指标与公共因子的关系诊病。,舒张压,心跳间隔,呼吸间隔,舌
8、下温度,收缩压,交感神经,负交感神经,实例2,林登根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目为: 100米跑x1、跳远x2、铅球x3、跳高x4、400米跑x5、110米跨栏x6、铁饼x7、撑杆跳x8、标枪x9、1500米跑x10 对10个变量标准化后的因子分析表明,十项得分基本上可归结于他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一方面都称为一个公共因子。,因子分析的类型,探索性因子分析exploratory Factor Analysis 根据变量间相关关系探索因子结构 实例2 确认性因子分析Conf
9、irmatory Factor Analysis 检验对因子结构的先验认识是否合理,评估因子模型的拟合程度 实例1,二、探索性因子分析模型,正交因子模型 重要假设 因子载荷阵的统计意义,1. 正交因子模型,设:可观测随机变量xi,E(xi)=i,i=1,2, p,不可观测正交随机变量fj,j=1,2,m, E(fj)=0,(fj)=1,,一般因子模型:反映了各变量与公共因子的关系,mp,因子载荷阵,因子分析:求出各因子载荷量aij,并在此基础上计算各样本的因子得分,据此评价样本,预测。,因子载荷量,中心化变量,因子模型,h1,h2,h3,hi,hP,f1,f2,fm,f因子:不可观测,可估计,
10、可观测,特殊因子:不可观测,难以估计 构成:测量误差+个性因素,十项全能例,因子模型,因子得分计算公式,2. Important Assumptions,f1, f2, , fm are independent, with identical distributions having a mean of 0 and a variance of 1 1、2 、 pare independent, with distributions having a mean of 0 and variances i2 fi and j are independent for all i, j combinat
11、ions,Under the assumptions above,Actually, the goal of “factor analysis” is to try to decompose the covariance matrix (or correlation matrix for standardized data) into two parts each in the form dictated above.,当m=p时,var(x)=AAT 然而只有当mp时,因子分析的优势才能显示出来,3. 因子载荷(Factor loadings)的统计意义,These aij represen
12、t the covariance(corelation if x is standardised) between the original variable and the corresponding factor,called factor loading, aij 表示xi对fj的相关程度,全部公共因子对xi的方差贡献称为变量共同度:因子载荷阵第i行元素平方和,特殊因子的方差,变量共同度(communalities),If Data are Standardized,三、因子模型的求解方法,因子模型求解:估计公共因子个数m、载荷阵A和特殊因子方差 已知p个相关变量的n次观测值,主成分法,
13、主成分解,主轴因素法principal axis factoring,求R*的前m个特征值和特征向量,得到:,实际应用中特殊因素方差未知,可以将初始共同度 取为xi对其他所有变量线性回归的R2,然后叠代求解。,三、因子模型的求解方法(续),主轴因素法principal axis factoring 这是用于因子分析的主成分法,是一种叠代方法 极大似然法maximum likelihood:见书 不加权最小二乘unweighted least squares 使观测的和再生的相关阵( )之差的平方和最小 广义最小二乘generalized least squares 因素提取法alpha fac
14、toring 映像因子提取法image factoring,例:消费者对止痛药的感觉,消费者对止痛药的调查 要求消费者从6个方面给不同牌子的止痛药打分: 不伤胃:nstomach 没有副作用:nsideeff 止痛:stoppain 见效快:wksquick 保持清醒:kpawake 部分止痛:limrelie 以主成分法和主轴因素法进行因子分析,,先用主成分法确定共因子数,主轴因素法,主成分法,用残差评估因子模型,方法:检验原始相关矩阵减再生相关矩阵得到的残差阵中,绝对值大于0.05的元素个数及百分比。残差绝对值大于0.05的个数太多,表明该模型不理想,四、因子旋转因子的解释,观察止痛药因子
15、模型:两个因子与各变量的相关程度都差不多,这使得我们难以解释潜在因子的含义。,四、因子的解释因子旋转,设:T为任一正交阵,如果A为载荷阵,则:,这说明因子分析的解是不唯一的。这一性质给我们提供了寻找“理想”共因子结构的思路:通过因子旋转使每个变量的载荷都尽可能集中在某个因子上,而在其他因子上的载荷尽可能小,以使公因子易于解释。,A*=AT仍是一个因子载荷阵,因子F*与F有相同的统计特性:,Rotations,The orthogonal rotation does not change the overall covariance matrix, the specific variances
16、nor the communalities.,Rotations,Rotations,因子旋转方法,正交旋转:保持因素间互不相关 方差最大旋转Varimax:使每个因子上具有高载荷的变量数最少简化对因子的解释 四分旋转quartmax:使每个变量中需要解释的因子数最少简化变量的解释 平均正交旋转equamax:前两种方法的结合 斜交旋转:允许因素间相关 直接斜交旋转direct oblilmin Promax:比直接斜交旋转快,止痛药因子模型旋转结果,Factor1:有效性,Factor2:和缓性,止痛药潜在因素分析,五、因子得分,因子模型建立之后,样本评价需要计算因子得分 即某个样本在这些公
17、共因子方面的表现 公共因子得分的计算模式如下:,在智力的双因子模型中,每个样本在公共因子f上的得分表示了该样本的一般智力水平,Bartlett 法(加权最小二乘法),因子模型:,我们可以采用与求解线性回归模型相似的方法来得到f1,f2, fm的近似解。由于p个特殊方差可以不全相等,因此应采用加权的最小二乘估计法,即寻求一组估计值,使得加权的“残差”平方和,这样求得的解就是因子得分,因子得分系数的求解方法:,止痛药例,SPSS的因子分析过程 analyzedata reductionfactor 显示因子分析主对话框,六、因子分析的SPSS实现,Descriptives对话框,Extractio
18、n对话框,Rotation对话框,Factor score 对话框,因子得分作为变量保存,回归法:因子得分均值为0,“option”对话框,因子分析的基本步骤,因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。 因子分析常常有以下四个基本步骤: (1)确认待分析的原有变量是否适合作因子分析。 (2)构造因子变量(确定公共因子个数)。 (3)利用旋转方法使因子变量更具有可解释性。 (4)计算因子变量得分。 (5)多种算法比较以判断分子模型的稳定性,1.巴特利特球度检验(Bartlett test of
19、sphericity),巴特利特球度检验是以变量的相关系数矩阵为出发点。它的零假设是Ho:相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,所有非对角线上的元素都为零。巴特利特球度检验的统计量根据相关系数矩阵的行列式计算得到。如果该统计量值比较大,且其对应的相伴概率值小于用户心中的显著性水平,则应拒绝Ho,认为相关系数矩阵不太可能是单位阵,适合作因子分析;相反,如果该统计量值比较小,且其对应的相伴概率值大于用户心中的显著性水平;则不能拒绝Ho,可以认为相关系数矩阵可能是单位阵,不适合作因子分析。,因子分析的适宜度检验:变量间相关程度较高才适宜做化简,2. KMO(Kaiser-
20、Meyer-Olkin),KMO统计量是用于比较变量间简单相关系数和偏相关系数的一个指标,计算公式如下: 式中:rij是变量和变量之间的简单相关系数, pij是它们之间的偏相关系数。 可见,KMO统计量的取值在0和1之间,当所有变量之间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1。KMO值越接近1,则越适合作因子分析,KMO越小,则越不适合作因子分析。 Kaiser给出了一个KMO的度量标准:0.9以上非常适合;0.8适合;0.7一般;0.6不太适合;0.5以下不适合。,止痛药例:因子分析适宜度检验,七、应用(1),研究消费者对速溶麦片的看法:12种品牌速溶麦片的调查(Cre
21、ating a perceptual map of ready-to-eat cereal brands in the Australian market, Roberts and Lattin, 1991) 影响麦片销售的特性有25个 每个被调查者从25个方面给三个自己最喜欢的品牌的麦片打分,打分采用5分制 共116人作答,得到235个样本 研究的目的:有哪些特性影响消费者的购买决策,研究过程,1. 用主成分法确定因素的个数 2. 用不同方法求解因子模型,以确定较好模型 3. 因子解释 4. 用因子得分对各个品牌做出综合评价。 用SPSS中的“aggregate”功能和散点图,保留四个因子还
22、是五个因子?,可能意味着因子数过多,两种不同方法得到的同一因子的分散点图越接近45线越好,保留四个因子,主成分法和极大似然法,主轴因素法和极大似然法,注意:“easy”的变量共同度非常低,说明easy83%的变异都是特殊因子解释的,4个因子对这一特性的解释能力非常低,而且与每个因子的相关程度很低(最大0.3),为什么?,因子个数太少? easy这一特性指标选得不好? 所有品牌都是速溶麦片,消费者在这一特性上难以作出明确判断,5个公因子,选用主轴因素法,对各品牌的评价,调用dataaggregate过程,按照cerealid分类统计各品牌麦片的因素得分,应用(2),303名MBA学生对10个品牌
23、汽车的评价 BMW328i, Ford Explorer, Infiniti J130, Cherokee, Lexus ES300, Chrysler Town&Country, Mercedes C280, Saab9000, Porsche Boxster, Volvo V90 每个学生对每种车型就16个方面打分 Exciting, dependable, luxurious, ourdoorsy, powerful, stylish, comfortable, rugged, fun to drive, safe, high-performance car, family car, v
24、ersatile, sporty, high-status car, practical 从每个学生对10个品牌汽车的评价中随机抽取一份组成样本,共303个样本。 作因子分析:可提取多少个共因子?如何解释这些因子? 保存因子得分,计算每个品牌汽车的平均因子得分并作图和解释,现代,实用,越野,八、确认性因子分析Confirmatory Factor Analysis,Loosely Speaking ,Allows the user to specify prior notions about the structure of the factor model Allows the user t
25、o test hypotheses about model parameters and to assess fit,Prior Notions?,About which variables load on which factors. About how correlated you think the underlying factors are. Recall, in the exploratory model the underlying factors are necessarily modeled as uncorrelated.,Testing and Fit?,With som
26、e prior notions fixed and maximum likelihood estimation employed, standard errors of parameter estimates are available. These are “asymptotic” or valid with large samples. Likewise, formal fit statistics are available (typically chi-squared statistics) that allow model comparisons,Exploratory Two-Fa
27、ctor Model,待估参数:i, i, i=1,5,Specific weighting pattern hypothesized. Number of parameters to be estimated reduced,Typical Confirmatory Model,with,待估参数:11, 21, 31, 42, 52 ,12, i, i=1,5,Schematically,Wij =1 if xi and xj are hypothesized to load on the same factor Wij=cov(f1,f2) if xi and xj are hypoth
28、esized to load on different factors,Covariance Model,确认性因子分析一般模型,Asymptotic Standard Error(标准误的一致估计量,For the comfirmatory factor analysis, we are able to obtain asymptotic standard error of the parameter estimates. This enables us to conduct statistical tests of the parameter values,Goodness of Fit,The statistics to test the goodness-of-fit of the model Goodness-of-fit index(GFI) Better greater than o.95 GFI ad
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国医科大学《安全管理学》2025-2026学年期末试卷
- 中国医科大学《科学社会主义》2025-2026学年期末试卷
- 阳泉职业技术学院《草坪学》2025-2026学年期末试卷
- 中国药科大学《特殊教育概论》2025-2026学年期末试卷
- 长春光华学院《急诊与灾难学》2025-2026学年期末试卷
- 长春科技学院《侵权责任法》2025-2026学年期末试卷
- 长春金融高等专科学校《国际信贷》2025-2026学年期末试卷
- 长春电子科技学院《文学理论》2025-2026学年期末试卷
- 2026道德与法治六年级活动园 权利义务
- 宁夏中考历史试卷2025年讲解
- 广州市轨道交通某软土专题勘察报告
- 湖北宜昌历年中考语文文言文阅读试题25篇(含答案与翻译)(截至2021年)
- 《中药炮制技术》课程标准
- 六年级语文下册半期测试题
- 中医药临床医学专业认证自评报告
- 精轧机组F1轧机主传动系统设计
- XB/T 211-2015钐铕钆富集物
- GB/T 7125-2014胶粘带厚度的试验方法
- GB/T 41479-2022信息安全技术网络数据处理安全要求
- GA/T 487-2020橡胶减速丘
- 麻醉期间循环管理课件
评论
0/150
提交评论