版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实验班:因素分析实验目的了解主成分(因子)分析的基本原理,熟悉和掌握主成分(因子)分析方法及其在SPSS中的主要应用。要素分析一、基础理论知识1概念因子分析:它是一种统计分析方法,用几个因子来描述许多指标或因子之间的关系,用几个因子来反映原始数据中的大部分信息。从数学角度来看,主成分分析是一种简化复杂性的降维技术。主成分分析:因子分析的一个特例,是最常用的因子提取方法。通过坐标变换,将原来的多个相关变量线性变换成另一组不相关的变量。通过选择方差最大的主成分,因子分析的目的是减少变量的数量,同时可以用较少的变量反映原始变量的大部分信息。它们之间的关系:主成分分析和因子分析是两种降低描述、理解和分
2、析变量维数的方法,但实际上主成分分析可以说是因子分析的一个特例。2个特征(1)因子变量的数量远远少于原始指标变量,因此因子变量的分析可以减少分析中的工作量。(2)因子变量不是原始变量的选择,而是根据原始变量的信息进行重构,能够反映原始变量的大部分信息。(3)因子变量之间不存在显著的线性相关性,便于分析变量,但原始部分变量之间存在显著的相关性。(4)因子变量有命名解释,即它是一些原始变量信息的综合和反映。在最小化数据信息损失的原则下,高维变量空间的维数被降低(即通过因子分析或主成分分析)。显然,在低维空间中解释系统要比在高维空间中容易得多。类型3根据研究对象的不同,因子分析可以分为R型和Q型。当
3、研究对象可变时,属于R因子分析;当研究对象是样本时,属于Q型因子分析。然而,一些因子分析方法具有R型和Q型因子分析的一些特点,如因子分析中相应的分析方法,一些学者称之为双型因子分析,以示与其他两种类型的区别。4分析原则假设有N个地理样本,每个样本有P个变量,形成一个np阶地理数据矩阵:当p较大时,在p维空间中研究这个问题是很麻烦的。这就要求降维,即用较少的综合指标代替原有的指标,使这些综合指标不仅尽可能反映原有指标所反映的信息,而且相互独立。线性组合:如果x1,x2,xP为原始变量指标,z1,z2,zm(mp)为新变量指标(主成分),则线性组合为:Lij是原始变量对每个主成分的负荷无论哪种因子
4、分析方法,相应的因子解都不是唯一的,主因子解只是无数因子解中的一个。子与zj无关;z1是x1、x2、xp的所有线性组合中最大的方差,z2是与Z1无关的x1、x2、的所有线性组合中最大的方差。然后,新的变量指标z1、z2、分别被称为原始变量指标的第一、第二、主成分。z是因子变量或公共因子,可以理解为高维空间中相互垂直的m个坐标轴。主成分分析的本质是确定原始变量XJ (j=1,2,p)对每个主成分zi (I=1,2,m)的负荷lij。从数学上讲,很容易知道并证明它们是对应于相关矩阵m个较大特征值的特征向量。5个分析步骤5.1确定待分析的原始变量是否适合因子分析(步骤1)因子分析是从众多原始变量中重
5、构出几个有代表性的因子变量的过程。它的潜在要求:原始变量应该有很强的相关性。因此,因子分析需要首先进行相关分析,并计算原始变量之间的相关系数矩阵。如果对相关系数矩阵进行统计检验,大部分相关系数都小于0.3,并且没有通过检验,那么这些原始变量就不适合进行因子分析。在对原始变量进行相关分析之前,需要对输入的原始数据进行标准化(一般采用标准差标准化方法,标准化数据的均值为0,方差为1)。SPSS还提供了几种测试方法来确定其是否适合因子分析。主要有以下三种类型:球形的巴特利特检验反射图像相关矩阵测试(反图像相关矩阵)KMO检验(1)巴特利特球面检验该检验以变量的相关系数矩阵为起点,其零假设是H0是一个
6、单位矩阵,即相关系数矩阵对角线上的所有元素都是1,而非对角线上的所有元素都是0,即原始变量无关。根据相关系数矩阵的行列式,得到了bartlett球面检验的统计量。如果该值很大,并且其对应的伴随概率值小于用户指定的显著性水平,则零假设H0应该被拒绝,并且相关系数不能是单位矩阵,即原始变量之间存在相关性。(2)反射图像相关矩阵的测试在该测试中,以变量的偏相关系数矩阵为起点,对偏相关系数矩阵的每个元素进行求逆,得到反射图像相关矩阵。偏相关系数是在控制其他变量影响的情况下计算的相关系数。如果变量之间有更多的重叠影响,偏相关系数会更小,这些变量更适合于因子分析。(3)KMO(凯泽-迈耶-奥尔金)试验本测
7、试的统计数据用于比较变量之间的简单相关系数和部分相关系数。KMO值在0-1之间,越接近1,表明所有变量间简单相关系数的平方和远大于偏相关系数的平方和,更适合因子分析。其中,凯泽给出了一个KMO测试标准:KMO0.9,非常合适;0.80)和相应的标准正交特征向量李;根据相关系数矩阵的特征根,即共同因子Zj的方差贡献率(等于因子负荷矩阵L第j列元素的平方和),计算共同因子Zj的方差贡献率和累积贡献率。主成分分析是在多维坐标轴上平移由原始变量组成的坐标系,使新的坐标原点与数据组点的重心重合。新坐标第一个轴对应于最大数据变化的方向。通过计算特征根(方差贡献率)、方差贡献率和累积方差贡献率,可以判断所选
8、公共因子的个数以及公共因子(主成分)所能代表的原始变量信息。确定公因子个数的标准:1)根据特征值的大小来确定,一般取几个公因子/主成分对应的特征值大于1。2)根据各因素的累积方差贡献率确定。一般取累计贡献率为85-95%的特征值对应的第一、第二、和m(mp)个主成分。一些学者认为累积方差的贡献率应该在80%以上。5.3因素变量的命名说明因子变量的命名解释是因子分析的另一个核心问题。通过主成分分析获得的公共因子/主成分Z1,Z2,Zm是原始变量的综合。原始变量是具有物理意义的变量。线性变换后新的综合变量的物理意义是什么?在实际应用分析中,因子变量与环境变量的关系计算主分量载荷,构造载荷矩阵。负载
9、矩阵a中的某一行表示原始变量Xi和公共因子/因子变量之间的相关性。负载矩阵a中的一列表示原始变量Xi的信息量,可以用一个公共因子/因子变量来解释。有时因子负荷矩阵的可解释性不是很好,因此通常需要旋转因子以使原始因子变量更易于解释。因子旋转的主要方法是正交旋转和倾斜旋转。正交旋转和斜旋转是因子旋转的两种方法。前者使用最多,因为它保持了坐标轴的正交性。正交旋转的方法有很多,其中最常用的是方差最大化方法。varimax正交旋转的基本思想是最大化公共因子相对载荷的方差之和,并保持原始公共因子的正交性和公共方差之和不变。每个因子上具有最大负载的变量的数量可以被最小化,因此因子的解释可以被简化。斜向旋转经
10、过个斜向旋转因子后,每个因子的负载发生变化,出现极化。这些因素不再相互独立,而是相互关联。每个因素对每个变量的总贡献也发生了变化。由于各种因素之间的相关性,歪斜旋转不受欢迎。然而,如果群体中的因素之间存在明显的相关性,则应考虑偏斜旋转。大数据集的因子分析。无论是正交旋转还是斜旋转,因子旋转的目的都是使因子负载极化,要么接近0,要么接近1。这样原始因子变量就更容易解释了。5.4计算因素变量分数因子变量确定后,对于每个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。因子得分的估计方法主要有回归法、巴特莱法等。要计算因子得分,因子变量应表示为原始变量的线性组合。那就是:回归法,即汤姆
11、逊法:得分来源于贝叶斯思想,所得因子得分有偏差,但计算结果误差较小。BAYES判别思想是根据先验概率寻找后验概率,并根据后验概率分布进行统计推断。巴特利特方法:巴特利特因子得分是一个最大似然估计和加权最小二乘回归。得到的因子得分是无偏的,但计算结果有较大误差。因子得分可用于模型诊断,也可作为原始数据用于进一步分析,如聚类分析和回归分析。因子得分的进一步应用将在案例介绍部分进行分析。5.5结果的分析和解释详见案例分析二、案例分析1个研究问题石家庄市18个县市有14个指标因子,具体为人均国内生产总值(元/人)、全社会人均固定资产投资、城镇人均固定资产投资、人均一般预算收入、第三产业占国内生产总值的
12、比重(%)、人均社会消费品零售总额、人均实际利用外资(万美元/人)、城乡居民人均储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数需要根据这14个项目进行因子分析,得到几个维度较小的因子。2个实施步骤1选择“分析”菜单“数据简化”中的“因子”命令,如下图所示。2在下图所示的因子分析对话框中,从对话框左侧的变量列表中选择这14个变量,并将其添加到变量框中。3点击“描述”按钮,弹出“因素分析:描述”对话框,如图所示。统计框用于选择哪些相关统计,其中:统一描述符:输出变量的均值和标准差;初始解(初始结果)相关矩阵框提供了几种测试变量是否适合引物分析的测试方法,其中包括:系数(相关系数矩阵)显著
13、性水平(显著性水平)行列式(相关系数矩阵的行列式)逆矩阵(相关系数矩阵的逆矩阵)再现(再生相关矩阵,原始相关和再生相关之间的差异)反图像(反图像相关矩阵测试)Kmo和bartlett的球形度检验(KMO检验和Bartlett球形检验)在本例中,选择对话框中的所有选项,然后单击继续按钮返回因子分析对话框。4点击“提取”按钮,弹出“因子分析:提取”对话框,选择因子提取方法,如下图所示:因子提取方法从方法下拉框中选择,SPSS提供了七种方法:主成分分析(主成分分析)未加权最小二乘法广义最小二乘法(集成最小二乘法)最大似然(最大似然估价法)主轴保理(主轴保理)因子分解(因子)图像分解(图像因子)“分析”框用于选择提取变量的基础,其中:相关矩阵(相关系数矩阵)协方差矩阵(协方差矩阵)“提取”框用于指定因子数量的标准,其中:特征值超过(大于特征值)因子数(因子数)显示框用于选择输出哪些与因子提取相关的信息,其中:未旋转因子解(未旋转因子载荷矩阵)屏幕图(特征值排列图)收敛的最大迭代次数框用于指定因子分析收敛的最大迭代次数,默认最大迭代次数为25次。在本例中,选择主成分法,选择相关系数矩阵作为提取因子变量的基础,选择未
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建厦门初二年地理质量检测试卷版无答案
- 精准:胰腺癌靶向护理查房:一例ATM失活突变患者全程管理
- 2026年电子商务物流配送体系优化方案
- 2026年桂林市秀峰区事业编单位人员招聘笔试备考题库及答案详解
- 2026年枣庄市薛城区中小学编制教师招聘笔试备考试题及答案详解
- 2026年黑龙江省哈尔滨市中小学编制教师招聘考试备考试题及答案详解
- 2026年六安市裕安区中小学编制教师招聘笔试参考试题及答案详解
- 2026年宁波市北仑区中小学编制教师招聘笔试参考试题及答案详解
- 2026年山东省济宁市中小学编制教师招聘笔试模拟试题及答案详解
- 2026年辽阳市弓长岭区中小学编制教师招聘笔试备考题库及答案详解
- 网络与信息安全管理员(四级)考试题库及答案
- 《中小学生研学旅行实务》研学旅行指导课程全套教学课件
- DBJ50-T-382-2021 建筑施工升降设备设施安全检验标准
- JT-T-1045-2016道路运输企业车辆技术管理规范
- 天津开发区第一中学2025届高一下生物期末统考试题含解析
- 2024年湖南三一工业职业技术学院单招职业适应性测试题库及答案一套
- 起重机械检测服务起重机械检测服务方案
- 装修工人岗前培训
- 风电工程集电线路施工招标文件范本
- 钢筋工施工详细方案培训
- 办公家具投标方案(技术标)
评论
0/150
提交评论