




已阅读5页,还剩64页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五部分 因子分析本部分内容:一、主成分分析二、因子分析 三、SPSS操作路径一、主成分分析(一)一个简化分析事例 1、坐标变换假定小学某班级学生的语文成绩(X1)数学成绩(X2)的相关系数r12 = 0.6,且X1和X2都是标准化分数,其散点图如图1所示。现通过旋转(X1,X2)变换出新坐标(Y1,Y2),使新坐标的Y1轴对准散点分布方差最大的方向。下面给出由原坐标系(X1,X2)变换为新坐标系(Y1,Y2)的方法。椭圆较长的直径的方差的65%,则可进行变量简化。把变量标准化,即方差。 图1 图2记随机矢量X=(X1,X2)的协方差矩阵为,则 =设u是以为特征值的特征矢量矩阵,把上述结果代入特征值矩阵方程(I)u = 0,得, 。得方程组 (1)u1 + 0.6u2 = 0, 0.6u1+(1)u2 = 0。要使该方程组有非零解,系数行列式必须为零,故 。由此解得特征值的两个取值 1 = 1.6, 2 = 0.4。代入原方程组,取 特征矢量为单位矢量,即要求 求得对应的特征矢量 =(u11,u21)=(), =(u12,u22)=()。最后求得新坐标系(Y1,Y2)与原坐标系(X1,X2)的关系为 , 。结果显示,新坐标是通过原坐标逆时针旋转45得到的。如此求得的新坐标即可满足“Y1轴对准散点分布方差最大的方向”这一要求。2、特征值i与散点分布方差的关系矢量Y1和Y2的方差的计算公式为Var(Y1)= Var(X)= ,其中为协方差矩阵。同理Var(Y2)= Var(X)= 。上述结果表明,散点分布的最大变差方向由变换所得到的特征向量Y1给定,而相应的特征值1和2刻画了与各特征向量Y1和Y2对应的散点分布方差。并且,散点分布在Y1方向上的方差占全部方向Y1和Y2上的方差的比例为。也就是说,散点分布变差特点的80%可以在Y1方向得到解释,而Y2方向只占20%。Y1就是本例中的第一主成分。 (思考:在原坐标系中,散点分布变差的特点在X1和X2方向上的情况如何?)(二)主成分的一般推导1、主成分的三个特征寻找主成分的目的,是为了根据原有统计指标体系(即原有坐标系),建立更加符合数据散点分布特征的新坐标系,在保证大部分统计信息得到反映的前提下,选择尽可能少的统计指标,简化统计描述,使统计数据中隐含的因果性因素更为清晰。主成分分析就是要揭示统计数据的变差主要出现在哪些方向上,然后选择这些方向作为简化的新坐标,用以描述统计数据的多维分布特征。因此,主成分应满足以下三个特征:(1)在p个指标Xi(i = 1,2,3,p)的统计描述体系X中,表征主成分的特征矢量Yi应为原坐标Xi的线性组合,若记Yi在Xi中的分量为,则 这一要求的意思是,新坐标只能由原坐标轴产生,而不能撇开原坐标的统计内容不顾。这是为了保证,新坐标表征的统计体系在内容上与原坐标表征的统计体系相同,改变仅限于描述方式的不同。(2),即,其中i = 1,2,3,p(该要求在求解i时自然满足),并且,相应的Yi的p个特征值i中的少数几个已包含绝大部分可解释的方差。这一要求的含义是,特征矢量为单位矢量,其中少数几个穿过数据散点分布方差较大的方向,用新坐标Yi描写数据的统计特征时,只需采用其中这些穿过数据散点分布方差较大方向的新坐标就足以描述绝大部分变差的情况,从而可以比原坐标Xi的描述简化。能否实现这一要求,须由实际的推导决定。(3)Yi和Yj(ij)相互无关(正交),即新坐标轴两两独立。以数学方式表述为协方差Cov(Yi , Yj) = 0, ij。这一要求,在运用标准化数据的相关矩阵求解特征值i和特征矢量Yi的过程中,将自然得到满足,无须特别处理。2、主成分的导出步骤综上所述,主成分可以通过以下步骤求解:(1)把数据标准化,写出标准化数据矩阵X;(2)写出相关系数矩阵:(3)通过矩阵方程(I)u = 0 求出特征值i和特征矢量Yi。特征值一般按以下规则命名:。此时,主成分已按从大到小排列的顺序求出。(4)利用特征值从大到小累计,计算前m个特征值累计可解释的方差在总方差中所占的比例:, 然后根据研究目的确定可选择哪些主成分而略去另外哪一些主成分,最后用于统计数据分析。(三)主成分分析应用举例(四)主成分分析小结1、主成分分析适用于为简化数据结构提供方向性依据,方法是将原有的众多变量转化为几个综合变量,并保证原有的大部分统计信息(以累计方差衡量)在综合变量中同样得到反映。2、主成分分析具有明确的几何意义,它通过把坐标轴旋转获得新坐标,并使新坐标轴的方向与数据分布变差最大的方向一致。可以证明协方差矩阵(或相关矩阵)的单位特征向量的方向就是新坐标轴的方向。3、主成分分析在各变量间的相关关系比较密切时才会有明显价值,此时,数学上表现为各特征值相差较大。一般,特征值差异越大(表现为累计方差集中在少数几个统计指标上),主成分分析的效果越好。一、因子分析如果统计体系中的某些统计描述指标具有很强的相关性,在这些强相关的统计指标中,统计对象在某一个统计指标上的状况即可表明该对象在其他指标的大部分状况,从而,可以把这些强相关的统计指标合并在一起,更为清晰地反映统计对象的特征,使统计系统得以简化和基本变量结构更加明确。(一)因子分析的基本思想 (二)因子分析的数学模型(三)公共载荷的求解主成分法载荷矩阵A的意义:(四)因子旋转因子旋转的目的是要弄清公共因子在原变量系统中的概括含义。公共因子在原变量体系中的不同负荷绝对值(投影长度)越大,公共因子与这些变量的联系就越密切。所谓旋转,就是把某一公共因子中的变量旋转到某些原变量的最大投影方向。如果无论怎样旋转,因子负荷在原变量中的投影始终相差不远,因子分析就没有多大意义了。所以,在有意义的因子分析中,旋转后的因子负荷矩阵应满足以下要求:1、每一列上多数因子负荷取值接近与零; 2、每一列上只有少数的因子负荷取较大值;3、每两列中,因子负荷较大和较小的排列结构明显不同。满足上述要求时,因子分析将可以得到明确而简明的解释。最常用的因子旋转方法是“方差最大正交旋转”。具体运算此处不作介绍。二、因子分析应用举例仍以30个省市自治区经济发展基本情况的统计数据为例。计算步骤:附录:通过项目剔除获得高质量的因子分析结果以某事业单位员工福利满意度调查为例,对样本数据运用主成分法进行探索性因素分析。问卷内容如下:下面的项目是对您单位福利状况的一些描述,请您仔细阅读每一个句子,然后根据自己的实际情况对每一项目做出评定,从1到5表示对您情况描述的同意程度,请您在相应的程度升划。答案无对错、优劣之分,请根据您的实际情况填写。其中:1=完全不同意,2=比较不同意,3=介于同意与不同意之间,4=比较同意,5=完全同意。题号内容完全不同意比较不同意介于同意与不同意之间比较同意完全同意1单位所提供得福利基本上满足了我的需求和期望123452单位提供的福利措施使我感到工作和生活上有了保障123453我感觉我享受到的福利价值比较高123454从这些福利中,能体会到了单位对我的关怀123455我清楚自己享有的福利项目所花的费用是多少123456我很满意单位为我提供福利所支付的金额123457我认为福利占我的整体收入的比例很合理123458本单位为员工提供了丰富的个性化福利项目123459单位为我提供了丰富的经济性福利(如退休金、团体保险、伤病救助贷款、分红入股、休假给予的报酬等)1234510单位为我提供了丰富的娱乐性福利(如旅游、运动会、社团活动、晚会、书报杂志词阅、演讲和座谈、电影欣赏等)1234511单位为我提供了丰富的设施性福利(体育设施、休闲设施、员工宿舍和餐饮、医疗卫生设施、免费停车场等)1234512单位为我提供了丰富的员工服务福利(职业生涯规划、员工法律咨询、员工投资咨询、弹性工作时间、培训等)1234513本单位能把福利制度及相关措施清楚的告知员工1234514我很了解本单位各项的福利措施,并能很快的列举出1234515本单位经常请一些员工来参与讨论有关福利的各项问题1234516对单位福利有疑问或意见时,我有很多途径向上级反映1234517福利计划一旦有变动,单位会及时告诉我12345第一次因子分析为验证本实验数据是否适合进行因素分析,对数据进行了Bartlett球形检验和KMO取值。表1. 第一次因子分析的KMO值和Bartletts球形检验的2值(n=256)Kaiser-Meyer-Olkin样本适当性度量0.946Bartlett球形检验近似卡方分布3239.091自由度136显著性水平0.000如表4.2所示,样本的KMO值为0.946,Bartletts球形检验的2值为3232.091,伴随概率小于0.001,达到非常显著水平,表明数据适合进行因素分析。在进行了因素分析的适合性分析之后,接下来就要进行因素分析的具体研究。运用主成分法抽取共同因素,结合最大方差法进行正交旋转处理,提取特征值大于1的因子,结果发现特征值大于1的公共因子共有3个,这3个公共因子累计解释率达70.892%,所有题项共同度均大于0.5。结果如表4.3和表4.4所示。表1-1 第一次因子分析的总体变异解释率(n=256)因子 初始特征值平方和负荷萃取转轴平方和负荷量总和方差%累计%总和方差%累计%总和方差%累计%19.51355.96055.9609.51355.96055.9604.82528.38428.38421.4008.23464.1941.4008.23464.1943.69721.75050.13431.1396.69870.8921.1396.69870.8923.52920.75870.89240.6793.99674.887 50.5923.48378.371 60.5233.07881.449 70.4362.56584.014 80.3992.34986.363 90.3732.19488.557 100.3291.93790.494 110.2911.71292.205 120.2851.67693.882 130.2561.50395.385 140.2351.38496.768 150.2001.17597.944 160.1831.07899.022 170.166.978100.00 表1-2 第一次因子分析的转轴后因素矩阵及共同度(n=256) 因子 123共同度S20.836 0.780S10.828 0.788S30.784 0.773S40.774 0.748S60.733 0.776S70.665 0.666S17 0.803 0.707S13 0.785 0.743S14 0.700 0.641S15 0.5980.5520.734S50.4080.589 0.514S160.4630.578 0.659S10 0.8250.755S11 0.8020.771S12 0.4700.6560.720S90.470 0.6170.616S80.484 0.5540.662注:表中因子载荷值小于0.4者不被显示由表4.4因素分析的结果显示,题项S15、S5、S16、S12、S9、S8具有多重负荷。其中S15不仅具有多重负荷,且负荷值比较接近,所以删除S15题项,再进行因子分析。第二次因子分析表 2. 第二次因子分析的总体变异解释率(n=256)因子 初始特征值平方和负荷萃取转轴平方和负荷量总和方差%累计%总和方差%累计%总和方差%累计%18.91355.70455.7048.91355.70455.7044.82830.17730.17721.3168.22663.9291.3168.22663.9293.30520.65550.83231.1357.09571.0251.1357.09571.0253.23120.19371.02540.6644.14875.173 50.5633.52278.694 60.5113.19581.890 70.4362.72684.615 80.3992.49587.110 90.3372.10889.218 100.3292.05891.276 110.2881.80193.077 120.2811.75994.836 130.2471.54496.380 140.2261.41397.793 150.1851.15898.951 160.1681.049100.000 表 2-1 第二次因子分析的转轴后因素矩阵及共同度(n=256)题项 因子123共同度S20.833 0.773S10.823 0.781S30.783 0.771S40.777 0.747S60.743 0.777S70.678 0.668S17 0.808 0.719S13 0.797 0.770S14 0.713 0.661S50.4240.576 0.512S160.4810.563 0.652S10 0.8380.777S11 0.8080.781S12 0.4580.6460.706S90.469 0.6200.651S80.506 0.5370.618注:表中因子载荷值小于0.4者不被显示由第二次因子分析结果表4.5可看出,总体变异解释率达71.025%(即删除S15题项后略有上升),所以删去S15题项是可取的。表4.6结果显示,题项S5、S16、S12、S9、S8仍然具有多重负荷。其中S8负荷值比较接近,所以删除S8题项,再进行因子分析。第三次因子分析表 3. 第三次因子分析的总体变异解释率(n=256)因子初始特征值平方和负荷率转轴平方和负荷量 总和方差%累计%总和方差%累计%总和方差%累计%18.31455.42855.4288.31455.42855.4284.63330.88830.88821.3168.77464.2021.3168.77464.2023.24321.61752.50431.1197.45771.6601.1197.45771.6602.87319.15571.66040.6514.34276.002 50.5543.69379.694 60.4723.14682.841 70.4342.89385.734 80.3492.32488.058 90.3372.24590.303 100.3292.19492.497 110.2821.87994.376 120.2471.64796.023 130.2261.50997.532 140.1931.28498.816 150.1781.184100.000 表3-1 第三次因子分析转轴后的因素矩阵及共同度(n=256)题项 因子123共同度S20.836 0.778S10.826 0.783S30.787 0.772S40.783 0.755S60.746 0.772S70.681 0.665S17 0.808 0.718S13 0.800 0.770S14 0.712 0.662S50.4230.582 0.519S160.4840.568 0.652S10 0.8440.794S11 0.8090.793S12 0.4670.6310.699S90.477 0.6110.618注:表中因子载荷值小于0.4者不被显示由第三次因子分析结果表4.7可看出,总体变异解释率达71.660%(删除S8题项后略有上升),所以删去S8题项是可取的。表4.8结果显示,题项S5、S16、S12、S9仍然具有多重负荷。其中S16负荷值比较接近,所以删除S16题项,再进行因子分析。第四次因子分析表4. 第四次因子分析的总体变异解释率(n=256)因子初始特征值平方和负荷萃取转轴平方和负荷量 总和方差%累计%总和方差%累计%总和方差%累计%17.72555.17855.1787.72555.17855.1784.45731.83431.83421.3059.32064.4991.3059.32064.4992.87820.55652.39031.1077.90472.4031.1077.90472.4032.80220.01372.40340.6514.65277.055 50.5213.72380.778 60.4713.36384.141 70.3912.79586.936 80.3462.46889.404 90.3322.37391.777 100.2882.05893.835 110.2601.85695.692 120.2311.65097.341 130.1941.38798.729 140.1781.271100.000 表4-1 第四次因子分析转轴后的因素矩阵及共同度(n=256) 题项因子 123共同度S20.839 0.780S10.829 0.787S30.790 0.775S40.785 0.757S60.750 0.768S70.684 0.658S13 0.809 0.791S17 0.804 0.718S14 0.708 0.665S50.4320.584 0.527S10 0.8470.795S11 0.8110.794S12 0.4660.6330.704S90.478 0.6100.616注:表中因子载荷值小于0.4者不被显示由第四次因子分析结果表4.9可看出,总体变异解释率达72.403%(删除S16题项后略有上升),所以删去S16题项是合理的。表4.10结果显示,题项S5、S12、S9仍然具有多重负荷。其中S9负荷值比较接近,所以删除S9题项,再进行因子分析。第五次因子分析经过多次探索,最后剩下了13个项目。对这13个项目进行因素分析,采用主成分分析中的方差最大正交旋转,所得的统计结果表明,事业单位员工福利满意度的内容结构呈现清晰的三因子结构,由表4.11可知KMO值为0.928,Bartletts球形检验的2值为2295.004,伴随概率小于0.001,由表4.12可知总方差解释率达到73.653%,各项目的因子负荷、共同度及方差解释率见表4.13。表5. 第五次因子分析的KMO值和Bartletts球形检验的2值(n=256)Kaiser-Meyer-Olkin样本适当性度量0.928Bartlett球形检验近似卡方分布2295.004自由度7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态公园规划2025:初步设计评估与生态旅游可持续发展路径报告
- 休闲食品健康化转型与市场拓展中的健康食品评价体系研究
- 时尚零售业快时尚模式变革下的数字化转型与数据驱动决策报告
- 老年教育课程设置与教学方法创新实践中的教育评价改革与创新案例分析报告
- 2025年土壤污染修复技术土壤修复设备投资回报率研究报告
- 医院信息化建设2025年关键:电子病历系统优化与患者隐私保护报告
- 2025年老年教育课程设置创新与情景模拟教学方法实践分析
- 2025年工业互联网平台数据备份与恢复策略在航空航天行业的应用研究报告
- 读书带给我的快乐6篇
- 旭阳化工设备管理制度
- 基层公共法律服务的困境与改进对策研究
- 残疾人电子商务培训
- GB/T 45148-2024数字文化馆资源和技术基本要求
- 2024-2025学年度第一学期七年级英语期末试卷
- 2025年春新北师大版数学一年级下册课件 综合实践 设计教室装饰图
- 2025年陕西延长石油集团矿业公司招聘笔试参考题库含答案解析
- 2024-2025学年度四川省宜宾市普通高中高一第一学期期末考试历史试题
- 云南教育强省建设规划纲要(2024-2035年)知识培训
- QC/T 1211-2024乘用车车门内开拉手总成
- 2025年江苏省建筑安全员A证考试题库及答案
- 2025版国家开放大学法学本科《知识产权法》期末纸质考试第五大题案例分析题题库
评论
0/150
提交评论