第6章 因子分析.ppt_第1页
第6章 因子分析.ppt_第2页
第6章 因子分析.ppt_第3页
第6章 因子分析.ppt_第4页
第6章 因子分析.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第6章因子分析,2,在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差.为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息.主成分分析和因子分子正式解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观.,主成分分析和因子分析(PrincipalComponentAnalysis&FactorAnalysis),3,因子分析得到的是什么?,因子分析方法在部分领域应用的一些例子心理学:心理学家瑟斯登对56项测验的得分进行因子分析,得出了7中主要智利因子:词语理解能力,语言流畅能力、计数能力、空间能力、记忆力、知觉速度和推理能力教育学:某师范大学在对以幼儿园36岁幼儿为对象,通过80名幼儿教师对480名幼儿好奇心行为特征描述的开放式问卷调查,编制出60个项目的初始问卷,对500名幼儿的初测结果进行探索性因子分析后,形成了33个项目的正式问卷,对1000名幼儿的评价结果进行验证性因子分析,结果表明:教师评价的36岁幼儿好奇心结构包括敏感、对未知事物的关注、好问、喜欢摆弄、探索持久和好奇体验6个因子,4,因子分析得到的是什么?,医学:一位研究者对山东某县20002002年3年的全死因调查资料中不同地区各恶性肿瘤标化死亡率进行因子分析后发现,该县居民恶性肿瘤的发病和死亡具有明显的地区分布。在地区分布中,各种恶性肿瘤的死亡具有一定程度的聚集性。经因子分析得到的4个主因子可以解释10种恶性肿瘤死亡率的74.54;10种恶性肿瘤中,被解释的比例最小也在62以上;而胃癌、白血病、膀胱癌、乳腺癌、结肠癌死亡率被解释的比例均在77以上,表明这10种恶性肿瘤之间存在中等偏强的内在联系和地区分布特点,5,因子分析得到的是什么?,地质学:海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳起石两种岩石。地质工作者对两种岩石标本的11种化验数据进行了因子分析,分别得到5种和4种主要因子。结果表明,透辉石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉积作用,并据此提出了找矿标志和找矿方向上市公司评价:某研究者选择35家能源类上市公司,根据2007年的12项经营指标数据,采用因子分析法分别按盈利能力、资产管理能力、偿债能力及经营业绩综合评分等方面对35家上市公司进行了排名。其中:盈利能力排在前5位的是:神火股份、海油工程、兰花科创、潞安环能和中国石油;经营业绩综合得分排在前5位的是:神火股份、潞安环能、兰花科创、海油工程和开滦股份.,6,因子分析的意义在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。,7,每个人都会遇到有很多变量的数据。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。,8,6.1因子分析的定义和数学模型,6.1.1统计学上的定义,定义:在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变量进行大量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。,9,因此,有可能用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标称为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。,10,因子分析有如下特点。(1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。(2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。(3)因子变量之间不存在线性相关关系,对变量的分析比较方便。(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。,11,对多变量的平面数据进行最佳综合和简化,即在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理。显然,在一个低维空间解释系统,要比在一个高维系统空间容易得多。,12,因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。,13,英国统计学家MoserScott在1961年对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95%的原始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。,14,6.1.2数学模型,15,16,17,6.1.3因子分析的几个相关概念1、因子载荷在因子不相关的前提下,因子载荷是第i个变量与第j个因子的相关系数。因子载荷越大说明因子与变量的相关性越强,所以因子载荷说明了因子对变量的重要作用和程度。,18,2.共同度量(Communality)3.因子的方差贡献率,(共同度量Communality和公因子的方差贡献率),变量xi的信息能够被k个公因子解释的程度,用k个公因子对第i个变量xi的方差贡献率表示,反映第j个公因子的相对重要程度,该数值越高,说明相应因子的重要性越高。,19,因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤。(1)确定待分析的原有若干变量是否适合于因子分析。(2)构造因子变量。(3)利用旋转使得因子变量更具有可解释性。(4)计算因子变量的得分。,6.1.4因子分析的4个基本步骤,20,因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在因子分析时,需要对原有变量作相关分析。,确定待分析的原有若干变量是否适合于因子分析,21,因子分析的前提条件1、计算相关系数并进行统计检验如果相关系数矩阵中的大部分相关系数小于0.3,那么这些变量不适合进行因子分析。2、计算反映象相关矩阵,22,3、Bartletts球度检验以原有变量的相关系数矩阵为出发点,假设相关系数为单位(各变量是独立的),如果该检验对应的P值小于给定的显著性水平a,则应拒绝原假设,认为原有变量适合进行因子分析。4、KMO检验该统计量取值在0-1之间,越接近于1说明变量间的相关性越强,原有变量适合做因子分析。0.9以上表示非常合适;0.8-0.9表示合适;0.7-0.8表示一般;0.6-0.7表示尚可;0.5-0.6表示不太合适;0.5以下表示极不合适。,23,因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一。下面以该方法为对象进行分析。,构造因子变量,24,主成份分析法通过坐标变换的手段,将原有的p个变量标准化后进行线性组合,转换成另一组不相关的变量y,即:,p,25,式中的系数按以下原则进行求解:(1)(2)根据以上原则确定的变量依次为原始变量的第1、第2第p个主成分。其中第一个主成分在总方差中所占比例最大,其余主成分在总方差中所占比例依次递减,即主成分综合原始变量的能力依次减弱。在主成份的实际应用中,一般只选取前面几个主成分即可,这样既减少了变量的数目,又能够用较少的主成分反映原始变量的绝大部分信息。,26,最经典的方法就是用方差来表达,即var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称之为第一主成分(principalcomponentI)。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。F2称为第二主成分(principalcomponentII)。F1和F2的关系?,基本思想,27,为了有效地反映原来信息,F1已有的信息就不再出现在F2中,即cov(F1,F2)0。依此类推,可以获得p个主成分。因此,这些主成分之间是互不相关的,而且方差依次递减。在实际中,挑选前几个最大主成分来表征。标准?,基本思想,28,因子个数的确定方法:(1)根据特征根确定因子数:一般选取大于1的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数;(2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征根个数为因子个数。,29,SPSS还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图(ScreePlot)从碎石图可以看到6个主轴长度变化的趋势实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可,根据什么选择主成分?(ScreePlot),拐点,30,怎样解释主成分?,主成分的因子载荷矩阵,表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数uij比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大,31,32,33,可见,主成分分析关键的步骤是如何求出上述方程中的系数。通过方程的推导可以发现,每个方程中的系数向量是原始变量相关系数矩阵的特征值对应的特征向量。具体求解步骤如下:(1)将原有变量进行标准化处理;(2)计算变量的相关系数矩阵;(3)求相关系数矩阵的的特征根及对应的特征向量,34,因子变量的命名解释,35,旋转,满足模型要求的共性因子并不唯一。旋转是一种坐标变换。只要对初始共性因子进行旋转,就可以获得一组新的共性因子。旋转后的新坐标中,因子载荷重新分配,合公因子负荷系数向更大(1)或更小(0)变化,这样对公因子的命名和解释更容易。,36,因子旋转(factorrotation)的目的是使因子的含义更加清楚,以便于对因子的命名和解释旋转的方法有正交旋转和斜交旋转两种正交旋转是指坐标轴始终保持垂直90度旋转,这样新生成的因子仍可保持不相关斜交旋转坐标轴的夹角可以是任意的,因此新生成的因子不能保证不相关。因此实际应用中更多地使用正交旋转SPSS提供5种旋转方法,其中最常用的是Varimax(方差最大正交旋转)法,(因子命名旋转),37,Varimax(方差最大正交旋转):最常用的旋转方法。使各因子保持正交状态,但尽量使各因子的方法达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释Quartimax(四次方最大正交旋转):该方法倾向于减少和每个变量有关的因子数,从而简化对原变量的解释Equamax(平方最大正交旋转):该方法介于方差最大正交旋转和四次方最大正交旋转之间DirectOblimin(斜交旋转):该方法需要事先指定一个因子映像的自相关范围Promax:该方法在方差最大正交旋转的基础上进行斜交旋转,(因子命名旋转),38,计算因子得分是因子分析的最后一步。因子变量确定以后,对每一样本数据,希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。有了因子得分,在以后的研究中,就可以针对维数少的因子得分来进行。,计算因子得分,39,上机操作流程,主成分分析,实现步骤:1.创建数据集或打开现成的数据集。2.AnalyzeDatareductionFactor.,FactorAnalysis对话框,FactorAnalysis:Descriptive对话框,因子提取前,分析变量的公因子方差,原始变量的描述性统计量,行列矩阵,相关矩阵栏,相关系数矩阵,相关系数为0的单尾假设检验的显著性水平,相关系数矩阵逆矩阵,再生相关矩阵,反映像相关矩阵,FactorAnalysis:Extraction对话框,主成分法,不加权最小平方法,变量值的倒数加权,最大似然,显示按特征值大小排列因子,因子分析停止的最大迭代次数,综合最小平方法,主轴因子法,FactorAnalysis:Rotation对话框,方差最大旋转,直接斜交旋转,四次最大正交旋转,平均正交旋转,斜交旋转,因子载荷散点图,FactorAnalysis:FactorScores对话框,在输出窗口中显示因子得分系数矩阵,FactorAnalysis:Options对话框,不显示那些绝对值小于指定值的载荷系数,公因子方差分析表,总方差分解,主成分载荷矩阵,计算实现与结果讨论,第一主成分的表达式第二主成分的表达式其中,xi为标准化的数值。,计算实现与结果讨论,主成分总得分的表达式,因子分析,实现步骤:1.创建数据集或打开现成的数据集。2.AnalyzeDatareductionFactor.,FactorAnalysis对话框,FactorAnalysis:Descriptive对话框,因子提取前,分析变量的公因子方差,原始变量的描述性统计量,行列矩阵,相关矩阵栏,相关系数矩阵,相关系数为0的单尾假设检验的显著性水平,相关系数矩阵逆矩阵,再生相关矩阵,反映像相关矩阵,FactorAnalysis:Extraction对话框,FactorAnalysis:Rotation对话框,方差最大旋转,直接斜交旋转,四次最大正交旋转,平均正交旋转,斜交旋转,因子载荷散点图,FactorAnalysis:FactorScores对话框,在输出窗口中显示因子得分系数矩阵,FactorAnalysis:Options对话框,不显示那些绝对值小于指定值的载荷系数,原始变量的相关系数矩阵,61,变量共同度,所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的,62,特征值,特征值碎石图,载荷矩阵,福利条件因子,人口因子,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论