主成分分析和因子分析ppt课件_第1页
主成分分析和因子分析ppt课件_第2页
主成分分析和因子分析ppt课件_第3页
主成分分析和因子分析ppt课件_第4页
主成分分析和因子分析ppt课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析 (方法与案例) 作者 贾俊平 统计学 统统 计计 学学 12 - 2 统计学 STATISTICS (第四版) * 模型选择是艺术,而不是科学。模型选择是艺术,而不是科学。 William NavidiWilliam Navidi 统计名言统计名言 第 12 章 主成分分析和因子分析 12.112.1 主成分分析主成分分析 12.2 12.2 因子分析因子分析 12 - 4 统计学 STATISTICS (第四版) * 学习目标学习目标 l l 主成分分析和因子分析的基本原理主成分分析和因子分析的基本原理 l l 主成分分析和因子分析的异同主成分分析和因子分析的异同 l l 主成分分析和因子分析的数学模型主成分分析和因子分析的数学模型 l l 用用SPSSSPSS进行主成分分析和因子分析进行主成分分析和因子分析 l l 用主成分分析和因子分析对实际问题进行用主成分分析和因子分析对实际问题进行 综合评价综合评价 12 - 5 统计学 STATISTICS (第四版) * n n 在研究实际问题时,往往需要收集多个变量。但这在研究实际问题时,往往需要收集多个变量。但这 样会使多个变量间存在较强的相关关系,即这些变样会使多个变量间存在较强的相关关系,即这些变 量间存在较多的信息重复,直接利用它们进行分析量间存在较多的信息重复,直接利用它们进行分析 ,不但模型复杂,还会因为变量间存在多重共线性,不但模型复杂,还会因为变量间存在多重共线性 而引起较大的误差而引起较大的误差 n n 为能够充分利用数据,通常希望用较少的新变量代为能够充分利用数据,通常希望用较少的新变量代 替原来较多的旧变量,同时要求这些新变量尽可能替原来较多的旧变量,同时要求这些新变量尽可能 反映原变量的信息反映原变量的信息 n n 主成分分析和因子分子正式解决这类问题的有效方主成分分析和因子分子正式解决这类问题的有效方 法。它们能够提取信息,使变量简化降维,从而使法。它们能够提取信息,使变量简化降维,从而使 问题更加简单直观问题更加简单直观 主成分分析和因子分析主成分分析和因子分析 (principal component analysis & factor analysis)(principal component analysis & factor analysis) 12 - 6 统计学 STATISTICS (第四版) 12 - 7 统计学 STATISTICS (第四版) 12 - 8 统计学 STATISTICS (第四版) * 因子分析得到的是什么?因子分析得到的是什么? l l 地质学:地质学:海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳 起石两种岩石。地质工作者对两种岩石标本的起石两种岩石。地质工作者对两种岩石标本的1111种化验数据进种化验数据进 行了因子分析,分别得到行了因子分析,分别得到5 5种和种和4 4种主要因子。结果表明,透辉种主要因子。结果表明,透辉 石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉 积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质 成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉 积作用,并据此提出了找矿标志和找矿方向积作用,并据此提出了找矿标志和找矿方向 l l 上市公司评价:上市公司评价:某研究者选择某研究者选择3535家能源类上市公司,根据家能源类上市公司,根据 20072007年的年的1212项经营指标数据,采用因子分析法分别按盈利能项经营指标数据,采用因子分析法分别按盈利能 力、资产管理能力、偿债能力及经营业绩综合评分等方面对力、资产管理能力、偿债能力及经营业绩综合评分等方面对3535 家上市公司进行了排名。其中:盈利能力排在前家上市公司进行了排名。其中:盈利能力排在前5 5位的是:神位的是:神 火股份、海油工程、兰花科创、潞安环能和中国石油;经营业火股份、海油工程、兰花科创、潞安环能和中国石油;经营业 绩综合得分排在前绩综合得分排在前5 5位的是:神火股份、潞安环能、兰花科创位的是:神火股份、潞安环能、兰花科创 、海油工程和开滦股份、海油工程和开滦股份 12.1 12.1 主成分分析主成分分析 1 12.1.1 2.1.1 主成分分析的基本原理主成分分析的基本原理 12.1.2 12.1.2 主成分分析的数学模型主成分分析的数学模型 12.1.3 12.1.3 主成分分析的步骤主成分分析的步骤 第第 12 12 章章 主成分分析和因子分析主成分分析和因子分析 12.1.1 12.1.1 主成分分析的基本原理主成分分析的基本原理 12.1 12.1 主成分分析主成分分析 12 - 11 统计学 STATISTICS (第四版) * n n 主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出 n n 考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法 n n 研究如何通过少数几个主成分研究如何通过少数几个主成分(principal (principal component)component)来解释多个变量间的内部结构。即从来解释多个变量间的内部结构。即从 原始变量中导出少数几个主分量,使它们尽可能原始变量中导出少数几个主分量,使它们尽可能 多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关 n n 主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释 l l 常被用来寻找判断事物或现象的综合指标,并对综常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释合指标所包含的信息进行适当的解释 什么是主成分分析?什么是主成分分析? (principal component analysis)(principal component analysis) 12 - 12 统计学 STATISTICS (第四版) * n n 对这两个相关变量所携带的信息对这两个相关变量所携带的信息( (在统计上信息往往是在统计上信息往往是 指数据的变异指数据的变异) )进行浓缩处理进行浓缩处理 n n 假定只有两个变量假定只有两个变量x x 1 1 和和x x 2 2 ,从散点图可见两个变量存,从散点图可见两个变量存 在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠 主成分分析的基本思想主成分分析的基本思想 ( (以两个变量为例以两个变量为例) ) n n 如果把两个变量用如果把两个变量用 一个变量来表示,一个变量来表示, 同时这一个新的变同时这一个新的变 量又尽可能包含原量又尽可能包含原 来的两个变量的信来的两个变量的信 息,这就是降维的息,这就是降维的 过程过程 12 - 13 统计学 STATISTICS (第四版) * n n 椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据 的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小 n n 如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量 和原始变量间存在一定的数学换算关系,同时这两个新变量之和原始变量间存在一定的数学换算关系,同时这两个新变量之 间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而而 主成分分析的基本思想主成分分析的基本思想 ( (以两个变量为例以两个变量为例) ) 短轴变量只携带了一小短轴变量只携带了一小 部分变化的信息部分变化的信息( (变异变异) ) n n 此时,只需要用长轴方此时,只需要用长轴方 向的变量就可以代表原向的变量就可以代表原 来两个变量的信息。这来两个变量的信息。这 样也就把原来的两个变样也就把原来的两个变 量降维成了一个变量。量降维成了一个变量。 长短轴相差越大,降维长短轴相差越大,降维 也就越合理也就越合理 12 - 14 统计学 STATISTICS (第四版) * n n 多维变量的情形类似,只不过是一个高维椭球,无法多维变量的情形类似,只不过是一个高维椭球,无法 直观地观察直观地观察 n n 每个变量都有一个坐标轴,所以有几个变量就有几主每个变量都有一个坐标轴,所以有几个变量就有几主 轴。首先把椭球的各个主轴都找出来,再用代表大多轴。首先把椭球的各个主轴都找出来,再用代表大多 数数据信息的最长的几个轴作为新变量,这样,降维数数据信息的最长的几个轴作为新变量,这样,降维 过程也就完成了过程也就完成了 主成分分析的基本思想主成分分析的基本思想 ( (以两个变量为例以两个变量为例) ) n n 找出的这些新变量找出的这些新变量 是原来变量的线性是原来变量的线性 组合,叫做主成分组合,叫做主成分 12.1.2 12.1.2 主成分分析的数学模型主成分分析的数学模型 12.1 12.1 主成分分析主成分分析 12 - 16 统计学 STATISTICS (第四版) * n n 数学上的处理是将原始的数学上的处理是将原始的p p个变量作线性组合,作为新的个变量作线性组合,作为新的 变量变量 n n 设设p p个原始变量为个原始变量为 ,新的变量,新的变量( (即主成分即主成分) ) 为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为 主成分分析的数学模型主成分分析的数学模型 主成分分析的数学模型 aij为第i个主成分yi和原 来的第j个变量xj之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数,a21表示第2主成分 和原来的第1个变量之间 的相关系数 12 - 17 统计学 STATISTICS (第四版) * n n 选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么? n n 被选的主成分所代表的主轴的长度之和占了主轴被选的主成分所代表的主轴的长度之和占了主轴 总程度之和的大部分总程度之和的大部分 n n 在统计上,主成分所代表的原始变量的信息用其在统计上,主成分所代表的原始变量的信息用其 方差来表示。因此,所选择的第一个主成分是所方差来表示。因此,所选择的第一个主成分是所 有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(y i i ) )最大最大 n n 如果第一个主成分不足以代表原来的个变量,在如果第一个主成分不足以代表原来的个变量,在 考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推 n n 这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减 主成分的选择主成分的选择 12 - 18 统计学 STATISTICS (第四版) * n n 究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢? n n 一般要求所选主成分的方差总和占全部方差的一般要求所选主成分的方差总和占全部方差的 80%80%以上就可以了。当然,这只是一个大体标准以上就可以了。当然,这只是一个大体标准 ,具体选择几个要看实际情况,具体选择几个要看实际情况 n n 如果原来的变量之间的相关程度高,降维的效果如果原来的变量之间的相关程度高,降维的效果 就会好一些,所选的主成分就会少一些,如果原就会好一些,所选的主成分就会少一些,如果原 来的变量之间本身就不怎么相关,降维的效果自来的变量之间本身就不怎么相关,降维的效果自 然就不好然就不好 n n 不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了 主成分的选择主成分的选择 12.1.3 12.1.3 主成分分析的步骤主成分分析的步骤 12.1 12.1 主成分分析主成分分析 12 - 20 统计学 STATISTICS (第四版) * n n 对原来的对原来的p p个指标进行标准化,以消除变量个指标进行标准化,以消除变量 在水平和量纲上的影响在水平和量纲上的影响 n n 根据标准化后的数据矩阵求出相关系数矩根据标准化后的数据矩阵求出相关系数矩 阵阵 n n 求出协方差矩阵的特征根和特征向量求出协方差矩阵的特征根和特征向量 n n 确定主成分,并对各主成分所包含的信息确定主成分,并对各主成分所包含的信息 给予适当的解释给予适当的解释 主成分分析的步骤主成分分析的步骤 12 - 21 统计学 STATISTICS (第四版) * 【例例12-112-1】根据我国根据我国3131个省市自治区个省市自治区20062006年的年的6 6 项主要经济指标数据,进行主成分分析,找出项主要经济指标数据,进行主成分分析,找出 主成分并进行适当的解释主成分并进行适当的解释 主成分分析主成分分析 ( (实例分析实例分析) ) 3131个地区的个地区的6 6项经济指标项经济指标 12 - 22 统计学 STATISTICS (第四版) * 第1步 选择【Analyze】下拉菜单,并选择【Data Reduction- Factor】,进入主对话框 第2步 在主对话框中将所有原始变量选入【Variables】 第3步 点击【Descriptives】,在【correlation Matrix】下选择 【Coefficirnts】,点击【Continue】回到主对话框 第4步 点击【Extraction】,在【Display】下选择【Scree Plot】,点击【Continue】回到主对话框 第5步 点击【Rotation】,在【Display】下选择【Loading Plot】,点击【Continue】回到主对话框 点击【OK】 用用SPSSSPSS进行主成分分析进行主成分分析 主成分分析主成分分析 12 - 23 统计学 STATISTICS (第四版) * SPSSSPSS的输出结果的输出结果 各变量之间的相关系数矩阵各变量之间的相关系数矩阵 变量之间的存在较强的相关关系,适合作主成分分析 12 - 24 统计学 STATISTICS (第四版) * SPSSSPSS的输出结果的输出结果 ( (选择主成分选择主成分) ) 各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差 该表是选择主成分的主要依据 12 - 25 统计学 STATISTICS (第四版) * n n “ “Initial EigenvaluesInitial Eigenvalues” ”( (初始特征根初始特征根) ) l l 实际上就是本例中的实际上就是本例中的6 6个主轴的长度个主轴的长度 l l 特征根反映了主成分对原始变量的影响程度,表示引入特征根反映了主成分对原始变量的影响程度,表示引入 该主成分后可以解释原始变量的信息该主成分后可以解释原始变量的信息 l l 特征根又叫特征根又叫方差方差,某个特征根占总特征根的比例称,某个特征根占总特征根的比例称为主为主 成分方差贡献率成分方差贡献率 l l 设特征根为设特征根为 ,则第,则第i i个主成分的方差贡献率为个主成分的方差贡献率为 l l 比如,第一个主成分的特征根为比如,第一个主成分的特征根为3.9633.963,占总特征根的的,占总特征根的的 比例比例( (方差贡献率方差贡献率) )为为66.052%66.052%,这表示第一个主成分解释,这表示第一个主成分解释 了原始了原始6 6个变量个变量66.052%66.052%的信息,可见第一个主成分对原的信息,可见第一个主成分对原 来的来的6 6个变量解释的已经很充分了个变量解释的已经很充分了 根据什么选择主成分?根据什么选择主成分? 12 - 26 统计学 STATISTICS (第四版) * n n 根据主成分贡献率根据主成分贡献率 l l 一般来说,主成分的累计方差贡献率达到一般来说,主成分的累计方差贡献率达到80%80%以上的前以上的前 几个主成分,都可以选作最后的主成分几个主成分,都可以选作最后的主成分 l l 比如表比如表13.313.3中前两个主成分的累计方差贡献率为中前两个主成分的累计方差贡献率为95.57%95.57% n n 根据特特征根的大小根据特特征根的大小 l l 一般情况下,当特征根小于一般情况下,当特征根小于1 1时,就不再选作主成分了,时,就不再选作主成分了, 因为该主成分的解释力度还不如直接用原始变量解的释因为该主成分的解释力度还不如直接用原始变量解的释 力度大力度大 l l 比如表比如表13.313.3中除前两个外,其他主成分的特征根都小于中除前两个外,其他主成分的特征根都小于1 1 。所以。所以SPSSSPSS只选择了两个主成分只选择了两个主成分 l l 就本例而言,两个主成分就足以说明各地区的经济发展就本例而言,两个主成分就足以说明各地区的经济发展 状况了状况了 根据什么选择主成分?根据什么选择主成分? 12 - 27 统计学 STATISTICS (第四版) * nSPSS还提供了一个更 为直观的图形工具来帮 助选择主成分,即碎石 图(Scree Plot) n从碎石图可以看到6个 主轴长度变化的趋势 n实践中,通常结合具体 情况,选择碎石图中变 化趋势出现拐点的前几 个主成分作为原先变量 的代表,该例中选择前 两个主成分即可 根据什么选择主成分?根据什么选择主成分? ( (Scree PlotScree Plot) ) 拐点 12 - 28 统计学 STATISTICS (第四版) * 怎样解释主成分?怎样解释主成分? 主成分的因子载荷矩阵主成分的因子载荷矩阵 l表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是 主成分分析模型中的系数aij l比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个 变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该 变量的代表性就越大 12 - 29 统计学 STATISTICS (第四版) * n n 根据主成分分析模型和因子载荷,可以得到根据主成分分析模型和因子载荷,可以得到 两个主成分与原来两个主成分与原来6 6个变量之间的线性组合个变量之间的线性组合 表达式如下表达式如下 怎样解释主成分?怎样解释主成分? ( (主成分与原始变量的关系主成分与原始变量的关系) ) 注意:表达式中的不是原始变量,而是标准化变量 12 - 30 统计学 STATISTICS (第四版) * n 载荷图(Loading Plot)直观显示 主成分对原始6变量的解释情况 n 图中横轴表示第一个主成分与原 始变量间的相关系数;纵轴表示 第二个主成分与原始变量之间的 相关系数 n 每一个变量对应的主成分载荷就 对应坐标系中的一个点,比如, 人均GDP变量对应的点是(0.670 ,0.725) n 第一个主成分很充分地解释了原 始的6个变量(与每个原始变量都 有较强的正相关关系),第二个 主成分则较好地解释了居民消费 水平、人均GDP和年末总人口 这3个变量(与它们的相关关系较 高),而与其他变量的关系则较 弱(相关系数的点靠近坐标轴) 怎样解释主成分?怎样解释主成分? ( (Loading PlotLoading Plot) ) 相关系数的点越 远离坐标轴,主 成分对原始变量 的代表性就越大 。这3个点远离主 成分2的坐标 12.2 12.2 因子分析因子分析 12.2.1 12.2.1 因子分析的意义和数学模型因子分析的意义和数学模型 12.2.2 12.2.2 因子分析的步骤因子分析的步骤 12.2.3 12.2.3 因子分析的应用因子分析的应用 第第 12 12 章章 主成分分析和因子分析主成分分析和因子分析 12.2.1 12.2.1 因子分析的意义和数学模型因子分析的意义和数学模型 12.2 12.2 因子分析因子分析 12 - 33 统计学 STATISTICS (第四版) * n n 由由Charles SpearmanCharles Spearman于于19041904年首次提出的年首次提出的 n n 与主成分分析类似,它们都是要找出少数几个新的与主成分分析类似,它们都是要找出少数几个新的 变量来代替原始变量变量来代替原始变量 n n 不同之处:主成分分析中的主成分个数与原始变量不同之处:主成分分析中的主成分个数与原始变量 个数是一样的,即有几个变量就有几个主成分,只个数是一样的,即有几个变量就有几个主成分,只 不过最后我们确定了少数几个主成分而已。而因子不过最后我们确定了少数几个主成分而已。而因子 分析则需要事先确定要找几个成分,也称为因子分析则需要事先确定要找几个成分,也称为因子 (factor)(factor),然后将原始变量综合为少数的几个因子,然后将原始变量综合为少数的几个因子, 以再现原始变量与因子之间的关系,一般来说,因以再现原始变量与因子之间的关系,一般来说,因 子的个数会远远少于原始变量的个数子的个数会远远少于原始变量的个数 什么是因子分析?什么是因子分析? (factor analysis)(factor analysis) 12 - 34 统计学 STATISTICS (第四版) * n n 因子分析可以看作是主成分分析的推广和扩展,但因子分析可以看作是主成分分析的推广和扩展,但 它对问题的研究更深入、更细致一些。实际上,主它对问题的研究更深入、更细致一些。实际上,主 成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例 n n 通过对变量之间关系的研究,找出能综合原始变量通过对变量之间关系的研究,找出能综合原始变量 的少数几个因子,使得少数因子能够反映原始变量的少数几个因子,使得少数因子能够反映原始变量 的绝大部分信息,然后根据相关性的大小将原始变的绝大部分信息,然后根据相关性的大小将原始变 量分组,使得组内的变量之间相关性较高,而不同量分组,使得组内的变量之间相关性较高,而不同 组的变量之间相关性较低组的变量之间相关性较低 n n 属于多元统计中处理降维的一种统计方法,其目的属于多元统计中处理降维的一种统计方法,其目的 就是要减少变量的个数,用少数因子代表多个原始就是要减少变量的个数,用少数因子代表多个原始 变量变量 什么是因子分析?什么是因子分析? (factor analysis)(factor analysis) 12 - 35 统计学 STATISTICS (第四版) * n n 因变量和因子个数的不一致,使得不仅在数学模因变量和因子个数的不一致,使得不仅在数学模 型上,而且在实际求解过程中,因子分析和主成型上,而且在实际求解过程中,因子分析和主成 分分析都有着一定的区别,计算上因子分析更为分分析都有着一定的区别,计算上因子分析更为 复杂复杂 n n 因子分析可能存在的一个优点是:在对主成分和因子分析可能存在的一个优点是:在对主成分和 原始变量之间的关系进行描述时,如果主成分的原始变量之间的关系进行描述时,如果主成分的 直观意义比较模糊不易解释,主成分分析没有更直观意义比较模糊不易解释,主成分分析没有更 好的改进方法;因子分析则额外提供了好的改进方法;因子分析则额外提供了“ “因子旋因子旋 转转(factor (factor rotation)”rotation)”这样一个步骤,可以使分析这样一个步骤,可以使分析 结果尽可能达到易于解释且更为合理的目的结果尽可能达到易于解释且更为合理的目的 因子分析的数学模型因子分析的数学模型 12 - 36 统计学 STATISTICS (第四版) * n n 原始的原始的p p个变量表达为个变量表达为k k个因子的线性组合变量个因子的线性组合变量 n n 设设p p个原始变量为个原始变量为 ,要寻找的,要寻找的k k个因子个因子( (k k p p) ) 为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为 因子分析的数学模型因子分析的数学模型 因子分析的数学模型 系数aij为第个i变量与第k个 因子之间的线性相关系数 ,反映变量与因子之间的 相关程度,也称为载荷 (loading)。由于因子出现 在每个原始变量与因子的 线性组合中,因此也称为 公因子。为特殊因子,代 表公因子以外的因素影响 12 - 37 统计学 STATISTICS (第四版) * n n 共同度量共同度量(Communality)(Communality) n n 因子的方差贡献率因子的方差贡献率 因子分析的数学模型因子分析的数学模型 ( (共同度量共同度量CommunalityCommunality和公因子的方差贡献率和公因子的方差贡献率 ) ) 变量xi的信息能够被k个 公因子解释的程度,用 k个公因子对第i个变量xi 的方差贡献率表示 第j个公因子对变量xi的 提供的方差总和,反映 第j个公因子的相对重要 程度 12.2.2 12.2.2 因子分析的步骤因子分析的步骤 12.2 12.2 因子分析因子分析 12 - 39 统计学 STATISTICS (第四版) * n n 因子分析要求样本的个数要足够多因子分析要求样本的个数要足够多 l l 一般要求样本的个数至少是变量的一般要求样本的个数至少是变量的5 5倍以上。同时,样本倍以上。同时,样本 总数据量理论要求应该在总数据量理论要求应该在100100以上以上 n n 用于因子分析的变量必须是相关的用于因子分析的变量必须是相关的 l l 如果原始变量都是独立的,意味着每个变量的作用都是不如果原始变量都是独立的,意味着每个变量的作用都是不 可替代的,则无法降维可替代的,则无法降维 n n 检验方法检验方法 l l 计算各变量之间的相关矩阵,观察各相关系数。若相关矩计算各变量之间的相关矩阵,观察各相关系数。若相关矩 阵中的大部分相关系数小于阵中的大部分相关系数小于0.30.3,则不适合作因子分析,则不适合作因子分析 l l 使用使用Kaiser-Meyer-OlkinKaiser-Meyer-Olkin检验检验( (简称简称KMOKMO检验检验) )和和 BartlettBartlett球球 度检验度检验( (Bartletts Bartletts test test of of sphericitysphericity) )来判断来判断(SPSS(SPSS将两种检将两种检 验统称为验统称为“ “KMO and Bartletts test of sphericity”)KMO and Bartletts test of sphericity”) 因子分析的步骤因子分析的步骤 ( (数据检验数据检验) ) 12 - 40 统计学 STATISTICS (第四版) * n n BartlettBartlett球度检验球度检验 l l 以变量的相关系数矩阵为基础,假设相关系数矩阵是单位以变量的相关系数矩阵为基础,假设相关系数矩阵是单位 阵阵( (对角线元素不为对角线元素不为0 0,非对角线元素均为,非对角线元素均为0)0)。如果相关矩。如果相关矩 阵是单位阵,则各变量是独立的,无法进行因子分析阵是单位阵,则各变量是独立的,无法进行因子分析 n n KMOKMO检验检验 l l 用于检验变量间的偏相关性,用于检验变量间的偏相关性,KMOKMO统计量的取值在统计量的取值在0 01 1 之间之间 l l 如果统计量取值越接近如果统计量取值越接近1 1,变量间的偏相关性越强,因子,变量间的偏相关性越强,因子 分析的效果就越好分析的效果就越好 l l KMOKMO统计量在统计量在0.70.7以上时,因子分析效果较好;以上时,因子分析效果较好;KMOKMO统计统计 量在量在0.50.5以下时,因子分析效果很差以下时,因子分析效果很差 因子分析的步骤因子分析的步骤 ( (数据检验数据检验) ) 12 - 41 统计学 STATISTICS (第四版) * n n Principal Principal components(components(主成分法主成分法) ):多数情况下可以使用该方多数情况下可以使用该方 法法( (这也是这也是SPSSSPSS的默认选项的默认选项) )。通过主成分分析的思想提取公。通过主成分分析的思想提取公 因子,它假设变量是因子的线性组合因子,它假设变量是因子的线性组合 n n Unweight Unweight Least Least Square(Square(不加权最小平方法不加权最小平方法) ):该方法使实际该方法使实际 的相关矩阵和再生的相关矩阵之差的平方和达到最小的相关矩阵和再生的相关矩阵之差的平方和达到最小 n n Generalized Generalized Least Least Square(Square(加权最小平方法加权最小平方法) ):用变量值进行用变量值进行 加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的 平方和达到最小平方和达到最小 n n Maximum Maximum Likelihood(Likelihood(最大似然法最大似然法) ):该方法不要求数据服从该方法不要求数据服从 正态分布,在样本量较大时使用较好正态分布,在样本量较大时使用较好 n n Principal Principal Axis Axis Factoring(Factoring(主轴因子法主轴因子法) ):该方法从原始变量的该方法从原始变量的 相关性出发,使得变量间的相关程度尽可能地被公因子解释相关性出发,使得变量间的相关程度尽可能地被公因子解释 因子分析的步骤因子分析的步骤 ( (因子提取因子提取) ) 12 - 42 统计学 STATISTICS (第四版) * n n 因子数量的确定因子数量的确定 l l 用公因子方差贡献率提取:与主成分分析类似,用公因子方差贡献率提取:与主成分分析类似, 一般累计方差贡献率达到一般累计方差贡献率达到80%80%以上的前几个因子以上的前几个因子 可以作为最后的公因子可以作为最后的公因子 l l 用特征根提取:一般要求因子对应的特征根要大用特征根提取:一般要求因子对应的特征根要大 于于1 1,因为特征根小于,因为特征根小于1 1说明该共因子的解释力度说明该共因子的解释力度 太弱,还不如使用原始变量的解释力度大太弱,还不如使用原始变量的解释力度大 n n 实际应用中,因子的提取要结合具体问题而定实际应用中,因子的提取要结合具体问题而定 ,在某种程度上,取决于研究者自身的知识和,在某种程度上,取决于研究者自身的知识和 经验经验 因子分析的步骤因子分析的步骤 ( (因子提取因子提取) ) 12 - 43 统计学 STATISTICS (第四版) * n n 因子命名是因子分析重要一步因子命名是因子分析重要一步 l l 一个因子包含了多个原始变量的信息,它究一个因子包含了多个原始变量的信息,它究 竟反映了原始变量的哪些共同信息?竟反映了原始变量的哪些共同信息? l l 因子分析得到的因子的含义是模糊的,需要因子分析得到的因子的含义是模糊的,需要 重新命名,以便对研究的问题作出合理解释重新命名,以便对研究的问题作出合理解释 l l 可通过考察观察因子载荷矩阵并结合实际问可通过考察观察因子载荷矩阵并结合实际问 题完成题完成 l l 命名已经不是统计问题。它需要研究者自身命名已经不是统计问题。它需要研究者自身 的专业素质和对实际问题背景的了解程度,的专业素质和对实际问题背景的了解程度, 这需要更多的实践经验这需要更多的实践经验 因子分析的步骤因子分析的步骤 ( (因子命名因子命名) ) 12 - 44 统计学 STATISTICS (第四版) * n n 观察因子载荷矩阵观察因子载荷矩阵 l l 如果因子载荷如果因子载荷a a ij ij 的绝对值在第的绝对值在第i i行的多个列上都有较行的多个列上都有较 大的取值大的取值( (通常大于通常大于0.5)0.5),表明原始变量与多个因子,表明原始变量与多个因子 都有较大的相关关系,意味着原始变量都有较大的相关关系,意味着原始变量x x i i 需要由多个需要由多个 因子来共同解释因子来共同解释 l l 如果因子载荷如果因子载荷a a ij ij 的绝对值在第的绝对值在第j j列的多个行上都有较列的多个行上都有较 大的取值,则表因子大的取值,则表因子f f i i 能共同解释许多变量的信息,能共同解释许多变量的信息, 而对每个原始变量只能解释其中的少部分信息,表明而对每个原始变量只能解释其中的少部分信息,表明 因子不能有效代表任何一个原始变量,因子的含义模因子不能有效代表任何一个原始变量,因子的含义模 糊不清,难以对因子给出一个合理的解释糊不清,难以对因子给出一个合理的解释 l l 需要进行因子旋转,以便得到更加合理的解释需要进行因子旋转,以便得到更加合理的解释 因子分析的步骤因子分析的步骤 ( (因子命名因子命名) ) 12 - 45 统计学 STATISTICS (第四版) * n n 因子旋转因子旋转(factor (factor rotation)rotation)的目的是使因子的含义的目的是使因子的含义 更加清楚,以便于对因子的命名和解释更加清楚,以便于对因子的命名和解释 n n 旋转的方法有正交旋转和斜交旋转两种旋转的方法有正交旋转和斜交旋转两种 l l 正交旋转是指坐标轴始终保持垂直正交旋转是指坐标轴始终保持垂直9090度旋转,这样度旋转,这样 新生成的因子仍可保持不相关新生成的因子仍可保持不相关 l l 斜交旋转坐标轴的夹角可以是任意的,因此新生成的斜交旋转坐标轴的夹角可以是任意的,因此新生成的 因子不能保证不相关。因此实际应用中更多地使用正因子不能保证不相关。因此实际应用中更多地使用正 交旋转交旋转 l l SPSSSPSS提供提供5 5种旋转方法,其中最常用的是种旋转方法,其中最常用的是VarimaxVarimax( ( 方差最大正交旋转方差最大正交旋转) )法法 因子分析的步骤因子分析的步骤 ( (因子命名因子命名旋转旋转) ) 12 - 46 统计学 STATISTICS (第四版) * n n Varimax(Varimax(方差最大正交旋转方差最大正交旋转) ):最常用的旋转方法。最常用的旋转方法。使各使各 因子保持正交状态,但尽量使各因子的方法达到最大,因子保持正交状态,但尽量使各因子的方法达到最大, 即相对的载荷平方和达到最大,从而方便对因子的解释即相对的载荷平方和达到最大,从而方便对因子的解释 n n Quartimax(Quartimax(四次方最大正交旋转四次方最大正交旋转) ):该方法倾向于减少和该方法倾向于减少和 每个变量有关的因子数,从而简化对原变量的解释每个变量有关的因子数,从而简化对原变量的解释 n n Equamax(Equamax(平方最大正交旋转平方最大正交旋转) ):该方法介于方差最大正该方法介于方差最大正 交旋转和四次方最大正交旋转之间交旋转和四次方最大正交旋转之间 n n Direct Direct Oblimin(Oblimin(斜交旋转斜交旋转) ):该方法需要事先指定一个因该方法需要事先指定一个因 子映像的自相关范围子映像的自相关范围 n n PromaxPromax:该方法在方差最大正交旋转的基础上进行斜交该方法在方差最大正交旋转的基础上进行斜交 旋转旋转 因子分析的步骤因子分析的步骤 ( (因子命名因子命名旋转旋转) ) 12 - 47 统计学 STATISTICS (第四版) * n n 因子得分因子得分(factor (factor score)score)是每个因子在每个样本是每个因子在每个样本 上的具体取值,它由下列因子得分函数给出上的具体取值,它由下列因子得分函数给出 因子分析的步骤因子分析的步骤 ( (计算因子得分计算因子得分) ) 因子得分函数 因子得分是各变量 的线性组合 12.2.3 12.2.3 因子分析的应用因子分析的应用 12.2 12.2 因子分析因子分析 12 - 49 统计学 STATISTICS (第四版) * 【例例12-212-2】根据我国根据我国3131个省市自治区个省市自治区20062006年的年的6 6 项主要经济指标数据,进行因子分析,对因子项主要经济指标数据,进行因子分析,对因子 进行命名和解释,并计算因子得分和排序进行命名和解释,并计算因子得分和排序 因子分析因子分析 ( (实例分析实例分析) ) 3131个地区个地区6 6项经济指标的因子分析项经济指标的因子分析 12 - 50 统计学 STATISTICS (第四版) * 用用SPSSSPSS进行因子分析进行因子分析 第1步 选择【Analyze】【Data Reduction-Factor】主对话框。将所 有原始变量选入【Variables】 第2步 点击【Descriptives】【correlation Matrix】【KMO and Bartletts test of sphericity】(其他选项根据需要) 【Continue】 第3步 点击【Extraction】,在【Method】框中选择因子的提取方法(本例 使用隐含的Principal components);在【Extract】中输入选择因子 的最小特征根(隐含的是特征根大于1);在【Display】下选择 【Scree Plot】 【Continue】 第4步 点击【Rotation】,在【Method】框中选择因子旋转方法(隐含的不 旋转,本例选择【Varimax】);在【Display】下选择【Loading Plot】 【Continue】 第5步 点击【Scores】,并选中【Display factor Score coefficient matrix】(SPSS隐含的估计因子得分系数的方法是Regression) 【Continue】 【OK】 因子分析因子分析 12 - 51 统计学 STATISTICS (第四版) * 数据的相关性检验数据的相关性检验 因子分析因子分析 ( (实例分析实例分析) ) KMO检验和Bartlett球度检验 Bartlett球度检验统计量为277.025。检验的P值接近 0。表明6个变量之间有较强的相关关系。而KMO统 计量为0.695,接近0.7。适合作因子分析 12 - 52 统计学 STATISTICS (第四版) * 共同度量共同度量 因子分析因子分析 ( (实例分析实例分析) ) 变量共同度量 所有变量的共同度量都在80%以上,因此,提取出的 公因子对原始变量的解释能力应该是很强的 12 - 53 统计学 STATISTICS (第四版) * 因子方差贡献率因子方差贡献率 因子分析因子分析 ( (实例分析实例分析) ) 各因子所解释的原始变量的方差 除最后3列外,其余部分与主成分分析中的表相同。 “Rotation Sums of Squared Loadings”部分是因子旋转后对原始变量方差的解释情况。旋转后的 累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。 12 - 54 统计学 STATISTICS (第四版) * VarimaxVarimax法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵 因子分析因子分析 ( (实例分析实例分析) ) 旋转后的因子载荷矩阵 第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这 几个载荷系数较大,主要解释了这几个变量。从实际意义上看,可以把因子1 姑且命名为“经济水平”因子。而第二个因子与人均GDP、居民消水平这两个变 量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑 且命名为“消费水平”因子 ( (是否合理读者自己评判是否合理读者自己评判) ) 12 - 55 统计学 STATISTICS (第四版) * n n 原始的原始的6 6个变量与两个因子的关系个变量与两个因子的关系( (模型表达模型表达) ) 因子分析因子分析 ( (实例分析实例分析) ) 因子分析的数学模型 表达式中的xi已经 不是原始变量,而 是标准化变量 12 - 56 统计学 STATISTICS (第四版) * 旋转后的因子载荷图旋转后的因子载荷图 因子分析因子分析 ( (实例分析实例分析) ) 旋转后的因 子载荷系数 更加接近于 1(如果旋转 后的因子载 荷系数向0 1分化越明显 ,说明旋转 的效果越好) ,从而使因 子的意义更 加清楚了 12 - 57 统计学 STATISTICS (第四版) * 按回归法按回归法(Regression)(Regression)估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论