版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/7/27,1,第二章 主成分分析,目录 上页 下页 返回 结束,2.1 主成分分析的基本思想与理论,2.2 主成分分析的上机实现,2020/7/27,2,第二章 主成分分析,目录 上页 下页 返回 结束,主成分分析(principal components analysis)。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从
2、而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。,2020/7/27,3,目录 上页 下页 返回 结束,2.1 主成分分析的基本思想,既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:,1.每一个主成分都是各原始变量的线性组合; 2.主成分的数目大大
3、少于原始变量的数目,2020/7/27,4,目录 上页 下页 返回 结束,3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关,通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。,2020/7/27,5,目录 上页 下页 返回 结束,2.2 主成分分析的基本理论,设对某一事物的研究涉及个 指标,分别用 表示,这个 指标构成的 维随机向量为 。设随机向量 的均值为 ,协方差矩阵为 。,对 进行线性变换,可以形成新的综合变量,用 表示,也就是说,
4、新的综合变量可以由原来的变量线性表示,即满足下式:,(5.1),2020/7/27,6,目录 上页 下页 返回 结束,2.3注意的问题,1. 首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。 2 主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。,2020/7/27,7,目录 上页 下页 返回 结束,2.4 主成分分
5、析步骤,1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 3.求协差阵或相关阵的特征根与相应标准特征向量; 4.判断是否存在明显的多重共线性,若存在,则回到第一步; 5.得到主成分的表达式并确定主成分个数,选取主成分; 6.结合主成分对研究问题进行分析并深入研究。,2020/7/27,8,目录 上页 下页 返回 结束,主成分分析的逻辑框图,主成分分析的逻辑框图见 图:,【例5.2】 数据集Employee data为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gende
6、r(性别)、Bdate(出生日期)、Educ(受教育程度(年数)、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月)、Prevexp(受雇以前的工作时间(月)、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。,2020/7/27,9,目录 上页 下页 返回 结束,2.5主成分分析的上机实现,SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employee data.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目
7、录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。,2020/7/27,10,目录 上页 下页 返回 结束,主成分分析的上机实现,进入SPSS软件,打开数据集Employee data.sav。依次点选AnalyzeData ReductionFactor.进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分析与因子分析均在Factor Analysis模块中完成。此时,数据集Employee data.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头
8、按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。,2020/7/27,中国人民大学六西格玛质量管理研究中心,11,目录 上页 下页 返回 结束,主成分分析的上机实现,2020/7/27,12,目录 上页 下页 返回 结束,主成分分析的上机实现,输出结果5-1(3),2020/7/27,13,目录 上页 下页 返回 结束,主成分分析的上机实现,2020/7/27,14,目录 上页 下页 返回 结束,主成分分析的上机实现,在上面的主成分分析中,SPS
9、S默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入Factor Analysis对话框并选择好变量之后,点击Extraction选项,在弹出的对话框中有一个Extract选择框,默认是选择Eigenvalues over 1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择Number of Factors选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。,因为我们上面的结果是默
10、认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。,2020/7/27,15,目录 上页 下页 返回 结束,主成分分析的上机实现,这恰好与Communalities表中三个主成分提取salary变量的信息相等。我们重做一遍主成分分析,此次将5个主成分全部保留,得到Component Matrix表如输出结果5-2:,2020/7/27,16,目录 上页 下页 返回 结束,主成分分析的上机实现,输出结果5-2,可以看到前三个主成分的相应结果与输出结果5-1中的对应部分结果是一致的。对上表中结果有如下关系式:,2020/7/27,17,目录 上页 下页
11、 返回 结束,主成分分析的上机实现,由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对Factor Analysis模块中的设置做一些调整,方法如下:,进入Factor Analysis对话框并选择好变量之后,点击对话框下部的Scores按钮进入Factor Scores对话框,选择Display factor score coefficient matrix选项并按Continue继续,该选项是让系统输出主成分得分系数矩阵。点击OK按钮运行,则除了默认结果,还输出如下输出结果5-3:,2020/7/27,18,目录 上
12、页 下页 返回 结束,主成分分析的上机实现,输出结果5-3,上表中给出了用原始变量表示主成分的系数信息。因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。也就是说,有下式成立:,2020/7/27,19,目录 上页 下页 返回 结束,主成分分析的上机实现,2.6因子分析简介,因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因
13、子分析的出发点是原始变量的相关矩阵。,因子分析的基本思想,因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格
14、之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。,因子分析分类 因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。,2020/7/27,23,目录 上页 下页 返回 结束,因子分析的基本理论及模型,一般因子分析模型,下面我们给出更为一般的因子分析模型:设有 个样品,每个样品观测 个指标,这 个指标之间有较强的相关性(要求个指标相关性较强的理由是很明
15、确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。为方便把原始变量及标准化后的变量向量均用 表示,用 表示标准化的公共因子。,2020/7/27,24,目录 上页 下页 返回 结束, 因子分析的基本理论及模型,2020/7/27,25,目录 上页 下页 返回 结束, 因子分析的基本理论及模型,2020/7/27,26,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,由模型(6.7)及其假设前提知,公共因子 相互独立且不可测,是在原始变量的
16、表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。 叫做特殊因子,是向量 的分量 ( )所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。矩阵 中的元素 称为因子载荷, 的绝对值大 ,表明 与 的相依程度越大,或称公共因子 对于 的载荷量越大,进行因子分析的目的之一,就是要求出各个因子载荷的值。,2020/7/27,27,目录 上页 下页 返回 结束, 因子分析的步骤,进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性; 3.求解初始公共因子及因子载荷矩阵; 4.因子旋转; 5.因子得分; 6.根据因子得分值进行进一步分析。,2020/7/27,28,目录 上页 下页 返回 结束, 因子分析的逻辑框图,图6-1,2020/7/27,中国人民大学六西格玛质量管理研究中心,29,目录 上页 下页 返回 结束, 因子分析的上机实现,我们用SPSS的Factor Analysis模块实现了主成分分析,实际上,Factor Analysi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿科常见病的中医护理
- 内镜护理日常操作规范培训
- PHC管桩试桩方案
- 安全生产施工方案
- 年产50000吨微孔增韧大结晶电熔氧化镁砂深加工与余热综合利用项目环境影响报告表
- 山东省青岛市新海岸新区信阳中学2025-2026学年初三第三次质量检测试题数学试题含解析
- 上海市普陀区名校2026年初三下学期一诊模拟数学试题文试卷含解析
- 长春科技学院《室内设计》2024-2025学年第二学期期末试卷
- 2026年山东省枣庄山亭区七校联考初三第三次质检英语试题含解析
- 应急预案的例文(3篇)
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- 入职申请表(完整版)
- 人教版2023七年级上册英语单词表
- 招标邀请函模板范文
- 2023年江苏省南京市栖霞区司法局招聘9人(共500题)笔试必备质量检测、历年高频考点模拟试题含答案解析
- 数据出境安全评估申报指南(第一版)
- GB/T 3836.11-2022爆炸性环境第11部分:气体和蒸气物质特性分类试验方法和数据
- WS/T 461-2015糖化血红蛋白检测
- 警械使用课件
- 崔允漷建构新教学心得体会(共13篇)
- 输血相容性检测室内质控-课件
评论
0/150
提交评论