版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析和因主成分分析和因子分析子分析 案例案例1 1:成绩排名:成绩排名100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。 主成分分析主成分分析当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。-4-2024-4-2024主成分分析主成分分析正如二维椭圆有两
2、个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。 怎么解释这两个主成分。前面说过主成分怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的是原始六个变量的线性组合。是怎么样的组合呢?组合呢?SPSSSPSS可以可以输出下面的表。输出下面的表。 C Co om mp po on ne en nt t M Ma at tr ri i
3、x xa a-.806.353-.040.468.021.068-.674.531-.454-.240-.001-.006-.675.513.499-.181.002.003.893.306-.004-.037.077.320.825.435.002.079-.342-.083.836.425.000.074.276-.197MATHPHYSCHEMLITERATHISTORYENGLISH123456ComponentExtraction Method: Principal Component Analysis.6 components extracted.a. 这里每一列代表一个主成分作为
4、原来变量线性组这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、合的系数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量物理、化学、语文、历史、英语这六个原先变量的线性组合,系数(比例)为的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 如用如用x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6分别表示原先的六个变量,而用分别表示原先的六个变量,而用y y1 1, ,y y2 2, ,y y3 3, ,y y4 4,
5、 ,y y5 5, ,y y6 6表示新的主成分,那么,原先六个变量表示新的主成分,那么,原先六个变量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6与第一和第二主成分与第一和第二主成分y y1 1, ,y y2 2的关系为:的关系为:X X1 1=-0.806=-0.806y y1 1 + 0.353y + 0.353y2 2X X2 2=-0.674=-0.674y y1 1 + 0.531y + 0.531y2 2X X3 3=-0.675=-0.675y y1 1 + 0.513y + 0.513y2 2X X4 4= 0.893=
6、 0.893y y1 1 + 0.306y + 0.306y2 2x x5 5= 0.825= 0.825y y1 1 + 0.435y + 0.435y2 2x x6 6= 0.836= 0.836y y1 1 + 0.425y + 0.425y2 2 这些系数称为主成分载荷(这些系数称为主成分载荷(loading),它表示主成分和相),它表示主成分和相应的原先变量的相关系数。应的原先变量的相关系数。 比如比如x1表示式中表示式中y1的系数为的系数为-0.806,这就是说第一主成分和,这就是说第一主成分和数学变量的相关系数为数学变量的相关系数为-0.806。 相关系数相关系数(绝对值)越大,
7、主成分对该变量的代表性也越大。绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。后的几个主成分和原先的变量就不那么相关了。 Component PlotComponent 11.0.50.0-.5-1.0Component 21.0.50.0-.5-1.0englishhistoryliteratchemphysmath该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点右边三个点是语文、历史、外语三科。是语文、历史、外语三
8、科。图中的六个点由于比较挤,图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。可以识别的。因子分析因子分析主成分分析从原理上是寻找椭球的所有主轴。因此,原先有几个变量,就有几个主成分。而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。这使得在数学模型上,因子分析和主成分分析有不少区别。根据因子分析模型的特点,它还多一道工序:因子旋转(factor rotation);可以使结果更好。
9、当然,对于计算机来说,因子分析并不比主成分分析多费多少时间。从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数。但是在输出中的因子和原来变量相关系数的公式中的系数不是因子载荷,也给出了二维图;该图虽然不是载荷图,但解释和主成分分析的载荷图类似。 因子分析概述定义:定义:因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标综合指标,名为因子。通常,因子有以下几个特点因子个数远远少于原有变量的个数因子能够反映原有变量的绝大部分信息因子之间的线性关系不显著(即独立的即独立的)因子具有命名解释性因子分析的数学模型和相关概念数学
10、模型相关概念因子载荷(所有系数构成矩阵即因子载荷)变量共同度(即变量X有多少东西饭反映了他)因子的方差贡献(第一列平方和加起来就是对第一个因子的贡第一列平方和加起来就是对第一个因子的贡献献以此类推以此类推)因子分析的基本内容因子分析的基本步骤因子分析的前提条件:因子提取:方法是主成分法使因子更具有命名可解释性:计算各样本的因子得分因子分析的前提条件如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能够反映某些变量共同特性的几个较少的公共因子。因此,一般在因子分析时需首先对因子分析的条件,即原有变量是否相关进行研究计算相关系数矩阵常用指标:计算相关系数矩阵和利用KMO检验因子提取和因子载
11、荷矩阵的求解常用方法:主成分分析法主成分分析法因子提取和因子载荷矩阵的求解计算因子载荷矩阵后面的是特征根乘以特征向量根据特征根确定因子数:一般选取特征值大于1的特征根,或者固定提取几个因子(根据因子的累计方差贡献率)因子的命名1、通过旋转使得因子的含义更清晰(因子是正向的)计算因子得分计算因子得分的途径是用原有变量来描述因子,第j 个因子在第i 个观测上的值可表示为:因子得分函数因子分析的基本操作 主成分分析与因子分析的公式上的区别主成分分析与因子分析的公式上的区别111 11221221 122221 122ppppppppppya xa xa xya xa xaxya xaxa x111
12、112211221 1222221 122mmmmppppmmpxa fa fafxa fafafxafafaf111 11221221 122221 122ppppmmmmppfxxxfxxxfxxx主成分分析主成分分析因子分析因子分析(mp) 因子得分因子得分因子分析和主成分分析的一些注意事项因子分析和主成分分析的一些注意事项 可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。(因子要相关,不能完全独立因子要相关,不能完全独立)另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降
13、维效果就越好数据越相关,降维效果就越好。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。某造纸厂有20个工厂,现要对每个工厂做经济效益分析,选取5个指标做分析。x1:固定资产的产值率;x2:净资产的劳动生产率;x3:百元产值的流动资金占有率;x4:百元产值的利润率;x5:百元资金的利润率。案例案例2 2:企业经济效益分析:企业经济效益分析1x2x3x4x5x6x数据表一x1x2x3x4x5y1x1x2x3x4x5y1124
14、3.87165216.4634.57149.850.48111608.4224922.9424.56233.373.7852240.3182108.8916.9255.89-1.86812433.92125080.6920.06118.70.2543211.151534910.0929.7780.13-1.02113572.63121022.7612.08110.431.1644413.18167607.6724.14105.250.43314533.78119903.811.5975.550.5215349.677216.7416.2799.41-0.78615545.796783.559.
15、4661.190.1796205.47812312.3318.4846.18-2.63616284.6165136.4112.8348.15-1.6627298.11133085.0527.35138.760.35617572.07186642.3117.76162.112.5068414.94137814.116.6598.20.50818409.8673295.8912.2376.68-0.7379287.25140434.2917.6758.35-0.31819564.62143114.9328.5233.582.42210303.93111267.6318.3974.23-0.9512
16、0221.2644314.0830.2580.48-2.5851x2x3x4x5x6x数据表二z1z2z3z4z5x1x2x3x4x51-1.049052150.9814709310.0457516342.0292072320.814638609111.6398170692.404821896-1.1045751630.6369958282.3429094242-1.075311647-0.9996829580.839869281-0.425591099-0.904666057120.3528066680.024862754-1.8398692810.0111265650.2446477583
17、-1.2904034820.7020927141.2320261441.361613352-0.461116194131.375968135-0.071918437-1.163398693-1.0987482610.09332113440.199822971.038443110.4411764710.578581363-0.001463861141.08940031-0.098616696-0.823529412-1.16689847-0.5449222325-0.269159844-1.1162494670.137254902-0.515994437-0.108325709151.17732
18、5367-0.649745055-0.905228758-1.463143255-0.807685276-1.332300656-1.0204217851.964052288-0.208623088-1.08234217716-0.748543188-1.4042092670.029411765-0.994436718-1.0462946027-0.6489636350.215564609-0.415032681.0250347710.611710887171.3718374271.492313523-1.310457516-0.308762171.03897529780.2128051930
19、.32831708-0.725490196-0.463143255-0.130466606180.175333776-1.209693375-0.140522876-1.077885953-0.5242451979-0.7290698530.390771937-0.663398693-0.321279555-0.859652333191.3168842660.454657058-0.4542483661.1849791382.34675205910-0.606033783-0.3045746990.428104575-0.221140473-0.56907593820-1.216272037-
20、1.4208956792.5359477121.42837274-0.454711802【1】变量标准化:由于原始数据表的量级有很大差别,必须先进行标准化处理 【2】计算样本相关矩阵R iiiiSxxzR = 1.0000 0.4463 -0.7540 -0.3471 0.5624 0.4463 1.0000 -0.4578 0.4170 0.7179 -0.7540 -0.4578 1.0000 0.3644 -0.4170 -0.3471 0.4170 0.3644 1.0000 0.4948 0.5624 0.7179 -0.4170 0.4948 1.0000【求特征值和特征向量】V = -0.5026 -0.3456 -0.5115 0.4507 -0.4039 -0.4997 0.2857 0.1421 -0.6283 -0.5038 0.4736 0.3829 0.1469
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土地征用流转合同范本
- 地毯清洁采购合同范本
- 国际足贴销售合同范本
- 大厨干股合作协议合同
- 奥迪融资购车合同范本
- 园林公司租赁合同协议
- 大众电车购车合同范本
- 土地承包合同尾款协议
- 天津汽车销售合同范本
- 地毯清洗租用合同范本
- 2025-2030智慧停车行业市场分析报告及智能化管理与应用前景研究报告
- 乳腺癌科普宣教
- 华为ICT大赛2025-2026中国区(云赛道)高分备考试题库500题(含答案解析)
- 2025至2030年中国电子级硅溶胶行业发展研究报告
- 漫画场景课件
- 2025年江西省高考生物试卷真题(含标准答案及解析)
- 核酸检测方法培训课件
- 数控机床安全培训课件
- 电测监督课件
- 运维7×24小时服务保障方案
- 专利分类分级管理办法
评论
0/150
提交评论