版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,比如所有数据,比如固定资产、流动资金、每一笔固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些如果让你向上面介绍公司状况,你能够把这些指标和数字都指标和数字都原封不动地摆出去吗原封不动地摆出去吗? 当然不能。当然不能。你必须要把各个方面作出高度概括,你必须要把各个方面作出
2、高度概括,用一两个用一两个指标简单明了地把情况说清楚。指标简单明了地把情况说清楚。 每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比如全国或各个地区的带有许多经济和社会变比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量量的数据;各个学校的研究、教学等各种变量的数据等等。的数据等等。这些数据的共同特点是变量很多,在如此多的这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找变量之中,有很多是相关的。人们希望能够找出它们的出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。把变量维数降低以便于描述、理解和分析
3、的方把变量维数降低以便于描述、理解和分析的方法:法:主成分分析主成分分析(principal component principal component analysisanalysis)和)和因子分析因子分析(factor analysisfactor analysis)。)。实际上实际上主成分分析可以说是因子分析的一个特主成分分析可以说是因子分析的一个特例例。本章介绍主成分分析法。本章介绍主成分分析法。11.1 什么是主成分分析?我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1語文a2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成
4、绩总和就相对于新的综合变量主成分推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合综合起来处理,这就是pca。 这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。 主成分分析(principal component analysis, 简称pca)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分?
5、情形ii下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息对主成分的要求上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。 主成分分析的目的压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分
6、原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。11.2主成分分析的基本思想 (以两个变量为例)2x1x1f2f主成分分析的几何解释平移、旋转坐标轴2x1x1f2f主成分分析的几何解释平移、旋转坐标轴2x1x1f2f 主成分分析的几何解释平移、旋转坐标轴三变量主成分分析示意图pc1=a1xi1+a2xi2+a3xi3pc2= b1xi1+b2xi2+b3xi3 主成分变换将三维空间的样本显示在二维空间一、主成分分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵npnnpp
7、xxxxxxxxxx212222111211(1) 11.3 主成分分析的原理和步骤 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,xp为原变量指标,z1,z2,zm(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111(2) n系数lij的确定原则: zi与zj(ij;i,j=1,2,m)相互无关; z1是x1,x2,xp的一切线
8、性组合中方差最大者,z2是与z1不相关的x1,x2,xp的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xp, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xp的第一,第二,第m主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上容易知道,从数学上可以证明,它们分别是相关系数矩阵的m个较大的特征值所对应的特征向量。 二、计算步骤 (一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,
9、j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:pppppprrrrrrrrrr212222111211(3) nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((4) (二)计算特征值与特征向量:(二)计算特征值与特征向量: 解特征方程,常用雅可比法(jacobi)求出特征值,并使其按大小顺序排列 ; 0ri0,21p 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。i), 2 , 1(pieiie112pjijeijeie 计算主成分贡献率及累计贡献率 贡献率:),2, 1(1pipkki累计贡献率:
10、 ),2, 1(11pipkkikk一般取累计贡献率达8595%的特征值所对应的第一、第二、第m(mp)个主成分。 m,21 计算主成分载荷 各主成分的得分: ), 2 , 1,(),(pjiexzplijijiij(5) nmnnmmzzzzzzzzzz212222111211(6) 主成分分析的步骤小结 例1 根据表1给出的数据,对某农业生态经济系统做主成分分析。体验处理过程。样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率(
11、)x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.3032
12、2.932表表1 1 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 11.4 主成分分析实例分析668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.511
13、8.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.
14、03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078步骤
15、如下:(1)将表1中的数据作标准差标准化处理,然后将它们代入公式(4)计算相关系数矩阵(见表2)。x1x2x3x4x5x6x7x8x9x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.25
16、5-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表表2 2 相关系数矩阵相关系数矩阵 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。 主成分特征值贡献
17、率(%)累积贡献率(%)z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100表表3 3特征值及主成分贡献率特征值及主成分贡献率 (3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式(5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表4)。 z1z2z3占方差的
18、百分数(%)x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.9640.00960.009592.948x40.00420.8680.003775.346x50.8130.444-0.001185.811x60.8190.1790.12571.843x70.933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009292.939上述计算过程,可以借助于spss或matlab软件系统实现。表表4 4 主成分载荷主成分载荷 第一主成分z1与x1,x5,x6,x7,x9呈显出
19、较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。 第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。 分析:分析:显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。 另
20、外,表3.5.3中最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。 第第1步步 选择【analyze】下拉菜单,并选择【data reduction- factor】,进入主对话框第第2步步 在主对话框中将所有原始变量选入【variables】第第3步步 点击【descriptives】,在【correlation matrix】下选择 【coefficirnts】,点击【continue】回到主对话框第第4步步 点击【extraction】,在【display】下选择【scree plot】,点击【continue】回到主对话
21、框第第5步步 点击【rotation】,在【display】下选择【loading plot】,点击【continue】回到主对话框 点击【ok】用spss进行主成分分析spss的输出结果变量之间的存在较强的相关关系,适合作主成分分析变量之间的存在较强的相关关系,适合作主成分分析 spss的输出结果(选择主成分)该表是选择主成分的主要依据该表是选择主成分的主要依据根据什么选择主成分?根据什么选择主成分?nspss还提供了一个更还提供了一个更为直观的图形工具来帮为直观的图形工具来帮助选择主成分,即碎石助选择主成分,即碎石图图(scree plot)n从碎石图可以看到从碎石图可以看到6个个主轴长度
22、变化的趋势主轴长度变化的趋势n实践中,通常结合具体实践中,通常结合具体情况,选择碎石图中变情况,选择碎石图中变化趋势出现拐点的前几化趋势出现拐点的前几个主成分作为原先变量个主成分作为原先变量的代表,该例中选择前的代表,该例中选择前两个主成分即可两个主成分即可根据什么选择主成分? (scree plot)拐点怎样解释主成分?l表表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数主成分分析模型中的系数aijl比如,第一主成分所在列的系数比如,第一主成分所在列的系数0.670表示第表示第1个主成分和原来的第一
23、个个主成分和原来的第一个变量变量(人均人均gdp)之间的线性相关系数。这个系数越大,说明主成分对该之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大变量的代表性就越大怎样解释主成分?(主成分与原始变量的关系)65432126543211263. 0721. 0728. 0351. 0055. 0725. 0950. 0674. 0633. 0896. 0976. 0670. 0 xxxxxxyxxxxxxy注意:表达式中的不是原始变量,而是标准化变量n 载荷图载荷图(loading plot)直观显示直观显示主成分对原始主成分对原始6变量的解释情况变量的解释情况n 图中横轴表示
24、第一个主成分与原图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的第二个主成分与原始变量之间的相关系数相关系数n 每一个变量对应的主成分载荷就每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,对应坐标系中的一个点,比如,人均人均gdp变量对应的点是变量对应的点是(0.670,0.725)n 第一个主成分很充分地解释了原第一个主成分很充分地解释了原始的始的6个变量个变量(与每个原始变量都与每个原始变量都有较强的正相关关系有较强的正相关关系),第二个,第二个主成分则较好地解释了居民消费主成分则较好地解释了居民消费水平、人均水平、人
25、均gdp和年末总人口和年末总人口这这3个变量个变量(与它们的相关关系较与它们的相关关系较高高),而与其他变量的关系则较,而与其他变量的关系则较弱弱(相关系数的点靠近坐标轴相关系数的点靠近坐标轴)怎样解释主成分? (loading plot)相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标【例【例3】成绩数据(】成绩数据(student.sav)100个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分史、英语的成绩如下表(部分)。)。 从本例可能提出的问题从本例可能提出的问题目前的问题是,能不能把这个数据的目前的问题
26、是,能不能把这个数据的6 6个变量用一两个综合变量来表示呢?个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢?息呢?能不能利用找到的综合变量来对学生排能不能利用找到的综合变量来对学生排序呢?序呢?采用主成分分析法采用主成分分析法,spssspss输出为输出为 这里的这里的initial eigenvalues就是这里的六个就是这里的六个主轴长度,又称特征值(数据相关阵的特主轴长度,又称特征值(数据相关阵的特征值征值)。)。头两个成分特征值累积占了总方头两个成分特征值累积占了总方差的差的81.142%。后面的特征值的贡献越来越。后面的特征值
27、的贡献越来越少。少。 total variance explainedtotal variance explained3.73562.25462.2543.73562.25462.2541.13318.88781.1421.13318.88781.142.4577.61988.761.3235.37694.137.1993.32097.457.1532.543100.000component123456total% of variance cumulative %total% of variance cumulative %initial eigenvaluesextraction sums
28、of squared loadingsextraction method: principal component analysis. 特征值的贡献还可以从特征值的贡献还可以从spss的碎石图看出的碎石图看出scree plotcomponent number654321eigenvalue43210 怎么解释这两个主成分。前面说过主成分怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的是原始六个变量的线性组合。是怎么样的组合呢?组合呢?spssspss可以可以输出下面的表。输出下面的表。 component matrixcomponent matrixa a-.806.
29、353-.040.468.021.068-.674.531-.454-.240-.001-.006-.675.513.499-.181.002.003.893.306-.004-.037.077.320.825.435.002.079-.342-.083.836.425.000.074.276-.197mathphyschemliterathistoryenglish123456componentextraction method: principal component analysis.6 components extracted.a. 这里每一列代表一个主成分作为原来变量线性组合的系这里
30、每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、物理、化学、数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合,系数语文、历史、英语这六个原先变量的线性组合,系数(比例)为(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 如用如用x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6分别表示原先的六个变量,而用分别表示原先的六个变量,而用y y1 1, ,y y2 2, ,y y3 3, ,y y4 4, ,y y5 5, ,y
31、 y6 6表示新的主成分,那么,原先六个变量表示新的主成分,那么,原先六个变量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6与第一和第二主成分与第一和第二主成分y y1 1, ,y y2 2的关系为:的关系为:x x1 1=-0.806=-0.806y y1 1 + 0.353y + 0.353y2 2x x2 2=-0.674=-0.674y y1 1 + 0.531y + 0.531y2 2x x3 3=-0.675=-0.675y y1 1 + 0.513y + 0.513y2 2x x4 4= 0.893= 0.893y y1 1
32、 + 0.306y + 0.306y2 2x x5 5= 0.825= 0.825y y1 1 + 0.435y + 0.435y2 2x x6 6= 0.836= 0.836y y1 1 + 0.425y + 0.425y2 2 这些系数称为主成分载荷(这些系数称为主成分载荷(loading),它表示主成分和相应的),它表示主成分和相应的原先变量的相关系数。原先变量的相关系数。 比如比如x1表示式中表示式中y1的系数为的系数为-0.806,这就是说第一主成分和数学,这就是说第一主成分和数学变量的相关系数为变量的相关系数为-0.806。 相关系数相关系数(绝对值)越大,主成分对该变量的代表性也越大。绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。的几个主成分和原先的变量就不那么相关了。 把第一和第二主成分的载荷点画出一个二把第一和第二主成分的载荷点画出一个二维图可以直观地显示它们如何解释原来的维图可以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。变量的。这个图叫做载荷图。component plotcomponent 11.0.50.0-.5-1.0compone
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车销售合同范本及流程
- 家具定制承揽合同协议范本
- 2025年废木材加工利用合同模板
- 家政服务配送合同范本
- 绿化养护合同协议书范本2025年合同解除条件
- 2025年公共交通智能化调度系统可行性研究报告
- 2025年多媒体数字展览中心建设可行性研究报告
- 2025年物联网设备互联平台建设项目可行性研究报告
- 2025年创意市集发展项目可行性研究报告
- 2025年文化与旅游产业融合发展项目可行性研究报告
- 卫生间装修施工质量控制方案
- 养老院旅居合同范本
- (2025年)新疆阿拉尔市辅警招聘《公安基础知识》真题及答案解析
- 党的二十届四中全会精神题库
- 《七年级上册历史第三单元综合复习》课件
- 《中国饮食文化》 课件 第四章 中国茶文化
- 2026年黄河水利职业技术学院单招职业适应性测试题库新版
- 收费室考试题大库及答案
- (2025年)烟花爆竹经营培训考试试题及答案
- 四川大学内部高分子物理课件
- 消防维保应急预案及措施
评论
0/150
提交评论