主成分分析数据的标准化与非标准化的对比分析_第1页
主成分分析数据的标准化与非标准化的对比分析_第2页
主成分分析数据的标准化与非标准化的对比分析_第3页
主成分分析数据的标准化与非标准化的对比分析_第4页
主成分分析数据的标准化与非标准化的对比分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12主成分分析的基本理论假设我们所讨论的实际问题中有p个指标,我们把这p个指标看作p个随机变量,记为X,X,X。这p个指标构成的p维随机向量为X(X,X,X).12P12PTOC o 1-5 h z设随机向量X的均値为I,勘、方差为:。对X进行线性转换,可以形成新的综合变量,Y用示,也就是说,新的综合变量可以由原来的变量线性表示,即满足Y1Y HYPERLINK l bookmark12uX+uX+uXuX+uX+uX121222111212p1p HYPERLINK l bookmark14YuX+uX+uXp1p12p2ppp由于可以任瑕地对原始变量进行上述线性变换,由不同的线性变换得到的

2、综合变量Y的统计特征也不尽木相同。因此为了取得较好的效果,我们总是希望Y=uX的方差尽可能大且各Y之间互相独立,由于iijvar(Y)var(uX)=u,uiiii而对任给的常数c,有var(cuX)cu,ucc2u,uiiiii因此对u不加限制时,可使var(Y)任意增大,问题将变得没有意义。我们将ii线性变换约束在下面原则下:1.2.每个主成分的系数平方和为1,uu1即u2+u2+ii主成分之间相互独立,即无重叠的信息。即1i2i+u21pi3.Co(vF,F)0,(ij;i,j1,ij2,p)主成分的方差依次递减,重要性依次递减,Y是X,X,112X所有线性组合P中方差最大者;即Y是与Y

3、不相关的X,X,2112X所有线性组合中方差最大P者;Y是与Y,Y,Y不相关的X,X,2p112p1X所有线性组合中方差最大P者。Va(F)Var(F)*Var(F)12p基于以上三条原则决定的综合变量Y,Y,Y分别为原始变量的第一、二、p12第p主成分。其中,各综合变量在总方差中占得比重依次递减。 i主成分分析基本思想是在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化。对于随机变量X,X,X而言,其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间12P的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。本文所要讨论白的主成分

4、分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。下面就对二者进行讨论。主成分求解、从协方差矩阵出发求解主成分一)第一主成分:设X的协方差阵为:iii2iP21224PP2PPX # #由于为非负定的对称阵,则有利用线性代数的知识可得,祕存在正交阵U,使得U远U二X的特征根,不妨假设九2其中九,九2,九i2p由特征根相对应的特征向量所组成的正交阵。x。而U恰好是p #,u)=piu,2i1puuu1112uu21221i,a)p1*XuU二i下面我们来看,是否由V的第一列元素所构成为原始变量的线性组合是否有最大的方差。设有P维正交向量a=C

5、,a,111211pY=a+X+aXV(Yi)=a浮i=a;Uiiii =a,uu,aiiii=1=(a,u)2iii=10,所以Var(y1)Var(y2)Var(y 、由相关系数矩阵求解主成分当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为0,方差为1。x*-X厂E(Xi)clear988.102697.9427383005.00224693055045416761361817935363232:747.991649.9426635642.0033022815115

6、7564859578541148360017925J195.00462.824674185.001271812415267217162233939436535866S239.20328.873041318.002670151701912581116902421248276741534108.38147.46822266.0028592415115899694792156184225314460;487.681057.157290387.0067421515678643626971899848906109127025(270.68933.1310035627.001123219736837902

7、2363574645203173298.02732.639002623.00752210346521591862037506446175919125;307.39633.664027314.0063748814524742241712763183581291343357;1262.414893.0169355680.006324371.89981.7615792063.0016198379.491195.1716156245.0020342126.13581.327515766.0023224137.95269.303301429.005141153.77507.343795136.00101

8、72134.36558.338032877.004700174.996138500181327462781820023561E01016425368107564739588815172115841884738413280679764006712i11182605456215625829391543263:29032304901142612186046634迢7280486042148536335104874661i2547653090184251226223274982:324617328162739724976004548(13057490001238806244740516683(ssjA

9、rrayEditor一b田Fa0”Stack:Base二1234567891803972.2023e-KJ052.7901e-KJ091.3152e-KJ062.6353e-KJ062.721e-KJ088.857e-KJ081.7197e-KJ091739422.2023e-KJ058.8222e-KJ051.1981e-KJ101.8107e-KJ068.0932e-KJ061.1521e-KJ093.4268e-KJ096.4466e-KJ095313032.7901e-KlO91.1981e-KJ101.7392e-Kl141.1916e-KJ101.0786e-KJ111.5766e

10、-KJ134.5629e-KJ138.0912e-KJ136.4973e-K0841.3152e4l061.8107e-KJ061.1916e-KJ101.6241e-KJOB6.0639e-KJ071,3939e-KJ099.5593e-KJ092.1688e-KJ102.1351e-KJ0552.6353e-KJ068.0932e-KJ061.0786e-KJ116.0639e-KJ071.164e-KJ089.9275e-KJ093.1713e-KJ105.9269e-KJ105.629e-F0562.721e-KlO81.1521e-KJ091.5766e-Kl131.3939e-KJ

11、099.9275e-KJ091.6252e-KJ124.64e-KJ128.9388e-KJ127.435e-K07T8.857e4l083.4268e-KJ094.5629e-KJ139.5593e-KJ093.1713e-KJ104.64e-KJ121.3884e-KJ132.6862e-KJ132.2815e-KJ0881.7197e-KJ096.4466e-KJ098.0912e-KJ132.1688e-KJ105.9269e-KJ108.9388e-KJ122.6862e-KJ135.8224e-KJ135.0297e-F08917394531306.4973e-Kl082.1351

12、e-KJOS5.629e-KJ057.435e-KJ072.2815e-KJ085.0297e-KJ085073.5103.6038e-KJ081,3297e-KJ091.7195e4c=eig(b);v3d=eig(b); 由上面的协方差矩阵可以看出各个变量之间的离散程度很大,说明变量之间相关程度不大。然而在相关矩阵中可以看出除了第四个变量与其他变量离散程度大,其余变量之间都有很强的相关性,相关系数在0.7以上。这个结果与协方差矩阵有截然不同的解释。这是因为原始数据各项指标的受不同度量尺度的影响。由原始数据协方差出发求解主成分,得到如下结果:特征根解释方差比例累积比例其对应特征值的标黑圭正交

13、特征向量见下表:特征根特征根特征根特征根特征根特征根特征根特征根特征根特征根因此所得的主成分的表达式是Y,(1.47E05)(XX)+(6.09E05)(XX)+0.85463(XX)+0.093096(XX)TOC o 1-5 h z1122331010Y,(1.43E05)(XX)(1.12E05)(XX)0.50078(XX)+0.14387(XX)1122331010Y,(0.077126)(XX)+(0.038452)(XX)(9.78E07)(XX)+(8.50E05)(XX)101122331010其中第一主成分保留了原有变量的92.8%的信息,所以在分析中可以把第二主成分舍掉,

14、这样就达到了简化问题的目的。第一主成分与原是变量的因子负荷分别p(Y,X)=丫1111/1,(1.47E05)x112.32E+14/8.04E+04,0.7905p(Y,X)=Y/,(6.09E-05)x2.32E+14/8.82E+05,0.98781212122p(Y,X)=Y/,0.98711313133p(Y,X)=Y/,0.11611414144p(Y,X)=Y/,0.7789为1515155p(Y,X)=Y/,0.97091616166p(Y,X)=Y/,0.97121717177p(Y,X)=Y/,0.88801818188p(Y,X)=Y/,0.78231919199p(Y,

15、X)=Y/,0.90691101,10110,10注:其中为第ii个特征根Y为标准正父化后的特征向量阵中第i行第j列ij元素,为第i个变量的方差(i,j=1,2,.,10)ii由此可见,第一主成分反映了年底总人口数指标的79.05%、国内生产总值指标的98.78%、工业总产值指标的98.71%、货运总量指标的77.89%、地方财政预算内收入指标的97.09%、固定资产投资总额指标的97.12%、城乡居民年底储蓄余额指标的88.8%、在岗职工平均人数指标的78.23%、在岗职工人数总额90.69%。所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定

16、资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。它在很大程度上起到了及降维的作用,利用一个综合变量解释了九个原始变量。而主成分分析是利用利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法,本次主成分提取为解释原有的所有变量。因此此次用协方差矩阵求解的主成分不是很好。现就对原始数据相关矩阵进行分析。而由原始数据相关矩阵得到如下结果:特征根解释方差比例累积比例其对应特征值的标准正交特征向量见下表:特征根特征根特征根特征根特征根特征根特征根特征根特征根特征根因此所得的主成分的表达式是Y,0

17、.31814(XX)+0.34386(XX)+0.32335(XX)+0.34396(XX)TOC o 1-5 h z1L2乙3_310Y,0.20773(XX)+0.11973(XX)+0.1947(XX)+0.08645(XX)1122331010Y,0.016935(XX)+0.44555(XX)0.12414(XX)+0.69947(XX)101122331010其中第一、二主成分保留了原有变量90.45%的信息,所以在分析中可以把第一、二主成份提取出来,这样就达到了降维的目的。第一、二主成分与原是变量的因子负荷分别为利用上面求因子负荷方法求得下表第一主成分第二主成分由上表可知第一主成

18、分反映了年底总人口数指标的89.45%、国内生产总值指标的96.68%、工业总产值指标的90.91%、货运总量指标的85.11%、地方财政预算内收入指标的95.46%、固定资产投资总额指标的98.57%、城乡居民年底储蓄余额指标的95.29%、在岗职工平均人数指标的90.90%、在岗职工人数总额96.71%。所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。第二主成份反映了客运总量指标的93.09%。这说明第一、二两个主成分共同解释了原是变量的所有指标,也就是起到了

19、降维作用,而不想协方差矩阵求解主成分那样,并没有把所有变量解释完整。总结一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标不直接由其协方差矩阵出发进行主成分分析,而应该考虑对数据的标准化。在本文中采用的例子就是度量单位不同,有万人、万吨、万元、亿元,而数据见的差异性也非常大,小则65.49大则13618179,。因此在用协方差矩阵求解主成分时存在协方差矩阵中数据的差异性很大。在后面提取主成分时发现,只提取了一个主成分,而此时并不能将所有的变量都解释到,这就没有真正起到降维的作用。但是在用相关矩阵求解主成分时发现,提取了两个主成分后可以很好地将所有变量都解释了,进而起到降维的作用,

20、这就实现主成分分析的最终目的。但是对原始数据进行标准化后更倾向于各个指标的作用在主成分分析夫人构成中相等。对于数据取值范围不大或是度量单位相同的指标进行标准化处理后,其主成分分析的结果与仍由协方差矩阵出发求得的结果有较大区别。这是因为对数据标准化的过程实际上就是抹杀原是变量离散程度差异的过程,标准化后方差均为1,而实际上方差是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在主成分构成中的作用趋于相等。因此,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。附录年末总人口数(万人)地区生产总值(GDP)(亿元)限额以

21、上工业总产值(万元)客运总量(万吨)货运总量(万吨)地方财政预算内收入(万元)固定资产投资总额(万元)城乡居民储蓄年末余额(万元)在岗职工平均人数(万人)在岗职工工资总额(万元)北京市988.12697.94273830052246930550454167613618179353632323857511091天津市747.991649.94266356423302281511575648595785411483600178.522580319石家庄195462.820467418512718124152672171622339394365357.57668230太原市239.2328.8713

22、0413182670151701912581116902421248276.44741534呼和浩108.38147.45982226628592415115899694792156184225.28314460沈阳市487.681057.15729038767421515678643626971899848906109.361270250大连市270.68933.1311003562711232197368379022363574645203173.21047008长春市298.02732.6299002623752210346521591862037506446174.56919125哈尔

23、滨307.39633.65840273146374881452474224171276318358129.131343357上海市1262.414893.016935568063244949961385001813274627818200235.096152145南京市371.89981.75915792063161981412010164253681075647395888.151517214杭州市379.491195.161615624520342158418847384132806797640067.491279750宁波市126.13581.3157515766232241118260

24、54562156258293915431.79633904合肥市137.95269.2993301429514129032304901142612186046633.71364216福州市153.77507.34437951361017272804860421485363351048745.71617604厦门市134.36558.3268032877470025476530901842512262232749.4823834南昌市174.68343.587238815043513246173281627397249760044.63480685济南市322.45820.12761696526300130574900012388062447405165.85836911青岛市237.62700.8341212017315166290687380062020380401721863.5949555郑州市229.03388.12326180101158973733797971440263501138257.4650500武汉市758.231347.8010208352117031624486158648550278019988137.121551442长沙市180.77468.8732417588857875503460701890677

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论