




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析研究需求:在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征, 但在某种程度上存在信息的重叠,具有一定的相关性。1基本思想一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4的精度, 用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和
2、经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率DI以 及时间t因素做相关分析,得到下表:F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121概念:主成分分析是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。基本思想及意义 哲学理念:抓住问题的主要矛盾。 主成分分析将具有一
3、定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这P个指标进行线性 组合作为新的综合指标。 问题是:这样的线性组合会很多,如何选择? 如果将选取的第一个线性组合即第一个综合指标记为F1,希望它能尽可能多地反映原来指标的信息,即var(F1) 越大,所包含的原指标信息就越多, F1的方差应该最大,称F1为第一主成分。 如果第一主成分F1不足以代表原来p个指标的信息,再考虑选取F2即选择第二个线性组合。为了有效地反映原来的信息, F1中已包含的信息,无须出现在F2中,即cov(F1, F2),称F2为第二主成分。 仿此可以得到p个主成分。 我们可以发现这些主成分之
4、间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。2数学模型与几何解释假设我们所讨论的实际问题中,有p个指 标,我们把这p个指标看作p个随 量,记为X1, X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而 这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。F1 =F2 =u1
5、1 X1u12 X1+ u21 X 2+ u22 X 2+L+ up1 X p+L+ up 2 X pLLFpuiX= u1i X1 + u2i X 2 + upi X p简记为 Fi= u1 p X1+ u2 p X 2+L+ upp X p(i = 1, 2, p)满足如下的条件:每个主成分的系数平方和为1。即u+ u221i2i+L+ u2= 1pi主成分之间相互独立,即无重叠的信息。即Cov(F,F)=0,i j,i,j= 1,2, L,pij主成分的方差依次递减,重要性依次递减,即Var(F) Var(F ) L Var(F )12p平移、旋转坐标轴x2F1主F2成分分 析 的几何解
6、释x1平移、旋转坐标轴x2F1主F2成分分析的 x几1何 解 释平移、旋转坐标轴x2F1主F2成分分析的几何解释 x1xF平移、旋转坐标轴21主F2成 分 分 析 的 几何 x1解释 为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 如果我们将
7、xl 轴和x2轴先平移,再同时按逆时针方向旋转q角度,得到新坐标轴Fl和F2。Fl 和F2是两个新变量。q根据旋转变换的公式:F1 = x1 cosq+ x2 sinqF= -x sinq + xcosq212 F1 = cosqsinq x1 = Ux F -sinqcosq x2 2 U为旋转变换矩阵,它是单位正交矩阵,即有U = U-1, UU = I旋转变换的目的是为了使得n个样品点在 Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含
8、的信息起到了浓 缩作用。Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的各点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。3 主成分的推导及性质一、两个线性代数的结论1、若A是p阶实对称阵,则一定可以找到正交阵U,使U-1AU =l100L0 0l2L MMOM 00Llp p p其中li ,i= 1.2.L p是A的特征根。2、若上述矩阵的特征根所对应的单位正交特征向量为u1 ,L,upu11uu12 uLu
9、1 p Lu令U = (u,L,u) = 21222 p 1pMMMup1up 2Lupp 则实对称阵A 属于不同特征根所对应的特征向量是正交的,即有UU = UU = I二、主成分的推导1(一) 第一主成分s 2s12Ls1 p 设X的协方差阵为s= 212sLs22 p xMMMsp12 ssp 2Lp 由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得UXU =l10 O 0lp 其中l1, l2, lp为x的特征根,不妨假设l1l2 lp。而U恰好是由特征根相对应的单位特征向量所组成的正交阵。u11uu12 uLu1 p LuU = (u,L,u) = 21222
10、 p i1pMMMup1up 2Lupp U= (u ,u,L,u)i = 1,2,L, Pi1i2ipi下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。设有P维正交向量a= (a, a,L, a) 且a a= 111121p111F1 =a11 X1+ + ap1 X pl1= a1XlV (F ) = aSa= aU2Ua1111O1lp l1 u1 l u = a u,u,u 2 2 a112p 1l u p p p= lia1uiuia1i=1p2= li (au1i )i=1p l (au )211ii=1p= l1 a1uiuia1i=1= l1a1U
11、Ua1= l1a1a1= l1当且仅当a1 =u1时,即F1 = u11 X1+L+ up1 X p时,有最大的方差l1。因为Var(F1)=U1SxU1=l1。如果第一主成分的信息不够,则需要寻找第二主成分。(二) 第二主成分在约束条件cov(F1, F2 ) = 0下,寻找第二主成分F2 = u12 X1 +L+ up 2 X p因为 cov(F1, F2 )= cov(u1x,u2 x)= u2Su1= l1u2u1 = 0所以u2u1 = 0l则,对p维向量u2 ,有pp2V (F2 )= u2Su2 =iu2uiuiu2 =i (u2ui)2 l2 (u2ui )lpi=1i=1i=
12、2= lp u u uu2 2ii2i=1= l2u2UUu2 = l2u2u2 = l2所以如果取线性变换:F2则 F2的方差次大。= u12 X1+ u22 X 2+L+ up 2 X pF1 =F2 =类推u11 X1u12 X1+ u21 X 2+ u22 X 2+L+ up1 X p+L+ up 2 X pLLFp =u1 p X1+ u2 p X 2+L+ upp X p写为矩阵形式:F= UXu11U = (u1uu12 uLu1 p Lu,L,u) = 21222 p pMMMup1up 2Lupp X = ( X1, X 2 ,L, X p )4 主成分的性质一、均值E(Ux
13、)= Um+ lp= s21+ s22+ s2p=pxi二、方差为所有特征根之和pVar(Fi )i=1=l1+ l2 +i=1说明主成分分析把P个随 量的总方差分解成为P个不相关的随 量的方差之和。协方差矩阵S的对角线上的元素之和等于特征根之和。三、精度分析1) 贡献率:第i个主成分的方差在全部方差中所占比重li li i=1,称为贡献率,反映了原来P个指标多大p的信息,有多大的综合能力。2) 累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重k lii=1 lipi=1来描述,称为累积贡献率。我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F
14、2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量为依据,即当累积贡献率85%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。四、原始变量与主成分之间的相关系数Fj =u1 j x1+ u2 j x2+L+ upj xpj = 1,2,L, m, m pF = UXUF = X x1u11u12u1 p F1 xuuu F2 = 21222 p 2 xuuu Fpp1p 2pp p Cov(xi , Fj )= Cov(ui1F1+ ui 2 F2+ + uip Fp , Fj )= uij ljr(x
15、i, Fj )=uijlj=ljuijljs is i可见,xi和Fj的相关的密切程度取决于对应线性组合系数的大小。五、原始变量被主成分的提取率前面我们讨论了主成分的贡献率和累计贡献率,他度量 了 F1 , F2 , , Fm 分 别 从 原 始 变 量 X1 , X2,XP中提取了多少信息。那么X1,X2,XP 各有多少信息分别F1,F2,Fm被提取了。应该用什么指标来度量? 我们考虑到当讨论F1 分别与X1 , X2 , XP 的关系时, 可以讨论F1 分别与X1 , X2,XP的相关系数,但是由于相关系数有正有负, 所以只有考虑相关系数的平方。Var(xi )= Var(ui1F1+ u
16、i 2 F2+ + uip Fp )ul则2i1122+ ul+2+ ul2immipp= s+ ul+i 22iul2ijj是Fj 能说明的第i 原始变量的方差ul2ijj/s 2是Fj 提取的第i 原始变量信息的比重i如果我们仅仅提出了m个主成分,则第i 原始变量信息的被提取率为:Wi = lju/s= rmm222ijiijj =1j=1例 设 x1, x2 , x3 的协方差矩阵为 1- 200S = - 25 002解,得特征根为l1 = 5.8,3l2 =2.00,l3 =0.170.383 00.924U= - 0.924U= 0U= 0.383123 0.000 10.000第
17、一个主成分的贡献率为5.83/ ( 5.83+2.00+0.17 )=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。r11=l u111s21r12=l u121s22Xi与F1的相关系数平方Xi与F2的相关系数平方信息提取率xir (xi , F1 ) = ri1r 2i1r(xi , F2 ) = ri 2r 2i 2Wi10.9250.855000.8552-0.9980.996000.996300111=5.83 * 0.3831 = 0.9255r13 = 0=2 *(-0.924)= -0.998定义:如果一个主
18、成分仅仅对某一个原始变量有作用,则称为特殊成分。如果一个主成分所有的原始变量都起作用称为公共成分。(该题无公共因子)六、载荷矩阵u11u12u1m u2m uuupm 2122uup1p 25 标准化变量主成分 在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。, 若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响, 常采用变量标准化的方法,即令s iiiX * =Xi - mii = 1, 2, pmi=EXisii = Var( Xi ) 这时,X *=
19、 ( X *, X *, X * )的协方差矩阵便是12pX = ( X1, X2 , Xp )的相关系数阵r= (rij),p p其中 X- m X- m j jCov( Xi , X j )rij= E ii =siio jjsiis jj 利用X的相关矩阵作主成分分析,平行于前面的结论,可以有如下的定理: 定理:设 X *= ( X *, X *, X * )为标准化的随机向量,其12p协方差矩阵(即X的相关矩阵)为 ,则X*的第i个主成分F* = (U* ) X *= U*X1 - m1+U*X2 - m2 +s11s22+U*X p - mppisi = 1, 2, pppii1i2
20、i并且pppi =1iiiVar(F* ) = l*= Var( X * ) = pi =1i =1 其中l* l* l* 0为相关矩阵的特征值,12pU * ,U * ,U *为相应的正交单位化特征向量。12p 这时第i个主成分的贡献为l* / pilmpi前m个主成分的累积贡献为*i =1例题:对比标准化和非标准化数据的主成分设 X=( X1 ,X 2 )协方差矩阵和对应的相关矩阵分别为S = 14r = 10.4 4100 0.41如果从出发作主成分分析,易求得其特征值和相应的单位正交化特征向量为l1 = 100.16U1=(0.040, 0.999)l2=0.84U2=(0.999,
21、-0.040)由于X2的方差很大,完全控制了提 取 信 息 量 占99.2% 的第一主成分( X2 在F1 中的系数为0.999) 淹没了变量X1的作用。 则X的两个主成分分别为:F1=0.40 X1+ 0.999X2F= 0.999X- 0.040X212第一主成分的贡献率为:l1l+ l=100.16100.16 + 0.84= 99.2%12U=如果从出发作主成分分析,可求得其特征值和相应的单位正交化特征向量为l1* = 1.4*(0.707, 0.707)l1=2*0.6*(0.707, -0.707)U=2 则X*的两个主成分分别为:F121* = 0.707 X * + 0.707
22、 X * = 0.707(X- m ) + 0.0707(X- m )1122F* = 0.707 X * - 0.707 X * = 0.707(X- m ) - 0.0707(X- m )2121122此时,第一主成分的贡献率有所下降,为:l* 1 = 1.4 =p270% 由此看到,原变量在第一主成分中的相对重要性由于标准化而有很大的变化。 在由所求得的第一主成分中,X1和X2和的权重系数分别为0.040和0.999,主要由大方差的变量控制。 而在由所求得的第一主成分中, X1和X2和的权重系数反而成了0.707和0.0707,即X1的相对重要性得到提升。此例也表明,由和求得的主成分一般
23、是不相同的,而且,其中第一组主成分也不是第二组主成分的某简单函数。在实际应用中,当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。6主成分个数的选取185%原则 记方差的累积贡献率为qpqj(q) = ll= 1 liiii =1i =1p i =1根据我国主成分分析的实践来看,j(q)通常可以保证分析结果的可靠性。 85%该原则是在实践中总结出来的,与其它原则相比,通常有选取较多主成分的倾向。2li l 的原则先计算 l= 1ppi =1li ,然后将li 与之进行比较,选取li l 的前q个变量的主成分。由于li由样本数据的相关矩阵R所求得,所以 l = 1,故只要选取 li 1
24、 的前q个变量作为主成分即可。实践中,该准则通常容易选取较少的主成分。 3斯格理(Screet)原则 具体做法:计算特征根的差Dli= li +1- l,i如果前q个Dli比较近,即出现了较为稳定的差值,则后p-q个变量Fq+1 , Fq+2 , Fp可以确定为非主成分。这是从相反的方向来确定主成分的一种做法。实践中,该准则也倾向于选择较多的主成分,而且一般不单独使用。4巴特莱特检验(Bartlet)原则(2H0:最后p-q个分量均等于或不显著地大于零。ln Q c 2检验统计量:c 2= c1 ( p - q-1)( p - q+ 2)p其中:Q = lj 1p - q-( p -q)p lj c = -(n -1) +1+1 j =q +1具体做法:j =q +16(2 p + 5)3q该检验的精确性受到样本容量n大小的影响, 当n较小时,有可能低估突出变量的数目;当n较大时,有可能高估突出变量的数目。从q=1开始,一直检验到最后p-q个变量不显著为止。7主成分的解释一、主成分的解释1、从特征向量Uij的各个分量数值的大小入手
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 薪酬管理与绩效管理办法
- 蛋鸡养殖场防疫管理办法
- 衡水市中学食堂管理办法
- 装修工人工作室管理办法
- 西安市保理公司管理办法
- 规模种植苦麦菜管理办法
- 设计院装修工程管理办法
- 调度管理及流转管理办法
- 质量发展专家库管理办法
- 贵州省公益项目管理办法
- 2024年华东电网考试题库
- 演讲比赛评分表和计分表
- 2024年粮油仓储管理员理论知识竞赛理论考试题库500题(含答案)
- 24年-注安建筑-必背简答题
- 事业单位考试(公共基础知识)3000题每日练习021
- 流浪的纸飞机让压力飞
- 财务经理招聘笔试题及解答(某大型央企)
- 2024年新北师大版七年级上册数学全册课件(新版教材)
- 高边坡支护开挖施工专项方案(专家论证)
- 《小型水库雨水情测报和大坝安全监测设施建设与运行管护技术指南》
- 中小学、幼儿园系列职称评审申报表(A4版)
评论
0/150
提交评论