[理学]实用多元统计分析主成分_第1页
[理学]实用多元统计分析主成分_第2页
[理学]实用多元统计分析主成分_第3页
[理学]实用多元统计分析主成分_第4页
[理学]实用多元统计分析主成分_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、8.1 引言主成分分析所关心的问题,是通过一组变量的几个线性组合来解释这组变量的方差- 协方差结构。它的一般目的是:(1)数据的压缩;(2)数据的解释。虽然要求P个成分可以再现全系统的变异性,但大部分变异性常常只用少数k个主 成分就可说明。出现这种情况时,这A个主成分中所包含的信息和那P个原变量所包含的 (几乎)一样多。于是这k个主成分就可以用来取代那初始的p个变量,并且由对p个变 量的”次测量值所组成的原数据集,就压缩为对4个主成分的篦次测量值所组成的数 据集。主成分分析常常揭示出一些先前不曾料想到的关系,因而会对数据给出一些不同寻 常的解释。例8. 5讨论的股票市场数据,提供了这方面的一个

2、好例子。主成分分析更多地是一种达到目的的方法,而非目的本身。这是因为主成分分析频繁 地用作许多大型调研的中间步骤,例如,可以将主成分分析插到多重回归(见第7章)或聚 类分析(见第12章)中去;此外还因为(尺度)主成分是第9章考虑的因子分析模型中协方 差矩阵的一个“分解因子工8.2 总体主成分主成分,在代数学上是2个随机变量X1,Xz,X,的一些特殊的线性组合,而在几 何学上这些线性组合代表选取一个新坐标系,它是以X|,M,,X,为坐标轴的原坐标系 旋转后得到的。新坐标轴代表数据变异性最大的方向,并且提供对协方差结构的一个较为 简单但更精炼的刻画。我们将会看到,主成分只依赖于X1,Xz,,X,的

3、协方差矩阵£(或相关矩阵p).它们 的进一步讨论不需要多元正态的假定。另一方面,对由多元正态总体导出的主成分可用常 数密度椭球来作有用的阐明。进而,当总体是多元正态时可由样本分量作出推断(见8. 5 节)。设随机向量X,= X,Xz,,有协方差矩阵E,其特征值乙0。考虑线性组合347Y a/X = anX| + a|2X2 + +Y2 = a/X = a2X + a22X2 + + a2Pxp K O- 1 /Y, = a/X =+ aptX2 + +则由式(2-45),我们得到Var(y,) = a/ Za, i = L2,,p(8-2)Cov(y,匕)=a/ Sa* i .k =

4、(8-3)主成分是那些不相关的线性组合匕,匕,.丫,,它们能使在式(8-2)中的方差尽可能 地大。第一主成分是有最大方差的线性组合,也即它使Var(K)=aJZa】最大化。显然. Var(yl) = a;2al会因为任何a,乘以某个常数而增大.为消除这种不确定性,一个方便的 办法是只关注有单位长度的系数向量。我们因此定义第一主成分=线性组合a;x,在跖a = l时,它使Var("X)最大第二主成分=线性组合£X,在和Cov(ajX,£X) = 0时,它使Var(a/X)最大在第i步.第i个主成分=线性组合2,在3,a = 1和Cov(a,X,a:X) = 0aVD

5、时,它使 Var(a:X)最大结论8. 1设E是随机向量X' = X,X2,X,的协方差矩阵。它有特征值特征向 量对(4,%),。2速2),(L,eQ,其中为'不>则第,个主成分由匕=e/X = e“Xi + et2Xt + + %,X», i = 1,2,户(8-4)给出。此时,Var(yj = e/Se,=4 i = 1,2,,户Cov(匕,匕)=e/= 0 i 中 k(8-5)如有某些人相等,那么对应的系数向量e,的选取从而y,的选取,就都不是惟一的。证明从式(2-5D,取B=E,我们知道max = % (当a =新时达到最大值)但是既然特征向量已规范化了

6、,«,=1,这样,max a y=4=旦在i = "兄=Var(y)wo 8 ae1新类似地,利用式(2-52),我们得到a'Za 、max 73-= 儿+ik = 1»2,>/> 1My a a对于选取a=e,.i使e;+ie, = 0,f = l,2,A和4=1,2八,/>1,e;+i&*+i/e;41却.1=e;.Ee.+ i = Var(匕但(工,+)=儿+a;+通,+| =九+|故Var(y4+l) = A*+lc还需要证明e.与e4垂直(也即e,a = O,,#A)将给出Cov(Y,匕)= 0。现在,如果2的特征值%,

7、“,,,人全都不同,则I 348 的特征向量是相互正交的,而如工的特征值不是全不相同,则对应共同特征值的特征向 量可以选为正交的。因此,对于任意特征向量e.和g,e,'e' = °"H3既然处,用 去乘,便得到对于任意的有Cov(y,yj = e;Se* e/A*e> = A*e/e* = 0证毕。由结论8.1可知,主成分都是不相关的,而且它们的方差等于E的特征值。结论8.2设随机向量X' = Xi.Xz,XJ有协方差矩阵工其特征值-特征向量对 (4 ,e:), (4 g),,(2,得),其中为莅)乙>0。设 K)=e/X ty2=e2/

8、X» »yx, = e/X 是主成分。则pP+ . + + °pp Var(Xt) =4- A2 + + 人=tVar(K)r- 1» i证明 由定义2A. 28w”+/zHFo” = tr(£)。由式(2-20)取A = 2,我们可写Z =PAP)其中A是特征值的对角矩阵,而P = %,e2,e,故有P'P = PP' = I。利用结论 2A.i2(c),我们有tr(5) = tr(PAP') = tr(APT) = tr(A) = % + % + + A于是*Var(X,) = tr(S) = tr(A) = 

9、63;Var(Y,)结论8.2说明总体总方差=5i +=Aj + % + + 入户从而总方差中属于第卜个主成分(被第卜个主成分所解种的)的比例为总方差中属于第人个主成分=+不;.",4 = 1,2,少(8-7)的比例如果总方差的相当大的部分(例如80%到90%)归因于第一个、前两个或前三个成分,而 p较大,那么这些成分就可以“取代”原来的力个变量,而且信息损失不多。系数向量e,' = 0,1,,=,/的每一个分母也值得注意。J的大小量度第k个变 量对第i个主成分的重要程度,而不管其他变量如何。特别地,"与丫,和x*之间的相关 系数成比例V结论8.3如果丫尸“乂,丫2

10、 =勺,,Y, = e;X是从协方差矩阵Z所得到的主成 分,则i .卜=1,2,力是成分匕和变量X.之间的相关系数,此处(入出),(用.匕),(儿一,)是工的特征值-特 征向盘对。 349 Py,八证明 设a; = 0,,0,1,0,,0,则由式(2-45)有X产&;X和Cov(X,,匕)= Cov(a/X,e/X) = a/2e.既然 Ee. = Ze,.CQv(X-y,) = .Za = >UA。则由 Var(y,) = A,见式 (8-5)和 Var(X*) = On得出=1,2,虽然变量和主成分之间的相关系数有助于解释这些成分,但它们只量度单个X对成 分Y的单变量的贡献。

11、这也就是说,在其他那些X存在时.它们并不表明该X对成分Y 的重要程度。因为这个理由,某些统计学家(例如,见Rencher17)推荐,用于解群主成分 时只用成分系数e,而不用相关系数。虽说作为变量对已知成分的重要性的测度,系数和 相关可能导出不同的重要性等级,但是我们的经验表明,这种等级的差别常常不是大到很 明显,在实践中,有较大(按绝对值)系数的变量,趋向于有较大的相关,故这两个重要性的 测度1前者为多变量,后者为单变量)经常给出相似的结果,我们建议既考察系数又考察相 关,这有助于解释主成分。下面是一个虚构的例子,用来说明结论8. 1,8. 2和8. 3。例8.1 (计算总体主成分)设随机变量

12、X.X2和X3有协方差矩阵1-2 0'E = - 25 0-00 2.可以行验特征值特征向量对为4 = 5. 83 e/ = 0. 383, 0. 924,022 = 2. 00e/ = 0,0,14 = o. 17 e/ = 0, 924,0, 383,0 因此,主成分为.=e;X = 0. 383Xj 0. 924X2Y2 = e;X = Xi匕=e;X = 0. 924X1+ 0. 383X2变量Xs是主成分之一,因为它与其余的两个变量不相关。第一主成分可以阐明式(85)。例如Var(y。=Var(0. 383X1-0. 924X2)=0. 3832 X VarCX,) + (

13、0. 924)2 X Var(X2)+ 2 X 0. 383 X (- 0. 924) X Cov(X,X2)=0. 147 X 1 + 0. 854 X 5 - 0. 708 X (- 2)= 5.83 =1】Cov(Yl9Y2) =Cov(0. 383X1 - 0. 924X2,X3)=0. 383Cov(XmX3) - 0. 924Cov(X2,X3)R50=0. 383 X 0 - 0. 924 X 0 = 0也容易看出+ + / = 1 + 5 + 2 = A + 22 + 4 = 5. 83 + 2. 00 4 0.17 此例证实式(8-6)正确,总方差中归因于第一主成分的比例为为

14、/(4+莅+%)= 583/8 = 0.73。进一步,前两个主成分占总体方差的(5.83 + 2)/8 = 0.98。此时,两个成分匕和丫2 可以代替原先的三个变量而不会有什么信息损失。e” C = 0. 383 X JS. 83=0. 9250. 924 X 仄.83 k=-0. 998注意这里变量占有系数一0.924,在主成分匕中拥有最大的权数。它也有与E最大 (按绝对值)的相关系数。X|和匕的相关系数为0. 925,几乎与前者一样大,这表明此两个 变量对第一主成分来说大致同样重要。然而Xi和X2的系数的相对大小说明,对于匕的 确定,Xz的贡献比X1要多。在这种情况下,由于两个系数均相当地

15、大且有相反的正负号, 我们将认为这两个变量均有助于解释匕,最后,色23=2冬=0和田=(一如所期)由于第三个成分不重要,所以余下的相关可以忽略。考虑从多元正态随机变量导出的主成分会提供大量信息。设X的分布为N(U.E)。 我们从式(4-7)知道,在以口为中心的椭球上,X的密度是常数(x M)= C2其轴为士c 4e,,=1,2,,户,其中(42)是E的特征值-特征向量对。在原点为U、坐标 轴平行于原坐标轴与,与,4的坐标系中,位于椭球第i条坐标轴上的一点,将有与 %,= (,见/成比例的坐标。在下面的讨论中,令H=0将是方便的。从2. 3节的讨论,取A = £7,我们可有c2 = x

16、-'x = -(e/x)2 + j-Ce/x)2 + + p(e;x)2 %a2其中e;x,&x,e;x为x的主成分。设=e;x,“=e2'x,”=e;x,我们有/ = yyf + yyl + + yy AiAu人o并且在具有分别沿灯通2,,与方向的坐标轴为沙,“,力的坐标系中,上式定义了一 个椭球(由于%,不,人都是正的屋如果不是最大的特征值,那么主轴沿着劲的方向。 这样做可不失一般性,因为总可以将正态向量X变换为正态向量W = X-M而有七(亚)=0,而©。丫(乂)一C0V(W)e 351 余下较次要的坐标轴沿着由e”,与确定的方向,总而言之9主成分V =

17、e1'x,” = e2'X9,” =e;x沿着常数密度椭球的坐标轴方向。因此, 在第i条椭球轴上任一点x的坐标,与e: = e“, ,e,J的成比例,并且还必定有形如0,, 0,、,0,0的主成分。当uHO时,均值中心化主成分y =e/(x U)的均值为0,且在e,的方向上。图8. 1表示的是一个均值u为0和0= 0. 75的二元正态随机向量的常数密度椭圆和主 成分。我们看到,将原坐标轴旋转一个角度心直 到它们与常数密度椭圆的轴重合,就得到主成 分。这个结论对力2维时同样成立。图8.1均值为0的二元正态随机向量X,其常数密度椭圆X=/和主成分y】,X从标准化变得到的主成分(8-

18、9)主成分也可以从标准化变量z* =因 一 "得到。采用矩阵记号z = (V,/l)_,(X M)(8-10)其中对角标准离差矩阵由式(2-35)定义。由式(2-37)易知E(Z) = 0,且Cov(Z) =- pZ的主成分可从X的相关矩阵p的特征向量得到。由于各个Z,的方差为1,我们先前提供 的所有结论都有更为的化的表达。我们将继续用记号y,代表第i个主成分,用(4,e,)代表 特征值一特征向最对,不管它是从p或是W得到的。然而,由工导出的(4,e,)和由p导出的 (4c), 一般来说是不同的。结论8. 4有Cov(Z) = p的标准化变量Z'=出2,,的第i主成分由 匕=

19、%2=%' (X y) t3 = 1.2 ,力给出。而且Var(y,) = JVar(Z.) = p(8-11)r-1&,.八=e,t Va- i、k = 1,2,/>352此时,(为,©。,(莅,。2),(L,e.)都是P的特征值-特征向量对,且有。证明 结论8.4从结论8.1,8. 2和8. 3得到,只要用Z】Z,”代替X-X,,X,和用P代替E即可。一从式(8-11)我们看到,(标准化变量)总体的总方差就是。,即矩阵P的对角元之和。 利用式(8-7),用Z取代X,我们发现,由Z的第A个主成分解释的总方差所占的比例是,第A个主成分解释的总方差=:, A =

20、1,2,,P(8-12)所占的比例其中诸儿都是P的特征值。例8. 2 (从协方差矩阵和从相关矩阵得到的主成分是不同的)考虑协方差矩阵N TL4 iooJ和导出的相关矩阵40.4'p =L0.4 1 J自E得出的特征值-特征向量对是A = 100. 16te/ = 0. 040,0. 999 4 = 0. 84,e/ = 0. 999, 一 0. 040类似地,来自P的特征值-特征向量对是A = 1 + p = 1. 4,“ = 0 707,0. 70714 = 1 一 p = 0. 6,e/ = 0. 707, - 0. 707相应的主成分则分别为Yx = 0. 040X)+ 0. 9

21、99X,Y2 = 0. 999Xi - 0. 040X:及y, = 0. 7O7Z1 + 0. 707Z, =0. 707广产)+ 0. 707(强萨)=0. 707(X)%)+ 0. 0707(X2 -%) r %=0. 707Z, - 0. 707Z, =0. 707(X, -j 一707( XQ-)=0. 707(X1 一 4)一 0 0707(X2 - %)由于X?的方差大,它完全控制了由工确定的第一主成分。而且,第一主成分解释的总体总方差的比例为100. 16=0. 992然而,当变量X1和Xz标准化后,所得变量对由P确定的主成分的贡献却相同。利用 结论8.4,我们得到 353 &a

22、mp;凸=(« = 0. 707 X /T7I = 0. 837及PYl.zt = Qi G = 0. 707 X /14 = 0. 837在这种情况,第一主成分解释(标准化)总体总方差的比例为然 ¥ = 87最让人吃惊的是,我们看到变量对于,比如说,第一主成分的相对重要性受到标准化 的极大影响.当由P确定的第一主成分用X,和X2表示时,权数的相对大小0. 707及 0. 0707,却与由W确定的主成分中的那些变量所得到的权数的相对大小o. 040及0.999, 正好相反。上例表明由W导出主成分与由p导出的主成分是不同的,而且,一组主成分也不是另 外一组主成分的简单函数。这

23、说明,标准化不是无关紧要的.如果在极其不同的范圉内测址变量,或是测量单位不是同量纲的,那么变量可能应该 标准化。例如,X1代表年销传额,在10 000美元到350 000美元之间,而Xt是比值(年净 收入)/(总资产),它落在0.01到0. 60之间。那么这时总方差会几乎全部归因于销售额。 此种情况下,我们会得到单一的(重要的)主成分,且长权数很大。相反,如果两个变量都 标准化,它们的大小将在同一层次上民式或4)将在主成分结构上起较大的作用。这个性 质,在例8.2看到过。有特殊结构的协方差矩阵的主成分存在某些模式的协方差和相关矩阵,它们的主成分能够表示成简单的形式。设工是 对角矩阵0” o_

24、0 an 0:.:<813) 10 。令e' = o,0,1,0,o,第i个位置上为1,我们看到并得到结论:(。,.,七)是第i个特征值.特征向量对。由于线性组合(x=x,此组主成分正 是原来那组不相关随机变量。对如式(8-13)所示的协方差矩阵,抽取主成分时是什么东西也得不到的.从另一方面 看,如果X服从正态分布N/U.E),常数密度的轮廓线是椭球,其轴已经沿着最大变差方 354 向,于是就没有必要去旋转坐标系了。对式(8-13)中的E,标准化基本上不改变上面这种情况。在那种情况下,P = L一个 pXp的单位矩阵。易知,pe, = W,故特征值1有P重且可方便地取这些特征向量

25、为e,' = 0,,0,1.0,,0"=1,2,,0。于是,由p确定的主成分也是原变量乙以2,,Z,。而 且,在特征值相等的情形下,常数密度的多元正态椭球是球体。2另一种模式的协方差矩阵常用于描述诸如生物大小等生态学变量中的对应关系.这 种矩阵的一般形式为(8-14)k pa2 得到的相关矩阵为'IP(8-15)P1-P =. -pP也是标准化变量的协方差矩阵。式(8-15)中的矩阵意味着变量X1,Xz,X,是等相关 的。 . 不难证明(见练习8.5),相关矩阵(8-15)的P个特征值可以分为两组。当P为正时, 最大特征值为为=1 + (- 1)。(8-16)相联系的

26、特征向量为7%方七(8-17)其余21个特征值是22 = 4 =L = 1 - P 它们的特征向量可以选为,一7,后邑,0,,°第一主成分 355 与户个原变景之和成比例。它可以看作有等权的“指数”。该主成分解释总体总方差的比 例为A 1 + (/> - 1 )p . p7 = p -pp(8-18)我们看到,0接近1或者"较大时,为/> =0。例如,若p=o. 80和2 = 5,第一主成分解释总 方差的84%e当p近似于1 ,后/>一1个成分对总方差的集体贡献十分小,常可略去。如果标准化变量Z-Zz,,Z,服从多元正态分布,协方差矩阵由式(8-15)给出

27、,那么 常数密度椭球呈“雪茄烟形”主轴与第一主成分匕=(1/斤)口,1,.11X成比例。该 主成分是X在等角线=,11上的投影.那些短轴(及余下的主成分)占据球形对称方向,与主轴(及第一主成分)垂直。8.3综合主成分的样本变差现在我们已有了必要的框架来对户个变量的次测量研究综合其变差的问题,这p 个变量已审慎地选出了几个线性组合。设数据X1,X2,X”为从均值向量为y协方差矩阵为工的某个p维总体中个独立 的抽样。这些数据得到样本均值向量年,样本协方差阵S,以及样本相关阵R。本节的目的是构造所测得的特征的不相关线性组合,而这些特征说明了大多数样本 变差。有最大方差的不相关线性组合,可称为样本主成

28、分。回忆任意线性组合的个值a>X =即孙 + 生252 + +j = 1 有样本均值如、和样本方差ajSay对两个线性组合的数值对(孙,乐,血'舄),也有样本协方 差 “SaJ见式(3-36)。样本主成分被定义为使样本方差最大的那些线性组合。与对总体带所做的一样,我们 限制系数向量a,满足=1.特别地,第一样本主成分=使其样本方差最大化的线性组合ajx,约束为aja1 = 第二样本主成分=使其样本方差最大化的线性组合a;x,约束为a;az=及数值对 除八孙工)的协方差为o在第i步,我们有第i(个)样本主成分=使其样本方差最大化的线性组合a,,&,约束为a/a( = 1及所

29、有 数值对(a,X,a,、j)的协方差为O,AVi第一主成分将a/Sa,或等价地将a/Sa1乐大(8-19)最大化。根据式(2-51),此最大值即是最大的特征值在选取a,=S的特征向量和时得 356 到。在0=a,'S3 = a:九就或a,与e4垂直的约束条件下,相继选取a,使式(8-19)最大化。这样,像结论8. 18. 3的证明一样,我们得到关于样本主成分的下述结论:若是特征值特征向量对为(入出),(&,&),(儿,点,)的户xp样本协方差阵。则第,个样本主成分由=e/x = etlxl + e.21 + + 3力, i = 1.2"给出,其中九儿0,而又

30、是变量Xi.X,.X,的任一观察,同时还有,样本方差(,)=&卜=1.2.,户<8-20)样本协方差(,)=0,此外.样本总方差=%“ =% + & + 4, 1且我们把样本主成分记为,区不管它们是由s还是由R得到的"从S和从R 构造的主成分,一般说是不同的,但从匕下文会清楚究竟用的是哪个矩阵而为方便只用 一个记号工。在两种情况下,将成分系数向量表示为e,将成分方差表示为A.,也是方便 的。常常从观察值X,中减去、而使其“中心化”。这不影响样本协方差阵S,并给出任一观 察值向量x的第,个主成分y, = e/ (x x) 93 = 1,2 9 (8-21)若我们考

31、虑在式(8-21)中以各个观察值、代替任意的x,所生成的第i个主成分的值%=e/(x/ - X), j = L2,切(8-22)则有=工工良'(七-x) = e/(- x)=;曰0 = 0(8-23)/*!Ll也即各个主成分的样本均值为0。样本方差仍如式(8-20)中那样,由诸A,给出。例8. 3 (用两个样本主成分综合样本变异性)一项调查提供威斯康星的麦迪逊地区各区域关于五个社会经济变量的信息。来自14 个区域的数据列在本章末练习的表8. 5中。这些数据产生下列综合统计量: 如X,服从正态分布,样本主成分也可以从工,得到,它是协方差阵工的M大似然估计(参看结论1】建) 此时,只要工的

32、谙特征值不同,样本主成分就可看作为相应总体主成分的最大似然估计。(参看因为本节不要求 正态性假定,因此将不考虑I.同样地,:有特征值6一 1)、乂和对应的指征向量&.其中a居是s的特征值特 征向量对.这样,无论是s还是:都给出相同的样本主成分士,、见式(8-2O)和相同的解弹方差的比例儿“入+及一 十心).最后,无论s还是:都给出相同的样本相关阵R,因此只要把变址标腐化,选s还是选工都无所谓 357 4. 32,14.01,1.95,2. 17,2.45总人口受教育年限就业健康服务家庭收入(千人)中位数总人数业就业数中位数(千人)(千人)(万美元)和4. 3081.6831.8032.

33、155 -0. 253"1.6831.7680. 5880.1770. 176S =1.8030. 5880. 8011.065 0. 1582. 1550. 1771.0651.970 -0. 3570. 2530. 1760. 1580. 3570. 504一试问样本的变差能用1或2个主成分综合吗? 我们发现:主成分的系数(括号中为相关系数)变址为(,九.)以"为.)e3a总人口0. 781(0. 99)-0. 071(-0. 04)0. 0040. 542-0. 302受教育年限中位数0. 306(0.61)一0. 764(-0. 76)-0. 1620. 545一

34、0. 010就业总人数0. 334(0. 98)0. 083(0. 12)0.0150. 0500. 937健康服务业就业数0. 426(0. 80)0.579(0.55)0. 220一 0. 636-0. 173家庭收入中位数-0. 054(-0. 20)-0. 262(-0. 49)0. 962-0. 0510. 024方差口):6.9311. 7860. 3900. 2300.014占总方差的累枳百分比74.193.297.499.9100第一主成分解释样本总方差的74. 1%,前两个主成分合在一起则解释样本总方差的 93. 2%。因此,前两个主成分很好地综合了样本方差,并且将对五个变景

35、的14次观测合理 地压缩到对两个主成分的14次观测。由前述主成分系数可知,第一主成分实质上是前四个变量的加权平均。从第二主成分 看出健康服务业的就业和另两项受教育年限中位数及家庭收入中位数的加权平均形成强 烈反差。正如我们在讨论总体主成分时说过的那样,为了阐明主成分成分系数“和相关系 数弓,,都应进行考查。相关系数考虑到了原变量方差的不同,但仅仅量测单个X的重要 性却未顾及组成该成分的其他X。然而,从例8. 3注意到,表中的相关系数的确证实了由 成分系数所提供的阐述。主成分个数始终有个问题:应保留多少个成分?对此没有一个确切的回答。应考虑的事情包括所 说明的样本总方差的量、特征值(样本成分方差

36、)的相对大小以及诸成分的现实题材的阐 述。此外,像我们稍后讨论的那样,与一个接近于零的特征值有关的成分,会显得不重要, 却可能表示数据中有一个意外的线性依赖关系。 358 一种能帮助我们确定主成分合适个数的有用的视觉工具是所谓的崖底碎石图。将 特征宜从大到小排列,崖底碎石图就是A,对序号,(即特征值的大小对特征值的号码)的 ("Aj的图。为确定主成分的合适个数,我们在该图上找拐弯处(弯曲处)。选取一个拐弯点 对应的序号,此序号后的特征值全部较小且彼此大小差不多。这样选出的号码数作为主成 分的个数。图8.2表示有6个主成分的崖底碎石图。图8.2中在,=3处拐弯。也就是说, 此后的特征值

37、全都比较小且彼此大小差 不多,在这种情况下,没有其他证据也看得出,两个(也许三个)样本主成分有效 地综合了样本总方差。例8.4 (用一个样本主成分综合样 本变异性)为研究海龟的大小和形状间的关 系,朱利科叶尔 Julicoeur )和莫西曼 (Mosimann)ll测量了龟甲的长、宽和 高,他们的数据见练习6.17表65中,建 议对数据取对数作分析(朱利科叶尔 10建议在研究大小和形状关系时一般 采用对数变换),并作主成分分析。24只雄海龟龟甲大小的自然对数. 样本均值向量为M= 4. 725, 4. 478, 3. 703,协方差阵为图8.2岸底碎石图11.072 8.019 8.1601

38、Is = 10-3 8.019 6.417 6. 005 ; 8.160 6.005 6.773J主成分分析(见显示板8. 1的SAS统计软件包的瑜出)得到下列数据:主成分系数(括号内为相关系数)主成分系敷(括号内为相关系致)变tt6】仇|,,)«03In(长) In(宽) !n(ff)0. 683(0. 99)一。. 159-0. 7130.510(0.97)-0.5940.6220.523(0.97)0.7880.324方差U):占总方差的累枳百分比23. 30X10-30. 60X 10",0. 36X 10-396. 198.5100显示板8.1(利用PROC PR

39、INCOMP对例8.4的SAS分析) 译者注:此图得名于连线的图形对应大特征值的点较高.然后欣然下落成悬崖”状.对应后几个小特 征值的点则似廊下一堆碎石. 359 title 'Principal Component Analysis',data turtle infile *E8-4. dat t ;input length width height xl = log(length); x2 = log(width); x3 = log(height); proc princomp cov data = turtle out = result ;var xl x2 x3;1P

40、ROGRAM COMMANDSPrincipal Components AnalysisOUTPUT24 Observations3 VariablesSimple StatisticsXIX2X3Mean 4. 7254436474.4775737653.703185794StD0.1052235900.0801044660.082296771Covariance MatrixXIX2X3XI0.0110720040 )0.00801914190. 0081596480X20. 00801914190.0064167255 jC. 0060052707X30. 00815964800.006

41、00527070. 0067727585Total Variance = 0. 024261488Eigenvalues of the Covariance MatrixEigenvalueDifferencePreportionCumulativePRIN10. 0233030.0227050. 9605080. 96051PRIN20. 0005980. 0002380.0246610. 98517PRIN30. 0003600.0148321. 00000EigenvectorsPRIN1PRIN2PRIN3XI0 683102-0.159479一0. 712697X20.510220-

42、0. 5940120. 621953X30.5225390. 7884900. 324401图83画出了崖底碎石图。图上很突出的拐弯发生在,=2处。很清楚,有一个支配地 位的主成分。解释96%总方差的第一主成分,还有一个有趣的题材解释。由于.=0. 683 In(长)+ 0. 510 In(宽)+ 0. 523 In(高) 360 =ln(长683(宽)。(高)0叫第一主成分可看作修正了量纲的一个盒子容积的自然对数In(容积)。例如修正后的高实 际是(高尸在这种尺寸修正意义上,才给出龟甲为圆形形状一说。图8.3海龟数据的崖底碎石图样本主成分的解释样本主成分有几种解释。首先设X的真实分布接近N,

43、(u,E)。此时样本主成分工= 是总体主成分K=e,'(X-|i)的一个实现,后者服从NJ0,A)分布。对角阵A有 主对角元4,莅,乙,而(入,七)是E的特征值-特征向量对.利用样本值、我们也可用反近似P而用S近似工 若S正定,则所有满足(x 一 x)/S-)(x - x) = r(8-24)的。XI向量x所组成的等值轮廓线,估计出真实的正态密度的常数密度等值轮廓线-为显示生成数据的正态分布,可以把这些近似的等值轮廓线绘制到散布图上。正态性的假设,对8. 5节讨论的推断过程是有用的,但对研究在式(8-20)中 总结出的样本主成分性质,并不是必需的。即便在正态性假设很可疑,并且散布图可能

44、偏离椭圆模式的时候,我们仍可从S抽取 特征值并得到样本主成分。从几何上看,数据可绘成P维空间的个点,然后在新坐标系 中表示出数据,这个新坐标系和式(8-24)中等值轮廓线的坐标轴重合。现在,式(8-24)定 义一个超椭球,其中心在支而轴由S7的特征向量给出或者等价地由S的特征向量给出。 (见节2.3和结论4.1,取§代替£。)这些超椭球轴的长度与4=1,2,6成比例, 这里力?九%0是S的特征值。因为长度为1,第,个主成分的绝对值15,1 = 16'6 。|,给出向量(x-iO在单位 向量e上的投影。见式(2-8)和式(2-9)。于是,样本主成分立=a'(x

45、-X).f=l,2,,外 依着在超椭球的轴上它们的绝对值是x-x在轴e,方向上的投影的长度。因此,样本主 成分可看作是将原坐标系的原点变换到、,然后,再旋转坐标轴直到在最大方差的方向上 361 穿过散布线。样本主成分在几何学上的解料,对力=2由图8.4给出。图8.4(a)表明一个常数距离 的椭圆其中心在且有3友。这些样本主成分被顺利确定,它们依着椭圆轴线样本方 差最大的两个相应垂直方向,图8.4(b)表明常数距离椭圆,中心在心目有兀=人。此时常 数距离椭圆(一个圆周)的轴不是惟一确定的,可以沿着任何两个相互垂直的方向,包括原 坐标轴的方向。类似地,样本主成分可沿着任何两个垂直方向.包括原坐标轴

46、的方向。当 常数距离的轮廓线接近于圆,或等价地,当S的特征值近似相等时,样本方差在所有方向 上都是均匀的。这就不可能在维数比p维更小的空间里表示数据。图8.4样本主成分和常数密度椭圆如果后几个特征值大充分小使得对应。方向上的变差微不足道,那这后几个样本 主成分常可略去,因而留下的成分就足可近似表达这批数据(见节& 4)。最后,在直接对均值中心化数据、,一、作近似时,补充8A对样本主成分所起的作用 给出了进一步结论e样本主成分的标准化一般说来样本主成分在尺度改变时不是不变的。(练习8. 2。)正如我们在总体成分 处理中提到的在不同尺度或在同一尺度但变化范围极其不同时所测盾的变量,常常要标

47、 准化。例如,利用下述构造完成标准化:(8 25)将观测值标准化后的X/数据矩阵 362 (8-26)(8-27)和样本协方差矩阵见式(3-27)s, - J-irz'Uz- J-irz|= -J-7(z - izy(z - iz)n 1= -zzn 1标准化观测值的样本主成分由式(8-20)给出,但要用矩阵R取代S。由于观测值已经由上 述构造完成“中心化:因此不必将主成分写成形如式(8-21)的形式. 363 如Z).却,z.是协方差矩阵为R的标准化观测值,则第i个样本主成分是 y, = e/z =+ et2z2 + - + 3/八i = 12户其中是R的第,个特征值-特征向量对且人

48、&2兀0另有(8-29)样本方差(50 =2 i =八2样本协方差(丸,,)NOi手k此外(标准化)样本总方差=tr(R)= pHii + & + +入且,“=虱 ,& = 1.2,,p利用式(8-29),我们看到,由第i个样本主成分解释的样本总方差的比例是第,个样本主成分、解释的(标准化)=j ,=1,2,,力(8-30)样本方差所占的比例J一个运验方法是只保留那些方差大于1的成分.或者等价地,只保留那些单独能解释至少 1/P总方差的成分。然而这个经验准则没有多少理论支持,不应肓目运用。如我们已经提 到过的,碎石图对选择合适的成分个数也是有用的。例8.5 (来自标准化

49、数据的样本主成分)曾有人确定了纽约股票交易所的五只股票(阿莱德化学、杜邦、联合碳化物、埃克森、 以及德士古)从1975年1月到1976年12月期间的周回报率。周回报率定义为(本周五收 盘价一上周五收盘价”上周五收盘价(有拆股和支付股息时进行调整兀此数据列在本章 练习的表8. 4中。连续100周的观测值表现出独立分布,但是各股之间的回报率是相关 的,这正如人们预期的那样,因为股票根据总的经济状况而有整体变动的倾向。令©,12,,心分别表示阿莱德化学、杜邦、联合碟化物、埃克森以及德士古的股票 周回报率的观测值则T = 0. 0054,0. 0048,0. 0057,0. 0063,0.

50、0037ri.ooo0. 5770. 5090. 3870. 462r0. 5771.0000. 5990. 3890. 3220. 5090. 5991.0000.4360.4260. 3870. 3890.4361.0030.5230. 4620. 3220.4260.5231.000工i 五jtz x2了5 元 5*5 几R =注意到R是标准化观测值勺=的协方差矩阵(注意标准化的相关矩阵就是协方差矩阵译者注)。R的特征值和相应 的规范化特征向量,由计算机确定为A = 2. 857, A2 = 0. 809 9 A3 = 0, 540, 尢=0. 452 9 & = 0. 343,

51、 364 e/ = 0. 464,0.457,0. 470,0.421,0.421e; = 0. 240,0. 509,0. 260, - 0. 526, 一 0. 582e; = E- 0. 612.0.178,0. 335,0. 541, 一 0.435e/ = 0. 387,0. 206, - 0. 662,0. 472, 一 0. 382e/ = - 0. 451,0. 676, - 0.400, 0. 176,0.3851利用标准化变量,我们得到前两个样本主成分= e/z = 0. 464z1+ 0. 457% + 0. 470z3 + 0. 421z4 + 0. 421汽$2 =

52、0. 240z1+ 0. 50922 + 0. 2605 0. 526为-0< 582%这些主成分所解释的标准化样本总方差所占比例为100% =2. 857 + 0. 809X 100% = 73%对它们有有趣的解稀,粗略地说第一主成分是五种股票的等权的和,或等权的“指数: 这 个成分可称为股市总成分,或简称为市场成分。第二成分表明在化工类股票(阿莱德化学、杜邦及联合碳化物)和石油类股票(埃克森 和德士古)之间形成鲜明对照。可称它是一个行业成分。这样,我们看到这些股票回报率 中的大部分变差归因于市场活动和不相关的行业活动。股票价格运动的这一阐述,也为金 (King)12所提出过。其余成分

53、不易解释,总的说来它们大约代表各只股票的特别变差。不管怎样,它们对 样本总方差都不给出多少解释。在本例的情况下,保留相应特征值小于1的成分(%)是明智的。例86 (来自有特殊结构的相关矩阵的成分)遗传学常常涉及特征遗传,对这些特征可在动物的生命周期内做数次测量。对= 150只雌鼠,在它们生下前4只幼鼠后都立即称出雌鼠的体重(单位克)。样本均值向量 和样本相关矩阵分别为胃=39. 88,45.08,48.11,49.9511.0000. 75010. 6329.0. 63630. 75011.0000. 69250. 73860. 63290. 69251.0000. 66250. 6363一0

54、. 73860. 66251.000 -该矩阵的特征值是 = 3. 085, & = 0. 382, & = 0. 342 和&=0. 217我们注意到第一个特征值近似等于1 + (/>-1)7=l + (4-l)XO. 6854 = 3. 056,其中f是 R中非对角元的算术平均值。余下的特征值都很小并且差不多相等,虽然九比右和人更 小一点。这样就有证据说,对应的总体相关矩阵p可以是式(8-15)的“等相关”形式。这一 概念在例8.9将进一步探讨. 数据经J.J拉特利奇(Rutledge)许可使用。 365 第一主成分yx = e/z = 0. 49Z| + 0. 52z? + 0. 49*3 + 0 50z«所解释的总方差占100(%")% = 100X(3.058/4)% = 76%。虽然平均产后体重随时间 增加,有(近似)相等系数的第一主成分仍然相当清楚地解释了体重上的变差。评注从样本方差或是从相关矩阵得到的最后一个特征值,若特别小它可能显露出 数据集合中一个未被注意到的相依性。若真出现这种情况,一个或多个变量是多余的应 该除去。考虑这一个情况:4,心和亚是测验得分,总成绩兑=力+4+/3。此时,虽然线 性组合©& = 1,1,1,-1n=斗+皿+4 一n总是零,但计算特征值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论