07典型相关分析报告_第1页
07典型相关分析报告_第2页
07典型相关分析报告_第3页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、典型相关分析专题§ 9.1引言典型相关分析是研究两组变量之间相关关系的一种统计分析方法,它能够真正反映两 组变量之间的相互线性依赖关系。例如,F. V. Waugh ( 1942)研究了美国1921年至1940年每年牛肉、猪肉的价格与按 人口平均的牛肉和猪肉的消费量之间的相互关系,可归结为研究这两组变量之间的相互依赖关系。采用典型相关分析, 可由第一组变量构造一种价格指数,由第二组变量构造一种消费量指数,这两种指数分别为这两组变量的典型变量,而后研究这两种指数间的相互关系。又如,在工厂里常常要研究产品的q个质量指标(y1,y2,,yq)与原材料的p个质量指标X1,X2,,Xp之间的相

2、关关系,这也是需采用典型相关分析来解决的问题。一般地,为研究两组变量X1,X2,Xp和y1,y2,,yq之间的相关关系,常采用类似于主成分的思想,找出第一组变量的某个线性组合u = a1x1 a2x2亠 亠apxp,并找出第二组变量的某个线性组合 v =b1y1 b2y2bqyq,于是我们把研究两组变量之间相关的问题化为研究两个变量 u与v之间的相关问题,希望使 u与v的相关达到最大。我们称这种 相关为典型相关,基于这种原则的分析方法称为典型相关分析。§ 9.2总体典型相关-12yy也11孔12一、典型相关的定义及导出 设V(x) = 11( 0),V(y) = -2( 0),yy-

3、21-22其中匕21 =爲2典型相关分析研究的是,x的线性函数u=ax与y的线性函数v=by之间的相关关系,其中我们先来计算一下U与v的相关系数cov(u,v) =cov(ax,by) =a cov(x,y)b =aZ12b(921V(u) = V(ax)二aV(x)a =aEnaV(v)二V(by)二 bV(y)b 二 b 22b(922所以,u与v的相关系数为cov(u,v)a Z12b“八,V(ub,V(v) . i11. bi22b(923由于对任意非零常数 k1和k2,有cov(k1u,k2v)(k1u,k2v) _ V(k1u) . V(k2v)k1k2 cov(u, v)cov(

4、 u, v)因此,为避免不必要的结果重复,也、V(u)、V(v)、V(u) . V(v),(u,v)我们常常限定u与v均为标准化的变量,即附加约束条件V(u) =1,V(v) =1(924)这等价于约束条件a Ea =1 , b 322b 二 1(925)已 我们的问题归结为在约束条件(疋,9.2.4 )式或(9.2.5 )式下,求 a Rp 和 b Rq,使得(926 )达到最大。令=712)a ,=1,: =1。利用柯西不等式,有?匸匹郭)律社12龙郭)(a 12b) ' (-: 112 122 )(1112记m为112的秩,则1 1 - 1 1 1 1 1rank(工吴工2111

5、 E12工22 ) = rank |(工22三21三1?)(三1?工 1222 )1 1= ran 匚了三伐匕孑)=rank (匕12)=m1 1从而,非负定矩阵 龙有m个正特征值,分别记为m个零特“2 -洛-记 0,相应的单位特征向量分别为空,,飞,其余q -征值的单位特征向量分别为pm., P'-q,T =Ci2,_-q)是正交矩阵。结论:J -1.丄11丄12丄22丄21(特征值J _,_ _ l二 22 二 21 二 11 -121=11 二12 二 22 二 21 =111 1 匚2:二 21 二 11 二 12=2(特征值12;拧,,m ;特征向量 a1, a2,,am ;

6、 a = n2i)1特征向量 b1,b2/ ,bm; bi 二 d '-i)-11(特征值(特征值;鳶,,m ;特征向量12,/ m);,m;特征向量匚2,飞)1 其中:i =一匕11迁12匕22 '-i因此,由上述不等式和谱分解定理有'2(u,v)二(a 二2®2112221<应EW花2歪Bf mf mf=刖迟pj2皤怡=迟P晋冃幷p liW丿 i =1mm八汀C -i)C L)八 W -i)2i mi Amqr l)2c )2i =1i =1qq- rc -i)(-i )i =1/ q吩” z汀:- ':=1i =1裁 0 = p12Ptti

7、P若取=:j,=1?2=12":1,二-1,则1备注:a 丄 12匕=&1二12 = - 1 -11 二12二22 '11 1(11211222 :11112 1122 :11-(='1 二 2;二 21 二 J )二 11 二 12 二 2?1?11?11-1 二2二 21 二 11 二 12二2'1二 22 二 21 二11 二 12 二 22 ' 1Yr2221111222 的最大特征值为对应的特征向量为,这里1是:,的正平方根。所以,当取a二 a1 二匸仆2-:* , b = d = J; : 1 时,(u,v)=a W12b达到最大值

8、 耳(显然1)。我们称(927)为第一对典型相关变量,称 J为第一个典型相关系数,称 a1,b1为第一对典型系数。利用AB和BA具有相同非零特征值的性质,可知11121 11112 22 21匕2肥2匸器12为 都具有相同的非零特征值 片一蔦一_时0。令4-一.1 一和亠亍 r,a Zn2:i,b = =2i, i =12,m ( )其中-是¥的正平方根。由于(9.2.9 )1 1二 2:二 21 二 11 二 12 二 2 ' i所以-1 =12 =22 =21 二1:二冷1二 J-11 -12-22-211 -11 - 1 22 _ i'i1 1-2AA一2 :匸

9、 1:二12 二 22 匸 21 匸 11 匸 12二22 _ i11-Q2二 11 二 12 二 221 1二 22 二 21 二 11 二 12 二 22 _ i(9.1.10 )11121二 12 二 2I2I111122 :i11 - 12;-2 : iI?i1112-22丿Pj1112-22 2221111112 2222-21(二1?二1?)二2三21即:'1/'2,'j1,-:m 为 -12-22-21-11 的相应于 1 ,2 ,pm的正交单位特征向量;i-V-12-22-2ia = T1a-12-2-21-AA1 1-21-2二 11 二 12 二22

10、 二21 二 11 -:i(9211 )1=盲711112>i2ai即玄1忌,,am为琮兔三2三21的相应于PP;,,P;的正交单位特征向量;=22 =21 =11 =12b= .'.22 =21 =11 丄12 丄22 ' 二 2孑二 21 二 11 二 12 二 2'(9212)一11 2 2 2即b),b2,,bm为壬2221112的相应于 巴,戸2 ,Pm的正交单位特征向量。第一对典型相关变量U1,V1提取了原始变量X与y之间相关的主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量u2 = a x, v2 = b y,也就是a,b应

11、满足a Ena =1,bi221,且应使得第二对典型相关变量不包括第一对典型相关 变量所含的信息,即FFFFFF'(上,5)= ;?(a x, a-i x)二 cov(a x, a1 x)二 a cov(x,x)a<i = a= 0FFFFFF'(V2,V1)= ':(b y,b1 y) =cov(b y, d y) =b cov( y, y)bb =226 =0在这些约束条件下使得'(u2,v2) = '(ax,by)二 cov(ax,by)二 a cov(x, y)b 二 a =12b达到最大。一般地,第 k( 1 : k乞m)对典型相关变量u

12、k二a x,vk = b y是指,找出 a Rp和b Rq,在约束条件frra -:11a = 1, b 二22b = 1, a J11a 0, b 匸22b = 0 , = 1,2, k 一 1 ()下,使得J(Uk,vk)二(a x,b y)二 cov(ax,b y)二 a cov(x,y)b 二 a 112b1 1达到最大。为此,令二二1洱,1二二'2b,于是约束条件()式等价于1 1/ a la = a 乙£ 二 1,1 1:-二 b l22l22b =b E22b =11 1F- i 二 a 二11 二11a)二 a=11aj =0,1 1=b 3 2224 =b

13、62bi =0, i =12 ,k1()2 2 2(Uk,Vk)=但於)1 1 1 1 - 兰(W ) |(工龙12工21盯(工1恋12龙2j E)眩2龙21気12工郭=zi=4=z2( ;)22( J)2厂()2=k qA C -i)2qi *i =1当取a二ak,b二bk时,可验证满足()式,且11r a -12b = ak 二 12bk =k -11 -12-22- k1 1 、 1 1Pk1171122 Pk1 1 k 122 12 1?2丄2二 11 二 12 二 2212222111 12 222?kk故这时HukVk)达到最大值 6,称它为第k个典型相关系数,称 ak, bk为第

14、k对典型系 数。二、典型相关变量的性质1 .同一组的典型变量互不相关设x,y的第i对典型变量为FFUj 二 a)x , Vi bi y , i 1,2, m()则有FFV(ui) = ai 匚佝=1 , V(Vj) = bj 工22 1 , i =1,2,,mF;?(ui, uj) = cov(ui,ujai i11aj = 0 , 1 _ i = j _ m ,F;?(vi, Vj)二 cov(vi, Vj)二 bj i22bj = 0 , 1 乞 i = j 乞 m()表明由x组成的第一组典型变量U1,u2/ ,um互不相关,且均有相同的方差1 ;由y组成的第二组典型变量vv2,,vm也互

15、不相关,且也均有相同的方差 1。2.不同组的典型变量之间的相关性;?(ui,viH ;?i, i =1,2, ,m()T(Ui,Vj) =COV(Ui,Vj)二 cov(ai x, bj y)r=ai cov(x, y)bj =ai %bj1 1 =(# i) 6(掳 j11 22 I.一 -i 1 12 22 j二 ji1二 112 二 12 二 2孑1 J 丄 -匕112 二 12匕2;2 : j11 - 12表明不同组的任意两个典型变量,记当i = j时,相关系数为几,(9.2.18)当i j时是彼此不相关的。则上述性质可用矩阵表示为V(UIm,V(V)“mcov(u, v)二 cov(

16、v,u) = A其中“12?m上二 diag(q,嘉,6)=23 原始变量与典型变量之间的相关系数 记an012a1mA = (ai ,a2, am)二a2m0piap2a pmB 二(b©,4)二b12b22b1mb2mbq2bqmVC=Y =a1112 a1p°1,p 卅° 1,P 七° 1,P Hq 2122a+a2pa° 2,p*° 2,p42a+2,p 七aS口 P2appSJ/p,p卅G p, p也a p,p4q° p +,1%,2D p*,p° p*,p*° P*p42° p卅,p

17、七° p42,1 p42,2a+a p七,paQ pH2,P*a° pH2,P七a+ p七,p七a° pF,1口 P 七,2° Hq,p匚 P"lq,P*a pqpq° pF,p七22 .丿cov(x,u) = cov(x, A X)= 711 Acov(x,v) =cov(x,B y)=爲2Bcov(y,u) =cov(y, Ax) - ? 21Acov(y,v) = cov(y, B y)=仏 B上述四个等式也可表达为4 简单相关,复相关和典型相关之间的关系当p=q=1时,x与y之间的典型相关(唯一)就是它们之间的简单相关;当p

18、= 1或q =1时,x与y之间的典型相关(唯一)就是它们之间的复相关。因此,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。 从第一个典型相关的定义可以看出, 第 个典型相关系数至少同 x的任意分量与y的复相关系数一样大,即使所有这些复相关系数都 很小,第一个典型相关系数仍可能很大 (对y也一样);同样,从复相关的定义也可以看出,当p =1时,x与y之间的复相关系数也不会小于 x与y的任意分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大。三、从相关矩阵出发计算典型相关有时,x与y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再作典型相关分析。V 

19、76;11记已=E(x),卩2 = E(y), Di =.二 22D2广 P 2,p 2r 1 尺1R12为的相关矩阵,同时Ruf11尺2也是x*<R21R22 丿<R21 R22 丿创丿对x与y的各分量作标准化变换,即令的协方差矩阵。p-q,pq x* = D(X - J1),y* = D2(y -2)(9223现在我们来求x和y的典型相关变量Q x,bi y ,= 1,2,V(x*)b(x - 叫)=DV(x航D1JV(x)D-1 L1D1 11 D1R11V(y*) =V b2'(y - J) L D2V(y -2)D2' = D21V(y)D = D2Z22

20、D2 = R22cov(x , y )二 cov(D1,(x-匕),D2,(y-、2)=Dcov( x -丄J, ( y -丄2) D?"1J4二 D1 cov( x, y) D21 1D1 12 D 2*12cov(y,x*)二cov(D2(y -1), D/(x 一 )1 1=D2 cov(y-T),(x2)D11 1=D2 cov( y, x) D11 1=D2 Z 21D1-R21_1_JJJ J dJ J JJR11 R12R22 R21 二(D1 二 11D1 )D1 二 12D2 (D2 二22D2 ) D121D1_11111=D I11 ( D1 D1 ) 112

21、( D2 D2)二 22(。2。2 ) 1 21 D1_11二 D匕11 匕12 匕22 匕21 D因为二11匸12 匸22 匸2iai -所以1Di 二 11 二12 二 22 二 21aiD1i aiDi 二i1 二 12二22 二2佝1 1 2D1 二 11 二 12二22二21 (D1 DJai = : i (D1ai)D1 二 11 二 12 二 22 二 21 D1二: i (。佝)11*2*D111 122221 D1 aii ai(备注:ai = D1ai )所以1 1 * 2 *R11 R12 R22 R21 aii ai同理11*n *R2 R21R11 R12bi 二:?

22、i bi(备注:bi 二 D2bi)由此可见,a*, b*为x*和y*的第i对典型系数,其第i个典型相关系数仍为;?i,在标准化 变换下具有不变性,这一点与主成分分析有所不同。FFx*和y*的第i对典型变量Ui二ai x ,v = bi y具有零均值,且与x和y的第i对典FF型变量5 =ai x*,Vi =3 y只相差一个常数。这是因为E(uJ 二 E(ai x ) =ai E(x )2E(v*)二 E(b* y*) =b* E(y*) =b*Ui=ai xVi0=00=0*=bi y=(。佝)Djx叫)7这里a < 1解:"bi) D2(y-J)_1(D1D1 )(x-叫)(

23、x -i)二 bi-bi=bi(D2D2)(y-b)(y®2)y_b巴1 y、,R22 ,R12 1 nng bJ b=vi设x , y有如下相关矩阵:Y <1,R11- bi 丄 2可以保证R;,R22存在。求R111 Ri2 R22 R21 :_-a 1 Ap容易知道,备注:x, y的典型相关变量。1_Y-v YP1p21a1、1Z11)(1_g2)(1_Y2)l-a1人 1 1丿1丿<1 1丿1一丫 1一 1 -:1-a1 Y21 1- 2P2(1 7:2)(1_Y2)l1_a:2(1 - : )(1 - )(1)(1- 2)(1 +g)(1 +Y) Q(1 +a)

24、(1 + 了)J有唯一的非零特征值(1 : )(1 )2,故r111r12r21r21有唯一的非零特征值1 _ & 1 2 2A” i 1_厂(1-丸)-心-®当 =2时,(1-2 1 、 (-1 1 ) (1 _1、(A -2E )=<1 -2丿 j-v e 0 丿特征向量为k ,(其中k为不等于零的常数)。d丿在约束条件a1 R11a1下,R; R2 R22 R21 相应于特征值:-2的特征向量为12(1 +口)(1备注:CtR11a1 = k (1111 11 :12=2k (1:) =1得到k 一 . 2(1 :)a12(1 :1)<1>同理,在约束

25、条件b, R22b1 = 1下,R2;?R21R111R12相应于特征值 J2的特征向量为1)丫2(1+丫)所以,第一对典型相关变量为a1 x1 *2d-:)1 1X,b1y2d1)1 1y*其中y分别是对x和y各分量标准化后的向量。第一个典型相关系数为4“(1 : )(1 )2(1 - )(1 )由于a| <1 , 7 <1,故R首円,表明第一个典型相关系数大于两组原始变量之间的相关 系数。§ 9.3样本典型相关的协方差矩阵X =名龙12 '或相关矩阵R= f1尺2令)<2122 JlR21R22 丿在实际应用中,般是未知的,应根据样本来进行估计。设数据矩

26、阵为(* X1Y111B入 12X1pyny12y1q、丫卜FX29:Fy2a:=X21入22亍+X2pi y21a y22亍+y2qF<XnFyn丿/n1Xn2Xnpyn1yn2ynq j则样本协方差矩阵为式中S11S121S21S12S22n-1;.(X-X)(Xi -x) , S22-x)(yi - y),S211 nE(yiXi, y丄yin i a-y)(yi-y)-血-X)S是正定矩阵,故一般可认为龙初龙伐龙:!和龙22龙21龙初龙12的S可用来作为3的估计。当n p q时,在一般情况下,,S<存在。S1:S12S:S21 和 S221S21S1;1S12 可分别作为估

27、计;它们的非零特征值rj 一心2 -r;可用来估计q2 _-;相应的特征向量a?,a?2,,a?m作为玄1忌,am的估计,b?,62,,6m作为db,bm的估计。冷2的正平方根r j称为样本的第j个典型相关系数, a, x和b y称为样本的第j个典型相关变量,j =1,2,m。将样本(x,yj,i =1,2, 小经中心化后代入 m对典型变量,即令W =务(Xi -x),Vj -y) , i =1,2, n, j =1,2, ,m则称Uij为第i个样品Xi的第j个样本典型变量值,Vij为第i个样品yi的第j个样本典型变量值。由约束条件S11a?j =1可得 2Uij同理可得Viji -x)召 j

28、?j (Xi' i?j (Xi - X)(Xi -X)?j、(Xi -x)(x7 (Xi -x)(Xi=1=a?j S11 s?j = 1j =1,2, ,m,j =1,2; ,m-x) i?j(Xi -x)对每个j,可画出(Uij ,Vij),i =1,2/ ,n的散点图,以检查是否有异常值出现。例某康复俱乐部对20名中年人测量了三个生理指标:体重(x1),腰围(x2)、脉搏(X3 )和三个训练指标:弓I体向上( )、起坐次数(y2 )、跳跃次数(科3 )。其数据 列于表9.5。§ 9.4典型相关系数的显著性检验设(x, y ) Np qCl, -) , - - 0。又设S

29、为样本协方差矩阵,且 n p q。一、全部总体典型相关系数均为零的检验考虑假设检验问题:H :0H 0 :12 m 0Hi :匚嘉,,至少有一个不为零()其中m二min( p,q)。若检验接受 H。,则认为讨论两组变量之间的相关性没有意义;若检 验拒绝H。,则认为第一对典型变量是有用的。(941 )式等价于假设检验问题H 0 : Zi2 = 0, H i :二12 = °( )H °成立表明x与y互不相关。似然比检验统计量为m2上1 (1 一仃)()i 4其中,(i =1,2,,m)是S11JS12S21S21的非零特征值。对于充分大的n,当H°成立时,统计量&q

30、uot;1 1Q1 二 - n (p q 3) In 上1()IL 2近似服从自由度为pq的2分布。在给定的显著性水平:下,若Q1 - 2(pq),则拒绝原假设H。,认为典型变量U1与V1之间的相关性是显著的;否则,则认为第一对典型相关系数不显著。在例中,欲检验:H 0 : : 1 = : 2 = : 3 =0, H 1 : : 1 = 0它的似然比统计量为2 2 2上1 = (1 - R1 )(1 -2 )(1 -3 )=(1 -0.6330)(1 -0.0402)(1 - 0.0053)二 0.3504- 1 1Q - 20(3 3 3) In 上1一 15.5 In0.3504= 16.

31、255查32分布表得,30.10(9)=14.684,:05(9) =16.919,因此在a =0.10的显著性水平下, 拒绝原假设H。,也即认为至少有一个典型相关是显著的。二、部分总体典型相关系数为零的检验对两组变量x和y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。若(941 )式中的H。经检验被拒绝,则应进一步检验假设H 0 :2-3 二=m = °H!:订,3,,m至少有一个不为零H °被拒绝,则认为若原假设H。被接受,则认为只有第一对典型变量是有用的;若原假设 第二对典型变量也是

32、有用的,并进一步检验假设H 0 :3 = 二=m = 0Hi :订,4,?m至少有一个不为零如此进仃下去,直至对某个k,假设H ° :k彳=2 -=m = °被接受,这时可认为只有前k对典型变量是有用的。对于假设检验问题H 0 : k 1=: k 迄二=:'m = 0Hi "k 1,6 2,?m至少有一个不为零()其似然比检验统计量为m2上 k i(1 7 )()i 士 +对于充分大的n,当H°成立时,统计量(947 )1Qk 1 二 - n -k (p q 3)八 ri壬近似服从自由度为p-k q-k的2分布。在给定的显著性水平下,若Qk 1

33、- 2. (p - k)(q -k),则拒绝原假设 H。,认为第k - 1个典型相关系数是显著的,即第k 1对典型变量显著相关;否则,则认为第k 1个典型系数rk1是不显著的。在例中,欲进一步检验H。:鳥二 3 = 0, H1 :- 0检验统计量为上2 =(1 - Tx1 - r3)=(1 -0.0402)(1 -0.0053)二 0.9547-1JQ2 = - 20 一1(3 3 3) r1In 上 2一 16.08 In 0.9547= 0.74522查/分布表得,厶.10(4) = 7.779,有0.745<7.779,因此在a =0.10的显著性水平下,接受原假设H。,也即认为第

34、二个典型相关是不显著的。因此,只有一个典型相关是显著的。F表是12名学生5门课程的考试成绩:政治语文外语数学物理19994931001002998896999731009881961004938888999651009172967869078827597775738897898938483688898773607684109582906239117672436778128575503437对三门文科成绩和二门理科成绩作典型相关分析,问第一典型系数是多少?二、北方工业大学为了研究学生的体质与其运动能力的关系,对38名学生的体质情况,测试了 7项指标:x1 (反复振荡的次数,单位回),x2 (垂直

35、上跳高度,单 位cm), x3 (负重能力,单位 kg),x4 (握力,单位kg), x5 (踏台升降,单位指数),x6 (立 姿体前屈,单位cm),x7 (臥姿上体长,单位 cm);对运动能力情况,每人测试了 5项指标:y1 (50米跑,单位秒),y2 (1000米长跑,单 位秒),y3 (投掷能力,单位 m,y4 (悬垂次数,单位回),y5 (持久走,单位秒)。视体质 情况的7项指标为第一组数据,视运动能力的 5项指标为第二组数据。要研究这两组数据的相关性,利用典型相关分析来处理。x1x2x3x4x5x6x7y1y2 y3 y4y54655126 517525726.8 489 27836

36、05255954281.218507.2 464 3053484669107 389818746.8 430 3293864950105 4897.616606.8 362 2663314255904666.52687.2 453 23113914861106 437825587405 2973894960100 4990.615607420 21103794863122 5256.117687.1 466 2823624555105 487615616.8 415 2463864864120 3860.220627.1 413 2873984952100 4253.46427.4 404 2364004762100 3461.210627.2 427 2574074151101 5362.45608372 2534095255125 4386.35626.8 496 30103504552945051.420657.6 394 2433994957110 4772.319457446 3011337

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论