应用多元统嫛分析_第1页
应用多元统嫛分析_第2页
应用多元统嫛分析_第3页
应用多元统嫛分析_第4页
应用多元统嫛分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,应用多元统计分析,第十章 典型相关分析,2,第十章 典型相关分析 目 录,10.1 总体典型相关 10.2 样本典型相关 10.3 典型冗余分析,3,第十章 典型相关分析,相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示. 1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.,4,第十章 典型相关分析 什么是典型相关分析,在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相

2、关关系,例如: 在工业中,考察原料的主要质量指标(X1,.,Xp ) 与产品的主要质量指标(Y1,.,Yq)间的相关性; 在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性; 在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;,5,第十章 典型相关分析 什么是典型相关分析,在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系; 在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系; 在医学中,研究患某种疾病病人的各种症状程

3、度与用科学方法检查的一些结果之间的相关关系; 在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.,6,第十章 典型相关分析 什么是典型相关分析,一般地,假设有一组变量X1,.,Xp 与另一组变量Y1,.,Yq (也可以记为Xp+1,.,Xp+q),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析. 当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为,7,第十章 典型相关分析 什么是典型相关分析,当p 1 ,q=1时(或 q 1 , p =1),设,则称,为Y与(X1,Xp)的 全相关系

4、数.,其实Y对X的回归为,且,并称R为全相关系数.,def =,8,第十章 典型相关分析 什么是典型相关分析,当p,q1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关. 也就是求=(1, p) 和 =(1, q ) , 使得新变量: V= 1X1+pXp = X W= 1Y1+ qYq = Y 之间有最大可能的相关,基于这个思想就产生 了典型相关分析(Canonical correlatinal analysis).,9,第十章10.1 总体典型相关,设X=(X1,.,Xp ) 及Y=(Y1,.,Yq) 为随机向量(不妨设pq),记随机向量,Z=,X Y,

5、Z的协差阵为,其中 11是X的协差阵,22是Y的协差阵, 12 =21是X,Y的协差阵.,10,第十章10.1 总体典型相关,我们用X和Y的线性组合V=aX和W=bY之间的相关来研究X和Y之间的相关.我们希望找到a和b,使(V,W) 最大.由相关系数的定义:,又已知,11,第十章10.1 总体典型相关,故有,对任给常数c1,c2,d1,d2,显然有 (c1V+d1, c2W+d2)=(V,W) 即使得相关系数最大的V=aX和W=bX并不唯 一. 故加附加约束条件 Var(V)=a11 a=1, Var(W)=b22 b=1.,问题化为在约束条件Var(V)= 1,Var(W)=1下, 求a和b

6、,使得(V,W)= a12 b达最大 .,12,第十章10.1 总体典型相关典型相关变量和典型相关系数的定义,定义10.1.1 设X=(X1,.,Xp ) 及Y=(Y1,.,Yq) 为随机向量(不妨设pq),记Z =(X,Y).设随机向量 Z的均值为0,协差阵0. 如果存在a1=(a11,alp)和b1=(b11,.,blq)使得,则称 a1 X, b1Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数.,13,第十章10.1 总体典型相关典型相关变量和典型相关系数的定义,如果存在ar=(ar1,arp)和br=(br1,.,brq)使得 (r = 2,m; m=p):

7、(1) arX, brY和前面r-1对典型变量都 不相关; (2) Var(arX )=1,Var(brY )=1; (3) Vr = arX, Wr = brY 的相关系数最大. 则称 Vr , Wr 为X,Y的第r对典型相关变量,它们之间的相关称为第r个典型相关系数.,14,第十章10.1 总体典型相关典型相关变量和典型相关系数的一般求法,典型相关变量和典型相关系数的一般求法,从第一对典型相关变量的解法中,我们知道求第一对典型相关变量和第一个典型相关系数的问题,就是求解TT的最大特征根和相应的特征向量. 不仅如此,求解第r对典型相关变量和典型相关系数,类似地是求TT的第r个(从大到小排序的

8、)特征根和相应特征向量.,15,第十章10.1 总体典型相关典型相关变量和典型相关系数的一般求法,定理10.1.1 设Z =(X ,Y), 其中 X= (X1,.,Xp )为p维随机向量, Y= (Y1, ., Yq) 为q维随机向量,(不妨设pq).已知E(Z)=0 ,D(Z)= (0 ),记,定义,16,第十章10.1 总体典型相关典型相关变量和典型相关系数的一般求法,并设p阶方阵TT 的特征值依次为,相应的单位特征向量记为lk (k=1,2,p) ,则 Vk = akX, Wk = bkY为X,Y的第k对典型相关变量, k为第k个典型相关系数.,17,第十章10.1 总体典型相关典型相关

9、变量的性质,性质(1) :设Vi和Wi为X和Y的第i对典型相关变量(i=1,.,p).令V=(V1 ,.,Vp ),W=(W1 ,Wp),则,这表明X的典型变量V1 ,.,Vp都是不相关的, Y的典型变量W1,.,Wp也都是不相关的;同时说明Vi和Wj (ij)也是不相关的, 而Vi和Wi是相关的,且相关系数为i .,其中,18,第十章10.1 总体典型相关典型相关变量的性质,性质(2): 原始变量与典型变量的相关性 原始变量与典型变量之间的相关系数阵,也称为典型结构。 令 V=(V1 ,., Vp )=AX (A=(a1,ap) ) , W=(W1 ,. Wp)=BY (B=(b1,bp)

10、),则 COV(X,V)=COV(X,AX)=11A , COV(X,W)=COV(X,BY)=12B , COV(Y,V)=COV(Y,AX)=21A , COV(Y,W)=COV(Y,BY)=22B .,19,第十章10.1 总体典型相关典型相关变量的性质,性质(3):设X和Y分别为p维和q维随机向量, 令X*= CX+d,Y* =GY+h; 其中C为pp非退化阵,d为p1向量,G为qq非退化阵,h为q1的向量,则: X*和Y* 的典型相关变量为(a*i)X* , (b*i)Y* , 其中a*i=C-1ai , b*i=G-1bi (i=1,p) ai ,bi是X和Y的第i对典型相关变量的

11、系数. 线性变换不改变相关性.即,(i=1,p),20,第十章10.1 总体典型相关例10.1.2,已知标准化随机向量X=(X1,X2)和Y= (Y1,Y2)的相关阵R为,试求X,Y的典型相关变量和相关系数. 解:,其中,21,第十章10.1 总体典型相关例10.1.2,因,与,具有相同的特征值. 且(1)2=42/(1+)(1+),2=0. M1 对应于(1)2的单位特征向量为,22,第十章10.1 总体典型相关例10.1.2,由上式求出c后,即得,类似可得,设a=(c,c)满足aR11a=1, ,或由下式得到:,23,第十章10.1 总体典型相关例10.1.2,第一对典型相关变量为,24,

12、第十章10.1 总体典型相关例10.1.2,因| ,这表明第一典型相关系数一般大于原来变量之间的相关系数: (Xi,Yj) = (i,j=1,2).,第一个典型相关系数为,25,第十章 10.1 总体典型相关例10.1.3,设Y是一个随机变量,X=(X1,Xq)是q-维随机向量( q 1),且已知,试计算Y与X这两组变量的第一对典型相关变量和第一个典型相关系数.,解:此例中第一组变量的个数p=1,第二组变量的个数q1.这时1阶矩阵M1为,26,第十章 10.1 总体典型相关例10.1.3,显然M1的特征值为R2, 对应的特征向量l=1.故第一典型相关系数1=R,且R就是Y与X的全相关系数.,设

13、a满足:,由定理10.1.1,可知:,27,第十章 10.1 总体典型相关例10.1.3,第一对典型相关变量为,其中:,显然有:,28,第十章10.1 总体典型相关作业,练习1:试证明总体典型变量的 性质(3). 习题十(P366-P368) 10-1,,29,第十章10.2 样本典型相关,设总体Z=(X1,.,Xp,Y1,Yq ).在实际问题中,总体的均值E(Z)=和协差阵D(Z)= 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数. 首先需要根据观测到的样本资料阵对其进行估计. 已知总体Z的n个样品:,30,第十章10.2 样本典型相关,样本资料阵为,x11 x12 x1p y1

14、1 y12 y1q x21 x22 x2p y21 y22 y2q . xn1 xn2 xnp yn1 yn2 ynq,若假定ZN(,),则协差阵的最大似然估 计为,Z(1) Z(2) = . Z(n),def =,*,31,第十章10.2 样本典型相关,我们从协差阵的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计. 也可以从样本相关阵R出发来导出样本典型 相关变量和样本典型相关系数. 设样本相关阵R=(rij),其中rij =sij /(sii sj

15、j)1/2 sij为样本协差阵S的元素.,32,第十章10.2 样本典型相关,把R和S剖分为:,令,如记X,Y为原始随机向量, X* , Y *为标准化后的随机向量,则 X= D1 X* X* = D1-1 X Y= D2 Y * Y * = D2-1 Y,或,33,第十章10.2 样本典型相关,且 S11 = D1 R11 D1 S22 = D2 R22 D2 S12 = D1 R12 D2 S21 = D2 R21 D1,相应的单位正交特征向量为 lr (r=1,p),则,求TT的特征值依次记为,令,34,第十章10.2 样本典型相关,为X* , Y *的第r对典型相关变量. 由性质3可得

16、,35,第十章10.2 样本典型相关,故而,为X , Y的第r对典型相关变量.如果由S 阵计算,则,36,第十章10.2 样本典型相关,Vr,Wr(r=1,2,p)为X,Y的第r对样本典型相关变量,r为第r个样本典型相关系数. 当qp 时,可从TT矩阵(qq)出发,求特征值和单位特征向量,然后先求br ,再得到ar(r=1,q) .,37,第十章10.3 典型冗余分析,由样本观测数据阵Z计算样本协差阵 S是总体协差阵的最大似然估计. 由S阵求出样本典型变量后,进一步可以来计算原始变量与r对典型变量之间的相关系数阵(或称典型结构). 假定两组原始变量均为标准化变量.若记,38,第十章10.3 典

17、型冗余分析,R(Y,W),R(X,V),39,第十章10.3 典型冗余分析,分别计算两组原始标准化变量X,Y与典型变量V,W之间的相关系数阵R(X;V),R(Y;W), R(X;W),R(Y;V)中各列相关系数的平方和,还将得出下面一些有关的概念. 设rk(12)=rmin(p,q).记 Rd(X;Vk)= ,并称为 Vk解释本组总变差p的百分比.,40,第十章10.3 典型冗余分析,类似可以定义 Rd(Y;Wk),Rd(X;Wk),Rd(Y;Vk) 以及 Rd(X;V1 Vm), Rd(X;W1 Wm), Rd(Y;W1 Wm),Rd(Y;V1 Vm). 用来表示一个或几个典型变量 解释本组

18、或另一组总变差的百分比.,41,第十章10.3 典型冗余分析,典型冗余分析就是讨论典型变量解释另一组变量总变差百分比的问题. 在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量的信息,还解释了另一组变量的信息. 典型相关系数越大,典型成分解释对方变量组变差的信息也将越多.,42,第十章10.3 典型冗余分析,Rd(X;Wk)(或Rd(Y;Vk)的值表示Wk(或Vk)解释另一组原始变量总变差的百分比. 以下公式给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比:,Rd(X;Wk)=,Rd(X;Vk),Rd(Y;Vk)=,Rd(Y;Wk),4

19、3,第十章10.3 典型冗余分析,证明:由(10.2.1)关系式:,因此, Rd(Y;Vk)=,Rd(Y;Wk)。,在标准化情况下,,因此,44,第十章10.3 典型冗余分析,Rd(X;Wk)的大小表示第一组原始变量抽取的典型变量(Vk )解释的变差被第二组中典型变量(Wk )重复解释的百分比,简称为第一组典型变量的冗余测度; Rd(Y;Vk)表示第二组原始变量抽取的典型变量(Wk)解释的变差被第一组中典型变量(Vk)重复解释的百分比,简称为第二组典型变量的冗余测度.,45,第十章10.3 典型冗余分析,冗余测度体现了两组变量间的相关程度. 冗余测度的大小表示这对典型变量能够对另一组变差相互解

20、释的程度大小.它将为进一步讨论多对多建模提供一些有用信息.,46,第十章10.3 典型冗余分析 例10.3.1,例10.3.1(康复俱乐部20名成员测试数据的典型相关分析):康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高). 试分析生理指标和训练指标这二组变量间的相关性. 解 首先用DATA步把测试数据生成SAS数据集d1031,它有20个观测,6个变量.SAS程序如下: proc cancorr data=d1031 all vprefix=v w

21、prefix=w vname=生理指标 wname=训练指标; var weight waist pulse; with chins situps jumps; run;,47,第十章10.3 典型冗余分析 例10.3.1的输出结果,48,第十章10.3 典型冗余分析例10.3.1的输出结果,第一典型相关系数1 = 0.795608 第二典型相关系数2 = 0.200556,49,第十章10.3 典型冗余分析 例10.3.1的输出结果,V1= -0.7754 体重*+1.5793 腰围* 0.0591 脉搏* W1= -0.3495 引体向上*-1.0540 起坐次数* +0.7164 跳跃次

22、数*,50,第十章10.3 典型冗余分析例10.3.1的输出结果,R(X:V)=,计算X与V的相关系数阵R(X;V)中每一列元素的平方和,得 Rd(X;V1)=0.62062+0.92542+(-0.3328) 2 /3 =0.4508 Rd(X;V2)=(-0.7724)2+(-0.3777)2+0.04152 /3 =0.2470 Rd(X;V3)=(-0.1350)2+(-0.0310)2+0.9421 2 /3 =0.3022 第一组抽取的V1解释本组总变差p=3的百分比约为45%.,51,第十章10.3 典型冗余分析例10.3.1的输出结果,R(Y:W)=,计算Y与W的相关系数阵R(

23、Y;W)中每一列元素的平方和得 Rd(Y;W1)=(-0.7276)2+(-0.8177)2+(-0.1622)2 /3 = 0.4081 Rd(Y;W2)=0.23702+0.57302+0.95862/3=0.4345 Rd(Y;W3)=(-0.6438)2+0.05442+(-0.2339)2 /3 =0.1574 第二组抽取的W1解释本组总变差q=3的百分比约为40.81%.,52,第十章10.3 典型冗余分析例10.3.1的输出结果,R(X:W)=,计算X与W的相关系数阵R(X;W)中每一列元素的平方和得 Rd(X;W1)= 0.49382+0.73632+(-0.2648) 2 /3 =0.2854 Rd(X;W2)= (-0.1549)2+(-0.0757)2+0.00832 /3 =0.0099 Rd(X;W3)= (-0.0098)2+(-0.0022)2+0.06842 /3 =0.0016 第二组抽取的W1解释第一组总变差p=3的百分比约为28.54%.这就是第一组典型变量的冗余测度.,53,第十章10.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论