两个多重相关变量组的统计分析_第1页
两个多重相关变量组的统计分析_第2页
两个多重相关变量组的统计分析_第3页
两个多重相关变量组的统计分析_第4页
两个多重相关变量组的统计分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、两个多重相关变量组的统计分析摘要本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法,以及 在SAS软件包中如何实现,文中给出了一个典型的例子。关键词:统计分析;典型相关;典型冗余分析在实际问题中,经常遇到需要研究两组变量间的相关关系,而且每组变量中 间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的 相关关系;体育科研中运动员的体力测试指标与运动能力指标间的相关关系;经 济领域中投资性变量与国民收入变量间的相关关系;教育学中学生高考各科成绩 与高二年级各主科成绩间的相关关系;医学研究中患某种疾病病人的各种症状程 度与用科学方法检查的一些指标间的相关关系等等。研究两

2、个变量组之间相关关系的常用方法是多元统计中的典型相关分析(参 考2和3)。如果进一步研究这两组多重相关变量间的相互依赖关系,即考虑 多对多的回归建模问题,除了最小二乘准则下的多对多回归分析、双重筛选逐步 回归分析,以及提取自变量成分的主成分回归等方法外,还有近年发展起来的偏 最小二乘(PLS )回归方法。关于多对多回归建模问题,我们将另文介绍。本文介 绍典型相关与典型冗余分析,它是偏最小二乘回归的理论基础。一典型相关分析的基本思想与解法第一组变量记为X= (X 1XJ,第二组变量记为Y= (Y1Yqy (不妨设p忍 q)。典型相关分析借助于主成分分析提取成分的思想,从第一组变量X提取典型 成分

3、V (V是X1,的线性组合);再从第二组变量Y提取典型成分W(W是 Y1,,Yq的线性组合),并要求V和W的相关程度达到最大。这时V和W的相 关程度可以大致反映两组变量X和Y的相关关系。记p+q维随机向量Z=的协差阵】二,其中E11 一是X的协差阵,E22:是Y的协差阵,】孔是X,Y的协差阵。我们用X和Y的线性组合V=a X和W= b Y之问的相关来研究X和Y之间的相关。我们希望找到a和b,使 p (V,W)最大。由相关系数的定义,p (V,W)二一 5网) 、:Var(v) -Var(w) 这说明按此准则得到的典型成分V和W,对原变量组X和Y的代表性最差,它们 无法更多地反映原变量组的变异信

4、息。另方面因V,W任意线性组合的相关系数 与V,W的相关系数相等,即使得相关系数最大的V=a以和W= b X并不唯一。分析上式将发现:在使得V,W的相关达最大的同时,V和W的方差将达最小,故在典型相关分析解法中附加了约束条件:Var(U) = a E 11a = 1 Var(V)= b E22b = 1。问题化为在约束条件Var(U)=1, Var(V)=1下,求a和b,使得p (U,V)= a E%b 达最大。 一一X 一-定乂 l设X=(X 1X) , Y=(Y1Yq),p+q维随机向量.J的均值向量为O,协差阵EO(不妨设pq)。如果存在a= (a , a )和b = (b,b ) 11

5、1Ip1 1l1q使得p 1=p (a 1X, b J)=max=p(aX,pY)Var (a, X )=1,Var (P ,Y )=1则称a以,b Y是X, Y的第一对典型相关变量,它们之间的相关系数称为第一 个典型相关系数。如果存在ak = (aki,和b k = ( b k 1,a kq)使得a kX , bf kY和前面k-1对典型变量都不关;Var(a X = 1,Var(b,) = 1;a,kX与bf kY的相关系数pk最大,则称a,kX , b kY是X, Y的第k对典型相关变量,它们之间的相关系数pk称为 第k个典型相关系数(k = 2,p)。已知p+q维总体Z的n次中心化观测

6、数据阵为:Z = 11X 21x-12x-22x1px2p11 y 2112 - 22 *1q- 2 q=f XY)(p + q ):X nxpnx qL Xn1x .- n 2x npn1n 2 -nq若假定Z N(0,),则协差阵E的最大似然估计为S12S 22卜面我们将从样本协差阵S出发,来讨论两组变量问的相关关系。令T = S -1/2S S -1/2为pXq阵,则pXq阵和qXq阵TT的非零特征根 111222相同,且非零特征根均为正的。若rk(T)=rk(Si2)=rp(因p忍q),非零特征根依 次为 人2人2.X 2 0(且入|O, i=1,,r)。记r阶对角阵D=diag(入,

7、 入)。利用pXq阵T的奇异值分解定理(参考4)有T=(a,,a)o(p,,p )1r12pxqrxra.ib.i.1-1/2S以兀i11(i = 1,r)1- 1 / 2Sp兀Pii 22七.为第i个样本典型其中口气(i=l,r)为TT对应于X 2的单位正交特征向量;P. (i=1,r) 为TT对应于X2的单位正交特征向量,且a与Q满足关系式:Pf =1T。令fi0S -11/2 %(i = 1,. r),容易验证ai与b.满足S-;/2p,则匕.= aiX,Wi = biY为X,Y的第i对样本典型相关变量 相关系数。二 典型相关系数的显著性检验总体z的两组变量X= (XXJ和Y=(YY)如

8、果不相关,即Cov(X,Y) = E12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相 关关系之前,应首先对假设H0:El2=0作统计检验,它等价于检验H0: p0。设总体Z N(0,),用似然比方法可导出检验H0:El2=0的似然比统计量A,利用矩阵行列式及其分块行列式的关系,可得出A、同=1 -S-1S S-1S =n(1 -X2) Is 11 11 S 22IP 11 12 22 21=1其中p+q阶方阵s是E的最大似然估计量,Sy分别是Eid (i,j=1,2)的最大似然估计X2(i = 1,.,p)是TT的特征值。i统计量A的精确分布已由Hotelting(1

9、936年)等人给出,但表达式很复杂。 由八统计量 出发可导出检验H0的近似检验方法,如Willks入统计量,Pillai 的迹,Hotettintg-Lawley迹和Roy的极大根等(参阅2)。当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数p 1#0O 相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部 分信息。两组变量余下的部分可认为不相关,这时p 1(i=2,p)。故在否定 H0后,有必要检验H ;): pI = (i = 2,.,p)即第i个及以后的所有典型相关系数均 为0。利用似然比方法可导出检验H(t)的似然比统计量,并给出该统计量的近似 0分布

10、。从i=2开始逐个检验,直到某个i0,使H(t)相容时为止。这时说明第i0 个及以后的所有典型相关系数均为0。假定经检验,前m个典型相关系数显著地 不等于0(mp)。三典型结构与典型冗余分析.典型结构求出典型变量后,进一步可以来计算原始变量与典型变量之问的相关系数阵 典型结构。记A=(a,a,a)为PXr矩阵,B=(b,b,b)为qXr矩阵,典型 l 2rl 2r随机向量V=VlV)=(a 1X,d X) = AX;W=吧,.叱)=(by,-U Y) = BY;随机向量 Z 的 协差阵为如仔11,120,随机向量的协差阵为S JS11 S12是E的最大似然 21 22)L s 21 s 22然

11、估计。则Cov(X,V)=Cov(X,A X) = E A,Cov(X,W)=Cov(X,B Y) = E B,1112Cov(Y,V)=Gov(Y, A X)=习相,Cov(Y,W)=Coy(X,B Y) = E22BO用Sid代替以上公式中的Eid(i,j=1,2),即可计算出原始变量与典型变量 之间的协差阵。由协差阵还可以计算原始变量与典型变量之间的相关系数阵。若 假定原始变量均为标准化变量,则以上计算得到的原始变量与典型变量的协方差 阵就是相关系数阵。若计算这四个相关系数阵中各列(或各行)相关系数的平方和,还将得出下面 一些有关的概念。.几个概念类似于主成分分析,把Vk看成是由第一组标

12、准化变量X提取的成分,Wk看成 是由第二组标准化变量Y提取的成分,由相关阵R(X,V)=S A=r(X,V)和 11j k (p,r)R(Y,W)=S B=r(X, V)分别计算第k列的平方和。记11j k (q,r)Rd( x , vk) 二1 r2(X .,V ),Rd(Y,Wk) 二1 r2(Y ,V )(k = 1,r) dk p j k dk q j k并称Rd(X,vk)(或Rd(Y,Wk)为第k个典型变量Vk(或Wk)解释本组变量X(或Y)总变差的百分比。记R (X;V,,V ) = Lr2(X ,V ),R (Y;W ,W ) = 1 r2(X ,V )d 1 m P .j k

13、 d 1m qj k并称R (X;V,V )(或R (Y;W,,W )为前m(m忍r)个典型变量V,,V d 1 md 1m1m(W,Wm )解释本组变量X(或Y)总变差的累计百分比。在典型相关分析中,从两组变量分别提取的两个典型成分首先要求相关程度 最大,同时也希望每个典型成分解释各组变差的百分比也尽可能的大。百分比的 多少反映由每组变量提取的用于典型相关分析的变差的多少。类似于主成分分析,还可以引入前m个典型变量对本组第j个变量 (或七,) 的贡献等概念(参考1)。.典型冗余分析我们进一步来讨论典型变量解释另一组变量总变差百分比的问题。在典型相 关分析中,因所提取的每对典型成分保证其相关程

14、度达最大,故每个典型成分不 仅解释了本组变量韵信息,还解释了另一组变量的信息。典型相关系数越大,典 型成分解释对方变量组变差的信息也将越多。类似可以定义Rd(X;Vk)(或Rd(Y;Wk)为Wk (或匕)解释另一组总变差的百 分比。以下给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分 比的公式:Rd(X ;Vk)= pX r2(X j,Vk)=入kRd(X ;Vk)(k = 1,- ,r),j=1Rd(y; = q r2(x,Vk)=入i(y;Wk)(k =1,”)j = 1事实上,由典型变量的系数ak与bk之间的关系:a = 1 St S b =Xa = 5 -1S b =X S

15、a = S S -1S b= S b 以及典型 k 人 1112 k k k 1112 k k 11 k 111112 k 12 k变量与原始变量(假定已标准化)的相关阵即得:r(X, W)= A (X;V),故有 j kk j kRd(X;Wk) = XRd(X;Vk),类似可证明另一式。Rd(X;Wk)表示第一组中典型变量解释的变差被第二组中典型变量重复解释 的百分比,简称为第一组典型变量的冗余测度;Rd(X;Vk)表示第二组中典型变量 解释的变差被第一组中典型变量重复解释的百分比,简称为第二组典型变量的冗 余测度。冗余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小。 它将为

16、进一步讨论多对多建模提供一些有用信息。四应用例子一康复俱乐20名成员测试数据的典型相关分析康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰 围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数), JUMPS(跳高)(数据见以下数据行)。试分析生理指标和训练指标这二组变量间的 相关性。解 使用SAS/STAT软件中的CANCORR过程来完成典型相关分析。首先把测试 数据生成SAS数据集,SAS程序如下:data da20 x6;input weight waist pulse chins situps jumps;labe

17、l wight =体重 waist=腰围 pulse=脉搏 chins=单杠 situps=仰卧起坐 jumps=跳高;cards;191365051626018937522110601933858121011011623562121053718935461315558182365641014221138568101381673460612540176317415200401543356172512501693450171203816633521321011515434641421510524746501505019336466703120237621221012015633541522573

18、13833682110437run;proc cancorr data二da20 x6 all vname= 生理指标wname= 训练指标; var weight waist pulse; with chins situps jumps;run;DATA步创建康复俱乐部测试数据的SAS数据集(名为DA20X6),它有20个观测, 6个变量。CANCORR过程用于对输入数据集DA20X6做典型相关分析。选项ALL要求输 出所有可选择的计算结果;VNAIVIE二给出VAR语句中变量组的标签为生理指标; WNAIVIE=对WITH语句给出的第二组变量规定标签为训练指标。VAR语句列出第 一组变量的

19、名字,WITH列出第二组变量的名字。部分计算结果见输出1至输出5。输出1均值、标准差和两组变量问的相关系数3生限捂标3职嫁指标20 CbfiDvalxmMceuis and fwuidardVanabkMeajiStd UerwEiGirr178-WMMOO24.6W5O5WAIST书 4000MJ 201973IPUL56.1000007-2IQ373口 HNS9.4500005. 286278situps145 55000062 566575JUMPS70 一碰00051.277470坐H重围高LB体眼豚单仰眺OnrElatii Betwasi the生理揩标 血the训练指裾SITUPS

20、JUMPSWEIGHT-0,4931-0.2263WAIST-0 5522(L6456-0 W15JPULSE0.15060.22500 Q34 司一输出1列出6个变量的均值和标准差及生理指标和训练指标之间的相数。 理指标和训练指标之间的相关性是中等的,其中WAIST和SITUPS相关系数最大 为-0.6456。输出2典型相关分析系数及显著性检验trrurLktrnskiiion0 75608U ?S4O5fii0(W4197O.63299J0.20Q556-tp&iwfl Ml 188Q (M0223O.OT25700,2282flB0.005 泌Tec nJ Hq: The caxbunK

21、*!吒皿土加均 in th? fjw and! all that H)cw 皿i iLslidLlxxxjRrnuoApprax F5DFL tn IffPt F1D M0390S32。娅gMJ2230.06350.954722F的值),故在a =0.10的显著水 平下,否定所有典型相关为0的假设。也就是至少有一个典型相关是显著的。从 后面的检验结果可知,只有第一典型相关系数是显著不等于0的。因此,两组变 量相关性的研究可转化为研究第一对典型相关变量的相关性。输出3标准化后典型变量的系数Siatdardizud CarxiucaJfoe the 生理指标VIV2V3WEIGHT-0 7754I

22、19i0WAIS1河I IS06腰困PULSE -0 0591-fl 23111 0508豚障StajilaniizBd LarKrucsJ CoefRcLenS Ear the练指苗W|W2CHESS-0 3495-0 3755-1,2966trSITUPS-1 (1340。1235J 23抑卧起华JUMPS0 71641 0622-o一 输出结果中还给出原始变量和标准化变量的典型相关变量的系数。因 六个变量没有用相同单位测量,我们来分析标准化后的系数(见输出3)。来自生 理指标的第一典型变量V1为(右上角带“*”的变量表示标准化变量):V1=-0.7754WEIGHT* + 1.5793W

23、AIST* - 00591PULSE*它近似地是WAIST*和4WEIGHT*的加权差,在WAIST*上的权数更大些。V1在 PULSE上系数近似为0来自训练指标的第一典型变量W1为W1=-0.3495CHINS* - 1054SITUPS* + O. 7164JUMPS*它在SITUPS*上的系数最大这一对典型变量主要是反映腰围(WAIST*)和仰 卧起坐(SITUPS)的负相关关系。输出4典型结构一原始变量和典型变量的相关系数阵Canccurd aLmcrure(xrndaiiotis BtSrni the 生理指禅 and Thar Cancniuol VamliksVIV2V3WEIG

24、HT WAIST PLJLD.620&-DE24-0 L3W体或D 925+-0.3177-0-0310-O.JJZtJC CMI50,5421麻博QjrrdaLKin Begwn the 训缄指标 and Their Canctuod VuruihlegWlW2*3a DNS SITUPSJUMK-0 7276O.iTO-0,6438-a.8177o S73a。.的14 仲卧起坐-0. IW30.C586陆高GcmlatioiB Btiwem the 生生指标 urH ihe Canonical VjirifihJes of the 叫练拘杯WlgW3WEIGHTWAE1PUL0.493S-

25、0.1549-0 0098体重玉i3-00757-0.AU22展翘-0 -26邮0 (M照D .4684昧博CoodiAncos Taiwan lhe 训练形标 and the CansmkaJ Vmabla cf tbt 生理指商VIV2VI HNSSTTUPSJUMPS-0 57390 0475- 0 0467 单牡-U,65060 IJ*?0-0040忡卧面坐-0.129(1-0.0170 跳高一由输出4可看出来自生理指标的第一典型变量v1与腰围(WAIST)的相关系 数为0.92, V与体重(WEIGHT)的相关为0.6206,它们都是正的。但典型变量V1 在体重上的系数为负的(-0.

26、7754),即体重在V1的系数和它与V1的相关反号。 来自训练指标的第一典型变量Wl与三个训练指标的相关都是负值,其中跳高 (JUMPS)在W1的系数(0.7164)和它与Wl的相关(-0.1622)也是反号。因此,体重 和跳高在这两组变量中是一个校正(或抑制)变量。一个变量同典型变量的相关与在典型变量上的系数符号相反似乎是矛盾的。 下面以体重为例来说明这一现象,我们知道肥胖性同腰围和体重之间的关系很密 切的。一般说来,有理由认为胖的人比瘦的人仰卧起坐的次数少。假定这组样本 中没有身高非常高的人,因此体重和腰围之间的相关(0. 8702)是很强的。-腰围大的人倾向于比腰围小的人胖。因此腰围与仰

27、卧起坐为负相关 (-0.6456)。-体重大的人倾向于比体重小的人胖。于是体重与仰卧起坐为负相关 (-0.4931)。考虑用多元回归方法由WAIST* (腰围)和WEIGHT* (体重)来预测SITUPS* (仰 卧起坐),得到的回归式为:SITUPS* =0.2833 WEIGHT* - 0.8921 WAIST* ,回 归式中WEIGHT*系数的符号为正似乎不合理,关于系数的符号可解释如下:-若固定体重的值,腰围大的人倾向于较强壮和较胖,故而仰卧起坐次数 少,于是腰围的多元回归系数(-0.8921)应是负的。-若固定腰围的值,体重大的人倾向于比较高和比较瘦,故而仰卧起坐次 数多;因此体重的

28、多元回归系数(0.2833)应为正的。这里体重与仰卧起坐的相关 同体重的回归系数符号相反。因此,第一典型相关一般解释为以体重(WEIGHT)和跳高(JUMPS)作为校正(或 抑制)变量来强化腰围(WAIST)和抑卧起坐(SITUPS)之间的负相关关系。输出5CANCORR过程产生的典型冗余分析结果占皈dlhiiud Varmirr nf -Jir 生理Jfr际Eicpimrwd 曲Their Ovm C-Hruuil Vtinihle5The QppcwAE CuToratjd VnjiUr?.PrcprfiMiCLtfnJa.tivt1PraportiynPcUpcrbon(jwmittfr

29、iwPavpxnaLiTil也45用ifa attE也 4506 4.烦6 .WWEJ MEQ flQJjAl3H O.dOw 0 WE6d W5J0部RStandiir也Ecd山?调携指顿!EaqiWed 厚 hcirOwj、llw gxEjttCmonicJil Vtiabka?-Ca/MircaJ 机1 瞄PrepoHjOflCurjuilfftiwe Pircrtiur.PKjpurtmnCirauJiiHvt PmpnrriLfifl-Wl OlHS 0 I5H0 g0 H42h t mkJ0氏嘛0 &4fl20 OflSJ0,25440 0P5D在AM。25S4 也如惜 O.gJ5qoared M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论