




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行
2、性与优越性.【关键词】典型相关分析,样本典型相关,性质,实际应用ABSTRACTTheCanonicalCorrelationAnalysisisanimportantstudyingtopicoftheMultivariateStatisticalAnalysis.Itisthestatisticalanalysismethodwhichstudiesthecorrelationbetweentwosetsofvariables.Itcanworktorevealthemutuallinedependencerelationavailablybetweentwosetsofvariables
3、.WiththehelpofthethoughtaboutthePrincipalComponents,wecanuseafewcomprehensivevariablestoreflectthelinearrelationshipbetweentwosetsofvariables.NowadaysIthasalreadybeenusedwidelyinthecorrelationanalysisandforecastedanalysis.ThistextdescribesthestatisticalthoughtoftheCanonicalCorrelationAnalysisfirstly
4、,andthendefinesthetotalcanonicalcorrelationvariablesandcanonicalcorrelationcoefficient,andsumuptheirsolutionmethodbriefly.AfteritIgodeepintodiscusssomealgorithmofthesamplecanonicalcorrelationanalysisthoroughly.AccordingtothereasoningoftheCanonicalCorrelationAnalysis,sumupsomeofitsimportantproperties
5、andgivetheidentification,followingit,Iinferthesignificancetestingaboutthecanonicalcorrelationcoefficient.Accordingtotheanalysisfromthetheoriesandtheapplication,wecanachievethepossibilityandthesuperiorityfromcanonicalcorrelationanalysisinthereallife.【Keywords】CanonicalCorrelationAnalysis,Samplecanoni
6、calcorrelation,Character,Practicalapplications刖H1第1章典型相关分析的数学描述2第2章典型变量与典型相关系数32.1 总体典型相关32.2 样本典型相关42.2.1 第一对典型相关变量的解法42.2.2 典型相关变量的一般解法82.2.3 从相关矩阵出发计算典型相关9第3章典型相关变量的性质11第4章典型相关系数的显著性检验15第5章典型相关分析的计算步骤及应用实例18典型相关分析的计算步骤18实例分析19结语26致ft27参考文献28附录29典型相关分析(CanonicalCorrelationAnalysis,CCA)作为多元统计学的一个重要
7、部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量
8、来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.典型相关分析是由Hotelling于1936年提出
9、的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.第1章典型相关分析的数学描述一般地,假设有一组变量Xi,X2,Xp与另一组变量Yi,Y2,,Yq,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.当p=q=1时,就是我们常见的研究两个变量X与Y之间的简单相关关系,其相关系数是最常见的度量,定义为
10、:二Cov(X,Y)_xyVar(X).Var(Y)当p±1,q=1(或q之1,p=1)时,p维随机向量X=(X1,X2-LXp)',设X二11:12INp+G1,1),1=1,其中,工11是第一组变量的协万差阵,工12是Y_1121122_第一组与第二组变量的协方差阵,工22是第二组变量的协方差阵.则称R=:至五辿为Y与X1,X2,Xp的全相关系数,全相关系数用于度量一个随-22机变量Y与另一组随机变量X1,X2,Xp的相关系数.当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即U=1X
11、12X2pXp=1XV1Y12Y2qYq=Y其中,口=(%,%,Pp)'和P=(3,%,,Bq)为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量U与V之间的相关问题,希望寻求a,P使U,V之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.第2章典型变量与典型相关系数2.1总体典型相关设有两组随机变量X=(Xi,X2,Xp)',Y=(Yi,Y2,,Yq)',分别为p维和q维随机向量,根据典型相关分析的思想,我们用X和Y的线性组合a'X和PY之间的相关性来研究两组随机变量X和Y之间的相关性.我们希望找到"
12、和P,使得P(aX,P'Y)最大.由相关系数的定义P(aX,P'Y),皿Y)Var(:X);Var(-Y)易得出对任意常数e,f,c,d,均有:e(:'X)f,c'Y)d=:(:'X'Y)这说明使得相关系数最大的aX,PY并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定Var(X)=1,VafP'Y)=1于是,我们就有了下面的定义:设有两组随机变量X=(X1,X2,Xp),XY=(丫1,丫2,Yq),p+q维随机向量卜j的均值向量为零,协万差阵!>0(不妨设pMq).如果存在%=(%i,尸pi)和Pi=("
13、;i,,Pqi),使得在约束条件Var(口X)=1,Var(PY)=1下,:(二iX,;)=max:(二'X;'Y)则称叫X,BY是X,Y的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前k-1对典型相关变量之后,第k对典型相关变量定义为:如果存在%=(%k,尸pk)和儿=(鼠,,Pqk),使得%X,PkY和前面的k-1对典型相关变量都不相关;/八,'、,C'Var(akX)=1,Var(PkY)=1;otkX和氏丫的相关系数最大,则称otkX和设丫是X,Y的第k对(组)典型相关变量,它们之间的相关系数称为第k个典型相关系数(
14、k=2,,p).2.2样本典型相关以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量N和协方差阵工通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对工进行估计.第一对典型相关变量的解法设总体Z=(Xi,Xp,Yi,,Yq),已知总体的n次观测数据为:于是样本数据阵为Z(t)=X(t)1卜一(p4q)M(t=1,2:n)x11X12X1pYuY12y1qX21*X22X2pay211y229Y2qaxn1Xn2Xnpyn1Yn2ynqnNp4q)若假定ZNp七(出工),则由参考文献2中定理2.5.1知协方差阵工的最大似然估计为n-三一.(Z(t
15、)-Z)(Z-Z)ntmn-其中Z=1£Z,样本协万差矩阵S=工为:nt+S11_S21式中1S11一(Xj_X)(Xj_X)nj11n-,S12(Xj-X)(Yj-Y)njj1S21-(Yj_Y)(Xj-X)nj4S22-(Yj-Y)(Yj-Y)1一X=-HXj,,Vj=P'Yj,则样本的相关系数为v(Uj-U)(Vj-V)r(Uj,Vj)x(Uj-U)2(Vj-V)又因为:njw所以一1.V=VjnjwnjmSuSuVjVjjUSVjVj-U)(Vj-U)(U-V)-U)-V)(Vj-V)r(Uj,Vj)nj4X)('Yj1,X)(:X-CLY)X),S12-=c
16、tS11:vYjY)YjY)'S22:njdS12S11:I:S22:由于Uj,Vj乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的Uj与Vj,即限定Uj及Vj的样本方差为1,故有:SljjUj=SVjVj=1(2.2.1)r(Uj,Vj)=Si2:(2.2.2)于是我们要求的问题就是在(2.2.1)的约束条件下,求awRp,PwRq,使得式(2.2.2)达到最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于求a,P,使A.AjL中(a,P)=c('s12P-(a,S11a1)(P,S22P-1)(2.2.3)22达到最大.式中,C,Q为拉格朗日乘数因子.对上
17、式分别关于a,P求偏导并令其为0,得方程组:二62-Su:=0科介n=S21,S22-=0cP(2.2.4)分别用豆,P,左乘方程(2.2.4)得S&2=九"Sna=九飞J飞2一(二,S12J二飞2所以也就是说,为:f正好等于线性组合U与V之间的相关系数,于是(2.2.4)式可写口人jS12P九=0S21:-'S22'=0ra1一入S1S12A=0(2.2.5)-,S22而式(2.2.5)有非零解的充要条件是:(2.2.6)-,SuS12AS21一S22AA该方程左端是人的p+q次多项式,因此有p+q个根.求解九的高次方程(2.2.6),把求得的最大的九代回方
18、程组(2.2.5),再求得a和P,从而得出第一对典型相关变量.具体计算时,因九的高次方程(2.2.6)不易解,将其代入方程组(2.2.5)后还需求解p+q阶方程组.为了计算上的方便,我们做如下变换:用Si2S2左乘方程组(2.2.5)的第二式,则有S12S22S21:,-1812822s22:=0812s22S21,二='S12-又由(2.2.5)的第一式,得S12'='S11?代入上式:12812s22S21-一,Sn=01-2.(812s22S21-'S11)-=0(2.2.7)再用左乘式(2.2.7),得1112(S11S12S22S21一Ip)-=0(2
19、.2.8)因此,对九2有p个解,设为r;>r|之>rj,对a也有p个解.类似地,用S21S1:左乘式(2.2.5)中的第一式,则有8218111812-S21S1;S11=0又由(2.2.5)中的第二式,得ArtS211-'S22:(2.2.9)代入到(2.2.8)式,有(S21S:S12-12S22)1=0再以S2t左乘上式,得(S2;&iS:Si2-11q尸=。(2.2.10)因此对九2有q个解,对P也有q个解,因此一为S;S12S2;S21的特征根,«是对应于九2的特征向量.同时九2也是S2;S21S;S12的特征根,P为相应特征向量.而式(2.2.
20、8)和(2.2.10)有非零解的充分必要条件为:(2.2.11)S22s2101012-1Iq对于(2.2.11)式的第一式,由于S11>0,S22>0,所以S11>0,S21>0,故有:Q2Q2Q一2Q2Q一S|1S12022s21-SilSilS12S22S22S21而S;'2S1j2S12S2?2S222S21与ShSzS2rs2'f2S21S72有相同的特征根.如果记T=611252s2升&;2S12S2212s2212s21S1:2=TT类似的对式(2.2.11)的第二式,可得产021§:20产&202r=TT而TT与
21、TT有相同的非零特征根,从而推出(2.2.8)和(2.2.10)的非零特征根是相同的.设已求得TT的p个特征根依次为:则TT的q个特征根中,除了上面的p个外,其余的q-p个都为苓.故p个特征根排列是九1之九2之之为0,,03之九p二之之一%之一九1,因止匕,只要取最大的九1,代入方程组(2.2.5)即可求得相应的&=&1、P=21.令U=o(1X与V=P;Y为第一对典型相关变量,而r(U,V)=c(1'&2P1'=九为第一典型AA相关系数.可见求典型相关系数及典型相关变量的问题,就等价于求解TT的最大特征值及相应的特征向量.典型相关变量的一般解法从样本典
22、型相关变量的解法中,我们知道求典型相关变量和典型相关系数的AA.问题,就是求解TT的最大特征值及相应的特征向量.下面引用参考文献【2】中定理10.1.1来得不仅如此,求解第k对典型相关变量和典型相关系数,类似的也是求TT的第k大的特征值和相应的特征向出样本典型相关的一般求法.设总体的n次观测数据为:Z(t),X(t)1(t)i(p4q)Xl(t=1,2,,n)不妨设p<q,样本均值为0,协方差矩阵S为:s=S11S12S21S22记T=S;2sa222,并设p阶万阵TT的特征值依次为九;之九2之之九/0(>0,i=1,,p);而li,l2,lp为相应的单位正交特征向量.令/=S/k
23、,公;人方案内:则UkNkX,Vk=£kY为X,Y第k对典型相关变量,fk为第k典型相关系数.由上述分析不难看出,典型相关系数4越大说明相应的典型变量之间的关系越密切,因此一般在实际中忽略典型相关系数很小的那些典型变量,按£的大小只取前n个典型变量及典型相关系数进行分析.从相关矩阵出发计算典型相关以上我们从样本协方差阵S出发,导出了样本典型相关变量和样本典型相关系数.下面我们从样本相关阵R出发来求解样本典型相关变量和样本典型相关系数.设样本相关阵为R=(),其中=q/,Sj为样本协方差阵S的i行j列元素.把R相应剖分为cR11R12R=HR21R22有时,X和Y的各分量的单
24、位不全相同,我们希望在对各分量作标准化变换之后再做典型相关.记方=E(X),电=E(Y)p1,p1D1D2sppspq,pqS11=DRDi,S22-D2R22D2S12-D1R12D2,S21-D2R21D1,对X和Y的各分量作标准化变换,即令*1.*1X=D1(X-、),Y=D2(Y-J2)现在来求X和Y的典型相关变量叫X,PjY,i=1,2,,m.于是11R11R12R22R21因为所以=DQi,有口:同理:式中*=DPi,有B;SX*XSY*Y*11=D1SuD1=R1111=D2S22D2=R22=D1S12D2=RI2=D2S21D1-R211_1_/1/_/_.1=(D1S1D1
25、)D1S2D2(D2S22D2)D2S21D1JL-D1S1S12S22S21D1112S11S12S22S21-:ii=i-:iD&S12s2至150、)32(D-i)11_*2*R11R12R22R212=r-ji''.R11-i-iD1R11Dr'i-''iS11'i-12杀24小一二3;AB;=BiD2R22D2p=BiS22%=1,由此可见%*,B;为X*,Y*的第i对典型系数,其第i个典型相关系数为0,在标准化变换下具有不变性.第3章典型相关变量的性质根据典型相关分析的统计思想及推导,我们归纳总结了典型相关变量的一些重要性质并
26、对总体与样本分别给出证明.性质1同一组的典型变量互不相关i总体典型相关设X与Y的第i对典型变量为Ui="i'X,Vi=P;Y,i=1,2,,m则有"Uj,")=0;?(Vi,Vj)=0lMi=jMm证明详见参考文献【5】.ii样本典型相关设X与Y的第i对典型变量为Ui=u;X,Vi=PiY,i=1,2,,m因为SIN=?iS11工i=1,SNi=-iS22'i=1,i-1,2,m'r(Ui,Uj)=SuiUj=:iSn:j=0,1<i-j<m'r(Vi,Vj)=S/M=-iS22j=0,13;j二m表明由X组成的第一组典
27、型变量U1,U2,,Um互不相关,且均有相同的方差1;同样,由丫组成的第二组典型变量V1,V2,Vm也互不相关,且也有相同的方差1.性质2不同组的典型变量之间的相关性i总体典型相关:(Ui,Vi)=9i=1,2;,m:(Ui,Vj)二01三i=j三m证明详见参考文献【5】.ii样本典型相关(UiMLsdi=i=1,2,mr(Ui,Vj)0j=S2、=-iS112s12s222-j=rj-i-j=0,1-i=j-m表明不同组的任意两个典型变量,当i=j时,相关系数为;当i¥j时是彼此不相关的.记U=(Ui,U2,,Um)',V=M,V2,,Vm),则上述性质可用矩阵表示为SJU
28、=m,SVV-mJu)flmAN厂/Im其中二二diag(r1,出,rm)性质3原始变量与典型变量之间的关系求出典型变量后,进一步计算原始变量与典型变量之间的相关系数矩阵,也称为典型结构.下面我们分别对总体与样本进行讨论.i总体典型相关的原始变量与典型变量的相关性详见参考文献【2】.ii样本典型相关A=(:1JB=(1,-2,-m)=(_ij)qmS11S1pas1,14Pasi,p丸9s=pn_(Yi-Y)(BY-BY)=S22BnidS121=Sp1Sppsp,p书sp,p化jS21S221Sp书,1sp比psp书,p书sp书,p4qaa-aSpdq,1Spt,psp十l,p书Sp4q,p
29、+l/Sxu=-v(Xi-X)(A'X-A'X)'=SnAniiSxv(Xi-X)(B'X-b'X)'=Si2BniiSyuSyv1,n=1x(Yi-Y)(AX-AX)=S21Ani1所以利用协方差进一步可以计算原始变量与典型变量之间的相关关系.若假定原始变量均为标准化变量,则通过以上计算所得到的原始变量与典型变量的协方差阵就是相关系数矩阵.p_r(Xi,Uj)=Sik:kj/Siik4qr(Xi,Vj)八S"J”ki=1,2,,p,j=1,2,,mpr(Y,Uj)JSpk:,kjSTkz1qr(Yi,Vj)=、Sip,pk-kjSpi
30、,pikJi=1,2,q,j=1,2,m性质4设X和Y分别为p维和q维随机向量,令X一二*_1由于ai-Ca-bi=Gbi=C'X+d,Y*=G'Y+h,其中C为pMp阶非退化矩阵,d为p维常数向量,G为qMq阶非退化矩阵,h为q维常数向量.则:i对于总体典型相关有:(1)X和Y的典型相关变量为(aQX和(bi)Y,其中ai=Cai,bi=Gbi(i=1,2,,p);而科和>是X和Y的第i对典型相关变量的系数.P(ai*)X*,(bi*)Y*=Pai'X,b'Y,即线性变换不改变相关性.证明详见参考文献【2】.ii对于样本典型相关有:,、*一*一、一.*&
31、#39;*一、*'*,*1*1(1)X和Y的典型相关变量为(ai)X和(bi)Y,其中ai=Ca-bi=Gb(i=1,2,p);而d和0是X和Y的第i对典型相关变量的系数.,、*'*''r(ai)X,(bi)Y=raiX,biY,即线性变换不改变相关性.证明:设X*和Y*的典型相关变量分别为*,*,*U=(ai)X,V=(bi)Y*_»*_X=CX+d,Y=GY+h所以U=(Caj)(CXd)=aj(C)(CXd)=ajXa,(CJ)dV=(G,bi)(GYh)=bi(G)(GYh)=bjYbG)h即有ai和bi是X和Y的第i对典型相关变量的系数.(2
32、)由的证明可知U=)X=aiXai(C)dV=(bi)Y=bjYbi(G)h由于a;(C')'d与b;(G)'h都是常数,所以,*、'*,*、'*一'',_1、''',_1、'r(ai)X,(b)Y=rwXa/C)d,biYbi(G_)h=raiX,biY即有线性变换不改变相关性.性质5简单相关、复相关和典型相关之间的关系当p=q=1,X与Y之间的(惟一)典型相关就是它们之间的简单相关;当p=1或q=1时,X与Y之间的(惟一)典型相关就是它们的复相关.复相关是典型相关的一个特例,而简单相关又是复相关的一个特
33、例.从第一个典型相关的定义可以看出,第一个典型相关系数至少同X(或Y)的任一分量与Y(或X)的复相关系数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当p=1(或q=1)时,X(或Y)与Y(或X)之间的复相关系数也不会小于X(或Y)与Y(或X)的任一分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大.第4章典型相关系数的显著性检验设总体Z的两组变量X=(X1,X2,Xp),Y=(丫1,丫2,Yq),且'一一4,一、一一、-、一、Z=(X,Y)Npqq(,I),在做两组变量X,丫的典型相关分析之刖,首先应该检验两组变
34、量是否相关,如果不相关,则讨论两组变量的典型相关就毫无意义.1.考虑假设检验问题:H0:;1=/2=-=m=0Hi:Pi,P2,,Pm至少有一个不为零其中m=minp,q.若检验接受H0,则认为讨论两组变量之间的相关性没有意义;若检验拒绝Ho,则认为第一对典型变量是显著的.上式实际上等价于假设检验问题Ho:Cov(X,Y)=工12=0,H1:工12#0用似然比方法可导出检验H0的似然比统计量|S11|S22|其中p+q阶样本离差阵S是工的最大似然估计,且s|S11s12IS11,S22分别S21S22I是工11,122的最大似然估计.该似然比统计量A的精确分布已由霍特林(1936),Girsh
35、ik(1939)和Anderson(1958)给出,但表达方式很复杂,又不易找到该分布的临界值表,下面我们米用A的近似分布.利用矩阵行列式及其分块行列式的关系,可得出:|S|S22|S11-S12S22S21|=1S221S111IIpS11s12s22s211所以其中曾是TY'的特征值(T=S#2Si2S2f2),按大小次序排列为人?之忧艺>k2p>0,当na1时,在HO成立下Qo=-mlnA近似服从,2分布,上二|p一&:&2$21$21|=I。0n2入pj1这里f=pq,m=n-1-(p+q+1),因此在给定检验水平a之下,若由样本算2出的Qo>
36、厘2临界值,则否定Ho,也就是说第一对典型变量U1,*具有相关性,其相关系数为幺,即至少可以认为第一个典型相关系数1为显著的.将它除去之后,再检验其余p-1个典型相关系数的显著性,这时用Bartlett提出的大样本72检验计算统计量:pA1=(1九2)(1九3)(14)=口(1九2)iW则统计量-C1,Q1=Tn-2-一(pq1)ln.12近似地服从(p-1)(q-1)个自由度的*分布,如果Qi>7:,则认为方显著,即第二对典型变量U2,V2相关,以下逐个进行检验,直到某一个相关系数直检验为不显著时截止.这时我们就找出了反映两组变量相互关系的k-1对典型变量.2.检验H0k):M=0(k
37、=2,,p)当否定H。时,表明X,Y相关,进而可以得出至少第一个典型相关系数%¥0,相应的第一对典型相关变量Ui,Vi可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时均毛0(k=2,,p),故在否定Ho后,有必要再检验H0k)(k=2,,p),即第k个及以后的所有典型相关系数均为0(k=2,3,p).为了减少计算量,下面我们采用二分法来减少检验次数,取检验统计量为-1J2Qk=-n-k-(pq1)ln(1-'i)2它近似服从(p-k+1)(q-k+1)个自由度的X分布.在检验水平a下,若Qk>7%(p-k+1)(q-k+1),则拒绝Ho
38、,即认为第k对典型相关系数在显著性水平a下是显著的,否则不显著.从第2个典型相关系数到第p个典型相关系数,共p-1个数,所以根据二分法的原理,将它们分为一个区间2,p,然后先检验第尚二!1个典型相关系数_2即中位数,当九pj=0时,即认为第|上二II个典型相关系数不相关,否定原假殍-2设,接着检验2,/一1“;若当儿”iro时,则检验口)一1*1,pl如此ILIL2jj号.ILIL2jj划分区间依次检验下去,由数学分析上的区间套定理,一定存在第k个数(k=2,3,p),使得九k#0,而鼠=0.以上的一系列检验实际上是一个序贯检验,检验直到对某个k值Ho未被拒绝为止.事实上,检验的总显著性水平已
39、不是a了,且难以确定.还有,检验的结果易受样本容量大小的影响.因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据.第5章典型相关分析的计算步骤及应用实例5.1典型相关分析的计算步骤设X,,X(n)为取自正态总体的样本(实际上,相当广泛的情况下也对)X1py11y12y1q1X2py21sy22y2qXnpyn1yn2ynqnM(p4q)=(X1,Xp)',丫=(丫1,,Yq),原始资料R剖分为R12R22每个样品测量两组指标,分别记为X矩阵为:X11X12X21X223*:Xn1X”第一步计算相关矩阵R,并将R=R11R21其中R11,R22分别为第一组变量和
40、第二组变量之间的相关系数矩阵,R12=R21为第一组与第二组变量之间的相关系数.第二步求典型相关系数及典型变量首先求A=R1;R12R21R21的特征根A,特征向量D1/;在=亦2旧出2的特征根吟,特征向量D2母.=)=D(D1小),(i)=口广口百)写出样本的典型变量为U:=”x,V=6(1)丫u=/'x,V;=钳2)丫U:=2X,V:=S'(p)Ypp第三步典型相关系数的显著性检验首先,检验第一对典型变量的相关系数,即H0:Ki=0,Hi:储#0它的似然比统计量为AAApAAi=(i九2)(i九2)(i九p)=n(i九2)ii则统计量-i,Qi=-n-2-(pqi)ln2给
41、定显著性水平a,查表得%若Qia则否定Ho,认为第一对典型变量相关,否则不相关.如果相关则依次逐个检验其余典型相关系数,直到某一个相A关系数zk(k=2,,p)检验为不显著时截止.5.2实例分析例1:某康复俱乐部对20名中年人测量了三个生理指标:体重(xi)、腰围(X2)、脉搏(X3)和三个训练指标:引体向上(1)、起坐次数(丫2)、跳跃次数(y3).数据如附录i:解:记X=(Xi,X2,X3)',Y=(yi,y2,y3),其中样本容量n=20.附录i中的数据用SPSS统计软件计算得六个变量之间的相关矩阵如下:CorrelationsXiX2X3YiY2Y3XiPearsonCorre
42、latioi.870(*)-.366-.390-.493(*)-.226nSig.(2-tailed).000.ii3.089.027.337N202020202020X2PearsonCorrelation.870(*)i-.353-.552(*)-.646(*)-.i9iSig.(2-tailed).000.i27.0i2.002.4i9N202020202020X3PearsonCorrelatio-.366-.353i.i5i.225.035nSig.(2-tailed).113.127.526.340.884N202020202020Y1PearsonCorrelatio-.390-
43、.552(*).1511.696(*).496(*)nSig.(2-tailed).089.012.526.001.026N202020202020Y2PearsonCorrelation-.493(*)-.646(*).225.696(*)1.669(*)Sig.(2-tailed).027.002.340.001.001N202020202020Y3PearsonCorrelatio-.226-.191.035.496(*).669(*)1nSig.(2-tailed).337.419.884.026.001.1N202020202020*Correlationissignificanta
44、tthe0.01level(2-tailed).*Correlationissignificantatthe0.05level(2-tailed).即样本相关矩阵为:1R11=0.87010.366-0.3531,1'R22=0.6961。4960.6691j-0.390_'R12=R21=一0.552L0.151-0.493-0.226-0.646-0.1920.2250.035于是特征方程R;R12R2;R21-Y=0用Matlab求得矩阵R1;R12R1R21的特征值分别为0.6630、0.0402和0.0053,于是%=0.797,%=0.201,'3=0.07
45、3卜面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系数,欲检验:H0:%=0,H1:九1¥0它的似然比统计量为222、Ai=(1九)(1-1.2)(1一九3)=(1-0.6330)(10.0402)(10.0053)=0.3504一-1,/Q1=-20(333)In=-15.5In0.3504=16.2552查X分布表得,容05(9)=16.919,因此在口=0.05的显著性水平下,Q1”黑,所以拒绝原假设H。,也即认为第一对典型相关变量是显著相关的.然后检验第二对典型变量的相关系数,即进一步检验:H0:九2=0,H1:九2#0它的似然比统计量为上2=(1-12)(1
46、-13)=(1-0.0402)(1-0.0053)=0.9547122Q2=一20-1(333)-1ln上2=-16.08In0.9547=0.745:二9.488=005(4)2.所以无法否定原假设H。,故接受H。:=0,即认为第二对典型相关变量不是显著相关的.由以上检验可知只需求第一对典型变量即可.1于是求九=0.797的特征向量%,而白=R£R21a1,解得1-0.77510.350AA*_门*._*,_._*V1=-0.350y1-1.054y20.716y3X与Y第一对典型变量的相关系数为匕=0.797,可见两者的相关性较为密切,即可认为生理指标与训练指标之间存在显著相关性
47、.例2:为了研究某企业不同部门人员工作时间的关系,随机选取25个企业进行入户调查,达到25个被访企业业务部门和技术部门经理每月工作时间和员工每月工作时间(单位为小时),具体数据如附表2_%=1.579,冏=-1.054,0.0591-0.716_因此,第一对样本典型变量为*.*u1-0.775x11.579x2-0.059x3分析:设业务部门经理和员工每月工作时间为(X1,X2),技术部门经理和员工每月工作时间为(Y1,Y2),利用典型相关分析研究企业业务部门和技术部门人员工作时间的关系.解:样本容量为n=25,p=2,q=2分别为随机变量X与Y的维数.标准化随机变量X=(Xi,X2)'
48、;与Y=(丫1,丫2).根据样本均值Xi与标准差西,依照公式x;Xki-Xi,对数据标准化.X求解X的相关矩阵R,并将其分块YJ将数据输入SPS欹件求得相关系数矩阵如下:RxxRxy<RyxRyyjCorrelationsX1X2Y1Y2X1PearsonCorrelatio1.735(*).711(*).705(*)nSig.(2-tailed)N.25.00025.00025.00025X2PearsonCorrelatio.735(*)1.693(*).705(*)nSig.(2-tailed)N.00025.25.00025.00025Y1PearsonCorrelatio.71
49、1(*).693(*)1.834(*)nSig.000.000.000(2-tailed)N25252525Y2PearsonCorrelatio.705(*).705(*).834(*)1nSig.000.000.000.(2-tailed)N25252525*Correlationissignificantatthe0.01level(2-tailed).所以样本相关矩阵10.7351R=0.7110.6931Q7050.7050.8341,分块后Rxy<RyxRyyJ0.5388400.534949的两个非零特征根,解得c二0.544309求解Mi=RxxRxyRyyRyx=y&l
50、t;0.538840两个非零特征根为九2=0.6218,以=0.0029.进行相关系数的显著性检验,取mMr个显著性检验不为0的特征根.X与Y第一对典型变量的相关系数为九1=0.7885,X与Y第二对典型变量的相关系数为'2=0.0537.先检验第一对典型变量的相关系数,假设H01:入1=0(即第一对典型变量不相关),由典型相关系数的值可得,22一A1=(1%)(1%)=0.3771计算统计量八,八1,Qi=一(n-1)一一(pq1)ln上i2=(24-2.5)ln0.3771=20.97对于给定的显著性水平:=0.05Q1=20.97>?j(p_m+1)(q-m+1)=喘.05
51、(4)=9.488所以否定零假设.H°1:%=0,即第一对典型变量是显著相关的.然后检验第二对典型变量的相关系数,假设H02:%=0(即第二对典型变量不相关),由典型相关系数的值可得.2=(1-2)=0.9971计算统计量-1Q2二(n-2)-(pq1)ln上22=(24-2.5)ln0.9971=0.05945对于给定的显著性水平:=0.05Q2=0.05945<句(pm+1)(q-m+1)=7;.05=3.841所以无法否定假设.H02:九2=0,即第二对典型变量不是显著相关的.由以上检验可知,只需求第一对典型变量即可.求m=1个显著性检验不为0的特征根叶的特征向量l1,而
52、m1=Ry1Ryxl1,解得l1=(0.55216,0.521548),m1=(0.504018,0.538134)1.11求出r对典型相关变量Uj=ljX,Vj=mjY,j=1,2,,m.根据上面求得的特征向量I和m得第一对典型相关变量为.U1=l1X=0.55216X1+0.521548X2CV1=m1Y=0.504018Y+0.538134丫2X与Y第一对典型变量的相关系数为九1=0.7885,可见其相关性较为密切.由于U1=l;X=0.55216X1+0.521548X2,与业务部门经理和员工每月工作时间都成正比,而且系数差不多,所以U1可以解释为业务部门人员工作时间.同理V1可以解释为技术部门人员的工作时间.可见一个企业技术部门和业务部门人员月工作时间存在显著的相关性.典型相关分析是一种采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系.在实际中,只须着重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全球气候变化对全球农业教育培训需求预测报告
- 产品质量的演讲稿
- 2025物业服务装修合同范本
- Unit 1 Section B 单元重难点 讲解训练 2024-2025学年七年级上册
- 2025合同法示范文本关键难题深度解析
- 2025(参考)家政服务合同(派遣制范本)样式例文办公文档
- 2025项目委托建设合同
- DB6101T 206-2023 水果苤蓝设施生产技术规程
- 闵行区教师招聘协议书
- 2025合作合同范本中外合作经营企业合同(9)
- (2025秋)人教版二年级数学上册全册教案(新教材)
- 2025-2026学年闽教版三年级英语上册全册教案
- 2025中国移动贵州公司秋季校园招聘笔试参考题库附带答案详解(10套)
- 施工单位年度业绩汇报
- THNBX 膝痹(原发性双侧膝关节病)综合诊疗规范
- 中科大环境与资源保护法学教案
- 【锐仕方达】2025低空经济产业发展及薪酬趋势研究报告623mb
- 网络安全知识培训资料
- 2025年统编版(2024)小学道德与法治二年级上册《教师节快乐》教学设计
- 手术后疼痛评估与护理团体标准
- dcs上墙管理制度
评论
0/150
提交评论