《典型相关分析》PPT课件.ppt_第1页
《典型相关分析》PPT课件.ppt_第2页
《典型相关分析》PPT课件.ppt_第3页
《典型相关分析》PPT课件.ppt_第4页
《典型相关分析》PPT课件.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章 典型相关分析,10.1 引言 10.2 总体典型相关 10.3 样本典型相关 10.4 典型相关系数的显著性检验,10.1 引言,典型相关分析(canonical correlation analysis)是研究两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系。 典型相关分析是由霍特林(Hotelling,1935,1936)首先提出的。,10.2 总体典型相关,一、典型相关的定义及导出 二、典型相关变量的性质 三、从相关矩阵出发计算典型相关,一、典型相关的定义及导出,设x=(x1,x2,xp)和y=(y1,y2,yq)是两组随机变量,且V(x)=11(0),V(y)=22(0),Cov(x, y)=12,即有 其中21=12。 我们研究u=ax与v=by之间的相关关系,其中 a=(a1,a2,ap),b=(b1,b2,bq) 现来计算一下u与v的相关系数。 Cov(u,v)=Cov(ax,by)=aCov(x,y)b=a12b V(u)=V(ax)=aV(x)a=a11a V(v)=V(by)=bV(y)b=b22b,所以,u与v的相关系数 由于对任意非零常数k1和k2,有 (k1u,k2v)=(u,v) 因此,为避免不必要的结果重复,我们常常限定u与v均为标准化的变量,即附加约束条件 V(u)=1,V(v)=1 即 a11a=1,b22b=1 在此约束条件下,求aRp和bRq,使得 (u,v)=a12b 达到最大。,容易证明, 有着相同的非零特征值,且皆为正,其个数为m=rank(12)。将这些正特征值分别记为 。设a1,a2,am为 的相应于 的特征向量,且满足标准化条件 ai11ai=1,i=1,2,m 令 ,则有 从而b1,b2,bm为 的相应于 的特征向量,并且满足,可以证明,当取a=a1,b=b1时,(u,v)=a12b达到最大值1(显然11)。我们称 u1=a1x,v1=b1y 为第一对典型相关变量,称1为第一个典型相关系数 第一对典型相关变量u1,v1提取了原始变量x与y之间相关的主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量u2=ax,v2=by,也就是a,b应满足标准化条件且应使得第二对典型相关变量不包括第一对典型相关,变量所含的信息,即 (u2,u1)=(ax,a1x)=Cov(ax, a1x)=a11a1=0 (v2,v1)=(by,b1y)=Cov(by,b1y)=b22b1=0 在这些约束条件下使得 (u2,v2)=(ax,by)=a12b 达到最大。 一般地,第i(1im)对典型相关变量ui=ax,vi=by是指,找出aRp,bRq,在约束条件 a11a=1,b22b=1 a11ak=0,b22bk=0,k=1,2,i1 下,使得 (ui,vi)=(ax,by)=a12b 达到最大。当取a=ai,b=bi时,(ui,vi)达到最大值i,称它为第i个典型相关系数,称ai,bi为第i对典型系数。,二、典型相关变量的性质,1.同一组的典型变量互不相关 2.不同组的典型变量之间的相关性 3.原始变量与典型变量之间的相关系数 4.简单相关、复相关和典型相关之间的关系,1.同一组的典型变量互不相关,设x,y的第i对典型变量为 ui=aix,vi=biy, i=1,2,m 则有 V(ui)=ai11ai=1,V(vi)=bi22bi=1,i=1,2,m (ui,uj)=Cov(ui,uj)=ai11aj=0,1ijm (vi,vj)=Cov(vi,vj)=bi22bj=0,1ijm,2.不同组的典型变量之间的相关性,(ui,vi)=i,i=1,2,m 记u=(u1,u2,um),v=(v1,v2,vm),则上述两个性质可用矩阵表示为 V(u)=Im,V(v)=Im,Cov(u,v)= 或 其中=diag(1,2,m)。,3.原始变量与典型变量之间的相关系数,记 A=(a1,a2,am)=(aij)pm B=(b1,b2,bm)=(bij)qm,则 Cov(x,u)=Cov(x,Ax)=11A Cov(x,v)=Cov(x,By)=12B Cov(y,u)=Cov(y,Ax)=21A Cov(y,v)=Cov(y,By)=22B 上述四个等式也可表达为,i=1,2,q,j=1,2,m 所以,4.简单相关、复相关和典型相关之间的关系,当p=q=1时,x与y之间的(惟一)典型相关就是它们之间的简单相关;当p=1或q=1时,x与y之间的(惟一)典型相关就是它们之间的复相关。可见,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。 第一个典型相关系数至少同x(或y)的任一分量与y(或x)的复相关系数一样大,即使所有这些复相关系数都较小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当p=1(或q=1)时,x(或y)与y(或x)之间的复相关系数也不会小于 x(或y)与y(或x)的任一分量之间的相关系数,即使所有这些相关系数都较小,复相关系数仍可能很大。,三、从相关矩阵出发计算典型相关,有时,x和y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再作典型相关分析。 记1=E(x),2=E(y), , , 为 的相关矩阵。对x和y的各分量作标准化变换,即令 现在来求x*和y*的典型相关变量 ,i=1,2,m。,于是 因为 所以,式中 ,有 。同理 式中 ,有 。由此可见, 为x*和y*的第i对典型系数,其第i个典型相关系数仍为i,在标准化变换下具有不变性,这一点与主成分分析有所不同。 x*和y*的第i对典型变量 具有零均值,且与x和y的第i对典型变量ui=aix,vi=biy只相差一个常数。 例10.2.1 设x,y有如下相关矩阵: 这里1,1,可以保证 存在。,由于11有惟一的非零特征值11=2,故 有惟一非零特征值 在约束条件 下,相应于特征值 的特征向量为 。同理,在约束条件 下,,相应于特征值 的特征向量为 。所以,第一对典型相关变量为 其中x*和y*分别是对x和y各分量标准化后的向量。第一个典型相关系数为 。由于1, 1,故1,表明第一个典型相关系数大于两组原始变量之间的相关系数。,10.3 样本典型相关,设数据矩阵为 则样本协方差矩阵为 S可用来作为的估计。当np+q时, 可分别作为 的估计;它们的非零特征值 可用来估计 ;,相应的特征向量 作为a1,a2,am的估计, 作为b1,b2,bm的估计。 的正平方根rj称为第j个样本典型相关系数, 称为第j对样本典型相关变量,j=1,2,m。将样本(xi,yi),i=1,2,n经中心化后代入m对典型变量,即令 则称uij为第i个样品xi的第j个样本典型变量得分,称vij为第i个样品yi的第j个样本典型变量得分。由约束条件 可得 同理可得 对每个j,可画出(uij,vij),i=1,2,n的散点图,该图也可用来检查是否有异常值出现。,例10.3.1 某康复俱乐部对20名中年人测量了三个生理指标:体重(x1)、腰围(x2)、脉搏(x3)和三个训练指标:引体向上(y1)、起坐次数(y2)、跳跃次数(y3)。其数据列于表10.3.1。,表10.3.1 某康复俱乐部的生理指标和训练指标数据,的特征值分别为0.6630、0.0402和0.0053,于是 r1=0.797,r2=0.201,r3=0.073 相应的样本典型变量系数为,因此,第一对样本典型变量为 如果需要,第二对样本典型变量为,例10.3.2 在研究组织结构对“职业满意度”的影响时,作为其中一部分,邓讷姆(Dunham)调查了职业满意度与职业特性相关的程度。对从一大型零售公司各分公司挑出的n=784个行政人员,测量了p=5个职业特性变量:用户反馈(x1)、任务重要性(x2)、任务多样性(x3)、任务特性(x4)及自主权(x5)和q=7个职业满意度量:主管满意度(y1)、事业前景满意度(y2)、财政满意度(y3)、工作强度满意度(y4)、公司地位满意度(y5)、工种满意度(y6)及总体满意度(y7)。对784个被测者的样本相关矩阵为,样本典型相关系数和样本典型变量系数列于表10.3.2中。,表10.3.2 典型相关系数和典型变量系数,第一对样本典型变量为 根据典型系数, 主要代表了用户反馈和自主权这两个变量,三个任务变量显得并不重要;而 主要代表了主管满意度和工种满意度变量,其次代表了事业前景满意度和公司地位满意度变量。我们也可从相关系数的角度来解释典型变量,原始变量与第一对典型变量间的样本相关系数列于表10.3.3中。,所有五个职业特性变量与第一典型变量u1*有大致相同的相关系数,故u1*可以解释为职业特性变量,这与基于典型系数的解释不同。v1*主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度,v1*可以解释为职业满意度公司地位变量,这与基于典型系数的解释基本相一致。第一对典型变量u1*与v1*的样本相关系数r1=0.55,可见,职业特性与职业满意度之间有一定程度的相关性。,表10.3.3 原始变量与典型变量的样本相关系数,10.4 典型相关系数的显著性检验,一、全部总体典型相关系数均为零的检验 二、部分总体典型相关系数为零的检验,一、全部总体典型相关系数均为零的检验,设(x,y)Np+q(,),0。又设S为样本协方差矩阵,且np+q。 考虑假设检验问题: H0:1=2=m=0 H1:1,2,m至少有一个不为零 其中m=minp,q。若检验接受H0,则认为讨论两组变量之间的相关性没有意义;若检验拒绝H0,则认为第一对典型变量是显著的。(10.4.1)式实际上等价于假设检验问题 H0:12=0,H1:120 H0成立表明x与y互不相关。,检验统计量为 对于充分大的n,当H0成立时,统计量 在给定的下,若 ,则拒绝H0,认为典型变量u1与v1之间的相关性是显著的;否则,就认为第一个典型相关系数不显著。,例10.4.1 在例10.3.1中,假设为多元正态数据,欲检验: H0:1=2=3=0,H1:10 它的似然比统计量为 查2分布表得, ,因此在=0.10的显著性水平下,拒绝原假设H0,也即认为至少有一个典型相关是显著的。,二、部分总体典型相关系数为零的检验,若H0:1=2=m=0经检验被拒绝,则应进一步检验假设 H0:2=m=0 H1:2,m至少有一个不为零 若原假设H0被接受,则认为只有第一对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的。 如此进行下去,直至对某个k,假设H0:k+1=m=0被接受,这时可认为只有前k对典型变量是显著的。 对于假设检验问题 H0:k+1=m=0 H1:k+1,m至少有一个不为零,其检验统计量为 对于充分大的n,当H0为真时,统计量 近似服从自由度为(pk)(qk)的2分布。给定显著性水平,若 ,则拒绝原假设H0,认为第k+1个典型相关系数k+1是显著的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论