07典型相关分析.doc_第1页
07典型相关分析.doc_第2页
07典型相关分析.doc_第3页
07典型相关分析.doc_第4页
07典型相关分析.doc_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

典型相关分析专题9.1 引言典型相关分析是研究两组变量之间相关关系的一种统计分析方法,它能够真正反映两组变量之间的相互线性依赖关系。例如,F. V. Waugh(1942)研究了美国1921年至1940年每年牛肉、猪肉的价格与按人口平均的牛肉和猪肉的消费量之间的相互关系,可归结为研究这两组变量之间的相互依赖关系。采用典型相关分析,可由第一组变量构造一种价格指数,由第二组变量构造一种消费量指数,这两种指数分别为这两组变量的典型变量,而后研究这两种指数间的相互关系。又如,在工厂里常常要研究产品的个质量指标()与原材料的个质量指标之间的相关关系,这也是需采用典型相关分析来解决的问题。一般地,为研究两组变量和之间的相关关系,常采用类似于主成分的思想,找出第一组变量的某个线性组合,并找出第二组变量的某个线性组合,于是我们把研究两组变量之间相关的问题化为研究两个变量与之间的相关问题,希望使与的相关达到最大。我们称这种相关为典型相关,基于这种原则的分析方法称为典型相关分析。9.2 总体典型相关一、典型相关的定义及导出设和是两组变量,且,即有其中典型相关分析研究的是,的线性函数与的线性函数之间的相关关系,其中和我们先来计算一下与的相关系数(9.2.1)(9.2.2)所以,与的相关系数为(9.2.3)由于对任意非零常数和,有因此,为避免不必要的结果重复,我们常常限定与均为标准化的变量,即附加约束条件,(9.2.4)这等价于约束条件,(9.2.5)于是,我们的问题归结为在约束条件(9.2.4)式或(9.2.5)式下,求和,使得(9.2.6)达到最大。令,于是,。利用柯西不等式,有记为的秩,则从而,非负定矩阵有个正特征值,分别记为,相应的单位特征向量分别为,其余个零特征值的单位特征向量分别为,是正交矩阵。结论:(特征值;特征向量;)(特征值;特征向量;)(特征值;特征向量)(特征值;特征向量)其中因此,由上述不等式和谱分解定理有若取,则备注:的最大特征值为,对应的特征向量为,故这里是的正平方根。所以,当取,时,达到最大值(显然)。我们称,(9.2.7)为第一对典型相关变量,称为第一个典型相关系数,称,为第一对典型系数。利用和具有相同非零特征值的性质,可知都具有相同的非零特征值。令,(9.2.8)其中是的正平方根。由于(9.2.9)所以(9.1.10)即为的相应于的正交单位特征向量;(9.2.11)即为的相应于的正交单位特征向量;(9.2.12)即为的相应于的正交单位特征向量。第一对典型相关变量提取了原始变量与之间相关的主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量,也就是应满足,且应使得第二对典型相关变量不包括第一对典型相关变量所含的信息,即在这些约束条件下使得达到最大。一般地,第()对典型相关变量,是指,找出和,在约束条件,(9.2.13)下,使得达到最大。为此,令,于是约束条件(9.2.13)式等价于,(9.2.14)当取时,可验证满足(9.2.13)式,且故这时达到最大值,称它为第个典型相关系数,称,为第对典型系数。二、典型相关变量的性质1同一组的典型变量互不相关设的第对典型变量为,(9.2.15)则有,(9.2.16)表明由组成的第一组典型变量互不相关,且均有相同的方差1;由组成的第二组典型变量也互不相关,且也均有相同的方差1。2不同组的典型变量之间的相关性,(9.2.17)(9.2.18)表明不同组的任意两个典型变量,当时,相关系数为,当时是彼此不相关的。记,则上述性质可用矩阵表示为,或其中3原始变量与典型变量之间的相关系数记则上述四个等式也可表达为4简单相关,复相关和典型相关之间的关系当时,与之间的典型相关(唯一)就是它们之间的简单相关;当或时,与之间的典型相关(唯一)就是它们之间的复相关。因此,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。从第一个典型相关的定义可以看出,第一个典型相关系数至少同的任意分量与的复相关系数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大(对也一样);同样,从复相关的定义也可以看出,当时,与之间的复相关系数也不会小于与的任意分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大。三、从相关矩阵出发计算典型相关有时,与的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再作典型相关分析。记,为的相关矩阵,同时也是的协方差矩阵。对与的各分量作标准化变换,即令,(9.2.23)现在我们来求和的典型相关变量,。于是因为所以即即即即 (备注:)所以同理 (备注:)由此可见,为和的第对典型系数,其第个典型相关系数仍为,在标准化变换下具有不变性,这一点与主成分分析有所不同。和的第对典型变量,具有零均值,且与和的第对典型变量,只相差一个常数。这是因为及 例9.2.1 设,有如下相关矩阵:,这里,可以保证,存在。求,的典型相关变量。解:容易知道,有唯一的非零特征值2,故有唯一的非零特征值备注:当时,特征向量为,(其中为不等于零的常数)。在约束条件下,相应于特征值的特征向量为备注:得到故同理,在约束条件下,相应于特征值的特征向量为所以,第一对典型相关变量为,其中和分别是对和各分量标准化后的向量。第一个典型相关系数为由于,故,表明第一个典型相关系数大于两组原始变量之间的相关系数。9.3 样本典型相关在实际应用中,的协方差矩阵或相关矩阵一般是未知的,应根据样本来进行估计。设数据矩阵为则样本协方差矩阵为式中,可用来作为的估计。当时,在一般情况下,是正定矩阵,故一般可认为,存在。和可分别作为和的估计;它们的非零特征值可用来估计;相应的特征向量作为的估计,作为的估计。的正平方根称为样本的第个典型相关系数,和称为样本的第个典型相关变量,。将样本,经中心化后代入对典型变量,即令,则称为第个样品的第个样本典型变量值,为第个样品的第个样本典型变量值。由约束条件可得 ,同理可得,对每个,可画出,的散点图,以检查是否有异常值出现。例9.3.1 某康复俱乐部对20名中年人测量了三个生理指标:体重(),腰围()、脉搏()和三个训练指标:引体向上()、起坐次数()、跳跃次数()。其数据列于表9.5。9.4 典型相关系数的显著性检验设,。又设为样本协方差矩阵,且。一、全部总体典型相关系数均为零的检验考虑假设检验问题:至少有一个不为零(9.4.1)其中。若检验接受,则认为讨论两组变量之间的相关性没有意义;若检验拒绝,则认为第一对典型变量是有用的。(9.4.1)式等价于假设检验问题,(9.4.2)成立表明与互不相关。似然比检验统计量为(9.4.3)其中,()是的非零特征值。对于充分大的,当成立时,统计量(9.4.4)近似服从自由度为的分布。在给定的显著性水平下,若,则拒绝原假设,认为典型变量与之间的相关性是显著的;否则,则认为第一对典型相关系数不显著。在例9.3.1中,欲检验:,它的似然比统计量为查分布表得,因此在的显著性水平下,拒绝原假设,也即认为至少有一个典型相关是显著的。二、部分总体典型相关系数为零的检验对两组变量和进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。若(9.4.1)式中的经检验被拒绝,则应进一步检验假设至少有一个不为零若原假设被接受,则认为只有第一对典型变量是有用的;若原假设被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设至少有一个不为零如此进行下去,直至对某个,假设被接受,这时可认为只有前对典型变量是有用的。对于假设检验问题至少有一个不为零(9.4.5)其似然比检验统计量为(9.4.6)对于充分大的,当成立时,统计量(9.4.7)近似服从自由度为的分布。在给定的显著性水平下,若,则拒绝原假设,认为第个典型相关系数是显著的,即第对典型变量显著相关;否则,则认为第个典型系数是不显著的。在例9.3.1中,欲进一步检验,检验统计量为查分布表得,有0.7457.779,因此在的显著性水平下,接受原假设,也即认为第二个典型相关是不显著的。因此,只有一个典型相关是显著的。一、下表是12名学生5门课程的考试成绩:政治语文外语数学物理19994931001002998896999731009881961004938888999651009172967869078827597775738897898938483688898773607684109582906239117672436778128575503437对三门文科成绩和二门理科成绩作典型相关分析,问第一典型系数是多少?二、北方工业大学为了研究学生的体质与其运动能力的关系,对38名学生的体质情况,测试了7项指标:x1(反复振荡的次数,单位回),x2(垂直上跳高度,单位cm),x3(负重能力,单位kg),x4(握力,单位kg),x5(踏台升降,单位指数),x6(立姿体前屈,单位cm),x7(臥姿上体长,单位cm);对运动能力情况,每人测试了5项指标:y1(50米跑,单位秒),y2(1000米长跑,单位秒),y3(投掷能力,单位m),y4(悬垂次数,单位回),y5(持久走,单位秒)。视体质情况的7项指标为第一组数据,视运动能力的5项指标为第二组数据。要研究这两组数据的相关性,利用典型相关分析来处理。x1x2x3x4x5x6x7y1y2y3y4y54655126517525726.84892783605255954281.218507.24643053484669107389818746.843032938649501054897.616606.83622663314255904666.52687.24532311391486110643782558740529738949601004990.615607420211037948631225256.117687.14662823624555105487615616.841524638648641203860.220627.141328739849521004253.46427.440423640047621003461.210627.242725740741511015362.4560837225340952551254386.35626.849630103504552945051.420657.639424339949571104772.319457446301133753651124790.415756.642030123574757954772.39646.644725444748601204786.412626.8389281138149551134184.11560739827438748691284247.920637.148530735042571224654.215637.240028638854641555171.419616.9511331229853631204256.68537.543029435342711384465.21755748729937046661204562.222687.44702873604556912966.218517.938026535850601204256.68576.84603253484251126505013577.739827238348501154152.96397.441528631442521404856.315606.9470271134848671053969.223607.6450281032649741514954.220587500301233047551134071.419647.641029733149741205354.522596.9500332134844521103754.914577.540029242152661304745.914456.8505281135548681004553.623707.2522289352三、 现收集了年的数据,用和分别表示牛肉和猪肉的价格,和分别表示牛肉和猪肉的消费量,并假定它们均已标准化了,且求得这四个变量的相关矩阵为:x1x2y1y2x110.18126-0.56396-0.49898x20.1812610.35494-0.75671y1-0.563960.354941-0.10293y2-0.49898-0.75671-0.102931(1) 求价格与消费量之间的典型相关系数及典型变量。(2) 对典型相关系数作检验。四、下表列举了25个家庭的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论