典型相关分析方法研究.doc_第1页
典型相关分析方法研究.doc_第2页
典型相关分析方法研究.doc_第3页
典型相关分析方法研究.doc_第4页
典型相关分析方法研究.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

典型相关分析方法研究 摘要:典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计方法。与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能揭示出两组变量之间的内在联系,且两组变量的数目可以改变,这确定了它的重要性。随着计算机技术的发展,典型相关分析在各个行业试验研究中应用日渐广泛。本文主要介绍典型相关分析的基本原理与步骤并举例说明其应用。 关键词:典型相关分析;基本原理;步骤;应用 Abstract:Canonical correlation analysis is the study of two groups of variables (or two random vectors) a statistical method the relationship between the. Compared with only the simple correlation analysis of linear relationship between two variables and canonical correlation analysis can reveal the internal relations between two sets of variables, and the number of two groups of variables can change, this determines the importance of it. With the development of computer technology, the canonical correlation analysis system has been widely used in various industries in experimental study. This paper mainly introduces the basic principle and procedure of canonical correlation analysis and examples of its application. Key words:Canonical correlation analysis; basic principle; step; application一、引言典型相关分析(Canonical Correlation Analysis 简称CCA)是处理两个随机矢量之间相关性的统计方法,在多元统计分析中占有非常重要的地位。典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景1。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。二、典型相关分析的国内外研究现状典型相关分析及其改进算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。很多学者都在从事这方面的研究,并取得了良好的效果。孙权森2等将典型相关分析应用到特征融合中,利用典型相关分析达到了信息冗余的目的。陈拓3等利用典型相关分析方法来抑制主动声呐直达波干扰并取得了很好的效果。王磊4将多集典型相关分析用于雷达辐射源指纹识别,与其他的方法相比具有更好的识别性能。张洁玉5结合广义典型相关分析,提出一种新的仿射不变特征提取方法,且在视点变换图形识别中得到很高的识别率。Kim6将张量典型相关分析应用于判别特征选择和动作检测,并取得很好的效果。Hwang7将多重集典型相关分析与主分量分析相结合,并将这种新方法应用到功能神经影像学中。Raul8提出一种新型正规化CCA方法,并将其应用于NCL-60微小核糖核酸癌症数据,取得了更稳定和更正确的结果。Wang9利用典型相关分析进行多元回归的收缩和选择。随着研究的深入,典型相关分析及其改进算法的理论知识越来越完善,应用的领域和学科越来越广。三、典型相关分析的基本思想典型相关分析是研究两组变量间整体线性相关关系的多元统计方法,它借助于主成分分析的思想,对于每一组变量分别寻找线性组合,使生成的新综合变量能代表原始变量大部分的信息,同时与另一组变量生成的新的综合变量的相关程度最大,这样的一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对,使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数10。四、典型相关的数学描述考虑两组变量的向量 其协方差阵为 其中11是第一组变量的协方差矩阵11;22是第二组变量的协方差矩阵;是X 和Y 的协方差矩阵。如果我们记两组变量的第一对线性组合为: 其中: 所以,典型相关分析就是求a1和b1,使uv达到最大。五、典型相关系数和典型变量 1.求法在约束条件: 下,求a1和b1,使uv达到最大。根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求 的极大值,其中和v是 Lagrange乘数12。 将上面的3式分别左乘a1和b1 得 第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数13。 在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为: 在约束条件 求使 达到最大的a2和b22.典型变量的性质(1)同一组变量的典型变量之间互不相关 因为特征向量之间是正交的。故X组的典型变量之间是相互独立的: Y组的典型变量之间是相互独立的: (2) 不同组变量的典型变量之间的相关性 不同组内一对典型变量之间的相关系数为: 同对相关系数为i,不同对则为零。3、 原始变量与典型变量之间的相关系数原始变量相关系数矩阵 X典、型变量系数矩阵 y典型变量系数矩阵 6、 典型相关分析适用性检验和典型相关系数的显著性检验 典型相关分析是研究两组变量之间相关关系的一种统计方法,但是并非所有的截面数据都适合于典型相关分析。典型相关分析是在原始数据满足一定条件和假设的前提下进行的,这些条件包括原始变量要服从多元正态分布,样本容量至少要大于原始变量个数,这些假设包括两组变量之间要具有相关性,每组原始变量中能够综合出典型变量,即原始变量组内要有一定的相关性等14。若这些条件和假设无法满足,就不能进行典型相关分析。所以,应用典型相关分析时,首先要对其适用性进行检验分析。1.原始变量组内相关性检验进行典型相关分析时,既要求原始变量组内存在一定相关性,但是又不能存在高度的多重共线性。为此,典型相关分析适用性的检验,首先是从原始变量组内相关性检验开始的。具体包括:(1)原始变量组内存在一定相关性的假设检验。检验的方法可以借鉴主成分分析适用性的检验方法,运用巴特莱特球性检验来进行。巴特莱特球性检验是从原始数据整个相关矩阵出发进行的检验,检验的原假设是相关矩阵为单位矩阵,如果不能拒绝原假设,说明原始变量之间相互独立,不适合进行典型相关分析。事实上,如果原始数据的相关矩阵是一个单位矩阵,各个原始变量之间互不相关,这时进行典型相关分析,则得到和原始变量个数一样的典型变量,而且典型变量就是各原始变量自身,显然是不适合进行典型相关分析的。(2)原始变量组内变量高度多重共线性的检验。典型相关分析要求原始变量组内要存在一定的相关性,但同时又要求原始变量之间不能有高度的多重共线性,否则也将不能产生典型变量,导致不能进行典型相关分析。检验原始变量组内是否存在高度的多重共线性,可以采用如下的检验方法:可决系数和方差膨胀因子法15。对于每组变量,分别以其中的每个变量为被解释变量(因变量),其他变量为解释变量做回归,用R2j表示任意xj为被解释变量,其他变量为解释变量做线性回归的可决系数,由于R2j度量了xj与其他解释变量的线性相关程度,这种相关程度越强,说明变量间多重共线性越严重,反之,xj与其他变量的线性相关程度越弱,说明变量间的多重共线性越弱。病态指数法。根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而当行列式|XX|0时,矩阵XX至少有一个特征根近似于零。反之,可以证明,当矩阵XX至少有一个特征根近似为零时,X必存在多重共线性。多重共线性的程度常常用病态指数来衡量。 为特征根的病态指数,其中,这里的Km是XX的最大特征根。病态指数度量了矩阵XX的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。一般认为,0CI10时,认为X没有多重共线性;10CI100时,认为X存在较强的多重共线性;当CI100时,则认为存在严重的多重共线性。 除上述外,还可以根据简单相关系数矩阵来判断原始变量内部是否存在严重多种共线性。一般而言,如果每两个解释变量的简单相关系数比较高,如大于019,则可认为存在着较严重的多重共线性。2.原始变量组间线性相关性检验 典型相关分析中,原始变量总体Z中的两组变量X,Y如果不相关,即COV(X,Y)=212=0,则有关两组变量典型相关的讨论以及典型相关系数的计算就毫无意义了。原始变量组间相关性检验,即是典型相关分析适用性的检验,同时又是对典型相关系数的整体检验。所谓整体检验是同时检验所有的典型相关系数看是否有一个是显著的。 3.典型相关系数的显著性检验计算典型相关系数是典型相关分析中最重要的环节,但是并不是所有求出的典型相关系数都是显著相关的,这就必须要对典型相关系数的显著性进行检验。典型相关系数的本质上是两组原始变量中所提取的典型变量之间的相关,并不是两组原始变量之间的相关,典型相关系数是有多个维度的。所以典型相关系数检验采取的是维度递减检验,即从第一个典型相关系数的显著性检验开始,然后是第二、第三,一直到所有的各典型相关系数的显著性检验。这种维度递减检验实际是对部分总体典型相关系数为0的假设进行检验,仍然是一种多元检验。检验的原假设是,H(r)0:Kr=0(r=2,3,m,m=min(p,q),备择假设H1:至少一个典型相关系数。维度递减检验具体有两种做法:一是采用巴特莱特大样本的V2检验,一是采用近似的F检验16。七、对典型变量代表性的检验分析典型变量是由原始变量进行综合得到的,典型变量的代表性如何也关系着典型相关分析的效果好坏,因此还需要对典型变量代表性进行检验分析。典型变量代表性的检验分析是通过典型变量与原始变量的相关程度以及一组典型变量代表另一组原始变量的能力来反映的。即通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比。8、 应用举例在这里我们举例说明典型相关分析方法的应用,我们根据调查数据来分析家庭特征与家庭消费之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。 变量间的相关系数矩阵如下: 典型相关分析如下: 各组变量系数如下: 由表可以得出,两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入, u1和 v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。9、 典型相关分析方法注意事项因为典型相关分析可以看做是多元线性回归分析的延伸,有很多注意事项,在使用时应当注意以下几点: (1)对调查者想做出推断的总体来说,样本必需具有代表性。一个简单的随机样本就具有这种性质。如果做不到这一点,调查者至少应确保所选择的样本点包含了总体中能够发生的各种情况。如果人为地限制了样本的取值范围,会影响相关系数的估计结果。 (2)计量可靠性低的话,会导致X变量之间和Y变量之间的相关系数估计值偏低。(3)应该通过绘制变量序对的直方图和散点图找出离群点。(4)调查者应该核对的一点是,典型相关系数要足够大到值得考察这些系数的程度。尤为重要的是,这个相关系数不是只因为一个因变量和一个自变量。应该考察方差的比例,如果比例小的话,减少模型中变量的个数可能是合理的。(5)如果样本量足够大,建议将样本分拆,对拆成两半的两个样本分别做典型相关分析,再把结果进行比较,看看结果是否类似。(6)如果典型相关系数和典型变量载荷差异相当大(即如果它们符号不同),那么,应该对两者都进行认真考察,以帮助解释结果。与解释第一个典型相关变数相比,第二或第三个典型相关变数的解释更困难。要求以后陆续得出的变量线性组合与已获得的线性组合相独立,这个条件对结果所施加的限制可能难于理解。(7)关于典型相关的假设检验,是以X变量和Y变量的联合分布是多元正态分布为前提的17。如果要研究需要报告这种检验,就应该检查这个假设。(8)因为典型相关既用到X变量集合,也用到Y变量集合,分析中包含的变量总数可能会相当多。这可能会使因缺失值而没用上很多样本点的问题变得严重起来。此时,要么需认真选择变量,要么需要利用推算技术。,来反映典型变量与原始变量的相关程度。参考文献:1 王正群,孙兴华,郭丽等.基于 Fisher准则的多特征融合J. 计算机工程, 2002, 28(3): 41-42.2 孙权森,曾生根,王平安等.典型相关分析的理论及其在特征融合中的应川 J .计算机学报,2005,28( 9) :1524.1533.3 陈拓,蔡惠智.采用典型相关分析实现主动声纳直达波干扰抑制叨应用声学,2012,2( 31):130一134.4 王磊,史亚,姬红兵.基于多集典型相关分析的雷达辐射源指纹识别 J ,西安电子科技人学学报,2013( 2):164,171.5 张洁玉,陈强,白小晶等基于广义典型相关分析的仿射不变特征提取方法 J 电子与信息学报,2009,31( 10) :246524696 TaeKyun Kim,KwanYee Kenne kenneth WongTensor Canonical Correlation Analysis for Action Classification J Computer Vision and Pattern Recognition,2007,33:l-87 Heungsun Hwang,Kwanghee Jung Br J Mam Stat Psychol,2103,66( 2) :308-3218 Raul Cruzcano,Mei -Li ng,Ting LeeFast regularized canonical analysi s J .

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论