典型相关分析_第1页
典型相关分析_第2页
典型相关分析_第3页
典型相关分析_第4页
典型相关分析_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学,从数据到结论,第1.3章的典型相关性分析,关于第13.1组变量的问题,我们知道两个变量之间的相关性如何测量有木有,这是可以用简单的公式解决的问题(皮尔逊相关系数,肯德尔t,Spearman秩相关系数)。 如果表达式有两个变量,我们可以如何表示它们之间的关系呢? 例(数据tv.txt ),行业知情人员和观众对于电视节目的观点有什么关系呢? 这份数据是不同人群对3.0电视节目所进行的平均评价。 观众的评价从低学历(led )、高学历(hed )、网际网络(net ) 3种来看,形成第一组变量的行业知情人员对包括演员和导演在内的艺术工作者(arti )、发行(com )和行业相关部门的主管(

2、man ) 3种进行评分,形成第二组变量。 人们对这两个变量的关系感兴趣。 如果寻找代表,直接对这6个变量的相关进行2个分析,则很难对这2个变量的关系得到清晰的印象。 我们想使多个变量和多个变量之间的相关性成为两个变量之间的相关性。 目前的问题是,在每个变量的定径套中选择一个综合变量作为代表。组变量最简单的综合形式是该组变量的线性组合。 在13.2典型的相关性分析中,因为变量集合可以具有无数线性组合(线性组合由对应的系数决定),所以必须找到能被确定为有意义的云同步的线性组合。 典型的相关性分析是找到两个变量的线性组合的系数,以使得两个线性组合所生成的变量之间的相关系数最大化。 假设典型变量、两

3、组变量是X1、X2、Xp和Y1、Y2、QQ,则问题是系数a1、a2、ap和b1、b2、bq与新的统一变量(也称为典型变量)之间的相关关系是最大的。 该相关关系采用典型的相关系数(canonicalcorrelationcoefficient )进行了测量。 典型的相关系数,这里所涉及的主要数学工具是矩阵的特征量和特征向量问题。 所得特征值与v和w的典型相关系数有直接关系。 从特征量问题的特征上,实际发现的是典型的相关系数,诸如多组典型的变量(V1,W1)、(V2,W2)、其中V1与W1最相关,V2与W2依次相关,以及V1、V2、V3、区间以及W1、W2、W3之间的差异是彼此相关的由此,产生了选

4、择几个典型的变量(v,w )的问题。 实际上,可以选择特征值累积总贡献占据主要部分的那些。 软件输出几个检查结果,因此只选择显着的(v,w )。 对于实际的问题,要看所选的是否能说明意义有木有、问题。 就可得到(v,w )的计算来说,简单地,接下来就tv.txt数据进行分析。 数学原理? 计算结果,第一表是判断这两组变量的相关性的几个检验,包括Pillai跟踪检验、Hotelling-Lawley跟踪检验、Wilks l检验和Roy的最大根检验,都是具有两个自由度的f检验。 此表列出了每个检查的f值、两个自由度和p值(均为0.000 )。 计算结果显示了特征根、特征根所占的比例(Pct )、累

5、积比例(Cum. Pct )、典型的相关系数(Canon Cor )及其平方(Sq. Cor )。 乍一看,前两组典型变量(v,w )的累积特征根据已经占总量的99.427%。 这些个的典型相关系数也在0.95以上。 选择并介绍了计算结果和许多计算机输出。 下表列出了三个典型的变量V1、V2、V3的系数,即,典型的系数,其中,初始变量定径套对应于三个上述特征的根。 SPSS在留心上,第一组的变量被称为依赖性变量,第二组称为协同变量,显然这两个变量是完全对称的。 这个命名只是为了便于说明。这些个的系数由两种方法给出,一种是未标准化原始变量的线性组合的典型系数,以及一种是标准化之后的典型系数。st

6、andardizedcanonical coefficient。 标准化的典型系数直观上给典型变量的配置留下更清晰的印象。 第一个典型变量V1与前面的第一个(最重要的)特征值相对应,可以看出主要表示高学历变量hed,而与前面的第二个(次要)特征值相对应的第二个典型变量V2主要表示低学历变量led和一些网络人变量net,然而高学历变量在此被排除在外。 计算结果也可以获得与第二组变量的前三个特征(被称为协同变量)相对应的三个代表变量W1、W2、W2的系数。 从上面的两个表中可以看出,W1主要与变量arti和man相关,W2主要与com相关,W1是变量hed的主要相关,而W2主要与led和net相关

7、,这符合它们的典型系数。 由于V1与W1最为关联,以V1为代表的高学历观众、以W1为代表的艺术工作者(arti )和表示各部门的经管人(man )的视点有关联的V2与W2也有关联,因此以V2为代表的低学历(led )和以后生子为中心的网络人(net )的视差成为可能。SPSS的实现,在示例tv.sav中,首先打开示例14.1的SPSS数据tv.sav,在FileNewSyntax中打开空白对照文件(默认奥尔特的文件名为Syntax1.sps ),然后在其中输入以下命令行: manovale discrimallalpha (1)/print=SIG (eiyendim ) .再喀呖声右边的三角

8、形图标(运行当前的计程仪程序,Run current )可得到所需的结果。 Syntax1.sps也可以用其他名称(如tv.sps )保存到文件夹中。 下次使用时,可以在FileOpenSyntax中打开此文件。SPSS的实现、注意1 :典型的相关性分析是本书的内容中不能喀呖声SPSS的鼠标的“笨蛋”方式,必须通过写柱行来执行的模型。 读者不需要研究语法的细节,应用这个例子的过程即可。 当然,如果读者想学习SPSS语法,在处理数据时一定会更方便。SPSS的实现、注意2 :如果SPSS的输出长,则输出窗口不显示被截断的内容。 此时,在输出窗口中,在结果的左下犄角旮旯处具有红色三角形。 想看所有的

9、内容的情况下,首先喀呖声鼠标左键选择输出结果,从点右键显示的菜单中选择Export,这样就能把所有的结果(包括被截断的部分)保存到htm形式的文件中,有助于研究和打印。另外,对于两个变量的情况,利用线性相关系数来研究两个变量之间的线性相关:现在来研究典型的相关性分析,目标:是新变量U=lX(1),它能够利用主成分思想,将多个变量和多个变量之间的相关性改变成两个变量之间的相关性具有最大可能的相关性,数学:设置了两组随机变量,其中在将色散阵列S0、平均向量m=0和s的截面划分为:之前的新变量U=lX(1)和v=MX (2) var (u )=var (LX (1) )=ls11 lvar (v )

10、=var V)=lS12m,对于rUV=lS12m/(lS11l)(mS22m ),用约束Var(U)=1 Var(V)=1求出l和m,使rUV=Cov(U,V)=lS12m成为最大通过得到,l2既是a也是b的特征量,对应的特征向量是l、m即p-1对线性组合Ui=l(i)X(1), 例如,可以获得Vi=m(i)X(2),将各对变量称为代表变量,将其极大值称为第一代表相关系数,一般,仅取影响大的代表变量和代表相关系数进行分析(3) A和b的特征根都在0和1之间。我们认为,与被称为这些个的代表性的相关系数的零以外的特征量对应的特征向量,代表性的变量的性质: (1)X(1)和X(2)的所有代表性的变量和X(2)的同一对代表性变量Ui和Vi的相关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论