应用多元统计分析-第九章 典型相关分析.ppt_第1页
应用多元统计分析-第九章 典型相关分析.ppt_第2页
应用多元统计分析-第九章 典型相关分析.ppt_第3页
应用多元统计分析-第九章 典型相关分析.ppt_第4页
应用多元统计分析-第九章 典型相关分析.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

典型相关分析 第九章 典型相关分析 两组变量的相关问题 我们知道如何衡量两个变量之间是否相关的问题 这是一个简单的公式就可以解决的问题 Pearson相关系数 Kendall st Spearman秩相关系数 如果我们有两组变量 如何表明它们之间的关系呢 例9 1 数据tv sav 例如 业内人士和观众对于一些电视节目的观点有什么样的关系呢 数据tv sav是不同的人群对30个电视节目所作的平均评分 观众评分来自低学历 led 高学历 hed 和网络 net 调查三种 它们形成第一组变量 而业内人士分评分来自包括演员和导演在内的艺术家 arti 发行 com 与业内各部门主管 man 三种 形成第二组变量 人们对这样两组变量之间的关系感到兴趣 第一组变量 观众 第二组变量 业内人士 低学历 高学历 网络 主管 发行人 艺术家 典型相关 如何进行典型相关 如果直接对这六个变量的相关进行两两分析 很难得到关于这两组变量之间关系的一个清楚的印象 希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关 现在的问题是为每一组变量选取一个综合变量作为代表 而一组变量最简单的综合形式就是该组变量的线性组合 如何进行典型相关 由于一组变量可以有无数种线性组合 线性组合由相应的系数确定 因此必须找到既有意义又可以确定的线性组合 典型相关分析 canonicalcorrelationanalysis 就是要找到这两组变量线性组合的系数 使得这两个由线性组合生成的变量 和其他线性组合相比 之间的相关系数最大 XV1V2 Vd YW1W2 Wd x1 x2 xi y1 y2 yj cr1 cr2 crd d min i j V1 a0 a1x1 aixi W1 b0 b1y1 bjyj 建立第一对典型变量 函数 的原则 尽量使所建的两个典型变量之间的相关系数最大化 就是在两个变量组各自的总变化中先寻求他们之间最大的一部分共变关系 并用一对典型变量所描述 因而 第一维度上的典型相关系数也随之求的 建立第二对典型变量 函数 的原则 继续在两组变量剩余的变化中寻找第二个最大的共变部分 形成第二对典型变量 并解出第二维度上的典型相关系数 依此类推 直至所有变化部分被剥离完毕 典型相关分析原理及方法 设有两组随机向量 典型相关分析原理及方法 典型相关分析原理及方法 根据典型相关分析的基本思想 要进行两组随机向量间的相关分析 首先要计算出各组变量的线性组合 典型变量 并使其相关系数达到最大 因此 我们设两组变量的线性组合分别为 典型相关分析原理及方法 显见 典型相关分析原理及方法 我们希望寻找使相关系数达到最大的向量a与b 由于随机向量乘以常数时并不改变他们的相关系数 所以 为防止结果的重复出现 令 那么 这样就成为求使上式达到最大的系数向量a与b 典型相关系数 这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题 而所得的特征值与V和W的典型相关系数有直接联系 由于特征值问题的特点 实际上找到的是多组典型变量 V1 W1 V2 W2 其中V1和W1最相关 而V2和W2次之等等 而且V1 V2 V3 之间及而且W1 W2 W3 之间互不相关 这样又出现了选择多少组典型变量 V W 的问题了 实际上 只要选择特征值累积总贡献占主要部分的那些即可 注意 严格地说 一个典型相关系数描述的只是一对典型变量之间的相关 而不是两个变量组之间的相关 而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式 典型相关模型的基本假设和数据要求 要求两组变量之间为线性关系 即每对典型变量之间为线性关系 每个典型变量与本组所有观测变量的关系也是线性关系 如果不是线性关系 可先线性化 如经济水平和收入水平与其他一些社会发展水之间并不是线性关系 可先取对数 即log经济水平 log收入水平 典型相关模型的基本假设和数据要求 所有观测变量为定量数据 同时也可将定性数据按照一定形式设为虚拟变量后 再放入典型相关模型中进行分析 检验假设 典型相关分析说明 下面就tv sav数据进行典型相关分析的说明 头两对典型变量 V W 的累积特征根已经占了总量的99 427 它们的典型相关系数也都在0 95之上 典型相关系数的平方 与简单相关系数一样 典型相关系数的实际意义并不十分明确 所以 由经验的研究人员往往更愿意采用典型相关系数的平方 相当于回归分析中的确定系数 由于相关涉及的两个典型变量都是标准化的 所以双方的方差都等于1 典型相关系数的平方的实际意义是一对典型变量之间的共享方差在两个典型变量各自方差中的比例 典型相关系数的检验 整体检验 典型相关系数的检验 维度递减检验 仍然是一种多元检验 但可以提供每对典型变量的典型相关是否显著的信息 典型系数 下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1 V2和V3的系数 即典型系数 canonicalcoefficient 注意 SPSS把第一组变量称为因变量 dependentvariables 而把第二组称为协变量 covariates 显然 这两组变量是完全对称的 这种命名仅仅是为了叙述方便 典型系数 这些系数以两种方式给出 一种是没有标准化的原始变量的线性组合的典型系数 rawcanonicalcoefficient 一种是标准化之后的典型系数 standardizedcanonicalcoefficient 标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象 典型系数 可以看出 头一个典型变量V1相应于前面第一个 也是最重要的 特征值 主要代表高学历变量hed 而相应于前面第二个 次要的 特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net 但高学历变量在这里起负面作用 典型系数 类似地 也可以得到被称为协变量 covariate 的标准化的第二组变量的相应于头三个特征值得三个典型变量W1 W2和W2的系数 典型负载 相关 系数 也称为因变量或协变量与典型变量之间的两两相关系数 例子结论 从这两个表中可以看出 V1主要和变量hed相关 而V2主要和led及net相关 W1主要和变量arti及man相关 而W2主要和com相关 这和它们的典型系数是一致的 由于V1和W1最相关 这说明V1所代表的高学历观众和W1所主要代表的艺术家 arti 及各部门经理 man 观点相关 而由于V2和W2也相关 这说明V2所代表的低学历 led 及以年轻人为主的网民 net 观众和W2所主要代表的看重经济效益的发行人 com 观点相关 但远远不如V1和W1的相关那么显著 根据特征值的贡献率 相关分析的冗余分析 主要说明典型变量对各组观测变量总方差的代表比例和解释比例 相关分析的冗余分析 其中 DE 因变量组CO 协变量组 相关分析的冗余分析 解释比例 代表比例 典型相关系数的平方对于因变量则有 VarCO VarDE Sq Cor41 078 41 455 0 991所以典型相关系数高时 并不说明典型变量对观测组变量的解释程度高 代表程度高 相关分析的冗余分析 通过不同观察变量组的代表比例和解释比例相乘 可以得到因变量组总方差与协变量组总方差的共享比例 即 因变量组的VarDE 协变量组的VarDE或 因变量组的VarCO 协变量组的VarCO两个变量组的共享方差 相关分析的冗余分析 第一典型相关的共享方差为 0 41078 0 72349 0 29720 29 720 第二典型相关的共享方差为 0 43353 0 24575 0 10354 10 654 第三典型相关的共享方差为 0 04384 0 03076 0 00135 0 135 SPSS的实现 首先打开SPSS数据tv sav 通过File New Date Syntax打开一个空白文件 默认文件名为Syntax1 sps 再在其中键入下面命令行 MANOVAledhednetWITHarticomman DISCRIMALLALPHA 1 PRINT SIG EIGENDIM 再点击Run 就可以得到所需结果了 还可以把Syntax1 sps另以其他名字 比如tv sps 存入一个文件夹 下次使用时就可以通过File Open Syntax来打开这个文件了 例12 2 科技经费投入 sav 我国科技市场产出情况与R D经费支出变量的典型相关分析 科学技术是第一生产力 近几年来 我国在科研方面的投入不断增加 国家的研究与试验发展 R D 经费内部支出到2001年已达到8956 6亿元 那么 科技市场的产出情况是否与经费投入密切相关 各种类型的经费投入对科技市场的发展具体有怎样的影响 通过对R D各种项目的支出变量与科技市场在某些方面的产出变量做典型相关分析 找出两者之间的联系 数据说明 R D经费投入变量包括三个 基础研究的R D经费支出 应用研究的R D经费支出和试验发展的R D经费支出 协变量 科技市场产出变量也选择了三个 分别为 新产品产值 专利授予量和科技市场成交额 因变量 资料来源于2002年 统计年鉴 使用SPSS进行典型相关分析 使用MANOVA进行典型相关分析 程序命令如下 syntax manova12 2 MANOVAxchzhlchjWITHjchyyshy DISCRIMALLALPHA 1 PRINT SIG EIGENDIM 主要结果的解释 MultivariateTestsofSignificance S 3 M 1 2 N 81 2 主要结果的解释 EigenvaluesandCanonicalCorrelations 维度递减检验 StandardizedcanonicalcoefficientsforDEPENDENTvariables 可以得到典型变量V1 V2和V3对于标准化的变量xch zhl chj的表示式 由前所示 前两对典型变量的累积百分比已达到98 868 所以我们主要看V1和V2的表达式 V1 0 003xch 0 593zhl 0 566chjV2 0 261xch 0 834zhl 0 948chj CorrelationsbetweenDEPENDENTandcanonicalvariables 从典型变量与科技投入变量组的相关系数也能看出 V1主要代表专利授予量和科技市场成交量指标 StandardizedcanonicalcoefficientsforCOVARIATESvariables 典型变量W1 W2对科技投入组各变量的关系 W1 0 370jch 0 350yy 1 006shyW2 0 334jch 1 092yy 1 034shy CorrelationsbetweenCOVARIATESandcanonicalvariables 从W1 W2和各投入变量的相关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论