第八讲 对应分析.ppt_第1页
第八讲 对应分析.ppt_第2页
第八讲 对应分析.ppt_第3页
第八讲 对应分析.ppt_第4页
第八讲 对应分析.ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十讲对应分析 COrrespOndenceAnalysis 行变量和列变量的关系 对应分析 行变量和列变量的关系 对应分析 在因子分析中 或者对变量 列中的变量 进行分析 或者对样品 观测值或行中的变量 进行分析 而且常常把每一种分析结果画出载荷图来看各个变量之间的接近程度 典型相关分析也只研究列中两组变量之间的关系 然而 在很多情况下 所关心的不仅仅是行或列本身变量之间的关系 而是行变量和列变量的相互关系 这就是因子分析等方法所没有说明的了 让我们先看一个例子 在研究读写汉字能力与数学的关系的研究时 人们取得了232个美国亚裔学生的数学成绩和汉字读写能力的数据 关于汉字读写能力的变量有三个水平 纯汉字 意味着可以完全自由使用纯汉字读写 半汉字 意味着读写中只有部分汉字 比如日文 纯英文 意味着只能够读写英文而不会汉字 而数学成绩有4个水平 A B C F 这里只选取亚裔学生是为了消除文化差异所造成的影响 这项研究是为了考察汉字具有的抽象图形符号的特性能否会促进儿童空间和抽象思维能力 SPSS软件把该数据以列联表形式展示在下表中 例1 行变量和列变量的关系 对应分析 人们可以对这个列联表进行前面所说的 2检验来考察行变量和列变量是否独立 结果在下面表中 通过SPSS选项Analyze DescriptiveStatistics Crosstabs 行变量和列变量的关系 对应分析 由于所有的检验都很显著 看来两个变量的确不独立 但是如何用像因子分析的载荷图那样的直观方法来展示这两个变量各个水平之间的关系呢 这就是本章要介绍的对应分析 correspondenceanalysis 方法 对应分析方法被普遍认为是探索性数据分析的内容 因此 只要能够会用数据画出描述性的点图 并能够理解图中包含的信息即可 如例1数据经过对应分析的计算和结果可以表示为下面的图形 首先看例1数据的对应分析结果的一个主要SPSS展示 图1 然后再解释该图的来源和意义 图1对于汉字和数学能力关系 例1 的对应分析点图 图1体现了 运用纯汉字的点和最好的数学成绩A最接近 而不会汉字只会英文的点与最差的数学成绩F 虽然在纵坐标稍有差距 最接近 用部分汉字的和数学成绩B接近 该图非常直观地展示了单独用 2检验所无法看出的关系 第一节问题的提出 因子分析分为R型和Q型 寻找变量的公因子就采用R型 寻找样品的公因子就采用Q型 R型是从变量的相关系数矩阵 或协方差阵 出发 Q型是从样品的相似矩阵出发 在因子分析中把R型和Q型互相割裂单独进行 有些问题只作R型分析 有些只作Q型分析 即使有些问题同时作了两种分析 在解释时也无法将它们有机地联系起来 第一节问题的提出 然而变量和样品是分不开的 我们要通过样品来获得变量的观测值 反之又要通过变量值来对样品进行刻画和解释 即变量之间的关系只有通过样品来体现 样品的特征和相似性又必须通过变量来刻画 这说明R型分析与Q型分析是不可分割的 此外 一般在实际的问题中 所取的样品数目远远地大于变量的数目 这样给Q型因子分析带来计算上的困难 譬如有150个样品 每个样品分析10个变量 如果采用主成分法对载荷矩阵进行估计作R型因子分析时只须计算10X10阶的变量相关系数矩阵的特征根和特征向量 而Q型因子分析则要计算150X150阶的样品相似矩阵的特征根和特征向量 这个计算量是十分可观的 除了上述原因 在因子分析中还存在这样的问题 为了能够将量纲不同的变量进行比较 往往对变量进行标准化处理 然而这种标准化只能对变量进行 对样品则无从谈标准化 所以标准化对变量和样品是非对等的 这也给R型和Q型因子分析之间的联系带来障碍 针对以上问题 1970年法国统计学家Beozecri 贝尔斯凯 提出了对应分析方法 也称相应分析 它综合了R型和Q型因子分析的优点 并将它们统一起来使得由R型的分析结果很容易得到Q型的分析结果 这就克服了Q型分析计算量大的困难 更重要的是可以把变量和样品的载荷反映在相同的公因子轴上 这样就把变量和样品联系起来便于解释和推断 例如在气象问题中研究各种气象因素和样品类型的关系时 如果我们用头两个因子轴作一个坐标系 将变量和样品的载荷同时在坐标系上点图 相邻近的样品点属于同一类型 而这一类型附近的变量点可以解释这一类样品的成因 这对于了解气象过程是很有益的 在地质问题中也常常需要用这种方法来解释地质作用或过程 从以上的讨论可知 对应分析的关键所在是使R型和Q型分析中变量点和样品点的载荷能反映在相同的公因子轴上 这就要求从R型的相关系数矩阵出发与从Q型分析的相似矩阵出发 导出的非零特征根应该相同 这些特征根正是各自公因子提供的方差贡献 因此我们可以用相同的因子轴去同时表示变量与样品 第二节对应分析的原理和方法 因此 一般A和A 的非零特征根并不一样 能否把数据阵X作一变换 成为Z 使得Z Z和ZZ 能起到A和A 作用 由于Z Z和ZZ 有相同的非零特征根 它们相应的特征向量也有密切的关系 在计算时可带来许多方便 1970年 Beozecri 贝尔斯凯 提出了相应分析的方法 给出了上述求Z的方法 并且将变量和样品的主成分点在同一张图上 使得问题的分析带来许多方便 下面首先介绍如何从原始数据阵X转化为Z阵 用xi x i和x 分别表示X的行和 列和与总和 在列联表中 上述两种形象在分析问题时是十分有用的 例如 考察某一文章中各种词汇出现的次数 词汇分如下种类 的结果 另外A与B具有相同的非零特征根 注意到特征根是对应的公因子所提供的方差贡献这一事实 那么就可用相同的公因子轴去表示变量和样品 第三节对应分析的计算步骤 将第二节中讨论的具体实施步骤归纳如下 第四节应用实例 例10 4 1长江中下游6月份旱涝的对应分析 样本数n 29 变量有5个 它们是 x1 9月份亚洲地区经向环流指数 x2 1月份亚欧地区月平均经向环流指数 x3 10月份85oN 150oE一170oW五点500mpa月平均高度的平均值减500gpdm x4 长江中下游10月份降水量 x5 12月份50oN 180oE一160oW三点500mPda月平均高度的平均值减500gpdm 原始资料矩阵X xij 29x5 从略 例10 4 2表10 4 4列出了1985年夏季 瑞士苏黎士高等理工学院的注册学生人数 第一列是各系的名称 第一个字母是 S 的表示大学生 是 D 的表示博士研究生 如第一个SARC表示建筑系大学生 最后一个DNAT表示自然科学系博土研究生 其各名称代号含意如下 ARC 建筑系 BAU 建筑工程系 MAS 机械工程系 ELE 电工系 INF 电子计算机系 WER 纺织系 CHE 化学系 PHA 药学系 FOR 森林系 LAN 农经系 KUL 农艺系 MAT 数学与物理系 NAT 自然科学系 TUR 体系系 MIL 军事科学系 由于Z阵的行和为1 故Z Z的非零特征根最多为p 1个 它们列于表10 4 5 前两个主成分的累计贡献率已达96 93 仅取两个主成分已够了 在针对这个案例的对应分析中 我们所感兴趣的是行变量 品牌名称和列变量 产品名称的类之间的关系 因此选择使用对称标准化方法 为从上图中直观地检验行 列变量各类之间的关系 只要从坐标轴原点向每个列变量 产品名称 的点作一条直线 然后从行变量 品牌名称 的点向这些直线作垂线 投影 两条直线的交点到列变量的点之间的距离就表示两个变量的类之间的相关程度 这个距离越近 表示两个变量的这个类之间的关系越紧密 根据这一判定原则 在上图中聚得比较近的变量的类分别为 雪源 和 雪糕 玉泉 美纯 和 纯水 波澜 和 洗衣机 期望 和 保健食品 天山绿 和 毛毯 这表明这些类之间具有相似性 也就是说 当消费者听到这些品牌名称时会联想到这些产品名称 该企业原本计划使用 波澜 作为其生产的纯水的品牌 经过调查 我们发现 在消费者心目中 波澜 使更多人联想到的是洗衣机 可见 波澜 并不是一个好的纯水品牌 而 玉泉 美纯 这两个品牌与消费者心目中的纯水晶牌更为接近 以上我们通过对行变量 品牌名称 和列变量 产品名称 做对应分析所获得的结论 与在本文开始我们使用交互分析所得到的结果完全一致 在品牌测试这个案例中 交互分析与对应分析两种分析方法取得了异曲同工的效果 此外 使用对应分析方法 我们还可以得到非常简单明了的图示 1 对应分析方法 处理列联表的问题仅仅是对应分析的一个特例 一般地 对应分析也常规地处理连续变量的数据矩阵 这些数据具有如在主成分分析 因子分析 聚类分析时所处理的数据形式 在连续变量的情况 行或列就是一组变量 而不是一些水平了 虽然对不同数据类型所产生结果的解释有所不同 数学的原理是一样的 在对应分析中 我们可以找到行和列的若干有意义的代表 分别称为行记分 rowscore 和列记分 columnscore 它们互为对方的加权均值 而且它们之间有不同程度的相关 这些概念的数学意义会在14 2 2节给出 我们将选择最相关的两三个行和列记分 如果选择两个 则可以对行和列画出两个二维散点图 再重叠放到一起比较 如图14 1 并以此来直观地显示各行变量和各列变量之间的关系 为了得到最直观的叠加的二维散点图 一般选择两对行列记分 最多不超过三维 选择的维数的代表性主要看它们的惯量所占的百分比 比如下表中第一对变量的惯量占93 9 但为了画直观的二维图 再选惯量只占6 1 的第二对行列记分 当然 对于这个例子 行列关系主要由第一维来说明 根据SPSS对数据ChMath sav的计算 首先得到一系列表格 其中第一个就是下面的各维的汇总表 表中给出了行与列记分之间的关系 我们要根据表中惯量 inertia 的累积比例来确定选择的行列记分对子的个数 选择多少就涉及几维 为了画出散点图 就至少要选择两维了 为了理解该表 需要引入表中一些SPSS中使用的术语 这些概念不必死记 只要能够弄明白应该选取几维即可 Inertia 惯量 为每一维到其重心的加权距离的平方 它度量行列关系的强度 SingularValue 奇异值 是惯量的平方根 反映了是行与列各水平在二维图中分量的相关程度 是对行与列进行因子分析产生的新的综合变量的典型相关系数 ChiSquare 就是关于列联表行列独立性c2检验的c2统计量的值 和前面表中的相同 其后面的Sig为在行列独立的零假设下的p 值 注释表明自由度为 4 1 3 1 6 Sig 值很小说明列联表的行与列之间有较强的相关性 ProportionofInertia 惯量比例 是各维度 公因子 分别解释总惯量的比例及累计百分比 类似于因子分析中公因子解释能力的说明 从该表可以看出 由于第一维的惯量比例占了总比例的93 9 因此 其他维的重要性可以忽略 虽然画图时需要两维 但主要看第一维 即横坐标的大小 在SPSS的输出中还有另外两个表分别给出了画图14 1两个叠加的散点图所需要的两套坐标 下面是给出图14 1中相应于数据中行变量 关于汉字使用 点坐标的表 该表给出了图14 1的三个汉字使用点的坐标 标有ScoreinDimension的列 纯汉字 897 240 半汉字 102 491 纯英文 970 338 SPSS输出中还给出了图14 1的四个数学成绩点的坐标 下表标有ScoreinDimension的列 数学A 693 345 数学B 340 438 数学C 928 203 数学C 1 140 479 这两个表中的概念也不必记 其中Mass为行与列的边缘概率 ScoreinDimension是各维度的分值 二维图中的坐标 Inertia 就是前面所提到的惯量 为每一行 列到其重心的加权距离的平方 8 2小结 8 2 1使用软件解本章例题的说明现在将通过例1数据 ChMath sav 对如何使用软件进行说明 打开ChMath sav数据 其形式和本章开始的列联表有些不同 其中ch列代表汉字使用的三个水平 而math列代表数学成绩的四个水平 第一列count实际上是ch和math两个变量各个水平组合的出现数目 也就是列联表中间的数目 由于count把很大的本应有232行的原始数据简化成只有12行的汇总数据 在进行计算之前必须进行加权 也就是点击图标中的小天平 再按照count加权即可 加权之后 选择Analyze DataReduction CorrespondenceAnalysis 然后把 汉字使用 选入Row 行 再点击DefineRange来定义其范围为1 Minimumvalue 到3 Maximumvalue 之后点击Update 类似地 点击Continue之后 把 数学成绩 选入Column 列 并以同样方式定义其范围为1到4 由于其他选项可以用默认值 就可以直接点击OK来运行了 这样就得到上述表格和点图 图14 1 SAS 只有编程 这里第一行为数据输入 后面是使用模块 datachmath infile D chmath txt inputcountChinese Math run proccorrespalldata chmathoutc Coor tablesChineseMath weightcount run plotit data Coor datatype corresp 这是画图用的 8 2 2本章的概括和公式 本章主要介绍了对应分析能够提供什么信息 以及如何利用软件选择显著的维数和在一张图中画出反映行变量及列变量的双重散点图 前面讲因子分析时 对变量和对样品分别对待 对应分析把变量和样本同时反映到相同坐标轴 因子轴 的一张图形上 那么 按照纯数学的语言 什么是对应分析呢 假定我们的数据矩阵为n p矩阵A aij 或者说有n个观测值 行变量 和p个变量 为了要把行变量和列变量关联起来 将用两个向量来代表行和列变量 分别称为行记分 rowscore 和列记分 columnscore 令行记分为一个n维向量x xi 而列记分为一个p维向量y yj 那么我们称由一个标量和两个向量组成的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论