SAS软件与统计应用教程ch7——典型相关与对应分析.ppt

上传人：灯*** IP属地：河北上传时间：2020-02-10 格式：PPT 页数：90 大小：601.51KB 积分：15 举报 版权申诉

已阅读5页，还剩85页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第七章典型相关与对应分析 7 1典型相关分析7 2对应分析 7 1典型相关分析7 1 1典型相关分析的概念与步骤7 1 2用INSIGHT模块实现典型相关分析7 1 3用分析家实现典型相关分析7 1 4用CANCORR过程实现典型相关分析 7 1 1典型相关分析的概念与步骤1 典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息根据变量间的相关关系寻找少数几对综合变量实际观测变量的线性组合用它们替代原始观测变量从而将二组变量的关系集中到少数几对综合变量的关系上通过对这些综合变量之间相关性的分析回答两组原始变量间相关性的问题除了要求所提取的综合变量所含的信息量尽可能大以外提取时还要求第一对综合变量间的相关性最大第二对次之依次类推这些综合变量被称为典型变量或典则变量第1对典型变量间的相关系数则被称为第1典型相关系数典型相关系数能简单完整地描述两组变量间关系的指标当两个变量组均只有一个变量时典型相关系数即为简单相关系数当其中的一组只有一个变量时典型相关系数即为复相关系数 2 典型相关系数与典型相关变量设X X1 X2 Xp Y Y1 Y2 Yq 是两个随机向量利用主成分思想寻找第i对典型相关变量 Ui Vi Ui ai1X1 ai2X2 aipXp ai XVi bi1Y1 bi2Y2 biqYq bi Yi 1 2 m min p q 称ai 和bi 为第i对典型变量系数或典型权重记第一对典型相关变量间的典型相关系数为 CanR1 Corr U1 V1 使U1与V1间最大相关第二对典型相关变量间的典型相关系数为 CanR2 Corr U2 V2 与U1 V1无关使U2与V2间最大相关第m对典型相关变量间的典型相关系数为 CanRm Corr Um Vm 与U1 V1 Um 1 Vm 1无关 Um与Vm间最大相关 3 典型相关变量的性质各对典型相关变量所包括的相关信息互不交叉且满足 1 U1 U2 Um互不相关 V1 V2 Vm互不相关即其相关系数为 2 同一对典型相关变量Ui和Vi之间的相关系数为CanRi 不同对的典型相关变量之间互不相关即 3 Ui和Vi的均值为0 方差为1 i 1 m 4 1 CanR1 CanR2 CanRm 0 4 典型相关系数的求解步骤1 求X Y变量组的相关阵R 2 求矩阵A R11 1R12 R22 1R21和B R22 1R21 R11 1R12 可以证明A B有相同的非零特征值 3 求A或B的特征值 i与CanRi A或B的特征值即为典型相关系数的平方 i CanRi 2 i 1 m 4 求A B关于 i的特征向量设ai为A关于 i的特征向量 bi为B关于 i的特征向量则ai 和bi 为第i对典型变量系数即第i对典型相关变量 Ui Vi Ui ai X ai1X1 ai2X2 aipXp Vi bi Y bi1Y1 bi2Y2 biqYq i 1 2 m min p q 其中X Y 为原变量组的标准化 5 特征根特征根 eigenvalue 是方差分析和多元检验的基础特征根与典型相关系数之间的数量关系为上式可以理解为第i对典型变量表示观测变量总方差作用的指标它的值越大说明表示作用越大 6 典型相关系数的标准误7 典型相关系数的假设检验典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验对数据的要求 1 两个变量组均应服从多维正态分布 X Y Np q 2 2 n p q 1 全部总体典型相关系数为0H0 CanRi 0 i 1 mH1 至少有一个CanRi 0检验的似然比统计量为对于充分大的n 当H0成立时统计量近似服从自由度为pq的 2分布 2 部分总体典型相关系数为0仅对较小的典型相关作检验 H0 CanRi 0 i s m 2 s mH1 至少有一个CanRi 0其检验的统计量为对于充分大的n 当H0成立时统计量近似服从自由度为 p k q k 的 2分布 7 1 2用INSIGHT模块实现典型相关分析1 实例例7 1 1985年中国28省市城市男生 19 22岁的调查数据见表7 1 其中6项形态指标身高 cm 坐高体重 kg 胸围肩宽盆骨宽分别记为x1 x2 x6 5项机能指标脉搏次分收缩压 mmHg 舒张压变音舒张压消音肺活量 ml 分别记为y1 y2 y5 表7 1城市男生 19 22岁形态与机能调查数据设表中数据已经存放在数据集Mylib xtyjn中试分析形态指标和机能指标这两组变量间的相关性 2 分析设置在INSIGHT模块中打开数据集Mylib xtyjn 1 选择菜单 Analyze Multivariate YX 多元分析打开 Multivariate YX 对话框 2 将6项形态指标 x1至x6选为X变量将5项机能指标 y1至y5选为Y变量如图7 1左所示 3 单击 Output 按钮在打开的对话框中选中 CanonicalCorrelationAnalysis 典型相关分析复选框单击下面的 CanonicalCorrelationOptions 典型相关选项按钮打开 CanonicalCorrelationOptions 对话框并按下图右所示设置 4 三次单击 OK 按钮得到分析结果 3 结果分析 1 典型相关系数第1典型相关系数为0 939573 校正值为0 908276 标准误差为0 026207 典型相关系数的平方为0 882797 第2典型相关系数为0 877842 校正值为0 842459 标准误差为0 051294 典型相关系数的平方为0 770606 如图所示前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大 2 典型变量所解释的变异第二部分是的5个特征根 Eigenvalues 包括特征根相邻两个特征根之差特征根所占方差信息量的比例和累积方差信息量的比例从中可以看出前两对典型变量所能解释的变异占总变异方差的91 18 如图7 4所示其它三个典型相关变量的作用很小一共只解释了总变异的9 可以不予考虑 3 典型相关系数的检验用似然比法检验典型相关系数与零的差别是否显著其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0 其p值依次为0 0010 0 0509和0 5089等等如图7 5所示说明前两对典型相关系数基本具有显著意义在 0 0509的显著水平下因此两组变量相关性的研究可转化为研究前两对典型相关变量的相关性 4 典型相关结构典型相关结构下图分别是各组原始变量与典型变量两两之间的相关系数矩阵从相关系数判断形态指标中除x5 0 0514 x6 0 2433 外各变量与第一典型变量间的相关性都比较高机能指标中除y2 0 0975 外各变量与第一典型变量间的相关性也都比较高 x5与第二典型变量间的相关性比较高 y2与第二典型变量间的相关性比较高 y1与前两个典型变量的相关系数为负值说明第一对典型变量对肩宽x5和收缩压y2的解释作用不大另外从形态指标组的变量和机能指标组的典型变量之间以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见各组变量与前两对典型变量之间均有较强的相关 5 标准化变量的典型相关变量的系数输出结果中还给出标准化变量的典型变量系数如图所示来自机能指标的第一典型变量CY1为原始变量的右上角带表示为标准化变量 CY1 0 071672y1 0 789642y2 0 567178y3 0 508332y4 0 533496y5 容易看出 CY1主要代表了舒张压变音舒张压消音肺活量等指标来自形态指标的第一典型变量CX1为 CX1 0 4287x1 0 09696x2 0 16210 x3 0 93745x4 0 23498x5 0 18696x6 易知 CX1主要代表了胸围身高和肩宽等指标关于第二典型变量有 CY2 0 026533y1 1 213436y2 0 535038y3 0 186048y4 0 455870y5 CX2 0 70270 x1 0 39985x2 0 84359x3 0 99063x4 0 06829x5 0 48310 x6 可见 CY2代表了收缩压和肺活量等指标 CX2代表了身高体重盆骨宽等指标 6 典型冗余分析典型冗余分析 canonicalredundancyanalysis 表明两对典型变量仍不能全面预测配对的那组变量来自形态指标的标准方差被对方两个典型变量 CY1 CY2 解释的累积方差比例为55 86 来自机能指标的标准方差被对方两个典型变量 CX1 CX2 解释的累积方差比例为44 61 如图所示 7 1 3用分析家实现典型相关分析1 实例例7 2 某康复俱乐部对20名中年人测量了3项生理指标体重 weight 腰围 waist 脉搏 pulse 和3项运动指标引体向上 chins 起坐次数 situps 跳跃次数 jumps 其数据列于表7 2中表7 2某康复俱乐部测量的生理指标和运动指标设表中数据已经存放在数据集Mylib slzb中试分析生理指标和运动指标这两组变量间的相关性 2 分析设置1 在分析家中打开数据集Mylib slzb 2 选择菜单 Statistics 统计 Multivariate 多元分析 CanonicalCorrelation 典型相关分析打开 CanonicalCorrelation 对话框 3 在对话框中将生理指标选为Set1 运动指标选为Set2 如图所示 4 单击 Statistics 统计按钮打开 CanonicalCorrelation Statistics 对话框选中 Canonicalredundancystatistics 复选框并选择3个典型变量如图所示两次单击 OK 按钮得到计算结果 3 结果分析 1 典型相关系数及显著性检验第一部分的4列依次是典型相关系数校正的典型相关系数近似的标准误以及典型相关系数的平方从图7 10中可以看出本例提取了3个典型相关系数第一个典型相关系数CanR1 0 795608 其校正值为0 754056 标准误为0 084197 CanR12 0 632992 第一典型相关系数表示的是第一对典型相关变量之间的相关性第二个典型相关系数为0 200556 第三个为0 072570 第二部分是特征根以及相应的统计量如图所示可以看出第一对典型变量所能解释的变异已占总变异的97 34 其它两个典型相关变量的作用很小一共只解释了总变异的3 可以不予考虑右边4列给出对典型相关系数的检验结果表明第一行的F值2 05 p值为0 0635 在0 07的检验水平下应拒绝原假设认为第一相关系数以及比它小的两个相关系数不为0 后两行检验的p值都远大于显著水平0 05 故可以认为只有第一个典型相关系数不为0 第三部分输出的是用四种多元统计方法进行的所有典型相关系数均为0的F检验结果如图所示四种方法中一般参照Wilks Lambda检验的结果本例中的Wilks Lambda检验结果与前述完全一致表明至少有一个典型相关系数在 0 0635的显著水平下非0 2 典型变量系数与典型结构第四部分给出的是用原始变量表达的典型变量系数典型权重如图所示因6个变量没有使用相同单位进行测量因此考虑分析标准化后的系数第五部分给出的是用标准化变量对原始变量标准化表达的典型变量系数如图所示 V1 0 7754weight 1 5793waist 0 0591pulse 它近似地是waist 和weight 的加权差在waist 上权重更大些 V1在pulse 上系数近似为0 W1 0 3495chins 1 0540situps 0 7164jumps 它在situps 上的系数最大这一对典型变量主要是反映waist 和situps 的负相关关系第六部分为典型结构分别是各组原始变量与典型变量两两之间的相关系数矩阵如图所示可以看出在原始变量与本组的典型变量的相关关系典型载荷中生理指标的典型变量V1与腰围waist的相关系数最大 0 9254 说明这个典型变量主要反映人的肥胖程度运动指标的典型变量W1与起坐次数situps和引体向上次数chins有较大的负相关关系 0 7276 0 8177 说明这个典型变量主要反映人不适合运动的程度在原始变量与配对组的典型变量的相关关系典型交叉载荷的分析结果中腰围waist与运动指标的第1典型变量W1的相关性较强这也说明了腰围大体形较胖则运动能力差起坐次数和引体向上与生理指标的第1典型变量V1呈一定的负相关系数说明人的体形肥胖程度对这两种运动能力有负面影响 3 典型冗余分析第七部分给出典型冗余分析的结果上图是变量的原始方差通过它的典型变量和配对的典型变量所解释的方差比例下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例图中看出生理指标通过它的第一个典型变量解释的共享方差的比例是45 08 而被对方第一个典型变量W1解释的方差比例为28 54 其比值28 54 45 08 0 6330恰为CanR2 运动指标通过它的第一个典型变量解释的共享方差的比例是40 81 而被对方个典型变量V1解释的方差比例为25 84 其比值也是0 6330 第八部分给出各原始变量和配对组的典型变量间的复相关系数 MultipleCorrelations 的平方图7 18 即原始变量与典型变量的判定系数如weight与第1典型变量W1的相关系数为0 4938 见图7 15 则其复相关系数平方为0 49382 0 2438 由复相关系数的平方可看出生理指标的第一典型变量W1对chins 0 3351 和situps 0 4233 有一定解释能力但对jumps 0 0167 几乎没有解释能力而来自运动指标的第一典型变量V1对waist 0 5421 有相当好的解释能力对weight 0 2438 较差而对pulse 0 0701 几乎没有解释能力其中运动指标的第一典型变量对生理指标中的腰围指标解释能力最强可以说明运动对体形影响较大加强体育锻炼可以减肥 7 1 4用CANCORR过程实现典型相关分析1 CANCORR过程CANCORR过程的常用语法格式如下 PROCCANCORR WITH VAR RUN 其中PROCCANCORR语句 WITH语句是每个过程中必不可少的其余语句可视情况使用下面分别介绍各语句的用法和功能 1 PROCCANCORR语句标示典型相关分析开始可以规定输入输出数据集指定分析方法和控制输出结果的显示等语句中可设置的常用选项及其功能见表7 3 2 VAR语句列出要进行典型相关分析的第一组变量变量必须是数值型的如果VAR语句被忽略所有未被其他语句提到的数值型变量都将被视为第一组变量 3 WITH语句列出要进行典型相关分析的第二组变量变量必须是数值型的该语句是每一个PROCCANCORR中必不可少的表7 3常用选项及其功能 2 使用CANCORR过程例7 3 家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系调查了70个家庭的下面两组变量 x1 每年去餐馆就餐的频率 x2 每年外出看电影的频率 y1 户主的年龄 y2 家庭的年收入 y3 户主受教育程度试分析两组变量之间的关系假定变量的相关系数阵如表所示如下代码利用变量的相关系数矩阵作典型相关分析 DATAjt TYPE CORR INPUTNAME 1 2 X1X2Y1 Y3 6 CARDS X11 000 800 260 670 34X20 801 000 330 590 34Y10 260 331 000 370 21Y20 670 590 371 000 35Y30 340 340 210 351 00 PROCCANCORREDF 70REDUNDANCY VARX1X2 WITHY1 Y3 RUN 说明 1 在数据集名jt后用TYPE CORR表明数据的类型为相关矩阵而不是原始数据 2 INPUT语句中用 NAME 读取左侧的变量名 1 2 表示变量名的字符落在第1 2列上 X1X2Y1 Y4 表示各列数据所对应的变量名 6 表示读取数据的宽度均为6列其中相关系数占4位其后的空格占2位 3 选择项EDF n 1 为典型相关分析提供一个计算误差自由度的参考值因为该过程中没有合适的选择项可以将原始数据的样本含量n准确地送入如果忽略这一选择项将以缺省值n 10000作为样本含量参与有关计算和统计检验显然不妥 4 选项REDUNDANCY表示输出典型冗余分析的结果 3 结果分析 1 典型相关系数及显著性检验第一部分的4列依次是典型相关系数校正的典型相关系数近似的标准误以及典型决定系数典型相关系数的平方从中可以看出本例提取了2个典型相关系数第一个典型相关系数CanR1 0 687948 其校正值为0 673671 标准误为0 062956 CanR12 0 473272 第二个典型相关系数为0 186865 第二部分是特征根以及相应的统计量从中可以看出第一对典型变量所能解释的变异已占总变异的96 13 另一对典型相关变量的作用很小只解释了总变异的3 87 可以不予考虑右边4列给出对典型相关系数的检验具体采用似然比法所求的似然比统计量近似服从F分布第一行检验的是第一相关系数以及比它小的两个相关系数是否为0 第一行的F值8 86 p值 0 0001 后一行检验的p值远大于置信水平0 05 故可以认为只有第一个典型相关系数有统计学意义第三部分图7 21 输出的是按照多元分析的原理进行的所有典型相关系数是否为0的检验四种方法中一般参照Wilks Lambda检验的结果本例中4种方法的检验结果与前述完全一致 2 典型变量系数与典型结构第四部分图左给出的是用原始变量表达的典型变量系数考虑标准化后的系数即第五部分图右给出的典型变量和标准化变量对原始变量标准化间的换算公式由于使用原始变量的相关系数阵作为输入数据所以这两部分相同来自消费模式指标的第一典型变量V1为原始变量的右上角带表示为标准化变量 V1 0 7689x1 0 2721x2 它是x1 每年去餐馆就餐的频率和x2 每年外出看电影的频率的加权和在x1 上的权重更大些来自家庭特征指标的第一典型变量W1为 W1 0 0491y1 0 8975y2 0 1900y3 它在y2 家庭的年收入上的系数最大这一对典型变量主要是反映x1 每年去餐馆就餐的频率和y2 家庭的年收入的相关关系第六部分图7 24 为典型相关结构分别是各组原始变量与典型变量两两之间的相关系数矩阵可以看出 x1和x2与第1典型变量V1的相关系数皆为正值分别为0 9866和0 8872 可见V1可以作为消费特性的指标家庭特征指标的所有变量与第1典型变量W1的相关系数分别为 0 4211 0 9822和0 5145 可见典型变量W1主要代表了了家庭收入 V1和W1的典型相关系数为0 6879 这就说明家庭的消费与一个家庭的收入之间其关系是很密切的第二对典型变量中V2与x2的相关系数为0 4614 可以看出V2可以作为文化消费特性的指标第二对典型变量中W2与y1和y3之间的分别相关系数为0 8464和0 3013 可见典型变量W2主要代表了家庭成员的年龄特征和教育程度 V2和W2的相关系数为0 1869 说明文化消费与年龄和受教育程度之间有一定关系 3 典型冗余分析第七部分给出典型冗余分析的结果图7 25 7 26 由于本例是对相关系数矩阵作分析故两个结果相同两对典型变量解释配对变量组方差的累计比例分别为42 08 和23 157 消费指标通过它的第一个典型变量解释的共享方差的比例是88 03 而被对方第一个典型变量W1解释的方差比例为41 66 其比值41 66 88 03 0 4733恰为CanR2 CanonicalR Square 通过它的第二个典型变量解释的共享方差的比例是11 97 被对方第二个典型变量W2解释的方差比例为0 42 其比值为0 0349 家庭特征指标通过它的第一个典型变量解释的共享方差的比例是46 89 而被对方第一个典型变量V1解释的方差比例为22 19 通过它的第二个典型变量解释的共享方差的比例是27 31 而被对方第二个典型变量V2解释的方差比例为0 95 第八部分给出各原始变量和配对组的典型变量间的复相关系数 MultipleCorrelations 的平方即原始变量与典型变量的判定系数如x1与第1典型变量W1的相关系数为0 6787 则其判定系数为0 67872 0 4607 由复相关系数的平方可看出消费指标的典型变量V1对y2 0 4566 有一些预测能力但对y1 0 0839 和y3 0 1253 有微弱的预测能力而来自家庭特征指标的典型变量W1对x1 0 4607 和x2 0 3725 有较好的预测能力 7 2对应分析7 2 1对应分析的基本概念7 2 2使用CORRESP过程实现对应分析 7 2 1对应分析的基本概念1 对应分析的方法概述对应分析也称相应分析它是寻求样品行与变量列之间联系的低维图示法其关键是利用一种数据变换方法使含有n个样品m个变量的原始数据矩阵变成另一个矩阵并使SR Z Z 分析变量之间关系的协方差矩阵与SQ ZZ 分析样品之间关系的协方差矩阵具有相同的非零特征根它们相应的特征向量之间也有密切的关系对协方差矩阵SR SQ进行因子分析分别提取两个最重要的公因子R1 R2与Q1 Q2 由于采取的是一种特殊变换方法公因子R1与Q1在本质上是相同的同理 R2与Q2在本质上也是相同的故可用dim1作为R1 Q1的统一标志用dim2作为R2 Q2的统一标志于是可将 R1 Q1 和 R2 Q2 两组数据点画在由 dim2 dim2 组成的同一个直角坐标系中这样便于考察变量与样品之间的相互关系 2 对应分析的步骤设原始数据矩阵X xij nm i 1 2 n n为样品数 j 1 2 m m为变量数 1 计算过渡矩阵Z zij nm 1 其中 Xi 为第i行的合计 X j为第j列的合计 X 为全部数据的合计 2 对SR Z Z作因子分析计算协差阵SR Z Z的特征值又称为惯量 1 2 m 按其累积百分比取前p个特征值主惯量通常p取2 并计算相应的单位特征向量u1 u2 从而得到因子载荷阵在两因子轴平面上作变量点图 3 对SQ ZZ 作因子分析对上述2个特征值计算SQ中相应的单位特征向量v1 Zu1 v2 Zu2 从而得到因子载荷阵在上述因子平面上作样品点图说明对应分析的提出最初是为了研究两个或多个属性变量之间的相关关系即用于列联表参见第9章数据的分析此时行变量的各个水平相当于各个样品列变量的各个水平相当于不同的变量 7 2 2使用CORRESP过程实现对应分析1 CORRESP过程PROCCORRESP VAR TABLES ID RUN 其中的PROCCORRESP语句 TABLES语句或者VAR语句是必须使用的除了这两个语句其他语句都是可以选择的下面分别介绍各语句的用法和功能 1 PROCCORRESP语句标示对应分析开始可以规定输入输出数据集指定分析方法和控制输出结果的显示等语句中可设置的常用选项及其功能见表7 5 2 VAR语句输入数据为表格格式时使用不能与TABLES同时使用变量必须是数值型的 3 ID语句ID语句只能与VAR语句一起使用如果使用了TABLES或者MCA选项就不能使用该语句该语句只能规定一个字符变量自动用ID语句的变量值作为输出表格列的标签并且保存在输出数据集中 4 TABLES语句TABLES语句用行变量和列变量构造一个列联表行变量和列变量之间用逗号分隔不可与ID和VAR语句同时使用 2 对二维列联表数据的对应分析例7 4 调查了三个民族的血型分布资料如表7 6所示试作对应分析表7 6三个民族不同血型出现的频数假定上述数据已经存放在数据集Mylib xx中 1 SAS代码对应分析的代码如下 proccorrespdata Mylib xxout result varDZWZTJZ idType run optionsps 40 procplotdata result plotdim2 dim1 Type boxhaxis 0 2to0 3by0 1vaxis 0 1to0 3by0 1HREF 0VREF 0 run 2 主要输出结果及其解释1 惯量与卡方分解图7 28的第一列为Z的奇异值最有用的是第2列主惯量即矩阵SR Z Z的特征值原始数据有4行3列这里提取2个特征值即可完全解释数据的信息量第一个特征值解释了信息量的78 07 第二个特征值解释了21 93 前两个特征值的累积贡献率已达100 以第一维度为主自由度变量数 1 样品数 1 6 2 样品点坐标如图7 29所示相当于因子分析中的公因子载荷表示样品在公因子Dim1和Dim2上的坐标其结果可表示为血型A 0 1918Dim1 0 0706Dim2血型B 0 1283Dim1 0 0303Dim2血型O 0 1582Dim1 0 0201Dim2血型AB 0 1941Dim1 0 2528Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内每个样品就是1个点如血型A点的坐标为 0 1918 0 0706 显然血型A在第3象限内血型B在第1象限内血型O在第4象限内血型AB在第2象限内 3 样品点的汇总统计量如图7 30所示 Quality为每个变量上两个公因子贡献率样品点的余弦平方值中各行数值之和若此值接近于1 则表明对应的样品点所包含的信息由两个公因子就可很好地反映出来 Mass为原始数据中各列数据之和占总合计的百分比 Inertia为每个样品对总特征值0 03599贡献的百分比由此列数值可看出 A O AB三种血型贡献的百分比比较接近 4 样品点局部惯量贡献如图7 31所示 A型血对第1公因子贡献最大 AB型血对第2公因子贡献最大 5 对样品点惯量贡献最大的坐标标号这是各样品的坐标对特征值贡献最多的标志贡献少中多依次用0 1 2来表示如图7 32所示 6 样品点的余弦平方值如图7 33所示为每个样品点上两个公因子各自的贡献率各行数值之和应近似为1 因为用两个公因子已经表示所有的信息故各行之和均为1 由各行数值可看出除了AB型之外其他三个血型的信息主要由第1公因子给出而AB型的信息则主要由第2个公因子来反映以上对样品的统计又对变量作了一遍结果如下 7 变量点坐标与变量点的汇总统计量如图所示在以dim1与dim2作为横轴与纵轴的直角坐标系内每个变量也是1个点傣族位于第一象限中佤族位于第二象限中土家族位于第三象限中 4个点变量中任何两点之间的欧氏距离如下显然佤族与土家族之间的距离最短傣族与佤族之间的距离最长说明这2个民族在血型的出现频率上具有较高的正相关关系 8 变量点局部惯量贡献如图左所示图左上半部分是每个变量对公因子的贡献率各列数值之和为1 显然傣族对第1公因子贡献最大其他两个民族对第2公因子贡献较大 9 变量点的余弦平方值如图右所示表示公因子对变量的贡献率第一公因子主要影响傣族和佤族分别贡献了95 28 和75 79 而第二公因子主要影响土家族贡献率为86 76 3 分析结果A型血对第1公因子贡献最大 AB型血对第2公因子贡献最大它们的点所对应的坐标 dim1 dim2 分别为 A 0 1918 0 0706 AB 0 1941 0 2528 每个分类在坐标系中分得很开佤族和AB型血同在第二象限而且两个点在Dim1上差别很小说明两者有联系而土家族和A型血同在第三象限傣族和B型血同在第一象限在Dim1上差别很小如图所示说明对应分析的输出结果有很多最主要的是看第一部分中各个维度以及各个维度解释的百分比样品点及变量点的坐标对图形的输出结果首先要看两个方向的区分情况如三个民族在第一维度上分得很开区分很好而血型则在第二维度上区分较好但由于第一维度携带了近80 的信息量远大于第二维度所以解释以第一维度为主还可以比较各个点在空间的分布情况距离较近的点彼此有联系散点间的距离越近说明关联的倾向越明显 3 类别数较多的例子例7 5 疾病与人的基因型密切有关而不同民族各种基因出现的频率不尽相同下面是某研究者收集到的资料试分析各种基因频率与民族之间的关系各民族下面的小数是36种基因出现的频率表7 7民族各种基因出现的频率 1 SAS代码设数据文件名为mzjy 位于逻辑库Mylib中对应分析的代码如下 optionsnodatenonumberps 500 proccorrespdata Mylib mzjyout result varznyh idjy run optionsps 50 procplotdata result plotdim2 dim1 jy boxhaxis 1 1to1 1by0 2vaxis 1 0to1 0by0 2HREF 0VRE

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SAS软件与统计应用教程ch7——典型相关与对应分析.ppt

文档简介

温馨提示

最新文档

评论

SAS软件与统计应用教程ch7——典型相关与对应分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档