SAS软件与统计应用教程ch7——典型相关与对应分析.ppt_第1页
SAS软件与统计应用教程ch7——典型相关与对应分析.ppt_第2页
SAS软件与统计应用教程ch7——典型相关与对应分析.ppt_第3页
SAS软件与统计应用教程ch7——典型相关与对应分析.ppt_第4页
SAS软件与统计应用教程ch7——典型相关与对应分析.ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章典型相关与对应分析 7 1典型相关分析7 2对应分析 7 1典型相关分析7 1 1典型相关分析的概念与步骤7 1 2用INSIGHT模块实现典型相关分析7 1 3用 分析家 实现典型相关分析7 1 4用CANCORR过程实现典型相关分析 7 1 1典型相关分析的概念与步骤1 典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息 根据变量间的相关关系 寻找少数几对综合变量 实际观测变量的线性组合 用它们替代原始观测变量 从而将二组变量的关系集中到少数几对综合变量的关系上 通过对这些综合变量之间相关性的分析 回答两组原始变量间相关性的问题 除了要求所提取的综合变量所含的信息量尽可能大以外 提取时还要求第一对综合变量间的相关性最大 第二对次之 依次类推 这些综合变量被称为典型变量 或典则变量 第1对典型变量间的相关系数则被称为第1典型相关系数 典型相关系数能简单 完整地描述两组变量间关系的指标 当两个变量组均只有一个变量时 典型相关系数即为简单相关系数 当其中的一组只有一个变量时 典型相关系数即为复相关系数 2 典型相关系数与典型相关变量设X X1 X2 Xp Y Y1 Y2 Yq 是两个随机向量 利用主成分思想寻找第i对典型相关变量 Ui Vi Ui ai1X1 ai2X2 aipXp ai XVi bi1Y1 bi2Y2 biqYq bi Yi 1 2 m min p q 称ai 和bi 为 第i对 典型变量系数或典型权重 记第一对典型相关变量间的典型相关系数为 CanR1 Corr U1 V1 使U1与V1间最大相关 第二对典型相关变量间的典型相关系数为 CanR2 Corr U2 V2 与U1 V1无关 使U2与V2间最大相关 第m对典型相关变量间的典型相关系数为 CanRm Corr Um Vm 与U1 V1 Um 1 Vm 1无关 Um与Vm间最大相关 3 典型相关变量的性质各对典型相关变量所包括的相关信息互不交叉 且满足 1 U1 U2 Um互不相关 V1 V2 Vm互不相关 即其相关系数为 2 同一对典型相关变量Ui和Vi之间的相关系数为CanRi 不同对的典型相关变量之间互不相关 即 3 Ui和Vi的均值为0 方差为1 i 1 m 4 1 CanR1 CanR2 CanRm 0 4 典型相关系数的求解步骤1 求X Y变量组的相关阵R 2 求矩阵A R11 1R12 R22 1R21和B R22 1R21 R11 1R12 可以证明A B有相同的非零特征值 3 求A或B的特征值 i与CanRi A或B的特征值即为典型相关系数的平方 i CanRi 2 i 1 m 4 求A B关于 i的特征向量 设ai为A关于 i的特征向量 bi为B关于 i的特征向量 则ai 和bi 为 第i对 典型变量系数 即第i对典型相关变量 Ui Vi Ui ai X ai1X1 ai2X2 aipXp Vi bi Y bi1Y1 bi2Y2 biqYq i 1 2 m min p q 其中X Y 为原变量组的标准化 5 特征根特征根 eigenvalue 是方差分析和多元检验的基础 特征根与典型相关系数之间的数量关系为 上式可以理解为第i对典型变量表示观测变量总方差作用的指标 它的值越大说明表示作用越大 6 典型相关系数的标准误7 典型相关系数的假设检验典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验 对数据的要求 1 两个变量组均应服从多维正态分布 X Y Np q 2 2 n p q 1 全部总体典型相关系数为0H0 CanRi 0 i 1 mH1 至少有一个CanRi 0检验的似然比统计量为对于充分大的n 当H0成立时 统计量近似服从自由度为pq的 2分布 2 部分总体典型相关系数为0仅对较小的典型相关作检验 H0 CanRi 0 i s m 2 s mH1 至少有一个CanRi 0其检验的统计量为对于充分大的n 当H0成立时 统计量近似服从自由度为 p k q k 的 2分布 7 1 2用INSIGHT模块实现典型相关分析1 实例 例7 1 1985年中国28省市城市男生 19 22岁 的调查数据 见表7 1 其中6项形态指标 身高 cm 坐高 体重 kg 胸围 肩宽 盆骨宽 分别记为x1 x2 x6 5项机能指标 脉搏 次 分 收缩压 mmHg 舒张压 变音 舒张压 消音 肺活量 ml 分别记为y1 y2 y5 表7 1城市男生 19 22岁 形态与机能调查数据设表中数据已经存放在数据集Mylib xtyjn中 试分析形态指标和机能指标这两组变量间的相关性 2 分析设置在INSIGHT模块中打开数据集Mylib xtyjn 1 选择菜单 Analyze Multivariate YX 多元分析 打开 Multivariate YX 对话框 2 将6项形态指标 x1至x6选为X变量 将5项机能指标 y1至y5选为Y变量 如图7 1左所示 3 单击 Output 按钮 在打开的对话框中选中 CanonicalCorrelationAnalysis 典型相关分析 复选框 单击下面的 CanonicalCorrelationOptions 典型相关选项 按钮 打开 CanonicalCorrelationOptions 对话框 并按下图右所示设置 4 三次单击 OK 按钮 得到分析结果 3 结果分析 1 典型相关系数第1典型相关系数为0 939573 校正值为0 908276 标准误差为0 026207 典型相关系数的平方为0 882797 第2典型相关系数为0 877842 校正值为0 842459 标准误差为0 051294 典型相关系数的平方为0 770606 如图所示 前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大 2 典型变量所解释的变异第二部分是的5个特征根 Eigenvalues 包括 特征根 相邻两个特征根之差 特征根所占方差信息量的比例和累积方差信息量的比例 从中可以看出 前两对典型变量所能解释的变异占总变异 方差 的91 18 如图7 4所示 其它三个典型相关变量的作用很小 一共只解释了总变异的9 可以不予考虑 3 典型相关系数的检验用似然比法检验典型相关系数与零的差别是否显著 其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0 其p值依次为0 0010 0 0509和0 5089等等 如图7 5所示 说明前两对典型相关系数基本具有显著意义 在 0 0509的显著水平下 因此 两组变量相关性的研究可转化为研究前两对典型相关变量的相关性 4 典型相关结构典型相关结构 下图 分别是各组原始变量与典型变量两两之间的相关系数矩阵 从相关系数判断 形态指标中除x5 0 0514 x6 0 2433 外各变量与第一典型变量间的相关性都比较高 机能指标中除y2 0 0975 外各变量与第一典型变量间的相关性也都比较高 x5与第二典型变量间的相关性比较高 y2与第二典型变量间的相关性比较高 y1与前两个典型变量的相关系数为负值 说明 第一对典型变量对肩宽x5和收缩压y2的解释作用不大 另外 从形态指标组的变量和机能指标组的典型变量之间 以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见 各组变量与前两对典型变量之间均有较强的相关 5 标准化变量的典型相关变量的系数输出结果中还给出标准化变量的典型变量系数 如图所示 来自机能指标的第一典型变量CY1为 原始变量的右上角带 表示为标准化变量 CY1 0 071672y1 0 789642y2 0 567178y3 0 508332y4 0 533496y5 容易看出 CY1主要代表了舒张压变音 舒张压消音 肺活量等指标 来自形态指标的第一典型变量CX1为 CX1 0 4287x1 0 09696x2 0 16210 x3 0 93745x4 0 23498x5 0 18696x6 易知 CX1主要代表了胸围 身高和肩宽等指标 关于第二典型变量有 CY2 0 026533y1 1 213436y2 0 535038y3 0 186048y4 0 455870y5 CX2 0 70270 x1 0 39985x2 0 84359x3 0 99063x4 0 06829x5 0 48310 x6 可见 CY2代表了收缩压和肺活量等指标 CX2代表了身高 体重 盆骨宽等指标 6 典型冗余分析典型冗余分析 canonicalredundancyanalysis 表明 两对典型变量仍不能全面预测配对的那组变量 来自形态指标的标准方差被对方两个典型变量 CY1 CY2 解释的累积方差比例为55 86 来自机能指标的标准方差被对方两个典型变量 CX1 CX2 解释的累积方差比例为44 61 如图所示 7 1 3用 分析家 实现典型相关分析1 实例 例7 2 某康复俱乐部对20名中年人测量了3项生理指标 体重 weight 腰围 waist 脉搏 pulse 和3项运动指标 引体向上 chins 起坐次数 situps 跳跃次数 jumps 其数据列于表7 2中 表7 2某康复俱乐部测量的生理指标和运动指标设表中数据已经存放在数据集Mylib slzb中 试分析生理指标和运动指标这两组变量间的相关性 2 分析设置1 在 分析家 中打开数据集Mylib slzb 2 选择菜单 Statistics 统计 Multivariate 多元分析 CanonicalCorrelation 典型相关分析 打开 CanonicalCorrelation 对话框 3 在对话框中将生理指标选为Set1 运动指标选为Set2 如图所示 4 单击 Statistics 统计 按钮 打开 CanonicalCorrelation Statistics 对话框 选中 Canonicalredundancystatistics 复选框 并选择3个典型变量 如图所示 两次单击 OK 按钮 得到计算结果 3 结果分析 1 典型相关系数及显著性检验第一部分的4列依次是 典型相关系数 校正的典型相关系数 近似的标准误以及典型相关系数的平方 从图7 10中可以看出 本例提取了3个典型相关系数 第一个典型相关系数CanR1 0 795608 其校正值为0 754056 标准误为0 084197 CanR12 0 632992 第一典型相关系数表示的是第一对典型相关变量之间的相关性 第二个典型相关系数为0 200556 第三个为0 072570 第二部分是特征根以及相应的统计量 如图所示 可以看出 第一对典型变量所能解释的变异已占总变异的97 34 其它两个典型相关变量的作用很小 一共只解释了总变异的3 可以不予考虑 右边4列给出对典型相关系数的检验 结果表明 第一行的F值2 05 p值为0 0635 在0 07的检验水平下 应拒绝原假设 认为第一相关系数以及比它小的两个相关系数不为0 后两行检验的p值都远大于显著水平0 05 故可以认为只有第一个典型相关系数不为0 第三部分输出的是用四种多元统计方法进行的所有典型相关系数均为0的F检验结果 如图所示 四种方法中一般参照Wilks Lambda检验的结果 本例中的Wilks Lambda检验结果与前述完全一致 表明至少有一个典型相关系数在 0 0635的显著水平下非0 2 典型变量系数与典型结构第四部分给出的是用原始变量表达的典型变量系数 典型权重 如图所示 因6个变量没有使用相同单位进行测量 因此考虑分析标准化后的系数 第五部分给出的是用标准化变量 对原始变量标准化 表达的典型变量系数 如图所示 V1 0 7754weight 1 5793waist 0 0591pulse 它近似地是waist 和weight 的加权差 在waist 上权重更大些 V1在pulse 上系数近似为0 W1 0 3495chins 1 0540situps 0 7164jumps 它在situps 上的系数最大 这一对典型变量主要是反映waist 和situps 的负相关关系 第六部分为典型结构 分别是各组原始变量与典型变量两两之间的相关系数矩阵 如图所示 可以看出 在原始变量与本组的典型变量的相关关系 典型载荷 中 生理指标的典型变量V1与腰围waist的相关系数最大 0 9254 说明这个典型变量主要反映人的肥胖程度 运动指标的典型变量W1与起坐次数situps和引体向上次数chins有较大的负相关关系 0 7276 0 8177 说明这个典型变量主要反映人不适合运动的程度 在原始变量与配对组的典型变量的相关关系 典型交叉载荷 的分析结果中 腰围waist与运动指标的第1典型变量W1的相关性较强 这也说明了腰围大 体形较胖 则运动能力差 起坐次数和引体向上与生理指标的第1典型变量V1呈一定的负相关系数 说明人的体形肥胖程度对这两种运动能力有负面影响 3 典型冗余分析第七部分给出典型冗余分析的结果上图是变量的原始方差通过它的典型变量和配对的典型变量所解释的方差比例 下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例 图中看出 生理指标通过它的第一个典型变量解释的共享方差的比例是45 08 而被对方第一个典型变量W1解释的方差比例为28 54 其比值28 54 45 08 0 6330恰为CanR2 运动指标通过它的第一个典型变量解释的共享方差的比例是40 81 而被对方个典型变量V1解释的方差比例为25 84 其比值也是0 6330 第八部分给出各原始变量和配对组的典型变量间的复相关系数 MultipleCorrelations 的平方 图7 18 即原始变量与典型变量的判定系数 如weight与第1典型变量W1的相关系数为0 4938 见图7 15 则其复相关系数平方为0 49382 0 2438 由复相关系数的平方可看出 生理指标的第一典型变量W1对chins 0 3351 和situps 0 4233 有一定解释能力 但对jumps 0 0167 几乎没有解释能力 而来自运动指标的第一典型变量V1对waist 0 5421 有相当好的解释能力 对weight 0 2438 较差 而对pulse 0 0701 几乎没有解释能力 其中 运动指标的第一典型变量对生理指标中的腰围指标解释能力最强 可以说明运动对体形影响较大 加强体育锻炼可以减肥 7 1 4用CANCORR过程实现典型相关分析1 CANCORR过程CANCORR过程的常用语法格式如下 PROCCANCORR WITH VAR RUN 其中PROCCANCORR语句 WITH语句是每个过程中必不可少的 其余语句可视情况使用 下面分别介绍各语句的用法和功能 1 PROCCANCORR语句 标示典型相关分析开始 可以规定输入输出数据集 指定分析方法和控制输出结果的显示等 语句中可设置的常用选项及其功能见表7 3 2 VAR语句 列出要进行典型相关分析的第一组变量 变量必须是数值型的 如果VAR语句被忽略 所有未被其他语句提到的数值型变量都将被视为第一组变量 3 WITH语句 列出要进行典型相关分析的第二组变量 变量必须是数值型的 该语句是每一个PROCCANCORR中必不可少的 表7 3常用选项及其功能 2 使用CANCORR过程 例7 3 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系 调查了70个家庭的下面两组变量 x1 每年去餐馆就餐的频率 x2 每年外出看电影的频率 y1 户主的年龄 y2 家庭的年收入 y3 户主受教育程度 试分析两组变量之间的关系 假定变量的相关系数阵如表所示 如下代码 利用变量的相关系数矩阵作典型相关分析 DATAjt TYPE CORR INPUTNAME 1 2 X1X2Y1 Y3 6 CARDS X11 000 800 260 670 34X20 801 000 330 590 34Y10 260 331 000 370 21Y20 670 590 371 000 35Y30 340 340 210 351 00 PROCCANCORREDF 70REDUNDANCY VARX1X2 WITHY1 Y3 RUN 说明 1 在数据集名jt后用TYPE CORR表明数据的类型为相关矩阵 而不是原始数据 2 INPUT语句中用 NAME 读取左侧的变量名 1 2 表示变量名的字符落在第1 2列上 X1X2Y1 Y4 表示各列数据所对应的变量名 6 表示读取数据的宽度均为6列 其中相关系数占4位 其后的空格占2位 3 选择项EDF n 1 为典型相关分析提供一个计算误差自由度的参考值 因为该过程中没有合适的选择项可以将原始数据的样本含量n准确地送入 如果忽略这一选择项 将以缺省值n 10000作为样本含量参与有关计算和统计检验 显然不妥 4 选项REDUNDANCY表示输出典型冗余分析的结果 3 结果分析 1 典型相关系数及显著性检验第一部分的4列依次是 典型相关系数 校正的典型相关系数 近似的标准误以及典型决定系数 典型相关系数的平方 从中可以看出 本例提取了2个典型相关系数 第一个典型相关系数CanR1 0 687948 其校正值为0 673671 标准误为0 062956 CanR12 0 473272 第二个典型相关系数为0 186865 第二部分是特征根以及相应的统计量 从中可以看出 第一对典型变量所能解释的变异已占总变异的96 13 另一对典型相关变量的作用很小 只解释了总变异的3 87 可以不予考虑 右边4列给出对典型相关系数的检验 具体采用似然比法 所求的似然比统计量近似服从F分布 第一行检验的是第一相关系数以及比它小的两个相关系数是否为0 第一行的F值8 86 p值 0 0001 后一行检验的p值远大于置信水平0 05 故可以认为只有第一个典型相关系数有统计学意义 第三部分 图7 21 输出的是按照多元分析的原理进行的所有典型相关系数是否为0的检验 四种方法中一般参照Wilks Lambda检验的结果 本例中4种方法的检验结果与前述完全一致 2 典型变量系数与典型结构第四部分 图左 给出的是用原始变量表达的典型变量系数 考虑标准化后的系数 即第五部分 图右 给出的典型变量和标准化变量 对原始变量标准化 间的换算公式 由于使用原始变量的相关系数阵作为输入数据 所以这两部分相同 来自消费模式指标的第一典型变量V1为 原始变量的右上角带 表示为标准化变量 V1 0 7689x1 0 2721x2 它是x1 每年去餐馆就餐的频率 和x2 每年外出看电影的频率 的加权和 在x1 上的权重更大些 来自家庭特征指标的第一典型变量W1为 W1 0 0491y1 0 8975y2 0 1900y3 它在y2 家庭的年收入 上的系数最大 这一对典型变量主要是反映x1 每年去餐馆就餐的频率 和y2 家庭的年收入 的相关关系 第六部分 图7 24 为典型相关结构 分别是各组原始变量与典型变量两两之间的相关系数矩阵 可以看出 x1和x2与第1典型变量V1的相关系数皆为正值 分别为0 9866和0 8872 可见V1可以作为消费特性的指标 家庭特征指标的所有变量与第1典型变量W1的相关系数分别为 0 4211 0 9822和0 5145 可见典型变量W1主要代表了了家庭收入 V1和W1的典型相关系数为0 6879 这就说明家庭的消费与一个家庭的收入之间其关系是很密切的 第二对典型变量中V2与x2的相关系数为0 4614 可以看出V2可以作为文化消费特性的指标 第二对典型变量中W2与y1和y3之间的分别相关系数为0 8464和0 3013 可见典型变量W2主要代表了家庭成员的年龄特征和教育程度 V2和W2的相关系数为0 1869 说明文化消费与年龄和受教育程度之间有一定关系 3 典型冗余分析第七部分给出典型冗余分析的结果 图7 25 7 26 由于本例是对相关系数矩阵作分析故两个结果相同 两对典型变量解释配对变量组方差的累计比例分别为42 08 和23 157 消费指标通过它的第一个典型变量解释的共享方差的比例是88 03 而被对方第一个典型变量W1解释的方差比例为41 66 其比值41 66 88 03 0 4733恰为CanR2 CanonicalR Square 通过它的第二个典型变量解释的共享方差的比例是11 97 被对方第二个典型变量W2解释的方差比例为0 42 其比值为0 0349 家庭特征指标通过它的第一个典型变量解释的共享方差的比例是46 89 而被对方第一个典型变量V1解释的方差比例为22 19 通过它的第二个典型变量解释的共享方差的比例是27 31 而被对方第二个典型变量V2解释的方差比例为0 95 第八部分给出各原始变量和配对组的典型变量间的复相关系数 MultipleCorrelations 的平方 即原始变量与典型变量的判定系数 如x1与第1典型变量W1的相关系数为0 6787 则其判定系数为0 67872 0 4607 由复相关系数的平方可看出 消费指标的典型变量V1对y2 0 4566 有一些预测能力 但对y1 0 0839 和y3 0 1253 有微弱的预测能力 而来自家庭特征指标的典型变量W1对x1 0 4607 和x2 0 3725 有较好的预测能力 7 2对应分析7 2 1对应分析的基本概念7 2 2使用CORRESP过程实现对应分析 7 2 1对应分析的基本概念1 对应分析的方法概述对应分析 也称相应分析 它是寻求样品 行 与变量 列 之间联系的低维图示法 其关键是利用一种数据变换方法 使含有n个样品m个变量的原始数据矩阵变成另一个矩阵 并使SR Z Z 分析变量之间关系的协方差矩阵 与SQ ZZ 分析样品之间关系的协方差矩阵 具有相同的非零特征根 它们相应的特征向量之间也有密切的关系 对协方差矩阵SR SQ进行因子分析 分别提取两个最重要的公因子R1 R2与Q1 Q2 由于采取的是一种特殊变换方法 公因子R1与Q1在本质上是相同的 同理 R2与Q2在本质上也是相同的 故可用dim1作为R1 Q1的统一标志 用dim2作为R2 Q2的统一标志 于是可将 R1 Q1 和 R2 Q2 两组数据点画在由 dim2 dim2 组成的同一个直角坐标系中 这样 便于考察变量与样品之间的相互关系 2 对应分析的步骤设原始数据矩阵X xij nm i 1 2 n n为样品数 j 1 2 m m为变量数 1 计算过渡矩阵Z zij nm 1 其中 Xi 为第i行的合计 X j为第j列的合计 X 为全部数据的合计 2 对SR Z Z作因子分析 计算协差阵SR Z Z的特征值 又称为惯量 1 2 m 按其累积百分比取前p个特征值 主惯量 通常p取2 并计算相应的单位特征向量u1 u2 从而得到因子载荷阵 在两因子轴平面上作变量点图 3 对SQ ZZ 作因子分析 对上述2个特征值计算SQ中相应的单位特征向量v1 Zu1 v2 Zu2 从而得到因子载荷阵 在上述因子平面上作样品点图 说明 对应分析的提出最初是为了研究两个或多个属性变量之间的相关关系 即用于列联表 参见第9章 数据的分析 此时行变量的各个水平相当于各个样品 列变量的各个水平相当于不同的变量 7 2 2使用CORRESP过程实现对应分析1 CORRESP过程PROCCORRESP VAR TABLES ID RUN 其中的PROCCORRESP语句 TABLES语句或者VAR语句是必须使用的 除了这两个语句 其他语句都是可以选择的 下面分别介绍各语句的用法和功能 1 PROCCORRESP语句标示对应分析开始 可以规定输入输出数据集 指定分析方法和控制输出结果的显示等 语句中可设置的常用选项及其功能见表7 5 2 VAR语句输入数据为表格格式时使用 不能与TABLES同时使用 变量必须是数值型的 3 ID语句ID语句只能与VAR语句一起使用 如果使用了TABLES或者MCA选项 就不能使用该语句 该语句只能规定一个字符变量 自动用ID语句的变量值作为输出表格列的标签 并且保存在输出数据集中 4 TABLES语句TABLES语句用行变量和列变量构造一个列联表 行变量和列变量之间用逗号分隔 不可与ID和VAR语句同时使用 2 对二维列联表数据的对应分析 例7 4 调查了三个民族的血型分布资料如表7 6所示 试作对应分析 表7 6三个民族不同血型出现的频数假定上述数据已经存放在数据集Mylib xx中 1 SAS代码对应分析的代码如下 proccorrespdata Mylib xxout result varDZWZTJZ idType run optionsps 40 procplotdata result plotdim2 dim1 Type boxhaxis 0 2to0 3by0 1vaxis 0 1to0 3by0 1HREF 0VREF 0 run 2 主要输出结果及其解释1 惯量与卡方分解图7 28的第一列为Z的奇异值 最有用的是第2列 主惯量 即矩阵SR Z Z的特征值 原始数据有4行3列 这里提取2个特征值 即可完全解释数据的信息量 第一个特征值解释了信息量的78 07 第二个特征值解释了21 93 前两个特征值的累积贡献率已达100 以第一维度为主 自由度 变量数 1 样品数 1 6 2 样品点坐标 如图7 29所示 相当于因子分析中的公因子载荷 表示 样品 在公因子Dim1和Dim2上的坐标 其结果可表示为 血型A 0 1918Dim1 0 0706Dim2血型B 0 1283Dim1 0 0303Dim2血型O 0 1582Dim1 0 0201Dim2血型AB 0 1941Dim1 0 2528Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内 每个样品就是1个点 如血型A点的坐标为 0 1918 0 0706 显然 血型A在第3象限内 血型B在第1象限内 血型O在第4象限内 血型AB在第2象限内 3 样品点的汇总统计量 如图7 30所示 Quality为每个变量上两个公因子贡献率 样品点的余弦平方值中各行数值 之和 若此值接近于1 则表明对应的样品点所包含的信息由两个公因子就可很好地反映出来 Mass为原始数据中各列数据之和占总合计的百分比 Inertia为每个样品对总特征值0 03599贡献的百分比 由此列数值可看出 A O AB三种血型贡献的百分比比较接近 4 样品点局部惯量贡献 如图7 31所示 A型血对第1公因子贡献最大 AB型血对第2公因子贡献最大 5 对样品点惯量贡献最大的坐标标号 这是各样品的坐标对特征值贡献最多的标志 贡献少 中 多依次用0 1 2来表示 如图7 32所示 6 样品点的余弦平方值 如图7 33所示 为每个样品点上两个公因子各自的贡献率 各行数值之和应近似为1 因为用两个公因子已经表示所有的信息 故各行之和均为1 由各行数值可看出 除了AB型之外 其他三个血型的信息主要由第1公因子给出 而AB型的信息则主要由第2个公因子来反映 以上对样品的统计又对变量作了一遍 结果如下 7 变量点坐标与变量点的汇总统计量 如图所示 在以dim1与dim2作为横轴与纵轴的直角坐标系内 每个变量也是1个点 傣族位于第一象限中 佤族位于第二象限中 土家族位于第三象限中 4个点 变量 中任何两点之间的欧氏距离如下 显然 佤族与土家族之间的距离最短 傣族与佤族之间的距离最长 说明这2个民族在血型的出现频率上具有较高的正相关关系 8 变量点局部惯量贡献 如图左所示 图左上半部分是每个变量对公因子的贡献率 各列数值之和为1 显然 傣族对第1公因子贡献最大 其他两个民族对第2公因子贡献较大 9 变量点的余弦平方值 如图右所示 表示公因子对变量的贡献率 第一公因子主要影响傣族和佤族 分别贡献了95 28 和75 79 而第二公因子主要影响土家族 贡献率为86 76 3 分析结果A型血对第1公因子贡献最大 AB型血对第2公因子贡献最大 它们的点所对应的坐标 dim1 dim2 分别为 A 0 1918 0 0706 AB 0 1941 0 2528 每个分类在坐标系中分得很开 佤族和AB型血同在第二象限 而且两个点在Dim1上差别很小 说明两者有联系 而土家族和A型血同在第三象限 傣族和B型血同在第一象限 在Dim1上差别很小 如图所示 说明 对应分析的输出结果有很多 最主要的是看第一部分中各个维度以及各个维度解释的百分比 样品点及变量点的坐标 对图形的输出结果首先要看两个方向的区分情况 如三个民族在第一维度上分得很开 区分很好 而血型则在第二维度上区分较好 但由于第一维度携带了近80 的信息量 远大于第二维度 所以解释以第一维度为主 还可以比较各个点在空间的分布情况 距离较近的点彼此有联系 散点间的距离越近 说明关联的倾向越明显 3 类别数较多的例子 例7 5 疾病与人的基因型密切有关 而不同民族各种基因出现的频率不尽相同 下面是某研究者收集到的资料 试分析各种基因频率与民族之间的关系 各民族下面的小数是36种基因出现的频率 表7 7民族各种基因出现的频率 1 SAS代码设数据文件名为mzjy 位于逻辑库Mylib中 对应分析的代码如下 optionsnodatenonumberps 500 proccorrespdata Mylib mzjyout result varznyh idjy run optionsps 50 procplotdata result plotdim2 dim1 jy boxhaxis 1 1to1 1by0 2vaxis 1 0to1 0by0 2HREF 0VRE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论