第13讲 聚类分析(2)_第1页
第13讲 聚类分析(2)_第2页
第13讲 聚类分析(2)_第3页
第13讲 聚类分析(2)_第4页
第13讲 聚类分析(2)_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 4 15 西南科技大学生命科学与工程学院周海廷制作 1 第十三讲 聚类分析 ClusterAnalysis 2 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 2 5 5快速聚类法 quickclustermethodk meansmodel 也叫动态聚类 逐步聚类 迭代聚类 样本量很大 用系统聚类法计算的工作量极大 作出的树状图也十分复杂 不便于分析 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 3 原理 选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类 直至分类达到稳定 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 4 初始凝聚点initialclusterseeds clustercenters 自动选择必须给出允许分类的最大个数k SAS中用MAXCLUSTERS k 或MAXC k 凭经验选择以初始凝聚点建立一个数据文件 在SAS的FASTCLUS过程的SEED 选择项中输入该数据文件 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 5 5 6变量聚类法 原理与以上聚类法类似 只是将标准化后的变量视为 个体 变量间的相关系数描述 个体 间的相似程度 SAS中采用VARCLUS过程 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 6 5 7用VARCLUS过程实现变量聚类分析 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 7 例5 1 为研究人脑老化的严重程度 有人测定了不同年龄的60名正常男性10项有关指标的数据 各变量的含义如下 AGE为年龄 TJ为图片记忆 SG为数字广度记忆 TS为图形顺序记忆 XX为心算位数 XS为心算时间 CK为规定时间内穿孔数 BJ为步距 JJ为步行时双下肢夹角 BS步速 试对这些指标作变量聚类分析 SAS程序 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 8 DATAd6p5 INPUTagetjsgxxxstsckbjjjbs CARDS 16179145 14495435 323 924820835 005123724 703 7318128143 575114630 663 304918851 875103422 544 7719118211 673125337 013 085013843 205114533 472 782018957 04594730 103 9051167143 58524026 274 382115966 575105737 142 7252178142 86573423 935 1022198143 295114630 663 2453108143 43344126 014 042416953 502104327 644 415411886 18523725 453 802519963 57194226 544 4955118142 15404229 682 6126179143 86395229 243 545687922 10154529 806 672715816 00494232 304 3857121074 50582415 957 2928187143 98595133 943 035810699 50244328 963 50292010141 93584330 794 51591110128 690124431 152 89301410142 93574532 674 456012788 78281812 927 43 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 9 31198103 735103319 915 716110526 3550158 9611572124431 924 1262128717 00583221 834 7133159143 36564228 615 396314949 402124228 964 0134157143 945104330 264 316412953 005123022 185 4135179142 642112727 794 45667738 49512920 625 6736189123 235103825 834 686715863 43563724 655 503719873 00593825 383 736814568 00084028 064 343816874 384113523 344 99696728 34222917 024 6939208141 435114630 303 4170139114 94413825 833 704017872 052123724 564 4971159144 50564128 015 0641179113 705113523 764 337210723 33573824 803 884216983 33591232 112 63730765 77103121 275 734320832 502103925 903 777420884 11573927 695 6044149142 574104327 033 7175128148 14342819 236 264518822 67583927 513 94766736 75352416 637 5646208102 825104027 063 54789748 2024139 448 9147189141 93594327 955 017913519 50063825 533 24 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 10 PROCVARCLUSCENTROIDMAXC 4 VARagetjsgxxxstsckbjjjbs RUN PROCVARCLUS VARagetjsgxxxstsckbjjjbs RUN PROCVARCLUSCENTROID VARagetjsgxxxstsckbjjjbs RUN PROCVARCLUSHIMAXC 4 VARagetjsgxxxstsckbjjjbs RUN 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 11 第 个过程语句中用了选择项CENTROID 其聚类方法为重心分量聚类法 这 个过程步最终会聚成多少类 将由软件中隐含的临界值来决定 程序说明 第 个过程语句中没有任何选择项 其聚类方法为主成分聚类法 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 12 第 个过程语句中加了HI 要求在不同水平上的聚类保持系统结构 但与无此选则项时的区别并不明显 MAXC 4要求从 类聚到 类 此选择项的最大值为变量的个数 第 个过程语句要求用重心分量法从 类聚到 类 对于一批给定的资料 究竟应聚成几类合适 没有统一的规则 可先将资料聚成各只同的类 然后结合专业知识和各类能解释总方差的百分比来权衡 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 13 何时需选用重心分量聚类方法呢 当用户想让类分量或成分 ClusterComponents 代表标准化变量 未加权的 是软件缺省值 或未标准化变量 若指定用COV 即用协方差矩阵 的均数时 应加CENTROID 当操作的数据对象是样本相关矩阵 缺省值 时 视各变量的重要性相同 当操作的数据对象是样本协方差矩阵 需在过程语句中加COV 时 使具有较大方差的变量起的作用大些 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 14 输出结果及其解释 Totalvariationexplained 4 290718Proportion 0 4291Cluster1willbesplit 这是用分解法思想进行斜交主成分聚类的第 步 把全部10个变量聚成一类 能解释的方差为4 290718 占总方差10的42 91 并预告这一类将被分裂 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 15 Totalvariationexplained 5 654444Proportion 0 5654 类分裂成 类 各含 个指标 此时能解释的方差为5 65444 占总方差10的56 54 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 16 这是每个指标与类成分之间相关系数的平方 如 指标AGE在第 类中 它与第 类成分 相当于因子分析中的第 公因子 之间相关系数的平方是0 5843 称为R SquaredWithOwnCluster 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 17 同理可理解该列中的其他相关系数的含义 第 类中的某个指标与相邻类 此处为第 类 的类成分之间的相关系数的平方 称为R squaredwithNextclosest 如 AGE与第 类成分之间的相关系数的平方为0 2958 该值越小 说明分类越合理 最后一列的比值由同一横行的数据求得 如 1 0 5843 1 0 2958 0 5903 此值越小 表明分类越合理 从最后一列可看出 很多比值较大 说明这10个变量分成 类是不太合适的 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 18 这是从标准化变量预测类成分的标准回归系数 若设C1 C2分别为第 和第 类成分 即 C1 0 233329AGE 0 193211CK 0 262837BJ 0 282748JJ 0 253864BSC2 0 314445TJ 0 284992SG 0 253402XX 0 321956XS 0 269220TS 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 19 类结构相当于因子分析中的因子模型 即每个标准化变量可以表示成全部类成分的线性组合 如 AGE 0 764387C1 0 543839C2 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 20 Noclustermeetsthecriterionforsplitting 类内相关就是类成分之间的相关系数 此时已达到隐含的停止分裂的临界值 停止分裂 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 21 第 列表示分成一类与两类时分别能解释的总方差量 第 列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比 第 列表示分成一类与两类时由 个类成分能解释的方差占全部10个变量的总方差的最小百分比 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 22 第 列为各类中最大的第 特征值 第 列为各类中 个变量与其所在类成分的最小相关系数的平R2 第 列为各类中 1 R2 own 1 R2 next的最大比值 参见前面关于 R squaredwithowncluster nextcluster 部分输出结果及其解释 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 23 上述主要结果是由第 个过程步输出的 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 24 这是第 个过程步输出的主要结果 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 25 这是第 个过程步输出的主要结果 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 26 结合专业知识发现 由第 个过程聚类的结果比较合理 即第 类中含BJ 步距 JJ 步行时双下肢夹角 BS 步速 这三个与走步有关的变量 第 类中含TJ 图片记忆 XS 心算时间 TS 图形顺序记忆 这三个与记忆 计算有关的指标 第 类中含SG 数字广度记忆 XX 心算位数 这两个与记忆 计算有关的指标 第 类中含AGE 年龄 CK 穿孔 这两个与视力和协调能力有关的指标 分类的结果将有助于研究者对影响人脑老化本质的认识 为进一步从事这方面的研究提供了一些线索 专业结论 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 27 5 8用CLUSTER过程实现样品聚类分析 例5 2 某研究者收集了24种菌株 其中17 22号为已知的标准菌株 它们分别取自牛 羊 犬 猪 鼠 绵羊 其他为未知菌株 测得各菌株的16种脂肪酸百分含量 试作样品聚类分析 以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 28 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 29 在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式 即距离的定义方法不同 指定的方法是在METHOD 后面填入 个相应的选择项 它们是 AVERAGE 平均法 CENTROID 重心分量法 COMPLETE 最长距离法 DENSITY 非参数概率密度估计法 EML 最大似然法 FLEXIBLE flexible beta法 MCQUITTY Mcquitty的相似分析法 MEDIAN 中位数法 SINGLE 最短距离法 TWOSTAGE 两阶段密度法 WARD Ward最小方差法 程序说明 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 30 计算新类与其他类之间的距离的递推公式不同 一旦任何两类之间的距离算出来后 仍按距离最小者先合并 用不同的聚类形式对同一批资料进行聚类 其聚类结果不完全相同 需结合专业知识从各种聚类结果中选择最合适的 这11种方法所对应的递推公式从略 感兴趣的读者可参阅有关专著 不同的聚类形式之间的主要区别在于 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 31 第 个过程步是调用CLUSTER过程进行样品聚类分析 选用的聚类形式是平均法 AVERAGE 对变量实施标准化 STANDARD 在选用多数聚类形式时 NONORM阻止距离被正态化成均数为 或均方根为 当METHOD WARD时 NONORM阻止类间平方总平和正态化而产生半偏相关平方 当METHOD DENSITY EML 或TWOSTAGE时 选择项NONORM无效 当METHOD CENTROID MEDIAN或WARD时 NOSQUARE阻止距离被平方 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 32 选择项CCC PSEUDO都是为了计算一些统计量用以判别全部样品究竟聚成几类合适 CCC要求打印出聚类判别据的立方 即判断资料聚成几类合适的一种统计量 及在一致无效假设下近似期望值R2 PSEUDO要求打印伪F 标志PSF 和t2 标志PST2 统计量 当分类数目不同时 它们就有不同的取值 CCC和PSF出现峰值所对应的分类数较合适 PST2出现峰值的前一行所对应的分类数较合适 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 33 OUT TREE产生 个名为TREE的输出数据集 它可被TREE过程用来输出聚类结果的树状图 HORIZONTAL要求将树状图水平置 SPACES 要求置各样品之间的间隔为 所输出的图看上去并不直观 从略 输出结果及其解释 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 34 这是用平均距离法进行样品聚类分析的结果 首先给出的是 相关矩阵的特征值 两相邻特征值之差 各特征值占总方差的百分比和 累计百分比 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 35 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 36 给出了将24个样品依次聚成23 类的结果 NCL为聚类数 ClustersJoined 为每次聚成 个新类的 个样品 标有OB 或旧类 标有CL FREQ为新类中所含的样品数 SPRSQ为半偏R2 它表示每一次合并对信息的损失程度 看这 列的数值可知 从 类合并成 类时损失最多 此统计量表明聚成 类较合适 RSQ为R2 它反映的是累计聚类结果 上一次的R2减去本次半偏R2等于本次R2 从 类合并成 类R2减少了很多 它也支持分 类 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 37 ERSQ为在一致无效假设下近似期望的R2 再结合CCC PSF PST2这 个统计量的值 看看究竟分几类较合适 CCC在NCL 3时达到唯一的峰值1 18 PSF在NCL 16 NCL 8和NCL 3时 次达峰值 但在NCL 3时峰更陡些 PST2在多处出现峰值 但从NCL 3到NCL 2比从NCL 5到NCL 4时峰值增加的幅度更大一些 综合这 个统计量的结果可知 将24个样品分为 类较合适 AverDist为两样品或类间的平均距离 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 38 开始24个样品各自成 类 共有24类 经过 次运算后 将第10号与第11号样品合并成 个新类 记为CL23 因为此时共有23类 经过第 次运算后 将第3号与第4号样品合并成另 个新类 记为CL22 因为此时共有22类 依次类推 下面详细看看样品聚类的过程 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 39 III 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 40 从图上可清楚地看出 聚成 类是较合适的 按图中纵轴方向由上往下样品排列的顺序号 若聚成 类 各类所包含的样品分别为 10 22 21 8 20 由此可看出 第20号样品与其他样品相似程度较小 专业结论因17 22号样品是已知菌株 故得知 24号与21号最接近 16号与22号最接近 23号与19号最接近 10 11 3 4 5 9 2 号与18号最接近 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 41 5 9用FASTCLUS过程进行大样本样品聚类分析 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 42 如果在 例5 2 中的样品数不是24 而是成千上万 甚至更多 用CLUSTER过程就需要计算很长时间 况且 在实际问题中 常希望将样品聚成较少的几类更有实用价值 此时 用SAS中提供的FASTCLUS过程能很好地将资料聚成两类或三类 程序会自动给每个样标上所属类别的标记 于是 可对每类样品作进一步地分析 2020 4 15 西南科技大学生命科学与工程学院周海廷制作 43 例5 3 在 例7 1 中进行了人脑老化资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论