聚类分析课堂例题_第1页
聚类分析课堂例题_第2页
聚类分析课堂例题_第3页
聚类分析课堂例题_第4页
聚类分析课堂例题_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析课堂例题聚类分析课堂例题 为了研究世界各国森林 草原资源的分布规律 共抽取了 21 个国家的数据 每个国家 4 项指标 原始数据见下表 1 使用该原始数据对国别进行聚类分析 表 1 抽样数据表 国别森林面积 万公顷 森林覆盖率 林木蓄积量 亿立方米 草原面积 万公顷 中国1197812 593 531908 美国2844630 4202 023754 日本250167 224 858 德国102828 414 0599 英国2108 61 51147 法国145826 716 01288 意大利63521 13 6514 加拿大3261332 7192 82385 澳大利 亚 1070013 910 545190 前苏联9200041 1841 537370 捷克45835 88 9168 波兰86827 811 4405 匈牙利16117 42 5129 南斯拉 夫 92936 311 4640 罗马尼 亚 63426 711 3447 保加利 亚 38534 72 5200 印度674820 529 01200 印尼218084 033 71200 尼日利 亚 149016 10 82090 墨西哥485024 632 67450 巴西5750067 6238 015900 MatlabMatlab 解解 答答 Matlab 提供了两种方法进行聚类分析 一种是利用 clusterdata 函数对样本数据进行一次聚类 其缺点为可供用户选择 的面较窄 不能更改距离的计算方法 另一种是分步聚类 1 找到数据集合中变量两两之间的相似性和非相似性 用 pdist 函数计算变量之间的距离 2 用 linkage 函数定义变量之间的连接 3 用 cophenetic 函数评价聚类信息 4 用 cluster 函数创建聚类 1 1 MatlabMatlab 中相关函数介绍中相关函数介绍 1 1 pdist 函数 调用格式 Y pdist X metric 说明 用 metric 指定的方法计算 X 数据矩阵中对象之间的距离 X 一个 m n 的矩阵 它是由 m 个对象组成的数据集 每个对象的 大小为 n metric 取值如下 euclidean 欧氏距离 默认 seuclidean 标准化欧氏距离 mahalanobis 马氏距离 cityblock 布洛克距离 minkowski 明可夫斯基距离 cosine correlation hamming jaccard chebychev Chebychev 距离 1 2 squareform 函数 调用格式 Z squareform Y 说明 强制将距离矩阵从上三角形式转化为方阵形式 或从方阵形式转 化为上三角形式 1 3 linkage 函数 调用格式 Z linkage Y method 说 明 用 method 参数指定的算法计算系统聚类树 Y pdist 函数返回的距离向量 method 可取值如下 single 最短距离法 默认 complete 最长距离法 average 未加权平均距离法 weighted 加权平均法 centroid 质心距离法 median 加权质心距离法 ward 内平方距离法 最小方差算法 返回 Z 为一个包含聚类树信息的 m 1 3 的矩阵 1 4 dendrogram 函数 调用格式 H T dendrogram Z p 说明 生成只有顶部 p 个节点的冰柱图 谱系图 1 5 cophenet 函数 调用格式 c cophenetic Z Y 说明 利用 pdist 函数生成的 Y 和 linkage 函数生成的 Z 计算 cophenet 相 关系数 1 6 cluster 函数 调用格式 T cluster Z 说明 根据 linkage 函数的输出 Z 创建分类 1 7 clusterdata 函数 调用格式 T clusterdata X 说明 根据数据创建分类 T clusterdata X cutoff 与下面的一组命令等价 Y pdist X euclid Z linkage Y single T cluster Z cutoff 2 2 MatlabMatlab 程序程序 2 12 1 一次聚类法一次聚类法 X 11978 12 5 93 5 31908 57500 67 6 238 0 15900 T clusterdata X 0 9 71512 414111613 5 61819 31720 1 9 2 82110 0 0 5 1 1 5 2 2 5 3 3 5 4 x 10 4 谱系图 分类结果 2 22 2 分步聚类分步聚类 Step1 寻找变量之间的相似性 用 pdist 函数计算相似矩阵 有多种方法可以计算距离 进行计算之前 最好先将数据用 zscore 函数进行标准化 X2 zscore X 标准化数据 Y2 pdist X2 计算距离 Step2 定义变量之间的连接 Z2 linkage Y2 Step3 评价聚类信息 C2 cophenet Z2 Y2 0 94698 Step4 创建聚类 并作出谱系图 T cluster Z2 6 H dendrogram Z2 412 15 6 713 19 17 11 1416 520 1 9 2 8 318 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论