已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
3系统聚类法层次聚类法(Hierarchical Clustering)的计算步骤:计算n个样本两两间的距离dij,记D构造n个类,每个类只包含一个样本;合并距离最近的两类为一新类;计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);画聚类图;决定类的个数和类;Matlab软件对系统聚类法的实现(调用函数说明):cluster 从连接输出(linkage)中创建聚类clusterdata 从数据集合(x)中创建聚类dendrogram 画系统树状图linkage 连接数据集中的目标为二元群的层次树pdist 计算数据集合中两两元素间的距离(向量)squareform 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵 X 进行标准化处理 各种命令解释 T = clusterdata(X, cutoff)其中X为数据矩阵,cutoff是创建聚类的临界值。即表示欲分成几类。以上语句等价与以下几句命令: Y=pdist(X,euclid) Z=linkage(Y,single) T=cluster(Z,cutoff)以上三组命令调用灵活,可以自由选择组合方法! T = cluster(Z, cutoff)从逐级聚类树中构造聚类,其中Z是由语句likage产生的(n-1)3阶矩阵,cutoff是创建聚类的临界值。 Z = linkage(Y) Z = linkage(Y, method) 创建逐级聚类树,其中Y是由语句pdist产生的n(n-1)/2 阶向量,method表示用何方法,默认值是欧氏距离(single)。有complete最长距离法;average类平均距离;centroid重心法 ;ward递增平方和等。 Y = pdist(X) Y = pdist(X, metric) 计算数据集X中两两元素间的距离, metric表示使用特定的方法,有欧氏距离euclid(缺失值) 、标准欧氏距离SEuclid 、马氏距离mahal、明可夫斯基距离Minkowski 等。 H = dendrogram(Z) H = dendrogram(Z, p)由likage产生的数据矩阵z画聚类树状图。P是结点数,默认值是30。2.2举例说明设某地区有八个观测点的数据,样本距离矩阵如表1所示,根据最短距离法聚类分析。%最短距离法系统聚类分析X=7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29; 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87; 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76; 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35; 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81;BX=zscore(X); % 标准化数据矩阵Y=pdist(X) % 用欧氏距离计算两两之间的距离D=squareform(Y) % 欧氏距离矩阵Z = linkage(Y) % 最短距离法T = cluster(Z,3) %等价于 T=clusterdata(X,3) find(T=3) % 第3类集合中的元素H,T=dendrogram(Z) % 画聚类图例6.4.1x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92 21.26 16.96 19.52 21.75 6.73;140.54 21.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3;zx=zscore(x);y=pdist(zx);z=linkage(y,average)z = 12.0000 13.0000 0.6656 3.0000 16.0000 0.9931 4.0000 18.0000 1.0711 14.0000 17.0000 1.2032 10.0000 11.0000 1.2670 5.0000 19.0000 1.2756 2.0000 15.0000 1.2833 21.0000 23.0000 1.7088 6.0000 7.0000 1.8245 8.0000 20.0000 1.8799 24.0000 25.0000 2.3302 26.0000 27.0000 2.6476 22.0000 28.0000 2.9664 1.0000 9.0000 3.1788 29.0000 30.0000 5.2728s=北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南dendrogram(z,orientation,right,labels,s)T=cluster(z,5)T = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3find(T=1)ans = 8 12 1314find(T=2)ans = 2 6 7 10 1115find(T=3)ans = 3 4 516find(T=4)ans = 1find(T=5)ans = 9或者:T = clusterdata(zx,distance,euclid,linkage,average,maxclust,5)T = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3它与前面的cluster(z,5)相等5动态聚类法x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92 21.26 16.96 19.52 21.75 6.73;140.54 21.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3;zx=zscore(x);IDX5,C,sumd,D = kmeans(zx,5,distance,sqEuclidean, display,iter); iter phase num sum 1 1 16 18.0256 2 2 2 17.1726 3 2 1 17.1312 4 2 2 16.02194 iterations, total sum of distances = 16.0219IDX5 = 5 1 2 2 2 4 4 3 5 1 1 3 3 3 1 2silh5,h = silhouette(zx,idx5);xlabel(Silhouette Value)ylabel(Cluster)mean(silh5)ans = 0.6309IDX4,C,sumd,D = kmeans(zx,4,distance,sqEuclidean, display,iter); iter phase num sum 1 1 16 27.7259 2 2 4 21.0048 3 2 1 20.21333 iterations, total sum of distances = 20.2133silh4,h = silhouette(zx,IDX4);mean(silh4)ans =0.5631mean(silh5)大于mean(silh4),分五类效果比分四类好。silh4,h = silhouette(zx,IDX4);xlabel(Silhouette Value)ylabel(Cluster)变量聚类在新建的M文件中,输入:function r11=my(r)a,b=size(r);r1=zeros(a,b);r2=r1;for i=1:6; for j=1:6; if ij; r1(i,j)=r(i,j); else i=j; r1(i,j)=r2(i,j); end endendr11=r1(:);r11(find(r11=0)=;将以上命令保存为my.mat的文件。d=1-abs(corr(x);y=my(d)y = 0.3365 0.6629 0.2200 0.2942 0.3654 0.9190 0.3370 0.0985 0.6252 0.9113 0.9386 0.7458 0.1689 0.63650.6888squareform(y)ans = 0 0.3365 0.6629 0.2200 0.2942 0.3654 0.3365 0 0.9190 0.3370 0.0985 0.6252 0.6629 0.9190 0 0.9113 0.9386 0.7458 0.2200 0.3370 0.9113 0 0.1689 0.6365 0.2942 0.0985 0.9386 0.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年石家庄市元氏县保安员招聘考试题库附答案解析
- 2025年山南地区扎囊县保安员招聘考试题库附答案解析
- 丽江事业单位笔试真题2024
- 2025年车辆租赁月付协议
- 东海县事业单位考试真题2024
- 2025年注册会计师考试审计真题汇编
- 北京市第四中学2024-2025学年高一上学期语文期中考试试卷(含答案)
- 2025年雅思阅读冲刺押题培训试卷
- 2025年全省医学职业技术院校医学虚拟仿真实验技能大赛校赛
- 2025年金手指题库及答案(可下载)
- 《结直肠癌诊治》课件
- DB33T 2129-2018 建筑消防设施检测评定技术规程
- iso28000-2022供应链安全管理手册程序文件表单一整套
- 《计算机信息系统安全》期末考试复习题库(含答案)
- 国家电网考试历年真题汇编及解析(204题)
- 毕业论文写作课件
- 急救车调度与重症患者管理制度
- 2023年深圳市龙华区招聘社区网格员考试试题及答案
- 英国介绍课件改
- 新版高中物理必做实验目录及器材-(电子版)
- CJ/T 123-2016 给水用钢骨架聚乙烯塑料复合管
评论
0/150
提交评论