实验3Matlab聚类分析_第1页
实验3Matlab聚类分析_第2页
实验3Matlab聚类分析_第3页
实验3Matlab聚类分析_第4页
实验3Matlab聚类分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Matlab提供了两种方法进行聚类分析。一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。1Matlab中相关函数介绍1.1 pdist函数调用格式:Y=pdist(X,metric)说明:用 metric指定的方法计算 X 数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据

2、集,每个对象的大小为n。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityblock:布洛克距离;minkowski:明可夫斯基距离;cosine:correlation: hamming:jaccard: chebychev:Chebychev距离。1.2 squareform函数 调用格式:Z=squareform(Y,.) 说明: 强制将距离矩阵从上三角形式转化为方阵形式,或从方阵形式转化为上三角形式。1.3 linkage函数调用格式:Z=linkage(Y,method)说 明:用method参

3、数指定的算法计算系统聚类树。 Y:pdist函数返回的距离向量; method:可取值如下: single:最短距离法(默认); complete:最长距离法;average:未加权平均距离法; weighted: 加权平均法;centroid:质心距离法; median:加权质心距离法;ward:内平方距离法(最小方差算法)返回:Z为一个包含聚类树信息的(m-1)3的矩阵。1.4 dendrogram函数调用格式:H,T,=dendrogram(Z,p,)说明:生成只有顶部p个节点的冰柱图(谱系图)。1.5 cophenet函数调用格式:c=cophenetic(Z,Y)说明:利用pdist

4、函数生成的Y和linkage函数生成的Z计算cophenet相关系数。1.6 cluster 函数调用格式:T=cluster(Z,)说明:根据linkage函数的输出Z 创建分类。1.7 clusterdata函数调用格式:T=clusterdata(X,)说明:根据数据创建分类。T=clusterdata(X,cutoff)与下面的一组命令等价:Y=pdist(X,euclid);Z=linkage(Y,single);T=cluster(Z,cutoff);2. Matlab程序2.1 一次聚类法X=11978 12.5 93.5 31908;57500 67.6 238.0 15900

5、;T=clusterdata(X,0.9)2.2 分步聚类Step1 寻找变量之间的相似性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X2=zscore(X); %标准化数据Y2=pdist(X2); %计算距离Step2 定义变量之间的连接Z2=linkage(Y2);Step3 评价聚类信息 C2=cophenet(Z2,Y2); /0.94698Step4 创建聚类,并作出谱系图 T=cluster(Z2,6); H=dendrogram(Z2);分类结果:加拿大,中国,美国,澳大利亚,日本,印尼,巴西,前苏联用MATLAB

6、做聚类分析内容 展示如何使用MATLAB进行聚类分析 生成随机二维分布图形,三个中心 K均值聚类 分层聚类 重新调用K均值法 将分类的结果展示出来 运用高斯混合分布模型进行聚类分析 通过AIC准则寻找最优的分类数 展示如何使用MATLAB进行聚类分析分别运用分层聚类、K均值聚类以及高斯混合模型来进行分析,然后比较三者的结果生成随机二维分布图形,三个中心% 使用高斯分布(正态分布)% 随机生成3个中心以及标准差s = rng(5,v5normal);mu = round(rand(3,2)-0.5)*19)+1;sigma = round(rand(3,2)*40)/10+1;X = mvnrn

7、d(mu(1,:),sigma(1,:),200); . mvnrnd(mu(2,:),sigma(2,:),300); . mvnrnd(mu(3,:),sigma(3,:),400);% 作图P1 = figure;clf;scatter(X(:,1),X(:,2),10,ro);title(研究样本散点分布图) K均值聚类% 距离用传统欧式距离,分成两类cidx2,cmeans2,sumd2,D2 = kmeans(X,2,dist,sqEuclidean);P2 = figure;clf;silh2,h2 = silhouette(X,cidx2,sqeuclidean);从轮廓图上面

8、看,第二类结果比较好,但是第一类有部分数据表现不佳。有相当部分的点落在0.8以下。分层聚类eucD = pdist(X,euclidean);clustTreeEuc = linkage(eucD,average);cophenet(clustTreeEuc,eucD);P3 = figure;clf;h,nodes = dendrogram(clustTreeEuc,20);set(gca,TickDir,out,TickLength,.002 0,XTickLabel,);可以选择dendrogram显示的结点数目,这里选择20 。结果显示可能可以分成三类重新调用K均值法改为分成三类cid

9、x3,cmeans3,sumd3,D3 = kmeans(X,3,dist,sqEuclidean);P4 = figure;clf;silh3,h3 = silhouette(X,cidx3,sqeuclidean);图上看,比前面的结果略有改善。 将分类的结果展示出来P5 = figure;clfptsymb = bo,ro,go,mo,c+;MarkFace = 0 0 1,.8 0 0,0 .5 0;hold onfor i =1:3 clust = find(cidx3 = i); plot(X(clust,1),X(clust,2),ptsymbi,MarkerSize,3,Mar

10、kerFace,MarkFacei,MarkerEdgeColor,black); plot(cmeans3(i,1),cmeans3(i,2),ptsymbi,MarkerSize,10,MarkerFace,MarkFacei);endhold off运用高斯混合分布模型进行聚类分析分别用分布图、热能图和概率图展示结果 等高线% 等高线options = statset(Display,off);gm = gmdistribution.fit(X,3,Options,options);P6 = figure;clfscatter(X(:,1),X(:,2),10,ro);hold onez

11、contour(x,y) pdf(gm,x,y),-15 15,-15 10);hold offP7 = figure;clfscatter(X(:,1),X(:,2),10,ro);hold onezsurf(x,y) pdf(gm,x,y),-15 15,-15 10);hold offview(33,24)热能图cluster1 = (cidx3 = 1);cluster3 = (cidx3 = 2);% 通过观察,K均值方法的第二类是gm的第三类cluster2 = (cidx3 = 3);% 计算分类概率P = posterior(gm,X);P8 = figure;clfplot3

12、(X(cluster1,1),X(cluster1,2),P(cluster1,1),r.)grid on;hold onplot3(X(cluster2,1),X(cluster2,2),P(cluster2,2),bo)plot3(X(cluster3,1),X(cluster3,2),P(cluster3,3),g*)legend(第 1 类,第 2 类,第 3 类,Location,NW)clrmap = jet(80); colormap(clrmap(9:72,:)ylabel(colorbar,Component 1 Posterior Probability)view(-45,

13、20);% 第三类点部分概率值较低,可能需要其他数据来进行分析。% 概率图P9 = figure;clf,order = sort(P(:,1);plot(1:size(X,1),P(order,1),r-,1:size(X,1),P(order,2),b-,1:size(X,1),P(order,3),y-);legend(Cluster 1 Score Cluster 2 Score Cluster 3 Score,location,NW);ylabel(Cluster Membership Score);xlabel(Point Ranking); 通过AIC准则寻找最优的分类数高斯混合模型法的最大好处是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论