对数据进行聚类分析实验报告.doc_第1页
对数据进行聚类分析实验报告.doc_第2页
对数据进行聚类分析实验报告.doc_第3页
对数据进行聚类分析实验报告.doc_第4页
对数据进行聚类分析实验报告.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对数据进行聚类分析实验报告一、 基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。二、 实验要求1、 把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。2、 对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。3、 对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。4、 利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会三、 实验步骤及流程图根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE 与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。一、(1)、C均值算法思想C均值算法首先取定C个类别和选取C个初始聚类中心,按最小距离原则将各模式分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小(2)、实验步骤第一步:确定类别数C,并选择C个初始聚类中心。本次试验,我们分别将C的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N时,分为两类时,取第1个点和第个点作为代表点;分为三类时,取第1、个点作为代表点;第二步:将待聚类的样本集中的样本逐个按最小距离规则分划给C个类中的某一类。第三步:计算重新聚类后的个各类心,即各类的均值向量。第四步:如果重新得到的类别的类心与上一次迭代的类心相等,则结束迭代,否则转至第二步。第五步:迭代结束时,换不同的初始值进行试验,将实验结果进行比较(3)、实验流程图(4)、本次试验我们用的聚类指标是误差平方和聚类准则Je设是第聚类的样本数目,是这些样本的均值,则把中得各样本与均值间的误差平方和对所有类相加后为:当C取不同的值时各自算出它们的,进行比较。二、利用分级聚类方法进行聚类1、分级聚类法思想:首先把全部样本作为一类看做一类,然后根据一定的目标函数进行分解。2、步骤第一步:开始时,将全部样本当做一类,第二类即为空集。第二步:将第一类中的所有样本依次放入第二类,计算两类样本均值, ,样本数目,以及目标函数,比较E值大小,选择E值最大所对应的样本,将其归入第二类。并记录此时的E为E(1)第三步:将第一类中剩下样本依次放入第二类中,按照上面运算得出E值,并比较E值大小,选择E值最大所对应的样本,将其归入第二类。并记录此时的E为E(2)第三步:将新的两类按照上面的方法继续划分,直到第i次迭代的E(i)E(i-1)或者到达规定的迭代次数。3、实验流程图四、 实验结果I、1、用FAMALE.TXT和MALE.TXT中的数据组合起来作为样本集:C=2时(1)、取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:得到结果是:点号表示的类别中样本总数为61,星表示的类别中样本总数为39 。两个聚类中心分别为: A(163.5738,53.1541),B(175.8974,68.2692)2)、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下:得到结果是:点号表示的类别中样本总数为61,星表示的类别中样本总数为39。两个聚类中心分别为: A(163.5738,53.1541),B(175.8974,68.2692)进行多次试验发现取不同的初始聚类中心时实验结果相同。它们的=5.9707e+003但是,经过后面的实验我们发现,初始聚类中心选择影响最后的聚类中心,其能保证优化,而不能保证全局优化,ISODATA在这一点比C-均化更好。下面是将男女样本所代表的点分别画到图上可得下图:其中点表示的是女生样本,圆圈表示的是男生样本。其中,男生的样本均值为(173.9200 ,65.5020)女生的样本均值为(162.8400 ,52.5960)通过比较两幅图,可以发现,当去C=2时,对数据进行聚类分析得到的聚类结果基本类似于男女生分类,他们的样本均值相差不大,不过还是有一定差别。差别出现在一些身高低于1.70米的男生处。C=3时得到的聚类结果图如下:最终的三个聚类中心:A(159.2333,49.9333)B(168.8158,57.0105)C(176.4375,70.0156)=3.9251e+003从图中可以看出,当划分为三类时,其结果可以看做按照身高与体重的比将样本进行聚类,身高体重比大,较大,小的分别为一类。C=4时:得到的分来结果如下:得到的四个聚类中心为:A(157.4286,49.2381),B(164.7727,53.3545)C(170.4400,58.2640),D(176.4375,70.0156)=3.4318e+003C=5时得到的聚类结果如下:最终的五个聚类中心分别为:A(158.1579,47.3684),B(163.3913,54.4652)C(170.3462,58.1423),D(176.0741,67.7593)E(178.4000,82.2000)=2.6352e+003C=6时得到的聚类结果如下:最终的6个聚类中心分别为:A(158.3462,49.8462)B(166.9259,54.5889)C(171.4737,60.8158)D(175.6842,68.1842)E(178.0000,80.6667)F(183.3333,66.6667)= 2.5607e+0031、 画出C值与之间的关系曲线如下:由图可以看出,拐点离2较近,所以讲此样本集聚为二类最佳2、 把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,实验结果如下:(1)、取第二十五个和第二百零一个个样本作为初始聚类中心,得出的实验结果图其中, A(165.0479,53.6491),B(176.4506,69.9378)=3.2952e+004取第一百个和第三百个样本作为初始聚类中心时得出结果与前面相同。(2)、C=3A(163.3438,51.8742), B(174.5561,64.5024)C(178.8657 ,80.4776) =2.0594e+004(3)、C=4时:=1.6346e+004A(159.8548 ,48.3145),B(167.5567,56.6485)C(175.4783,65.7908),D(179.3684,81.7368)(4)C=5时:=1.3575e+004A(160.5732,50.0512),B(170.0510,57.5020)C(175.3836 ,65.9452),D(178.6429,75.7589)E(179.6667,91.3889)(5)、C=6时其中,= 1.3018e+004A(160.8427,50.6596)B(170.6296,55.1241)C(172.6381,62.9143)D(176.8488,76.8837)E(177.2955,68.0057)F(181.5952,89.1905)画出C值与之间的关系曲线如下与图可知,拐点离2较近,所以认为此时仍是将样本集分为二类最佳(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:样本C以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的数据作为样本2A(163.5738,53.1541)B(175.8974,68.2692)A(165.0479,53.6491)B(176.4506,69.9378)3A(159.2333,49.9333)B(168.8158,57.0105)C(176.4375,70.0156)A(163.3438,51.8742)B(174.5561,64.5024)C(178.8657,80.4776)4A(157.4286,49.2381)B(164.7727,53.3545)C(170.4400,58.2640)D(176.4375,70.0156)A(159.8548 ,48.3145)B(167.5567,56.6485)C(175.4783,65.7908)D(179.3684,81.7368)5A(158.1579,47.3684)B(163.3913,54.4652)C(170.3462,58.1423)D(176.0741,67.7593)E(178.4000,82.2000)A(160.5732,50.0512)B(170.0510,57.5020)C(175.3836 ,65.9452)D(178.6429,75.7589)E(179.6667,91.3889)6A(158.3462,49.8462)B(166.9259,54.5889)C(171.4737,60.8158)D(175.6842,68.1842)E(178.0000,80.6667)F(183.3333,66.6667)A(160.8427,50.6596)B(170.6296,55.1241)C(172.6381,62.9143)D(176.8488,76.8837)E(177.2955,68.0057)F(181.5952,89.1905)从上表可以纵向比较可以看出,C越大,即聚类数目越多,聚类之间差别越小,他们的聚类中心也越接近。横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE,test2中数据作为样本时,由于引入了新的样本,可以发现后者的聚类中心比前者都稍大。但是它们的分布类似,变化不大。II、将两个样本分别用分级聚类方法进行聚类,得出结果,并与C均值聚类法进行比较:1、 对FEMALE与MALE中数据组成的样本集进行分级聚类:由图可见,分级聚类法将样本分为两类,它们的聚类中心分别为A(163.4667, 53.0400)B(175.7500,68.0625)将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:聚类方法C均值聚类分级聚类聚类中心A(163.5738,53.1541)B(175.8974,68.2692)A(163.4667,53.0400)B(175.7500,68.0625)比较发现它们的聚类结果很相似。2、对由MALE、MALE、test2中数据组成的样本集进行分级聚类:由图可见,分级聚类法将样本分为两类,它们的聚类中心分别为A(164.9819,53.6229),B(176.4487,69.8868)将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:聚类方法C均值聚类分级聚类聚类中心A(165.0479,53.6491)B(176.4506,69.9378)A(164.9819,53.6229)B(176.4487,69.8868)比较发现它们的聚类结果也很类似分析:比较发现利用分级聚类方法与利用C均值聚类法时C取2时的聚类结果极其相似 .五、 心得体会通过本次试验,我们队C均值聚类法以及分级聚类法都有了较好的理解,并且在用MATLAB编程方面都有了很大进步。部分代码:C均值%C=2clc;clear all;FH FW=textread(C:UsersxuydDesktophomeworkFEMALE.txt,%f %f);MH MW=textread(C:UsersxuydDesktophomeworkMALE.txt,%f %f);FA=FH FW;FA=FA;MA=MH MW;MA=MA;for k=1:50 NT(:,k)=FA(:,k);end for k=51:100 NT(:,k)=MA(:,k-50); end z1=NT(:,1);z2=NT(:,51); for k=1:100 a=z1,b=z2 G1=zeros(2,100);G2=zeros(2,100); for i=1:100 d1=sqrt(NT(1,i)-z1(1,1)2+(NT(2,i)-z1(2,1)2); d2=sqrt(NT(1,i)-z2(1,1)2+(NT(2,i)-z2(2,1)2); if d1a x1=X1; x2=X2; p1=G1; p2=G2; B(1,k)=E ; G1=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论