对数据进行聚类分析实验报告.doc_第1页
对数据进行聚类分析实验报告.doc_第2页
对数据进行聚类分析实验报告.doc_第3页
对数据进行聚类分析实验报告.doc_第4页
对数据进行聚类分析实验报告.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对数据进行聚类分析实验报告徐远东 任争刚 权荣一、 基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。二、 实验要求1、 把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。2、 对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。3、 对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。4、 利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会三、 实验步骤及流程图根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE 与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。一、(1)、C均值算法思想C均值算法首先取定C个类别和选取C个初始聚类中心,按最小距离原则将各模式分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小(2)、实验步骤第一步:确定类别数C,并选择C个初始聚类中心。本次试验,我们分别将C的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N时,分为两类时,取第一个点和第个点作为代表点;分为三类时,取第一、个点作为代表点;第二步:将待聚类的样本集中的样本逐个按最小距离规则分划给C个类中的某一类。第三步:计算重新聚类后的个各类心,即各类的均值向量。第四步:如果重新得到的类别的类心与上一次迭代的类心相等,则结束迭代,否则转至第二步。第五步:迭代结束时,换不同的初始值进行试验,将实验结果进行比较(3)、实验流程图(4)、本次试验我们用的聚类指标是误差平方和聚类准则Je设是第聚类的样本数目,是这些样本的均值,则把中得各样本与均值间的误差平方和对所有类相加后为:当C取不同的值时各自算出它们的,进行比较。二、利用分级聚类方法进行聚类1、分级聚类法思想:首先把全部样本作为一类看做一类,然后根据一定的目标函数进行分解。2、步骤第一步:开始时,将全部样本当做一类,第二类即为空集。第二步:将第一类中的第一个样本放入第二类,计算两类样本均值, ,并确定两类别中样本数目N1,N2以及目标函数第三步:将第一类中剩下的所有样本依次放入第二类中,按照上面运算得出E值,并比较E值大小,选择是E值最大的样本,将其归入第二类。并记录此时的E为E(2)第三步:将新的两类按照上面的方法继续划分,直到第i次迭代的E(i)E(i-1)或者到达规定的迭代次数。3、实验流程图四、 实验结果I、1、用FAMALE.TXT和MALE.TXT中的数据组合起来作为样本集:C=2时(1)、取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:得到结果是:星号表示的类别中样本总数为61,点表示的类别中样本总数为39 。两个聚类中心分别为:z1 =(163.5738,53.1541),z2 =(175.8974,68.2692)(2)、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下:最终得到的两个聚类中心分别为:z1 =(163.5738,53.1541),z2 =(175.8974,68.2692)结果可发现取不同的初始聚类中心时两次实验结果相同。它们的=5.9707e+003但是,经过后面的实验我们发现,随着C变大,选取不同的初值对聚类结果有较大影响,当C=2时影响很小,几乎可以不计。因为当分为两类时,样本的类别特征很明显,所以此时选取不同的初值对聚类结果没有影响,而随着C的增加,初值选择对聚类结果影响将会逐渐变大。下面是将男女样本所代表的点分别画到图上可得下图:其中点表示的是女生样本,圆圈表示的是男生样本。其中,男生的样本均值为(173.9200 ,65.5020)女生的样本均值为(162.8400 ,52.5960)通过比较两幅图,可以发现,当去C=2时,对数据进行聚类分析得到的聚类结果基本类似于男女生分类,他们的样本均值相差不大,不过还是有一定差别。差别出现在一些身高低于1.70米的男生处。C=3时得到的聚类结果图如下:最终的三个聚类中心:z1 =(168.8158,57.0105)z2 =(159.2333,49.9333)z3 =(176.4375,70.0156)=3.9251e+003从图中可以看出,当划分为三类时,其结果可以看做按照身高与体重的比将样本进行聚类,身高体重比大,较大,小的分别为一类。C=4时:得到的分来结果如下:得到的四个聚类中心为:z1 =(164.7727,53.3545),z2 =(157.4286,49.2381)z3 =(176.4375,70.0156),z4 =(170.4400,58.2640)=3.4318e+003C=5时得到的聚类结果如下:最终的五个聚类中心分别为:z1 =(170.3462,58.1423),z2 =(158.1579,47.3684),z3 =(163.3913,54.4652)z4 =(176.0741,67.7593)z5 =(178.4000,82.2000)=2.6352e+003C=6时得到的聚类结果如下:最终的6个聚类中心分别为:z1 =(166.9259,54.5889),z2 =(183.3333,66.6667)z3 =(158.3462,49.8462)z4 =(178.0000,80.6667)z5 =(171.4737,60.8158)z6 =(175.6842,68.1842)= 2.5607e+0031、 画出C值与之间的关系曲线如下:由图可以看出,在C=5之后,的减小变得缓慢,所以讲此样本集聚为五类最合理2、 把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,实验结果如下:(1)、取第二十五个和第二百零一个个样本作为初始聚类中心,得出的实验结果图其中, z1 =(165.0479,53.6491),z2 =(176.4506,69.9378)=3.2952e+004分为一类时的为7.1410e+004取第一百个和第三百个样本作为初始聚类中心时得出结果与前面相同。(2)、C=3z1 =(174.5561,64.5024)z2 =(163.3438,51.8742)z3 =(178.8657 ,80.4776) =2.0594e+004(3)、C=4时:=1.6346e+004z1 =(175.4783,65.7908),z2 =(159.8548 ,48.3145)z3 =(179.3684,81.7368),z4 =(167.5567,56.6485)(4)C=5时:=1.3575e+004z1 =(170.0510,57.5020),z2 =(175.3836 ,65.9452)z3 =(160.5732,50.0512),z4 =(179.6667,91.3889)z5 =(178.6429,75.7589)(5)、C=6时其中,= 1.3018e+004z1 =(170.6296,55.1241)z2 =(177.2955,68.0057)z3 =(160.8427,50.6596)z4 =(172.6381,62.9143)z5 =(181.5952,89.1905),z6 =(176.8488,76.8837)画出C值与之间的关系曲线如下与图可知,在C=5之后,的变化缓慢,所以认为此时仍是将样本集分为五类最合适(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:样本C以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的数据作为样本2z1 =(163.5738,53.1541)z2 =(175.8974,68.2692)z1 =(165.0479,53.6491),z2 =(176.4506,69.9378)3z1 =(168.8158,57.0105)z2 =(159.2333,49.9333)z3 =(176.4375,70.0156)z1 =(174.5561,64.5024)z2 =(163.3438,51.8742)z3 =(178.8657 ,80.4776)4z1 =(164.7727,53.3545)z2 =(157.4286,49.2381)z3 =(176.4375,70.0156)z4 =(170.4400,58.2640)z1 =(175.4783,65.7908),z2 =(159.8548 ,48.3145)z3 =(179.3684,81.7368),z4 =(167.5567,56.6485)5z1 =(170.3462,58.1423)z2 =(158.1579,47.3684)z3 =(163.3913,54.4652)z4 =(176.0741,67.7593)z5 =(178.4000,82.2000)z1 =(170.0510,57.5020),z2 =(175.3836 ,65.9452)z3 =(160.5732,50.0512),z4 =(179.6667,91.3889)z5 =(178.6429,75.7589)6z1 =(166.9259,54.5889),z2 =(183.3333,66.6667)z3 =(158.3462,49.8462)z4 =(178.0000,80.6667)z5 =(171.4737,60.8158)z6 =(175.6842,68.1842)z1 =(170.6296,55.1241)z2 =(177.2955,68.0057)z3 =(160.8427,50.6596)z4 =(172.6381,62.9143)z5 =(181.5952,89.1905),z6 =(176.8488,76.8837)从上表可以纵向比较可以看出,C越大,即聚类数目越多,聚类之间差别越小,他们的聚类中心也越接近。横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE,test2中数据作为样本时,由于引入了新的样本,可以发现后者的聚类中心比前者都稍大。但是它们的分布类似,变化不大。II、将两个样本分别用分级聚类方法进行聚类,得出结果,并与C均值聚类法进行比较:1、 对FEMALE与MALE中数据组成的样本集进行聚类:由图可见,分即聚类法将样本分为两类,它们的聚类中心分别为x1 =(163.4667, 53.0400)x2 =(175.7500,68.0625)将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:聚类方法C均值聚类分即聚类聚类中心z1 =(163.5738,53.1541)z2 =(175.8974,68.2692)x1 =(163.4667,53.0400)x2 =(175.7500,68.0625)比较发现它们的聚类结果很相似。2、对由MALE、MALE、test2中数据组成的样本集进行分级类:由图可见,分即聚类法将样本分为两类,它们的聚类中心分别为x1 =(164.9819,53.6229),x2 =(176.4487,69.8868)将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:聚类方法C均值聚类分即聚类聚类中心z1 =(165.0479,53.6491),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论