




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、对数据进行聚类分析实验报告一、基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析, 从而加深对所学内容的理解和感性认识。二、实验要求1、把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高 和体重数据作为特征,设类别数为 2,利用C均值聚类方法对数据进 行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据 集是否会造成不同的结果。2、对1中的数据利用C均值聚类方法分别进行两类、 三类、四类、五类 聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定
2、出 合理的类别数目。3、对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。4、利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一 起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析, 写出体会三、实验步骤及流程图根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE MALE中数据组成的样本按照上面要求用 C均值法进行聚类分析,然后对FEMALE MALE test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上 述两个样本用分即聚类方法进行聚类, 观察聚类结果。并将两种聚类结果进行比 较。一、(1)、C均
3、值算法思想C均值算法首先取定C个类别和选取C个初始聚类中心,按最小距离原则将各模式 分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模 式到其判届类别中心的距离平方之和最小(2)、实验步骤第一步:确定类别数C,并选择C个初始聚类中心。本次试验,我们分别将 C的 值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为 N时,分为两类时,取第1个点和第INT (N/2)+1个点作为代表点;分为三类时,取第 1、INT (N /3 )+1、INT (2N /3 )+1 个点作为代表点;第二步:将待聚类的样本集中的样本逐个按最小距离规则分划给C个类中的某一类。第三步:计算重新
4、聚类后的个各类心,即各类的均值向量。第四步:如果重新得到的类别的类心与上一次迭代的类心相等,则结束迭代,否则转至第二步。第五步:迭代结束时,换不同的初始值进行试验,将实验结果进行比较(3)、实验流程图(4)、本次试验我们用的聚类指标是误差平方和聚类准则 Je设Ni是第i聚类Ci的样本数目,Zi是这些样本的均值,则把Ci中得各样本y与均值Zi问的误差平方和对所有类相加后为:cJ e一 | y - mi 2当C取不同的值时各自算出它们的J e ,进行比较。二、利用分级聚类方法进行聚类1、分级聚类法思想:首先 把全部样本作为一类看做一类,然后根据一定的目标 函数进行分解。2、步骤第一步:开始时,将全
5、部样本当做一类,第二类即为空集。第二步:将第一类中的所有样本依次放入第二类,计算两类样本均值X1, X2,样本数目N1 ,疆以及目标函数E =生!。1 _X2)'(Xi X2),比较E值大小,选 N择E值最大所对应的样本,将其归入第二类。并记录此时的E为E (1)第三步:将第一类中剩下样本依次放入第二类中, 按照上面运算得出E值,并比 较E值大小,选择E值最大所对应的样本,将其归入第二类。并记录此时的 E 为 E (2)第三步:将新的两类按照上面的方法继续划分, 直到第i次迭代的E(i) <E(i-1 ) 或者到达规定的迭代次数。3、实验流程图四、实验结果I、1、用FAMALE.
6、TXT和MALE.TXT中的数据组合起来作为样本集:C=2时(1)、取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:140145150155160165170175180135190得到结果是:点号表示的类别中样本总数为61,星表示的类别中样本总数为39两个聚类中心分另U为:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )2)、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下:9065807570656。5550454014014515015516。165170175180185190得到结果是:点号表示的类别中样本
7、总数为 61,星表示的类别中样本总数为39两个聚类中心分另U为:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )进行多次试验发现取不同的初始聚类中心时实验结果相同它们的 J e=5.9707e+003但是,经过后面的实验我们发现,初始聚类中心选择影响最后的聚类中心,其能保证优化,而不能保证全局优化,ISODATA在这一点比C-均化更好。卜面是将男女样本所代表的点分别画到图上可得下图:9085S07570656065504540140145150155160165170175130135190其中点表示的是女生样本,圆圈表示的是男生样本。其中,男生
8、的样本均值为 (173.9200 , 65.5020 )女生的样本均值为(162.8400 , 52.5960 )通过比较两幅图,可以发现,当去 C=2时,对数据进行聚类分析得到的聚类结 果基本类似丁男女生分类,他们的样本均值相差不大,不过还是有一定差别。差 别出现在一些身高低丁 1.70米的男生处。C=3时得到的聚类结果图如下:9085807570656055504540 1401451501561601651701761801185190最终的三个聚类中心:A (159.2333 , 49.9333 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.01
9、56 )J e =3.9251e+003从图中可以看出,当划分为三类时,其结果可以看做按照身高与体重的比将样本 进行聚类,身高体重比大,较大,小的分别为一类。C=4时:得到的分来结果如下:90858075706560555045401401451501551&O165170175180135190得到的四个聚类中心为:A (157.4286 , 49.2381 ), B (164.7727 , 53.3545 )C (170.4400 , 58.2640 ), D (176.4375 , 70.0156 )J e =3.4318e+003C=5时得到的聚类结果如下:9085807570
10、656055504540140145150156160165170175180135190最终的五个聚类中心分别为:A (158.1579 , 47.3684 ), B (163.3913 , 54.4652 )C (170.3462 , 58.1423 ), D (176.0741 , 67.7593 )E (178.4000 , 82.2000 )J e=2.6352e+003C=7时得到的聚类结果图如下:90111111185807570656055504540¥140145150155160+ 165170175160185190最终的6个聚类中心分别为:A (158.346
11、2,49.8462 )B(166.9259 ,54.5889 )C (171.4737,60.8158 )D(175.6842 ,68.1842 )E (178.0000,80.6667 )F(183.3333 ,66.6667 )J e= 2.5607e+0031、画出C值与J e之间的关系曲线如下:由图可以看出,拐点离2较近,所以讲此样本集聚为二类最佳2、把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,实验结果如下:(1)、取第二十五个和第二白零一个个样本作为初始聚类中心,得出的实验 结果图其中,A (165.0479 , 53.6491 ), B (176.4506
12、, 69.9378 )J e =3.2952e+004取第一白个和第三白个样本作为初始聚类中心时得出结果与前面相同(3)、C=4 时:oo401oJI7 JIA (163.3438 , 51.8742 ) , B (174.5561 , 64.5024 )C (178.8657 , 80.4776 )Je =2.0594e+004Je=1.6346e+004A (159.8548 , 48.3145 ), B (167.5567 , 56.6485)C (175.4783 , 65.7908 ), D (179.3684 , 81.7368 )(4) C=5 时:130 rtr1O120 -1
13、10 -100 -a o c140150160170180190200Je=1.3575e+004A (160.5732 , 50.0512 ), B (170.0510 , 57.5020 )C (175.3836 ,65.9452 ), D (178.6429,75.7589)E (179.6667 , 91.3889 )(5)、C=6 时40401o06o7o8o620JIo o601.1JI其中,Je = 1.3018e+004A (160.8427 , 50.6596 ) C (172.6381 , 62.9143 ) E (177.2955 , 68.0057 ) B (170.6
14、296 , 55.1241 ) D (176.8488 , 76.8837 ) F (181.5952 , 89.1905 )画出C值与J e之间的关系曲线如下与图可知,拐点离2较近,所以认为此时仍是将样本集分为二类最佳(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的数据作为样木2A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )3A (159.2333 , 49.933
15、3 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.0156)A (163.3438 , 51.8742 ) B (174.5561 , 64.5024 ) C (178.8657, 80.4776 )4A (157.4286 , 49.2381 ) B (164.7727 , 53.3545 ) C (170.4400 , 58.2640) D (176.4375 , 70.0156)A (159.8548 , 48.3145 ) B (167.5567, 56.6485 ) C (175.4783 , 65.7908 ) D (179.3684 , 8
16、1.7368 )5A (158.1579 , 47.3684 ) B (163.3913 , 54.4652 ) C (170.3462 , 58.1423) D (176.0741 , 67.7593) E (178.4000 , 82.2000 )A (160.5732 , 50.0512 ) B (170.0510 , 57.5020 ) C (175.3836 , 65.9452 )D (178.6429,75.7589) E (179.6667, 91.3889 )6A (158.3462 , 49.8462 ) B (166.9259 , 54.5889 ) C (171.4737
17、 , 60.8158) D (175.6842 , 68.1842) E (178.0000 , 80.6667 ) F (183.3333 , 66.6667 )A (160.8427 , 50.6596 ) B (170.6296 , 55.1241 ) C (172.6381 , 62.9143 ) D (176.8488 , 76.8837 ) E (177.2955 , 68.0057 ) F (181.5952 , 89.1905 )从上表可以纵向比较可以看出,C越大,即聚类数目越多,聚类之间差别越小, 他们的聚类中心也越接近。横向比较用FEMALE,MALE中数据作为样本和用FE
18、MALE,MALE , test2中数据作为样本时,由丁引入了新的样本,可以发现后 者的聚类中心比前者都稍大。但是它们的分布类似,变化不大。II、将两个样本分别用分级聚类方法进行聚类,得出结果,并与C均值聚类法进行比较:1、 对FEMALE与MALE中数据组成的样本集进行分级聚类:9085807570656055504540 14014515015516016517017E180185190由图可见,分级聚类法将样本分为两类,它们的聚类中心分别为A (163.4667 , 53.0400 ) B (175.7500 , 68.0625 )将它与C=2时的C均值聚类结果进行比较,分别比较它们的结
19、果图以及聚类中 心,下面是它们的聚类中心比较:聚类方法C均值聚类分级聚类聚类中心A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (163.4667 , 53.0400 )B (175.7500 , 68.0625 )比较发现它们的聚类结果很相似2、对由MALE MALE test2中数据组成的样本集进行分级聚类:* *.140O6501o o3 2o o o1 o 9ODO 8 7 6o O16 4>+*"+ST*4+f *+*1 * $ 4 t itO 8 Ji由图可见,分级聚类法将样本分为两类,它们的聚类中心分别为A (164
20、.9819 , 53.6229 ), B (176.4487 , 69.8868 )将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中 心,下面是它们的聚类中心比较:聚类方法C均值聚类分级聚类聚类中心A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )A (164.9819 , 53.6229 )B (176.4487 , 69.8868 )比较发现它们的聚类结果也很类似分析:比较发现利用分级聚类方法与利用 C均值聚类法时 C取2时的聚类结果极其相似.五、心得体会通过本次试验,我们队 C均值聚类法以及分级聚类法都有了较好的理解,并且
21、在用MATLAB编程方面都有了很大进步。部分代码:C匀值%C=2clc;clear all;FH FW=textread('C:UsersxuydDesktophomeworkFEMALE.txt','%f %f');MH MW=textread('C:UsersxuydDesktophomeworkMALE.txt','%f %f);FA=FH FW;FA=FA'MA=MH MW;MA=MA'for k=1:50NT(:,k)=FA(:,k);endfor k=51:100NT(:,k)=MA(:,k-50);endz1
22、=NT(:,1);z2=NT(:,51);for k=1:100a=z1,b=z2G1=zeros(2,100);G2=zeros(2,100);for i=1:100d1=sqrt(NT(1,i)-z1(1,1)A2+(NT(2,i)-z1(2,1)A2);d2=sqrt(NT(1,i)-z2(1,1)A2+(NT(2,i)-z2(2,1)A2);if d1<d2G1(:,i)=NT(:,i);elseG2(:,i)=NT(:,i);endendG1(:,find(sum(abs(G1),1)=0)=;G2(:,find(sum(abs(G2),1)=0)=;z1=mean(G1,2)
23、;z2=mean(G2,2);if isequal(a,z1)=1&&isequal(z2,b)=1breakendendz1,z2,G1,G2,size(G1,2),size(G2,2)for i=1:size(G1,2)x=G1(1,i);y=G1(2,i);plot(x,y,'G.');hold onendfoz.£sN'e(G2-2)xnG2?mynG2(2uP_of(xy-R*who-d onendpofN(二)N(2iB+-)ho-d onp_ofN2(二)N2(2iB+-)ho-d oncpcCDar a=【FH Fwln(Dxfread(-ocsersxuyd-Deskfop-homework-FEMALE.><f-%f %f-)_【MH Mwln(Dxfread(-9cser
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 控源截污排水工程施工方案试卷教案(2025-2026学年)
- 建筑项目改造计划书编写模板
- 轻量化材料力学特性-洞察及研究
- 高校心理健康主题班会完整方案
- 透析治疗应激反应与细胞因子-洞察及研究
- 科技馆青少年科普活动设计方案
- 花前受精技术成本分析-洞察及研究
- 糖尿病护理流程与注意事项
- 传播理论的后现代转向-洞察及研究
- 初中音乐教案及学情课堂反思报告
- GB/T 20633.2-2011承载印制电路板用涂料(敷形涂料)第2部分:试验方法
- GB/T 15382-2021气瓶阀通用技术要求
- 零星工程维修合同
- DB37-T 4328-2021 建筑消防设施维护保养技术规程
- 防盗门安装施工方案50173
- 传染病布氏菌病 课件
- 航空器紧固件安装及保险课件
- 初始过程能力研究报告-PPK
- 普通话班会课市公开课金奖市赛课一等奖课件
- 摄影器材公司销售和顾客服务质量管理方案
- 钢筋的计算截面面积表
评论
0/150
提交评论