Iris数据的结果分类_第1页
Iris数据的结果分类_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 6/6Iris数据的结果分类 Iris 数据的结果分类 摘 要 本文主要讨论了用快速聚类法对R.A.Fisher 的Iris 数据分类的问题。 针对问题一,由样本数目较大且已知分类数目为3,用快速聚类法并用欧式距离对样本分类。通过SAS 软件快速聚类得到样本分类(见文中表1)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类的均值及标准差分析检验分类的合理

2、性。 针对问题二,用快速聚类法并用绝对距离对样本分类。通过SAS 软件快速聚类得到样本分类(见文中表6)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均值绝对值离差分析检验分类的合理性 针对问题三,用快速聚类法并用m L 距离( 1.5m =)对样本分类。通过SAS 软件快速聚类得到样本分类(见文中表11)。根据分类表得到这三类各观测值的取值

3、范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均幂根离差分析检验分类的合理性。 聚类分析,是研究分类问题的一种多元统计方法,被广泛应用在经济、社会、人口等诸多方面。 关键词 快速聚类分析;欧氏距离;绝对距离;()5.1=m L m 距离 一、问题重述 R.A.Fisher 在1936发表的Iris 数据中,研究某植物的萼片长、宽及花瓣长、宽。1x :萼片长,2x :萼片宽,3x

4、 :花瓣长,4x :花瓣宽。R.A.Fisher 取了该植物321,G G G 3个种类,每个种类取50个样品,共150个样品。数据如表1(见附录) 问题一:用快速聚类法将表1数据分3类; 问题二:用快速聚类法并用绝对距离分3类,写出分类结果; 问题三:在题一、题二基础上,用快速聚类法并采用m L 距离)5.1(=m 分3类,写出分类结果。 二、问题分析 针对问题一,采用快速聚类法将表1(见附录)数据分为3类。快速聚类法的步骤:选择聚点,可以通过以下三种方法:经验选择、最小最大原则和将样品随机分为K 类,以每类的重心作为聚点。聚点是一批有代表性的样品,它的选择决定了初始分类,分类数给定后,选取

5、过程会根据递推公式算出初始聚点;然后计算各数据与聚点的欧氏距离并分类,检验分类是否合理,不合理返回到第二步初始分类,修改分类,如此反复循环,直至分类合理。 针对问题二,与题一相似,首先先确定数据的聚点,采用绝对距离聚类分析时,最终聚点应是每一类的中位向量,确定聚点后,进行初步分类,然后计算数据间的绝对距离,根据各数据与聚点间的绝对距离进行分类。检验分类是否合理,修改分类,直至合理为止。 针对问题三,采用快速聚类法并利用m L )5.1(=m 距离将表1数据分为3类。与题一相似,先选择聚点,进行初始分类。采用m L 距离进行快速聚类分析时,最终聚点是每一类的m 中心向量,代入m L 距离公式,求

6、出各数据与聚点的距离,并按大小分类。 三、基本假设 1、假设所有数据都有效; 2、假设所有花无重大变异,即无较大差异; 3、假设该植物样品的选取具有随机性,无人为主观干扰。 四、符号表示 五、模型建立与求解 随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。只凭经验或专业知识对研究对象定性分类,这往往是不够的,有时不能进行确切的分类。于是数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的深入,在数值分类学中形成了聚类分析这一学支,聚类分析是多远数据分析的重要组成部分(1)。本文样本量较大,将采用聚类分析法中快速聚类法对数据分类。 5.1快速聚类法将表1数据分为3类 本

7、文数据样本容量较大,用快速聚类法分类。快速聚类是快速有效的聚类方法。快速聚类法先将样本数据粗略地分一下类,然后将按某种原则进行修正,直至分类比较合理为止。快速聚类的大致过程如图1所示 图1 快速聚类法步骤 用SAS 系统中的proc astclus 过程(见附录)得到以下结果。 快速聚类法按欧氏距离把表1数据分为3类,初始聚点是: =1y T )2,12,40,58(,=2y T )22,67,38,77(,=3y T )13,42,19,57( 它们对应的植物编号是19,58,117.分3类的结果见表1 根据表1分类结合题一分析表1分类的实际意义: 从聚类的情况具体分析,相比第2、3两类,第

8、1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。 通过proc astclus过程可以得到聚类的大致情况,见表2 标准差见表3与表4 平均数和标准差是反映数据集中趋势和离散程度的重要测量值。从表3中可以看出第1类的均值为T )46.2,68.14,10.34,26.50(与其聚点T )2,12,40,58(相近,第1类内4321,x x x x 变量各自对应的标准差分别为 3.794786972,4.338955014,1.899946294,1.05385

9、5894,标准差偏小,说明第1类样品数据较为集中,与聚点偏差不大,分类较好。 第2类的均值为T )42857143.21,77142857.57,88571429.30,65714286.68(与其聚点T )22,67,38,77(相近,第2类内4321,x x x x 变量各自对应的标准差分别为4.910629869,2.908116720,4.608723916,2.671039832标准差偏小,说明第2类数据较为集中,与聚点偏差不大,分类较好。 第3类的均值为T )49230769.14,29230769.44,40.27,30769231.59(与其聚点T )13,42,19,57(相

10、近, 第3类内4321,x x x x 变量各自对应的标准差为4.993505397,3.126499640,5.272935250,2.979739276标准差较小,说明第3类数据较为集中,与聚点偏差不大,分类较好。 综上关于采用欧氏距离将附录中表1数据分3类这3类的均值及标准差的分析,这3类分类合理。 5.2用快速聚类法并用绝对距离分3类 距离与相似系数是聚类分析的出发点,距离是衡量样品间的相似度的量,不同的距离定义,得出的分类结果一般也不同。题一用的是欧氏距离。题二采用绝对距离进行快速聚类。 通过SAS 系统中的proc astclus 过程(见附录)得到以下结果 快速聚类法按绝对距离把

11、表1(附录)数据分为3类,初始聚点是: =*1y T )2,12,40,58(,=*2y T )22,67,38,77(,=*3y T )13,42,19,57( 它们对应的植物编号是19,58,117。 表6同题一的表1相比,题二中的第2类比题一的第2类多了序号为34、131、148的样本,而第3类相比题一减少了序号为34、131、148样本。 进一步地,根据表6数据结合题意分析分类的实际意义,总结如表6 从表7可以看出,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比1、2两类,第3类是萼片较长、萼片

12、较宽、萼片较长、花瓣较宽的植物。 通过proc astclus 过程可以得到聚类的中位数,而在采用绝对距离进行 聚类分析时,最终聚点是每一类的中位向量。故聚类的最终聚点是: T 1)00.2,00.15,00.34,00.50(A T 2)00.21,00.56,00.30,00.67(A T 3)00.14,00.45,00.28,50.58(A (表9数据保留两位小数) 通过proc astclus 过程可以得到聚类与最终聚点的均值绝对离差,各观测值与最终聚点的均值绝对离差可以反映数据的离散程度: 结果见表10,并分析。 从表10可以看出,第1类样品4321,x x x x 各变量与最终聚

13、点的均值绝对离差分别为2.959183675,3.122448983,1.428571429,0.673469389;第2类样品4321,x x x x 各变量与最终聚点的均值绝对离差为3.891891898,2.189189206, 3.864864877,2.405405420;第3类样品4321,x x x x 各变量与最终聚点的均值绝对离差为 3.901639344,2.475409837,4.196721313,2.311475410;可以看出均值绝对离差都很小,说明数据分类较好。 5.3快速聚类法并采用m L 距离将表1数据)5.1(=m 分3类 通过SAS 系统中的proc as

14、tclus 过程(见附录)得到以下结果 快速聚类法按m L )5.1(=m 距离把表1(附录)数据分为3类,初始聚点是: =1?y T )2,12,40,58(,=2?y T )22,67,38,77(,=3?y T )13,42,19,57( 它们对应的植物编号是19,58,117。 表11 150个样品植物按 L )5.1(=m 分3类结果 131样本,而第3类相比题一减少了序号为34、131样本。 进一步地,根据表11的数据结合具体题意探讨题三分类的实际意义,总结如表12 从表12可以看出,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片

15、长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。 表13 150个植物样品按L 距离分3类情况 在采用m L )5.1(=m 距离进行快速聚类时,最终聚点是每一类的m 中心向量。数据见表14 故最终聚点(表中数据保留两位小数)是 T 1)22.2,71.14,09.34,15.50(B T 2)13.21,96.56,72.30,10.68(B ; T 3)22.14,46.44,46.27,98.58(B 表14L )5.1(=m 距离进行快速聚类的聚类中心 在采用m L )5.1(=m 距离进行快速聚类时,通过proc astcl

16、us 过程可以得到各聚类与最终聚点的均幂根离差,各观测值与最终聚点的均幂根离差可以反映各类数据的离散程度进而检验分类的合理性: 数据结果见表15,分析如: 从表15可以看出,第1类各观测值与最终聚点的均幂根离差分别为3.414683310,3.746237604,1.681445166,0.918881035。 第2类各观测值与最终聚点的均幂根离差为 4.3940223312.488035021,4.382797474,2.675404444。 第3类各观测值与最终聚点的均幂根离是4.375899628,2.831501041 4.791177060,2.711656489;这3类与最终聚点的

17、均幂根离差都较小,说明分类合理。 六、模型评价与推广 优点: 1时间复杂度低; 2用 L距离进行聚类分析,有较强的稳健性; m 3. 聚类分析模型结论直观,形式简明易于理解和实现。 缺点: 1算法对初选值敏感; 2如果样本量较大,计算较为麻烦,且难以获得聚类结论。 推广: 聚类分析,是研究分类问题的一种多元统计方法,是多元统计中研究“物以类聚”的一种方法。在经济、社会、人口等诸多方面的研究中,都需要采用聚类分析做分析研究。过去人们主要靠经验做定性分类处理,很少利用数学方法和原理,所以许多的分类往往带有主观性和任意性,不能解释客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题。 聚类分析正处于发展阶段,理论上虽然不很完善,但由于它能够解决许多实际问题,所以现在越来越来多的收到人们的重视。 附录 1、快速聚类法将表1数据分为3类 PROC FASTCLUS DATA=sas1 MAXCLUSTERS=3 OUT=fcl; ID c1; RPOC SORT DATA=fcl OUT=sortfcl; BY cluster; PROC PRINT DATA=sortfcl; RUN; 2、用快速聚类法并用绝对距离分3类 PROC FASTCLUS DATA=sa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论