




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于快速聚类法的植物分类摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。针对问题一,将数据录入EXCEL表格,运用快速聚类法并采用欧氏距离将Iris数据分成3类,利用SAS软件求解可得3类的频数分别为51、35及64。针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。针对问题三,同问题一的做法但采用距离()将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS软件对各类结果进行比较分析,得出较好的分类。关键词 快速聚类法;
2、SAS软件;欧氏距离;绝对距离;距离一、问题重述植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题:问题一:用快速聚类法将这些数据分成3类,并写出分类结果;问题一:用快速聚类法并采用绝对距离将这些数据分成3类,写出分类结果;问题一:用快速聚类法并采用距离()将这些数据分成3类,写出分类结果。二、问
3、题分析聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。 取某植物的三个种类,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS软件对Iris数据运用快速聚类法分别采用欧氏距离、绝对距离及距离(),从中选择出适当的聚点,进而对数据进行分类。三、基本假设1.数据均真实有效可操作;2.样本均是随机选取;3.不考虑人为因素,检测仪器精确度不同的影响。 四、符号表
4、示萼片长萼片宽花瓣长花瓣宽第种类的样本五、模型的建立与求解5.1 快速聚类法(欧式距离)利用SAS软件对Iris数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示: 表1 初始聚点聚类158.40.12.2.277.38.67.22.357.19.42.13.聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共15
5、0个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类包含64个样本,离聚点的最大距离是17.9732。聚类的大致情况见表2:表2 150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15118.0043333.643423513.7788318.363236417.9732218.3632类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为18.3632,所以第3类与第2类最相近。三个类的变量的样本均值与标准差如表3和表4所示:表3 三个类的变量的样本均值聚类150.34.14.2.
6、268.30.57.21.359.27.44.14.表4 三个类的变量的样本标准差聚类13.4.1.2.24.3.4.2.34.3.5.2. 根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据分布没有第一类集中。5.2 快速聚类法(绝对距离)利用SAS软件对Iris数据采用绝对距离进行快速聚类分析(见附录中程序2),初始聚点如表5所示:表5 初始聚点聚类158.40.12.2.277.38.67.22.357.19.42.13.聚点1、2和3对应的样品号分别为为60、21和77号。聚类中位数如表6所示:表6 聚类中位数聚类150.34.14.2.267.30.56.
7、21.358.27.44.13.分3类的聚类结果如表(见附录中表2)所示,由表6和附录中表2可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是30;第二类包含37个样本,离聚点的最大距离是29;第三类包含62个样本,离聚点的最大距离是29.9983。聚类的大致情况见表7:表7 150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15130.0000357.00
8、2123729.0000330.001736229.9983230.0017类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为30.0017,所以第3类与第2类最相近。5.3 快速聚类法(距离()利用SAS软件对Iris数据采用距离进行快速聚类分析(相关程序见附录中程序3),初始聚点如表8所示:表8 初始聚点聚类158.40.12.2.277.38.67.22.357.19.42.13.聚点1、2和3对应的样品号分别为60、21和77号,最终聚点如表8所示:表8 最终聚点聚类150.34.14.2.268.30.57.20.358.27.44.14.分3类聚类结果如表(见附录中表3
9、)所示,由表8和附录中表3可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是21.1702;第二类包含37个样本,离聚点的最大距离是18.5932;第三类包含62个样本,离聚点的最大距离是19.7812。聚类的大致情况见表9:表9 150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15121.1702339.148523718.5932321.2817362
10、19.7812221.2817类间距离有助于分析类间的近似(或接近)程度,可知第三类与第二类的距离最小,为21.2817,所以第三类与第二类最接近。六、模型评价与推广6.1模型评价优点:(1)利用数学软件SAS对模型进行分析,具有科学性;(2)采用的快速聚类法有成熟的理论基础,可信度较高;(3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。缺点:(1)样本数据稍少,得出的分类方法可能与实际情况相违背;(2)尚未用快速分类法讨论其他的分类数,可能不是最优分类;(3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。6.2模型推广将样本分为其他的类数,运用快速聚类法、利用SAS软件
11、分别求解,通过综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也可以推广到其他植物或动物的分类。参考文献1 范金城,梅长林,数据分析M,北京:科学出版社,2002.附录表1 三种植物个样本聚类结果观测聚类与种子的距离观测聚类与种子的距离观测聚类与种子的距离111.49415114.690110114.2584226.76195214.292810215.2894336.08225336.042810322.5801424.44865414.918610438.1103537.03475514.34051052
12、6.3238614.29745613.477810633.9408727.809657311.293610711.1276835.96315826.75210811.95969118.00435919.24810937.60491016.652260110.16811038.69751133.23166116.0209111212.69611236.25966238.355811227.27031328.18886335.191411313.75431438.17796414.365311438.54281526.78166511.589411535.93271637.63156634.389
13、711614.84841722.47456736.305711736.10721813.47216811.819511835.9181933.09886914.8211933.74472029.48637031.679212035.376521213.321371311.3416121317.97322237.016172112.091812234.99072325.11767312.208912324.66082429.8727428.065812424.682225311.05697528.098812516.55422615.19777637.631512611.41312727.311
14、47739.415212727.136128311.63117826.076512829.04752936.40387913.97512933.07533035.42618018.3313039.86253114.08218121.823131310.91713237.41688227.433513229.10263339.67568335.235813324.04853437.89848428.028513437.30753528.10785316.927613512.70383612.04298634.898313615.00563712.97988735.363137112.353338
15、36.11678819.317713838.152139213.11458913.400813918.16724016.822590213.778814014.03384123.69559137.454814138.19034213.62419216.74314237.05224335.97539336.948614339.05344417.66699439.612514414.484945211.68439536.727214513.29544636.3169610.861414612.16414714.125197116.331147311.25114835.533398316.31511
16、4839.675649316.562499310.807614927.83525024.603310036.68515014.1204表2 三种植物个样本聚类结果观测聚类与种子的距离观测聚类与种子的距离观测聚类与种子的距离1125118101172275216102173310.997953313.0017103264255416104311.00215312.00175515105215616561510637.0017721157314.997910711839.9979582610814913059116109313.00211011160117110315.99791136.00176
17、11111112251239.997962313.001711229132863311.00171131514313.99836416114315.001715276513115310.997916311.99836636.00211161717276738.9983117310.002118176813118310.99791933.0021691711937.0017202147034.0017120310.00172122971316.9983121328.998322314.00177211912237.0021232773131232424218742161242625314.998
18、375212125113261876311.998312614272777313.998312721928318.00177821112821129311.0017791612936.00173039.001780111130314.00213116812613121732313.0017822913221233316.998383311.00171332334316.99798429134311.99833521185328.99831351336138636.99831361837158739.00211371193838.002188114138314.99833922889141391
19、14401109022814016412391312.9979141313.9983421692113142311.00174338.998393311.0017143313.00174411294312.9983144164522395310.00171451646312.99799612.05E-0814613471697122147317.00214837.998398329.998314821149328.998399318.99831492145021310038.998315016表3 三种植物个样本聚类结果观测聚类与种子的距离观测聚类与种子的距离观测聚类与种子的距离111.523
20、75115.35310114.9039226.02665214.749210215.8305337.79435338.671910323.0307423.93655415.315510438.0422539.02175514.602410529.422614.49815613.858310634.373727.078557312.515510711.1138837.17615825.751510812.40569121.170259110.864410939.66521017.726660111.927211039.77291134.54516117.313111216.1321237.674
21、86239.786511227.51211326.99876337.626511314.07411438.76586414.6751114310.83061525.88186511.841311537.011639.47536634.878311615.53921723.73266736.126311736.47821814.5676812.401611837.82051932.78516915.268111934.9052029.60467032.903312036.487421218.360771311.8321121319.78122239.473472113.883812234.742
22、2325.5237312.321912323.989124213.406674211.176712423.454225311.71017528.386812518.08592615.82367639.475312612.01752726.34477739.8797127210.871328313.87797827.384312828.14342938.17597914.62712934.53253035.77728018.9282130310.13983114.67788123.9763131211.43533239.56088226.588813228.860133310.66578337.
23、508413322.315334310.98468427.38113437.65533527.657185319.068913512.84883612.22668634.530413615.62993713.31528735.6666137113.77033836.520188110.4799138310.497239217.79038913.618313919.63694017.490990218.593214014.45134122.91519139.162714138.91094214.49129218.389814238.27034335.87439338.4209143310.735
24、44418.71219439.771314415.038445215.79179537.831214514.07274638.89439610.557514612.45194714.690297117.6764147313.57884835.273998318.98814829.33849318.813199312.000414929.31385027.214110036.412315014.7299程序1:data pjsr;input x1-x4;cards;503314264285622652546156731562463285115463414369315123622245155932
25、181846361026130461460275116653052205625391165305518582751196832592351331755728451362345423773867226333471667335725763066214925451755351326730522370324714643245156128401348311625930511855243811632550196432532352341424936141543045157938642044321326733572150351665826401244301327728672063274918473216255
26、264412502333107232601848301435138162613049184834192503016250321226126561464285621433011158401225138194673144146228481849301425135142563045155827411050341644632142602945155726351057441545036142773061236334562458275119571942137230581654341545242151713059216431551860304818632956184924331056274213573042
27、125542142493115277266923602250155439174662946135227391460344516503415244191425020351055243710582739124732132463115269325723522943137428611959304215513415250351335628492060224010732063186725581849311516731471563234413543715256304113632549146128471264294313512530105728411365305822693154215439134513514
28、3723661256532512061294714562936136931491564275319683055215525401348341624830141452313357255020573817351381535523401366304414682848145434172513715452351525828512467305017633360255337152;proc cluster data=pjsr method=single OUTTREE=tree nonorm;run;proc fastclus data=pjsr out=a1 maxc=3 cluster=c distan
29、ce list;data b1 b2 b3;set a1;if c=1 then output b1;if c=2 then output b2;if c=3 then output b3;proc print data=b1;proc print data=b2;proc print data=b3;run;程序2:data pjsr;input x1-x4;cards;5033142642856226525461567315624632851154634143693151236222451559321818463610261304614602751166530522056253911653
30、055185827511968325923513317557284513623454237738672263334716673357257630662149254517553513267305223703247146432451561284013483116259305118552438116325501964325323523414249361415430451579386420443213267335721503516658264012443013277286720632749184732162552644125023331072326018483014351381626130491848
31、341925030162503212261265614642856214330111584012251381946731441462284818493014251351425630451558274110503416446321426029451557263510574415450361427730612363345624582751195719421372305816543415452421517130592164315518603048186329561849243310562742135730421255421424931152772669236022501554391746629461
32、352273914603445165034152441914250203510552437105827391247321324631152693257235229431374286119593042155134152503513356284920602240107320631867255818493115167314715632344135437152563041136325491461284712642943135125301057284113653058226931542154391345135143723661256532512061294714562936136931491564275
33、319683055215525401348341624830141452313357255020573817351381535523401366304414682848145434172513715452351525828512467305017633360255337152;proc cluster data=pjsr method=single OUTTREE=tree nonorm;run;proc fastclus least=1 data=pjsr out=a1 maxc=3 cluster=c distance list;data b1 b2 b3;set a1;if c=1 th
34、en output b1;if c=2 then output b2;if c=3 then output b3;proc print data=b1;proc print data=b2;proc print data=b3;run;程序3:data pjsr;input x1-x4;cards;50331426428562265254615673156246328511546341436931512362224515593218184636102613046146027511665305220562539116530551858275119683259235133175572845136234542377386722633347166733572576306621492545175535132673052237032471464324515612840134831162593051185524381163255019643253235234142493
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 8642:2025 EN Aerospace - Self-locking nuts with maximum operating temperature greater than 425 °C - Test methods
- 【南阳】2025年河南南阳师范学院公开招聘高层次人才116人笔试历年典型考题及考点剖析附带答案详解
- 2025年初级银行从业资格之初级个人贷款全真模拟考试试卷A卷含答案
- 《模具钳工技能训练(第二版)》技工全套教学课件
- 小学杯子舞教学课件
- 《洪水的危害》教学课件
- 2025年河南省安全员考试题库及答案(试题)
- 小学生科学浮力课件
- 小学生科学发明课件
- 2025年新初三英语人教新版尖子生专题复习《任务型阅读》
- 广元城市IP打造营销规划方案
- 2025年项目管理专业资格考试试题及答案
- 房屋租用合同4篇
- 非公企业党建培训课件
- 2025区域型变电站智能巡视系统技术规范
- (2025)社区网格员笔试考试题库及答案
- 汛期公交安全课件
- 郑荣禄博士谈保险热点话题
- 多维阅读第4级Animal Fathers 动物爸爸 课件
- TJA围手术期血液管理课件
- DB4401-T 5-2018房屋面积测算规范-(高清现行)
评论
0/150
提交评论