毕业论文植物的分类问题研究_第1页
毕业论文植物的分类问题研究_第2页
毕业论文植物的分类问题研究_第3页
毕业论文植物的分类问题研究_第4页
毕业论文植物的分类问题研究_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

成 都 信 息 工 程 大 学学 位 论 文植物的分类问题研究论文作者姓名:申请学位专业:申请学位类别:指 导 教 师 姓 名 ( 职 称 ):论文提交日期: 植物的分类问题研究摘 要本文研究了鸢尾属植物的分类和归类问题,利用采集的 150 组样本数据,根据快速聚类原理建立分类模型,将鸢尾属植物分为 3 类。根据距离判别原理建立判别分析模型,对采集的样本进行判别,交叉确认误判率为 2%,误判率较低,并对 3 个待判样品进行判别,得到所属归类。关键词:分类;鸢尾属植物;快速聚类法;距离判别法;SAS 软件;MATLABResearch of Plant Classification ProblemAbstractThis paper analyses the classification and taxonomy of iris, divide the iris into three categories by using the 150 sample data collected according to classify model based on the fast clustering theory. Discriminate the samples through the discriminant analysis model in line with distance discrimination theory, the cross validation misjudgment rate is a relative low 2%, and the classification of three samples need to be discriminated are settled.Key words: Classification; Iris plant; Fast clustering method; Distance discrimination method; SAS; MATLAB目 录论文总页数:17 页1 引言 .11.1 课题背景 .11.2 国内外研究现状 .11.3 本课题研究的意义 .11.4 本课题的研究内容和研究方法 .11.4.1 研究内容 .11.4.2 研究方法 .12 鸢尾花问题 .23 鸢尾花分类模型 .33.1 基本假设 .33.2 符号说明 .33.3 快速聚类 .33.4 建立模型 .53.5 模型求解 .54 鸢尾花判别模型 .74.1 收集训练样本数据 .74.2 模型假设 .84.3 建立模型 .84.4 模型求解 .105 模型推广与评价 .135.1 模型评价 .135.2 模型推广 .14结 语 .14参考文献 .15致 谢 .16声 明 .17第 1 页 共 17 页1 引言1.1 课题背景植物是我们日常生活中极其常见的一种生物,与我们的生活息息相关。植物种类非常之多,地球上已知的植物种类大概就有五十多万种,所以为了能更好的了解、保护和使用植物资源,对植物进行鉴别、分类就显得十分重要,所以科学家创立了植物分类学,开始科学的对植物进行分类研究。1.2 国内外研究现状人类认识世界往往都是先将被认识的对象进行分类,过去的研究主要都是依靠经验和采集大量的数据来对植物进行分类,很少有使用数学工具来进行分类的。但是伴随着时代的发展和技术的提升,人们开始慢慢的把数学工具应用到了分类学当中,这就形成了数值分类学;随着数学方法的不断迭代更新,后来人们又将多元分析的技术应用到了数值分类学当中,最终形成了聚类分析。伴随着计算机的诞生和计算机技术的高速发展,人们将计算机技术应用到了分类学当中,对分类学产生了重大的影响。数值分类学就是建立在数学理论方法基础上,依托计算机的高速运行计算特性来进行分类的。这样的到的结果比较客观,是科学的计算,而不是靠经验的推断,并且研究过程当中,运算速度非常之快,效率非常之高,这些都是以前的分类学家很难做到的。1.3 本课题研究的意义分类不仅仅只局限于植物的分类应用当中,同时分类在其他学科以及我们实际工作当中也有许多应用。比如,在经济学当中,为了了解不同地区的城镇居民的收入和消费情况,往往需要划分不同的类型去研究;在产品质量监管工作当中,往往需要根据产品的某些重要指标来将其划分位一、二、三等品等;在实际工作当中,我们可以设计一个分类模型,可以对股票的涨跌情况进行分类,用来预测股票的后期走势。本文对植物分类问题的研究,在植物的鉴别分类,以及保护植物资源以及生物多样性都有着非常重要的意义。1.4 本课题的研究内容和研究方法1.4.1 研究内容本文主要研究了鸢尾属植物的分类问题,主要采用快速聚类法对其进行聚类分析和距离判别法对其进行判别分析。1.4.2 研究方法学习分类就是要学会一种分类方法或者分类函数。本文首先采用快速聚类的原理方法建立分类模型来对鸢尾属植物进行聚类,并借助数据分析软件 SAS软件对鸢尾属植物的数据进行数据处理和分类;然后使用马氏距离判别原理建立判别分析模型对训练样本进行判别分析,并计算误判率的交叉确认估计;最第 2 页 共 17 页后对分类结果做讨论分析。2 鸢尾花问题本文抽取了 150 组鸢尾属植物的数据作为样本,数据来源于统计学家R.A.Fisher 创建的鸢尾花数据集 1,考察鸢尾属植物中三个不同品种的花的四个形状,每 50 组数据取自同一品种的花,每一种花的相关数据采取如下四种属性来表述(1) :花萼片的长度(毫米) ;1(2) :花萼片的宽度(毫米) ;2(3) :花瓣的长度(毫米) ;3(4) :花瓣的宽度(毫米) ;4抽样数据见表 1。表 1 鸢尾属植物数据表N 1 2 3 4 N 1 2 3 4 N 1 2 3 41 50 33 14 2 51 48 30 14 3 101 47 32 13 22 64 28 56 22 52 51 38 16 2 102 46 31 15 23 65 25 46 15 53 61 30 49 18 103 69 32 57 234 67 31 56 24 54 48 34 19 2 104 52 29 43 135 63 28 51 15 55 50 30 16 2 105 74 28 61 196 46 34 14 3 56 50 32 12 2 106 59 30 42 157 69 31 51 23 57 61 26 56 14 107 51 34 15 28 62 22 45 15 58 64 28 56 21 108 50 35 13 39 59 32 18 18 59 43 30 11 1 109 56 28 49 2010 46 36 10 2 60 58 40 12 2 110 60 22 40 1011 61 30 46 14 61 51 38 19 4 111 73 20 63 1812 60 27 51 16 62 67 31 44 14 112 67 25 58 1813 65 30 52 20 63 62 28 48 18 113 49 31 15 114 56 25 39 11 64 49 30 14 2 114 67 31 47 1515 65 30 55 18 65 51 35 14 2 115 63 23 44 1316 58 27 51 19 66 56 30 45 15 116 54 37 15 217 68 32 59 23 67 58 27 41 10 117 56 30 41 1318 51 33 17 5 68 50 34 16 4 118 63 25 49 1419 57 28 45 13 69 46 32 14 2 119 61 28 47 1220 62 34 54 23 70 60 29 45 15 120 64 29 43 1321 77 38 67 22 71 57 26 35 10 121 51 25 30 1022 63 33 47 16 72 57 44 15 4 122 57 28 41 1323 67 33 57 25 73 50 36 14 2 123 65 30 58 2224 76 30 66 21 74 77 30 61 23 124 69 31 54 2125 49 25 45 17 75 63 34 56 24 125 54 39 13 426 55 35 13 2 76 58 27 51 19 126 51 35 14 327 67 30 52 23 77 57 19 42 13 127 72 36 61 2528 70 32 47 14 78 72 30 58 16 128 65 32 51 20第 3 页 共 17 页29 64 32 45 15 79 54 34 15 4 129 61 29 47 1430 61 28 40 13 80 52 42 15 1 130 56 29 36 1331 48 31 16 2 81 71 30 59 21 131 69 31 49 1532 59 30 51 18 82 64 31 55 18 132 64 27 53 1933 55 24 38 11 83 60 30 48 18 133 68 30 55 2134 63 25 50 19 84 63 29 56 18 134 55 25 40 1335 64 32 53 23 85 49 24 33 10 135 48 34 16 236 52 34 14 2 86 56 27 42 13 136 48 30 14 137 49 36 14 1 87 57 30 42 12 137 45 23 13 338 54 30 45 15 88 55 42 14 2 138 57 25 50 2039 79 38 64 20 89 49 31 15 2 139 57 38 17 340 44 32 13 2 90 77 26 69 23 140 51 38 15 341 67 33 57 21 91 60 22 50 15 141 55 23 40 1342 50 35 16 6 92 54 39 17 4 142 66 30 44 1443 58 26 40 12 93 66 29 46 13 143 68 28 48 1444 44 30 13 2 94 52 27 39 14 144 54 34 17 245 77 28 67 20 95 60 34 45 16 145 51 37 15 446 63 27 49 18 96 50 34 15 2 146 52 35 15 247 47 32 16 2 97 44 19 14 2 147 58 28 51 2448 55 26 44 12 98 50 20 35 10 148 67 30 50 1749 50 23 33 10 99 55 24 37 10 149 63 33 60 2550 72 32 60 18 100 58 27 39 12 150 53 37 15 23 鸢尾花分类模型3.1 基本假设1.本模型采用的数据均真实有效,并且是可操作的。2.样本均为随机抽取。3.不考虑人为因素的影响。3.2 符号说明表 2 符号说明1 花萼片长2 花萼片宽3 花瓣长4 花瓣宽 样品序号( =1,2,150) 第 种类的样本 =1,2,3 3.3 快速聚类首先将抽取的样品进行简单的分类,接着根据样品间的欧氏距离按照一定第 4 页 共 17 页方法逐步调整,最后直到不能再调整为止。快速聚类法适用于样本数目较大的数据集的聚类分析,但是需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。因此在实际中一般要对多个分类的数目进行尝试,来找出合理的分类结果 2。1.选择初始聚点本文在聚类过程中均采用欧氏距离,即: d(, )=|=()()12采用最小最大原则来选择初始聚点,因为最终需要把收集到的 150 个样本分成 3 类,所以初始聚点的选择为 3 个。首先求出所给样品中欧氏距离相距最远的两个样品 为初始的 2 个聚点,即选择 ,使得x1, x2 x1, x2(xi1,x2)=12=由欧氏距离求得 2 个初始聚点 分别是序号为 21 和 60 的样本,即x1, x2=(21,60)=60.9426然后,选择第 3 个聚点 ,使的x3min(x3, x),=1,2=(,),=1,2,1,2由欧氏距离求得的第 3 个初始聚点 是序号为 77 的样本,即x3min(77, x),=1,2=(,),=1,2,1,2=37.7227初始聚点集合为 0=21,60,772.快速聚类法步骤(1)设求出的 3 个初始聚点的集合是 0=x(0)1,x(0)2,x(0)3用下列原则来实现初始分类 (0)i=:(,x(0)(,x(0),=1,2,3,=1,2,3通过这个步骤各个样品将归类成不相交的 3 类,初始分类的原则就是将每个样品归类到最近的初始聚点为一类,这样就可以得到一个初始分类 (0)=(0)1,(0)2,(0)3(2)重新从 开始,来计算新的聚点集合 ,然后把 的重心分别计(0) 1 (0)i算出来作为新的聚点x(1) =1 (0)ix,=1,2,3其中 是 中的样品数。这样,又可以得到新的聚点集合 (0)i(1)=x(1)1,x(1)2,x(1)3接着从 开始,继续对样品做新的分类,同样:(1)第 5 页 共 17 页(1)i=:(,x(1)(,x(1),=1,2,3,=1,2,3得到分类 (1)=(1)1,(1)2,(1)3这样依次计算下去。(3)设在第 m 步得到分类 ()=()1,()2,()3在上面的递推过程当中, 是类 的重心, 可能不一定是样品,也可 x() (1) x()能不是 的重心。当 m 逐渐增大,分类趋于稳定,此时, 就会近似为()i x()的重心,从而 。()i x(+1) x(), (+1)i ()i计算过程中收敛的准则为当选取的聚点,它的改变量的最大距离小于或等于初始聚点之间的最小距离乘以给定的某个数值 。即()=(),(+1) ),=1,2,3和 (0)=(0),(0),=1,2,3,给定的 ,若0 ()(0)则递推计算过程结束。3.4 建立模型算法步骤(1)根据最小最大原则选取 3 个初始聚点;(2)将每个观察样本按就近原则分配给最近的初始聚点;(3)重新把每个聚集中的重心作为新的聚点;(4)不断重复上述(2) , (3)过程直到聚点的变化足够小为止。 下面给出它的工作原理图。图 1 快速聚类法工作原理3.5 模型求解(1)运用最大最小原则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论