植物的分类问题研究毕业论文.docx_第1页
植物的分类问题研究毕业论文.docx_第2页
植物的分类问题研究毕业论文.docx_第3页
植物的分类问题研究毕业论文.docx_第4页
植物的分类问题研究毕业论文.docx_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

植物的分类问题研究毕业论文 目 录论文总页数:17页1 引言11.1 课题背景11.2 国内外研究现状11.3 本课题研究的意义11.4 本课题的研究内容和研究方法11.4.1 研究内容11.4.2 研究方法12 鸢尾花问题23鸢尾花分类模型33.1 基本假设33.2 符号说明33.3 快速聚类33.4 建立模型53.5 模型求解54 鸢尾花判别模型74.1 收集训练样本数据74.2 模型假设84.3 建立模型84.4 模型求解105 模型推广与评价135.1 模型评价135.2 模型推广14结 语14参考文献15致 谢16声 明171 引言1.1 课题背景植物是我们日常生活中极其常见的一种生物,与我们的生活息息相关。植物种类非常之多,地球上已知的植物种类大概就有五十多万种,所以为了能更好的了解、保护和使用植物资源,对植物进行鉴别、分类就显得十分重要,所以科学家创立了植物分类学,开始科学的对植物进行分类研究。1.2 国内外研究现状人类认识世界往往都是先将被认识的对象进行分类,过去的研究主要都是依靠经验和采集大量的数据来对植物进行分类,很少有使用数学工具来进行分类的。但是伴随着时代的发展和技术的提升,人们开始慢慢的把数学工具应用到了分类学当中,这就形成了数值分类学;随着数学方法的不断迭代更新,后来人们又将多元分析的技术应用到了数值分类学当中,最终形成了聚类分析。伴随着计算机的诞生和计算机技术的高速发展,人们将计算机技术应用到了分类学当中,对分类学产生了重大的影响。数值分类学就是建立在数学理论方法基础上,依托计算机的高速运行计算特性来进行分类的。这样的到的结果比较客观,是科学的计算,而不是靠经验的推断,并且研究过程当中,运算速度非常之快,效率非常之高,这些都是以前的分类学家很难做到的。1.3 本课题研究的意义分类不仅仅只局限于植物的分类应用当中,同时分类在其他学科以及我们实际工作当中也有许多应用。比如,在经济学当中,为了了解不同地区的城镇居民的收入和消费情况,往往需要划分不同的类型去研究;在产品质量监管工作当中,往往需要根据产品的某些重要指标来将其划分位一、二、三等品等;在实际工作当中,我们可以设计一个分类模型,可以对股票的涨跌情况进行分类,用来预测股票的后期走势。本文对植物分类问题的研究,在植物的鉴别分类,以及保护植物资源以及生物多样性都有着非常重要的意义。1.4 本课题的研究内容和研究方法1.4.1 研究内容本文主要研究了鸢尾属植物的分类问题,主要采用快速聚类法对其进行聚类分析和距离判别法对其进行判别分析。1.4.2 研究方法学习分类就是要学会一种分类方法或者分类函数。本文首先采用快速聚类的原理方法建立分类模型来对鸢尾属植物进行聚类,并借助数据分析软件SAS软件对鸢尾属植物的数据进行数据处理和分类;然后使用马氏距离判别原理建立判别分析模型对训练样本进行判别分析,并计算误判率的交叉确认估计;最后对分类结果做讨论分析。2 鸢尾花问题本文抽取了150组鸢尾属植物的数据作为样本,数据来源于统计学家R.A.Fisher创建的鸢尾花数据集1,考察鸢尾属植物中三个不同品种的花的四个形状,每50组数据取自同一品种的花,每一种花的相关数据采取如下四种属性来表述(1)x1:花萼片的长度(毫米);(2)x2:花萼片的宽度(毫米);(3)x3:花瓣的长度(毫米);(4)x4:花瓣的宽度(毫米);抽样数据见表1。表1 鸢尾属植物数据表Nx1x2x3x4Nx1x2x3x4Nx1x2x3x415033142514830143101473213226428562252513816210246311523652546155361304918103693257234673156245448341921045229431356328511555503016210574286119646341435650321221065930421576931512357612656141075134152862224515586428562110850351339593218185943301111095628492010463610260584012211060224010116130461461513819411173206318126027511662673144141126725581813653052206362284818113493115114562539116449301421146731471515653055186551351421156323441316582751196656304515116543715217683259236758274110117563041131851331756850341641186325491419572845136946321421196128471220623454237060294515120642943132177386722715726351012151253010226333471672574415412257284113236733572573503614212365305822247630662174773061231246931542125492545177563345624125543913426553513276582751191265135143276730522377571942131277236612528703247147872305816128653251202964324515795434154129612947143061284013805242151130562936133148311628171305921131693149153259305118826431551813264275319335524381183603048181336830552134632550198463295618134552540133564325323854924331013548341623652341428656274213136483014137493614187573042121374523133385430451588554214213857255020397938642089493115213957381734044321329077266923140513815341673357219160225015141552340134250351669254391741426630441443582640129366294613143682848144444301329452273914144543417245772867209560344516145513715446632749189650341521465235152474732162974419142147582851244855264412985020351014867305017495023331099552437101496333602550723260181005827391215053371523 鸢尾花分类模型3.1 基本假设1.本模型采用的数据均真实有效,并且是可操作的。2.样本均为随机抽取。3.不考虑人为因素的影响。3.2 符号说明表2 符号说明x1花萼片长x2花萼片宽x3花瓣长x4花瓣宽Ni样品序号(i=1,2,150)Gi第i种类的样本i=1,2,33.3 快速聚类首先将抽取的样品进行简单的分类,接着根据样品间的欧氏距离按照一定方法逐步调整,最后直到不能再调整为止。快速聚类法适用于样本数目较大的数据集的聚类分析,但是需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。因此在实际中一般要对多个分类的数目进行尝试,来找出合理的分类结果2。1.选择初始聚点本文在聚类过程中均采用欧氏距离,即:dxi, xj=xi-xj=(xi-xjT)(xi-xj)12采用最小最大原则来选择初始聚点,因为最终需要把收集到的150个样本分成3类,所以初始聚点的选择为3个。首先求出所给样品中欧氏距离相距最远的两个样品xi1, xi2为初始的2个聚点,即选择xi1, xi2,使得d(xi1,xi2)=di1i2=maxdij由欧氏距离求得2个初始聚点xi1, xi2分别是序号为21和60的样本,即maxdij=d(N21,N60)=60.9426然后,选择第3个聚点xi3,使的mindxi3, xir,r=1,2=maxmindxj,xir,r=1,2,ji1,i2由欧氏距离求得的第3个初始聚点xi3是序号为77的样本,即mindN77, xir,r=1,2=maxmindxj,xir,r=1,2,ji1,i2=37.7227初始聚点集合为L0=N21,N60,N772.快速聚类法步骤(1)设求出的3个初始聚点的集合是L0=x1(0),x2(0),x3(0)用下列原则来实现初始分类Gi(0)=x:dx,xi0dx,xj0,j=1,2,3,ji,i=1,2,3通过这个步骤各个样品将归类成不相交的3类,初始分类的原则就是将每个样品归类到最近的初始聚点为一类,这样就可以得到一个初始分类G0=G1(0),G2(0),G3(0)(2)重新从G0开始,来计算新的聚点集合L1,然后把Gi(0)的重心分别计算出来作为新的聚点xi1=1nixlGi0xl,i=1,2,3其中ni是Gi(0)中的样品数。这样,又可以得到新的聚点集合L1=x1(1),x2(1),x3(1)接着从L1开始,继续对样品做新的分类,同样:Gi(1)=x:dx,xi1dx,xj1,j=1,2,3,ji,i=1,2,3得到分类G1=G1(1),G2(1),G3(1)这样依次计算下去。(3)设在第m步得到分类Gm=G1(m),G2(m),G3(m)在上面的递推过程当中, xi(m)是类Gi(m-1)的重心,xi(m)可能不一定是样品,也可能不是Gi(m)的重心。当m逐渐增大,分类趋于稳定,此时,xi(m)就会近似为Gi(m)的重心,从而xi(m+1)xim,Gi(m+1)Gi(m)。计算过程中收敛的准则为当选取的聚点,它的改变量的最大距离小于或等于初始聚点之间的最小距离乘以给定的某个数值。即d(m)=maxdxim,xim+1,i=1,2,3和d(0)=mindxi0,xj0,i,j=1,2,3,ij给定的0,若d(m)d(0)则递推计算过程结束。3.4 建立模型算法步骤(1)根据最小最大原则选取3个初始聚点;(2)将每个观察样本按就近原则分配给最近的初始聚点;(3)重新把每个聚集中的重心作为新的聚点;(4)不断重复上述(2),(3)过程直到聚点的变化足够小为止。 下面给出它的工作原理图。图1 快速聚类法工作原理3.5 模型求解(1)运用最大最小原则找出3个初始聚点:由proc fastclus过程3,得到计算结果:初始聚点如表3所示。表3 初始聚点聚点x1x2x3x415840122277386722357194213聚点1、2、3对应的样品号分别为60、21和77号,即初始聚点分别为21号、60号和77号样品。(2)最终聚类中心如表4所示。表4 最终聚类中心聚类中心x1x2x3x4150.2434.0614.692.76268.5030.5057.2420.71358.8527.2043.8714.25根据最终聚类中心的数据分析,其中一类品种的花瓣长度和宽度都是最小的且花萼的长度居中,花萼宽度为最宽,将这一类归为G1类;其中一类品种的花瓣长度和宽度都是最大的且花萼长度为最长,花萼宽度居中,将这一类归为G2类;其中一类品种的花萼长度和花萼宽度都是最小的且花瓣长度和宽度都是居中,将这一类归为G3类。(3)最终聚类结果如表5所示。表5 150个样品分3类情况类号样本个数最邻近类至最邻近类距离G151G333.238G238G318.150G361G218.150结果分析:三个不同品种的鸢尾花的150个样本,其中51个样本属于G1类;另外有38个样本属于G2类;剩余的61个样本属于G3类。而类与类之间的距离有助于分析两个类之间的接近程度,由表可知G2类与G3类之间的距离最小,为18.150,所以G2类与G3类最为相近4。4 鸢尾花判别模型4.1 收集训练样本数据收集鸢尾属植物的三个不同品种的花的形状的数据作为训练样本,收集到的数据如表6所示。表6 鸢尾花的三个不同品种的形状数据编号品种x1x2x3x4编号品种x1x2x3x4编号品种x1x2x3x411503314250265284615993642856222146341435126222451510036731562431463610252259324818101363285115415133175532613046141023693151235155351325426027511610336530522061483116255256253911104365305518715234142562572845131053582751198149361415726333471610636832592391443213258270324714107362345423101503516659264324515108377386722111443013260261284013109367335725121473216261255243811110376306621131483014362254304515111349254517141513816263258264012112367305223151483419264255264412113359305118161503016265250233310114363255019171503212266267314414115364325323181433011167256304515116379386420191584012268258274110117367335721201513819469260294515118377286720211493014270257263510119363274918221513514271257194213120372326018231503416472249243310121361304918241463214273256274213122361265614251574415474257304212123364285621261503614275266294613124362284818271543415476252273914125377306123281524215177260344516126363345624291554214278250203510127358275119301493115279255243710128372305816311543917480258273912129371305921321503415281262294313130364315518331442914282259304215131360304818341473213283260224010132363295618351463115284267314715133377266923361513415285263234413134360225015371503513386256304113135369325723381493115187263254915136374286119391543715288261284712137356284920401543913489264294313138373296318411513514390251253011139367255818421483416291257284113140365305822431483014192261294714141369315421441452313393256293613142372366125451573817394269314915143365325120461513815395255254013144364275319471543417296255234013145368305521481513715497266304414146357255020491523515298268284814147358285124收集三组新的鸢尾属植物数据作为待判样本,待判样本数据如表7所示。表7 待判样本数据序号类型x1x2x3x41待判53371522待判673050173待判633360254.2 模型假设1.本模型采用的数据均真实有效,并且是可操作的。2.三个总体的协方差矩阵相等。3.不考虑人为因素的影响。4.3 建立模型因为收集的样本分为3个总体,所以采取多个总体的距离判别建立判别模型,设3个总体G1,G2,G3的均值向量分别为1,2,3,协方差矩阵分别为1,2,3.计算新样品x到三个总体的马氏距离,比较这三个距离,将x判定给马氏距离最小的总体。若最小距离在不止一个总体达到,可以将x判给任意一个具有最小距离的总体5。前面假设3个总体协方差矩阵相等,即1=2=3=对于任意的两个总体Gi,Gj,x到Gi和Gj的马氏平方距离的差d2x, Gj-d2x, Gi=-2Wjx-Wi(x)其中Wix=aiTx+bi,而ai=-1i,bi=-12iT-1iWjx=ajTx+bj,而aj=-1j,bj=-12jT-1j从而d2x, Gjd2x, GiWixWjx这样可以的到距离判别准则6:若总体Gj0满足Wj0x= max1j3Wjx则判定xGj0;若多于一个j0使得上式成立,则判定x属于满足上式的任何一个Gj0。当总体均值向量1,2,3,以及公共协方差矩阵未知时,可以利用各个总体的训练样本作估计。设x1(j),x2(j),xnj(j)是来自总体Gj的训练样本, j=1,2,k.记j=1nji=1njxij=xj, j=1,2,kSj=1nj-1i=1njxij-xjxij-xjT, j=1,2,k由Sj可以得到的一个联合估计为=1n-kn1-1S1+n2-1S2+n3-1S3=S其中n=j=1knj。以xj(即j),S(即)分别代替j,从而得到相应的Wjx的估计为Wjx=ajTx+bj其中aj=S-1xj,bj=-12xjTS-1xj, j=1,2,k求得线性判别函数Wjx,根据多个总体的距离判别准则:若总体Gj0满足Wj0x= max1j3Wjx则判定xGj0。4.4 模型求解(1)计算各组样本均值,根据公式j=149i=149xi(j)=x(j), j=1,2,3使用MATLAB求解得x1 =50.0000 34.2449 14.6122 2.4694Tx2 =59.2041 27.4490 42.4490 13.1837Tx3 =65.9388 29.6735 55.4286 20.1633T(2)计算样本协方差,根据公式Sj=148i=149xij-xjxij-xjT,j=1,2,3求解得 S1=12.500010.000010.000014.81381.64581.08331.18030.94521.64581.18031.08330.94523.07570.62330.62331.1293S2=25.95758.78158.781511.419217.46905.08678.16924.061617.46908.16925.08674.061621.37766.87416.87413.6947S3=41.10039.77139.771310.391231.23515.30916.97624.533631.23516.97625.30194.533630.66674.53274.53277.2228从而得到的一个联合估计为=48144(S1+S2+S3)=S由此可以求得S=26.51939.51769.517612.208016.78333.82405.44193.180116.78335.44193.82403.181018.37334.01014.01014.0156(3)求S的逆,使用MATLAB求解得S-1=0.1103-0.0525-0.05250.1322-0.09130.02770.0266-0.0812-0.09130.02660.0277-0.08120.1478-0.0817-0.08170.3685(4)求解线性判别函数W(x),根据公式Wjx=ajTx+bj其中aj=S-1xj,bj=-12xjTS-1xj,j=1,2,3使用MATLAB求解得a1=2.4520 2.0869 -1.6962 -1.6789T,b1= -82.5681a2=1.5808 0.5748 0.5211 0.8022T,b2= -71.0300a3=1.2156 0.2932 1.3132 2.3201T,b3= -104.2118从而求得线性判别函数W1x=2.4520x1+2.0869x2-1.6962x3-1.6789x4-82.5681W2x=1.5808x1+0.5748x2+0.5211x3+0.8022x4-71.0300W3x=1.2156x1+0.2932x2+1.3132x3+2.3201x4-104.2118(5)求解待判样本数据将待判样本数据分别代入线性判别函数W1x,W2x,W3x,求解得到结果如表8所示。表8 待判样本结果数据表待判样品序号W1xW2xW3x判归总体195.804343.4382-4.5987G1230.972697.815991.1298G23-2.968198.8458118.8397G3所以,对于三个待判样品,1号判为G1,,2号判为G2,3号判为G3。(5)计算误判率使用MATLAB中classify函数对训练样本进行线性判别分析,得到的结果如表9所示表9 训练样本的判别分析结果样本序号判归总体样本序号判归总体样本序号判归总体1G150G299G32G151G2100G33G152G3101G24G153G2102G35G154G3103G36G155G2104G37G156G2105G38G157G2106G39G158G2107G310G159G2108G311G160G2109G312G161G2110G313G162G2111G314G163G2112G315G164G2113G316G165G2114G317G166G2115G318G167G2116G319G168G2117G320G169G2118G321G170G2119G322G171G2120G323G172G2121G324G173G2122G325G174G2123G326G175G2124G327G176G2125G328G177G2126G329G178G2127G330G179G2128G331G180G2129G332G181G2130G333G182G2131G3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论