蠓虫分类问题的数学模型_第1页
蠓虫分类问题的数学模型_第2页
蠓虫分类问题的数学模型_第3页
蠓虫分类问题的数学模型_第4页
蠓虫分类问题的数学模型_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蠓虫分类问题的数学模型摘要本文针对AF和APF两类蠓虫的分类问题分别利用马氏距离法、FISHER判别法和BAYES判别法建立了三个数学模型。首先,利用马氏距离公式建立起样本到两类间距离公式,通过两个距离的大小,样本靠近哪个样本,则判给哪个样本。再采用FISHER判别法,将所有可能组合构成的区域分成两个互不相交的部分,则未知类别的样品落在哪个部分,就判属于那一类。建立此模型的主要目的就是为了将划分成两干个互相不重叠的部分,即找出区域分界面,在数学上就是找出曲面的函数,即判别函数。最后,再结合实际情况,根据误判对损失的影响大小利用BAYES判别法对于以上建立的模型进行优化与改进,是各种损失按概率的加权求和达到最小1问题重述两种蠓虫AF和APF巳由生物学家WLGROGAN和WWWIRTH1981年根据它们的触角长度和翼长加以区分。现测得6只APF和9只AF蠓虫的触角长度和翼长识别的依据是蠓虫的触角和翅膀的长度的数据(见下表),现在要根据数据,制定一种方法,正确区分两类蠓虫;并且将建立的模型将用于已知触角长和翼长三个待定的样本进行识别。且在假设AF是宝贵的传粉益虫,而APF是某种疾病的载体的情况下,对模型加以改进。AF123456789触角长度12413613813813814148154156翼长1721741641821917182182208APF123456触角长度114118120126128130翼长1781961862002001962模型的假设和符号的设定21模型的假设(1)任意的触角长度和翼长属于AF和APF的概率相等;(2)任意触角长度和翼长随机组合;(3)两类蠓虫总体都服从二维正态分布;(4)同一种误判造成损失相等;22符号的说明(1)表示总体,I1,2;IG(2)X到的马氏平方距离,I1,2;,IDI(3)判别函数,I1,2;IWX(4)总体的概率密度函数;IFIG(5)将来自的样品误判来自于后带来的损失。|CJJIG其它需要用到的符号,在后面再做说明。3模型准备之所以将蠓虫归为同一类(AF或APF),是因为它们之间有相同或相近之处,从指标上来讲大小比较接近。而本题的指标有两个(触角长和翼长),对于接近长度应有个准确的算法。如果用欧氏距离为各指标差的平方和,显然不尽合理。因为所选单位或类型不同(如米与厘米,质量与体积),对同样两个样品前后的欧氏距离影响很大,且不同的样本点之间的距离的变化不均匀。为克服这一不应有的现象,可以采用马氏距离对于触角长和翼长两个指标,它们对于判别样本X属于哪一类,一般都有影响。但一般影响不会相同,总有一些指标影响大,一些指标影响小,因此按主要指标进行判别效果应比较好。同时,由于指标之间有一定的相关性,因而主要差异并不一定是某个指标,而经常是指标之间的某个线性组合。只有在这个方向上,样本点分得最开,因而容易区分。以下FISHER判别法将这一思想付诸实施,将所有样本上点向某一条直线投影,在这条特殊的直线上,样本的投影点最分散,最能清楚的反应出分类情况。3模型的建立模型一马氏距离判别法1下面给出相关定义定义若X、Y来自均值向量为、协方差矩阵为的总体的两个样本,则X、Y之间的马氏平方距离为,X与G的马氏平方距离为12,DG。2距离判别的思想有两个总体,给定一个待判样品,我们要判断它来自哪个总体,通过比较样本到总体的距离大小,距哪个总体距离小就属于哪个总体。这里都是基于马氏平方距离。3距离判别模型因为两总体协方差相等,即有,所以X到两总体马12氏平方距离的差为221,DXG11222TTX11TTX记11111112222222AABTTXBXW,其中,其中,再结合上面距离判别思想很容易有下面的距离判别准则112221,XGXX若W若实际生活中,总体的分布往往是不知道的,我们只有根据样本去判断总体,所以我们只有用估计值代替上面各个式子中的相关变量,假设,I1,2,是来自的样本,I1,2,的样本,我1IX1N12IX2N们用、S分别来估计总体的均值、协方差,即用它们分别12替换上面式子中的、,其中112,1NIIX2212NIIX,1111NTIIISX,22221NTIIIX。122SNSS模型二FISHER判别方法1设从两类蠓虫AF和APF中抽取了若干样品(N围向量)AF类(I1、2、3)1(1)1APF类(I1、2、3)2(2)2其中M12令A为中任一方向,则中点X在这条直上的投影是()X,这时上述数据在A上的投影为AF类(I1、2、3)1(1)1APF类(I1、2、3)2(2)2样本组间方差G212A21样本组内方差E212A211(注)指平均值2使达最大值的L即为所求的方向,在根据统计知识知F1111,因而可以通过查表以决定根据显著性水平这些样本点在L上的投影是否可以分类。若可以分类,再求判别函数分界点。一般可取两类样本点的样本均值投影连线的中点或某一定比分点作为分界点。如K2时第一类样本点均值,第二类样本点均值,分界点可取为(1)(2)(1)(2)24模型优化1采用BAYES判别法原因以上两种判别方法均从几何上空间分布来判别,其建立的几何模型在分布上有交叉的区域,如此则会造成误判。考虑实际情况,则不能仅仅根据出现概率判断,如一火箭发射时成功概率为90失败概率为10,则不能判为成功否则将会造成上亿元的损失。考虑到AF是宝贵的传粉益虫,APF是某种疾病的载体,可以采用BAYES判别法对模型进行优化。2用BAYES判别法进行优化对于2维指标观测值,它的取值空间是2维欧氏空间,一个判2R别法实质上是对空间的一个划分,记为1,R1212,RR故一个划分相当于一个判别准则。12,R在准则R下,将本属于总体GI的样品错判为来自其它总体造成的平均损失为1,|,|KIJLPICJI当样品属于总体GI的先验概率为PJ,平均误判损失为11|,KKIIIJLPLCJIR一个最优的划分应使误判的平均损失L达到最小。故BAYES判别即寻求使平均误判损失达到最小12,R在判别准则R下,将属于总体G1的样品误判为属于总体G2的误判概率和误判损失分别为21|,PFXD在判别准则R下,将属于总体G2的样品误判为属于总体G1的误判概率和误判损失分别为12|,FXD平均误判损失为1212|2|,1|,LPLRLPCPRPCPR现在求使平均误判损失达到最小1,1221|,1|,|,LLLPCPCPR使平均误判损失达到最小也就是使误判概率P达到最小2111212221|,|,RRRRRPPFXDFXDPFXDPFXDPFF若时,可使误判概率P达到最小FXF2112XX,GFF若PP则若则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论