蠓的分类问题.doc_第1页
蠓的分类问题.doc_第2页
蠓的分类问题.doc_第3页
蠓的分类问题.doc_第4页
蠓的分类问题.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蠓的分类问题 摘 要:早在1981年, 两类蠓虫Af和Apf已由生物学家W.L.Grogna和W.W.Wirth 根据它们的触角长度和翼长加以区分。根据翼长和触角长来识别一只标本是Af还是Afp是重要的。本文采用判别分析法讨论蠓的分类问题。 针对问题一,采用Mahalanobis 距离判别法,Fisher判别法,Bayes判别法来区别给定的蠓是Af类或Afp类。根据交叉确认估计法求得三种方法的误判率以及运用三种方法,得到问题二的最终判断结果如下表: 判别方法Mahalanobis 距离判别法Fisher判别法Bayes判别法误判率0.06670.06670.0667判别结果问题三需要考虑各总体的先验概率和错判损失,故本文采用Bayes判别法,使得所带来的平均错判损失最小。最终判断结果为:1代表x=(1.24,1.80);2代表x=(1.28,1.84);3代表x=(1.40,2.04)分类比值k0.20.40.60.81.21.41.61.82Af1,2,31,2,31,3Apf21,2,31,2,31,2,31,2,31,2,31,2,3 文章中涉及的三种判别分析方法是相当成熟的,用它们讨论蠓的分类问题非常恰当。本文建立的模型便于修正,而且随着样品数量的增加,精度提高的很快,样本的期望值,标准差和相关函数也很容易重新计算。关键字:Mahalanobis 距离判别法 Fisher判别法 Bayes判别法 误判率 错判损失 先验概率1、 问题重述两种蠓Af和Apf己由生物学家W.L.Grongan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分(见图89A-1),6只Af蠓用“”标记,9只Apf蠓用“”标记。问题一:给定一只Af或者Apf族的蠓,你如何正确地区分它属于哪一族?问题二:将你的方法用于触角长和翼长分别为(1.24,1.80)、(1.28,1.84)、(1.40,2.04)的三个标本。问题三:设Af是宝贵的传粉益虫,Apf是某种疾病的载体,是否应该修改你的分类方法,若需修改,怎么改?2、 模型假设与符号说明2.1模型假设 1、两种蠓虫的触角长和翼长服从二元正态分布。 2、所给的样本数据是无误差的。2.2 符号说明 2.2.1 问题一、二的符号说明:族的 均值向量 : 族的均值向量 :族的 协方差矩阵:族的协方差矩阵: 待判样本空间:族的总体:族的总体 2.2.2 文题三的符号说明 总的误判概率; 总的误判损失;把Apf误判为Af所引起的误判损失;把Af误判为Apf所引起的误判损失; 类别Af的密度函数; 类别Apf的密度函数; 类别Af的先验概率; 类别Apf的先验概率;三、问题分析3.1问题一、二的分析问题一要求根据某个个体的指标(触角长、翼长)值来判断该个体所属的类别。类似这样的问题数学上称之为判别问题。 解决这类问题的方法很多,我们选取三种方法,1)距离判别方法 2)“Fisher”判别方法。 3) “Bayes”判别方法。对于问题二,运用这三种方法判断出的结果并不完全相同,那么哪个判别结果才是最优的呢?这就需要计算每种方法的误判率,通过比较,误判率小的当然是此问题的最佳解决方法,在该方法下得出的结果是最优的。3.2问题三的分析被判样本具有特殊性质,一类是的传粉益虫,一种是病毒载体,一旦误判可能造成严重损失。这种情况下,当然应该选择“Bayes”判别方法。4、 模型建立与求解4.1问题一、二的模型建立与求解4.1.1Mahalanobis 距离判别法提取训练样本的数据: 根据训练样本,求得(matlab实现): 样品x到G的Mahalanobis 距离为:其中V-1为V的逆。 ,V用样本均值代替。 其中,将Mahalanobis 距离用于判别模型,其判别准则为:若 ,则判断 , 若 ,则判断 ; 若 ,则可判断 也可判断. 求解过程由matlab编程实现: 设任给一蠓虫 ,判断结果为: 交叉确认估计法求误判概率(求解过程由matlab编程实现): 去掉,利用剩余的14个样本建立建立距离判别法,带入验证,一次循环检验15次,得到a次验证成功,15-a次验证失败,则误判概率。求解结果为=0.6674.1.2“Fisher”判别方法1、由所给的15只样本计算各总体的样本均值向量和总的平均向量。2、 。3、求,。4、求 的最大特征值及相应单位特征向量。5、判别函数。6、 将 从小到大排序则,的阈值为 。 7、若 ,判断则 ,若,则判断 。求解过程由matlab编程实现: 判断结果为:交叉确认估计法求误判概率(求解过程由matlab编程实现):去掉,利用剩余的14个样本建立Fisher判别法,带入验证,一次循环检验15次,得到b次验证成功,15-b次验证失败,则误判概率。求解结果为=0.6674.1.3“Bayes”判别方法 由于两个总体的各指标服从一元正态分布,故总体服从二元正态分布。又协方差矩阵相等,即。此时有: 要使得总误差概率最小,则有。故判别准则为:由已知可得出现的先验概率结合相关知识我们可得概率密度函数为:其中、分别表示期望、方差和相关系数。再结合matlab软件运行可得相关参数为:(见附录3)Af1.22671.92670.06280.08820.7841Apf1.41331.80440.09900.12990.6285最终结果为:。 交叉确认估计法求误判概率:去掉,利用剩余的14个样本建立Fisher判别法,带入验证,一次循环检验15次,得到c次验证成功,15-c次验证失败,则误判概率。求解结果为=0.667 三种判别方法的误判率相同,所以可以用任意一种方法讨论蠓虫分类问题,各自得到的判断结果都有一定的意义。 4.2问题三的模型建立与求解该问题继续用“Bayes”判别方法进行求解,此时协方差矩阵不相等,即。故有: 由于并未给定,因此我们给定一系列,所以要使得误差损失最小,则有。所以判别准则为: 又由已知可得出现的先验概率 结合相关知识我们可得概率密度函数为: 其中、分别表示期望、方差和相关系数。 再结合matlab软件运行可得相关参数为:(见附录3)Af1.22671.92670.06280.08820.7841Apf1.41331.80440.09900.12990.6285分类比值k0.20.40.60.81.21.41.61.82P(1/2)0.07240.05110.04120.03510.02790.02540.02350.02190.0205P(2/1)0.00650.01060.01380.01660.02140.02340.02540.02720.0289P*0.03290.02680.02480.02400.02400.02420.02460.02510.0256Af1,2,31,2,31,3Apf21,2,31,2,31,2,31,2,31,2,31,2,3最终运行结果为:由表中可知:当k=0.2、0.4时,应该修改分类,分类结果变为:;当k=0.6时,应该修改分类,分类结果变为:。 五、模型评价5.1模型优缺点距离判别及Fisher 判别模型不涉及到各类别的分布情况,只要求均值、方差或协方差存在即可,使应用方便,。不足的是:不能计算误判概率从而考虑因误判引起的损失。 Bayes判别模型依据各类别分布的信息,以考虑误判而引起的损失最小的角度出发,建立判别准则,有较大的实用价值。参考文献 全国大学生数学建模组委会,全国大学生优秀论文汇编(1992-2000),中国物价出版社,2002年三月出版附录: 附录1%距离判别法clear;clcload Af; load Apf;% a1=mean(x1);% a2=mean(x2);%求均值向量% s1=cov(x1);% s2=cov(x2);%求协方差矩阵x=1.24 1.80;1.28 1.84;1.40 2.04;%给出待判样本m1=mean(x1);m2=mean(x2);s1=cov(x1);s2=cov(x2);S=(5*s1+8*s2)/13;for i=1:3, d(i)=(x(i,:)-m1)*inv(S)*(x(i,:)-m1)-(x(i,:)-m2)*inv(S)*(x(i,:)-m2);end% d=mahal(x,x2)-mahal(x,x1);%求马氏距离fprintf(待判样本分类结果为:);Af=find(d0)附录2%Fisher分析clear;clc;load 蠓training=x;group=1,1,1,2,1,1,1,2,2,2,2,2,2,2,2;%给出训练样本training的分类结果sample=1.24 1.80;1.28 1.84;1.40 2.04;%给出待判样本% oldclass=classify(training,training,group);%给出训练样本的回代结果% fprintf(训练样本的回代结果为:);% Af=find(oldclass=1);% Af=Af% Apf=find(oldclass=2);% Apf=Apfnewclass=classify(sample,training,group);%给出待判样本分类结果fprintf(待判样本分类结果为:);Af=find(newclass=1);Af=AfApf=find(newclass=2);Apf=Apfgplotmatrix(training,group);%绘图看分类情况附录3%Bayes判别法以及求误差概率clear;clc;load Af;load Apf;a1=mean(x1);a2=mean(x2);%求均值向量s1=std(x1);s2=std(x2);%求标准差v1=cov(x1);v2=cov(x2);%求协方差矩阵r1=corr(x1(:,1),x1(:,2);%求相关系数r2=corr(x2(:,1),x2(:,2); x=1.24 1.80;1.28 1.84;1.40 2.04;j=1;for i=1:length(x)a=1/2*pi*a1(1,1)*a1(1,2)*sqrt(1-r12);b=-1/2*(1-r12);c=(x(i,1)-a1(1,1)/s1(1,1);d=(x(i,2)-a1(1,2)/s1(1,2);e=c2-2*r1*c*d+d2;f1(1,j)=a*exp(b*e);%求密度函数a=1/2*pi*a2(1,1)*a2(1,2)*sqrt(1-r22);b=-1/2*(1-r22);c=(x(i,1)-a2(1,1)/s2(1,1);d=(x(i,2)-a2(1,2)/s2(1,2);e=c2-2*r2*c*d+d2;f2(1,j)=a*exp(b*e);%求密度函数j=j+1;endp1=6/15;p2=9/15;d=f1*p1-f2*p2;Af=find(d0);Apf=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论