




免费预览已结束,剩余4页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模式识别Iris数据分类 一、实验简述Iris以鸢尾花的特征作为数据来源,数据集包含150个样本,分为3类,3类分别为setosa,versicolor,virginica,每类50个样本,每个样本包含4个属性,这些属性变量测量植物的花朵,像萼片和花瓣长度等。本实验通过贝叶斯判别原理对三类样本进行两两分类。假设样本的分布服从正态分布。二、实验原理1、贝叶斯判别原理首先讨论两类情况。用1,2表示样本所属类别,假设先验概率P(1),P(2)已知。这个假设是合理的,因为如果先验概率未知,可以从训练特征向量中估算出来。如果N是训练样本的总数,其中有N1,N2个样本分别属于1,2,则相应的先验概率为P(1)=N1/N,P(2)=N2/N。另外,假设类条件概率密度函数P(x|i),i=1,2,n,是已知的参数,用来描述每一类特征向量的分布情况。如果类条件概率密度函数是未知的,则可以从训练数据集中估算出来。概率密度函数P(x|i)也指相对也x的i的似然函数。特征向量假定为k维空间中的任何值,密度函数P(x|i)就变成的概率,可以表示为P(x|i)。P(i|x) = P(x|i)P(i)/P(x)贝叶斯的分类规则最大后验概率准则可以描述为:如果P(1|x)/P(2|x) P(2) / P(1),则x属于1类,如果P(2|x)/P(1|x) P(1) / P(2),则x属于2类。2、多元正态分布多变量正态分布也称为多变量高斯分布。它是单维正态分布向多维的推广。用特征向量X=x1, x2, xnT来表示多个变量。N维特征向量的正态分布用下式表示:P(x) = 1(2)N/2|1/2exp(-12(x-u)T-1(x-u)其中表示协方差矩阵,|表示协方差矩阵的行列式,u为多元正态分布的均值。三、实验过程1、从样本集中抽取不同数目的样本建立正态模型,将其余的样本作为测试集,测试模型的性能。1表示setosa类,2表示versicolor类,3表示virginica类。该阶段假定三类样本的先验概率P(1),P(2),P(3)相等,即给定测试样本特征向量x,条件概率P(1|x),P(2|x),P(3|x)中最大值表示特征值所属类别。(1)从每一类中随机抽取7个样本建立正态模型,43个作为测试样本,得到的实验结果如下:123正确分类数434138正确率10.95340.8837(2)从每一类中随机抽取10个样本建立正态模型,40个作为测试样本,得到的实验结果如下:123正确分类数403935正确率10.9750.875(3)从每一类中随机抽取20个样本建立正态模型,30个作为测试样本,得到的实验结果如下:123正确分类数302730正确率10.91(4)从每一类中随机抽取30个样本建立正态模型,20个作为测试样本,得到的实验结果如下:123正确分类数201919正确率10.950.95(5)从每一类中随机抽取40个样本建立正态模型,10个作为测试样本,得到的实验结果如下:123正确分类数101010正确率111(6)从每一类中随机抽取50个样本建立正态模型,并在所有样本上测试性能,得到的实验结果如下:123正确分类数504849正确率10.960.982、用所有样本建立正态模型,并考虑不同的先验概率P(1), P(2), P(3)对分类正确率的影响。根据最大后验概率的判别准则P(1|x)/ P(2|x) P(2)/P(1)是将该样本判为1类,而P(2), P(2), P(3)是比较难估计的,但根据样本数据可以比较容易的计算条件概率P(1|x),P(2|x),P(3|x),所以实验估计先验概率的比值取何值时分类会出现误差。(1)将1类的所有样本数据代入三个正态分布的概率密度函数中计算P(1|x)、P(2|x)、P(3|x),并计算比值P12=P(1|x)/ P(2|x)、P13=P(1|x)/ P(3|x)。其中P12的最小值为r1=2.1721e+09,即P(2)/P(1)大于r1时第一类会有样本被错判为第二类。P13的最小值为r2=9.0853e+24,所以当P(3)/P(1)大于r2时第一类会有样本被错判为第三类。(2)将2类的所有样本数据代入三个正态分布的概率密度函数中计算P(1|x)、P(2|x)、P(3|x),并计算比值P21=P(2|x)/ P(1|x)、P23=P(2|x)/ P(3|x)。其中P21的最小值为r1=6.0689e+27,即P(1)/P(2)大于r1时第二类会有样本被错判为第一类。P23的最小值为r2=0.1825,所以当P(3)/P(2)大于r2时第二类会有样本被错判为第三类。(3)将3类的所有样本数据代入三个正态分布的概率密度函数中计算P(1|x)、P(2|x)、P(3|x),并计算比值P31=P(3|x)/ P(1|x)、P32=P(3|x)/ P(2|x)。其中P31的最小值为r1=3.364e+94,即P(1)/P(3)大于r1时第三类会有样本被错判为第一类。P32的最小值为r2=0.6530,所以当P(2)/P(3)大于r2时第三类会有样本被错判为第二类。四、实验分析1、从实验中可以看出随着建模样本数的增加,模型的性能也会有相应的提升,但也具有一定的随机性,这和抽取的样本有密切的关联。实验中发现即使取样比较少时1类总是可以正确的分类,而错误发生在2类和3类中。这三类样本的均值u1, u2, u3,和协方差矩阵1, 2, 3如下所示:u1 = 5.0060 3.418. 1.4640 0.2440u2 = 5.9360 2.7700 4.2600 1.3260u3 = 6.5880 2.9740 5.5520 2.02600.12420.10030.01610.01050.10010.14520.01170.01141 = 0.01610.01170.03010.00520.01050.01140.00570.01150.26640.08520.18290.05580.08520.09850.08270.04122 = 0.18290.08270.22080.07310.05580.04120.07310.03910.40430.09380.30330.04910.09380.10400.07140.04763 = 0.30330.07140.30460.04880.04910.04760.04880.0754通过对这三类样本均值及协方差的分析可以发现1类的均值距离2类和3类的均值比较远,而2类和3类的均值是比较接近的,同时从1类的协方差矩阵中可以看出1类样本方差是比较小的,说明数据分布比较集中,所以即使训练过程抽取的样本比较少,第一类仍然可以和其它两类分开。同样由于1类分布集中,所以只有在P(3)/P(1)和P(2)/P(1)取值很大的情况下,1类才会被错误的判为3类和2类。其中2类和3类的均值距离较近,方差也相对大一些,样本分布比较分散一些,所以当P(2)/P(3) 0.6530时有第三类样本错分为第二类,P(3)/P(2)0.1825时有第二类样本被错分为第三类。这和实验中P(3)、P(2)相等时第二类和第三类没
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脑梗塞遗症的护理查房
- 新人入职汇报
- 急性左心衰病人护理查房
- 消毒和隔离技术规范解读
- 放疗病人教学护理查房
- 2025年招标采购从业人员专业技术能力考试(招标采购项目管理中级)冲刺试题及答案(山东菏泽)
- 腰椎骨折手术病人的护理
- 肺纤维化患者心理护理
- 2025服装购销合同范文
- 老人气管插管护理
- 光存储技术革新-洞察及研究
- 浙江科技大学《高等数学Ⅱ》2025-2026学年期末试卷(A卷)
- 13 唐诗五首《钱塘湖春行》课件
- 电影鉴赏教学课件
- 跨境贸易背景下非遗工艺产业的机遇与挑战
- (高清版)DB11∕T 2456-2025 消防安全管理人员能力评价规范
- 胎心监护及并发症处理
- 2025至2030苯基吡唑类杀虫剂行业市场发展分析及发展前景报告
- 老年病贫血护理
- 锁骨骨折术后护理
- 第五单元晚清时期的内忧外患与救亡图存(单元复习课件)-高一历史(中外历史纲要上册)
评论
0/150
提交评论