下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精品文档模式识别Iris 数据分类1 欢迎下载 。、实验简述Iris 以鸢尾花的特征作为数据来源,数据集包含150个样本,分为 3 类, 3 类分别为 setosa , versicolor , virginica ,每类 50 个样本,每个样本包含4 个属性,这些属性变量测量植物的花朵,像萼片和花瓣长度等。 本实验通过贝叶斯判别原理对三类样本进行两两分类。假设样本的分布服从正态分布。二、实验原理1、贝叶斯判别原理首先讨论两类情况。用3 1, 3 2表示样本所属类别,假设先验概率 P(3l),P( 3 2)已知。这个假设是合理的,因为如果先验概率未知,可 以从训练特征向量中估算出来。如果N 是
2、训练样本的总数,其中有N, N2个样本分别属于3 1, 3 2,则相应的先验概率为P(3i) = Ni/N,P(3 2)=NJN。另外,假设类条件概率密度函数P(x| 3i),i=1,2,门,是已知的参数, 用来描述每一类特征向量的分布情况。 如果类条件概率密度函数是未知的,则可以从训练数据集中估算出来。概率密度函数P(x|但)也指相对也x的3 i的似然函数。特征向量假定为k维空间中的任何值,密度函数P(x| 3)就变成的概率,可以表示为P(x| s)。P(3i|x) = P(x| 3i)P( 3i)/P(X)精品文档贝叶斯的分类规则最大后验概率准则可以描述为:如果 P(3l|X)/P(3 2
3、冈 > P(32)/P(31),则 X 属于 3 1 类,如果 P(32|X)/P(3l|X)> P(31)/P(32),则 X 属于 3 2 类。2、多元正态分布多变量正态分布也称为多变量高斯分布。它是单维正态分布向多 维的推广。用特征向量X=X1, X2,,XnT来表示多个变量。N维特征 向量的正态分布用下式表示:P(x)= -()其中2表示协方差矩阵,| 2 |表示协方差矩阵的行列式,u为多元正 态分布的均值。三、实验过程1、从样本集中抽取不同数目的样本建立正态模型,将其余的样本作 为测试集,测试模型的性能。3 1表示setosa类,2表示versicolor 类,口 3表示
4、virginica 类。该阶段假定三类样本的先验概率 P( 口 1), P(32),P( 3 3)相等,即给定测试样本特征向量X,条件概率P(3 1|X), P(3 2|x) , P(3 3|x)中最大值表示特征值所属类别。(1)从每一类中随机抽取7个样本建立正态模型,43个作为测试样本, 得到的实验结果如下:3 13 23 3止确分奥数434138止确率10.95340.8837(2)从每一类中随机抽取10个样本建立正态模型,40个作为测试样本,得到的实验结果如下:3 13 23 3止确分奥数403935止确率10.9750.875(3)从每一类中随机抽取20个样本建立正态模型,30个作为测
5、试样本,得到的实验结果如下:3 13 23 3止确分奥数302730止确率10.91(4)从每一类中随机抽取30个样本建立正态模型,20个作为测试样本,得到的实验结果如下:3 13 23 3止确分奥数201919止确率10.950.95(5)从每一类中随机抽取40个样本建立正态模型,10个作为测试样本,得到的实验结果如下:3 13 2GD 3止确分奥数101010止确率111(6)从每一类中随机抽取50个样本建立正态模型,并在所有样本上测试性能,得到的实验结果如下:3 13 2GD 3止确分奥数504849止确率10.960.982、用所有样本建立正态模型,并考虑不同的先验概率P(3l),P(
6、32), P( 33)对分类正确率的影响。根据最大后验概率的判别准则P(3l|x)/ P(3 2|x) > P(3 2)/P( 3 1)是将该样本判为 3 1 类,而P( 3 2), P( 3 2), P( 3 3)是比较难估计的,但根据样本数据可以比较 容易的计算条件概率 P(3 1|X) , P(3 2|X) , P(3 3|X),所以实验估计 先验概率的比值取何值时分类会出现误差。(1)将3 1类的所有样本数据代入三个正态分布的概率密度函数中计算 P(3 1|X)、P(3 2|X)、P(3 3|X),并计算比值 P12=P(3 1|X)/ P(3 2|X)、P13=P(31|x)/
7、 P( 33|x)。其中 P12 的最小值为 r1=2.1721e+09,即5欢迎下载精品文档P( 3 2)/P( 31)大于r 1时第一类会有样本被错判为第二类。P13的最小 值为r2=9.0853e+24,所以当P(3)/P(3)大于r 2时第一类会有样本 被错判为第三类。(2)将3 2类的所有样本数据代入三个正态分布的概率密度函数中计 算 P(3l|X)、P(3 2|X)、P(3 3|X),并计算比值 P2产P(3 2|x)/ P(3l|X)、 %=P(32|x)/ P(33|x)。其中 B的最小值为 ri=6.0689e+27,即P( 3 i)/P( 3 2)大于r i时第二类会有样本
8、被错判为第一类。P23的最小 值为2=0.1825,所以当P(3»/P( 3 2)大于r2时第二类会有样本被 错判为第三类。(3)将3 3类的所有样本数据代入三个正态分布的概率密度函数中计 算 P(3l|x)、P(3 2|x)、P(3 3|x),并计算比值 P3产P(3 3|x)/ P(3l|x)、 R2=P(33|x)/ P(32|x) o 其中 Ri的最小值为 ri=3.364e+94,即P( 3 i)/P( 33)大于ri时第三类会有样本被错判为第一类。P32的最小 值为h=0.6530,所以当P(0 2)/P( 3 3)大于r2时第三类会有样本被错 判为第二类。四、实验分析1
9、、从实验中可以看出随着建模样本数的增加,模型的性能也会有相应的提升, 但也具有一定的随机性, 这和抽取的样本有密切的关联。实验中发现即使取样比较少时3 1类总是可以正确的分类,而错误发生在3 2类和3 3类中。这三类样本的均值Ui, U 2, U 3,和协方差矩阵2 1, 2 2, 2 3如下所示:Ui = 5.0060 3.418. 1.4640 0.2440U2 = 5.9360 2.7700 4.2600 1.3260U3 = 6.5880 2.9740 5.5520 2.02600 0.12420.10010.0161< 0.01050.10030.14520.01170.011
10、40.01610.01170.03010.00570.01050.01140.00520.01159欢迎下载0 0.26640.08520.1829 0.05580.08520.09850.08270.04120.07310.0391 0.0491、0.04760.04880.0754 >»2 =0.1829< 0.05580 0.40430.0938E 3 =0.3033I 0.04910.08270.22080.04120.07310.09380.30330.10400.07140.07140.30460.04760.0488通过对这三类样本均值及协方差的分析可以发现
11、31类的均值距离 3 2类和3 3类的均值比较远,而3 2类和3 3类的均值是比较接近的,同时从3 1类的协方差矩阵中可以看出3 1类样本方差是比较小的,说明数据分布比较集中,所以即使训练过程抽取的样本比较少, 第一类仍然可以和其它两类分开。同样由于31类分布集中,所以只有在P( 3 3)/P( 3 1)和P( 3 2)/P( 3 1)取值很大的情况下,3 1类才会被错误 的判为3 3类和3 2类。其中3 2类和3 3类的均值距离较近,方差也相对大一些,样本分 布比较分散一些,所以当 P(3 2)/P( 3 3)> 0.6530时有第三类样本错 分为第二类,P(3 3)/P( 3 2)>0.1825时有第二类样本被错分为第三类。 这和实验中P(3 3)、P( 3 2)相等时第二类和第三类没有完全分类正确 的结果相吻合。五、实验结论通过实验可以看出当训练样本增加时,模型的预测能力也会有相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二手房转租协议范本详述合同三篇
- 健身房器材销售合同协议
- 医院采购业务评估制度范本
- 医药企业采购部管理制度
- 农产品采购流程管理制度
- 实行绿色采购管理制度
- 医疗耗材药品采购制度
- 房地产集团采购制度
- 山西晋城市2026届高三下学期一模历史试题(含答案)
- 2026年天津市十二区重点学校高考物理模拟试卷(二)含答案
- 100以内看图写数专项练习题(每日一练共6份)
- 移动模架施工安全监理实施细则
- 中兴新云2026年测评-B套题
- 分岗设权内部控制制度
- 2026年全国体育单招考试时事政治(2025.6-2026.1)-2026届中职高考
- 2026年山西经贸职业学院单招职业技能考试题库及答案解析
- 2026年丽水职业技术学院单招职业适应性考试题库带答案详解(基础题)
- 2025年广东中烟工业机电岗位笔试及答案
- 2026浙大二院临床医学博士后招聘备考题库及完整答案详解1套
- 2026 年民政局制式离婚协议书正式范本
- 市政污泥处置及污泥再利用项目可行性研究报告
评论
0/150
提交评论