iris数据集的贝叶斯分类_第1页
iris数据集的贝叶斯分类_第2页
iris数据集的贝叶斯分类_第3页
iris数据集的贝叶斯分类_第4页
iris数据集的贝叶斯分类_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IRIS数据集的Bayes分类实验一、 实验原理1) 概述模式识别中的分类问题是根据对象特征的观察值将对象分到某个类别中去。统计决策理论是处理模式分类问题的根本理论之一,它对模式分析和分类器的设计有着实际的指导意义。贝叶斯Bayes决策理论方法是统计模式识别的一个根本方法,用这个方法进行分类时需要具备以下条件: 各类别总体的分布情况是的。 要决策分类的类别数是一定的。其根本思想是:以Bayes公式为根底,利用测量到的对象特征配合必要的先验信息,求出各种可能决策情况分类情况的后验概率,选取后验概率最大的,或者决策风险最小的决策方式(分类方式)作为决策分类的结果。也就是说选取最有可能使得对象具有现

2、在所测得特性的那种假设,作为判别的结果。常用的Bayes判别决策准那么有最大后验概率准那么MAP,极大似然比准那么ML,最小风险Bayes准那么,Neyman-Pearson准那么N-P等。2) 分类器的设计对于一个一般的c类分类问题,其分类空间:表特性的向量为:其判别函数有以下几种等价形式:a) , b)c)d)3) IRIS数据分类实验的设计 IRIS数据集:一共具有三组数据,每一组都是一个单独的类别,每组有50个数据,每个数据都是一个四维向量。其分类空间为:表特性的向量为: 实验目的:利用Bayes判别准那么对三组数据进行分类,希望能够尽量准确的判断出从IRIS数据集中选取的样本所属的类

3、别。 实验设计思路:将每个数据看作是一个具有4维特征的观察样本假设每类数据的每维都的分别服从正态分布即并且两两独立。由数理统计理论可知,样本均值和修正方差分别为和的无偏估计量,故可近似为求得和为:贝叶斯决策规那么选取:由于不同维度数据两两独立,故其中:另让门限值:其中:和为所选待分类样本j类数据和i类的个数,属于先验知识。比拟与门限值的大小判断样本所属类别最后计算分类的正确率二、 实验过程1) 求取每类数据的每个分量的均值和修正方差数代码如下:sum=zeros(3,4);sd=zeros(3,4);for j=1:1:4for i=1:1:50$ for i=1:1:20 $ sum(1,j

4、)=sum(1,j)+sample1(i,j); sum(2,j)=sum(2,j)+sample2(i,j); sum(3,j)=sum(3,j)+sample3(i,j);endendsum=sum/50; $sum=sum/20;$for j=1:1:4for i=1:1:50 sd(1,j)=sd(1,j)+(sample1(i,j)-sum(1,j)2; sd(2,j)=sd(2,j)+(sample2(i,j)-sum(2,j)2; sd(3,j)=sd(3,j)+(sample3(i,j)-sum(3,j)2;endendsd=sd/49;$ sd=sd/19; $其中每类数据都

5、有4组均值和修正方差,3类数据总共12组,分别存放在sum 和sd这两个34的矩阵中。2) 用一个函数来实现分类器的功能,代码如下function clfresult,accuracyrate = bayesclassifier(samples,dimen,sum,sd,mode1,mode2)clfresult=zeros(dimen,2);if (mode1(1,1)=0)&(mode1(1,2)=0)&(mode1(1,3)=0) compare=1,2;endif (mode1(1,1)=0)&(mode1(1,2)=0)&(mode1(1,3)=0) compare=1,3;endi

6、f (mode1(1,1)=0)&(mode1(1,2)=0)&(mode1(1,3)=0) compare=2,3;endcompare1=compare(1,1);compare2=compare(1,2);class=zeros(1,3);la=zeros(1,4);lb=zeros(1,4);for i=1:1:dimenif samples(i,5)=1 class(1,1)=class(1,1)+1;endif samples(i,5)=2 class(1,2)=class(1,2)+1; endif samples(i,5)=3 class(1,3)=class(1,3)+1;e

7、ndendn=class(1,compare2)/class(1,compare1)for i=1:1:dimenla(1,1)=1/sqrt(sd(compare1,1)*exp(-(samples(i,1)-sum(compare1,1)2/(2*sd(compare1,1);la(1,2)=1/sqrt(sd(compare1,2)*exp(-(samples(i,2)-sum(compare1,2)2/(2*sd(compare1,2);la(1,3)=1/sqrt(sd(compare1,3)*exp(-(samples(i,3)-sum(compare1,3)2/(2*sd(com

8、pare1,3);la(1,4)=1/sqrt(sd(compare1,4)*exp(-(samples(i,4)-sum(compare1,4)2/(2*sd(compare1,4);lb(1,1)=1/sqrt(sd(compare2,1)*exp(-(samples(i,1)-sum(compare2,1)2/(2*sd(compare2,1);lb(1,2)=1/sqrt(sd(compare2,2)*exp(-(samples(i,2)-sum(compare2,2)2/(2*sd(compare2,2);lb(1,3)=1/sqrt(sd(compare2,3)*exp(-(sam

9、ples(i,3)-sum(compare2,3)2/(2*sd(compare2,3);lb(1,4)=1/sqrt(sd(compare2,4)*exp(-(samples(i,4)-sum(compare2,4)2/(2*sd(compare2,4);for j=1:1:4 if(mode2(1,j)=0) la(1,j)=1; lb(1,j)=1; endendlx=la(1,1)*la(1,2)*la(1,3)*la(1,4)/(lb(1,1)*lb(1,2)*lb(1,3)*lb(1,4)clfresult(i,1)=i;if lx=n clfresult(i,2)=compare

10、1;else clfresult(i,2)=compare2;endendaccuracyrate=0;for i=1:1:dimenif clfresult(i,2)=samples(i,5) accuracyrate=accuracyrate+1;endendaccuracyrate=accuracyrate/dimen;end该函数有共有两个输出量,六个输入参数。其中各个参数的规定如下:Samples:一个Dimen5的矩阵,Dimen是选取样本的数量,矩阵前4列存放样本的4维数据,最后一列存放相应行样本真实的类别数1,2,3。Dimen:选取样本的数量。Sum:数据集的均值参数阵。Sd

11、:数据集的修正方差参数阵。Mode1:模式选择参数1,它是一个3维的行向量:其中分别对应数据集的三个类别,当 不为零时,就在决策域中添加第i类。总共有三种模式:在第一类和第二类中进行判别在第一类和第三类中进行判别在第二类和第二类中进行判别Mode2:模式选择参数2,它是一个4维德行向量:其中分别对应数据集的4个维度分量,当 不为零时,第i个维度的分量就作为判别分类的依据进行考虑,为零时,那么第i个维度的分量忽略。Mode2共有多种模式15种模式。例如:表示第二维的数据特征不参与分类。对于两个输出参数:Clfresult:是一个3Dimen的矩阵,输出对每个数据的分类结果,并显示其真实所属类别和

12、在Samples中的序号。Accuracyrate:输出Bayes分类的正确率。3) 选定不同的样本组合与特征的组合,调用bayesclassifier函数进行分类。三、 实验结果与分析1) 实验结果: 利用每类50个数据求出相应的均值和修正方差作为正态分布参数。并将每类中所有的50个数据全部拿来分类,dimen=100结果为(分类的正确率): Mode1Mode2一类50二类50一类50三类50二类50三类50(1,0,0,0)(0,1,0,0)(0,0,1,0)11(0,0,0,1)11(1,1,0,0)(1,0,1,0)11(1,0,0,1)11(0,1,1,0)11(0,1,0,1)1

13、1(0,0,1,1)11(1,1,1,0)11(1,1,0,1)11(1,0,1,1)11(0,1,1,1)11(1,1,1,1)11 利用每类的20个数据求出相应的均值和修正方差作为正态分布参数。并将每类中另外的30个数据拿来分类,dimen=60结果为(分类的正确率): Mode1Mode2一类30二类30一类30三类30二类30三类30(1,0,0,0)(0,1,0,0)(0,0,1,0)11(0,0,0,1)11(1,1,0,0)1(1,0,1,0)11(1,0,0,1)11(0,1,1,0)11(0,1,0,1)11(0,0,1,1)11(1,1,1,0)11(1,1,0,1)11(

14、1,0,1,1)11(0,1,1,1)11(1,1,1,1)11 利用每类的20个数据求出相应的均值和修正方差作为正态分布参数。分别在第二类中取20个,10个和5个数据,在第三类中固定取30个数据,放在一起进行分类,结果为第二类数据分类的正确率: Mode1Mode2二类20三类30二类10三类30二类5三类30(1,0,0,0)00(0,1,0,0)00(0,0,1,0)(0,0,0,1)(1,1,1,1) 2) 分析: 实验结果反映出鸢尾花数据集:第一类数据和第二类数据的第一和第二维比拟相似,第三和第四维数据差异很大。第一类数据和第三类数据的第一和第二维比拟相似,第三和第四维数据差异很大。

15、第二类数据和第三类数据的第一和第二维比拟相似,第三和第四维数据差异较。第二类和第三类数据整体相似度较高。和直观判断相符。 在分类时如果选取差异较大的特征分量,分类的正确率会比拟高。选取多维特征参与分类决策并不一定会增加分类的正确率,很多情况下其分类效果应该介于效果最好的基于单位特征的分类和效果最差的基于单位特征的分类之间或者并不会提高太多。在做高维特征的数据分类时可以考虑选取分类效果好的少量维度,从而到达比采用全维度更好的效果,同时可以简化计算。 实验结果表1和表2中的数据相差不大,1中用所有的数据求分布参数,再反过来对所有的数据分类,而2是用其中20组求分布参数,另外30组拿来分类,两组的结果差异不是很大,说明Bayes方法是相对稳定的,有一定的容限,可以处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论