




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IRIS数据集的Bayes分类实验一、 实验原理1) 概述模式识别中的分类问题是根据对象特征的观察值将对象分到某个类别中去。统计决策理论是处理模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。贝叶斯(Bayes)决策理论方法是统计模式识别的一个基本方法,用这个方法进行分类时需要具备以下条件: 各类别总体的分布情况是已知的。 要决策分类的类别数是一定的。其基本思想是:以Bayes公式为基础,利用测量到的对象特征配合必要的先验信息,求出各种可能决策情况(分类情况)的后验概率,选取后验概率最大的,或者决策风险最小的决策方式(分类方式)作为决策(分类)的结果。也就是说选取最有可能使得对象具有现在所测得特性的那种假设,作为判别的结果。常用的Bayes判别决策准则有最大后验概率准则(MAP),极大似然比准则(ML),最小风险Bayes准则,Neyman-Pearson准则(N-P)等。2) 分类器的设计对于一个一般的c类分类问题,其分类空间:表特性的向量为:其判别函数有以下几种等价形式:a) , b)c)d)3) IRIS数据分类实验的设计 IRIS数据集:一共具有三组数据,每一组都是一个单独的类别,每组有50个数据,每个数据都是一个四维向量。其分类空间为:表特性的向量为: 实验目的:利用Bayes判别准则对三组数据进行分类,希望能够尽量准确的判断出从IRIS数据集中选取的样本所属的类别。 实验设计思路:将每个数据看作是一个具有4维特征的观察样本假设每类数据的每维都的分别服从正态分布即并且两两独立。由数理统计理论可知,样本均值和修正方差分别为和的无偏估计量,故可近似为求得和为:贝叶斯决策规则选取:由于不同维度数据两两独立,故其中:另让门限值:其中:和为所选待分类样本j类数据和i类的个数,属于先验知识。比较与门限值的大小判断样本所属类别最后计算分类的正确率二、 实验过程1) 求取每类数据的每个分量的均值和修正方差数代码如下:sum=zeros(3,4);sd=zeros(3,4);for j=1:1:4for i=1:1:50$ for i=1:1:20 $ sum(1,j)=sum(1,j)+sample1(i,j); sum(2,j)=sum(2,j)+sample2(i,j); sum(3,j)=sum(3,j)+sample3(i,j);endendsum=sum/50; $sum=sum/20;$for j=1:1:4for i=1:1:50 sd(1,j)=sd(1,j)+(sample1(i,j)-sum(1,j)2; sd(2,j)=sd(2,j)+(sample2(i,j)-sum(2,j)2; sd(3,j)=sd(3,j)+(sample3(i,j)-sum(3,j)2;endendsd=sd/49;$ sd=sd/19; $其中每类数据都有4组均值和修正方差,3类数据总共12组,分别存放在sum 和sd这两个34的矩阵中。2) 用一个函数来实现分类器的功能,代码如下function clfresult,accuracyrate = bayesclassifier(samples,dimen,sum,sd,mode1,mode2)clfresult=zeros(dimen,2);if (mode1(1,1)=0)&(mode1(1,2)=0)&(mode1(1,3)=0) compare=1,2;endif (mode1(1,1)=0)&(mode1(1,2)=0)&(mode1(1,3)=0) compare=1,3;endif (mode1(1,1)=0)&(mode1(1,2)=0)&(mode1(1,3)=0) compare=2,3;endcompare1=compare(1,1);compare2=compare(1,2);class=zeros(1,3);la=zeros(1,4);lb=zeros(1,4);for i=1:1:dimenif samples(i,5)=1 class(1,1)=class(1,1)+1;endif samples(i,5)=2 class(1,2)=class(1,2)+1; endif samples(i,5)=3 class(1,3)=class(1,3)+1;endendn=class(1,compare2)/class(1,compare1)for i=1:1:dimenla(1,1)=1/sqrt(sd(compare1,1)*exp(-(samples(i,1)-sum(compare1,1)2/(2*sd(compare1,1);la(1,2)=1/sqrt(sd(compare1,2)*exp(-(samples(i,2)-sum(compare1,2)2/(2*sd(compare1,2);la(1,3)=1/sqrt(sd(compare1,3)*exp(-(samples(i,3)-sum(compare1,3)2/(2*sd(compare1,3);la(1,4)=1/sqrt(sd(compare1,4)*exp(-(samples(i,4)-sum(compare1,4)2/(2*sd(compare1,4);lb(1,1)=1/sqrt(sd(compare2,1)*exp(-(samples(i,1)-sum(compare2,1)2/(2*sd(compare2,1);lb(1,2)=1/sqrt(sd(compare2,2)*exp(-(samples(i,2)-sum(compare2,2)2/(2*sd(compare2,2);lb(1,3)=1/sqrt(sd(compare2,3)*exp(-(samples(i,3)-sum(compare2,3)2/(2*sd(compare2,3);lb(1,4)=1/sqrt(sd(compare2,4)*exp(-(samples(i,4)-sum(compare2,4)2/(2*sd(compare2,4);for j=1:1:4 if(mode2(1,j)=0) la(1,j)=1; lb(1,j)=1; endendlx=la(1,1)*la(1,2)*la(1,3)*la(1,4)/(lb(1,1)*lb(1,2)*lb(1,3)*lb(1,4)clfresult(i,1)=i;if lx=n clfresult(i,2)=compare1;else clfresult(i,2)=compare2;endendaccuracyrate=0;for i=1:1:dimenif clfresult(i,2)=samples(i,5) accuracyrate=accuracyrate+1;endendaccuracyrate=accuracyrate/dimen;end该函数有共有两个输出量,六个输入参数。其中各个参数的规定如下:Samples:一个Dimen5的矩阵,Dimen是选取样本的数量,矩阵前4列存放样本的4维数据,最后一列存放相应行样本真实的类别数(1,2,3)。Dimen:选取样本的数量。Sum:数据集的均值参数阵。Sd:数据集的修正方差参数阵。Mode1:模式选择参数1,它是一个3维的行向量:其中分别对应数据集的三个类别,当 不为零时,就在决策域中添加第i类。总共有三种模式:在第一类和第二类中进行判别在第一类和第三类中进行判别在第二类和第二类中进行判别Mode2:模式选择参数2,它是一个4维德行向量:其中分别对应数据集的4个维度分量,当 不为零时,第i个维度的分量就作为判别分类的依据进行考虑,为零时,则第i个维度的分量忽略。Mode2共有多种模式15种模式。例如:表示第二维的数据特征不参与分类。对于两个输出参数:Clfresult:是一个3Dimen的矩阵,输出对每个数据的分类结果,并显示其真实所属类别和在Samples中的序号。Accuracyrate:输出Bayes分类的正确率。3) 选定不同的样本组合与特征的组合,调用bayesclassifier函数进行分类。三、 实验结果与分析1) 实验结果: 利用每类50个数据求出相应的均值和修正方差作为正态分布参数。并将每类中所有的50个数据全部拿来分类,dimen=100结果为(分类的正确率): Mode1Mode2一类(50)二类(50)一类(50)三类(50)二类(50)三类(50)(1,0,0,0)0.890.950.70(0,1,0,0)0.830.750.58(0,0,1,0)110.93(0,0,0,1)110.94(1,1,0,0)0.990.990.68(1,0,1,0)110.87(1,0,0,1)110.94(0,1,1,0)110.88(0,1,0,1)110.92(0,0,1,1)110.94(1,1,1,0)110.82(1,1,0,1)110.92(1,0,1,1)110.95(0,1,1,1)110.94(1,1,1,1)110.94 利用每类的20个数据求出相应的均值和修正方差作为正态分布参数。并将每类中另外的30个数据拿来分类,dimen=60结果为(分类的正确率): Mode1Mode2一类(30)二类(30)一类(30)三类(30)二类(30)三类(30)(1,0,0,0)0.91670.98330.7167(0,1,0,0)0.86670.750.60(0,0,1,0)110.9167(0,0,0,1)110.9167(1,1,0,0)0.983310.70(1,0,1,0)110.8667(1,0,0,1)110.9333(0,1,1,0)110.8667(0,1,0,1)110.9000(0,0,1,1)110.9333(1,1,1,0)110.8167(1,1,0,1)110.9333(1,0,1,1)110.9500(0,1,1,1)110.9333(1,1,1,1)110.9500 利用每类的20个数据求出相应的均值和修正方差作为正态分布参数。分别在第二类中取20个,10个和5个数据,在第三类中固定取30个数据,放在一起进行分类,结果为(第二类数据分类的正确率): Mode1Mode2二类(20)三类(30)二类(10)三类(30)二类(5)三类(30)(1,0,0,0)0.650000(0,1,0,0)0.300000(0,0,1,0)0.85000.50000.4000(0,0,0,1)0.90000.80000.6000(1,1,1,1)0.90000.80000.8000 2) 分析: 实验结果反映出鸢尾花数据集:第一类数据和第二类数据的第一和第二维比较相似,第三和第四维数据差别很大。第一类数据和第三类数据的第一和第二维比较相似,第三和第四维数据差别很大。第二类数据和第三类数据的第一和第二维比较相似,第三和第四维数据差别较。第二类和第三类数据整体相似度较高。和直观判断相符。 在分类时如果选取差别较大的特征分量,分类的正确率会比较高。选取多维特征参与分类决策并不一定会增加分类的正确率,很多情况下其分类效果应该介于效果最好的基于单位特征的分类和效果最差的基于单位特征的分类之间或者并不会提高太多。在做高维特征的数据分类时可以考虑选取分类效果好的少量维度,从而达到比采用全维度更好的效果,同时可以简化计算。 实验结果表1和表2中的数据相差不大,1中用所有的数据求分布参数,再反过来对所有的数据分类,而2是用其中20组求分布参数,另外30组拿来分类,两组的结果差别不是很大,说
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 藤制品企业的品牌形象传播策略考核试卷
- 电机在消防设备的紧急响应考核试卷
- 人教版《分数的概念与应用》课件
- 谷物储存的粮食储存容量提升考核试卷
- 塑料制品的环保法规遵守考核试卷
- 新车上户需要什么手续和上户流程
- 环境卫生课件
- 网络安全防护在能源交易平台的数据保护评估考核试卷
- 耐火土石矿山绿色开采与循环经济考核试卷
- 2025年石英或云母填充塑料项目建议书
- 2025年云计算与大数据技术考试试题及答案
- 纳西族文化课件
- 水利水电工程技术术语全
- 2024-2025教科版科学一年级下册第二单元测试卷及答案
- 中国共产主义青年团纪律处分条例试行解读学习
- 医疗器械研究报告医疗器械产业现状及未来发展趋势分析报告(2025年)
- 数字孪生技术在智慧能源系统中的挑战与机遇
- 抛石专项施工方案
- 电力增材再造技术的创新与发展
- 话剧导演合同协议
- 客服代理合同协议
评论
0/150
提交评论