贝叶斯最大后验概率准则对iris数据的分类_第1页
贝叶斯最大后验概率准则对iris数据的分类_第2页
贝叶斯最大后验概率准则对iris数据的分类_第3页
贝叶斯最大后验概率准则对iris数据的分类_第4页
贝叶斯最大后验概率准则对iris数据的分类_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、实验目的1. 了解多元正态分布2. 对多元正态分布利用矩估计法进行参数估计,了解参数估计的过程3. 掌握利用贝叶斯最大后验概率准则对三类数据进行两两分类的方法2、实验原理Iris数据集共有三组,分别为setosa,versicolou和virginica,每一组都是一个单独的类别,此实验中,默认setosa为第一类,versicolou为第二类,virginica为第三类,每组50个数据,每个数据都是一个四维向量,且服从四维正态分布。即类别空间为:=1,2,3数据向量为:x=(x1,x2,x3,x4)T2.1 多元正态分布随机向量X=(X1,Xp)'的分布密度函数有如下形式:px1

2、,x2,xp=px=1242B12exp-12x-T*B-1*x- (1)其中x=(x1,x2,xp)T为常量,=(1,2,p)T为随机向量的均值向量,B为p*p的协方差矩阵,则称X服从p元正态分布,记XNp(,B)为。因此,对于多元正态分布而言,只需要确定均值向量和协方差矩阵即可确定概率密度函数。2.2 参数估计由于三组数据均服从四维正态分布,首先要确定数据的具体分布,因此在分类之前,利用一部分实验数据进行训练,分别得到三组数据的四维正态分布参数。即1,B1,(2,B2),(3,B3),分别为setosa,versicolou和virginica三组数据的参数。实验中,参数估计采用矩估计法,

3、即利用样本(训练数据)的均值向量和协方差矩阵作为总体的均值向量和协方差矩阵的估计值,进而得到每组数据的分布密度函数。以第一组数据为例:setosa中的数据x=(x1,x2,x3,x4)T服从均值为四维列向量1=(1,2,3,4)T,4*4维协方差矩阵B的四元正态分布。均值向量和协方差矩阵的估计式为:1=1Ni=1Nxk (2)B1=Ex-*x-T=1Ni=1Nxk-1xk-1T (3)从第一类数据中选取部分数据按照上式进行训练,得到第一类数据的正态分布参数,因而可求得其密度函数。三类数据都按照上公式,选取部分实验数据得出正态分布的均值向量和协方差矩阵。进而得到自己的概率密度公式px=1242B

4、12exp-12x-T*B-1*x- (4)2.3 贝叶斯最大后验概率准则利用贝叶斯准则对数据进行两两分类时,以贝叶斯公式为基础,利用测量到的对象特征配合必要的先验信息,求出两种可能分类情况的后验概率,选取后验概率大的,作为分类的结果。即最大后验概率准则,也称最小错误概率准则。以第一类和第二类为例,对这两组数据进行分类。两组数据经过参数估计之后,分别得到条件概率密度p(x|1),p(x|2)。根据贝叶斯准则:p1x=px1p1px (5)p2x=px2p2px (6)贝叶斯最大后验概率准则进行分类时,根据输入的列向量x=(x1,x2,x3,x4)T,分别计算两类的后验概率,判x为后验概率的大类

5、别,即:如果 p1x> p2x 则判别x为1类(第一类)即:p1x=p(x|1)p(1)p(x)>p(x|2)p(2)p(x)=p2x (7)即:l12=p(x|1)p(x|2)>p(2)p(1)=21 (9)因此根据最大后验概率准则判断x所属的类别,转变为比较似然比l12和阈值21的大小。实验中首先求得两类数据的条件概率密度p(x|1)和p(x|2),关于先验概率p1和p(2),实验进行时,将待分类的两组数据合并放入一个100*4的矩阵中,每次随机选取待分类数据x,因此先验概率p1=p2 (9)故而,判别式(8)简化为: px1>px2 (10)因此,根据上式即可对输

6、入向量x进行分类。如果 p(x|1)>p(x|2) 则判别x为1类(第一类)同理如果 p(x|2)>p(x|1) 则判别x为2类(第二类)3、实验过程实验中,根据实验原理,首先对两组数据分别进行训练,得到其四维正态分布的密度函数,再根据最大后验概率准则进行分类。3.1 参数估计已知三组数据均为XN4(,B)的四元正态分布,即px1,x2,x3,x4=px=1(2)42B12exp-12x-T*B-1*x-其中,为均值向量,B为协方差矩阵,x和均为四维列向量。根据式(2)和(3)对每组数据的均值向量和协方差矩阵进行估计。参数估计即选取部分数据进行训练,数据可以采用随机选取的方式,也可

7、以从开始固定的选取若干数据进行训练。同时,参与训练的数据多少也会影响最后的分类结果。实验中尝试了不同的选取方法,结果如下:(1)从前向后依次选取10个数据进行训练: (2)从前向后依次选取15个数据进行训练: (3)从前向后依次选取20个数据进行训练: (4)从前向后依次选取25个数据进行训练: (5)随机选取15个数据进行训练: (6)随机选取20个数据进行训练: 3.2 贝叶斯分类学习分类时,本实验中,将待分类的两类数据合并为一个矩阵test,然后每次随机的从test矩阵中抽取一维向量进行分类判别。因此先验概率满足p1=p2=12所以,实验中只需要根据估计的参数得出两类的概率密度函数px1

8、=1(2)42B112exp-12x-1T*B1-1*x-1px2=1(2)42B212exp-12x-2T*B2-1*x-2对于输入的列向量x带入上面两个公式中进行计算,则x归入概率大的一类。下面以第一类和第二类分类为例进行说明:实验中,m:表示参与训练的数据个数,进行分类学习时t:表示每次学习的次数,实验置为10000,即每次随机选取10000次x进行分类test矩阵:将待分类的两组数据合并为一个矩阵test,之后随机的从test矩阵中选择输入向量,保证先验概率相等W向量:表示随机选择的输入向量的位置,若W(i)<51则说明此时的输入向量来自第一类,W(i)>50则说明此时的输

9、入向量来自第二类set向量:输入的x判别属于第一类,则将set的相应位置1,否则置0ver向量:输入的x判别属于第二类,则将ver的相应位置1,否则置0最后比较W向量和set向量、ver向量,若选择于第一类(W(i)<51)也判别为第一类(set(i)=1),则说明判别正确。第二类同理。部分框图如下所示:相应部分代码如下:最后,统计set向量和ver向量中不为0的元素个数即在10000次学习分类时错误的次数。进行分类实验时,考虑到两方面的影响:(1)参数估计时训练样本的选取方式不同,分为固定选取样本和随机选取样本(2)参数估计时选取的样本数目同时,实验中,每次分类相当于进行10000次判

10、别,由于选择输入矢量时具有随机性,因此针对同一m(m表示参与训练的样本数目),各进行10次实验进行比较。3.2.1 第一类与第二类(即setosa和versicolou)(1)当训练样本从前向后固定选取时:次数12345678910m=6错误个数0000000000错误率0000000000m=10错误个数0000000000错误率0000000000m=15错误个数0000000000错误率0000000000当训练样本固定选取时,当参与训练的样本个数分别为为6,10,15,均不会产生错误。(2)当训练样本随机选取时次数12345678910m=6错误个数182470202130109202

11、749519040错误率18.24%7.02%02.13%01.09%20.27%4.95%19.04%0m=10错误个数000000109000错误率0000001.09%000m=15错误个数0000000000错误率0000000000当训练样本随机选取时:m=6 时平均错误率为:7.274%m=10 时平均错误率为:0.109%m=15 时平均错误率为:03.2.2 第一类与第三类(即setosa和virginica)(1)当训练样本从前向后固定选取时:次数12345678910m=6错误个数0000000000错误率0000000000m=10错误个数0000000000错误率000

12、0000000m=15错误个数0000000000错误率0000000000当训练样本固定选取时,当参与训练的样本个数分别为为6,10,15,均不会产生错误。(2)当训练样本随机选取时次数12345678910m=6错误个数03997010250072095000错误率039.97%010.25%007.2%9.5%00m=10错误个数0000000000错误率0000000000m=15错误个数0000000000错误率0000000000当训练样本随机选取时:m=6 时平均错误率为:6.634%m=10 时平均错误率为:0m=15 时平均错误率为:03.2.3 第二类与第三类(即versi

13、colou和virginica)(1)当训练样本从前向后固定选取时:次数12345678910m=6错误个数410397413369389409430416387363错误率4.1%3.97%4.13%3.69%3.89%4.09%4.3%4.16%3.87%3.63%m=10错误个数626622561613677610605614613555错误率6.26%6.22%5.61%6.13%6.77%6.1%6.05%6.14%6.13%5.55%m=15错误个数399396409399355434431393406416错误率3.99%3.96%4.09%3.99%3.55%4.34%4.31

14、%3.93%4.06%4.16%m=50错误个数325285323298299302306315288308错误率3.25%2.85%3.23%2.98%2.99%3.02%3.06%3.15%2.88%3.08%当训练样本固定选取时:m=6 时平均错误率为:3.983%m=10 时平均错误率为:6.096%m=15 时平均错误率为:4.038%m=50 时平均错误率为:3.049%(2)当训练样本随机选取时次数12345678910m=6错误个数6373478200050415108914250204610001185错误率6.37%34.78%20%5.04%15.1%8.91%42.5%

15、20.46%10%11.85%m=10错误个数901984889126038211361130959780920错误率9.01%9.84%8.89%12.6%3.82%11.36%11.3%9.59%7.8%9.2%m=15错误个数478328726531100657395286740692错误率4.78%3.28%7.26%5.31%1%6.57%3.95%2.86%7.4%6.92%m=50错误个数40822131937488403444310213202错误率4.08%2.21%3.19%3.74%0.88%4.03%4.44%3.1%2.13%2.02%当训练样本随机选取时:m=6 时

16、平均错误率为: 17.471%m=10 时平均错误率为: 9.341%m=15 时平均错误率为: 4.933%m=50 时平均错误率为: 2.982%4、实验分析实验中,第一部分为参数估计,从实验中可得,以训练样本固定选取,样本个数m=20为例:从中可以看出,第一类和第二类,第一类和第三类相比较而言,均值向量和协方差矩阵均相差较大,即正态分布的形式差距较大,因此第一类较容易和其余两类分类。相比较而言,第二类和第三类的均值向量和协方差矩阵相近,因此其对应的正态分布相似,所以第二组数据和第三组会比较难区分,这一点在后面的实验中也有反映。实验第二部分,在进行分类学习时,得到在样本选取方式不同和样本数

17、目不同的情况下的分类错误率,汇总如下:(1)表一 第一类与第二类分类结果第一类与第二类m=6m=10m=15固定样本参数估计000随机样本参数估计7.274%0.109%0从中可以看出,当参数估计的样本按照顺序固定选取时,在很小的样本数目下即可得到很好的分类结果。当样本随机选取时,在样本数目较少时会有一定的错误率,但是随着样本数目的增加,错误率降低。(2)表二 第一类与第三类分类结果第一类与第三类m=6m=10m=15固定样本参数估计000随机样本参数估计6.634%00从中可以得到与上面相似的结论,同时,比较表一和表二可以发现,在随机样本参数估计的情况下,表二所展示的错误率更低,说明相较第二类数据而言,第一类与第三类数据的差别更大,更易分类。(3)表三 第二类与第三类分类结果第二类与第三类m=6m=10m=15m=50固定样本参数估计3.983%6.096%4.038%3.049%随机样本参数估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论