Iris数据分类实验报告_第1页
Iris数据分类实验报告_第2页
Iris数据分类实验报告_第3页
Iris数据分类实验报告_第4页
Iris数据分类实验报告_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、由上一步参数估计已经得到两类的类条件概率密度P(XI),P(X2)。利用贝叶斯公式一.实验目的通过对Iris数据进行测试分析,了解正态分布的监督参数估计方法,并利用最大似然估计对3类数据分别进行参数估计。在得到估计参数的基础下,了解贝叶斯决策理论,并利用基于最小错误率的贝叶斯决策对3类数据两两进行分类。二.实验原理Irisdataset,也称莺尾花卉数据集,是一类多重变量分析的数据集。其数据集包含了150个样本,都属于莺尾属下的三个亚属,分别是山莺尾(Irissetosa),变色莺尾(Irisversicolor)和维吉尼亚莺尾(Irisvirginica)。四个特征被用作样本的定量分析,分别

2、是花萼和花瓣的长度和宽度。实验中所用的数据集已经分为三类,第一组为山莺尾数据,第二组为变色莺尾数据,第三组为维吉尼亚莺尾数据。1.参数估计不同亚属的莺尾花数据的4个特征组成的4维特征向量乂=(为?2,乂3,人)丁服从于不同的4维正态分布。以第一组为例,该类下的数据的特征向量x=(X1,X2,X3,X4)T服从于4维均值列向量因,4黑4维协方差矩阵工1的4元正态分布。其概率密度函数为如下:11.T-1.p(x)=drexp(-(x-JI)三1(XI)(2霏区户2参数估计既是对获得的该类下的山莺尾数据样本,通过最大似然估计获得均值向量巳,以及协方差矩阵工。对于多元正态分布,其最大似然估计公式如下:

3、,八、1p(xG1)=-一1(2元产工了同理可得变色莺尾类别的条件概率密度p(x2),以及维吉尼亚莺尾类别的条件概率密度p(x3)2.基于最小错误率的贝叶斯决策的两两分类在以分为3类的数据中各取15个样本,进行参数估计,分别得到3类的类条件概率密度。以第一组和第二组数据为例,对这两组数据进行分类。因为两类的训练样本均为15个,且两类花在自然界所占比例近似,所以两类的状态先验概率P(M),P2)均设为0.5。且/N1xkNk11、N.、uAAT-T)x1T)其中N为样本个数,本实验中样本个数选为别的条件概率密度15,由此公式,完成参数估计。得到山莺尾类exp(-2(I)TT()p(x|-i)P(

4、,1)p(x|i)P(i)p(x|2)P(-2)得到类别他的状态后验概率。对于两类问题,P(以|x)+P2|x)=1。基于最小错误率的贝叶斯决策规则为:若P(叫|x)Pg|x),即P(01|x5,则将特征向量x分为第一类,否则将特征向量x分为第二类。三.实验过程1.参数估计从三类数据中分别随机选取15个数据作为样本,对每类所属的正态分布进行参数估计。随机样本选择结果如图1:该实验中,样本序号随机选择,所以每次试验结果不相同,这里仅显示出一次实验的结果。按照随机选择的序号将每类的样本从原每组数据中取出,按照实验原理中的多元正态分布参数的最大似然估计公式,分别对每类的均值向量及协方差矩阵进行估计计

5、算。1NT,T一121)对三类数据分布参数的估计结果如图2所示P(|x)图1,进行参数估计的样本序号由参数估计结果得到,每一类所选的15个样本,基本可以表现出该类数据的分布特性。样本数据越多,估计效果越好。2.基于最小错误率的贝叶斯决策的两两分类得到三类的分布参数估计值,即得到了三类的类条件概率密度11.,TH,p(x%)=rexp(-(x-i)Il(x-i)(2冗J|邛211,T,p(x2)=1exp(x-2)三2(x-2)_%一2(2立)工222,、1p(xC3)=1(2冗),2|工|万对第一组与第二组数据进行分类,基于最小错误率的贝叶斯分类准则如下p(x|)P(-1)p(x|、)P(1)

6、p(x|-2)P(2)在该实验中,我们设P(%),P(62)均为0.5,所以只需计算p(x|1)P(一|x)p(11)p(x|1)p(x|-2)第一组与第二组数据各随机选取了15个样本进行参数估计,我们对两组数据中剩余的70个数据进行分类,结果如图3所示第三组参数估计结果如下A4维均值向量IRE!3rL3=6.66672.94005.65332.1333协方差矩阵covari:di_Lce3=0.3436-0.01470.25510.0284-0.01470.0544-0.02010.0353=0.2551-0.02010.31320.03290.02840.03530.03290.0729“

7、CommandWindowH口/x图2.三类数据的参数估计结果1,T1,exp(”3j(x7)P(1|x)=1BArrayEditor-text12fi,Xy11%电11IStack:田CD日日口乎X123456715.10003.50001.40000.200011124.900031.40000.200021134.60003.10001.50000.2000411453.60001.40000.2000511553.40001.50000.200081164.40002.90001.40000.200091174.90003.10001.50000.1000101184.80003.40

8、001.60000.2000121194.800031.40000.10001311104.300031.10000.10001411115.800041.20000.20001511125.40003.90001.30000.40001711135.10003.50001.40000.30001811145.70003.80001.70000.30001911155.10003.80001.50000.30002011165.40003.40001.70000.20002111174.60003.600010.20002311185.10003.30001.70000.50002411194

9、.80003.40001.90000.2000251120531.60000.200026112153.40001.60000.40002711225.20003.50001.50000.20002811235.20003.40001.40000.20002911244.80003.10001.60000.200031112553.20001.20000.20003611265.50003.50001.30000.20003711274.400031.30000.200039112853.50001.30000.30004111294.40003.20001.30000.20004311305

10、3.50001.60000.60004411314.800031.40000.30004611325.10003.80001.60000.20004711334.60003.20001.40000.20004811345.30003.70001.50000.200049113553.30001.40000.2000501皿ZU必 ArrayEditor-1ext12口X1鞘,Stack;田日日口1234561E3673.20004.70001.400051 6.2907+1412376.40003.20004.50001.500052 43119e*116if386.90003.10004.9

11、0001.500063 5.9706e-1572395.7OOD2.8000J.50001.3000564.E411S-1152406.30003.30004,70001.600057|1.7201e-1272414.90002.40003300016B2.36Q4e-442426.60002.90004.60001.300059 B1451e*1342523.500016122529e-572竹62.2000d1631.6l8le-962456.10002.90004.70001.4000649,441Be-133465.60002.90003.60001.30006513533e-5824

12、76.70003.10004.40001.400066 34175e-1152485.600034.50001.500067 57226e-1112495.90003.2000j.aooo1.800071 55907+1332506.30002,50004.90001,5000735.0061e-159516,40。 口2.90004.30001.3000752S22e-1082526.600034.40001.400076 05270e-1162JS362.90004.50001.500079 1.5361e-1162545.70002.60003.500018口95416e-572|555

13、.50002,40003.9000110008152422e-74565.50002.4000370001821.3447e-682|576.00002.70003.90001.2000831.0297e-79z|586270005.10001.6000日47.5115e-1652595.40003J.50001.6000852.45B0e-1092|6063,40004.50001.GOOO869,4946卜109=616.70003.10004.70001,5000872,6619e-1372|626.30002.30004.40001.300088 10097e-1242|635.600

14、034.10001.30008959292e-G52645.60002.6000d1.3000901.9471e-842655.800026cm41,2000932.992呢866652.3000330001941.B233e-462|676.60002.70004.20001.3000953.2515e952|685.70002.90004.20001.3000卯2.D630e-93692.90004.30001.300096 1,3748+1052705.70002,8000410001,3000110015541e-SB2“图3.第一组与第二组剩余数据的分类结果图3中,每一行为一被分类数

15、据,总数为70。因为一页无法全部显示,分两页进行显示。每一行的前4列为待分类数据的4个特征,第5列表示该数据在原始数据中的位置,第6列为计算得到的待分类数据属于第一类的后验概率,第7列为待分类数据的分类结果。由结果可以看到,第一组中剩余的35个数(即上图中前35行数据,其在原数据的位置均在50以内)计算得到的属于第一类的类条件概率密度远大于属于第二类的类条件概率密度,所以由贝叶斯公式可得,其属于第一类的后验概率近似为1。第二组中剩余的35个数(即上图中后35行数据,其在原数据的位置均在51到100之间) 计算得到的属于第一类的类条件概率密度远小于属于第二类的类条件概率密度,所以由贝叶斯公式可得

16、,其属于第一类的后验概率均很小,近似为0。由结果可得,第一组数据与第二组数据其类条件概率密度基本上无重叠部分,所以两类数据基本上完全可分。同理,对第一组与第三组剩余70个数据进行分类,结果如图4ArrayEditor-textl3,口而 xSM叼11X君造 4 回-5tacK;田口日日仁11,Xi23456715.10003.50001.40000.2000111入24.9OOO3140000.200021134.600口3.10001.50000.2000A11453.60001.40000.2000611553.40001.50000.2000B11&4.40002.9000140000.

17、200091174.9OOO3.10001.50000.10001011S4.B0003.40001口口D.20D0121194.300031.4000010001311104.300031.10000.WOO1411116.00004120m0.200015111Z6.40003.9000130000.40001711135.10003.60001.40000.3000161114570003,8000170000.30001911155.10003.80001.50000.30002011It.6.40003.4000170000.20002111174.60003,600010.2000

18、2311185.10003.30001.70000,50002411194.30003.40001.90000.200025112053160m0.2C0026112153.40001.60000.40002711三二5.20003.50001.50000.200026112E;5.20003,4。1.40000.20002911笄4.80003.1000150000.200031112S53.20001.20C00.20003611266.50003.5000130000.20003711774.400031.30000.20003911型63,50001.3000D.30004111心4.

19、40003.2000130000.200043113LI53.50001.60000.60004411314.300031.0000.30004E11325.10003.80001.60000.20004711334.60003.200014Q000.20004B11346.30003.70001.50C00.200049113563.30001.40000.2000501173戏12某隹义H3xtext23装ArrayEditor-textl3口,x*小远粘Stack:Basev田mB0X1234567E3658mo2.70005.10001.9000102E4430e-1663377.10

20、0035.90002W00103 11233e-2533366.3000290005,EOOO1.800010469618e-2123397.60003e.eooo2.1000106034U4.90002.50004.50001.7000107 58697e-1163417.30002.90006.30001.8000108 8.53666-3083426.70002.90005.80001.8000109 67815e-2463437.20003.60006.10002.5000110 1330Se-2653446.50003.20006.10002111 3.100Ge-16fi3456.

21、800036.50002.1000113 94768e-2103465.70002.500052114 71173e-1613476.40003.20006.30002.3000116 1.1553+1883486.500035.50001.6000117 3.53906-203341?7.70003.80006.70002.2000116035G62.200051.5000120 1.8398e1653515.60002.80004.90002122 29140903526.30002.70004.90001.8000124 7.2846e-1543536.70003.30005.70002

22、.1000125 2930Oe-22D3547.20003.200061.8000126 92273e-2623556.100034.90001.6000128 6.5201e-1473566.40002.30005.600021000129 55633e-21735T7.20003580001.6000130 35627e-2493587.40002.30006.10001.9000131 1.0271e-2883597.90003.30006.40002132 37941+3003=6G6.3000230005.10001.6000134 1.73566-1663616.300034口口口

23、560002.4000137 13629e-2123626.4000310005.50001.3C00136 1.7610e19936?63480001.3000139 16256e-1383646.7000310005.60002.4000141 4.7436e-22136569000310005.10002.3OOO1422.7251e-179366660002.70005.10001.90001436.4430e-l6G3行了68000320005.90002.300014457992e2463696.70003.30005.70002.5000M54.0625a2293696.3000

24、2.5000619000U79.7327e-166370textlZtext13Ktext23X图4.第一组与第三组剩余数据分类结果与之前分析类似,第一组与第三组数据基本上完全可分。显 ArrayEdito r-text2341x!i靠|展苕“3瓯Stack:田UI日(5|口,X123456761173.20004.70001.4000510.99992人26.40003.20004.50001.5000520.9993236.90003.10004.90001.5000530.9986245.70002.80004.50001.3000560.9965256.30003.30004.7000

25、1.6000570.993226|4.90002.40003.30001581.000027匚6.60002.90004.60001.3000590.999728r523.50001611.000029匚62.200041631.00002=106.10002.90004.70001.4000640.9957211|5.60002.90003.60001.3000650.9999212匚6.70003.10004.40001.4000660.99982135.600034.50001.5000670.90032145.90003.20004.80001.8000710.0156315|6.30

26、002.50004.90001.5000730.9245216P6.40002.90004.30001.3000750.9999217匚6.600034.40001.4000760.9997218r62.90004.50001.5000790.99042195.70002.60003.50001801.0000220|5.50002.40003.80001.1000811.0000221P5.50002.40003.7000821.00002225.80002.70003.90001.2000831.000022362.70005.10001.6000840.0954324|5.400034.

27、50001.5000850.600222563.40004.50001.6000860.9869226|6.70003.10004.70001.5000870.9990227A3nnn23nrr44nm1annnRfi099A57285.600034.10001.3000890.9997229匚5.50002.500041.3000900.9998230|5.80002.600041.2000931.000023152.30003.30001941.00002325.60002.70004.20001.3000950.99922335.70002.90004.20001.3000970.999

28、6234匚6.20002.90004.30001.3000980.9999235 |5.70002.80004.10001.30001000.99972代】|j1textl2xtext13xtext23xIArrayEditor口X期“晶着Stackj田m日 日口J X2345$73658000270005.10001.900010233406e-053A377100035.90002.110001035.8637e-053386.30002.90005.60001.80001043.9266e-043397.600036.60002.110001064.4040e-063404.900025

29、0004.50001.70001071.2746e-D43417.30002.90006.30001.800010S6.5209日Q3426.700025000580001.80001093.O509e-O4343720003.BOOOS.10002.50001101.20316-093446.50003.20005.10002111,0193456.30003550002.110001131.0101e-D43465.70002.5000521147.0723e-063476.40003.20005.30002.30001163.66376-093486.600035.50001.80001170.01133497.70003.60006.70002.200011B0.01093SO62.200051.50001200.49323515.60002.80004.900021229.4489e-073526.3000270004.90001.8000124016333S36.70003.3000570002.110001252.74

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论