




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模式识别上机作业Bayes 、最近邻算法分类器设计姓 名: 刘德龙 学 号: 03081413 班 级: 030814 日 期: 2011.05 基于概率统计的贝叶斯分类器设计一 原理概述:贝叶斯分类器是基于贝叶斯网络所构建的分类器,贝叶斯网络是描述数据变量之间关系的图形模型,是一个带有概率注释的有向无环图。贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。(1) 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;(3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的.二 计算方法:1、 贝叶斯分类的先决条件:(1) 决策分类的类别数是一定的,设有c个模式类i(i=1,2,c)(2) 各类别总体的概率分布已知,待识别模式的特征向量x的状态后验概率P(i|x)是已知的;或各类出现的先验概率P(i)和类条件概率密度函数p(x|i)已知2、两类分类的最小错误率Bayes分类决策规则的后验概率形式:设N个样本分为两类1,2。每个样本抽出n个特征, x =(x1, x2, x3, xn)T其中,P(i|x)为状态后验概率。由Bayes公式:两类分类的贝叶斯决策函数:三 实例说明:一数据集有两类,每个样本有两个特征,类别1(class1.txt文件)含有150个样本,类别2(class2.txt文件)含有250个样本(.txt文件可以直接在Matlab中读入),分别取类别1的前100个和类别2的前200个样本作为训练样本,剩下的作为测试样本。要求:(1) 根据基于最小错误率的贝叶斯决策理论设计分类器;(2) 叙述实验具体步骤,给出所设计的分类器对训练样本和测试样本的错误率;(3) 提交的作业需包含Matlab程序代码(4) 绘制分类结果(包含决策边界)的图像1、实验原理多元正太分布的概率密度函数由下式定义由最小错误概率判决规则,可得采用如下的函数作为判别函数这里,为类别发生的先验概率,为类别的类条件概率密度函数,而N为类别数。设类别,i=1,2,N的类条件概率密度函数,i=1,2,N服从正态分布,即有,那么上式就可以写为由于对数函数为单调变化的函数,用上式右端取对数后得到的新的判别函数替代原来的判别函数不会改变相应分类器的性能。因此,可取显然,上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。这样,判别函数可简化为以下形式2、实验步骤(1) 求出两类样本的均值(2) 求每一类样本的协方差矩阵式中,l代表样本在类中的序号,其中代表类的第l个样本,第j个特征值;代表类的个样品第j个特征的平均值代表类的第l个样品,第k个特征值;代表类的个样品第k个特征的平均值。类的协方差矩阵为(3) 计算出每一类的协方差矩阵的逆矩阵以及协方差矩阵的行列式(4) 求出每一类的先验概率(5) 将各个数值代入判别函数判别边界为 3、实验结果根据matlab的计算结果可得类别1训练样本的错误率为4%,类别2训练样本的错误率为5%;类别1测试样本的错误率为6%,类别2训练样本的错误率为4%。实验图图1 训练样本分类结果如上图所示,“.”代表类别1的训练样本,“*”代表类别2的训练样本,绿线为决策边界;图2 测试样本分类结果如上图所示,“.”代表类别1的测试样本,“*”代表类别2的测试样本,绿线为决策边界;4、实验程序代码function g = pattern(x,y)%clear;S1 = load(e:lwzclass1.txt);% 原始数据class1导入S1S2 = load(e:lwzclass2.txt);% 原始数据class2导入S2for i = 1:100 for j = 1:2 type1(i,j) = S1(i,j);% 将class1的前100个数据导入type1当中,作为训练样本 endendfor i = 1:200 for j = 1:2 type2(i,j) = S2(i,j);% 将class2的前200个数据导入type2当中,作为训练样本 endend%求训练样本的均值sumx1 = sum(type1,1);meanx1 = sumx1(1,1) / 100;meany1 = sumx1(1,2) / 100;sumx2 = sum(type2,1);meanx2 = sumx2(1,1) / 200;meany2 = sumx2(1,2) / 200;%求协方差矩阵z1(2,2) = 0;for i = 1:100 z1(1,1) = z1(1,1) + (type1(i,1)-meanx1)2; z1(1,2) = z1(1,2) + (type1(i,1)-meanx1)*(type1(i,2)-meany1); z1(2,1) = z1(2,1) + (type1(i,2)-meany1)*(type1(i,1)-meanx1); z1(2,2) = z1(2,2) + (type1(i,2)-meany1)2;endz1(1,1) = z1(1,1) / 99;z1(1,2) = z1(1,2) / 99;z1(2,1) = z1(2,1) / 99;z1(2,2) = z1(2,2) / 99;z2(2,2) = 0;for i = 1:200 z2(1,1) = z2(1,1) + (type2(i,1)-meanx2)2; z2(1,2) = z2(1,2) + (type2(i,1)-meanx2)*(type2(i,2)-meany2); z2(2,1) = z2(2,1) + (type2(i,2)-meany2)*(type2(i,1)-meanx2); z2(2,2) = z2(2,2) + (type2(i,2)-meany2)2;endz2(1,1) = z2(1,1) / 199;z2(1,2) = z2(1,2) / 199;z2(2,1) = z2(2,1) / 199;z2(2,2) = z2(2,2) / 199;z1_inv = ;z1_det = ;z2_det = ;z2_det = ;z1_inv = inv(z1);%求协方差矩阵的逆z2_inv = inv(z2);%求协方差矩阵的行列式z1_det = det(z1);z2_det = det(z2);%求出两类样本的先验概率p1 = 100 / 300;p2 = 200 / 300;syms x y;g = (-0.5)*x-meanx1,y-meany1*z1_inv*x-meanx1;y-meany1 + log(abs(z1_det)*0.5 + log(p1) - (-0.5)*x-meanx2,y-meany2*z2_inv*x-meanx2;y-meany2 + log(abs(z2_det)*0.5 + log(p2)%画图命令ezplot(pattern);for i = 101:150plot (S1(i,1),S1(i,2),.)hold onendfor i = 201:250plot (S2(i,1),S2(i,2),*)hold onEnd最近邻分类器:Click and Classify一 原理概述:最近邻分类器在eCognition中指需要用户指定训练样本的分类法,与成员函数分类器相区别。eCognition用“Click and Classify”来形容其操作简便。用户手册中推荐的针对这种指定训练样本的分类方法的分类策略是:1、先选定少量图斑(对象)作为样本,一开始选定的每一类的样本数为13个,选完少量样本后就可以进行第一次分类;2、然后不断重复以下步骤,直到得出满意结果:、纠正那些被错分的或未被分类的(unclassified)图斑,指定正确类别后,作为样本对象添加到训练样本集中(要小心操作,确保无误);进行分类。【注意】:1、有些时候,新的样本对象的加入会显著影响到分类结果,有可能原来正确的分类结果,在调整、纠正加入新的样本对象后,许多图斑反而从正确的分类划归为错误的类别了,这时候也不要担心,还是继续重复上面的步骤,重复操作这样进行下去以后,就能逐步在特征空间中建立起区分各类别的边界,即使这些类别在特征空间中的分布是不规则的且不连续的(离散的),最近邻函数也能对付。2、利用Click and Classify的方法,用户可能很快就得到了满意的分类结果,也有可能你达到了所选择的特征空间(注意:特征空间也是用户自己可以定义的)所能区分的极限,再添加新的训练样本也无济于事了,分类结果也不会有显著改善了,这也没有关系,咱们可以利用这个得到的分类结果作为下一步“基于上下文信息的分类”的基础数据,在类别层次结构(Class Hierarchy)里面添加子类,以作进一步的细分。Tour 1 就是这样的一个例子。二、关于最近邻函数1、标准最近邻(SNN)与普通最近邻(NN)的差别:两者的区别在于它们的作用域不同。Nearest Neighbor的特征空间可以为每个类别单独定义,即“class-specific”,而Standard Nearest Neighbor则不然,整个Project,SNN的特征空间的定义是唯一的,所有用到SNN的类别,它们的SNN的特征空间全是一样的,而且对每一个类别不可能定义一个以上的标准最邻近函数。SNN和NN的特征空间中一般都不涉及“Class-related features”,因为它们需要的是一个绝对的参考系,而不是相对的,避免“循环依赖”现象的出现。即使用到类相关特征,也会受到如下限制:(东阳何生的学习笔记)、如果一个类别的定义中用到了最邻近函数,而这个最邻近函数的特征空间中利用了“Class-related features”,那么这个类别不能用“Similarity of ”特征;、如果一个类别的定义中用到了最邻近函数,而这个最邻近函数的特征空间中利用了“Class-related features”,那么这个类别不能有子类。即不能生育或是丁克一族,相当于二叉树中的“叶子节点”,所以这些类别也叫“叶子类别”;、如果一个类别的定义中用到了最邻近函数,而这个最邻近函数的特征空间中利用了“Class-related features”,那么“Class-related features”中所参考的类别不能是它自己或其父类。2、如果在一个Class Hierarchy中用到了SNN或NN,那么,当保存 Class Hierarchy 文件的时候,它们所定义的特征空间也同时被保存在这个类层次结构文件中,但是,用户选择的训练样本并没有被保存,也就是说,如果调入一个dkb文件,以前选的训练样本是不包括在这个文件中的。3、如果事先定义好了一个Class Hierarchy(父类子类统统定义完毕),然后去选择训练样本,那么,用户选择的子类的训练样本自动也算是其父类的训练样本,当然,用户也可以单独为父类指定其训练样本。4、用户手册一再建议,分类时先为每一类仅仅选择少量的样本,13个足矣,然后分类,出来结果后,再添加错分或漏分的新样本,再分类,再调整逐步调整,直至得到最佳分类结果。5、在以前的学习笔记中我曾经认为 TTA Mask 和 Samples 是一回事,因为两者之间可以互相转换(0008:城市草地 versus 乡村草地),现在看来,这点认识还得作一点修正,它们之间还是有一点细微的差别的,因为 TTA Mask 有可能是从其他来源输入到eCognition中来的,比如ArcGIS或ERDAS中转进来的数据,这时候,它的边界就不会跟eCognition分割生成的图斑的边界完全吻合,因此,当“create samples from TTA Mask”的时候,就会弹出一个对话框让用户设置一个参数,默认值是0.75,表示如果一个图斑75的面积被 TTA Mask 所定义的某一个类别的图斑所覆盖,那么它就属于这个类别的训练样本。6、NN Function Slope(东阳何生的学习笔记)感觉跟ENVI的光谱角制图(Spectral Angle Mapper)里面光谱角的概念差不多。Slope是一个阈值,它越大就越能和稀泥,有容乃大,把性质差别很大的图斑划分到一个类别里面;反之,Slope越小,则分得越精细,但是导致的问题就是会出现很多未被分类的图斑(unclassified image objects),即通常所说的“漏分现象”,但是分类结果的稳定性会很好。Slope的默认值是0.2,用户可以自行定义。 7、特征空间优化(Feature Space Optimization)先为每个类别选择训练样本,选好之后,根据训练样本来计算这个类间可分性矩阵(Class Separation Distance Matrix For Selected Features)。特征空间优化给用户提供了一个挑选、组合用来区分类别的最佳特征的有效工具,能根据选定的样本,和用户自己挑选的特征,自动计算出类别间的可分性(Separability)。这个对称矩阵上元素的值越大,代表某两类间的可分性越好,以此来让用户选择组合最佳特征。需要注意的是:距离的计算仅仅依赖于选择的训
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备预防维护管理制度
- 设计公司施工管理制度
- 设计消防自审管理制度
- 诉求响应平台管理制度
- 诊所卫生制度管理制度
- 试剂动态盘查管理制度
- 诚信商厦安全管理制度
- 财政直接支付管理制度
- 货品配送处罚管理制度
- 货车司机之家管理制度
- 2025年中考物理考前押题密卷(哈尔滨卷)(全解全析)
- 2024-2025学年人教新目标英语八年级下册期末综合检测卷(含答案)
- 医院法律、法规培训2024:药事管理与药物治疗指导
- 环境影响评价的国际比较
- 2025届江苏省苏州市英语高三第一学期期末达标检测试题含解析
- 浙江大学《概率论与数理统计》第9章
- 校际教研联合体活动方案及案例
- 车站(助理)调度员技能鉴定理论考试题及答案
- 137案例黑色三分钟生死一瞬间事故案例文字版
- 2024年版《代谢相关脂肪性肝病防治指南》解读1
- 2025年重点高中自主招生考试数学模拟试卷试题(含答案)
评论
0/150
提交评论