基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用_荆_第1页
基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用_荆_第2页
基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用_荆_第3页
基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用_荆_第4页
基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用_荆_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 29卷第 2期 辽宁工业大学学报(自然科学版 V ol.29, No.22009年 4 月 Journal of Liaoning University of Technology(Natural Science Edition Apr.2009 收稿日期 :2008-09-04作者简介 :荆钟(1983-,男,上海人,硕士生。基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用荆 钟,何 明(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001摘 要 :统计决策理论是处理模式识别问题的基本理论之一,而贝叶斯决策理论方法又是统计模式识别中的 一个基本方法, 它可以有效地对大量数据

2、进行分析, 并生成相应的分类器, 对于数据的分类识别有着重大的意义。 把最小错误率的贝叶斯方法运用到手写英文字母的识别中,提高了分类的准确性和有效性。关键词 :贝叶斯理论;模式识别;统计决策;手写英文字母中图分类号 :TP391 文献标识码 :B 文章编号 :1674-3261(200902-0098-03Bayes Decision for Minimum Errors Applied in Recognitionof Handwritten English LettersJING Zhong, HE Ming(Electron & Information Engineering Colle

3、ge, Liaoning University of Technology, Jinzhou 121001, ChinaKey words: Bayesian theory; pattern recognition; statistical decision; handwritten English letter Abstract: The statistical decision-making theory was one of the basic theories for treating the problem on pattern recognition, however, the m

4、ethod of Bayesian Decision-making Theory was the basic one in pattern recognition, facing the massive data, which can be used to make effective analysis, and produce corresponding sorters, thus possessing important significance for the classification and recognition of the data. Bayes decision for m

5、inimum errors applied in recognition of handwritten English letters improved the exactitude and effiectiveness in classification.模式识别是人类的一项基本智能。随着计算机 的出现和人工智能的兴起,计算机模式识别在 20世纪 60年代迅速发展成为一门新学科。1 统计模式识别的原理与方法模式是通过对具体的个别事物进行观测所得 到的具有时间和空间分布的信息;把模式所属的类 别或同一类中模式的总体称为模式类(或简称为 类。而“模式识别”则是在某些一定量度或观测 基础上把待识模

6、式划分到各自的模式类中去。有两种基本的模式识别方法,即统计模式识别 方法和结构(句法模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶 斯决策系统进行模式识别的技术,又称为决策理论 识别方法。利用模式与子模式分层结构的树状信息 所完成的模式识别工作,就是结构模式识别或句法 模式识别。与此相应的模式识别系统都是有两个过 程(设计与实现所组成。“设计”是指用一定数量 的样本(训练集/学习集进行分类器的设计。“实 现”是指用所设计的分类器对待识别的样本进行分 类决策。基于统计模式识别方法的系统主要由以下 几个部分组成:信息获取、预处理、特征提取和选 择、分类决策。统计模式识别系

7、统如图 1所示。第 2期 荆钟等:基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用99 图 1 统计模式识别系统统计模式识别的基本原理是:有相似性的样本 在模式空间中互相接近,形成集合。其分析方法是 根据模式所测得的特征向量X i =(X i 1, X i 2, X id T (i =1, 2, n 式中:n 为样本点数 , d 为样本特征数。将一个给 定的模式归入 c 个类中,然后根据模式之间的距离 函数来判别分类统计模式识别的主要方法有:判别 函数法, k 近邻分类法,非线性映射法,特征分析 法,主因子分析法等。2 基于最小错误率的贝叶斯决策方法贝叶斯决策理论方法是统计模式识别中的

8、一 个基本方法,这种方法在对数据进行概率分析的基 础上生成分类器(决策规则,再应用生成的分类器 对新数据依据概率方法进行分类。在运用贝叶斯理 论的时候必须满足如下的基本条件:各类别总体的 概率分布是已知的;被决策的分类数是一定的;有 很多种标准用于衡量分类器设计的优劣,对于用贝 叶斯决策而言,有基于最小错误率的贝叶斯决策, 基于最小风险的贝叶斯决策,在限定一类错误率条 件下使另一类错误率为最小的两类别决策、最小最 大决策、序贯分类方法等。贝叶斯公式:设 D 1, D 2, , D n 为样本空间 S 的一个划分,如果 P (D i 表示事件 D i 发生的概率, 且 P (D i 0. 对于任

9、一事件 x , P (x 0, 则有1( ( ( ( nj j j iii P D x P x D P D P x D P D = 在模式分类问题中,人们往往希望尽量减少分 类的错误,从这样的要求出发,利用概率论中的贝 叶斯公式,就能得出使错误率为最小的分类规则, 称之为基于最小错误率的贝叶斯决策。对于两类情况 =1, 2, x =x 1, x 2, x d T如果 1,2( max ( i j i j P x P x x =对于多类情况 =1, 2, c , x =x 1, x 2, x d T如果 ( (, 1, 2, , i j P x P x j c =and i j i x 对数形式

10、为 ln ( ln ( i i P P +=1maxln( ln (i i j cj P P x x + 3 贝叶斯分类器的设计分类器的设计主要有以下几方面的内容:首先 应定义判别函数和分类决策面方程。 对于 C 类分类 问题,按照分类决策规则可以把 d 维特征空间分成 c 个分类决策域,将划分分类决策域的边界称为分 类决策面,在数学上用解析形式可以表示成分类决 策面方程。用于表达分类决策规则的某些函数则称 为判别函数。判别函数与决策面方程是密切相关 的,且它们都有相应的分类决策规则所确定。对于 手写英文字母的分类识别显然属于多类情况下的 分类识别。对于多类的情况,设 =1, 2, c , x

11、 =x 1, x 2, x d T 通常定义一组判别函数 g i (x , i =1, 2, c 用于 表示多类决策规则。 如果它使 g i (x g j (x 对于一切 j i 成立,则将 x 归于 i 类,根据上面的分类规则 显然这里的 g i (x 可定义为 (p (x | p (+h (x , 其中 ( 为任一单调函数。分类决策面方程。 各决策域 r i 被决策面所分割, 这些决策面是特征空间中超曲面,相邻的两个决策 域在决策面上其判别函数的值是相等的,如果 r i 和 r j 是相邻的,则分割它们的决策面方程应满足( ( i j g x g x = 分类器的设计。分类器可以看成是由硬

12、件和软 件组成的一个 “机器” 。 它的功能是先计算出 c 个判 别函数,再从中选出对应于判别函数为最大值的类 作为决策结果。如图 2所示。图 2 多类分类器4 贝叶斯分类器的实现贝叶斯分类器的设计方法属于监督学习法。监 督学习方法用来对数据实现分类,分类规则通过训100 辽宁工业大学学报 (自然科学版 第 29卷 练获得。在监督学习识别方法中,为了能够对未知 事物进行分类,必须输入一定数量的样品,构建训 练集,而且这些样品的类别已知,提取这些样品的 特征,利用训练集里每个样品所属的类别,由这些 已知条件建立判别函数,构造一个分类器,然后对 任何未知类别的模式,用该分类器判别其类别。本 文对手

13、写英文字母的分类识别设计了含有 26个类 别的手写字母样品库。手写字母样品通过直接手写 或分割手写英文单词得到。对待测样品进行特征提取,采用的是模板法, 首先找到每个手写样品的起始位置,在此附近搜索 该样品的宽度和高度;将每个样品的长度和宽度 N 等份,构成一个 N N 的均匀小区域;这 N N 的 小区域就是模板,对于每一小区域内的黑像素个数 进行统计, 除以该小区域的面积总数, 即得特征值。 这样做的好处是,针对同一形状、不同大小的样品 得到的特征值相差不大,有能力对同一形状、不同 大小的样品视为同类。 N 值越大,模板也越大,特 征越多,区分不同的物体能力越强,但同时计算量 增加,运行等

14、候的时间增长,所需样品库也要成倍 增加。 N 值过小,不利于不同物体间的区别。多类情况下的最小错误率的贝叶斯决策的判 别函数对数形式为ln ( ln ( i i P P +=1maxln( ln (i i j cj P P x x + 因为样本空间服从正态分布,并且协方差矩阵 U 1=U 2= =U n =U 所以其判别函数可以简化为T 11( ( ( 2i i i i h X X X U X X =+1ln ( ln 2i i P U 实现步骤(1首先求出每一类手写英文字母的样品均值 其中 N i 为第 i 类样品数目, n 为特征数目T 1211(, , , , iN i i in i i

15、j j X X x x x N=0,1, 2, , 25i =(2求出每一类样品的协方差矩阵 U i , 并计算 出其逆矩阵 U i -1和行列式 , l 为样品在每一类中的 序号, j 和 k 为特征值序号111212122212i i i n i i i n i i i in n nn u u u u u u U u u u = # 11(, 1iN i j k jkij lki i u x x x x N = , 1, 2, , j k n =(3求出每一类的先验概率( , 0,1, 2, 25i i P N N i =(4将各个数值带入判别函数T 11( ( ( 2i i i i h

16、X X X U X X =+1ln ( ln 2i i P U 判别函数最大值对应的类别就是手写英文字 母所属的类别分类效果如图 3所示。图 3 手写分类器5 总 结从理论上讲,依据贝叶斯理论所设计的分类器 应该有最优的性能,如果所有的模式识别问题都可 以这样来解决,那么模式识别问题就成了一个简单 的计算问题,但是实际问题往往更复杂。贝叶斯决 策理论要求两个前捉,一个是分类类别数目已知, 一个是类条件概率密度和先验概率已知。前者很容 易解决,但后者通常就不满足了。基于贝叶斯决策 的分类器设计方法是在已知类条件概率密度的情 况下讨论的,贝叶斯判别函数中的类条件概率密度 是利用样本估计的,估计出来

17、的类条件概率密度函 数可能是线性函数,也可能是各种各样的非线性函 数。 这种设计判别函数的思路, 在用样本估计之前, 是不知道判别函数是线性函数还是别的什么函数 的。而且,有时候受样本空间大小、维数等影响, 类条件概率密度函数更难以确定。因此在实际问题中,往往不去恢复类条件概率 密度,而是换一种设计判别函数的思路,即设计判 别函数时,首先确定判别函数为某种函数,比如为 线性函数,然后利用样本集估计判别函数中的未知 参数。如何估计这些未知参数,应针对不同的实际 情况,提出不同的设计要求,使得所设计的分类器 尽可能好地满足这些要求。这种设(下转第 107页 第 2期 田丰:水利工程建设与保护生态环

18、境可持续发展 107革,努力理顺水资源的管理体制,把水资源的统一 管理和监督、宏观调控等水行政管理与开发利用的 具体活动区别开来,水行政主管部门要通过规划, 计划取水许可和有偿使用等制度,综合运用法律、 经济、行政、科技等手段,在水资源配备各个关键 环节,对全社会涉水事务进行统一管理。目前锦州市即将兴建的锦凌水库工程, 在考虑 到城市快速发展后的防洪问题、城市供水问题后, 更应该考虑到水库兴建后对周边自然环境、生态环 境和下游的安全问题。在工程建设中和建成后,对 自然环境的保护与小凌河流域中下游生态环境的 可持续发展,要做出具体的规划。既要保护下游人 民群众生命财产的安全,也要保护库区周边地区

19、生 态自然环境的可持续发展。5 结 语在水利工程建设中既要做到百年大计,也必须要做到保护保护生态环境的可持续发展。兴修水利工程,是必要打破原有的生态平衡,使已经形成的平衡状态受到干扰破坏。在设计和施工中只要遵循 “ 因势利导,因地制宜 ” 的原则,合理规划,周全设 计,精心施工,加强科学管理,大多负面影响都可 以得到缓解。水利工程能否带来环境效益,能否把 对环境的负面影响降低到最低限度是衡量水利工 程建设成败的重要指标之一。所以,要充分发展和 应用现代科学技术,深入研究自然与生态的平衡机 制,研究人类改变自然对生态近期和长远的影响, 从而找出切实可行的解决办法。参考文献:1 毛文生 . 生态环

20、境影响评价概论 M. 北京 : 中国环境出版社 , 2003: 35-37.2 陈长冰 . 合理把握水利工程与生态环境和谐发展 J. 改革与探索 , 2005(7: 26-27.3 陆松生 . 促进水利事业可持续发展的思考 J. 江苏水利 ,2005(6: 13-15. 4 方 红 卫 . 城 市 水 环 境 和 水 生 态 建 设 J. 太 原 科 技 , 2004(6: 9-11. 责任编校:刘亚兵公式的行距 孙 林 一般文字的排版通常都采用单倍行距,但每每 遇到公式的时候行距往往会增大,如式(1311( (1 ( ( i i i u k u k K k k w x =+(1疏密不匀的行距很不美观。这里介绍两种调整公式行距的方法。首先需要强调一点,公式应尽可能写成独立公式,单占一行。这时可以把公式的行距设为“最小值 0磅” ,如式(2311( (1 ( ( i i i u k u k K k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论