




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
手写体数字识别方法的研究与实现 摘要 手写体数字识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ) 是光学字 符识别技术( 0 p t i c a lc h a r a c t e rr e c o g n i t i o n ,简称o c r ) 的一个分支, 在文件资料自动录入、金融税务系统数据统计、图像文本的压缩储 存、自动阅读器、盲人助读器等领域有着广阔的应用前景。本文针 对手写体数字识别的全过程展开研究,研究成果主要包括以下3 个方面: 1 预处理和特征提取是手写体数字识别的关键环节。在预处 理阶段,本文提出了一种基于最大高宽比的倾斜校正算法,与原算 法相比,该算法在倾斜校正的同时,更好地保留了原有图像的形状 特征。在特征提取阶段,本文提出最小二乘拟合一次多项式的方法 计算手写体数字的拐点,实验证明该方法是有效的。 2 应用传统b p 神经网络进行手写体数字识别时,存在收敛 速度慢和易陷于局部极小点等缺陷,本文就如何选取学习率r 和动 量矩o - 提出了改进方案,并将其应用于手写体数字识别,取得了较 好的效果。 3 本文综合使用多种模式识别方法,构成了一个组合分类器, 并将多种向量作为输入,实验结果表明该组合分类器提高了手写体 数字的识别率和识别精度。 关键词:特征提取,b p 神经网络,组合分类器,识别率 r e s e a r c ha n dr e a l i z a t i o no fh a n d w r i t t e nd i g i tr e c o g n i t i o n a b s t r ae t a sab r a n c ho fo p t i c a lc h a r a c t e rr e c o g n i t i o n ,h a n d w r i t t e nn u m e r a l r e c o g n i t i o nh a sb e e nw i d e l yu s e di nd o c u m e n t a t i o na u t o m a t i c a l l y i n p u t t i n g ,d a t as t a t i s t i c so ff i n a n c et a xs y s t e m ,a sw e l la sc o m p r e s s i o n s t o r a g eo fi m a g e sa n dt e x t se t c i nt h i sd i s s e r t a t i o n ,w em a d ed e e ps t u d y a b o u tt h ep r o e e s s so fh a n d w r i t t e nn u m e r a lr e c o g n i t i o n t h em a i nr e s u l t s o fo u rs t u d yi sa sf o l l o w s : 1 p r e p r o c e s s i n ga n df e a t u r ec h o i c ep l a yak e yr o l eo fh a n d w r t i t t e n n u m e r a lr e c o g n i t i o n f o rt h ep r e p r o c e s s ,w ep r o p o s e dam e t h o do fs l a n t c o r r e c t i o nb a s e do nm a x i m u mr a t i oo fh e i g h tt ow i d t h c o m p a r e dw i t ht h e e x i s t i n ga l g o r i t h m s ,t h em e t h o dc a nr e t a i nf e a t u r e so ft h eo r i g i n a lf i g u r e b e t t e ra f t e rt h es l a n tc o r r e c t i o n a sf a ra sf e a t u r ec h o i c e ,w eg e tt h e i n f l e x i o np o i n tb yu i n gt h el e a s ts q u a r ei m i t a t em u l t i n o m i a la r i t h m e t i c t h ee x p e r i m e n tr e s u l t ss h o wt h a to u rm e t h o di s q u i t ee f f e c t i v e 2 f o rt h eh a n d w r i t t e nn u m e r a lr e c o g n i t i o nb ym e a n s0 fb p n e u r a ln e t w o r k ,t h ee f f e c ti sm e d i o c r et a k i n gi n t oa c c o u n to ft h e s p e e d0 fc o n v e r g e n c et o g e t h e rw i t hf a l l i n gi n t ol o c a li n f i n i t e s i m a l p o i n t i nt h i sd i s s e r t a t i o n ,w ep r e s e n tt h ei m p r o v e ds k e m e0 fh o w t o s e i e ct h e 1 e a r i n gr a t e ,7a n dm e m e n t u m 盯,w h i c h isu s e dt 0 h a n d w r i t t e nn u m e r a l r e c o g n i t i o n a n dc a no b t a i ns a t is f a c t or y o u t c o m e 3 ac o m b i n e dc l a s s f i e r t h r o u g hc o m b i n a t i o no fv a r i o u sp a t t e r n r e c o g n i t i o nm e t h o d i su s e dw i t hv e c t o r sa si n p u t t i n gv a r i a b l e s t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ec l a s s f i e rc a ri m p r o v et h er e c o g n i t i o n r a t eo fh a n d w r j t t e nn t i m b e r k e y w o r d s :f e a t u r ec h o i c e ;b pn e u r a ln e t w o r k ;c o m b i n e dc l a s s i f i e r ; r e c o g n i t i o nr a t e v 插图目录 图2 1 基于最小宽度的倾斜校正算法实验效果圈6 图2 2 基于最大高宽比的倾斜校正算法实验效果图7 图2 3 四个3 3 的平滑窗口9 图2 4 像素的灰度值1 0 图2 5 最邻近细化流程图1 i 图2 63x3 窗口l l 图2 74 x 4 窗e l 1 2 图2 - 8 消除模板1 2 图2 9 保留模板l3 图2 1 0 模板细化法2 细化流程图1 3 图2 1 i 细化算法实验结果l 3 图3 1 七段投影框架1 8 图3 23 3 检测模板1 9 图3 3 微观结构特征1 9 图3 4 拐点实验效果图2 0 图3 5 伪特征点示意图2 1 图3 6 去除伪端点和孤立点示例图2 1 图3 7 去除伪三叉点示例图2 2 圈3 8 四叉特征示例图2 2 图3 9 特征提取算法流程图2 2 图3 1 0 特征点定位编码图2 3 图3 1 l8 的异形字示意图2 3 图4 1 神经元模型2 5 图4 2 含有一个隐层的b p 网络2 6 图5 1 组合分类器结构图3 2 图5 2 部分学习样本3 4 图5 - 3 部分测试样本3 4 表格清单 表3 - l8 的各异形字的结构向量表2 4 表4 一l 传统b p 算法与改进b p 算法性能对比3 1 表5 1 三个单独b p 网络分类器与组合分类器实验结果对照表3 5 表5 - 2 两种组合算法实验结果对照表3 5 x 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得金匿王些塞堂 或其 他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:浮井霭签字日期2 - 。7 年;月,占日 学位论文版权使用授权书 本学位论文作者完全了解盒篷王些太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅或借阅。本人授权 盒蟹王些态堂 可以将学位论文的全部或部分论文内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 斗 签字日期:2 。7 年。月b b b 签字日期:夕”年 月 学位论文作者毕业后去向: 工作单位: 通讯地址: i i i 导师签名: 勿勿叱 签字日期:秒7 年6 月,6 日 电话: 邮编。 致谢 本文是在导师张佑生教授的悉心指导下完成的。在攻读硕士学位期间。张老师 在学习和研究方面给了我精心的指导和莫大的帮助。他渊博的知识、严谨的治学态度、 敏捷的思维、孜孜不倦的进取精神、平易近人的作风一直感染并激励着我,并将使我 终身受益。在此向张老师致以衷心感谢j 在三年的时间中,得到图形与图像研究室的胡敏老师与薛峰老师的很多指导与 帮助,启发了我的思路,使我受益匪浅。在我今后的工作中希望能继续得到他们的支 持。 在攻读硕士工作期间,还得到了研究室中许多同学的帮助,他们是刘俊娜、侯 顺风、习雅思、王良燕、李显杰、李剑飞、黄忠、王臻等同学,在此一并表示感谢。 感谢我的父母,他们不仅含辛茹苦地养育了我,正是他们殷切的期望使我不敢 懈怠,不断战胜困难,取得进步。衷心感谢我的妻子邢燕女士,她的支持与鼓励使我 对论文的研究有了更多的兴趣与信心,直到论文的最终完成。 最后,要感谢评阅硕士论文和出席硕士论文答辩会的各位专家学者,感谢他们 在百忙的工作中能给予指导。 洪沛霖 2 0 0 7 年5 月于合肥工业大学逸夫科教楼 v i 1 1 引言 第一章绪论 手写体数字识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ) 是光学字符识别技术 ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,简称o c r ) 的一个分支,它研究的对象是如何利 用电子计算机自动辨认写在纸张上的阿拉伯数字。手写体数字识别涉及到模式 识别和图像处理、人工智能形式语言和自动机、统计决策理论、模糊数学、组 合数学、信息论、计算机等学科,也涉及到语言文字学、心理学、生物学等, 是一门综合性的技术。 现实生活中,数字识别的应用需求是相当紧迫的。需要计算机自动处理的 数字量非常大,而目前实际利用自动识别的文字量所占的比例非常小。随着识 别技术的不断成熟,手写体数字识别技术在文件资料自动录入、金融税务系统 数据统计、图像文本的压缩储存、自动阅读器、盲人助读器等领域的应用必然 会得至较快的发展,体现在以下几个方面: ( 1 ) 手写数字识别在大规模数据统计中的应用 在大规模的数据统计( 如:人口普查、成绩单录入、行业年检、财务报表 录入) 中,需要输入大量的数据,以前完全靠手工输入,耗费大量的人力和物 力。近年来使用o c r 技术大大提高了工作效率。 ( 2 ) 手写数字识别在财务、税务、金融领域应用 随着我国经济的快速发展,每天会有大量的财务、税务、支票等需要处理。 如果使用计算机进行自动化处理,无疑会节省大量的时间和金钱。当然,该领 域对识别的精度要求很高,因此对预处理和识别的算法要求就很高。 ( 3 ) 手写数字识别在邮件分拣中的应用 传统的邮件分拣主要是由人工来实现的。随着经济的发展,各种私人和商 务信件会越来越多,一些大城市每天处理的邮件高达几百万件。因此邮件的自 动分拣成为大势所趋。目前国内县市级以上邮政部门都已使用邮件分拣机,其 中使用量最大的o v c s 分拣机的o c r 拒分率为3 0 ,o c r 分拣差错率为1 1 。随着国家信息化进程的加速,手写数字识别的应用需求将越来越广泛,尽 早建立适应中国人书写习惯的、具有国家标准性质的手写数字样本库,研究高 识别率、零误识率和低拒识率的高速识别算法,将是近期内备受关注的重点课 题。总之,信息时代离不开计算机字符识别技术,自动识别技术必将与信息时 代社会同步前进。 手写体数字识别作为模式识别领域的一个重要问题,也有着重要的理论价 值:( 1 ) 阿拉伯数字是唯一的被世界各国通用的符号,对手写体数字识别的研究基 本上与文化背景无关,这样就为各国、各地区的研究工作者提供了一个施展才 智的大舞台在这一领域大家可以相互探讨,比较各种研究方法;( 2 ) 由于数字识 别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显的例 子就是人工神经网络( a n n ) ,相当部分的a n n 模型和算法都以手写数字识别作 为具体的实验平台,验证理论的有效性,评价各种方法的优缺点:( 3 ) 尽管人们 对手写数字的识别己从事了很长时间的研究,并已取得了很多成果,但到目前 为止机器的识别本领还无法与入的认知能力相比,这仍是一个有难度的开放问 题( o p e np r o b l e m ) ;( 4 ) 手写体数字的识别方法很容易推广到其它一些相关问题, 一个直接的应用是对英文字母和汉字这样手写体字符的识别。 1 2 手写体数字识别系统的研究现状 o c r 系统包括手写体字符和印刷体字符识别,手写体数字识别系统是o c r 系统的典型代表之一,因此结合o c r 系统发展的过程简述手写体数字识别系统 的发展过程和研究现状。 o c r 系统的历史可以追溯到1 9 2 9 年,但是真正的o c r 是在本世纪5 0 年 代随着计算机的出现而到来的。 第一代商用o c r 系统是在本世纪年代初期出现的,这一代系统的主要特点 是能识别有限字型的字符。其中最有代表性的系统是n c r4 2 0 ,它能识别一些 特定字型的字符。另一个具有代表性的系统是f a r r i n g t o n 电子公司的f a r r i r l g t o n 3 0 1 0 ,与n c r4 2 0 一样它识别的也是一种特定字体的字符。还有一些系统例如 i b m1 4 1 8 ,1 4 2 8 ,1 8 5 以及n e c 的n 2 4 0 d 一1 ,这些系统都是识别一些非常特定字 体的系统,它们构成了第一代的字符识别系统【l 2 l 。 第二代的o c r 系统在6 0 年代中期至7 0 年代早期出现,这一代的o c r 系 统是以识别比较工整的手写字体为特点的。一个著名的系统是i b m l 2 9 7 ,它利 用数字和模拟技术实现了这一功能。第一个邮政编码自动分检机是由t o s h i b a 公司研制出来,2 年以后n e c 公司也推出了自己的邮政编码自动分检机。同时 第二代的o c r 系统在识别印刷体字符上也有了许多的改进,能够识别一系列规 正的印刷体字符。如r e c o g n i t i o n e q u i p m e n t 公司的r e t i n a 系统。手写体数字 识别系统在这代系统中有很大的比例,可以说第二代的o c r 系统是手写体数 字识别系统的开端。 第三代o c r 系统的目标是让计算机能处理一般的更复杂的情况,比如印刷 质量比较差的字符或更为一般的手写体字符,而且文字本身字符种类很多,如 汉字,日文等。目前可以认为第三代系统只是部分实现。近年来出现的手写体 数字识别系统多属于第三代系统【3 1 。 2 1 3 手写体数字识别的一般方法 手写数字识别在学科上属于模式识别与人工智能范畴。在过去的四十年中, 人们想出了很多办法获取手写字符的关键特征。提出了许多识别方法和识别技 巧。这些手段分两大类:全局分析和结构分析。对前者,我们可以使用模板匹 配、像素密度、矩、特征点、数学变换等技术。这类特征通常和统计分类方法 一起使用。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征, 包括圈、端点、节点、弧、突起、凹陷、笔画等等。这些结构特征往往与句法 分类方法配合使用。 多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定没有 一种简单的方案能达到很高的识别率和识别精度,因此,最近这方面的努力向 着更为成熟、复杂、综合的方向发展。研究工作者努力把新的知识运用到预处 理、特征提取和分类当中。近年来,人工智能中专家系统方法、人工神经网络 方法已应用于手写数字识别。在手写体数字识别的研究中,神经网络技术和多 种方法的综合是值得重视的方向。 针对模式特征的不同选择及其判别决策方法的不同,可将模式识别方法大 致分为如下3 大类i 4 , s : ( 1 ) 统计模式法 这是以同类模式具有相同属性为基础的识别方祛。用来描述事物属性的参 量叫做特征,它们可以对模式的多个样本的测量值进行统计分析后按一定准则 来提取。例如:在手写体数字识别系统中,我们可以把每个数字的图形分为若干 小方块,然后统计每一小方块中的黑像素,构成一个多维特征矢量,作为该数 字的特征。必须注意的是:在选择特征时,用于代表各类模式的特征应该把同类 模式的各个样本聚集在一起,而使不同类模式的样本尽量分开,以保证识别系 统能具有足够高的识别率。 ( 2 ) 句法结构方法 句法结构方法是以同类模式具有相似结构为基础的识别方法。所谓结构是 指组成一个模式的基本单元( 简称基元) 之问的关系。句法结构方法一般分为 训练过程和识别过程:训练过程就是用已知结构信息的模式作为训练样本,先识 别出基元和它们之间的连接关系,并用数字符号表示它们,然后用构造方法来 描述生成带识别数字的过程,并由此推断出生成该数字的一种文法规则;识别 过程就是对未知结构的模式进行基元识别及其相互关系分析,然后用训练过程 中获得的文法对其作句法分析,如果它能被已知结构言息的文法分析出来,则 该模式具有与该文法相同的结构,否则就可判定不是这种结构。此方法识别方 便,可从简单的基元开始,由简至繁,能反映模式的结构特征,能描述模式的 性质,对图像畸变的抗干扰能力较强,但当存在干扰及噪声时,抽取基元困难, 且易失误。 ( 3 ) 神经网络方法 人工神经网络是一种十分有效的模式识别方法,可处理一些环境信息十分 复杂,背景知识不清楚,推理规则不明确的问题。该方法允许样品有较大的缺 损、畸变,运行速度快,自适应性能好,具有较高的分辨率。但是,其模型仍 在不断丰富完善中,目前能识别的模式类还不够多。 上述3 种识别方法各有特点,均可实现手写体数字识别,可根据实际环境 和条件选用。 就前两种方法而言,也各有千秋。结构法比较直观,能较好反映事物的结 构特性;缺点是基元的提取很不容易,各基元的关系也比较复杂,抗干扰性能 也较差。统计法利用计算机来抽取特征,比较方便,抗干扰性能较好;缺点是 没有充分利用模式的结构特性。近年来,人们把这两种识别方法结合起来,派 生出各种行之有效的结构法与统计法相结合的模式识别算法,取得了很好的效 果。 1 4 手写体数字识别系统性能的评价 作为一个识别系统,最终要用某些参数来评价其性能的高低,手写体数字 识别也不例外。评价的指标除了借用一般字符识别里的通常做法外,还要根据 数字识别的特点进行修改和补充。一个手写数字识别系统可以用三方面的指标 表征系统的性能: 正确识别率a = ( 正确识别样本数全部样本数) x1 0 0 误识率s = ( 误识样本数全部样本数) x1 0 0 拒识率r = ( 拒识样本数全部样本数) x1 0 0 三者的关系是:a + s + r = 1 0 0 数字识别的应用中,人们往往很关心的一个指标是“识别精度”,即:在所 有识别的字符中,除去拒识字符,正确识别的比例有多大。识别精度p 的定义 为: p = a ( a + s ) x10 0 一个理想的系统应使r 与s 尽量小,而p 与a 尽可能大。而在一个实际 系统中,拒识率r 的提高总伴随着误识率s 的下降,即s 与r 是相互制约的。 因此,在评价手写数字识别系统时,必须综合考虑这几个指标。 4 1 5 本文的主要研究内容与安排 全文共分为六章,各章的内容安排如下: 第一章对手写体数字识别技术进行综述,介绍该技术的发展历史与研究现 状。 第二章介绍了手写体数字识别中的预处理技术,包括倾斜校正、二值化、 平滑、细化和规一化等步骤。在对经典算法实现并加以比较的基础上,提出了 基于最大高宽比的倾斜校正算法,改善了倾斜校正效果。 第三章从宏观结构和微观特征结构两个方面讨论了手写体数字识别中的特 征提取,并提出了一种利用最小二乘法拟合一次多项式的方法来计算手写体数 字的拐点。 第四章讨论了用b p 神经网络进行手写体数字识别,就如何选取学习率”和 动量矩。提出了改进方案,得到了较为满意的结果。 第五章使用多种模式识别方法,构造了一个= 级组合分类器,并将多种特 征向量作为输入,提高了手写体数字的识别精度 第六章总结全文并展望后续研究工作。 5 第二章手写体数字识别中的预处理技术 手写体数字识别时,首先将印( 写) 在纸上的字符,经光电扫描产生模拟电 信号,再通过模数转换把带灰度值的数字信号输入计算机。纸张厚度、洁白度、 光洁度、油墨深浅、印刷或书写质量都要造成字形畸变,产生污点、飞白、断 笔、交连等干扰。输入设备的鉴别率、光学畸变也要产生噪声。所以,在单个 字符识别之前,要对带有随机噪声的字符灰度值数字信号进行预处理 ( p r e p r o c e s s i n g ) 。 预处理是字符识别的重要一环,它可以把原始图像转换所能接受的形式( 二 值化) ,消除一些与类别无关的因素( 尺寸和位置的归一化) 。由于一般都在预 处理后的图像上提取特征,因此如果这个步骤结果不理想,往往会给后面的识 别环节带来无法纠正的错误。预处理一般包括倾斜校正、二值化、平滑、细化、 归一化等步骤。下面按照预处理的流程依次讨论各个步骤。 2 1 倾斜校正 2 1 1 基于最小宽度的倾斜校正算法 基于最小宽度的倾斜校正算法基本思想是基于当手写体数字图像倾斜度最 小时,它的宽度达到最小这个现象。算法的基本步骤为: ( 1 ) 假定初始旋转角度0 = 4 5 。,初始图像为活动位图b 0 。 ( 2 ) 如果e 1 。,则转( 3 ) ;否则,停止循环并输出数字图像。 ( 3 ) 求出b o 宽度w 0 ,将b 0 所有像素点绕左下角点以旋转角0 分别进行顺、 逆时针旋转,得到新图像b l 和b 2 。设图像中原像素点坐标为( x 0 ,y 0 ) ,旋转 后像素点坐标为( x l ,y 1 ) ,( x 2 ,y 2 ) 。则 x 1 2 x 0 一y t a n ( 0 ) ,y 1 2 y 0 , x 2 2 x o + y t a n ( 0 ) ,y 2 = y 0 并分别求出b 卜b 2 的宽度w l 、w 2 。 ( 4 ) 找出w 0 、w l 和w 2 中最小者,若w 0 最小,则停止循环并输出数字图像。 否则,将它所对应的位图图像赋值为活动图像b 0 。将其所对应的位图图像赋值 为活动图像b 0 。并令旋转角度0 = 0 2 。返回( 2 ) 继续执行。 图2 1 基于最小宽度的倾斜校正算法实验效果图 6 右边是校正后的图像。 2 1 2 基于最大高宽比的倾斜校正算法 基于最小宽度的校正算法仅改变了旋转后像素点的横坐标而未改变纵坐标,因此 会改变图像的形状,继而影响数字图像的识别效果。本章提出一种改进的基于最大高 宽比的倾斜校正算法。其基本思想基于当手写体数字图像倾斜度最小时,它的高度和 宽度的比值达到最大这个现象。算法的基本步骤为: ( 1 ) 假定初始旋转角度0 = 1 。,初始图像为活动位图b o 。 ( 2 ) 如果0 、4 5 。,则转( 3 ) 。否则,停止循环并输出数字图像。 ( 3 ) 求出b o 高度h o 、宽度w o 并求出两者比值o 。将b 0 所有像素点绕图像中心 点分别以旋转角o 进行顺、逆时针旋转,得到新图像b l ,b 2 。图像中原像素点坐标 为( x ,y ) ,顺、逆旋转后像素点坐标分别为( x 1 ,y 1 ) ( x 2 ,y 2 ) , 则x l - - x o c o s ( e ) + y o s i n ( e ) ,y l = - x o s i n ( 0 ) + y o c o s ( 9 ) ( 2 1 ) x 2 = - x o c o s ( o ) - y o s i n ( o ) y 2 = x o s i n ( o ) + y o c o s ( 0 ) ( 2 2 ) 并求出b 1 的高度h l 、宽度w 1 和两者比值p l 和b 2 豹高度h 2 、宽度w 2 和两者比值“2 。 ( 4 ) 找出肛o ,l a l ,i x 2 中最大者,若肛0 最大,则停止循环并输出数字图像。否则,将 它所对应的位图图像赋值为活动图像b o 。并令旋转角度0 = 2 0 。返回( 2 ) 继续执行。 图2 - 2 给出了基于最大高宽比的倾斜校正算法实验效果图,上面一行是校 正以前的图像,下面一行时校正以后的图像。 2 2 二值化 图2 吨基于最大高宽比的倾斜校正算法实验效果图 把数字灰度图像处理成二值图像的过程,称为对数字图像的二值化 ( b i n a r i z a t i o n ) 。对灰度图像二值化能显著的减小数据存储的容量,降低后续处 理的复杂性。 为使二值化图像能忠实地再现原数字,应提出如下基本要求:( 1 ) 笔划中不 出现空白点;( 2 ) - 值化的笔画基本保持原来文字的结构待征。图像二值化的关 键在于阈值t 的选择,下面就介绍几种常用的阙值选取方法。 7 扩可 7 ,占岳皇年年芗罩 2 2 1 整体阈值二值化 仅由像素的灰度值f ( i ,j ) 确定阅值的方法称为整体阈值选择法。阈值t 表示 为:t = t 【f ( i j ) 】。常用的几种整体阈值选择方法有: ( 1 ) 人工设定整体阂值【7 】 根据实验或人的经验,预先给定一个固定阐值t ,当f ( i j ) t 时,( i j ) 为数字 笔画上的点,否则为背景的点。这是一种最简单的速度最快的二值化方法。当 数字清晰,轮廓明显,干扰很小时,它是一种行之有效的方法。人工设定整体 阈值的缺点是:1 ) 不能根据每个文字确定其最佳的阈值;2 ) 光源等外界条件 改变时,阈值不能随之改变。 ( 2 ) 由灰度直方图确定整体阐值【8 l 图像灰度直方图是对图像的灰度值分布概貌的描述,根据图像直方图可比 较准确地确定整体阐值。设规范化灰度值g 的范围为0 g k l ,g = 0 为最黑,g = l 为最白,m 为灰度级数目,p ( g k ) 为第k 级灰度的概率,n k 是在图像中出现灰度 级为k 的次数,n 为图像中像素的总数。则有 p ( g k ) = n k n0 _ g k l ,k = l ,2 ,m( 2 3 ) 以p ( g k ) 为纵坐标,以g k 为横坐标对此函数作图,可得到图像灰度直方图。 手写数字图像的灰度直方图一般为双峰形态,其中一个峰值对应数字笔画部分, 另一个峰对应背景部分。将阈值取为两个峰值间的谷点处,可得到很好的二值 化效果。 2 2 2 局部阂值二值化 根据像素的灰度值f 0 , j ) 和像素周围点的局部灰度特性确定阈值的方法称 为局部阙值选择法。阈值t 表示为:t - t 【“i ,j ) ,n 0 , j ) 】。对于书写质量较差,噪声 比较严重的数字图像,采用全局法进行二值化的效果往往不理想,可采用局部 阈值选择法来得到较为满意的二值化结果。 2 2 3 动态阈值二值化 当闯值选择不仅取决于该像素阈值以及其周围各像素的灰度值,而且还和 该像素坐标位置有关时,称之为动态阈值选择法。阈值t 表示为:t = t f ( 巧) , n ( i ,j ) ,( i ,j ) 】。这种方法可以处理低质量甚至单峰直方图图像。对于手写数字图 像而言,其笔画和背景容易区分,阈值不难用直方图确定,一般无需采用动态 阈值法这样计算复杂的方法。 局部阈值和动态阈值虽然能处理质量较差的数字避免整体阙值法带来的 不应有的失真。但是,一则时间开销大,二则考虑到实际的局部闽值和动态闽 值选择算法往往在图像的某些部位上产生整体选择不会产生的失真,所以,在 8 数字识别中,一般采用整体阈值法。 2 3 平滑 平滑处理,就是采用一个n x n 的像素窗口,依次在二值化字符图像的每个 像素点上移动,利用逻辑表达式来消除孤立像素的一种技术。数字字符图像经 过平滑处理,能在很大程度上去掉噪声和干扰,平滑笔画边缘【9 l 。 设定如图2 3 四个3 3 的平滑窗口,其中“? ”表示0 或l 都可以。这些窗口再 加上将每个窗口旋转9 0 0 、1 8 0 0 和2 7 0 0 得到的新平滑窗口,得到所需窗口的所有情况。 在字符图像中,如果某像素p 的3 x 3 邻域窗口同平滑窗口( 1 ) 或( 2 ) 或两者的旋转窗口 相匹配( s o 完全一样) ,则将像素p 的值改为1 而成为黑象素;如果某像素p 的3 3 邻 域窗口同平滑窗口( 3 ) 或( 4 ) 或这两者的旋转窗口相匹配,则将像素p 的值改为0 而成为 白像素;对处于图像边缘的像素,可按背景色( r p0 值) 向外扩张一个像素。 圈圈船盟 图2 3 四个3 x 3 的平滑面口 从某种意义上讲,字符识别是一种实验性科学,因此我们可以根据实践对 实验作一些有利于识别结果的修补,只要这些修补不影响一般性前提并且是合 理的,那么就是可行的。上述的平滑处理就属此类。例如,对平滑窗口( 1 ) 而言, 中心像素p 的四个4 邻域都是黑象素,由于笔画的书写带有某种随机性,因而 有充分的理由认为中心像素p 也应是黑象素,否则,很可能是在图像采集过程 中,由于某种噪声或其它原因使得本应是黑象素的点变成了白像素,所以将p 改为黑象素具有相当的合理性。 我们这里用中值滤波法来抑制图像中的脉冲干扰和椒盐噪声。由于噪声在 图像中往往以孤立点的形式出现,故可采用中值滤波来消除噪声的目的。中值 滤波法是对一个滑动的窗口内的诸像素灰度排序,用其中的中值来代替窗口中 心的像素的原来的灰度,具体方法如下: 在一维情况下,设有一个离散的序列a l ,a 2 ,a n ,其中值为m 。这个m 大于等于( n 1 ) 2 个元素的值,同时也小于等于( n 1 ) 2 个元素的值。比如取5 个 元素8 0 、9 0 、2 0 0 、11 0 、1 2 0 ,将其排序后得到8 0 、9 0 、1 1 0 、1 2 0 、2 0 0 ,从而 可以得到其中值为1 1 0 。 具体对于图像来说,由于是二维的,我们取9 个元素,a i ( i _ l ,2 ,9 ) 是该 9 像素的灰度值,如图2 4 所示。其中值为m = m e d i a n ( a l ,a 2 ,a 3 ,a 4 ,a 5 ,a 6 ,a 7 ,a 8 , a 9 ) ,用n l 取代a 5 即得中值滤波结果。 2 4 图像细化 fa 1a 2a 3 a 4a 5a 6 a 7a 8a 9 图2 - 4 像素的灰度值 所谓细化就是将二值化字符点阵逐层剥去轮廓边缘上的点,变成笔划宽度 仅有一个b i t 的骨架图像。细化后的字符骨架既保留了原字符绝大部分特征, 又有利于特征的抽取。数字细化的基本要求是【l o 1 1 】: ( 1 ) 保持原有笔划的连续性,不能由于细化造成断开; ( 2 ) 细化为单线,即笔划宽度只有l b i t , ( 3 ) 细化后的骨架应尽量是原来笔划的中心; ( 4 ) 保持数字原有的特征,既不增加也不丢失; 我们在研究中发现,细化效果的好坏将直接决定着伪特征的多少以及识 别环节中识别率的商低。因此,选择好的细化算法对于提高系统的性能非常重 要。本文对多种细化算法进行了编程实现,并对一些细化算法进行了一些改进。 2 4 1 最邻近点细化法 用最邻近点方法抽取手写数字的骨架,就是对数字上的点( j ,k ) 判断其上、 下、左、右四邻近点是否满足下列方程。若成立,保留相应的邻点,否则予以 删除。这种细化方法的算法流程图见图2 5 。 k l = p 3 + p s ( 1 一p o + p 1 ) ( 1 一p 6 + p 7 ) ( 1 p 5 + p 2 + p l + p 7 + p 8 ) ( 3 - p 5 一p l p v + p 2 + p , ) = 0 ( 2 4 ) k r = p s + p 3 ( 1 一p 2 + p o ) ( 1 - p 8 + p 7 ) ( 1 一p 3 + p t + p o + p 6 + p 7 ) ( 3 - p l p 3 一p t + p 0 + p 6 ) = 0 ( 2 5 ) k u = p i + p 7 ( 1 - p o + p 3 ) ( 1 - p 2 + p 5 ) ( 1 - p 7 + p 3 + p 6 + p s + p 8 ) ( 3 - p 5 p 3 - p t + p 6 + p s ) = 0 ( 2 6 ) k d = p 7 + p l ( 1 一p 6 + p 3 ) ( 1 - p 8 + p 5 ) ( 1 - p i + p 5 + p 2 + p o + p 3 ) ( 3 - p 5 p l p 3 + p 2 + p o ) ;0 ( 2 7 ) p o = 坷1 ,b 1 ) ,p l = f 0 一l ,k ) ,l 2 - - - - f ( j - l ,k + 1 ) ,n = 绚,k - 1 ) ,p 4 - - f 0 ,k ) ,p 5 = 绚,k + 1 ) , p 6 2 f o + l ,k - 1 ) ,p 7 = f 0 + l ,k ) ,p s = f o + l a + 1 ) 1 0 图2 - 5 最邻近细化流程图 2 4 2 模板匹目b 法 这种细化方法是使用一个模板去匹配边界,然后反复腐蚀直到满足要求a 定义己知目标标记为l ,背景点标记为0 ,边界点是本身标记为l ,算法对边界 点进行如下操作: ( 1 ) 考虑以边界点为中心的8 - 邻域,记中心点为p t ,其领域的8 个点顺时 针绕中心点分别记为p 。,p 3 ,p 9 。其中p 。在p 的上方,如图2 - 6 a 首先标记 同时满足下列条件的边界点坦1 : a )2 n ( p 1 ) 6 b 1 ) 互v 豆v ( 丘 只) = t r u e 如幻 3如 州玛 n 撕 图 其中n ( p 1 ) 是p i 的非零邻点的个数;条件a 除去了p 。只有一个标记为l 的邻 点,即p 。过于深入区域内部的情况;条件b l 除去了p i 为边界的右或下端点( p 4 = o 或 p 6 = 0 ) 或左上角点( p 。= 0 和p 8 = o ) 。 ( 2 ) 同( 1 ) ,但条件b l 变为:b 2 互v p 一, v ( 互 豆) = t r u e 条件b 2 除去了p 1 为边界的左或上端点( p 2 = o 或p 8 = o ) 或右下角点( p 2 = 0 和 p 8 = 0 1 a ( 3 ) 重复以上两步骤,直到没有可以抹去的点为止。 实验证明,这种算法对有交叉笔划的数字也能很好地进行细化。但是它也 有不足之处:使连续的线段产生断续,出现过多的伪端点和孤立点,给后面去 除伪特征点带来很大的麻烦。为此本文又采用了另外一种模板匹配法一一模板 匹配法2 。 这种细化法主要是根据保留模板和消除模板决定该像素是否应该删除。从 图象的左上角元素开始进行,每个像素均抽取4 4 窗口的相邻像素,如图2 7 所示,其中p 5 为待处理的像素。细化时,将图中左上角的9 个像素 ( p o ,p l ,p 2 ,p 4 ,p 5 ,p 6 p 8 ,p 9 。p l o ) 分别与八个消除模板( 图2 - 8 ) 比较,如果和每一个消 除模板都不匹配时,该像素保留;否则,将抽取的元素再和图所示的六个保留 模板( 图2 - 9 ) 进行比较,如果与其中的任一个模板匹配的话,则该像素保留, 否则将其删除。重复这一过程,直到没有一个像素的值被改变为止。这种细化 方法的算法流程图见图2 一l o 。模板匹配法2 能够很好地对数字图像进行细化, 细化结果不破坏纹线的连接性,能够保护数字的特征点,并且该算法简单、速 度快。是一种良好的细化算法,细化效果见图2 - 1 1 。 图2 - 74 x 4 窗口 0 0 00 x l xlxol l 1 l l0 x l ( a )( b ) x 0 00 0 x l lo0l l xlxx 1x ( c )( f ) 1 1 1 x 1x 0 0 0 ( c ) x1x 0i1 00x 图2 - 8 消除模板 1x0 1 10 1x 0 ( d ) xlx 110 x 0 0 ( h ) 即耶m 邝 办m mn 如 n n n n n x lx 0 ollo xlx o xxxx ( a ) x x 0 0 olio xxlx x x x x ( b ) x x o x o1 lo x x 0 0 xxxx ( c ) x 0 x x l l lx xlxx 0 0 0 x ( d ) 图2 - 9 保留模板 x o x x xlxx 1 l0 x x 0 0 x ( e ) x o x x x lxx 0 llx 0 0 x x ( o 图2 1 0 模板细化法2 细化流程图 规格化的二值图最邻近点细化法 模板匹配法l模板匹配法2 圈2 1 1 细化算法实验结果 (=:秽n j 2 5 归一化 归一化是预处理中非常重要的一环。由于原始图象在大小、形状等方面存 在着很大的差异,必须进行归一化处理,使其具有相同的大小和形状,以利于 特征提取和识别的进行。统计识别中,基于各种特征的相关匹配要求特征向量 和模板向量具有相同的维数,各个分量一一对应,否则距离或相似度的计算便 难以进行。结构识别中,虽然更注重字符的结构和笔划之间相互的关系,但笔 划长度也常常作为一个很重要的属性被加以利用,着字符大小不做归一化处理, 这一属性就失去意义。总之,无论何种方法,归一化,尤其是大小的归一化都 是必要的一环。归一化包括位置归一化和大小归一化,大小归一化又有两种方 法,即线性归一化和非线性归一化。 2 5 1 位置归一化 位置归一化方法主要有两种,一是重心归一化,二是外框归一化。重心归一化方 祛是计算出重心后将重心移到点阵的规定位置,如中心位置上,即重心归一化后图像 的重心位于点阵中心。外框归一化是将图像的外框移到点阵的规定位置上。重心计算 是全局性的,因此重心归一化方祛抗干扰能力强,而各边框搜索是局部性的,故外框 归一化方法易受干扰影响。因此,也可将两者归一化方法结合起来使用,以便取长避 短。 2 5 2 大小归一化 ( 1 ) 线性归一化【t 3 1 线性归一化在字符识别中应用很多,实现的方法是对像素坐标进行线性变 换,将不同尺寸的图像转换成固定大小的图像。 设有二值化图像f ( i ,j ) ( i = l ,2 ,i ,j = l ,2 ,j ) ,g ( m ,n ) 为归一化的图像 ( m = l ,2 ,m ,n = l ,2 ,n ) ,则线性归一化可由式( 2 8 ) 、( 2 9 ) 实现: 脚:j ! 竖 ( 2 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民族自治区域的课件
- 土地面积课件
- 土地管理法讲解课件
- 家装工程质量验收标准及 checklist
- 民俗祭祖活动流程标准化指导
- 杭州科技职业技术学院《专项技能与实践5》2024-2025学年第一学期期末试卷
- 首都师范大学《大数据处理与分析原理及应用》2024-2025学年第一学期期末试卷
- 福建船政交通职业学院《经济现状与前景预测》2024-2025学年第一学期期末试卷
- 海南职业技术学院《食品工程原理实验(2)》2024-2025学年第一学期期末试卷
- 广东财贸职业学院《土木水利(建筑与土木工程)领域论文写作指导》2024-2025学年第一学期期末试卷
- 文松宋晓峰小品《非诚不找》奇葩男女来相亲金句不断台词剧本完整版
- 高等院校毕业生转正定级审批表-6
- 贾宁财务讲义:人人都需要的财务思维
- 红星照耀中国选择题及答案50道
- 开放性伤口止血包扎技术课件
- 重症患者中心静脉导管管理中国专家共识(2022版)
- 环境综合应急预案
- 氯甲烷泄露应急预案
- 2.PaleoScan详细操作流程
- PLC西门子S7-1200应用技术完整全套教学课件
- 苏州银行总行信息科技部招聘考试真题2022
评论
0/150
提交评论