（模式识别与智能系统专业论文）手写体数字识别方法的研究与实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：57 大小：1.58MB 积分：0 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

（模式识别与智能系统专业论文）手写体数字识别方法的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京理工大学硕士学位论文手写体数字识别方法的研究与实现摘要在信息化飞速发展的时代，光学字符识别是一个重要的信息录入与信息转化的手段。其中，手写体数字的识别有着非常广泛的应用( 如：邮政编码、统计报表、财务报表、银行票据等等) 。因此，手写数字的识别研究有着重大的现实意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。本文分别分析了十个阿拉伯数字的不同特征，针对不同的特征设计了不同的识别方法。对于每一个识别问题进行十个二分类的识别，然后再进行综合识别，得到最终结果。本文首先对待识别字符的预处理进行研究。着重探讨了细化，连通域标记，链码跟踪等技术。在细化技术中提出基于有效行的细化方法。在所用的洲i s t 库上进行实验，识别效果良好。关键字：o c r 手写体数字识别图像处理细化第一章绪论硕士论文 a b s t r a c t o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) h a sb e c o m eo n eo ft h ei m p o r t a n tm e t h o di n g a t h e r i n gi n f o r m a t i o na n di n f o r m a t i o nt r a n s f o r m a t i o n h a n d w r i t t e nd i g i tr e c o g r d t i o nh a s a p r o m i s i n gb u s i n e s sf e a t u r ei nm a n yf i e l d si ns o c i e t y , f o re x a m p l ep o s t c o d er e c o g n i t i o ni n p o s to f f i c e ，t h es t a t i s t i c so fr e p o r tf o r m s ，f i n a n c i a lr e p o r tf o r m s s ot h er e s e a r c h i n go nt h e h a n d w r i t t e nd i g i tr e c o g n i t i o ni so n eo ft h ei m p o r t a n tt h i n g i tw i l lb em a k eh u g eb e n e f i t o n c et h eh a n d w r i t t e nd i g i tr e c o g n i t i o nb e c a m et r t l e t h i sp a p e rs t u d i e st h er e c o g n i t i o no f h a n d w r i t t e nd i n t s ，i n c l u d i n g t h i n n i n gp r o c e s s i n g ，c h a i nc o d et r a c i n g , l i n ed i c t i o n ， c h a r a c t e re x t r a c t i o na n dr e c o g n i t i o n t h i sp a p e rs t u d i e st h ed i f f e r e n tc h a r a c t e ro ft h ed i f f e r e n tt e nd i g i t ，a n dd e s i g nt h e d i f f e r e n tr e c o g n i t i o nm e t h o df o re v e r yd i g i t f o re v e r yc h a r a c t e rf o rr e c o g n i t i o n ，f i r s t ，w e s t u d i e si ta sat w oc l a s s e sp r o b l e m e v e r yr e c o g n i t i o nm e t h o dg i v ear e s u l tt ol a b e lt h e c l a s sw h i c ht h ec h a r a c t e ri sb e l o n g e dt o t h el a s ta n s w e ri sg i v e na f t e rt h es t u d yo ft h et e n d i f f e r e n tr e s u l t w eh a v eg o tag o o dr e s u l to nt h ed a t a b a s eo fm n i s t k e y w o r d s ：o c r h a n d w r i t t e nd i g i tr e c o g n i t i o ni m a g ep r o c e s s i n gt h i n n i n g i i x 7 6 3 4 3 4 声明本学位论文是我在导师的指导下取得的研究成果，尽我所知，在本学位论文中，除了加以标注和致谢的部分外，不包含其他人已经发表或公布过的研究成果，也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名：年月日学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档，可以借阅或上网公布本学位论文的全部或部分内容，可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对于保密论文，按保密的有关规定和程序处理。研究生签名牡年月日南京理工大学硕士学位论文手写体数字识别方法的研究与实现 l 绪论 1 1 问题的由来作为光学字符识别技术( o p t i c a lc h a r a c t e rr e c o g n i t i o n ，简称o c r ) 的一个分支，手写数字识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ) ，它的研究对象是：使计算机能够自动识别人手写在纸张上的数字。脱机手写字符识别是整个o c r 领域中最为困难的部分。到目前为止，尽管人们在脱机手写英文、汉字识别上投入了很多的研究而且取得了很多可喜成就，但还不能达到实用。但在手写体数字识别这方面，经过多年研究，研究者们已经开始把把各种理论方法实用化，为手写数据的高速自动录入提供了一种解决方案。字符识别处理的信息可分为两大类：一类是文字信息，处理的主要是用各国家、各民族的文字( 如：汉字，英文等) 书写或印刷的文本信息，目前在印刷体和联机手写识别方面，技术已趋向成熟，并推出了很多应用系统；另一类是数据信息，主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据，如：邮政编码、统计报表、财务报表、银行票据等等，处理这类信息的核心技术是手写体数字的识别。这几年来我国开始大力推广的 “三金”工程在很大程度上要依赖数据信息的输入，如果能通过手写数字识别技术实现信息的自动录入，无疑会促进这一事业的进展。因此，手写数字的识别研究有着重大的现实意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。在各种应用中，由于相关软硬件技术性能的不断提升，新的方法理论不断涌现并应用。同时原有的方法也不断被重新组合利用以达到更好的性能。 1 2 0 c r 方法筒介对所有o c r 系统，其一般步骤如图1 1 所示。 1 )图像采集阶段是取得要识别所要的原材料，即各个字符集的图像。主要利用光学仪器( 照相机、摄像机、扫描仪等等) 。 2 )预处理阶段，是对上述采集到的图像进行识别前所必要的一些处理工作，这主要包括：对图像进行几何校正、去噪、复原、二值化，对二值化图像进行滤波处理，单字的分割、细化、笔画提取等等，必要时修补缺口。 3 )特征提取阶段，细化过后的图像包括有很多特征，识别时不可能利用所有的特征因此需要提取出一些对所用方法有效的特征。 4 )在识别阶段，利用上一步所抽取的特征对待识别的字符进行识别处理。此阶段所用的知识特别多。 5 )对字符进行识别后，结果未必就一定正确，如果能利用上下文的关系对识别结果进行修正，则将会提高识别率并改善系统性能。这就是后处理阶段所要做的主要工作。绪论硕士论文图1 1 一般识别过程根据不同的准则，用于o c r 中的方法可分为不同的类别。根据方法分类的不同， o c r 方法大致可以分为以下6 种情况： 1 ) 模板匹配法这是模式识别中最常用的基本方法之一，其基本原理是：对每个模式类都定义一个标准的模式并将它作为本模式类的模板。识别待识字符时，把字符同所有的模板做比较，差别最小的模板所属的类别即认为是待识字符所属的类别。这种方法一般只适用于印刷字符或受到相当限制的手写体字符，对于一般性的手写体字符，这种方法很难适用。 2 ) 统计决策法在概率论和数理统计的基础上产生了模式识别中的一个经典方法，即统计决策法。这一方法由于有着严格的数学基础，因此发展得较为成熟，同时它也是模式识别中能用严格的数学计算来识别字符的方法之一。这种分类方法的一个重要代表是基于 b a y e s 法则的分类法，其基本原理时：将模式类“= 1 ，2 ，1 ) 的分布视为条件概率 p ( x i ) ，其中x 是待识字符的特征，然后由b a y e s 公式求出后验概率p ( 啦lx ) 。如果后验概率为所有类别中的最大者则x 属于该模式类。统计决策的优点是抗干扰能力强，但是较难抽取到好的特征，且难以反映模式的精细结构特征。南京理工大学硕士学位论文手写体数字识别方法的研究与实现 3 ) 句法结构法在形式语言和自动机的基础上产生了句法结构这一方法。其基本原理是：对每个模式都用一个句法来表示，而对一个待识别的未知样本，通过抽取该样本的基元来构造该样本的旬予，然后分析次句子满足什么样的句法，从而推断出它该属于哪个模式类。这种方法的优点是它能够反映模式的结构特征，而且对模式的结构特征变换不敏感，因此比较适用于联机识别。但是由于抽取字符的基元比较困难，因而不是特别适用于脱机识别，同时这一方法的理论基础不可靠，抗干扰能力比较弱。 4 ) 模糊判别法这一方法的理论基础是模糊数学，其基本原理就是：用模糊集合 a = ( x ，x ，) ，( x ：，x ：) ( a x 。，x 。) 】表示模式类，用隶属度将模糊集合a 划分为若干子集，子集总数与模式的类别总数相同，然后根据择近原则来分类。由于隶属度函数度量了未知样本同标准模式之间的相似程度，因此这一方法可以反映出字符模式的整体特征，这样就允许待识样本有一定的干扰和变形，但是建立合理的隶属度函数却比较困难。 5 ) 逻辑推理法逻辑推理法的基础是人工智能，其基本原理是：用只是描述每个模式类，从事实出发运用知识库中的一系列规则进行推理以得到不同的结果，而每个结果都是相应的模式类。在这里，所谓的知识就是待识字符的构成规则，事实就是待识字符的构成实例。这一方法的缺点是难以得到待识字符的事实。 6 ) 神经网络法在神经网络理论的基础上形成了神经网络法，其基本原理就是利用神经网络的学习和记忆功能，先让神经网络学习各个模式类别中的大量学习样本，以记住各模式类别中的样本特征，然后在识别待识样本时，神经网络回忆起之前记住的各模式类别的特征并将他们逐个与样本特征相比较，从而确定样本所属的模式类别。这种方法的优点是抗干扰能力强，允许样本有较大的变化，但是它也依赖特征向量的选取。提到o c r ，需要提一下联机的手写体字符识别。同脱机o c r 相比，联机识别具有更多的有利条件。主要表现在以下三个方面：1 ) 由于联机，因此识别程序可以获得手写体字符的笔划顺序，而脱机o c r 则无法或难以获得这些知识：2 ) 联机要求一次仅输入一个字符，这样联机识别中就不存在字符间的粘连和分割问题，而这恰恰是脱机 o c r 中最重要的问题之一：3 ) 联机识别中要求使用特殊的书写板，因而减少了噪音的引入，提高了识别率，但脱机o c r 中存在的大量噪音大大增加了识别的难度，影响了识别系统的识别性能。有上述可见，脱机o c r 比联机的手写体字符识别具有更大的难度，另一方面，由于联机识别需要特别的书写器，因此脱机o c r 比联机识别具有更大的应用范围。 1 绪论硕士论文由于o c r 的取材极其容易，以至于o c r 刚产生时人们对它过于小看，都以为o c r 很简单，至少不会很困难。但经过一段时间的发展，人们才真正认识到问题没有预期的那样简单，在研究过程中遇到了非常大的困难，远远出乎当初的意料。正是这些困难，曾经使o c r 领域中的研究工作陷入困境。幸运的是，随着计算机工业的飞速发展，软硬件性能大幅度提高，计算机性能急速加强，而价格起却迅速下降，因此计算机也就迅速从实验室走向家庭，导致计算机用户迅速增加，随着计算机用户对计算机的使用，人们对计算机的要求逐步提高，希望计算机能够具有简单的智能，以使人们更方便地使用计算机，这包括要求计算机能看懂印刷字符或手写字符。这一市场给模式识别和人工智能，从而也给o c r 提供了巨大动力，使得一度沉默的o c r 重新成为人们研究的热点问题，促进了o c r 的进一步发展。随着o c r 的发展，产生了一些具体的o c r 系统。按字符集内容的不同，o c r 系统可分为阿拉伯数字识别系统，以及中文英文等识别系统。按字符集的规范程度，由限制大小可分为：1 ) 字体固定的印刷体字符识别系统如o c r - a ，o c r b 等：2 ) 多种字体的一种字符，即识别某个字符集的多种印刷字体：3 ) 所有字体的印刷体识别，识别多种字体的印刷体字符：4 ) 书写规范的手写体字符识别：5 ) 无限制的任意字符的识别。在各种o c r 系统中，手写体阿拉伯数字的识别是一个具体的问题，而且在许多方面这种识别手写体阿拉伯数字的o c r 系统都有广泛的应用，例如在邮政编码和各种发票中。众所周知，所识别的字符号集越大，则用于识别这种字符集的系统就越复杂，越难以实现。相比之下，以为阿拉伯数字只有0 - 9 共十个，从而这些字符的识别系统就相对简单，相对容易实现。而且只要这样系统实现有较高的识别率和可靠性，那么它就同样具有重要的使用价值，从而具有相应的研究价值。 1 3 手写体阿拉伯数字识别方法简介本文的工作是手写体阿拉伯数字的识别，因此有必要简单介绍一下手写体数字识别的识别方法。在过去的几十年中，人们提出了许多方法用于手写数字的识别，这些方法大致可以分为两类，即所谓的全局方法和结构方法，根据所使用的具体方法前者又可称为统计法。统计法所使用的技术大致有一下几类： 1 ) 模板匹配法 2 )从像素点统计分布的角度来抽取特征，主要的方法有：采样点方法，矩方法、特征轨迹方法等。这类方法对字符的扭曲和变形有较好的稳定性且计算复杂 4 南京理工大学硕士学位论文手写体数字识别方法的研究与实现度小，但是在一般情况下，特征的模板难以构成。 3 )用全局变换和级数展开的方法抽取特征。全局变换和级数展开可以减少特征向量的维数，且对于一些全局的形变，如平移和旋转，具有一定的不变性，这类方法中主要有：f o u r i e r 变换，w a l s h 变换、h a r r 变换、h a d a m a r d 变换、 k - l 变换、h o u g h 变换以及投影变换等。虽然一股而言这类方法的计算量较大，但特征抽取和模板生成都比较简单。上述统计方法中，对仅使用单个特征的分类器而言，其识别率还不够高，但可使用分类器组合的方法构成高性能的分类器。对结构方法而言，它一般是通过分析字符的轮廓或骨架来取得字符的几何和拓扑特征，它所关注的特征包括字符的笔画端点，交叉点，笔画的交角，凹凸性等。这类方法没有数学基础，对各种特征的定义和获取都完全依赖与研究者的直觉和经验，因此这一邻域还是开放的，研究者还可以提出新的特征和方法，以达到更好的识别效果。一般来说，结构方法有较高的识别速度，而且对于字符的变形具有良好的抗干扰能力，同时对字符的旋转，平移和伸缩具有较好的稳定性，但是这种方法的特征抽取过程比较复杂，由于特征定义和抽取都直接依赖于研究者的直觉，对图像预处理要求较高。对于手写体阿拉伯数字的识别，上述两种方法都有各自的优缺点。结构方法对细节变化较为敏感，对噪声大的图像识别率不高，同时结构法一般使用句法分类器进行分类，对无限制的手写体阿拉伯数字，由于训练样本数量的限制，总有部分待识字符无法分类，拒识率高但是错误率却是低的。统计方法对噪声不敏感，在噪声较大时，还是有较好的稳定性，但这类方法对图像细节上的细微差别不灵敏，难以区分字符之间的一些细微差异，因此在待识字符比较相似时容易产生错误识别。因此实际应用中的识别系统往往综合使用结构和统计相结合的方法，以期获得更好的性能。另外在手写体阿拉伯数字的识别中，神经网络的方法也渐渐得到广泛的应用。神经网络方法优点是：特征抽取较为简单，在神经网络的结构确定以后有通用的软件用于训练和识别，可通过更大的训练样本集来取得更高的识别率，同时由于它使用了统计性的特征，因此和统计方法一样有较高的抗干扰能力，又由于神经网络变换的非线性性，使得它也和结构方法一样能区别出不同类别之间的细微差别。因此在实用的手写体阿拉伯数字识别器中都有神经网络部分。但是神经网络方法同样有缺点，当训练样本机数量很大时，训练所用的时间太长：当更换待识字符集后，往往需要重新训练这一神经网络：另外，神经网络的动力学原理尚未完全揭示，进一步提高识别率的思想受至0 限南0 。由于各种方法都有各自的优缺点，因此为了取得高识别率，人们提出了多专家系统的新概念。这种思想是将各个识别系统看作一个提出识别意见的专家，把他们的意 i 绪论硕士论文见按一定的方式进行组合，以取得更满意的意见和识别效果。这种组合方式也成为手写体阿拉伯数字识别邻域的一个新方向。 i 4 手写体阿拉伯数字识别的发展和现状早在1 9 2 9 年，德国人d a u s h e c k 就取得了o c r 专利权，四年后，美国人h a n d e l 也取得了同样的专利权。但真正的o c r 系统是在2 0 世纪5 0 年代随着计算机的出现而产生的。第一代商用的o c r 系统出现于2 0 世纪6 0 年代初，其主要特点是能识别有限字型的字符。其中最具代表性的是o c r 4 2 0 它能识别特定字体的字符。另一个具有代表性的o c r 系统是f a r r i n g t o n 3 0 1 0 ，同n c r 4 2 0 一样，它也只能识别一些特定字体的字符。另外，还有一些系统如i b m 的1 4 1 8 ，1 4 2 8 ，1 2 8 5 和n e c 的n 2 4 0 d _ 1 ，他们只能识别字体非常特定的字符。第二代的o c r 系统出现于2 0 世纪6 0 年代中期到7 0 年代早期，其主要特点是能够识别比较工整的手写体字符。一个著名系统是i b m l 2 8 7 ，它利用了数字技术和模拟技术实现了这一功能。第一台邮政编码自动分拣机有日本的t o s h i b a 公司研制成功，后来n e c 也推出了自己的邮政编码自动分拣机。第二代的o c r 系统也能识别一些规整的印刷字符。r e c o g n i t i o ne q u i p m e n t 公司r e t i n a 就具有这一功能。因为手写体阿拉伯数字识别系统在这一代系统中占有较大的比例，因而可以说第二代的o c r 系统手写体阿拉伯数字识别系统的开端。第三代的o c r 系统的目标是使计算机能处理更复杂的一般情况，能够识别没有限制的手写体字符，目前只能说还处于刚网开端阶段。近年来出现的手写体阿拉伯数字识别系统都属于第三代的o c r 系统，其中银行支票自动处理系统成为手写体阿拉伯数字识别系统中的热点。它的无限制手写体阿拉伯数字的识别是数字识别中的最困难一部分。 1 5 研究的难度数字的类别只有十种，笔划又简单，其识别问题似乎不是很困难。但事实上，些测试结果表明，数字的正确识别率并不如印刷体汉字识别正确率高，甚至也不如联机手写体汉字识别率高，而只仅仅优于脱机手写体汉字识别。这其中主要原因是：第一，某些数字的相似性很大，字形相差不大，使得准确区分某些数字相当困难；第二，数字虽然只有十种，而且笔划简单，但同一数字写法千差万别，全世界各个国家各个地区的人都用，其书写上带有明显的区域特性，很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外，在实际应用中，对数字识别单字识别正确率的要求要比文字要苛刻得多。 6 南京理工大学硕士学位论文手写体数字识别方法的研究与实现这是因为，数字没有上下文关系，每个单字的识别都事关重要，而且数字识别经常涉及的财会、金融领域其严格性更是不言而喻的。因此，用户的要求不是单纯的高正确率，更重要的是极低的、千分之一甚至万分之一以下的误识率。此外，大批量数据处理对系统速度又有相当的要求，许多理论上很完美但速度过低的方法是行不通的。因此，研究高性能的手写数字识别算法是一个有相当的挑战性的任务。 1 - 6 识别系统性能的评价作为一个识别系统，最终要用某些参数来评价其性能的高低，手写数字识别也不例外。评价的指标除了借用一般文字识别里的通常做法外，还要根据数字识别的特点进行修改和补充。对一个手写数字识别系统，可以用三方面的指标表征系统的性能：正确识别率a = ( 正确识别样本数全部样本数) x1 0 0 替代率( 误识率)s = ( 误识样本数全部样本数) 1 0 0 拒识率r - ( 拒识样本数全部样本数) x1 0 0 三者的关系是： a + s + r = 1 0 0 数字识别的应用中，人们往往很关心的一个指标是“识别精度”，即：在所有识别的字符中，除去拒识字符，正确识别的比例有多大，定义：识别精度p = a ( a + s ) 1 0 0 。一个理想的系统应是r ，s 尽量小，而p ，a 尽可能大。而在一个实际系统中，s ， r 是相互制约的，拒识率r 的提高总伴随着误识率s 的下降，与此同时识别率a 和识别精度p 的提高。因此，在评价手写数字识别系统时，必须综合考虑这几个指标。另外，由于手写数字的书写风格、工整程度可以有相当大的差别，因此必须弄清一个指标在怎样的样本集合下获得的。 1 7 本文的工作简述基于多分类器的思想以及数字识别类别数目小的特点，本文提出了如图l _ 2 的识别过程：对于单字的识别给出的结果是是与否7 ，然后再有综合识别处理。当有多个单字识别回答是以及没有一个单字识别回答是时，则拒识。对于每一个单字识别，分析单字的特征，提出不同的特征提取方法，以取得对单字的较高识别率。分析十个数字的具体特征。对每个二分问题提出具体的识别方法。在所用的字符集上给出试验结果，这是本文的工作。其中对于本文中应用的一个重要的特征提取手段细化处理作了分析研究，并提出了一种新的适合本文中某些数字识别的细化方法。 1 绪论硕士论文图1 2 本文识别过程 1 8 手写体数字数据库删i s t 简介本文所用试验数据库有因特网上得到，是n e c 研究中心的m n i s t 手写数字数据库，它由6 0 0 0 0 个训练样本和i 0 0 0 0 个测试样本构成。图像已经经过规一化处理。m n i s t 由n i s t 的s d 一3 和s d l 重组得到。原n i s t 的图像被规一化为2 0 x2 0 像素的二值图像，然后被置于2 8 2 8 像素匿像的中间得到m n i s t 。图1 3 部分手写体数字南京理工大学硕士学位论文手写体数字识别方法的研究与实现 1 9 本文的内容安捧本文在内容的安排上分为五章。第一章：对o c r 和手写体数字识别作简单回顾；o c r 及手写体数字识别的历史与现状。现有的o c r 系统。手写体数字识别的难度。第二章：主要预处理方法研究分析；讨论了二值化，细化，连通域标记等方法。在二值化方法中着重讨论闽值的选取方法，又固定的j 动态的选取方法。在细化方法中介绍了基于区域连通性的细化方法，基于数学形态学的细化方法，以及根据手写体数字的特殊性设计了基于有效行的细化算法。对于连通域的标记方法中，介绍了递归算法与序贯算法。第三章：各个数字的特征分析及识别方法；分别分析了十个数字的不同特征，对于不同数字的不同结构特征设计了不同的识别方法。对于其中的阈值选取采用实验的方法获得。第四章：综合识别与实验结果；利用所设计的识别方法进行识别，并给出结果。第五章：结论； 2 主要预处理方法研究分析硕士论文 2 主要预处理方法研究分析 2 1 引言字符识别时，首先将印( 写) 在纸上的字符，经光电扫描产生模拟电信号，再通过模数转换为带灰度值的数字信号输入计算机。纸张厚度、洁自度、光洁度、油墨深浅、印刷或书写质量都要造成字形畸变，产生污点、飞白、断笔、交连等干扰。输入设备的鉴别率、线性度、量化过程也要产生噪声。所以，在单个字符识别之前，要对带有随机噪声的字符灰度值数字信号进行预处理( p r e p r o c e s s i n g ) 。预处理一般包括二值化、行字切分、平滑、去噪声、规范化和细化等。不同的识别方法，对预处理的项目和要求有所差别。有的方法，对字符的规范化预处理可以从简，甚至不要。有的识别方法对细化预处理要求很高，有的则不需要细化等。 2 2 = 值化把字符灰度图像处理成二值( 0 、i ) 图像的过程，称为对字符图像的二值化 ( b i n a r i z a t i o n ) 。对灰度图像二值化能显著地减小数据存储的容量，降低后续处理的复杂度。设扫描、a d 转换后的字符图像点阵为： c = f ，( f ，跏f - 1 , 2 ，p ，j = 1 , 2 ，q ( 2 1 ) 式中f ( i ，j ) 是像素( f ，) 的灰度值。有黑笔画的部分，f ( i ，j ) 小；而白背景部分，f ( i ，) 则大。最简单的二值化通过设定固定灰度阈值r 完成，即当f ( i ，j ) 值比预定阈值r 大，看成背景，以“0 ”标志；否则看成文字笔画，以“1 ”标志。假设：。 g ( f ，j ) ：：f ( i ，? ： f ：1 ，2 ，p ，：l ，2 ，q b ：黝融字符垒醒的图像点m 产l 厶一对字符图像二值化，要求二僮化后的图像能忠实地再现原字符。基本要求为： ( 1 ) 笔画中不出现空白点； ( 2 ) - - 值化的笔画基本保持原来文字的结构特征；二值化的关键在于阈值z 的选择。下面就介绍几种常用的闽值选取方法( 文献 1 】) ： 2 2 1 整体翊值二值化仅由像素点( i ，j ) 的灰度值f ( i ，) 确定阈值的方法称为整体阂值选择法。闽值r 表示为：t = r l 厂( f ，刮。常用的几种整体阈值选择方法为： l 、人工设定整体阈值 1 0 南京理工大学硕士学位沦文手写体数字识别方法的研究与实现根据实验或人的先验经验，预先给定一个固定阈值氕当f ( i ，j ) t ，( f ，) 为文字笔画上的点，否则为背景上的点。这是一种最简单的速度最快的二值化方法。当文字清晰，轮廓明显，干扰很小时，它是一种行之有效的二值化方法。人工设定整体阈值的缺点是：不能根据每个文字确定它最佳的闽值。确定阈值，后，光源等外界条件改变时，不能使阈值随之改变。 2 、由灰度级直方图确定整体阈值这是一种根据图像和背景的灰度值自动确定整体阈值法。灰度级直方图给出了一幅图像灰度值的概貌描述。设规范化灰度值f 的范围为0 g 1 ，g = 0 为最黑，g = l 为最白。m 为灰度级数目，p ( g 。) 为第k 级灰度的概率。n 。是在图像中出现的灰度级为k 的次数，n 为图像中象数的总数。则有 p ( g k ) = 二点0 g t 1 ，k = 1 , 2 ，m 通常称以p ( g 。) 为纵坐标，以g 。为横坐标的图像为灰度级直方图。字符图像的直方图一般有两个峰值，一个峰值对应字符笔画部分，另一个峰值对应字符的背景部分。阈值应取在两个峰值的波谷处，波谷越深陡，二值化效果越好。 2 2 2 局部阏值二值化由像素( i ，j ) 的灰度值f ( i ，j ) 和像素周围点局部灰度特性确定阈值的方法称为局部阈值选择法。阙值t 表示为：t = r 驴( f ，n n ( i ，) 。对于书写质量差，干扰较严重的字符，采用全局法对它进行二值化，效果不太理想时，局部阈值选择法有可能得到较为满意的二值化结果。不同的局部闽值法源于n ( i ，f ) 的不同选择。 2 2 。3 动态阈值二值化当阈值选择不仅取决于该像素阈值以及其周围各像素的灰度值，而且还和该像素坐标位置有关时，称之为动态闽值选择法。阈值r 表示为：t = 丁驴( i ，) n ( i ，j ) ，( f ，j ) 】。这种方法可以处理低质量甚至单峰直方图图像。对文字图像而言，其笔画和背景的区分是比较明显的。而且，动态阈值法计算时间长，因此，在文字识别中很少采用。需要指出的是，局部闽值和动态阈值虽然能处理质量较差的文字，避免整体阈值法带来的不应有的失真。但是，一则时间开销大，- - n 考虑到实际的局部闽值和动态阂值选择算法往往在图像的某些部位上产生整体选择不会产生失真，所以，- 在文字识别中，一般采用整体闽值法。 2 2 4 利用空间信息进行阕值选取有了灰度信息加上空间信息，有可能使分割的效果更可靠、更好。分割是一个分类的过程，原来只有灰度信息一个特征，现在再抽取某个含空间信息的特征，则成为有两个特征的分类问题，可以用二维特征空间中的聚类分析算法来解决问题。这里需 2 主要预处理方法研究分析硕士论文要用到二维直方图，它有两个自变量：灰度值g 和某个空间信息参量( 例如像素点的梯度值iv g j ) 。其因变量是像素个数。原来的一维直方图就是二维直方图在灰度轴g 方向上的投影。二维直方图上( i ，j ) 点的值表示灰度值为i ，lv g l = j 的像素个数。下面介绍三种具体做法。 1 、灰度一平均灰度法( 文献 2 ) 设图像由两个灰度变动平滑的区域组成，两个区域的灰度平均值分别为g 。，9 2 。每个区域的内点灰度值很接近g ，或勘，但边界点的灰度值很可能介于g l 、野之间，这些值通常落在原始一维直方图的的谷点附近，使峰不明显，谷不凹。但是，如果看二维直方图，其自变量为g g ，即取每个像素的空间平均灰度作为另一个特征，则对于区域内点来说，g 和g 差别小，它们集中在二维直方图中( g ，g 。) 及( g ：，g ：) 点的附近，即在对角线上。而边界点的g 一般和g 值不同，边界点离对角线较远。如果只取在二维直方图中对角线附近的那些点向灰度轴g 作投影来重新构成一个新的一维直方图，则新直方图应该比原直方图更加峰谷分明。反之，如果只取远离对角线上的点( 即边界上的点) ，这些点的灰度平均值也可以用来作为阈值以分割图像。 2 、灰度梯度幅度法( 文献 3 ，4 ，5 ) 本方法的原理和上述灰度一平均灰度法类似，只不过在二维直方图中选用| v g i 作为第二个轴。区域内点因为梯度幅度小，都位于横轴g 附近，而边界点在可g i 较大的区里，故由梯度值较小的点构成的直方图应比原直方图有更明显的峰谷，而梯度值大的点的平均灰度值也是一个好的阈值。 3 、检出合理边界的阈值取法( 文献 5 ) 通常认为，合理的阈值应取在区域边界上灰度变化最剧烈的地方。因此，可以把某个阈值t 所产生的边界两边灰度对比度的大小作为衡量的标准，找出能够检出最大平均边界对比度的阈值来。对某个闽值t ，先定义由边缘上的点对的集合e ( t ) ，它包含了图像中所有满足下列条件的空间相邻点对。条件为点对中的一个点，其灰度值小于或等于t ，而另一个点的灰度值大于t ，即 e ( t ) = ( ( i ，j ) ，( k ，1 ) ) l ( i ，j ) 干口( k ，1 ) 相令b m i n g ( i ，j ) ，g ( k ，1 ) st m a x g ( i ，j ) ，g ( k ，1 ) ) ) 式中( ( i ，j ) ，( k ，1 ) ) 表示坐标为( i ，j ) 和( k ，! ) 的两个相邻的像素构成的点对。再定义由闽值t 检出的总对比度 c ( t ) = ：m i n i g ( i ，j ) 一t i ，l g ( k ，1 ) 一t i ) 则由阈值雩鞋蝴边缘点的平均对比度为 a = c ( t ) 膊e ( t ) 式中# e ( t ) 是属于e ( t ) 的点对个数。于是，根据平均对比度找到最佳闽值t 。， 1 2 南京理工大学硕士学位论文手写体数字识别方法的研究与实现使平均对比度为最大。用这种方法得到的阂值可以检出更多的高对比度的边界。 2 3 平滑平滑处理，就是将一个n n 的像素窗1 2 1 ，依次在二值化字符图像的每个像素点上移动，利用逻辑表达式来消除孤立像素的一种技术。汉字字符图像经过平滑处理，能去掉孤立的噪声、干扰，平滑笔画边缘( 文献 7 ) 。设定如图2 1 平滑窗口：团圈圈围 ( 1 )( 2 )( 3 )( 4 ) 图2 1 四个3 x 3 的平滑窗口( ? 表示o 或l 都可阱) 上述这些窗口包括将每个窗口旋转9 0 。，1 8 0 。和2 7 0 。以后得到的新平滑窗口的所有情况。在字符图像中，如果某像素p 的3 3 邻域窗口同平滑窗v 1 ( 1 ) 或( 2 ) 或这两者的旋转窗口相匹配( 即完全一样) ，则将像素p 的值改为1 ，使它成为黑像素；如果某像素p 的3 3 邻域窗口同平滑窗口( 3 ) 或( 4 ) 或这两者的旋转窗口相匹配( 即完全一样) ，则将像素p 的值改为0 ，使它成为白像素：对处于图像边缘的像素，可按背景色( 即0 值) 向外扩张一个像素。从某种意义上讲，字符识别是一种实验性科学，因此我们可以根据实践对实验作一些有利于识别结果的修补，只要这种修补不影响一般性前提并且是合理的，那么这种处理就是可行的。上述的平滑处理就属此类。例如，对平滑窗口( 1 ) 而言，中心像素p 的四个4 一邻居都是黑像素，由于笔划的书写带有某种随机性，因而有充分的理由认为中心像素p 也应是黑像素，如果p 是白像素，那么很可能在图像采集过程中，是某种噪声或其它原因使得本应是黑像素的点变成了白像素，所以将p 改为黑像素具有相当的合理性。 2 4 细化( 骨架化) 在图像处理中，形状信息是十分重要的。为了便于描述和抽取特征，对那些细长的区域常用它的“类似骨架”的细线来表示，如字符，这些细线处于图形的中轴附近，而且从视觉上来说仍然保持原来的形状。这种处理就是所谓的细化。所谓“类似骨架” 是因为细化后的图像同严格定义的骨架图像还是有区别的( 文献 8 ) ，为了描述方便，本文暂且用“骨架”代替细化后图像。细化的目的是要得到与原来区域形状近似的由简单的曲线组成的图形。经过细化的文字图像既保留了原文字绝大部分特征，又利于特征抽取，而且存储量比原文字二 2 主要预处理方法研究分析硕士论文值化点阵要少得多，降低了处理工作量。但是细化往往会造成新的畸变，增加了对识别的干扰和困难，细化本身也要化费不少时间。文字细化的基本要求如下：要保持原有笔画的连续性，不能由于细化造成笔画断开。要细化为单线，即笔画宽度只有一个像素。细化后的骨架应尽量是原来笔画的中心线。要保持原有的拓扑、几何特征，特别是一些明显的拐角不应被光滑掉。细化的算法很多，大体分类如下： 1 按细化后图形的连续性分，有四邻连接算法，八邻连接算法和混合连接算法。四邻接连指的是水平垂直四个方向的连接，八邻连接则加上正反4 5 。共八个方向。 2 按细化处理过程分，有串行、并行和串并行处理法。用m x n ( 一般为3 x3 ) 窗口对某一像素进行检测时，如该点是可删点，立即删除，则为串行细化处理，它的删除要影响到后续点的检测；如对边缘点全部检测完毕后，再同时改变所有可删除点的值，则为并行细化处理；串、并行处理是两者的混合。 3 按处理方式分，有单方向，双方向和四方向细化法。愈是方向多的细化处理方式，细化的速度愈快。本文采用了将区域连通性和数学形态学相结合的方法。 2 4 1 基于区域连通性的细化经典的细化算法实际上是一种特殊的多次迭代的收缩算法。但是，细化的结果是要求得到一个曲线组成的连通的图形，这是细化和收缩的根本差别。所以不能象收缩处理那样简单地消去所有的边界点，否则将破坏图形的连通性，甚至完全消去图形。因此，在每次迭代中，必须消去目标s 的边界点而不破坏它的连通性，而且不能消去那些只有一个邻点的边界点，以防止弧的端点被消去( 文献 2 ) 。 2 4 1 1 图像的连通性邻接和连通是像素之间的基本关系，是研究图像描述的基础。邻接和连通的概念可以直观地叙述如下。除了图像的边缘点以外，所有像素都有 8 个邻点。图像处理技术中常采用两种邻接方式：一种是4 邻接，即指水平和垂直方向的四个邻点( i l ，j ) ，( i ，j1 ) ，( i + l ，j ) ，( i ，j + 1 ) ，由它们组成的邻域称( i ，j ) 的 4 邻域；第二种为8 邻接，( i ，j ) 与包括对角元素在内的所有8 个邻点为8 邻接，相应的邻域称为8 邻域。若两个像素p 和q 是4 邻接的，则称它们为4 连通，如果它们是8 邻接的，则称为8 连通。由于连通的定义不同，同一图像的连通性含有差别。例如，图2 2 ( a ) 是一简单的2 值图，如果按4 连通定义来理解，则1 所示表示的部分 1 4 南京理工大学硕士学位论文手写体数字识别方法的研究与实现是四根不连通的线段；若按8 连通来理解，则是一个闭合的环。下面再对邻接和连通作进一步的讨论。 o o o o0o o0 001111o0 01o00 o10 o10o0o10 010o o 010 o1oo0o10 o o11110 0 0 0o o0o o0 o 0 oo1o o o o01111o o 011o1o1o 0111001o 01100110 o1oo 011o o o1 1 1 1o0 0o001o0 o ( a )( b ) 图2 2 连通性解释我们说图像中两点p 、q 之间存在长度为n 的通路，意思是指存在一系列点 p = p o ，p ，p o = o ，其中p ：是p 。的邻点，l i n 。如果这些邻点的定义是4 邻接的，则称4 通路，如果是8 邻接的，则称8 通路。定义2 1 设s 是图像中的一个子集，p 、q 是s 中的点。如果从p 到q 存在一个全部点都在s 中的通路，则称p 、q 在s 中是连通的。若这个通路是4 通路，则称4 连通；若是8 通路，则称8 连通。对于s 中任意一点p ，s 中所有的与p 连通的点的集合称为s 的连通分量 ( c o m p o n e n t ) ，即一个连通的区域。连通性具有如下性质： ( 1 ) p 与p 是连通的； ( 2 ) 若p 与q 连通，则q 与p 也连通； ( 3 ) 若p 与q 连通，q 与r 连通，则p 与r 连通。由此可知，图像中的两个点，当且仅当它们属于同一连通分量时，它们才是相互连通的。设s 。是s 的补集，且图像的边缘点包含在s 。中。我们称包含图像边缘的s 。的连通分量为背景。而s 。的其它连通分量，如果存在的话，则一定处于s 的某个连通分量之中，称之为孔。例如，图2 2 ( b ) 中s 。为背景，s 6 。为孔。s 中有孔的连通分量称复连通，没有孔的称为单连通。通常对s 和s 。应采用不同的连通性定义。现用图2 2 ( a ) 说明它的必要性。设 l 所表示的为s ，0 为s 。若对s 采用8 连通，则它是一个闭合的环，环中间的0 形成了一个孔，它与环外的s 。是不连通的。如果对s 。也用8 连通，则s 。的环外部分和环内部分是连通的，都是背景，这就与环是闭合的这一点产生了矛盾。因此，s 。应该用4 连通定义，反之亦然。 15 2 主要预处理方法研究分析硕士论文 s 中与s 。邻接的点的集合s7 称为s 的边界，集合中的点称边界点。s 中除去s 7 的点，即s s7 称为s 的内部。 2 4 1 2 基于连通性的细化算法细化算法实际上是一种特殊的多次迭代的收缩算法。但是，细化的结果是要求得到一个曲线组成的连通的图形，这是细化和收缩的根本差别。所以不能象收缩处理那样简单地消去所有的边界点，否则将破坏图形的连通性，甚至完全消去图形。因此，在每次迭代中，必须消去s 的边界点而不破坏它的连通性，而且不能消去那些只有一个邻点的边界点，以防止弧的端点被消去。( 文献 2 ) 首先，将s 的边界分上、下、左、右四个方向，每次迭代只消去其中一个方向的边界点。为保证细化结果呈“骨架”状，即处于s 的中线附近，应该交替处理相反方向的边界，即以上、下、左、右一匕，的次序反复进行。另外，对可以消去的边界点要给以严格的限制，为此，定义“简单的边界点”。定义2 2p 为s 中的一个边界点，若消去p 后它的8 邻域中属于s 的点的原有连通性不遭到破坏，则p 点为s 的简单边界点。根据这一定义，可以确定哪一个边界点是“简单的”。显然，对于s 的不同的连通定义，结论是不同的。例如图2 3 ，根据定义，如果s 的定义是4 连通的，则( a ) 中的p 点是简单边界点，( b ) ( c ) 则不是。而如果s 的含义是8 连通的，则( c ) 中的p 是简单的边界点，而( a )

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）手写体数字识别方法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）手写体数字识别方法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档