（应用数学专业论文）基于识别反馈机制的多粘连字符分割与识别.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：55 大小：3.59MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（应用数学专业论文）基于识别反馈机制的多粘连字符分割与识别.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别基于识别反馈机制的多粘连字符分割与识别专业：应用数学姓名：李甲长指导老师：赖剑煌教授摘要手写文字识别技术已广泛应用于各类智能系统。粘接文字的分割是手写文字识别的第一步，因其分割难度之大，往往成为进一步识别甚至是整个智能系统的瓶颈，分割的好坏直接决定了识别率的高低。通常，随着字符串个数的增加，粘连程度的增大，分割难度也在进一步加大。目前，多粘连字符串的分割与识别现在已成为手写文字识别系统研究的热点之一。针对含有字符和数字的强粘连字符串的分割与识别问题，本文做了如下工作： 1 本文对初始灰度图片进行分割之前，采用了一种新的预处理方法，以求粘连字符串分成尽可能多的几个连通区域，然后采用本文提出的字符串上下轮廓提取方法，对预处理后的图片提取上下轮廓。得到上下轮廓后，利用k n n 分类器找到候选的特征点，进而根据候选特征点构造出分割路径集合。 2 利用分治算法依次处理字符串图片的每个连通区域，然后对粘连字符部分使用基于识别反馈机制的字符分割算法，筛选出最优分割路径来完成分割和识别，再组合所有连通区域的识别结果得到最终的结果。此方法与以往算法相比，时间复杂度在一定程度上有所降低。 3 本文采用k n n 和b p 神经网络这两种分类器做单字符识别，最终选择识别率更高的 b p 神经网络用于识别反馈。本文的创新点是：首先我们采用一种新的预处理方法来处理灰度图片，然后利用k n n 分类器来提取轮廓特征点，随后采用了一种打分机制匹配上下轮廓特征点来构造分割路径集合。最后，我们将遗传算法和识别反馈结合起来完成字符分割与识别。实验结果表明，本文提出的方法在解决强粘连多字符串的分割与识别方面取得了不错的效果，同时反馈机制的引入，也提高了识别的可靠度。中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别 t h i r d ，w eu s ek n na n db pn e u r a ln e t w o r kc l a s s i f i e rt od e a lw i t hi s o l a t e dc h a r a c t e r s r e s p e c t i v e l y b pn e u r a ln e t w o r ki sf i n a l l yu s e di nt h er e c o g n i t i o na n df e e d b a c kb e c a u s eo fi t s h i g h e rr e c o g n i t i o nr a t e s o m ei n n o v a t i o n sa r ep r e s e n t e di nt h ea r t i c l e f i r s to fa l l ，w eu s ean e wm e t h o dt o p r e p r o c e s st h eg r a yi m a g e ，a n dt h e ne x t r a c tt h ef e a t u r ep o i n t sb yk n nc l a s s i f i e r a n dw ea d o p t as c o r em e c h a n i s mt om a t c ht h ef e a t u r ep o i n t si no r d e rt oc o n s t r u c tt h ec u t t i n g p a t hs e t f i n a l l y , w ec o m b i n et h e g e n e t i ca l g o r i t h mw i t h n e u r a ln e t w o r kr e c o g n i z e rt o c o m p l e t et h e s e g m e n t a t i o na n dr e c o g n i t i o n e x p e r i m e n tr e s u l t si n d i c a t et h a tt h ea l g o r i t h mp r o p o s e di nt h i sp a p e rw a se f f e c t i v ei n s o l v 崦t h em u l t i p l y - t o u c h i n gc h a r a c t e r sw i t hs t r o n ga d h e s i o n f u r t h e r - m o r e ，t h ei n t r o d u c t i o n o ff e e d b a c km e c h a n i s ma l s oe n h a n c e st h er e l i a b i l i t yo fr e c o g n i t i o n k e y w o r d s ：c h a r a c t e rs e g m e n t a t i o n , d i o d ea n dc o n q u e r , t o u c h i n gc h a r a c t e r s ，f e e d b a c k m e c h a n i s m i v i 囊i砷蓟莉剃薹睡冀妻囊蓁孽；萋主蓁霎鐾爹囊薹薹主霎薹，茎塞茎要雾蚕萋姜鐾至萋：鬟霎喜霎霎明叁冀薹| 蓁耋薹霎；蚕窭篓蓁i 篓妻嘉薹篓委姜萋薹耋差主雾薹霎薹霎墓薹塞霆要委羹蓁羹羹篓鬟霎薹；雾囊冀囊冀蠢琴冀冀j 霪墓翼霪薹喜扣蠡薹鎏薹囊薄矍i 萋篆蓁羹；誊侧霎薹篓姜攀霎萎塞霎霎霎薹藿篓；摹萋委塞錾薹薹囊薹鬟蠹萋菱i 妻薹鎏薹霎耋妻囊；j 墓鋈薹嘉耋妻霎篓零蔫i 薹学有关保留、使用学位论文的规定，即：学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版，有室被查阅，有权将学位论文的内容编入有关数据库进行检索，可以采用复印、缩印或其他方法保存学位论文。学位论文作者签名：巷甲欤耋雾i 砷年多月岁日导师签名：，划 a 日期1年多月士日日 x 第1 章引言 1 1 选题背景与意义第1 章引言光学字符识别技术( 0 l p t 妇lc h 觚a c t e rr e c o g i l i t i o l l ，简称o c r ) 的研究目的是使计算机能够自动识别人手写在纸张上的字符 1 2 3 儿4 5 。文字识别技术广泛应用于各类智能系统，如手写连体中英文字符串识别邮政编码识别，印刷字体读取转换，银行自动读取支票，车牌识别等等。粘接文字的分割是文字识别的第一步，因其分割难度较大，往往成为进一步识别甚至是整个智能系统的瓶颈，分割的好坏直接决定了识别率的高低。到目前为止，尽管人们在脱机手写英文、汉字识别上投入了很多的研究而且取得了很多可喜的成就。但还不能达到实用。在手写体数字识别这方面，经过多年研究，研究者们已经开始把各种理论方法实用化，为手写数据的高速自动录入提供了一种解决方案。对于非粘接手写字符串的识别，识别算法相对较简单，对于这种字符串的识别。现在很多好的识别系统的识别率都已经接近1 0 0 。对于粘接字符串，对其进行正确的分割是文字识别的关键步骤，文字分割的正确与否和分割效率的高低将直接影响到文字识别的正确率和识别效率。因为如果粘接文字分割出错，则所得的识别结果也必然误差增大，一个好的分割方法，也会使分割的效率大大提高 1 。但手写字符的识别研究有着重大的现实意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益，比如银行系统、网络安全等。故粘接字符串的文字分割已成为文字识别研究的热点之一。现在我们研究的o c r 所识别的对象范围很广。通常按其识别的对象字符集可以分为汉字识别，英文识别，拉丁字母识别，阿拉伯数字识别等，以及把各种字符集组合在一起形成新的字符串。字符集的自由度越大，字符集的类别越多，识别的过程就越复杂，难度就越大。本文主要研究英文和阿拉伯数字混合在一起的手写粘连字符串的识别情况。比起以前的两个字符粘连的字符串，现在字符串的粘连程度特别严重，很多相邻的字符笔画都已经重叠在一起，有些字符串肉眼都已经无法准确识别，另外字符串字符个数的增多以及个数的不确定性，都使分割的难度进一步加大。现在多数手写数字识别器不能直接识别有粘连的字符，必须首先将粘连的字符分割开。因此高效可靠的分割与识别方法是本文研究的重点之一 1 3 儿6 。第1 章引言该方法在连接特征点作为分割线之前，分析所有特征点的属性，舍弃无法构成正确分割线的特征点，这样可以避免连接一些不合理的分割线。最后提取分割路径的特征，通过混合高斯概率函数挑选出最优切分路径。在该类方法中，需要对前景和背景进行细化操作。细化之后，提取端点和分支点等特征点。这类方法的优点是思想比较简单，但是算法本身过于依赖字符本身的质量，往往由于不规则的字符形态、干扰线的扰动使得算法不稳定。而且这类方法往往比较耗时，有时会产生新的突起，从而与真正的端点和分支点产生混淆，适应性差。 1 2 3 基于滴水算法的手写字符串分割 2 0 0 3 年，p a l u 等【1 l 】中提出的滴水算法通过模仿水滴在字符粘连处滚落来构造分割路径。它从当前位置出发，根据一系列滴水滚动规则，在相邻位置搜索路径的下一个点。滴水算法中的关键问题是如何确定水滴滚落的起始位置和选择滴水路径，合理的滴水规则应使得算法能处理扭曲字符分割问题。通过从上到下，从左到右扫描图像，选择同时满足以下条件的点作为起始点；( 1 ) 、左邻接点。( 2 ) 、右边存在黑像素点。但是这种传统滴水算法中容易陷入局部最优的问题。刘刚等在 1 2 l 提出基于l d p ( 1 i m i t e dd y n a m i cp r o g r a m m i n g ) 算法的连写数字串分割方法，对d p 算法的搜索空间、搜索方法加以限制，可以避免传统滴水算法中陷入局部最优的闯题，因而是一种高效搜索算法。寻找分割路径的方法很多，其中动态规划就是一种很有效的方法。d p 是一个多步决策的过程，可以使算法的复杂性按对数降低，此外通过对d p 算法的搜索空间，搜索方法加以限制，会进一步降低运算复杂度。 1 2 4 基于识别技术的连写数字字符串分割为了避免分割的盲目性，人们提出了基于识别技术的连写字符串的分害- i j 1 3 1 4 】【1 5 】。 c o n g e d o g 等- ：1 9 9 5 年在【1 5 】中提到的连写数字的分割方法，用到了识别技术。由于分割的盲目性，使用识别结果作为评价当前分割结果正确与否的依据。如果无法识别，则认为当前分割结果错误，尝试另外一种分割方法，直至找到可以识别的分割结果。这样就在识别与分割之问反复进行，这时各种分割方法都可以使用，包括各种滴水算法和前背景分析算法等。基于识别的方法使用识别器来确定分割线，虽然是基于统计的方法，但是由于识别 3 中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别过程运算量非常大，无法满足实时性要求。同时识别器本身并非是理想的，可能识别错误，这样会带来错误的叠加。更重要的是，该方法只能对字块做进一步分割，而无法判别分割出来的是否是数字碎片，可靠性不能得到保障。基于识别的方法使用识别器来确定分割线，此类基于识别器去分割粘接字符的方法称为识别器分析法，这类方法的关键在于构建识别器。识别器分析法过分地依赖于识别器的鲁棒性，而且比较耗时，无法满足实时性要求，并且在重叠的多文字粘接字符中效果很不好。基于识别器的技术主要有人工神经网络模型，混合高斯概率密度识别器等。 1 2 5 切分路径评价方法粘连字符串很难一次性的得到最佳切分路径。因此构造多条候选路径，然后从中选择出最佳路径，成为多数算法的选择。对于所有候选路径的评价主要采用混合高斯概率密度函数和决策树【1 6 】两种方法。 y k c h e n 等在【1 0 】中使用高斯概率密度函数，使用的特征如下： ( 1 ) 、分割后的两部分的宽度比； ( 2 ) 、分割后的两部分的高度比； ( 3 ) 、分割后的左部分的宽高比； ( 4 ) 、分割后的右部分的宽高比； ( 5 ) 、分割后的两部分的黑像素比值； ( 6 ) 、分割后的两部分水平重叠部分与两部分较小宽度的比值； ( 7 ) 、路径上的黑色像素与图像宽度的比值； ( 8 ) 、路径中心与图像中心水平坐标的差的绝对值与图像的宽度的比值。于是得到一个8 维的特征向量，人工选择最佳路径作为训练集，在训练集上用 m o d i f i e dk l l r t e a l q s 算法对特征向量进行聚类，分成2 0 类( 其中5 类为多粘连字符串，1 5 类为单粘连字符串) ，然后根据以下公式计算特征向量k 的混合高斯概率值。其中：盹，= 薹去唧c 一姜掣， n ， 4 第2 章常用的图像分割技术比如边界、骨架以及凸壳等【1 7 】。经过二值化的操作之后，往往会造成笔画断裂的情况，这就需要利用形态学闭运算来进行修补。下面介绍几个最常用的形态学操作。 1 ) 膨胀运算膨胀是把二值图像“变胖”的操作。数学上，膨胀定义为集合运算。假设a 和b 是中的集合，则a 被b 腐蚀( 记为么ob ) 定义为：么。雪= z l ( 君) ：厂、么g 其中b 为结构元素。这个公式是以a 到b 的相对于它自身原点的映像并且由z 对映像进行位移为基础的。a 被b 膨胀是所有位移z 的集合，这样曰和a 至少有一个元素是重叠的。从而可以将以上定义写为：么。艿= z i 【( 召) ：r 、彳】a 2 ) 腐蚀运算腐蚀是把二值图像“变瘦的操作，它可以看作膨胀的对偶操作。像在膨胀中一样，收缩的方式和程度由一个结构元素控制。对z 中的集合a 和b ，使用b 对a 进行腐蚀，用么 b 表示，并定义为：么四= 仁l ( 召) ：a ) 即使用b 对a 进行腐蚀是所有b 中包含于a 中点z 的集合用z 平移。膨胀和腐蚀对于集合求补运算和反射运算是彼此对偶的，即： ( 彳 b ) = 么。o 召。 3 ) 形态学开操作开操作一般使对象的轮廓变得光滑，断开狭窄的间断和消除细的突出物。使用结构元素b 对集合a 进行开操作，表示为么o b ，定义如下：彳。曰= ( 么o _ 功。曰即先用b 对a 进行腐蚀，而后用b 对结果进行膨胀。 4 ) 形态学闭操作闭操作同样能使对象的轮廓变得光滑，而且消除狭窄的间断和细长的鸿沟，消除小的孔洞，并填补轮廓线中的断裂。使用结构元素b 对集合a 进行必操作，表示为彳曰，定义如下： 9 羹雾鍪霾薹雾蓁蓁薹攀蓁蓁蓁雾蒿羹羹i 薹妻鎏一羹驰蓁釜! 崩们薹羹羹薹塞蒌霎鬟；拿拿三蓁| 羹 l 雾妻i蠢篓藿囊霪耄霎霎露冀一蠹攀羹篓囊薹孽墓萋囊垂；霎薹”妻甫i 囊鋈j 妻羹。薹萎。翼囊冀霎釜一囊薹雾 | 譬茎羹霎割蠡。蒌囊5 萋搴薹囊。= 霪萎薹雾奏奏雾蔓薹璧蓑萋霎善冀塞；萎萋薹奏雾囊蓦= 羹毒霎螽；鋈薹雾薹：餮嘉茎蚕；壅篓蚕一墼薹鋈耋r 霪薹蠢j 莹塞蓁一萋薹霪。萋妻萋茎囊耋，鬓鍪薹；誓鋈蓥蠢重蚕霎冀雾：蠢妻霎耄奏篓喜霎毒蓁蚕；主蠹謦j 藿薹霾誊i 季雾奏薹薹薹季孽妻二蒌季祷娶，蓁雨么薹| 。型5 霎5 薹蓥；霎耄鋈囊。羹萋薹薹孽耋爹蓁= 孛嘉萋薹垂j 童酲。萎妻茎羹霪；篓蚕萋萋囊；：薹萋篓i霎耋萋翼薹羹霎囊薹耄篓薹薹薹；薹茎蓁萋薹；耋墓霉蓁一薹i 鍪鬟薹鬟蠹；誊咔釜譬奏；耋萋薹囊囊霎羹蓁氐= 蓁薹垂姻霎墓蓁塞錾水算法，以及用动态规划法改进的滴水算法；三是基于识别的字符分割算法。下面分别详细介绍其中具有代表性的分割方法。( 一)基于前景信息的分割方法基于前景信息的方法是分析二值图像前景信息(黑像素点)，以找到正确的分割线。该类方法主要有两种：一是n w s t r a t h y 等【萋l 于1 9 9 3 年提出的轮廓分析的方法，二是z s h i 等【8 】于1 997年提出的笔划分析的方法。nwstr a t h y 等【7 】的算法是：( 1 ) 轮廓分析得到s c p s ( s i g n i f i c a n tc o n t o u r points)；(2)scp s 成对进行排序；( 3 ) 连接入口s c p 和出口s c p ，完成分割。轮廓分析分别确定出轮廓线上的敞开部分、山峰部分、山谷部分以及空洞部分(图21)，满足如下任何一个条件的点为s c p ：每一个山峰的最大点每一个山谷的最小点沿山峰或者 x 中主= 企翼琴叫攀蜀8 萎堕蚕园鼋州艟i 冀澎嚷圃馨隙曼震静雾萋弥囊挺矍= 辐抬雾篓薹薹薹薹薹霎；萎写囊娄蓁蓥| 鋈藿嘉霪誊墓蓄少l l l 耋萎翼。冀薹薹坚川l 蠹l 薹鬟薹琴囊萎羹慕矍，冀冀二萋雨量菰篙贸珏韧实铆蘑青图羹葫翥；踞萌篓霎隧薹雨营酎薹翼堑；霎夏妻霎萎蓁r 霆；霎薹| 囊篓蓁首墅囊薹篓夔塞奏茎雾雾霎萋一薹霎荔篓：囊薹警鍪蠢霎蠢萎奏h 蒌耋薹霞囊薹囊；| 蓁霎萎萎委囊薹鍪= 羹薹霎篓姜蓬羹薹：冀疆羹萋鎏萋雪霎薹羹薹羹羹；薹耋薹翼蠢蓄鍪妻；摹羹薹曩耄妻薹雾。嚣篓孬奏霎耄霎霪薹蓁塞霹霎薹霎羹薹蓁冀望。2 雾羹霎摹霎萋篱霎霎蓬謇薹萋霎窭霎；翼蓁霎。霎荔2 篓妻= 薹蠢羹饕囊霎霪璧冀薹妻雾蓁翼薹薹，墓霉霪曩霎薹喜霪霎j 羹蓁耄奏霎霎堕雾薹襄蠢霎2 荔蓁4 ；耋雾雾霎委一霎霪薹薹篓羹，蓁孽p 蓉羹。霪蓁雾霎5 ：圣窭薹鋈襄篓羹霎妄薹雾，雾蚕一冀薹；一妻薹萎中山大学硕士学位论文：基于识别反馈机耕的多帖连字符分瓤与识别 o l i _ 一 ( 1 ) ( 2 ) ( 3 ) 一1 ，一渤 ( 4 )( 5 )( 6 ) 囱27 倚统滴水算法移动规划示孽田【1 1 】数字串分割的过程实际就是寻找展佳路径的过程。动态规划d p ( d y n a m i c p r o g r a m m i n g ) 是一种很有效的寻找琅佳路径的方法，它通过把一个n 步过程转化为n 个单步过程的方法使算法的复杂性按对数级降低。刘刚在| 1 2 1 对传统的滴水算法进行了改进，提出基于l d p ( l i m i t e d ) 算法的连写数字串分割方法，对d p 算法的搜索空问、搜索方法加以限制，可雌避免传统滴水算法巾陷入局部最优的问题同时进一步降低了运算复杂度。 ( 五) 基于识别的分割方法 c o n g e d og 等于1 9 9 5 在文献i l5 】巾提到的连写数，的分割方法，用到了i ! 别技术。由于分割的盲日性，使用识别结粜作为评价当前分割结果j f 确与否的依据，如果无法t 别，则认为当前分割结果错误，尝试另外一种分割方法，直至找到可以识别的分割结果。这样就在识别与分割之间反复进行用到的分割方法很多，包括各种滴水算法和前背最分析算法等。该方法仕用识别器来选择分割线虽然基于统训的方法，但是由于识别过程运算量非常大，无法满足实时性要求；同时识别器木身并非足理想的，可能识别错误，这样会带来错误的叠加：型蕈要的是醵方法只能对字块做进一步分割，而无法判别分割出米的是否是数字碎片，进而做相应处理。在文章1 2 0 1 中，m a r l i n ，g 描述了种将分割过程和识别过程融合在一起的方法。该方法使用了个滑动窗口，从数字串的矗侧向右侧滑动。使用神经网络的方法识别位于滑动窗e 1 中间位置的字符。理想状态下，数字串中的每一个字符都有可能位于滑动窗口的中间，这辑就可以直接识别了，而不需要严格意义上的复杂分；4 过程了。为了克服滑动窗口中可能带有的其他字符的笔画，在训练神经网络识别器的时候，加入噪声训练。这种方法表面看起来只有滑动窗口的大体分割，避免了复杂的分割过程。但是事实上，这是一种运算量非常大的算法，每一次移动窗口部需要用到运算量很大的神经网络的方第2 章常用的图像分割技术法来识别。鉴于过切分在手写英文字符串中的有效应用，雷云等在【1 3 】中引入了一种新的基于识别的粘连手写数字串切分方法。此系统结合轮廓分析和投影分析寻找候选切分线，克服了一般的轮廓分析方法无法找到平滑过渡区域的切分点的问题。然后，为所有候选切分结果和其对应的书写风格建立一个概率模型，同时嵌入了单个数字分类器。利用最大后验概率准则，选取最优的切分结果。在搜索最优切分结果时，还使用了剪枝算法，降低了系统的时间和空间复杂度，从而实现了系统的实时性。文【1 3 】提出的基于反馈识别的分割算法就是找出最优的识别结果对应的分割方案作为最优的分割路径。根据最大后验概率准则，定义最优切分方法为： k = a r g m l a x m z a x l o g p ( z ，li ，) 】) = a r g m a x m a x l o g p ( zll ，) 尸( 三ij ) 】 = a r gm a x m a x l o g p ( zi1 ：，) 尸( ；z 1 ，j 2 ，川l 纠) ) = a r gm a x m a x l o g p ( zll ，i ) o 尸( i ，) p ，2 ，j 一ln ，) ) ) 我们假设字符串z 可表示成n 个彼此独立的字符z l ，z 2 ，- 磊，则可推导 nnn p ( z i l ，) = 兀p ( 乙i 三，) = 兀p ( 互i ) = 1 - i u ( ，互) i = lf = ls = i 在上式中，p ( n id 表示给定图像i 时，z 中包含n 个字符的概率。在给定n 和 i 后，p ( j r l ，2 ，- 1i ，) 是切分线j 1 ，2 ，肛1 的联合概率，它在本质上，反映了手写字符串属于某种书写风格的概率，这里的书写风格指的是数字字符串中所有字符模式在l 中的位置和大小属性。可利用模糊隶属度函数对烈lj ) 和p ( 1 i , z 2 ，j 肌1l ，d 进行估计。 1 7 中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别 ( 1 ) 、丢失灰度图中的许多有用信息。( 2 ) 、简单粗糙，分割难度大。针对以上提到的情况，我们分析了字符串图像的特点，采用了一种新的预处理方法，即先将灰度图像处理，尽量将粘连的字符分割开，然后使用动态阈值将处理后的灰度图像二值化，得到在分割阶段我们将要使用的二值图像。该算法的具体流程如下： ( 1 ) 使用如下的一个5 拳5 的掩膜对灰度图像进行处理一1一ll l一1一l 2 4一ll l一1一l lll 记处理后的图片为g ，得到g 的灰度最小值1 0 w 和最大值h i g h ，使用公式g _ ( g l o w ) l l i 曲将灰度图像归一化到区间【o ，1 】，然后转化成2 5 6 的灰度图g ，找出图片g 中背景灰度，即g 的灰度比例最高的那个灰度值，记为垤。 ( 2 ) 分别以b g 一1 和b g 一1 0 为阈值( 其他值亦可) ，把g 转为二值图，并去小洞，得到的图片，在下文中分别记为图a 和图b 。 ( 3 )比较a 图与b 图可以发现：a 图分割得不明显，有较多干扰信息；而b 图则该割之处基本都能割裂，但孔洞较多。因此我们可以利用a 图来优化b 图，把b 图相对a 图新增孔洞填充掉。 ( 4 ) 修复不合理断肢。对于小于一定像素数且与其他连通分支只有“一墙之隔的连通分支，判断为不合理的断肢。修复时将其与其他连通分支间的细缝补上( 该细缝在灰度图中颜色较“深，方可填充) 。 ( 5 ) 把原图中接近全黑的点，赋为1 。去毛刺、内部小孔及内部裂纹。去内部小孔时，首先对小于一定大小的孔洞进行填充。但字母中的一些狭长裂缝，则参考连通区域的平均宽度进行填充 ( 6 ) 通过动态阈值方法将上面得到的灰度图像直接二值化，转化为二值图。下面用图3 1 来说明新的预处理方法的步骤。第3 章多粘连字符串的分割与识别 3 2 连通域分割法本文中我们采用的像素连通是四连通。经典的求连通方法是连通域生长法【1 7 】，使用的是如下的递归算法 ( 1 ) 扫描图像，找到没有标记的像素点，对其进行标记； ( 2 ) 递归标记该点的邻点； ( 3 ) 如果不存在未标记的点则停止； ( 4 ) 返回第( 1 ) 步执行；递归方法在形式上是很简单的，但是效率很差。下面还有一种算法，可以在较小的时间复杂度内完成连通域生长法的计算，具体算法如下： ( 1 ) 自左至右，自下而上扫描整幅图像，找到第一个未标记的像素点； ( 2 ) 初始化像素队列为空； ( 3 ) 把该像素点做标记，加入队列； ( 4 ) 搜索队列头像素点周围邻域的像素并标记，加入队列； ( 5 ) 删除队头元素； ( 6 ) 重复( 3 ) 、( 4 ) 两步，直到队列空为止； ( 7 ) 返回第( 1 ) 步。连通域分割法的特点是不会受到图像倾斜的影响，定位精确。经过预处理的图像被分成几个连通区域，通过连通分量提取，就可以将一个长的字符串图像分割成几个子图像，从而利用分治法依次分割每个子图像，组合得到最终的识别结果。 3 3 基于反馈的粘连字符分割方法本文提出了基于识别反馈的多粘连字符分割算法。该算法首先通过本文的方法提取字符串的上下轮廓，在轮廓上提取特征点，然后构造可能的分割路径，最后利用遗传算法和识别器置信度反馈来决策出最佳分割路径。本文分割算法的大致流程图见图 3 3 。中山大学焉士学位论文：基于识剐反馈机科的多帖建宇符分割与识别 f pb o o t t o t n f p 【n 】；存储下轮廓特征点 ( c ) 图34 轮廓特征点提取( a ) 二值化图片( b ) 上下轮晦点集合，其中红色为上轮廓，绿色为下轮廓k ) 轮廓特征点其中红色为上轮廓特征点蓝色为下轮廓特征点 3 3 2 分割路径集合的构造经过卜西】的步骤已经得到上下轮廓的特征点序列，f 一步就是要按照一定的规则连接上下轮廓的特征点来构造分割路径集台。这里采用的分割是个过分割策略。如果这些分割路径巾包含能够正确分割字符串图像的路径。那么就认为对这个字符串的过分割是合理的。 f 面介绍分割路径的构造流程。 ( 1 ) 遍历上轮廓的所有特征点，对于上轮廓的每个特征点【。州，j 寻找与其匹配的下轮廓的特征点“y ) ，其中( x ，y ) 满足式( 3 1 ) 。如果同时存在多个符合条件中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别 3 3 3 利用识别反馈筛选最优分割路径利用上面的方法，已经构造出了分割路径集合，从而完成了对一个字符串图像的过分割，下面要讨论的就是从所有可能的分割路径中筛选出最佳分割路径，这也是非常关键的一个步骤，这将直接决定分割结果的正确性。这一节主要是利用遗传算法，同时结合神经网络模型的识别反馈对整个分割路径集合进行筛选，筛选出最优路径，从而完成对粘连字符串的分割。假设有刀条路径，那么就可以构造出2 ”个分割假设，即2 ”个分割路径组合。当刀比较大时，如果采用穷举搜索法来寻找最优分割路径，将会有非常大的时间开销，这是不可行的。许多研究者使用d p 来寻找最优分割路径。如文 2 2 1 使用单字符分类器产生的积累相异性度量来评估不同的路径。因为字符串的长度预先是未知的，实验结果表明这种算法仅局限于短的或者分割路径少的字符串。文【2 2 】中试图用平均路径得分来对应路径的长度。但是因为平均路径得分是非单调的，所以没法保证通过平均路径得分搜索到最优路径。为了弥补上面提到的问题，我们采用遗传算法( g a ) 作为搜索算法，从候选分割空间中筛选出最优的分割路径。随着问题规模的增大，组合优化问题的搜索空间也急剧增大，有时在目前的计算机上用枚举法很难求出最优解。对这类复杂的问题，人们已经意识到应把主要精力放在寻求满意解上，而g a 是一种寻求这种满意解的最佳工具。g a 是一种受生物进化启发的学习方法，它不是从一般到特殊或从简单到复杂地搜索假设，而是通过变异和重组当前已知的最好假设来生成后续的假设。每一步更新被称为当前群体的一组假设，方法是使用当前适应度最高的假设的后代替代群体的某个部分。这个过程形成了假设的生成测试的柱状搜索，其中若干个最佳当前假设的变体最有可能在下一步被考虑。实践证明，遗传算法对于组合优化中的n p 问题非常有效。g a 不但计算简单，同时功能强大，在解决像不连续空间的最优化或者多峰值目标函数的问题时，它是一种鲁棒性的搜索技术。它有许多功能强大的操作，像选择、繁殖、交叉、变异。g a 首先根据问题域中个体的适应度大小选择个体，并借助于遗传算子进行组合交叉和变异，产生出适应性更好的新种群。这个过程将导致后代种群比前代更加适应于环境，末代种群中的最优个体可以作为问题近似最优解。我们知道对于一个含有i 条候选分割路径的集合总共可以产生? 个分割路径组合。第3 章多粘连字符串的分割与识别这里把每个分割路径组合用一个含有疗个基因的二值染色体来表示。当第m 基因为0 时，说明舍弃了第m 条分割路径，也就是第m 条分割路径没有在这个分割假设中考虑。相反的，当第m 基因为1 时，说明第m 条分割路径在这个分割假设中，即用来分割字符图像。分割假设都可以表示成二值染色体，这样就可以很方便的使用选择、交叉、变异等遗传操作来筛选最优分割路径。选择是指确定在某一代中哪些染色体可以作为父本为下一代提供遗传信息。到这里为止，我们都假定染色体已经打分，并且按照适应度高低排序和选择，直到生成下一代为止。这有利于种群向着得分高的方向进化。因此选择的本质是筛选，它的功能就是定向进化。经过选择算子多次的定向积累，种群中的个体就会迅速向使目标函数值高的区域靠拢，形成高质量的种群。交叉是把两条染色体混合或配对的过程，得到两条新的染色体。在染色体上随机确定一个位置并截断，将彳染色体的第一部分与b 染色体的第二部分连接，另一半也如此。变异是允许每个位以一个很小的概率改变自身，比如从0 变成l ，或者相反。这里应用最简单的一些遗传算子，比如轮盘赌方法选择、随机单点交叉、随机单点变异。本文使用的适应性函数是按照如下几个公式来确定的： c h a r l = “1 勘c h a 刀r l 嚣裂职别成功 l+ l 。识别错误 r e c w r o n g r a t e = ( c h a r n u m - c h a r s r i g h t ) c h a r n u m o b j v a l u e ( g i n d e x ) = ( c h a r l c h a r n u m ) 宰r ec w r o n g r a t e f i r ev a l u e ( g i n d e x ) = 2 - o b j v a l u e ( g i n d e x ) 其中幽a m u m 是分割路径分割出的子图片的个数，c i n d e x = l ，2 ，i c h a r n u m ； r ec w r o n g r a t e 是误识率； o b j v a l u e ( g i n d e x ) 是第g i n d e x 个种群个体的目标值，g j n d e x = 1 ，2 ，初始种群数目； f i t n v a l u e ( g i n d e x ) 是第g i n d e x 个种群个体的适应度。分割模块主要由两个部分构成：连通区域分析及粘连切分。在连通区域分析阶段，一个字符串被视为连通区域的组合。观察表明，有三种不同类型的连通区域：被过分割的字符碎片，孤立的字符，以及粘连字符。我们需要对第三种情况进行切分。观察表明，粘连字符的宽度一般大于其他两种类型的连通区域。如果一个连通区域的宽高比( 即该连通块的宽度连通块的高度) 低于一定阈值( 根据实际图像库确定一个阈值) ，则认为中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别是一个独立的字符( 或者是分割造成的字符碎片) ，否则认为是粘连的字符。在粘连字符切分模块，所有的连通区域都基于这一准则进行分类，只有当满足粘连字符的情况时才对其进行进一步分割。上面所述的分析模块避免了对许多孤立字符的过分割，从而节省了很多计算时间，同时也避免了很多由于对独立字符过分割而造成的错误。图3 6 每个连通区域的分割识别流程图经过上一章的预处理后，每个字符串图像都可以分成几个连通区域。对于一个字符串的连通区域，下面介绍分割的具体流程：( 1 ) 首先用神经网络识别器来识别这个连通区域，如果识别为合理的字符，说明成功，则继续处理剩下的连通区域。如果神经网络第3 章多粘连字符串的分割与识别不能识别这个连通区域，则进入分割过程。( 2 ) 如果这个连通区域没有任何分割路径，则说明连通区域识别错误。( 3 ) 如果这个连通区域有且只有一条分割路径，则用这条路径把此区域分成b wl c i t 和b wr i g h t 两部分，如果b wl e i t 和b wr i g h t 都识别正确，则此连通区域识别正确，否则直接刷掉该图片。( 4 ) 如果这个连通区域有两条或两条以上的分割路径，就利用基于识别反馈的遗传算法，来筛选最优分割路径，达到对这个连通区域的分割。对于每个连通区域的分割过程可用图3 6 的流程图来表示。因为本文所研究的字符都是变形比较大的，扭曲程度比较严重，而且笔画的粗细大小也不一致，所以使用一般的模板匹配法是很难正确识别的。针对这种情况，本文在字符识别部分采用了现在经常使用的两种字符识别方法，一种是神经网络，一种是k - 近邻分类法，然后根据各自的实现过程和识别率对这两种方法进行比较，通过实验结果我们得到在处理本文的字符时神经网络的识别率比较高，所以选用神经网络识别器用来做识别反馈。 3 4 神经网络识别法近年来，人工神经网络( m 州) 以其抗干扰、容错、自适应、自学习能力强、识别速度快等特点受到人们的广泛关注。神经网络进行字符识别的基本原理就是利用神经网络的学习和记忆功能，先让神经网络学习各个模式类别中的大量学习样本，以记住各模式类别中的样本特征，然后在识别待识别样本时，神经网络会回忆起之前记住的各模式类别的特征并将他们逐个与样本特征相比较，从而确定样本所属的模式类别。人工神经网络是由人工建立的以有向图为拓扑结构的动态系统，它通过对连续或断续的输入作状态相应而进行信息处理。神经网络的推导过程严谨，物理概念清晰，通用性强，具有很好的分类性。现有的研究情况表明，用神经网络的方法进行字符识别是可行的，识别的正确率很高。但是网络的训练比较麻烦，样本的选择很重要，需要大量的样本才能保证最终识别结果的正确。神经网络模型主要有：h o p f i e l d 模型， b o l t z m a n n 机，a d a l i n e 模型，b p 网络。文字识别技术中所用到的神经网络模型可以有b p ( b a c k p r o p a g a t i o n ) 算法，考虑到模拟实现的方便性和b p ( b a c kp r o p a g a t i o n ) 的模式识别特性，本文的识别反馈采用基于b p ( b a c kp r o p a g a t i o n ) 的算法来进行的。 3 l 中山大学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别 3 4 1b p 神经网络的设计本文采用了三层的b p 神经网络作为分类器，其实现用到了m a t l a b r 2 0 0 7 a 的n e u r a l n e t w o r k st o o l b o x ( m a t l a b 神经网络工具箱) ，可以方便地构建b p 网络。b p 学习算法的基本思想是学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，输入样本从输入层输入，经各隐层逐层处理后，传向输出层。若输出层的实际输出与期望输出的( 教师信号) 不符，则转入误差的方向传播阶段。误差的反传是将输出误差以某种形式通过隐含层向输入层逐层反传，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号，此误差信号即作为修正各单元权值的依据。这种信号正向传播和误差反向传播的各层权值调整过程，是周而复始地进行的。权值不断调整，也就是网络的不断学习，这个过程一直进行到输出误差减小到可接受为止，或进行到预先设定的学习次数为止。图3 7 是本文使用的三层感知器模型。目标向量f 2 输出向量输入模式图3 7 三层感知器输出层隐含层输入层本文直接用已有的b p 神经网络程序，对新库的单字符重新进行训练测试，得到一个满足新的图片库要求的字符识别系统，然后将此系统用于识别反馈【2 3 】【2 4 】 2 5 2 6 2 7 1 。下面我们简要介绍这个文字识别系统。首先对单字符图片分别进行特征提取【2 9 】【3 0 】，其中包括基于k i r s c h 算子的小波特征、基于m a t 变换的方向特征、p r e w i t t 梯度特征、图像距离特征、中值滤波梯度特征、外轮廓链码特征、和字符结构特征。因为上述几类特征值的动态范围是不同的，因此直接拿混合特征来做分类并不能反映它们所具有的重要程第3 章多粘连字符串的分割与识别的就是选定样本进行训练。首先从我们研究的字符图片中分割出单个字符，把分割出的字符分类，分别存放在对应的目录中。本文人工“制造出一些能传达更多信息的训练数据，比如我们将图像旋转以“制作出新的训练点，这样可构成一个更大的训练集。网络训练完毕后，把网络的参数和计算出的权值存在a n n t r a i n p a r a a l l m a t 文件里，供字符识别时调用。 3 5k 一近邻分类法近邻算法是分类算法中比较常用的一种方法【2 5 】。k - 近邻法( 简称k n n ) 是最近邻法的一个推广，是基于统计的分类方法。k n n 的思想是根据测试样本在测试空间中k 个最近邻样本中的多数样本的类别进行分类。它非常直观，无需先验统计知识等特点，从而成为非参数分类的一种重要方法。假定k - 近邻分类法的所有例子都在n 维空间中，一般每个例子x 被表示为特征向量，这里q ( 功表示例子x 的第i 4 分量。两个实例薯，x j 之间的相似度量我们采用的欧式距离。本文引入k 近邻分类器，主要是来和a n n 作对比，选择识别率比较高的分类器用于本文的识别反馈，k n n 的算法如下： ( 1 ) 本文所使用的训练样本都已经明确了它们所属的类别。 ( 2 )以训练集的分类为标准，对每个测试样本寻找k 个近邻，采用欧式距离作为样本问的相似程度的度量标准。一般近邻可以选择1 个或者多个。 ( 3 ) 测试样本的最终输出为近邻类中个数最多的那一类。对每个待分字符，本文提取了和b p 神经网络一样的特征向量，作为样本数据。这里取k = 3 ，在实验部分本文对比了a n n 分类器和k n n 分类器的分类结果。由于总体上a n n 的分类效果要优于k n n ，故本文采用的a n n 分类器来做识别反馈。 3 5 第4 章实验结果与分析第4 章实验结果与分析为了测试和评价本文提出的算法的好坏，本章着重讲述用本文的算法对含有2 8 类字符的1 0 0 0 幅多粘连字符串图像进行分割和识别，并统计出分割结果，同时对于算法中的关键步骤我们都用实验进行了分析，给出了实验数据。 4 1 实验数据说明本文主要研究含有多字符的多粘连字符串的分割识别，其中每个字符串图片一般含有6 8 个字符( 包括字母、数字) ，如图4 1 所示是部分样本。图4 1 多粘连字符串图片为了测试本文提出的算法的性能，搜集了1 0 0 0 幅含有多字符的粘连字符串图片。本文的实验部分都是基于这些字符串图片来进行的。 4 2 实验设计对于两字符粘连的情况，y i - k a i 在文 1 0 1 中做了详细的介绍，并且取得了不错的效果。但本文主要研究的是粘连多字符串，这种情况是相当复杂的，因为这些字符间既存在单粘连情况，也存在多粘连情况，并且字符问粘连程度非常高，甚至有些字符笔画直接冲叠在一起，人眼都很难正确分辨出。首先，将一般的预处理方法和上述算法所得到的效果做个对比。通过图4 2 ，我们可以看到本文使用的预处理方法有明显的优势，经过这种方法处理后的字符串更加容易辨认，而且原本粘连的字符串图像现在变成了几个连通区域。图4 2 ( a ) 经一般的预处理后，得到图4 2 ( c ) ，通过连通区域提取法可以从4 2 ( c ) 中提取出三个连通区域。而用新方法得到的图4 2 ( e ) 含有四个连通区域，这样就更利于后期的处理。图4 2 ( b ) 得到的图4 2 ( d ) 含有两个连通区域，而用本文方法得到图4 2 ( 0 含有四个连通区域。通过实验，我们可以看出，新提出的预处理方法比一般的预处理方法更能有效地用于后期的分割，因为这种预处理中山j = 学硕士学位论文：基于识别反馈机制的多粘连字符分割与识别方法一般是将原始图像分成几个连通区域，然后再依次分割每个连通区域内的粘连部分大大减少了分割的难度。胂蛾 ( a ) 原始图( b ) 原始图 ( c ) 一般二值化图片 ( d ) 般二值化图片 ( e ) 新的顶处理图片 ( f ) 新的预处理图片固42 两种顶处理方法的对比图当然这种新的预处理方法还有些不足，有些图像经过预处理后会把原本一个完整的单字符分割成两个部分，像h ，w 等。图43 是一个分割错误的例子，在囤43 中w 被分到了两个连通区域，直接导致了最终的识别错误。圈43 原围( 左) 以及预i 臼里错误的图片( 右本文我们还提出了一种新颖的特征点提取方法，利用k n n 分类器来自动区分上下轮廓上的特征点与非

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）基于识别反馈机制的多粘连字符分割与识别.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）基于识别反馈机制的多粘连字符分割与识别.pdf

文档简介

温馨提示

最新文档

评论

相关文档