基于统计特征的脱机手写文字识别_第1页
基于统计特征的脱机手写文字识别_第2页
基于统计特征的脱机手写文字识别_第3页
基于统计特征的脱机手写文字识别_第4页
基于统计特征的脱机手写文字识别_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——基于统计特征的脱机手写文字识别

贵州大学毕业设计第I页

摘要III第一章绪论11.1问题的提出11.2研究的目的与意义11.2.1应用方面21.2.2理论方面21.3汉字识别的发展概况31.4汉字识别的问题和困难3其次章脱机手写文字识别的原理52.1脱机手写文字识别的原理52.2系统设计框图:72.3程序流程框图8第三章常用特征提取算法及算法的确定93.1特征提取的意义93.2常用特征提取算法93.2.1方法一:统计特征提取算法103.2.2方法二:结构特征提取算法113.2.3方法三:人工神经网络法113.3方法的确定12第四章手写文字识别的预处理134.1二值化134.2文字的切分174.3去噪、归一化204.3.1平滑滤波器去噪处理214.3.2归一化234.4细化25第五章特征提取及文字的识别295.1特征提取295.1.1基于笔划密度特征的提取算法305.1.2基于弹性网格特征的提取算法315.2文字的匹配33第六章识别结果分析35第七章设计取得的成果及方法的改进367.1设计取得的成果367.2方法的改进36第八章结论与展望378.1结论37贵州大学毕业设计第II页

8.2展望37

贵州大学毕业设计第7页

表示笔划部分,\

对于二值化点阵,依照识别方法的要求,抽取代表该字的特征,并与存贮在计算机中己知标准文字的特征进行匹配判别,找出字典特征集中与输入文字特征最接近的一个文字,这个字被认为是该字的识别结果。

2.2系统设计框图:

本系统首先将样本文字的特征提取归类到样品库,在把待识别字的特征与样本库里的样品字的特征进行比较即匹配,找出最相像的一组字体从而实现文字的识别。

印刷文字图片的获取手写文字图片的获取读入图片读入图片预处理预处理文字统计特征提取待识别文字的统计特征提取汉字归类到样品库与样品库匹配识别结果输出第一部分其次部分

2.3系统设计框图贵州大学毕业设计第8页

2.3程序流程框图

开始图片的获取读入手写文字图片直方图二值化行分,字切分中值去噪中值滤波去噪归一化归一化细化细化统计特征提取待识别汉字统计特征提取flag=0绝对值距离判决flag=1终止图2.4程序流程框图

贵州大学毕业设计第9页

第三章常用特征提取算法及算法的确定

3.1特征提取的意义

手写体汉字识别的关键之一就在于怎样快速的抽取能充分描述汉字模式的稳定可靠的特征。在汉字识别系统中,对获得汉字图像直接进行分类判别是不现实的。首先,汉字图像数据占用很大的存储空间,直接进行识别费时吃力,其计算量无法接受。一幅48×48点阵的汉字图像,若不经过特征提取,则输入点可达2304,识别速度必然很低;其次,汉字图像中含有大量与识别无关的信息,如汉字图像的背景等。因此必需进行特征的提取和选择,把这些信息转换成若干个能反映本质的特征,这样就能对被识别的汉字图像数据进行大量压缩,有利于汉字识别。为了提高分类处理的速度和精度,对提取的特征还必需选择最有代表性的特征,其信息冗余度最小,而且希望具有比例、旋转、位移不变性。特征提取是很重要的,若提取的不恰当,分类就不能很确凿,甚至无法分类。

良好的特征应具有四个特点:

(1)区别性:对于属于不同类别的汉字来说,它们的特征值应具有明显的差异;(2)可靠性:对于同类的汉字,它们的特征值应比较相近;(3)独立性:所使用的各特征之间彼此不相关;

(4)数量少:汉字识别系统的繁杂度随着特征的个数的增长而迅速增大。

从数学上讲,特征提取相当于把一个在维数较高的测量空间中的物理模式变成一个在维数较低特征空间中的模式,假使提取和选择了m个特征,则此物理模式可用一个m维特征向量描述,表现为m维欧氏空间中的一个点。m维特征向量表示为:

x??x1,x2,xm,?3.2常用特征提取算法

t

近二十多年来,研究人员提出了大量种不同的特征提取方法,这些特征主要分成两贵州大学毕业设计第10页

大类,即统计特征和结构特征。结构特征是建立在笔划的基础之上,寻常以笔划或笔划构成的部件之间的空间结构关系来描述汉字,而统计特征则是建立在二值或灰度值点阵图像基础之上,寻常是对汉字点阵信息进行变换后提取。对于手写体汉字,要确凿提取到结构特征是极其困难的,因而难以采用基于结构特征的方法加以识别。而统计特征因其多样性、互补性、易于提取等优点,使其在手写体汉字识别领域占有十分突出的地位。3.2.1方法一:统计特征提取算法

统计决策法是从原始数据中提取与分类最相关的信息,包括矩、傅立叶描绘子、样条曲线拟合等。特征应对同一类字符类的形变尽量保持不变。统计决策法即统计特征分为全局特征和局部特征。全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要包括笔画穿透数目特征、全局笔画方向特征、背景特征等;局部统计特征是将汉字点阵图象分割成不同区域或网格,在各个小区域内分别抽取统计特征,主要包括四角特征、方向线素特征、局部笔画方向特征等。

用来描述事物属性的参量叫做特征,它可以通过对模式的多个样木的测量值进行统计分折后按一定准则来提取。例如:在汉字识别系统中,我们可以把每个汉字的图形分为若干小方块(图3.1),然后统计每一小方块中的黑像素,构成一个多维特征矢量,作为该汉字的特征。必需注意的是:在选择特征时,用于代表各类模式的特征应当把同类模式的各个样本聚集在一起,而使不同类模式的样本尽量分开,以保证识别系统能具有足够高的识别率。目前用于手写汉字识别的统计特征,根据特征抽取区域的不同又可粗略地分为全局统计特征和局部统计特征两大类,它们寻常与统计匹配方法或神经网络分类器一起使用。(1)全局统计特征

全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要包括:全局变换特征、不变矩特征、笔划分布特征、笔划穿透数目特征等。(2)局部统计特征

局部统计特征是通过提取局部图像的信息来组成描述汉字的特征,或者将汉字点阵图像分割成不同区域或网格,在各个小区域内分别抽取统计特征,主要包括:背景特征、网格特征、Gabor特征、方向线素特征、细胞特征、相补特征、四角特征等。贵州大学毕业设计第11页

3.2.2方法二:结构特征提取算法

所谓结构是指组成一个模式的基本单元(简称基元)之间的关系。结构特征法即结构模式识别方法是人们最初用来进行手写汉字识别研究的方法,一般需要先抽取笔段或基本笔画作为基元,由这些基元再构成部件(子模式),由部件的组合来描述汉字(模式),最终再利用形式语言及自动机理论进行文法推断,即识别。例如,拼音文字的基元是字母,若干个字母按一定规律组成一个单字。在识别某一个单字时,假使能判别组成这个字的各个字母以及它们的(结构)关系,就可以识别这个字。基于这种原理,拼音文字的识别系统中的“字典〞应包括字母,以及由字母组成单字的规律。在对某一个单字进行识别时,则应先提取构成这个单字的字母并分析它的结构,然后将它跟字典中所有已知单字的基元及其结构关系逐个加以比较,就可以确定待识单字和哪一个已知单字属于同一类别。这种识别方法跟英语句子的语法分析相像,因而有时也称之为“句法识别法〞。

由于结构特征可以确凿地描述待识别字符的几何特征,同时受噪声和字符形变的影响较小,因此基于结构的识别方法是字识别的一种有力工具。对汉字国标(GB2312-80)一级、二级字库的6763个汉字的统计结果说明,包含横笔划的汉字占99.8%,包含竖笔划的汉字占99.85%,包含撇笔划的占93.5%,包含捺笔划的占76.5%,4种笔划在汉字中出现的频率为:横笔划占39.51%,竖笔划占33.94%,撇笔划占16.77%,捺笔划占9.78%。从以上结果可知,对于标准汉字字体而言,经过二值化和细化后的图像汉字主要包括4种笔划,即横、竖、撇、捺(点归入撇或捺),其他笔划均可视为复合笔划。由此可见假使能够提取出汉字的这4个基本特征就可以识别出汉字了。3.2.3方法三:人工神经网络法

人工神经网络(ArtificialNeuralNetwork,以下称ANN)是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件——神经元相互连接成的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,无法确定ANN的工作方式是否与人脑神经元的运作方式一致,但是ANN正在吸引着越来越多的注意力。ANN中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却可以十分繁杂,从而可以通过调整神经元间的连接系数完成分类、识别等繁杂的功能。ANN还具有一定的自适应的学习与组织能力,组成网络的各个“细胞〞可以并行工作,并可以通过调整“细

贵州大学毕业设计第12页

胞〞间的连接系数完成分类、识别等繁杂的功能。ANN可以作为单纯的分类器(不包含特征提取,选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,往往将字符的图像点阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种状况下,神经网络所“提取〞的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上来说,ANN提供了一种“字符自动识别〞的可能性。此外,ANN分类器是一种非线性的分类器,它可以提供很难想象到的繁杂的类间分界面,这也为繁杂分类问题的解决提供了一种可能的解决方式。

3.3方法的确定

上述三种识别方法各有特点。结构法比较直观,能较好反映事物的结构特性;问题是基元的提取很不简单,各基元的关系也比较繁杂。寻常,为了抽取笔画需要将原始点阵图象进行细化处理,但是细化算法不仅速度慢,而且简单产生伪笔画段,如将一个四叉点变成了二个三叉点,给确凿抽取基元造成了困难,抗干扰性能也较差。汉字的结构繁杂、字数又多,采用结构法很难得到很好的效果。统计法利用计算机来抽取特征,比较便利,抗干扰性能较好;缺点是没有充分利用模式的结构特性。人工神经网络方法需要很长的时间来锻炼,在短时间内无法实现。我们目前常用的做法是将神经网络方法和传统的识别方法结合起来使用,相互取长补短,但这样的方法实现起来很困难。

鉴于上诉分析的方法的优缺点及自己能力、时间等,在该论文中我选择了统计决策中的局部特征方法对文字进行特征提取。

贵州大学毕业设计第13页

第四章手写文字识别的预处理

脱机(Off-line)手写体文字识别时,首先将写在纸上的汉字,用数码相机拍下,转换为数字信号输入计算机。由于干扰信号的存在,寻常不能直接进行识别处理。这些干扰信号,或称作噪声,大致分为两类。

(1)因文字背景(如书写用纸)有杂质,书写不好,文字笔画附近出现污点(称黑色孤立点),或文字笔画中有缺陷(称为白色孤立点)。

(2)聚焦不好,书写用力不均、字体潦草等产生的干扰。此类干扰表现为文字倾斜,字形大小不一,笔画粗细不均,甚至笔画断开或相邻文字粘连等。

因此,为了对汉字信息能做进一步的处理,必需进行预处理,清除黑白孤立点扶正倾斜文字,均匀笔画粗细,分开粘连文字笔画,使位置、大小不一的文字规范化。预处理过程一般包括二值化、行、字切分,平滑、去噪声,规范化和细化(或抽取轮廓)等。不同的识别方法,对预处理的项目和要求有所区别。如结构识别方法,对字体大小归一化可以从简甚至不需要。有的识别方法细化预处理要求很高,有的则不需要。

预处理的每部分都是整个脱机手写文字进行识别的关键,即在进行文字识别前必需对文字进行预处理的操作。

图像在扫描过程中会带来噪声,且不同的扫描分辩率所产生的图像质量也各不一致,此外还需要处理整篇文档图像中字符的正确分割,并且由于分割后字符的大小、字体都各不一致,因此还要对字符进行归一化。由此可见,扫描图像预处理工作的好坏将会直接影响到识别的效果。在预处理过程中需要解决的问题主要有图像二值化、字符切分、平滑化(去噪)、归一化、细化(轮廓抽取)等,不同的识别方法对预处理的项目和要求有所区别。

4.1二值化

由于脱机手写体汉字识别只需要处理图像中的字形信息,对颜色等信息不做处理,所以须对扫描得到的文本图像进行二值化处理,以去掉不必要的信息,提高识别的速度,并为以后的字符特征提取打下基础。用于识别的汉字图像寻常可以是256级灰度图,所贵州大学毕业设计第14页

谓图像的二值化就是通过设阈值(threshold),把它变为仅用两个灰度级分别表示图像前景和背景颜色的二值图像。处理方法如下:假设一幅图的像素值为f(x,y)∈(r1,r2,...,rm),阈值为T=ri,1≤i≤m,则:

汉字图像二值化的方法寻常有:整体阈值二值化、局部阈值二值化、动态阈值二值化。

图4.1左到右依次为原图像,二值化后图

(一)整体阈值二值化(1)人工设定整体阈值

根据试验和人的先验经验,预先给定一个固定阈值。当像素的灰度值小于该阈值时认为该像素为文字笔画,否则为背景。这是一种最常用的最简单的速度最快的二值化方法。当文字明了,轮廓明显,干扰很小时是一种行之有效的二值化方法。人工设定整体阈值的缺点是不能根据每个文字确定最正确的阈值,而且确定阈值后当外界条件改变时,不能使阈值随之改变。贵州大学毕业设计第15页

(a)(b)

(c)(d)

图4.2人工设定不同阈值二值化处理

(2)由灰度级直方图确定整体阈值

灰度级直方图给出了一张图像灰度级的概貌描述,字符点阵图像的直方图一般有两个峰值,一个峰值对应文字笔划部分,另一个峰值对应字符的背景部分。阈值应取在两个峰值的波谷处,波谷越深越陡,二值化效果越好。这是一种根据图像和背景的灰度值自动确定整体阈值的方法。贵州大学毕业设计第16页

图4.3灰度直方图

图4.4上到下左到右依次为原图像,直方图,二值化后图

(二)局部阈值二值化

由像素的灰度值和该像素周边像素点局部灰度特征来确定该像素的局部阈值二值化值叫做局部阈值选择。识别书写或印刷质量差,干扰较为严重的字符文稿时整体阈值法很难正确进行二值化,这时采用局部阈值二值化是一个很好的选择。

(三)动态阈值二值化

当阈值选择不仅取决于该像素灰度值以及其周边各小组的灰度值,而且还和该像素坐标位置有关,这叫做动态阈值选择。它可以处理低质量甚至单峰值直方图像。对文字点阵图像而言,其笔画和背景的区分是比较明显的,而且动态阈值法计算时间长,因此在文字识别中很少采用。

最终需要指出的是:局部阈值和动态阈值选择虽然能处理书写质量较差的文字,避免整体阈值法带来了不应有的失真,但是时间开销大,而且实际的局部阈值和动态阈值选择算法往往在图形的某些部分上产生整体阈值不会产生的失真,所以,在文字识别中,

贵州大学毕业设计第17页

以整体阈值法作为二值化的主要方法是较为妥当的。所以本文采取由灰度级直方图确定整体阈值的二值化具体算法如下:

通过找出出现概率不为0的最小灰度st和找出出现概率不为0的最大灰度nd,求出st与nd的均值作为阈值T即T=(st+nd)/2

基于灰度直方图的自适应阈值的二值化结果如图4.1

4.2文字的切分

现有的大部分汉字识别系统是建立在单字识别的基础之上的,然而我们经过光学仪器扫描得到的大都是整幅文本图像,而非单个汉字图像,所以鉴于这种状况汉字分割技术便应运而生了。汉字字符的切分就是对每个汉字字符定界,以便于单个汉字的识别。汉字字符数量众多,而且手写体汉字具有随意性,其字符大小、字间距、字内距变化大,所以它的切分难度远远大于西文字符及阿拉伯数字之间的切分。由于目前脱机手写体汉字识别主要是在汉字字符切分的基础上进行,汉字切分的正确与否直接关系到汉字识别的确凿程度。因此,对于手写体汉字字符切分的研究具有很重要的理论意义和实用价值。

对汉字进行切分时,假使汉字间出现粘连、重叠和交叠等状况,将给切分工作带来很大困难。所谓粘连就是指两个字符的轮廓线在一点或几点接触,假使能找到粘连位置,可以采用直线或直线段将两个字符完全分开;重叠是指两个字符没有接触,属于不同的连通区,但他们的垂直投影有重叠的状况,这种状况无法用直线将两个字符完全分开;交叠是指两个相邻的字符不仅轮廓相连,而且共享某一部分像素区,这种状况处理起来较为繁杂但并不常见。此外,一个汉字的左右部分假使分的太开或者汉字内部的笔划出现断裂,在切分时很简单被分割成两个或两个以上的字符,造成切分错误。将上述几种状况综合就会形成更为繁杂的状况,如两相邻字符既粘连又重叠或者两相邻字符粘连同时其中一个或两个字符又写得过开等。上述所有这些状况都大大增加了切分的难度,是汉字切分研究的重点和难点。

汉字字符的切分方法大致可分为四类,第一种是基于统计方法的切分,即根据字符的总体统计分布特征,确定字符之间的界限,判别时以字符的平均字宽作辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起很重要的作用;其次种是基于贵州大学毕业设计第18页

汉字结构的切分,即从字与字之间以及汉字本身的结构入手,综合分析、寻觅切分的规则;第三种是基于识别的切分方法,即在实际切分前,对各种可能存在的切分结果进行识别,选择合理的切分方式。第四种是整体识别法,即以整个词为待识别对像,根据词的整体特征来识别,从而避免切分错误对字符识别造成的损失,这种方法仅适用于识别西文字母或有限的关键性词汇,不适用于汉字的切分。本文采用文字投影的分割算法下面介绍其原理。

待处理的文字图像为一个二值点阵f(x,y),设其大小为M×N。分割算法可以分为两个步骤,先行分再纵分(字分),或者反之。1、行分:

计算文字图像横向投影序列g(1),g(2),g(3),?,g(N),其中g(j)为f(x,y)在j行上的投影:g(j)??f(i,j)j?1,2,3,?,M(4.2.1-1)

j?1M然后对g(j)进行处理:

?0,g(j)?Tjg(j)??(4.2.1-2)

1,g(j)?Tj?这样投影序列中连续为1的子列称为行段,连续为0的子列称为间段。在每个间段第一次出现0的列进行切分,即完成了行分操作。其中阈值Tj可以根据需要自行设定:假使要确切分割,则可以把Tj定小一点;反之,若只需要模糊分割,则可以把Tj值定大一些。

贵州大学毕业设计第19页

图4.5上到下左到右依次为原图像,二值化图像,行分割后第一行图像及其次行图像

2、纵分(字分):

纵向分割的原理同行分的原理基本一致,只是不是将整个文字图像纵向投影,而是在行分割的基础上,将分出来的每一行文字分别纵向投影,即在i列上投影:贵州大学毕业设计第20页

g(i)?然后对g(i)进行处理

?f(i,j)i?1,2,3,?,N(4.2.1-3)

j?1N?0,g(i)?Tig(i)??(4.2.1-4)

?1,g(i)?Ti同样,根据投影出来的列段和间段进行字分割。通过这种算法实现的子分割如图4.2.1和图4.2.2

4.6上到下左到右依次为行分割后第一行图像,列分割后第一字,其次字,第三字

4.3去噪、归一化

切分后的文字图像难免会有一些噪声而且大小不一,位子也不同;这样提取的特征就不规范,就很不简单识别出来。所以我们有进行了去噪和归一化,让待识别字大小一样位子一样,去掉噪声对识别率的影响。贵州大学毕业设计第21页

4.3.1平滑滤波器去噪处理

图像在生成和传输过程中往往受到各种噪声源的干扰和影响而使图像处理变差。有时抽样效果差的系统也同样给图像带来噪声。反映在图像上,噪声使原本均匀和连续变化的灰度突然变大或减小,形成一些虚假的物体边缘或轮廓。因此,有必要抑制或消除这类噪声,改善图像质量,有利于抽取对象特征进行分析,这个过程就称为图像的平滑过程。

图像平滑的思想是通过一点和周边几个点的运算(寻常为平均运算)来去除突然变化的点,从而滤除噪声,但图像会有一定程度的模糊。一幅图像往往受到各种噪声源的干扰,这种噪声往往为一些孤立的像素点,它们像雪花使图像被污染,噪声往往是叠加在图像上的随机噪声,而图像灰度应当相对连续变化的,一般不会突然变大或变小,这种噪声可以用领域平均法使它得到抑制。图像在拍摄、扫描或者传输过程中添加的噪声,进行中值滤波可以去掉。

空间滤波加强方法分为四类:线性/非线性平滑滤波器,线性/非线性锐化滤波器。按空域滤波处理效果来分类,可以分为平滑滤波器和锐化滤波器。平滑的目的在于消除混杂图像干扰,改善图像质量,加强图像表现特征。从信号分析的观点来看,图像平滑本质上是低通滤波。它通过信号的低频部分,阻截高频的噪声信号。但由于图像边缘也处于高频部分,这样往往带来另外一个问题:在对图像进行平滑操作时,往往对图像的细节造成一定程度的破坏。[15]

根据模板的特点,空域滤波一般分为线性滤波和非线性滤波两类。线性空域滤波往往是基于傅里叶分析的,非线性空域滤波则直接对邻域进行操作。

依照空域滤波器的功能又可以将空域滤波器分为平滑滤波器和锐化滤波器两种。平滑滤波器可以用低通滤波实现,目的在于模糊图像(提取图像中的较大图像而消除小图像或将对象的小休止连接起来)或消除图像噪声。锐化滤波器可以使用高通滤波来实现的,目的在于强调图像被模糊的细节。

以下是介绍平滑滤波的两种方法:1.邻域法去噪处理

平滑邻域法处理,就是将一个n×n的像素窗口,依次在二值化字符图像的每个像素点上移动,利用规律表达式来消除孤立像素的一种技术。汉字字符图像经过平滑处理,能去掉孤立的噪声、干扰,平滑笔画边缘。假设有一个3×3窗口,如图2.2所示。假使

贵州大学毕业设计第22页

要用新值来替换原来的值,那么新值的规律表达式为:

图4.43×3窗口

由此式可以看出,假使3×3窗口的中心点那么

的新值必为“1〞。因此,原来

值为“0〞,而其它相邻点都为“1〞,

的值“1〞来代替,从而消除的相邻点至少有一点为“1〞,

的值“0〞,将被值为“1〞,同时

了笔画上的孤立白点。假使中心点则新值

仍保持为“1〞不变,从而减少了黑白噪声干扰。

2.中值滤波去躁

上述领域平均法去噪在消除噪声的同时会将图象中的一些细节模糊掉。假使既要消除噪声又要保持图象的细节可以使用中值滤波器(一种非线性平滑滤波器)。它的工作步骤如下:

(1)将模板在图中漫游,并将模板中心与图中某个象素位置重合;(2)读取模板下各对应象素的灰度值;(3)将这些灰度值从小到大排成1列;(4)找出这些值里排在中间的1个;

(5)将这个中间值赋给对应模板中心位置的象素。

具体选择一定尺寸大小的窗口,然后把此窗口在图象上移动,用窗口内各象素灰度值的中间值代替该窗口中心的象素灰度值。

中值滤波器的主要功能是让与周边象素灰度值的差比较大的象素改取与周边接近的值,从而可以消除孤立点。中值滤波的效果比领域处理的低通滤波效果好,主要特点是滤波后图象中的轮廓比较明了。所以该论文对切分出来的“小〞,“严〞,“雨〞字采用中值滤波去噪,MATLAB可以用“B=medfilt2(A,[33])〞一条语句来实现,程序见附录三。贵州大学毕业设计第23页

图4.7左到右依次为噪声图像和中值后图像

4.3.2归一化

汉字扫描输入,经二值化和平滑后,经常需要归一化处理。所谓归一化就是把汉字尺寸变换成统一大小,汉字位置(旋转、平移)改正,汉字笔划粗细变换等汉字图形的规格化处理。所以,归一化有位置归一化、尺寸(大小)归一化二种。

1)位置归一化

为了消除汉字点阵位置上的偏差,即将整个汉字点阵图形移到规定的位置上来,称为位置归一化。位置归一化的方法有两种。一种是基于重心的位置归一化;另一种是基于外框的位置归一化。前者是先求出文字质心(参见公式2.2),再把质心移到规定的位置上;后者是先求出文字的外框,找出中心,再把文字中心移到规定的位置上。一般来讲,大多数字笔划分布左、右、上、下比较均匀,文字的重心和文字字形的中心相差不多,重心归一化不会造成字形失真,但对个别文字如甲、丁等字,上下分布不匀,重心归一化贵州大学毕业设计第24页

使字形向下移动,以致字形下端超出点阵范围而造成失真。因此,在此,我们选用的是外框归一化:

f(i,j)是字切割的结果图像。

对f(i,j)的外接边框检测方法如图4.14所示。

如图4.6文字外接矩形框的检出

将f(i,j)向x,y方向投影,得到A(i),B(j)。取A(i)

若:A(i-1)=0且A(i)>0则:y1=i

若:A(i)>0且A(i+1)=0则:y2=i同理:

若:B(j-1)=0且B(j)>0则:x1=j

若:B(j)>0且B(j+1)=0则:x2=j

x2-x1,即为外接矩形框的宽度,y2-y1即为外接矩形框的高度。这样就检测出了切割后的汉字图像的边界

2)尺寸归一化

不同尺寸大小的汉字,归一化后成为同一尺寸大小的汉字,称为尺寸归一化大量统计识别的方法,都需要尺寸归一化。经过尺寸归一化,使一种特征字典可以识别贵州大学毕业设计第25页

不同字号混排的汉字。尺寸归一化的方法也有两种。一种是将汉字外接边框按比例线性放大或缩小成为规定尺寸的汉字;另一种是根据i,j方向黑像素的分布进行尺寸归一化。

图4.8归一化成64ⅹ64后图像

4.4细化

细化(或称骨架画):是指将图像上的文字、曲线、直线等线条沿着其中心线将其细化成一个象素宽的线条过程。寻常二值化后手写体汉字笔划的宽度一般在4个像素左右而对于字符识别来说,汉字的骨架足以描述它的几何形状,所以二值化后的图像中的仍有冗余信息,即笔划太宽,况且假使要做扫瞄跟踪也会加大计算量细化的必要性不仅仅只是压缩冗余信息的需要,同时还是对模式进行结构分析的需要。对于字符来说,细化后的图像更符合人类的识别习惯,便于我们进行结构分析并设计出更好的识别算法。同时,细化后的图像有利于某些重要特征的提取,如端点、交织点、拐点等特征点及各个部件间的连接关系,一般都是基于骨架进行提取的。另外,输入所产生的噪声往往集中在字符贵州大学毕业设计第26页

笔划的边缘上,通过细化便可以消除这些噪声点,并保持原始图像重要的几何和拓扑特征。另一种压缩字符冗余信息的方法是提取轮廓。与骨架相比,由于有内、外两个轮廓在提取特征点等结构特征的时候要不断的判断使得与从骨架画出发相比更为困难。况且两个轮廓是相像的同样存在信息的冗余。但轮廓也具有自身的优势,骨架有时会丢失信息并带来毛刺、畸变,轮廓则不会产生这些问题。本文采用的是细化技术后面所有的工作都是在细化的基础上进行的。但本文使用已有的模板匹配的方法,利用P点的八邻域如下图所示。1一8为p点邻域的顺序。

45632P178图4.9P的8个方向

00202

21200

21212

2001211○10○10○11○12120002A1A2A3A4

21102

11112

11211

2021111○10○11○11○11120211A5A6A7A8

00200

11200

20012

0000210○10○10○11○12000002A9A10A11A12

图4.10细化用的摸板其中1一8是删除模板,9一12是保存模板。X表示不关心该点的值。p和q的规律和为1。

贵州大学毕业设计第27页

图4.11细化前后图像贵州大学毕业设计第28页

预处理结果比较如下:

图4.12从左到右依次为原图像,二值化后图像,中值滤波后图像,反向归一化后图像,细化后图像贵州大学毕业设计第29页

第五章特征提取及文字的识别

5.1特征提取

本文采取的提取方法是统计特征的提取方法,这是识别技术中第一大类。一般是选取同一类字符中共有的、相对稳定的并且分类性能好的统计特征作为特征向量。常用的统计特征有字符二维平面的位置特征、字符在水平或者垂直方向投影的直方图特征、矩特征和字符经过频域变换或其它形式变换后的特征等。大量字符的统计特征经过提取、学习、分类形成关于字符原型知识,构成识别字符的模板信息,这些模板信息存储在识别系统中。未知图像在识别时首先提取一致的统计特征,然后与识别系统存储的字符原型知识匹配比较,根据比较结果确定字符最终分类,达到识别的目的。衡量匹配程度的指标常采用各种向量间的距离指标,例如欧式距离。绝对值距离等,为了表达方式的统一,以这些距离为基础,可以得到归一化匹配程度。其中,基于字符像素点平面分布特征的识别算法,由于算法简单、实现便利的特点而成为最常用的匹配方法。这种算法一般先将字符图像归一化为模板的几何维数,然后根据像素点的位置逐个匹配,求出模板和图像的某种距离指标。由于要对每个像素点逐个匹配,造成算法实现计算量大,且对噪音、字符的偏移和变形十分敏感,因此对输入的待识别图像要求较高。有学者提出改进即所谓序贯相像性算法(sSAD)。Kelner和Gluabemrna在1956年提出来用二维图像的投影代替图像点阵信息的思路。二维的图像被一维的投影代替,计算量减少,同时也消除了文字在投影方向偏移的影响,但是对于字符的旋转变形却无能为力。基于统计特征的字符识别技术对于形近字符区分能力弱,因此,寻常应用于字符的粗分类。对于识别字符集比较小、输入图像质量比较高的图片(例如打印的数字字符集)也可以担当主要的识别任务。在统计特征中常用的有网格特征,笔画密度特征他的优点是易于实现,且有较高的识别率。然而笔画密度特征的识别率比网格灰度统计法识别更高。下面分别介绍这两种方法。贵州大学毕业设计第30页

5.1.1基于笔划密度特征的提取算法

汉字是一种特别的二维图形,其特征包括统计特征和结构特征两类。统计特征适合识别有噪声的文字,它可以把局部噪声和微小畸变“吞噬〞在多维特征空间之中,但是它由于不能很好地利用汉字的结构信息,因此统计特征的细分类能力较差。而结构特征是利用字形的结构规律来提取的,故它对汉字变体和变形的适应性好,但正由于为它对结构特征的敏感性,导致了结构特征的不稳定性和抗干扰能力低。所以,把统计特征和结构特征两者结合起来,存优去劣,是当前汉字识别方法的一个主要发展方向。大量研究和试验也说明,特征的互补性对提高汉字识别率有很重要的作用。鉴于此,我们使用汉字的笔划密度特征作为汉字的细分类特征。汉字的笔划密度特征细分能力较强,对字形畸变和位移变化也有较好的适应性。

笔画密度特征是从分析汉字本身的拓扑结构入手,对于不同的汉字它们的拓扑结构是不同的。如从不同方向扫描汉字图像,和笔画相交的次数随汉字的不同而有区别。其提取的基本方法为:对于已归一化的64x64汉字点阵图像,向不同方向扫描该图像,对各方向扫描线横切文字笔画的次数作累加计算,形成汉字笔画直方图,从而得到特征向量,在此,本文采用四方向笔画密度特征,笔划密度特征:从不同的方向扫描汉字,计算和笔划相交的次数,形成笔划密度特征,寻常取水平、垂直、±45四个扫描方向,每个方向我们取16个值作为特征,成64维特征向量。具体方法见图5.1。

图5.1笔画密度特征提取示意图

汉字的笔画密度特征对字形畸变和位移变化有较好的抗干扰能力。对于人们的手写体汉字来说,每个人的书写风格不同,字形的变化和位置的差异较大,选择笔画密度特征提取比较有效。但是,对于含有噪声的点阵图像,用此方法进行特征提取,效果不好,贵州大学毕业设计第31页

这是该特征提取的弱点。

图5.2左到右上到下依次是预处理后的图像,水平、垂直、450和135“四个扫描方向的特征和把四个方向特征合在一起的特征

5.1.2基于弹性网格特征的提取算法

构造弹性网格就是用一组假想的网线对汉字图像的区域划分。如图5.3是采用8×8均匀网格将一个汉字切分为64个区域。所谓的均匀网格是指每一个网格的面积是均等的。对一个汉字二值图像在水平、垂直两个方向上的直方图非均匀等分实际上就是对汉字图像非均匀等分,这种划分方法所形成的网格就是非均匀的,称为弹性网格,如图5.4

贵州大学毕业设计第32页

所示。即若纵横方向的网线分别为N1,N2,则求出汉字在纵横两方向的投影,并求出在这两方向上汉字的分布散度即密度。在根据密度线性分布网线,由这些网线所构成的就是弹性网格。

图5.38ⅹ8均匀网格图5.48ⅹ8弹性网格图5.44ⅹ4弹性网格

特征提取就是在弹性网格基础上求出每个小格内的灰度值作为特征值,8ⅹ8个小网格的灰度值就构成了64个特征值即一个64维特征向量。提取特征如图5.5

图5.5弹性网格特征的提取结果

由于两种特征提取简单便利易于实现,考虑到时别率问题,所以本文采取两种特征都提取的方法进行识别。贵州大学毕业设计第33页

5.2文字的匹配

无论采用何种方法提取文字的特征,所采用的判别方法基本上是如下介绍中的距离和类似度。

(1)绝对值距离:D(X,G)??|xi?gi|(5.2-1)

i?1m(2)欧式距离:D(X,G)??(xi?gi)i?1m2(5.2-2)

(3)马氏距离:X,G两个m维向量呈正态分布。D(X,G)?[(X?G)??1(X?G)T]2(5.2-3)(4)类似度:基于笔划密度特征的提取算法

R(X,G)??xi?gii?1m[?xi2??gi]1/2i?1i?1mm2(5.2-4)

X(x1,x2,...,xm),G(g1,g2,?,gm)分别是标准文字和待识别文字特征向量,x,g分别特征向量的特征值。本论文的两种特征分别使用了两种判别方法。第一种使用的是基于笔划密度特征的提取算法,其优点在于,若待识字与标准模板字的特征向量只在某一维有较大区别(譬如字出现缺损,或局部粘连),而其它各维都很接近时,此时两者的距离也不大,仍可以认为两者匹配,若采用平方距离判别,则会发现该待识字与模板相差甚远,从而造成误分类。其次种是比绝对值教模糊,对于灰度值的统计特征有很好的识别率。具体识别步骤为:

(1)先依据汉字笔画密度特征抽取方法提取待识别单个汉字的特征向量

动共64维向量值。

(2)设各个候选字标准汉字模板的特征向量为

,计算待识别汉字与候选汉字的绝对值或欧贵州大学毕业设计第34页

氏距离

D(X,G)??|xi?gi|或D(X,G)?i?1m?(xi?gi)i?1m2

其中x,是待识汉字特征向量中的第i个分量,gj,是特征库中第j个标准候选字的特征向量的第i个分量。

(3)本文在这一级中引入拒识策略:设定一个闭值(通过试验定),假使每

一个D(X,G,)均小于该阂值必,即待识别汉字与特征库中的每一个标准汉字均不匹配,则拒识。

(4)假使D(X,G)中至少有一个大于必,则将各个D(X,G)进行排序,选出类似度D(X,G)最大的一个候选字作为识别结果输出。贵州大学毕业设计第35页

第六章识别结果分析

作为一个识别系统,我们最终要用某些参数来评价其性能的高低,手写文字识别也不例外。评价的指标除了借用一般文字识别的寻常做法外,还要根据文字识别的特点进行修改和补充。对于一个手写文字识别系统,我们可以用三方面的只来表征系统的性能:

正确识别率:A=正确识别样本数/全部样本数*100%;替代率(误识率):S=误识样本数/全部样本数*100%拒识率:R=拒识样本数/全部样本数*100%

三者的关系是:A+S+R=100%,在文字识别的应用中,人们往往很关心的一个指标是“识别精度〞,即:在所有识别的字符中,除去拒识字符,正确识别的比例有多大,我们定义:识别精度P=A/(A+S)*100%。

根据上诉公式,对论文结果进行分析得:

字符识别个数基于笔画密度特征提取的识

别率

严雨小

202020

9089.691

基于弹性网格特征提取的

识别率43.234.536.8

一个理想的系统应是R,S尽量小,而P,A尽可能大。而在一个实际系统中,S,R是相互制约的,拒识率R的提高总伴随着误识率S的下降,与此同时识别率A和识别精度P的提高。因此,在评价手写文字识别系统时,我们必需综合考虑这几个指标。另外,由于手写文字的书写风格、工整程度可以有相当大的区别,因此必需弄清一个指标在怎样的样本集合下获得的

由此可见基于笔画密度特征的提取有较好的识别率而基于弹性网格的特征提取识别方法识别率较低

贵州大学毕业设计第36页

第七章设计取得的成果及方法的改进

7.1设计取得的成果

在设计中取得的成果,我归纳为如下几条:

1.了解了数字图象处理与识别中常用的一些技术如图象分割、图象复原、纹理分析以及图象形态学技术的运用;

2.了解了数字图像处理中二值化,归一化,滤波,细化等预处理的基本原理。3.通过提取的特征与待识别汉字的特征匹配来识别汉字。

7.2方法的改进

本文采取的基于笔画密度特征的提取算法,笔划的提取采用对字符点阵的扫描和跟踪相结合的算法,按一定的扫描方式对点阵进行扫描,当找到一个笔划上的轮廓点后,从该点出发利用轮廓跟踪的方法提取该点所在的笔划,然后将该笔划抹去,再回到该点继续扫描,直至提取出所有的笔划。由于字符是由字母纵向拼写而成的,我们在笔划提取时,采用从上到下,按行扫描的扫描方式。汉字的笔画密度特征对字形畸变和位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论