毕业论文-汉字识别技术研究42335.doc_第1页
毕业论文-汉字识别技术研究42335.doc_第2页
毕业论文-汉字识别技术研究42335.doc_第3页
毕业论文-汉字识别技术研究42335.doc_第4页
毕业论文-汉字识别技术研究42335.doc_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国人民公安大学毕业论文(设计)题 目 汉字识别技术研究 学生姓名 郭耀珅 学号 200621210019 2006 年级 安全防范工程 专业 方向安全防范与网络保卫大队 06 中队 一 区队指导教师 王蓉 教 务 处 制 中国人民公安大学本科毕业论文(设计) 汉字识别技术研究摘 要:本文主要在研究当前光学字符识别系统及相关识别技术的基础上,利用matlab编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。首先,将rgb图像转化为二值图像(即仅有黑白二种颜色的图像),而后经平滑处理,滤除混入的噪声,得到清晰完整的文字图像,其次,进行行字切分使整篇文字图像成为单个文字图像,最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。实验结果表明,本文研究的方法能够识别汉字,准确率较高。 关键词:印刷体汉字识别;预处理;特征提取;特征匹配research on chinese character recognition technologyabstract: this thesis studies on the optical character recognition system and correlative recognition technology, based on the matlab programming language designed a set of relatively high recognition simple of character recognition programs. first, transforming rgb images into binary image (only black and white color image) , then the smooth filtering de-noising intermingled with the noise of the text to get clear. secondly , the image segmentation words, the essay writing as a single word images, the images of chinese abandoned any final extracting features of characters with existing is feature library compared to further output characters of the match in digital form. experimental results show that this method can be used to identify chinese characters and precise.key words: print chinese character;preprocessing;characteristic collecting;characteristic matching目 录 1 绪论11.1 汉字识别的研究背景与现实意义11.2 我国汉字识别技术发展历史与现状21.3 本文研究的主要内容3 2 汉字识别技术的相关基础知识42.1 概述42.2 汉字识别流程52.2.1预处理52.2.2 特征提取62.2.3 特征匹配与汉字识别72.2.4 后处理72.3 汉字识别模式82.3.1 结构模式识别82.3.2 统计模式识别8 3 汉字识别系统93.1汉字图像增强93.1.1 二值化处理93.1.2 平滑去噪103.1.3 行字切分103.2 特征提取123.2.1 统计特征123.2.2 特征提取方法133.3 特征匹配识别133.4 后处理144 系统仿真与实验结果154.1实验环境154.2实验过程154.2.1预处理154.2.2 特征提取与特征识别194.2.3 比对实验214.3仿真结果分析224.4 本章小结225 总结与展望235.1总结235.2展望23致谢25参考文献26iv1 绪 论 1.1 汉字识别的研究背景与现实意义 据文献记载,印刷体汉字的识别最早可以追溯到60年代。1966年,ibm公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平1。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵,没有得到广泛应用。 80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统, 识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平。80年代中期以来,以软件为主并使用通用高档微机的产品走向市场。汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上使用人数最多的文字,它记录了璀璨的民族文化,展示了我国独特的思维和认知方法。随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地以计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。因此,对于我国而言,在日常工作尤其是和我们接触颇多的警务工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率,值得一提的是,这对于处理案件等警务工作的影响尤为明显2。因此,要求有一种能将文字信息高速、自动输入计算机的方法。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对公安工作也有着相当深远的意义。 1.2 我国汉字识别技术发展历史与现状 我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段2: 第一阶段,从70年代末期到80年代末期,主要是算法和方案探索。 第二阶段,90年代初期,汉字识别技术由实验室走向市场,初步实用。 第三阶段,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。同国外相比,我国的印刷体汉字识别研究起步较晚。中国是使用汉字最久远和最广泛的国家。因此,能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言,实现在高速率,高效率的汉字识别技术方面的突破是目前的棘手问题,虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到98%以上。但是就汉字本身属性而言,仍然面临着以下方面的困难:(1)类别较大目前我国常用汉字约30004000个。国标gb2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。(2)结构复杂汉字是一种结构性很强的文字,每个汉字都具有特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。(3)相似字多部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“干”和“于”仅在字符的下部有一细微的差别。即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易出错3。识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。当前,我国较为先进,也是应用较为广泛的汉字识别技术为汉王公司的汉王汉字识别软件,技术来自于清华大学丁晓青教授在模式识别、图像处理、文字识别方面的突破。而且值得一提的是,我国的汉字识别方面已经有了一个相当成熟的技术空间。 1.3 本文研究的主要内容基于以上所述,本文将重点研究印刷体宋体汉字识别技术方面的相关技术,印刷体汉字识别技术主要分预处理、特征提取、匹配识别和后处理四部分。本文对预处理和后处理部分只是做基础性的研究工作,将重点放在研究特征提取和匹配识别两部分。因此本文一共将分五章论述所研究的内容第一章,简要介绍印刷体汉字识别的研究背景,存在的问题,和本文的主要工作及章节安排。第二章,详细的介绍了印刷体汉字识别研究历程,研究范围和分类,汉字识别的流程和方法(预处理,特征提取,特征匹配)。第三章,阐述了印刷体汉字识别预处理的过程,详细论述了对整体文档图像的处理方法,包括图像的二值化、平滑去噪和行字切分的研究及实现。以及后期的特征提取与特征匹配。第四章,利用matlab编程方式实现汉字识别过程的仿真。第五章,对本文工作的总结,以及对该项技术日后发展的展望。2 汉字识别技术的相关基础知识 2.1 概述印刷体汉字识别系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。汉字图像通过光电扫描仪,ccd器件等工具扫描成为二维图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程,其系统流程框图如图1所示。 图1 印刷体汉字识别系统框图3 经图(1)的流程处理后可输出数码形式的汉字字符。 2.2 汉字识别流程 2.2.1预处理 由于通过各种光电设备或者模数转换手段获得的汉字图像必定不可避免存在一些噪声干扰。这将导致图像质量下降,也最终影响了整个系统的识别率。因此在对汉字图像进行识别处理之前,对其进行预处理,也就是加载一个图像增强的过程,从而尽可能降低干扰因素,这也是非常有必要的。本文所介绍的印刷体汉字识别技术的预处理主要由二值化,平滑去噪与行字切分等几方面组成34。 (1) 二值化将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理5,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这里二值化阈值的选取较为关键。若阈值取的过大.则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰,若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。 (2)平滑去噪 平滑化处理是图像增强中的一种技术,其目的有两个:一是按特定的需要突出一幅图像中的有用信息,另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声。在图像的采样、数字化、量化过程中,由于输入转化器件及环境的影响,图像上一般会叠加各种各样的噪声,为让图像恢复本来面目,平滑去噪必不可少。一个较好的去噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。常用的平滑滤波方法有中值滤波和均值滤波6。本文将着重研究基于邻域平均法进行的均值滤波。 (3) 行字切分 汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分。 行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来7。典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来以确定切割的根据。 2.2.2 特征提取 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。 如下介绍并分析一下常用的一些的可供提取的汉字特征。 (1) 结构特征 抽取笔画法 抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机印刷体识别中,由于笔画提取的困难,结果不是很理想。 松弛匹配法 松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。其缺点是操作速度较慢,计算量大。 (2) 统计特征 特征点 特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。 笔段特征 汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题8。 2.2.3 特征匹配与汉字识别 通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后再根据这一对应关系进行匹配。首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板间的距离,重复上述过程。求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。松弛匹配法兼具统计方法和结构方法的特长。由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息考虑在内,这一点又很像结构方法。因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。 2.2.4 后处理后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。汉字识别的后处理方法从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。一般而言,后处理可以在相关编程过程中由计算机自动实现7。 2.3 汉字识别模式 2.3.1 结构模式识别 结构模式识别是早期印刷体文字识别研究的主要方法。其主要出发点是印刷体文字的组成结构。从构成上讲,印刷体文字是由笔划或更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对印刷体文字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。 在实际应用中此方法面临的要问题是抗干扰能力差因为在实际得到的文本图像中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等。 2.3.2 统计模式识别 统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。印刷体文字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差些。本文主要介绍的是统计模式识别中的模板匹配法。模板匹配也需要特征提取过程。字符的图像将被作为特征,与特征库中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理。3 汉字识别系统 3.1汉字图像增强 3.1.1 二值化处理把汉字图形带灰度电平的数字信号处理成二值(0,1)的数字信号,称为汉字图形数字信号二值化(binary)。对灰度图像二值化能显著的减小数据存储的容量,降低后续处理的复杂度。由于印刷体汉字识别只需要处理图像中的字型信息,对颜色等信息不做处理,所以二值化处理可以去掉不必要的信息,提高识别的速度。二值化处理是汉字识别系统的首要步骤,二值化结果的质量将直接影响后续处理的效果,从而决定整个识别系统的性能指标。因此,系统实现的首要步骤即为将文件资料扫描后的rgb图像资料通过matlab编程的方式实现向二值图像的转化。由于汉字图像的目标和背景非常清楚,因此,本文将采用全局二值化方法,全局阈值法根据文本图像确定一个阈值。在此,可引入索引色图像的概念,即对不同颜色进行编号,组成一个调色板,图像数据记录像素对应的调色板颜色的序号。设原始图像的序号为f(x,y),在经历的图像灰度化的过程中在f(x,y)中找到一个灰度值t作为阈值,分割后的二值图像g(x,y)的灰度值大于t值时,则g(x,y)=255(即颜色为白),否则g(x,y)=0,(即颜色为黑),其中t值为设定的阈值8。这种方法对于汉字图像这种颜色较为单一而不丰富的情况较为有效。在matlab环境下实现二值化的命令可如下所示:i=imread(原始图像);%读取原始图片j=rgb2gray(i);%图像灰度化figuresubplot(2,2,1),imshow(i),title(origin image);%显示原始图像subplot(2,2,2),imshow(j),title(grayed image);%显示灰度化后的图像%选取阈值t对图像进行二值化处理%灰度值大于t的为白色,小于t的为黑色k=find(j=t);j(k)=255;subplot(2,2,3),imshow(j),title(binary image);%显示二值化后的图像8 代码(1)在实际操作中也可以利用bw=im2bw(i,0.5);即直接用matlab自带函数进行二值化处理。 3.1.2 平滑去噪在图像的采样、数字化、量化过程中,由于输入转化器件及环境的影响,图像上一般会叠加各种各样的噪声,为让图像恢复庐山真面目,平滑去噪必不可少。一个较好的去噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。平滑化处理是图像增强中的一种技术,其目的有两个:一是按特定的需要突出一幅像中的有用信息;另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声7。因为文字已经过二值化,所以印刷体汉字图像的质量在可以保证的前提下,对文字图像无须进行复杂的滤波处理,我们就可以使用简单有效的方法进行平滑去噪就可以了。因此本文着重介绍的是用matlab方式实现的均值滤波法,即先对已经过二值化的文字图像添加噪声,而后用滤波法将输入转化器件与环境的影响所产生的噪声一同滤去,使经二值化的图像首先不会在边缘轮廓及线条等重要信息上被损坏,同时可以使图像清晰,视觉效果更好9。经过均值滤波后的图像一是可以按特定的需要突出一幅汉字图像中的有用信息;另一是为适应计算机后期处理的需要,消除汉字在输入数字化时所混入的噪声。 3.1.3 行字切分汉字切分是整个识别系统中极为重要的一个环节,因为正确的识别往往依赖于正确的切分。切分正确率的高低会影响到整个识别系统的有效性,没有高正确率的切分,即使有好的识别算法,也无法获得高性能的识别系统9。 对二值化后的图像进行扫描,若该行每个像素值均为零,则为行间空白区,若该行存在值为1的像素,且值为1的像素数目大于一给定阈值(阈值可通过实验进行优化),则可以认为是以行文字的起始扫描行,记下该行。继续进行扫描,直到扫描到一行像素值全为零或值为1的像素数目小于一给定阈值的行为止,并记下该行号,由此可确定一行文字所占区域。然后对该行进行垂直扫描,若扫描中该列像素值均为零则可认为是字符间空白列,直到扫描到一列中值为1的像素数目大于零或大于一给定阈值,则开始进行轮廓跟踪分割出一个连通区域,若分割得到的连通区域高度或宽度明显小于以前得到的字符宽度或高度,则认为是偏旁部首。寻找下一个连通区域,并合并两个连通区域。至此可确定一个汉字字符。经过前面的预处理,特别是二值化与平滑去噪,已经将文字从背景中提取出来了,但是以单个汉字为基础的识别要求将每个汉字从文章中提取出来。由于我们平常都是按行书写,因此首先对行进行分割,再从每行中提取汉字。从上至下扫描图像,满足下式时,第n1行被认为是一行文字的顶部 (1) 式中n1表示文件的行号,1表示一行的字节数,f(i,n:)表示输入文件在区域内(i,n1)的值(全空为0,否则为1)同理,满足下式时,n2被认为是一行文字的底部 (2) (3)完成了对行的分割以后,就要对字进行切分。设文字行的上端为nl,下端为n2,按如下方法进行切分:从左至右扫描该行,当满足下式时,第ml是该字的左部。 (4)同理,当满足下式时,m2被认为该字的右部。 (5) (6) 但值得一提的是,这样切分出的汉字可能是不完整的,当遇到如刚、误、咽等字时,容易引起错误。这也是此种方法的缺点之一10。 3.2 特征提取 3.2.1 统计特征 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用10。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。但不得不提到的是,任何一个实用的。识别系统只利用其中部分子空间的信息。由于信息的缺陷,便不可避免地遇到识别“死角”的问题。 汉字特征的提取应该遵循如下标准: (1) 区别性。对于属于不同类别的对象来说,它们的特征值应具有明显的差异。 (2) 可靠性。对同类对象特征值应比较相近。例如,对于成熟程度不同的苹果来说颜色是一个不好的特征。换句话说,青苹果与熟苹果颜色尽管差别很大,它们都属于苹果。 (3) 独立性。所用的各个特征之间应彼此不相关。虽然相关性很高的特征可以组合起来(例如求均值)以减少噪声,它们一般不应该作为单独的特征使用。 (4) 特征数量。模式识别系统的复杂度随系统的维数(特征的个数)迅速增长11。 就笔段特征而言,汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。 当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题。3.2.2 特征提取方法为实现特征提取,我们将着重于对汉字的横竖撇捺四种特征的提取(汉字本身属性决定),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向数据统计特征提取法,13特征点提取方法等,本文中将引入13点特征提取法。13点特征提取方法的总体思路是:u 首先把字符平均分成8份,统计每一份黑色像素点的个数作为8个特征.分别统计这8个区域中的黑像素的数目,可以得到8个特征。u 然后统计水平方向中间两行和垂直方向中间两列的黑色像素点的个数作为4个特征,最后统计所有黑色像素点的个数作为第13个特征。也就是说,画4道线,统计线穿过的黑像素的数目。u 最后,将字符图像的全部黑色象素的数目的总和作为一个特征。总共即得到13个特征11。从识别时间和识别率上加以对比,13点特征提取方法比其它几种方法效率都要高。经过图像的灰度化、二值化、平滑去噪、行字切分等一系列的预处理操作之后,原来排列不齐,混入噪声的各个汉字字符变成了图像清晰,排列整齐的字符,接下来便从被处理完毕的汉字字符中,提取这个字符特点的特征向量。将提取出的样本中的特征向量代入到模板匹配模块之中就可以进行下一阶段的匹配工作中了。 3.3 特征匹配识别基于上述所分析,我们将识别的过程分为以下几个阶段选取特征:横笔划特征(cz1),竖笔划(cz2),撇笔划(cz3),捺笔划(cz4)。匹配方法:偏离度,累计分类率。匹配过程:(1) 提取待识别文字的特征点特征。(2) 提取出标准库中的标准文字图像。(3) 对各项分割出的各项特征进行包含匹配: 当特征点落入图像点阵中,偏离度为0 当特征点未落入图像点阵中,搜索离该点最近的图像点,距离设为d,则偏离度为d*d 根据d值将所有的特征点偏离度相加就是该字的偏离度。 (4) 则偏离度值最小的文字就是识别结果12。 3.4 后处理综合利用初级识别结果与字符信息的纠错优于单纯利用的纠错。综合匹配法可以减少搜索字符关系时的搜索空间,从而提高纠错速度。这是因为在寻找字的匹配关系时,利用初级识别结果的待选集,可以大大缩小搜索范围,避免了在整个字符库中查询,在不利用待选集时,对于有可能识别出错的地方,只能采用拒识,而拒识不提供任何未知汉字与已知汉字字符集中汉字相似度的信息,所以寻找字符时的搜索空间只能是整个字符库。另外,当某一个词前后两个字都被拒识时,简单的词匹配法就无能为力,而综合词匹配法仍能利用字符信息进行纠错。4 系统仿真与实验结果 4.1实验环境 硬件环境:奔腾4以上处理器,128m以上内存 开发平台:windows 98/2000/xp/vista系统,matlab编程语言 4.2实验过程 4.2.1预处理 在此阶段,我们首先要实现将原含文字的rgb图像转化为二值图像。所以在matllab编程语言环境下,我们使用imread()命令选取一张含有汉字的rgb图片,如图(2)所示,该图片可较直观的看出含有16个汉字,且均为印刷体宋体汉字,这些汉字在笔段特征上来看均有较强的代表性,从图像的质量来看文字具有较为普通的清晰度,综合视之可作为实验仿真之初始图片。图(2) 初始选入图片 而后将具体进行将rgb图像转换为二值化图像的过程。如前面所讲,在此过程中,将通过选取灰度值180作为阈值,当图片的灰度值大于180时可识别为黑色,而小于180时则识别为白色。以matlab编程实现此过程时将主要应用matlab编程语言的im2bw()等函数13,将原含文字的rgb图像转化为只有黑白两种颜色的二值图像,其仿真结果将如图(3)与图(4) 图(3) matlab仿真界面显示的原图像 图(4)matlab仿真界面显示的二值化后的二值图像 从图(3)与图(4)的对比可看出程序已将原含文字的rgb图像转化为只有黑白两种颜色的二值图像。之后将进行的是平滑去噪过程,从图()中也可看出在二值化过程中也混入了一些噪声,因此引入平滑去噪以消除含有汉字的图像在读入及二值化过程时所混入的噪声,为此我们在之前的图像二值化后的基础上进行平滑去噪编程,在实现此过程时我们将对经过二值化的图像首先用imnoise()函数加入系数为0.002的高斯白噪声,即幅度分布服从高斯分布,而功率谱密度又是均匀分布的噪声,添加这种性质的噪声可以使后面的去噪过程效果更明显13,而后采用均值滤波法用filter2(fspecial()等函数进行滤波去噪。其仿真结果将如图(5) 图(7)所示。图()为经过上述过程后输出的实际去噪后图片。图(5) 仿真界面上经二值化后的二值图像图(6) 经增加噪声后的仿真图像图(7) 经均值滤波处理后的去噪图像图(8) 经过平滑去噪过程后输出的实际去噪后图片图(6)与图(8)的对比及输出的图片来分析可看出图像的清晰度已有较为明显的提高,而文字部分也有了增强,方便了下一步的切分工作。下面将进行的是行字切分,该部分犹为重要,因为这一步将实现把单个汉字从整个图像中分离出来,以便更好的进行下一步的特征提取与特征匹配工作。为此我们选取经去噪后的汉字图像(图(8),在此去噪图像的基础上利用字与字之间、行与行之间的空隙把每一个汉字从整张汉字图像中分离出来,在这个过程中,我们利用黑白不同颜色的像素点计算行距与列距,进而进行分离,行间的像素值均为零,则识别为行空白区,列距同理,根据识别出的行列空白区找出其连通区域,并通过合并连通区域确定一个个汉字字符14。 其仿真结果如图(9)所示 图(9) 仿真界面经行字切分的仿真结果而在实际的处理过程中应该能够输出分割后的实际单字图像,即如图(10)所示 图(10) 实际输出的分离出的单个汉字图像 从图()中可看出程序已经切分出了单个汉字图像。可以进行下一步的特征提取工作。 4.2.2 特征提取与特征识别在前几步的基础上,将进行基于对汉字横竖撇捺笔划特征的提取,同时将自动加载特征库作为模板向量以进行对比识别(在系统住址操作过程中可能缺少完整汉字特征库,因此此步可以手工引入的方式实现),因此这一步我们将分别选取图()中的各个汉字图像,采用3.2.2节中所述的13点特征提取法,这将应用到matlab编程语言中的size( ),round( )等函数进行汉字特征提取15,之后与自动加载的汉字特征库进行特征比对与识别,进而将识别出的汉字以数码形式输出,识别结果可如图(11) 图(13)所示图(11)图(12)图(13)图(10) 图(12)都是在matlab界面上的识别结果,从识别结果上来看图(11)存在一个识别错误,即将图识别成了囡,图(12)中则将盅识别成了盈。一个原因可能是在二值化及平滑去噪的过程中参数选取的不恰当,未能适应引入文字图像的像素值造成的,即程序的自适应性还不强,一个二值化和均值滤波参数不能很好的对文字图像的像素值进行判别。 4.2.3 比对实验 为证实分析我们改变二值化与均值滤波的参数,在源程序中,将滤波的filter2(fspecial() 函数中的系数改为254,再做识别比对,得出如图(14)所示的结果 图(14) 选取模糊图像后再行识别结果 从图(1)中可较直观看出识别率提高。说明二值化及平滑去噪的过程中参数选取的不恰当,未能适应引入文字图像的像素值造成的,即程序的自适应性还不强,一个二值化和均值滤波参数不能很好的对文字图像的变化的像素值进行判别。 4.3仿真结果分析与结论从系统的识别率来看,在图像清晰时效果很好(如系统仿真示例),但存在着一定的错误率,分析主要的原因是二值化及平滑去噪的过程中参数选取的不恰当,未能适应引入文字图像的像素值造成的,即程序的自适应性还不强,一个二值化和均值滤波参数不能很好的对文字图像的像素值进行判别。 因此结论为本文所应用的识别技术可以识别汉字,且具有相对较高的识别率,但程序的自动适应能力还不强,在二值化与均值滤波时选取的参数不能适应像素值的变化等。因此,如何提高参数的适应性,即如何提高识别的自动适应能力,仍是汉字识别领域的难点问题。 4.4 小结本章主要以系统仿真的形式实现了汉字识别的过程,其主要方向是面向印刷体宋体的识别,而在识别过程中也暴露出了引起系统误差的相关问题,同时也说明了印刷体汉字识别过程中导致误差产生的原因,并提出如何提高识别的自动适应能力,仍是汉字识别领域的难点问题。5 总结与展望 5.1总结 本文在介绍了汉字识别的一般方法后,详细描述了我们所开发的汉字识别系统中各主要步骤的实现原理及方法,其中包括图像增强方面,即预处理(二值化,行字切分,平滑去噪),特征的选择及提取,匹配方法等。考虑到汉字数量巨大,结构复杂。为了在保证一定的识别率的前提下提高识别速度,可以采用多极分类。从效果上来看,基本令人满意。同已成功开发的一些商用汉字识别系统(ocr系统)相比,在图像比较清晰的情况下,识别率可与之比齐,但当图像字体模糊,版面不清时识别率则大为下降,难以与商用匹敌。在对多字体的识别上也有所不足。因此系统在如何提高自动纠错能力和多字体识别方面有待进一步研究。 5.2展望总体来说,近几年来国内对印刷体文字识别的研究还是相当深人地,也取得了很大成绩,使系统的识别率不断上升。目前印刷体文字识别系统的应用也比较成熟。现在的识别方法也开始在识别后处理上进行研究,结合语义理解的后处理技术与识别前的预处理相对,可以对识别的结果进行后期处理,提高识别的正确率。分析人类在识别文字的过程,文字一般都是结合上下文进行理解的。因此,计算机在识别文字时也可以在识别单字的基础上,结合单字的上下文信息对识别结果进行校正,以单词甚至句子作为一次识别的结果。依据对语言文字的统计信息。识别方法加后处理的方法,能够提高识别率,降低误识率,但会增加识别时间16。随着识别方法的不断优化和后处理技术的不断成熟,将两者结合起来会成为将来识别的方向。未来的汉字识别将着重突破于以下几个方向 1. 汉字识别率总是汉字识别中最重要的指标,应该达到更新的高度,从而最大程度地减少用户校对、修改的工作量。 2. 版面的自动分析,无需人工干预,可以将印刷文本材料,如报纸、杂志等,上面有各种插图、表格、花边,且同时存在横、竖版面等加以区分和作相应的标记,以便分别处理。3. 系统总体性能的进一步提高解决像报纸这种栏目多而位置排列复杂的印刷体文本材料的版面自动理解;利用自然语言理解知识进行识别后一处理;进一步提高文字的识别率和适应性,降低系统的误识率,等等。4. 系统提供用户自学习功能,使用户自由地扩大专业识别字符集;以及适用于各种应用环境的汉字识别系统。例如:ms一005环境、wnidows环境和unix环境下的中文ocr版本,满足不同用户的需求。致谢在这里,我首先要衷心地感谢我的论文指导老师王蓉老师对我的悉心指导。在整个论文的撰写以及毕业课题的设计过程中,她给予我极大的支持和有启发意义的建议,使得我的毕业设计得以顺利的进行并完成。同时,我要感谢研究生的黄永鑫与王立师兄以及帮助我进行实验素材收集的同学,我的毕业设计的完成和他们的细心指导和毫无保留的帮助是分不开的。此外,我还要感谢毕设同组成员,在我需要帮助的时候热心伸出援手,给予我极大的支持。参考文献1 梁涌.印刷体汉字识别系统的研究与实现d:(硕士学位论文).西安:西北工业大学,2006.2 金连文.手写体汉字识别的研究d:(博士学位论文).广州:华南理工大学,1996.3 倪桂博.印刷体文字识别技术的研究m.河北:华北电力大学,2008.4 苏金明、王永利,matlab图形图像m.北京:电子工业出版社,2005.5 吕俊哲. 图像二值化算法研究及其实现j,科技情报开发与经济,2004,(3):125-129.6 罗军辉,冯平等编著. matlab7.0在数字图像中的应用m北京:机械工业出版社,20057 张炘中.汉字识别技术m.北京:清华大学出版社,19928 孙兆林,matlab6x图像处理m,北京:清华大学出版社,2004. 9 pratt,wk著,邓鲁华等译数字图像处理m北京:机械工业出版社,2005.10 高彦宇,杨扬.脱机手写体汉字识别研究综述j,计算机工程,2004.(3):709-711.11 张中, 汉字识别技术综述j,语言文学应用,1997,(2):7786.12 k.moriandi.masuda,advances in recognition of chinese charactersm,proc.of5th inten.conf.on.pattern recognition,1980.13 范承亚.多体印刷汉字识别系统的识别模型和预处理技术j.计算机工程与应用,1995,(4): 1403-140714 姚敏,数字图像处理m.北京:机械工业出版社,2006.15 聂玖星.印刷体汉字识别系统的特征提取和匹配识别研究d:(博士学位论文).大连:大连理工大学,2008.16 吴佑寿,丁晓青汉字识别原理方法与实现m,高等教育出版社,1992ag an employment tribunal clai emloyment tribunals sort out disagreements between employers and employees. you may need to make a claim to an employment tribunal if: you dont agree with the dis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论