计算机文字识别的研究与实现_第1页
计算机文字识别的研究与实现_第2页
计算机文字识别的研究与实现_第3页
计算机文字识别的研究与实现_第4页
计算机文字识别的研究与实现_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、山东大学硕士学位论文计算机文字识别的研究与实现姓名:龚才春申请学位级别:硕士专业:计算机系统结构指导教师:刘荣兴20040312山东太学硕士学位论文摘要近年来,随着计算机的迅速发展,模式识别技术不断取得新的进展,大大改善了人机之间的信息交互能力。计算机文字识别是模式识别的一个重要分支,它包括数字字符识别、西方文字字符识别、东方文字字符识别。数字字符识别和英文字符识别研究最充分,识别方法比较成熟,识别率也比较高;而东方文字字符识别比较困难,其中汉字字符识别是文字识别中最困难的部分。汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,学科上属于模式识别和人工智能的范畴。汉字识别涉及到模式识别、

2、图像处理、人工智能、形式语言与自动机、模糊数学、组合数学、信息论、中文信息处理等学科,也涉及到语言文字学、心理学、仿生学等,是-f综合性技术。计算机文字识别是使汉字和其它字符高速自动输入计算机,解决了汉字信息处理系统中手动输入效率低这一关键问题的理想途径,是办公自动化不可缺少的文字自动输入手段,是智能计算机智能接口的重要组成部分。同时联机手写汉字识别是一种很方便的汉字输入方式,而且字符图像经识别后形成的代码,在信息量上减少了百分之九十九以上,对信息压缩和传输有重要意义。汉字识别是一种难度非常大的模式识别。这是因为:从客观上讲,汉字是种特殊的模式集合,其模式种类很多,结构非常复杂,有的模式又十分

3、相似,加上印刷质量与干扰的影响,以及人们在书写时的随意性使字形不够规范等原因,都使得汉字字符的识别十分困难。从技术上讲,虽然关于模式识别的研究有较长的历史,但至今仍没有适用于分析和描述各种模式的严谨的理论。目前的模式识别,与其说是-I'科学,还不如说是-I'技术,有的人甚至认为它是-f艺术。在研究某些模式识别问题时,有的方法比较巧妙,或者某种识别方法比较符合被识别的模式集合的情况,因而得到较好的效果。但是即使是较好的方法,由于不容易顾及所有方面的问题,所得结果往往也不是全局最佳”】。本文在总结学术上已有关于计算机文字识别成果的基础上,描述了计算机文字山东.tl=学硕士学位论文识

4、别的基本过程,介绍了几种常用的数字字符识别方法和汉字字符识别方法,对已有字符识别方法的改进主要有:1.提出了一种新的数字字符识别方法,即基于整体特征的数字字符识别方法,使数字字符识别对字符的书写风格依赖性减小,能够识别书写不规范的数字字符。2.对现有的关键背景点法数字字符识别进行了改进,使原本几乎只能够用于印刷体数字字符识别的方法能够用于识别手写体数字字符。3.提出了一种专用于字符识别的细化算法,使得细化骨架不受字符边缘修饰的影响,形变很小,同时速度很快。4.提出了一种从脱机字符点阵图像中恢复动态信息,将脱机识别问题转变为联机识别问题的方法。关键词:数字识别/汉字识别/模式识别/文字识别/细化

5、算法ll一生查查堂堡主兰篁堡茎AbstractWith the development of computer technology.pattern recognition technology has been making new progress recently,which has improved the ability of information interaction greatly,Computer character recognition iS an important branch of pattern recognition,which consists of dig

6、ital character recognition,western language character recognition,eastern language character recognition.Digital character and English character recognition are the most fully studied,and their recognition methods are mature,their recognition rates are fairly high:whi le eastern language character r

7、ecognition is fairly difficult,among which Chinese character recognition is the most difficult.Chinese character recognition means automatically recognizing Chinese characters printed or written on paper with the help of computer.1t is a knowledge pertain to pattern reeognition and artificial intell

8、igence.It deals with pattern recognition,image processing,artificial intelligence,formal language and autonoma,fuzzy mathematics,compounding mathematics,informatics,Chinese information processing,as well as 1inguisties,psychology,bionics,It is a universal technology.Computer character recognition is

9、 the ideal way to solve the problem of inputting characters into computer,an indispensable measure for automatic character inputting in office automation,an important component of interface of intelligent computer.At the same time。on一1ine hand-written Chinese character recognition is an convenient w

10、ay of inputting Chinese characters.Moreover,the extracted information amount of character code is much less than1%of its image.which means that character recognit tonIIl山东人学硕十学位论文_-_-_-_-_-_-_- jS useful for information compressing and transferring.Chinese character recognition i S a kind of pattern

11、 reeognitiOil with great difficulty.On one hand,Chinese characters are a special pattern set,which has many patterns,complicated structures.Some patterns are very alike.Poor quality of printing,impact of voice,and irregular shape of written characters make their recognition even more difficult.First

12、, the number of Chinese character is huge.Nowadays,the number of Chinese character in common use is about3,000to4,000,National Standard Code G9231280“C17"17ese Character Code&t for fnformatI'011 Interchange一Basic Sethas6.763characters.Only when a recognition system Call recognize these

13、characters can it satisfy practical use.Second,Chinesecharacters have quite a few fonts.There are several printing font such as Song font, Fangsong font,Black font,and regular font and SO on,hand-written fonts such as regular font,casual font,cursive fonts.Different fonts of the same Chinese charact

14、er differ in width,length,layout,shape of its strokes,size proportion,though they have the same topological structure.WhatS more,Chinese charactersstructure is complicated,many characters are almost the same.Many characters have only a little difference.Some characters are all the same except for di

15、fference of one strokeS length.There are other facts that affeet performance of Chinese character recognition systems.As for printings,the quality of its paper,the thickness of printing oil, contamination of paper,quality of scanning device all affect recognition rateand fonts,Chinese characters and

16、 directly.All kinds of characters with different sizesnon.Chinese characters,characters and graphics,tables printing on a same pagemakes it even more difficult to recognize them.On the other hand,there is no precise theory that Can be used to analyze anddescribe all kinds of patterns.nlough we have

17、researched pattern recognition for alike a technology than a science,it is long time.Nowadays pattern recognition is moreeven regarded as an art.Some methods to one pattern recognition problem are artifice, but even these good methods are not optimal.1V东人学硕士学位论文but even these good methods are not op

18、timal.The paper describes basic process of computer character recognition system.gives some commonused digital character and Chinese character recognition methods,new digital character recognition methods and a fairly good skeleton presents twoalgorithm.The main improvements to available character r

19、ecognition methods are: 1,A new digital character recognition method has been presented,i.e,digital character recognition based on global feature,which makes recognitionindependent on writing style,and can recognize irregularly。written digitalcharacters.2.Improvement has been made to available key b

20、ackground point digitalCan be used to recognize recognition method,which makes the methodhand-written digital characters.3.A brand.new characterrecognition-oriented skeleton algorithm has beenborber omarnent has little presented in the paper,which makes character'simpact on the characterS skelet

21、on.4.A method recovering dynamic infomation from off-line character matrix imagehas been found,which translates a off-line recognRion problem into a onlinenne.Key words:digital character recognition/Chinese character recognition/Character recognition/pattern recognitionskeleton algorithmV原创性声明本人郑重声明

22、:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。论文作者签名:日关于学位论文使用授权的声明本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。(保密论文在解密后应遵守此规定一:燧

23、聊躲凇东_人学硕士学位论文第一章文字识别研究的历史回顾和现状随着模式识别和人工智能研究的发展,在英文、数字字符识别的基础上,六十年代人们开始对汉字识别进行的研究,七十年代出现了初步成果。最近二十多年,全国都进行了大量的研究工作,并已经取得了不少成果。以当前在汉字识别方面居于世界前列的日本为例,约在七十年代开始对印刷体汉字识别进行了研究。饭岛,中野,板井,河田等在1973年前后发表了一批汉字识别的论文,至U1977年,完成了日本通产省制定的“图像信息处理系统“中印刷体汉字识别装置,并于1980年识别进行了公开表演。该装置可识别两千个的汉字,识别速度为100个汉字/秒,识别率达到了98,4%。19

24、84年,日本研制成识别2300汉字的多体印刷体汉字识别装置,识别率为99.88%,识别速度大于100个汉字/秒,代表了当前印刷体汉字识别的水平。从七十年代中期开始,手写印刷体汉字识别在日本也开展起来,进入八十年代后,研究工作日趋活跃并且有少数使用高档微机的印刷、手写印刷日本汉字装置出现。中国从七十年代开始进行主要用于邮政信函分检的数字识别和计算机输入用的英文、数字、符号识别的研究,七十年代末,一些大学和研究所开始对efJSU体和手写印刷体汉字的识别进行原理性研究。开始的时候只有少数单位少数人进行识别方法的探索;从八十年代开始中国汉字字符识别研究的取得了可喜成就。其中,从1986年初步N1988

25、年是印刷体汉字识别和联机汉字识别研究的丰收期;从1988年到目前是印刷体和联机手写汉字识别实用系统的研制和初步使用期,也是手写印刷体汉字识别研究的高潮期。联机手写汉字识别已经研制出了几个初步实用的装置,其识别指标为:识别字数6,763个至lJl2000个,识别率初次使用为百分之八十左右,经常使用可以达到百分之九十五以上,但也有三分之一的人的书写很难达到高识别率,识别速度基本能跟上人书写的速度。书写时要求笔划数目和类型基本正确,最常用的少数字可以连笔书写,这是属于联机手写印刷体识别的范畴。低限制的联机手写体汉字识别也在研究。与击键编码人工输入汉字相比,联机识别装置虽然输入速度较tit东火学硕士学

26、位论文汉字识别也在研究。与击键编码人工输入汉字相比,联机识别装置虽然输入速度较慢,1_Ll有不用特殊培训,人人会操作的好处。当前,为适应中文笔式计算机的需要,联机手写体汉字识别正在兴起新高潮。它将向两个方向发展。一是研究不严格依赖子笔划和笔顺的手写行书文字识别,二是研究价格便宜、性能稳定可靠、特别是书写方便地板和纸。sp届tJ体汉字识别要提高识别系统的识别率和速度,增强系统对不同文本的适用性,扩大使用范围。要加强版面分析、识别结果后处理和各种实用化技术的研究“1。随着国家信息化进程的加速,手写数字识别的应用需求将越来越广泛,因此应加强这方面的研究工作。应用系统性能的关键与瓶颈仍然在于手写数字识

27、别核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别算法。此外,尽早建立反映中国人书写习惯的、具有国家标准性质的手写数字样本库也是当务之急。【lI东人学硕十学位论文第二章计算机文字识别的主要应用§2.1手写数字字符识别的应用2.1.1在大规模数据统计中的应用在大规模的数据统计(如:行业年检、人口普查等中,需要输入大量的数据,以前完全要手工输入,则需要耗费大量的人力和物力。近年来在这类工作中采用OCR 技术已成为一种趋势。因为在这种应用中,数据的录入是集中组织的,所以往往可以通过专门设计表格和对书写施加限制以便于机器的自动识别。目前国内的大多数实用系统都要求用户按指定规范在方格

28、内填写。另外,这些系统往往采用合适的用户界面对识别结果做全面的检查,最终保证结果正确无误。可以看出,这是一类相对容易的应用,对识别核心算法的要求比较低,是目前国内很多单位应用开发的热点。2.1.2在财务、税务、金融领域中的应用:财务、税务、金融是手写数字字符识别的又一主要领域。随着我国经济的迅速发展,每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们用计算机自动处理,无疑可以节约大量的时间、金钱和劳动力。与上面提到的统计报表处理相比,在这个领域的应用难度更大,原因主要是对识别的精度要求更高,处理的表格往往不止一种,系统应能智能地同时处理若干种表格,由于处理贯穿于整个日常工作之中

29、,书写应尽量按一般习惯(如:不对书写者的写法做限定,书写时允东人学硕十学位论文许写连续的字串,而不是在固定的方格内书写,这样对识别及预处理的核心算法要 求也提高了。2.1.3在邮件分拣中的应用随着人们生活水平的提高,经济活动的发展,通信联系的需求使信函量大幅度增 加,我国函件业务量也在不断增长,预计到2000年,一些大城市的中心邮局每天处 理量将高达几百万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在 邮件的自动分拣中,手写数字识别(OCR往往与光学条码识别(OBROptical Bar Reading,人工辅助识别等手段相结合,完成邮政编码的阅读。§2.2汉字字符识别的应

30、用领域汉字字符识别研究鉴于基础研究和应用研究的边缘,它的研究对加速建立汉字 信息库,对汉字信息处理系统全自动化,对开拓新一代计算机的智能输入都有着重 要意义。2.2.1汉字的高速自动输入使汉字高速自动输入计算机,解决了汉字信息处理中手动输入效率低这一关键 问题。随着计算机技术的发展,汉字信息处理系统处理和输出汉字的高速度,越来 越和使用平工输入方式的低速产生矛盾,使得汉字输入计算机成为整个系统效率的 瓶颈。代替手工自动输入汉字的自动输入方法,虽然有汉字字符识别和汉字语音识 别两种,但是,使汉字高速输入计算机,在原理上能与汉字输出速度相匹配,从目 前看,汉字字符识别是唯一的方法。东大学硕士学位论

31、文2.2.2办公自动化是办公自动化和建立汉语语料库不可缺少的文字自动输入设备的基础和便于输 入的手段,也是建立在自然语言理解基础上的自动翻译的理想输入方法。2.2.3智能计算机是智能计算机智能接口的组成部分。智能计算机是在更高程度上,更完善的模 拟和取代人类部分脑力劳动的全新一代计算机。智能计算机能识别文字、图形和景 物,能听懂语言,能理解文章。视觉是智能计算机接受外界信息的重要手段。随着 文献、资料、统计报表等逐年增加,对文字信息识别的智能接口也日渐重要。2.2.4信息压缩与传输汉字字符点阵图像经计算机识别后形成的字符代码,信息容量不到原来图像的 百分之一,因此,汉字字符识别对汉字信息压缩和

32、传输有重要意义。2.2.5汉字录入联机手写体汉字字符识别是一种很方便的汉字输入方法。是在各种自动识别输 入的方法中,能够完全代替或部分代替人工编码输入的唯一可能的方法。笔迹鉴别 仪器以及利用汉字识别技术制成的自动阅读机等,对扩大计算机再国民经济各部门 的应用有实际意义“3。山东大学硕士学位论文第三章计算机文字识别基础知识§3.1BMP图像文件的格式BMP文件格式是微软公司定义的一种广泛使用的图像文件格式,在图像处理中 使用广泛,本文所讨论的计算机文字识别的识别对象字符点阵图像就是BMP文 件格式的,因此有必要在谈论识别方法之前先介绍一下Bt“iP文件格式。BMP文件由文件头、位图信息

33、头、颜色信息和图形数据四部分组成。BMP文件 的文件头数据结构中含有BMP文件的类型、文件大小和位图起始位置等信息。其结 构定义如下口:typedef struet tagBITMAPFILEHEADER?WORD bfrype; /位图文件的类型,必须为BMDWORD bfSize; /位图文件的太小。以字节为单位WORD b承eservedl; /位图文件保留字,必须为0WORD bfRescrvcd2; /'位图文件保留字,必须为0DWORD bfOffBits; /位图数据的起始位置相对于文件头的偏移量BITMAPFILEHEADER:BMP文件的位图信息头用于说明位图的尺寸等

34、信息,其结构如下:typedef struct tagBITMAPINFOHEADERDWORD biSize; /本结构所占用字节数LONG biWidth;/位图的宽度,以像素为单位LONG biHelght;,位图的高度,以像素为单位WORD biplanes; /目标设备的级别,必须为1WORD biBitCount/每个像素所需的位数,必须是1,4,8或24之一DWORDbiCompression; /位图压缩类型,DWORD biSizelmage; /位图的大小,以字节为单位LONG biXPelsPerMeter;位图水平分辨率,每米像素数LONG biYPelsPerMete

35、r;/位图垂直分辨率,每米像素数DWORD biClrUsed; /位图实际使用的颜色表中的颜色数DWORDbiClrlmportant; /位图显示过程中重要的颜色数BITMAPINFOHEADER;BMP文件的颜色表用于说明位图中的颜色,它有若干个表项,每一个表项是d J东人学硕士学位论文个RGBOUAD类型的结构,定义一种颜色。RGBQUAD结构的定义如下typedef struct'tagRGBQUADBYTE rgbBlue; /蓝色的亮度(值范围为0-255BYTE rgbGreen; /绿色的亮度(值范嗣为0-255BYTE rgbRed; /'红色的亮度(值范围

36、为o-255BYTE rgbReserved;/保留,必须为0RGBQUAD;颜色表中RGBQUAD结构数据的个数由biBitCount来确定:当biBitCount=l、4、8时,分别有2、16、256个表项;当biBitCount为24时,没有颜色表项。位图信息 头和颜色表组成位图信息,BITMAPlNFO结构定义如下:typedef struct tagBITMAPINFOBITMAPINFOHEADER bmiHeader:/位图信息头RGBQUAD bmiColors1; /颜色表BITMAPINFO:位图数据记录了位图的每一个像素值,记录顺序是在扫描行内是从左到右,扫描行之 间是从

37、下到上。位图的一个像素值所占的字节数可如下计算:当biBitCount=l时,8个像素占1个字节;当biBitCount-4时,2个像素占1个字节;当biBitCount=8时,1个像素占1个字节;当biBitCount=24时,1个像素占3个字节;Windows规定一个扫描行所占的字节数必须是4的倍数(即以long为单位,不足的 以0填充,一个扫描行所占的字节数计算方法:ByteNumberPerLine=(biWidth x biBitCount+31/8DataSizePerLine=(ByteNumberPerLine/4x 4东大学硕士学位论文§3.2计算机文字识别的基本过

38、程计算机文字识别系统的处理流程如图3.1。印刷资料由光电转换装置变为电信 号,一般是采用扫描仪将文稿扫描得到文稿的图像,经预处理后送入计算机。在预处 理阶段,计算机一般要完成去除噪音,断笔续连,版面分析,行分割,字分割,字 复点阵图像规范化,细化等工作。经过预处理后的字符点阵图像在进行特征提取。 字符的特征有两类:统计特征和结构特征。现代的识别方法一般趋向于将两类特征 结合起来,同时提取两类特征,放入字符特征向量库。在特征向量的基础上,可以 开始对字符进行分类。分类一般采用多级分类,即先进行粗分类,再在粗分类的基 础上进行进一步的细分类,直到识别该字符。识别后为了进一步提高识别率,可以 对识别

39、结果在其所处的上下文进行后处理“3。 .图3.1计算机文字识别的流程3.3.1整体阈值二值化§3.3二值化(一人工设定整体阈值根据实验和人的先验经验,预先给定一个固定阈值。当像素的灰度值小于该闽 值时认为该像素为文字笔画,否则为背景。这是一种最常用的最简单的速度最快的 二值化方法。当文字清晰,轮廓明显,干扰很小时是一种行之有效的二值化方法。 人工设定整体阈值的缺点是不能根据每个文字确定最佳的阈值,而且确定阈值后,东大学硕士学位论文当外界条件改变时,不能使阈值随之改变1】【2225【26】。(二由灰度级直方图确定整体阈值灰度级直方图给出了一张图像灰度级的概貌描述,字符点阵图像的直方图一

40、般 有两个峰值,一个峰值对应文字笔划部分,另一个峰值对应字符的背景部分。阈值 应取在两个峰值的波谷处,波谷越深越陡,二值化效果越好。这是一种根据图像和 背景的灰度值自动确定整体阈值的方法1】25】。3.3.2局部阈值二值化由像素的灰度值和该像素周围像素点局部灰度特征来确定该像素的闽值叫做局 部阈值选择。识别书写或印刷质量差,干扰较为严重的字符文稿时,整体阈值法很 难正确进行二值化,这时采用局部闽值二值化是一个很好的选择【5120l 1261。3.3.3动态阈值二值化当阈值选择不仅取决于该像素灰度值以及其周围各小组的灰度值,而且还和该 像素坐标位置有关,这叫做动态阂值选择。它可以处理低质量甚至单

41、峰值直方图图 像。对文字点阵图像而言,其笔画和背景的区分是比较明显的,而且动态阂值法计 算时间长,因此在文字识别中很少采用。最后需要指出的是:局部阈值和动态闽值选择虽然能处理书写质量较差的文字, 避免整体阈值法带来了不应有的失真,但是时间开销大,而且实际的局部阈值和动 态闽值选择算法往往在图形的某些部分上产生整体闽值不会产生的失真,所以,在 文字识别中,以整体闽值法作为二值化的主要方法是较为妥当的1】125【261。东大学硕士学位论文§3.4版面分析一页字符点阵图像经过二值化处理后成为一页字符图像的二值数字信号,它是 一个整体,包含图形,表格,文字,以及行间、字间的空白。所以要识别单

42、个字符, 首先要把每个字符从一页文字中分离出来,这就是版面分析要完成的任务。3.4.1域分离印刷板面由文本域和附属域构成。文本域包括标题域和正文域:附属域包括图 像、图形、表格等。域分离器就是用来分离这些不同的域。域分离器是利用域间的 空白条、直线或者修饰线来完成域的分离的。域分离也可采用交互式分离方式1】221 241。3.4.2行切割行切割的一般方法是:对二值化图像从上到下逐行扫描并同时计算每扫描行的 前景像素数目,以获取图像的水平投影,根据水平投影值确定文字行的位置,利用 文字行间空白间隙造成的水平投影空白间隙,即可将各行文字分割开来5161【18】19】。 在图像输入时,有时会出现纸张

43、的倾斜,因而造成文字行的倾斜。少量的倾斜 对行切分以及下面要讲的字切分影响不大,但倾斜严重时可能使行切分失败。当然 可以利用将文字图像旋转适当角度的办法来消除倾斜,但这种方法运算量过大,实 际难以使用。最直接的办法还是人工旋转。3.4.3字切割从左往右搜索一行文字单字的左右界,切分出单字和标点符号。对文本汉字行 来说,由于存在左右部件分离的情况,字的宽度不同的情况,手写汉字字符间粘连山东太学硕十学位论文的情况等,加上行中会有英文、数字、符号和污点干扰等,使得字切割比行切割困 难很多。字切分大致有两个过程,首先是求出文字、符号和部件的左右界限;其次是合 并部件成为完整的汉字1】191口“。3.5

44、.1平滑§3.5平滑和规范化汉字图像经过平滑处理,能去除孤立的噪声、干扰、平滑笔画边缘。一种简单 的平滑方法如图3.2所示。在图中对图3.2(a的前景平滑化后更改为背景。对图 3.2(b的背景更改为前景“”。困围因圈 露圈髓圈3.5.2规范化(b图3.2字符的平滑处理一表示前景,o表示背景所谓规范化,就是把文字尺寸变换成同一大小,纠正文字位簧,变换文字笔画 粗细等。所以规范化有位置规范化、尺寸规范化、笔画粗细规范化、方向规范化四 种。东火学硕士学位论文(-位置规范化”1为了消除汉字点阵配置上的偏差,即将整个汉字点阵图形移到规范的位置上来, 称为位置规范化。位置规范化的方法有两种。一种

45、是基于重心的位置规范化的;另 一种是基于外框的位置规范化。前者是求出文字的重心,在把重心移到规定的位置 上;后者是先求出文字的外框,找出中心,再把文字中心移到规定的位置上。基于重心的位置规范化方法更为稳定,不易受污点或笔划缺损等干扰的影响。 其过程是,先定义M(p,q如下:其中,(i,J在笔划上为1,在背景上为o。肋(Bg=iJ9,(f,于是,重心G阮力可以衰孙髓淼端黜也有人采用的位置规范化干脆将重心直接移到中心,中心的计算很简单,外界矩形 的两对角线的交点即为中心。(-尺寸规范化m不同尺寸大小的文字,规范化后成为同尺寸大小的文字,称为尺寸规范化。 尺寸规范化的方法也有两种。一种是将文字外接边

46、框按比例线性放大或缩小使文字 成为规定尺寸的文字,另一种方法是根据.,两个方向前景象素的分布进行尺寸规 范化。后一种方法计算如下:先求出文字的重心,再按照式4.1求出文字的散度, 然后按比例将文字线性放大或缩小成规定的01t 2,乃2的点阵。l邝,圳(i-G,2盯,2=竺塑F上一 (4.1 盯,。百F。一 憎l,(f,J1,(f,卅(j-G,2乃2。ir邓,基于外框的尺寸规范化对外框的干扰很敏感,而基于t/两方向散度的尺寸规 范化对于有些字,如,且”,”目”等,规范化后往往使其形状更为相似,从而分类更lI J东大学硕十学位论文加固难,而且计算机时间开销很大。因此,一般而言,对印刷体字符识别,采

47、用基 于外框的尺寸规范化就可以了。(三笔画粗细规范化笔画粗细规范化是一种将字符所有笔画都变成同一宽度的处理过程。下一节所 要讲述的细化实质上也是一种笔画粗细规范化,只是其使用非常广泛,所以取了一 个专门的名称,而且有许多专门的方法。笔画粗细规范化一般来说有两种方向相反的方法。一种是在细化骨架的基础上, 通过胖化实现,这是一种比较通用的方法。另一种方法是在字符图像的基础上,通 过边缘侵蚀的方法,将某些边缘点变成背景点,直到所有的笔画都具有同一个宽度。 (四方向规范化。1方向规范化又称为倾斜校正或者抗倾斜处理。这里所说的倾斜不是指扫描时 文本放置倾斜,如果是放置倾斜则只要对整幅图象进行旋转一个倾角

48、即可纠正。 这里所说的倾斜是指因书写风格不同,使字符发生东倒西歪。我们知道,图像的矩 特征可以由下式所定义的M(p,q及其组合来决定,其中f(i,.,在笔划上为1,在背 景上为0。M(p,彩=i9J4郧,J (3.t(f,图像主轴方向(图像伸展方向的tan目可以由下式求出:tan:一+丝垒:!二丝塑!垄tan日一l:oMO,I求得了图像的伸展方向后,根据这个方向值对图像的某些前景象素向左或者向右移 动一定距离,从而实现抗倾斜处理。§3.6细化许多计算机文字识别方法在预处理中都有对字符图形进行细化。细化就是将二 值化文字点阵逐层剥去轮廓边缘上的点,使字符变成笔划宽度只有一个像素的文字

49、骨架的过程。在二值化点阵图形中,对识别有价值的文字特征信息主要集中在文字 骨架上,细化后的文字骨架既保留了原有文字绝大部分特征点,又利于特征提取。山东太学硕士学位论文细化后的骨架信患量比文字二值化点阵图像要少得多,降低了处理工作量。几乎所有的光学字符识别(OCR系统都是基于细化算法的,因此,细化算法的好坏很大程度上决定TOCR系统的好坏。一个好的细化算法可以减少细化造成的形变,找到能反映字符真实形状的特征点,使系统有较高的识别率;相反,一个不好的细化算法会产生伪特征点,给字符分类带来困难,甚至导致误识或拒识阎2124】。3.6.1基于象素判断的细化算法对于字符点阵图像中每一个前景象素尸,如果下

50、列四个条件同时满足,则可以将该象素置为背景【91101。其8一领域象素集合中有2到6个象素为前景象素。其8一领域前景象素集合中有且仅有2个象素相邻。其上方象素,在方象素和右方象素中至少有一个为背景,或者上方象素的8一邻域前景象素集合中不是有且仅有2个象素相邻。其下方象素,在方象素和右方象素中至少有一个为背景,或者左方象素的8-令g 域前景象素集合中不是有且仅有2个象素相邻。对图像中的每一个象素重复这一过程,直到不存在满足上述四个条件的象素。3.6.2基于边缘侵蚀的细化算法细化的本质就是边缘侵蚀【91IS。细化就是循环地检测字符地边缘,如果将某个边缘象素置为背景不会改变原来字符点阵图像地连通性,

51、则可以将此象素置为背景。直到将字符侵蚀为单象素图像。边缘地检测很简单,如果一个前景象素的8一邻域象素集合中有一到七个象素是前景,则该象素是边缘象素。3.6,3面向字符识别的快速细化算法为了使细化得到的字符骨架能够尽量反映原始字符的形状,一般细化算法都是提取字符笔道的中心线,只有在数字字符和结构简单的西文字符识别时可能提取左东大学硕士学位论文养边界或右边界。常见的细化算法最致命的缺陷是会产生毛刺和伪分支,如图3.3所示。图3.3(b1图3.3传统细化算法的细化结聚是图3.3(a中木”字按这些方法得到的细化结果。图3.3(bA处为细化产(a(b生的毛刺,圈内为细化产生的伪分支。毛刺和伪分支严重影响

52、了字符分类,例如图.3.3(a的”木”字就很容易误识为”水”。(一相关概念圳为了算法叙述的方便,对二值化字符图像,我们定义以下概念:(1点段:一行中值为1(前景的连续像素序列称为点段。用seg亿表示第i祗啦瓷j令莨段,isegIi.j.rsegj,eg(i.j.贪黔表示seg亿的左端点、右端点、中点。(2相关点段:如果相邻二行的两个点段seg亿和soe(i+L满足下列条件之一则称点段sog亿j1seg(1"心为相关点段。(3起始段:如果点段seg亿不存在,行的相关点段,称点段sog亿为起始段。(4终止段:如果点段seg亿不存在j吖行的相关点段,称点段s昭亿为终止段。(5一对多相关:如

53、果一个点段与多个点段相关,称为一对多相关。(6相关段:点段集segB kS,see(i+1,启纠seg(i+m,kin,如果segG+n,kn与seg(i+n+l,kn+一对一相关(口<功<功且每个点段长度都小于一定阈值,则称这些点段集为相关段,111则称为相关深度。(7要点段:起始段,终止段,一对多段和长度大于一定阈值的点段,称为要点段。(8同组要点段:深度小于一定阈值的相关要点段称为同组要点段。其左右端点位置分别取为组中各段最小左端位置和最大右端位置。(9端脚段:与某个同组要点段相关的组外点段就称为该同组要点段的端脚段。深度大于一定闽值的端脚段称为有效端脚段,否则为无效端脚段。

54、东大学硕士学位论文(a(b(c图3.4汉字”来”的细化过程如图3.4(a所示字符”来”的段化图,第一笔横由三行标记为l的点段组成,这三行点段构成同组耍点段;标记为5的各点段构成相关段,其中第一行为起始段,最后一行为终止段;标记为4的同组要点段有6个有效端脚段,标记为8的点段为无效端脚段。(二细化过程我们知道,对于字符来讲,细化的毛刺主要来源于字符笔划末端的修饰,因此,要消除毛刺就必须在取笔道中心线之前去掉这些修饰,也就是将这些修饰置为背景。而细化的伪分支都是由于笔道交叉处像素较其它位置宽产生的,因此要消除伪分支就不能对笔道交叉处做简单的边缘侵蚀,而要用其它方法。对于二值化字符图像,我们逐行扫描

55、得到所有点段集,并在点段集基础上按照点段间的相关关系,记录图像的同组要点段及其有效端脚段,将所有无效端脚段包含的像素置为背景,这样就清除了字符所有横向笔道的修饰;然后逐列做相同的操作,就清除了字符所有纵向笔道的修饰。去掉字符的横向和纵向修饰,保证了细化骨架不会产生毛刺。图3.4(b显示了去掉横纵修饰后字符”来”的点段情况。去掉字符的修饰后,字符的细化就变得非常简单了。对所有按行扫描得到的相关段包含的所有点段取中点作为最后骨架需要保留的像素,如果取中点改变了前景的连通性,即使前景中连通的笔道在骨架中不连通了,则做局部调整,将中点附近的点也作为骨架需要保留的像素。保证原始字符图像中连通的笔道,在细

56、鼍、。mm舢哺m m 。巍¨一",一,2¨B 6三|三三¨“主兰宝¨¨,¨¨”m”嘞计算机文字iP,30的研究与实现化后的骨架也是连通的。对每一个同组要点段,包括按行扫描得到的同组要点段和按列扫描得到的同组要点段,都直接在其两端点之间连一条直线,直线经过的像素作为骨架需要保留的像素即可。图3.4(C显示了字符细化后的最后结果,用”标记的像素集合就构成了字符的细化骨架。(三算法分析算法首先获得字符图像的各点段,以及在此基础上的要点段,相关段,同组要点段及其端脚段等,这是对字符图像的一次扫描,所以复杂度为0旧功,H和分

57、别为字符图像的高和宽。在点段基础上得到骨架的过程就是对点段的一次扫描,所以其复杂度为0,三为得到的点段数目。因此,算法总的复杂度是0(件,。由于不需要循环对图像进行扫描,所以算法速度非常快。细化过程中,我们首先清除了同组要点段的无效端脚段,这样就清除字符笔划的修饰,因此细化就不会再出现毛刺了。另外,对同组要点段没有采用边缘侵蚀的方法,而是直接将同组要点段的端点用直线连接,直线和相关段细化后的中心线都是单像素宽度,单像素宽度的直线与直线,直线与曲线相交都不可能出现多余分支点,从而本细化算法也就避免了伪分支的出现。由此可知,用此方法的得到的细化骨架能够最大程度上反映字符的形状特征,是一种形变非常小的细化算法。§3.7特征提取基于字符结构的特征的提取一般是在细化骨架的基础上实现的,而基于统计信息的特征可以是在原字符二值化点阵图像中提取,可以在做了预处理后的字符点阵图像中提取,也可以在细化骨架上提取。特征的提取是识别的前提,一般而言,提取某种特征就对应了某种分类方法。某些特征用于粗分类,有些特征用于细分类,还有些特征用于识别结果的验证。常用的字符特征有重心位置,中心位置,笔画的方向,端点,岐点,交点,折点,特定背景点,每行或每列前景象素数目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论