(计算机软件与理论专业论文)印刷体汉字识别系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)印刷体汉字识别系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)印刷体汉字识别系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)印刷体汉字识别系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)印刷体汉字识别系统的研究与实现.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)印刷体汉字识别系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

曲北l 业凡学倾j 沦支摘要 摘要 汉字已有数千年的历史,也是世界上使用人数最多的文宁。然而,汉字是 非字母化、非拼音化的文字,闲此,快速高效地将汉字输入计算机,是信息处 理的一个关键问题。人工键人劳动强度大,对于大量的已有文档资料,汉字自 动识别输入就成为了最佳的选择。它在中文信息处理,办公自动化,机器翻译, 人工智能等高科技领域,都有着重要的实用价值和理论意义。 本文在研究当前光学字符识别( o c r ) 系统及相关识别技术的基础上,设计 开发了一套印刷体汉字识别系统。主要工作如下: 其一,为了解决单个分类器分类效果不理想的情况,本文从分类器集成的 角度出发,设计了多个具有特征互补,匹配方法不同的分类器,有效的提高了 汉字分类的识别效果。 其二,为了提高图像预处理质量,解决二值化过程中全局二值化适应性差, 局部二值化速度慢的问题,本文提出了一种基于文字边界轮廓提取的二值化方 法。算法首先提取出文本图像的边界轮廓,然后根据已提出的边界轮廓和原图 的信息,对轮廓内的空白部分进行填充来完成图像的二值化。实验结果表明,此 方法速度明显快于局部二值化方法,二值化效果优于全局法。 此外,本文对汉字识别过程中的关键步骤进行了研究,提出了一些新的方 法:1 ) 在版面分析中,利用数学形态学方法,采用基于组件的方法来进行版面 分析;2 ) 在图像的倾斜校正中,提出了基于最佳特征点的迭代最小二乘法算法; 3 ) 在特征提取方面,给出了汉字结构点,连通体,封闭区域,笔划等特征的提 取方法。在对笔划撇、捺提取中提出了一种基于方向加权的笔划提取方法。 总之,利用以上算法得到的印刷体汉字识别系统的汉字平均识别率达到 9 5 ,平均识别速度为6 s 每百字。 关键词:印刷体汉字识别,分类器集成,二值化,特征提取,版面分析 a b s t r a c t 摘噩 c h i n e s ec h a r a c t e rh a st h o u s a n d sy e a r si nh i s t o r y ,a n di ti su s e db ym o s tp e o p l e i nt h ew o r l d h o w e v e r , c h i n e s ec h a r a c t e ri sn o ta l p h a b e t i c ,t oi n p u tc h i n e s e c h a r a c t e r si n t oc o m p u t e rq u i c k l ya n de f f i c i e n t l yi sak e yt a s ki nc h i n e s ei n f o r m a t i o n p r o c e s s i n g s o ,c h i n e s ec h a r a c t e ra u t o r e c o g n i t i o ni st h eb e s tc h o i c ef o rt h el a r g e n u m b e r so fe x i s t i n gd o c u m e n t s i th a si m p o r t a n tp r a c t i c a lv a l u ea n dt h e o r ym e a n i n g i nc h i n e s ei n f o r m a t i o np r o c e s s i n g ,o a ,m a c h i n et r a n s l a t i o n ,a ia n ds oo n b a s e do nr e s e a r c h i n gt h ec u r r e n to c rs y s t e m sa n dr e l a t e dt e c h n o l o g i e s ,t h e p a p e rp r e s e n t st h er e c o g n i t i o no fp r i n t e dc h i n e s ec h a r a c t e rs y s t e m t h ew o r d sa r e a sf o l l o w i n g : f i r s t l y ,f o r s i n g l ec l a s s i f i e r n o tg o o da tc h i n e s ec h a r a c t e rc l a s s i f i c a t i o n , m u l t i c l a s s i f i c a t i o nw i t hc o m p l e m e n t a r yf e a t u r e sa n dd i f f e r e n tm a t c h i n gm e t h o d sa r e d e s i g n e dw h i c he f f i c i e n t l yi m p r o v er e c o g n i t i o nr a t e s e c o n d l y ,f o ri m p r o v i n gt h eq u a l i t yo fp r e p r o c e s s i n ga n do v e r c o m i n gt h e s h o r t c o m i n g so fg l o b a la n dl o c a lm e t h o d s ,t h i sp a p e ri n t r o d u c e s ab i n a r i z a t i o n a l g o r i t h mb a s e do nc h a r a c t e ro u t l i n ed e t e c t i o n i nt h i sm e t h o df t r s f l yg e t st h eo u t l i n e o ft h ec h a r a c t e ri m a g et h e nf i l l st h ec h a r a c t e r sb a s e do nt h ei n f o r m a t i o no fo r i g i n a l i m a g e a n do u t l i n e e x p e r i m e n tr e s u l t ss h o wt h a tt h ep r o p o s e da p p r o a c hi sf a s t e rt h a n l o c a lm e t h o da n dr o b u s tt on o i s et h a ng l o b a lm e t h o d i na d d i t i o n ,t h i sp a p e rh a si m p r o v e dt h ek e ys t e p si nt h ep r o c e s so fc h i n e s e c h a r a c t e rr e c o g n i t i o n ,a n dp r o p o s e ds o m en e wa p p r o a c h e s :1 ) b a s e do nc o m p o n e n t m e t h o d ,a n a l y z et h el a y o u tu s i n gm a t h e m a t i cm o r p h o l o g i c ;2 ) p r o p o s ea na l g o r i t h m o fi n t e g r a t e dm e t h o do fl e a s ts q u a r ew h i c hi sb a s e do nb e s tc h a r a c t e rp o i n ti ni n c l i n e e m e n d a t i o no fi m a g e ;3 ) p r o p o s e df e a t u r ee x t r a c t i o nm e t h o d sf o rs t r u c t u r e , c o n n e c t e db o d y ,c l o s e da r e aa n ds t r o k ei nc h i n e s ec h a r a c t e r sf e a t u r ee x t r a c t i o n m o s to fa l l ,p r o p o s e das t r o k ee x t r a c t i o nm e t h o db a s e do nd i r e c t i o nw e i g h tf o r l e f t f a l l i n gs t r o k ea n dr i g h t - f a l l i n gs t r o k ei ns t r o k ef e a t u r ee x t r a c t i o n t t | 摘要 i no n ew o r d ,i ta c h i e v e sar e c o g n i t i o nr a t eo f9 5 a n das p e e do f6 sf o ro n e h u n d r e dc h i n e s ec h a r a c t e r su s i n ga p r i n t e dc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e m b a s e do na b o v ea l g o r i t h m s k e y w o r d s :p r i n t e dc h i n e s ec h a r a c t e r ,c l a s s i f i e rc o m b i n a t i o n ,b i n a r i z a t i o n f e a t u r ee x t r a c t i o n ,l a y o u ta n a l y s i s 第一壹 第一章绪论 对汉字的识别是模式识别的重要应用领域,也是光学字符识别o c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) 的重要组成部分。汉字识别是一门多学科综合的研究课 题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、 计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着 千丝万缕的联系。一方面各学科的发展给它的研究提供r 工具;另方面,它 的研究与发展也必将促进各学科的发展。因而有着重要的理论意义。本章首先 对汉字识别的一些基本知识做一简要的概述。 1 1 汉字识别研究的意义 文字是人类文化的重要结晶。人们之间的思想交流是通过语言和文字进行 地。今天,随着计算机的普及和i n t e r n e t 的发展,人类已进入信息时代。人们记 录和获取信息的途径已发生了深远的变革,过去人们用纸来记录信息,今天人 们用计算机来记录信息,对它们进行编辑和整理,保存在磁盘、磁带或其它介 质上,以各种方式满足人们的不同需求。在这个信息爆炸的年代,用人工方式 输入文字已不能满足要求。如果计算机可以识别文字,就可以用计算机代替人 们的简单、重复的劳动,将语言及文字高速自动地输入计算机。因此研究计算 机识别文字的目的就是解决文字信息高速、自动输入计算机的问题,使计算机 能方便地进行信息加工处理。文字识别在以下领域具有广泛的前途。 1 ) 在信息处理领域中,使用文字识别技术可以提高计算机的使用效率,克 服入与机器的矛盾。 随着计算机的发展,训算机进行信息处理地速度越来越高。与此相适应的 输出装置的速度也大幅提高,例如激光打印机每秒种可以输出1 0 0 0 个印刷符 号。然而,作为计算机的输入手段却没有多大的改观,仍然停留在用手指敲击 键盘,使计算机在大部分时间里处于闲置状态。计算机的性能越好,人与机器 的矛盾就越突出。因此,输入的低速度已成为计算机系统提高使用效率的瓶颈, 解决这一问题的出路就在于计算机自动识别文字。 第章绪l 台 2 ) 文字自动识别是智能t j 算机智能接口的重要组成部分。 所谓智能计算机就是用计算机代替人类的部分脑力劳动。视觉是智能计算 机接受外界信息的重要于段,它使计算机能阅读文字,看懂图形,理解文章。 因而随着资料文献、报表的增加,列文字需求越来越大。 3 ) 文字自动识别是办公自动化、新闻出版、机器翻译中最理想的输入方法。 4 ) 文字识别将庞大的黑白点阵图像压缩成机器内部编码,压缩量在1 0 0 倍 以上,对提高通讯容量及速度是大有好处地。 汉字是世界上存在的最古老的文字之一,它记录了中国五千多年的文明史。 对汉字的识别不仅关系到中文信息高速,自动输入计算机的问题,而且关系到 我国能否在这个信息化时代实现赶超发达国家的重任。 东西方文化不同,汉字与英文的差异就更加巨大。对英文的识别方法并不适 合汉字的识别,因此我们有必要对汉字识别方法进行深入研究。 1 2 汉字识别的分类 由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题。目前 文字识别技术按照字体的不同可以分为”】: 1 ) 单体印刷体汉字识别( p r i n t e dc h a r a c t e rr e c o g n i t i o n ) :仅识别某种单一印 刷体字体或者某种打印机、照排机输出的文字。 2 ) 多体印刷体汉字识别( m u l t i f o n tp r i n t e dc h a r a c t e rr e c o g n i t i o n ) :能识别出 印刷出的多种字体文字,如黑体,宋体,楷体等等。 3 ) 手写印刷体汉字识别( h a n dp r i n t e dc h a r a c t e rr e c o g n i t i o n ) :用于识别人 写在纸上的规整汉字,不能连笔,书写比较受限。 4 ) 特定人手写体汉字识别( p e r s o n a lh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) :是 手写体识别的一个特例,笔迹鉴别也属于这一类。 5 ) 非特定人手写体汉字识别( u n c o n s t r a i n e dh a n d w r i t t e nc h a r a c t e r r e c o g n i t i o n ) :对于任何人自由书写的文字都能正确识别,这是手写体识 别的最终目的。 手写体汉字识别根据实时性又可以分为联机手写体识别( o n l i n e h a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) 和脱机手写体识别( o f f - l i n eh a n d w r i t t e n 西北t :业大学硕_ | 1 第章绪l 菪 c h a r a c t e rr e c o g n i t i o nj 。 1 ) 联机手写体识别( o n - l i n eh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) :义n i - i 做实 时,在线手写体识别。使用光笔在图形输入板上写字,人在书写的同 时,机器根据书写的笔画、笔顺提取特征进行识别,是一种力便的文 字输入手段,也是文字识别最简单的一种。 2 ) 脱机手写体识别( o f f - l i n eh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) :又称作离 线手写体识别。由书写者预先将文字写在纸上,通过扫描仪转换成图 像,再由计算机识别成汉字,由于手写文字的风格因人而异,即使是 同一个人写的文字也会有砦变化,且无法获得实时信息,成为文字识 别领域最难的分支。图1 1 表示汉字识别的划分方法。 图1 1 文字识别的粗分类 1 3 印刷体文字识别的研究历程 早在1 9 2 9 年,t a u s h e k 就在德国获碍了一项有关o c r 的专利。欧美国家为 了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输 入计算机进行处理,从5 0 年代就开始了西文o c r ( o p t i c a lc h a r a c t e r r e c o g n i t i o n 技术的研究,以便代替人工键盘输入。 据文献”记载,印刷体汉字的识别最早可以追溯到6 0 年代。1 9 6 6 年,i b m 公司的c a s e y 和n a g y 发表了第一篇关于印刷体汉字识别的论文,在这篇论文中 他们利用简单的模板匹配法识别了l ,0 0 0 个印刷体汉字。7 0 年代以来,日本学 者做了许多工作,其中有代表性的系统有1 9 7 7 年东芝综合研究所研制的可以识 别2 0 0 0 个汉字的单体印刷汉字识别系统;8 0 年代初期,日本武藏野电气研究 所研制的可以汉别2 3 0 0 个多体汉字的印刷体汉字识别系统,代表了当时汉字识 f l - q j l 叫t 大学硕十 文 别的最高水平:此外,f l 本的三洋、松卜、理光和富士等公司也有其研制的印 刷汉字识别系统。这些系统在方法上,大都采用基于k l l 数字变换的匹配方案, 使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵, 没有得到广泛应用”。 我国对印刷汉字识别的研究始于7 0 年代末、8 0 年代初,大致可以分为曼大 阶段: 1 ) 第一阶段从7 0 年代末期到8 0 年代末期,主要是算法和方案探索。 2 ) 第二阶段是9 0 年代初期,中文o c r 由实验室走向市场,初步实用。 3 ) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包 括汉英双语混排识别率的提高和稳健性的增强。 同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府从8 0 年代开始对汉字自动识别输入的研究给予了充分的重视和支持,经过科研人员 十多年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步:从简单 的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中 英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决 了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析, 同时汉字识别率已达到了9 8 以上。 1 4 印刷体汉字识别中存在的困难 由于汉字在以下几个方面的特点,使汉字在识别难度“。:上远远大于英文符 号的识别。 1 ) 类别较大 目前我国常用汉字约3 , 0 0 0 4 ,0 0 0 个。国标g b 2 3 1 2 8 0 常用汉字字符集中 共有6 , 7 6 3 个常用字,分为两级。第一级3 ,7 5 5 个汉字,使用频度为9 9 7 ,第 二级有3 , 0 0 8 个汉字。两级汉字总使用频度为9 9 9 9 ,识别系统一般应能正确 识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解 决国标一级3 ,7 5 5 个汉字,即使是这样,汉字识别也属于大类别数的模式识别 问题。可以说,字量大是造成汉字识别困难的主要原因之一。 2 ) 结构复杂 4 汉字是一种结构性很强的文字。在形体上汉字是一个个独奇:的方块宁,每 个汉字都具确特定分布的若干笔划构成,小同人书写b 0 同一个汉字具,舟基本相 同的拓扑结构。,笔划是汉字最基本的组成部分。汉字的笔划最少的只有一划, 如“一”,最多的达三i 划,如:“爨”笔划数f 的这种变化本身就说明了汉字 结构的复杂程度。汉字也可以看成是由部件组合而成的,部件是笔划有意义的 组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了表 达不同含义的结构异常复杂的汉字字符。非字母化,不同于拼字母文字,与世 界上常用的其它民族的文字相比,汉字的结构是最为复杂的。 3 ) 相似字多 部分汉字字符之间只存在着很细小的差别,如:“侯”和“候”之间只相差 一个小竖的笔划,“大”和“太”之间只相差一个点。具有相同笔划数目的汉字 字符之间的差异有的表现为某一个笔划位置或形态的微小变化,如:“大”字在 不同的位置上加一个点就可以变成两个意思截然不同的汉字字符“太”和“犬”。 “大”的上部加上一小横笔,就变成了“天”,而这一小横笔倾斜一个角度就变 成了“天”。又比如“干”和“于”仅在字符的下部有一细微的差别。即使由人 来辨认手写的这些汉字,在无上下文信息的帮助时,也很容易出错。识别算法 和系统必须能够正确判定这些细微的差异,否则就会发生错误。 汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识 别,因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识 别率上都能满足实际需求就成为整个系统的关键。 1 5 印刷体文字识别流程简介 印刷体文字识别的过程如图1 2 所示,预处理包括对原始图像的噪声消除、 倾斜校正或各种滤波处理。 图1 2 印刷体文字识别的简单流程图 版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序, 图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的 表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅 的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环 节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程, 包括为此而做的细化( t h i n n i n g ) 、规范化( n o r m a l i z a t i o n ) 等。提取特征的稳定性 及有效性,直接决定了识别的性能。文字识别,即从学习得到的特征库中找到 与待识别字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法 规则或语料库等语言先验知识对识别结果进行校正的过程。由此可见,印刷汉 字识别技术主要包括: 1 ) 扫描输入文本图像。 2 ) 图像的预处理,包括倾斜校正和滤除干扰噪声等。 3 ) 图像版面的分析和理解。 4 ) 图像的行切分和字切分。 5 ) 基于单字图像的特征选择和提取。 6 ) 基于单字图像特征的模式分类。 7 ) 将被分类的模式赋予识别结果。 6 西北_ r l m 六学砸十沧文 嚣章绪j 2 8 ) 识别结果的编辑修改后处理。 其巾( 4 ) 、( 5 ) 和( 6 ) ,也就是图l 。2r tc 的 爿影部分,是日】刷汉字识别中最为核、 心的技术:,近几年来,印刷汉宁识别系统的单字识别正确率已经超过9 5 为 r 进一步提高系统的总体识别率,扫描罔像、图像的预处理以及识别后处理等 方面的技术,也都得到了深入的研究并取得r 长足的进展,有效地提高了印 刷汉字识别系统的总体性能。 1 6 本文的组织 本文的内容共分为以下五章来论述: 第一章是本文的绪论部分,主要介绍了汉字识别研究的意义、研究历程以及 汉字识另0 的分类和汉字识别存在的困难。 第二章简要介绍了目前文字识别的一些主要方法。 第三章详细介绍了我们这套系统的实现方法,对识别过程的主要步骤进行了 详细介绍,并给出算法流程。 第四章给出了系统的一些测试数据。 第五章对汉字识别中存在的一些问题进行了分析和展望。 型坐垄芏型 ! - ! 兰 第。:章f p 辅r l t $ 史宁以别与法的埘究 第二章f p , i u 体文字识别方法的研究 2 1 结构模式识别 印刷体文字是一种特殊的模式,其结构虽然比较复杂,但具有相当严格的 规律性。换言之,其文字图形含有丰富的结构信息,可以设法提取含有这种信息 的结构特征及其组字规律,作为识别的依据,这就是结构模式识别法。 结构模式识别是早期印刷体文字识别研究的主要方法。其主要出发点是印 刷体文字的组成结构。从构成上讲,印刷体文字是由笔划或更小的结构基元构成 的。由这些结构基元及其相互关系完全可以精确地对印刷体文字加以描述,就像 一篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句 法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个 逻辑推理器。 在实际应用中,此方法面f | 缶的主要问题是抗干扰能力差,因为在实际得到 的文本图像中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对 比度差等。这些因素直接影响到结构基元的提取,假如结构基元不能准确地得到, 后面的推理过程就成了无源之水。此外结构模式识别的描述比较复杂,匹配过程 的复杂度因此也较高。所以在印刷体文字识别领域中,句法识别的方法正日益受 到挑战。 要想将这种方法发扬光大,首先要寻求有效的预处理算法,待识别字符的 结构在经历预处理后能够清晰、完整、标准化地再现;其次,在特征提取方法上 也还有很多工作可做,只有得到可靠、稳定、独立且数量较小的特征,结构识别 方法的优势才能够最大限度地发挥出来。如果上述两点问题得到较好解决的话, 结构识别方法将显示出其巨大的优势;匹配方法直观、形象;识别稳定性好,算 法的泛化能力强。 硕士沧文 2 2 统计模式识别 统汁决策论发展较早,理论也较成熟。其要点是提取待识别模式的一组统 计特征,然后按照一定准则所确定的决策函数进行分类判决。印刷体文字的统计 模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的 统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实 现。不足之处在于细分能力较弱,区分相似字的能力差些。另外,与结构法相比, 特征无直观陡的物理意义。 下面我们介绍一些前人提出的用于汉字识别的特征,并对每种特征的优缺 点进行分析: 2 2 1 模板匹配 模板匹配并不需要特征提取过程。字符的图像直接作为特征,与字典中的模 板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理; 但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均 无良好的适应能力,因此对大字符集不适用。 2 2 2 利用变换特征的方法 对字符图像进行二进制变换( w a l s h h a r d a m a 变换) 或更复杂的变换( 如 k a r h u n e n l o e v e ,f o u r i e r ,c o s i n e ,s l a n t 变换等) ,变换后的特征的维数大大 降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大 的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。k l 变换虽然从最小均方误差角度来说是最佳的,但是运算量较大。总之,变换特征 的运算复杂度较高。 2 2 3 结构点特征 早在1 9 5 7 年,s o l a t r o ne l e c t r o n i c sg r o u p 公司发布了第一个利用窥视孔 p e e p h o l e ) 方法的o c r 系统。其主要思想是利用字符点阵中一些有代表性的黑点 9 两北t l j k 儿学硕士论文第二章印刷体文罕识别,一j 于的研究 ( 笔划 白点( 背景) 作为特征米区分小同的字符。后有人又将这种方法运用到印 刷体文字识别中,对其中的黑点又增加了属性的描述,如端点、折点、交叉点等。 也获得了比较好的效果。其特点足对于内部笔划粘连的字符的识别的适应性较 强,直观性好,但是不易表示为欠最形式,不适合作为粗分类的特征,匹配难度 大。 当然还有许多种不同的统计特征,诸如包含配选法、脱壳透视法、差笔划法 等,这里就不一一介绍了。 2 2 4 几何矩( g e o m e t r i cm o m e n t ) 特征 m k h u 提出利用矩不变量作为特征的想法,引起了研究矩的热潮。研究人 员又确定_ 数f 个移不变、比例不变的矩。我们都希望找到稳定可靠的、对各种 干扰适应能力很强的特征,在几何矩方面的研究正反映了这一愿望。以上所涉及 到的几何矩,均在线性变换下保持不变。但在实际环境中,很难保证线性变换这 一前提条件。 2 2 5s p l i n e 曲线近似与傅立叶描绘子( f o u r i e rd e s c r i p t o r ) 两种方法都是针对字符图像轮廓的。s p l i n e 曲线近似是在轮廓上找到曲率大 的折点,利用s p l i n e 曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利 用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的。前者对 于旋转很敏感。后者对于轮廓线不封闭的字符图像不适用,因此很难用于笔划断 裂的字符的识别。 2 2 6 笔划密度特征 笔划密度的描述有许多种,这里采用如下定义:字符图像某一特定范围的笔 划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透 次数。这种特征描述了印刷体文字的各部分笔划的疏密程度,提供了比较完整的 信息。在图像质量可以保证的情况下,这种特征相当稳定。在脱机手写体的识别 中也经常用到这种特征。但是在字符内部笔划粘连时,识别的误差会较大。 10 西北厂业大学硕士论文 2 2 7 外围特征 汉字的轮廓包含了丰富的特征,即使住字符内部笔划粘连的情况| 、,轮廓部 分的信息也还是比较完整的、,这种特征非常适合于作为粗分类的特征,但细分的 能力不强。 2 2 8 基于微结构特征的方法 这种方法的出发点在于,印刷体文字是由笔划组成的,而笔划是由一定方向, 一定位置关系与长宽比的矩形段组成的。这些矩形段称为微结构。利用微结构及 微结构之间的关系组成的特征对印刷体文字进行识别,获得了良好的效果。其不 足之处是,在内部笔划粘连时,微结构的提取会遇到困难。 2 3 结构模式识别与统计模式识别结合 统计模式识别方法将重点放在模式信息处理的数学规范上,以数值特征向量 的方式表达模式,便于找到合适的模式学习和匹配算法,但难于描述模式内部复 杂的几何及拓扑结构特性。结构模式识别方法则以形式语言为基础,侧重于句法 结构分析,但文法复杂。 结构模式识别与统计模式识别各有优缺点,随着我们对于两种方法认识的深 入,这两种方法正在逐渐融合,使得识别技术可处理更多类型、更加复杂的模式。 同时,也在模式特征的提取和学习,模式的匹配与分类,以及模式样本的低层处 理方法,如消除噪声、模式图像分割、特征的抽取等方面都取得很多成果。从而 大大扩展了模式识别技术的应用领域。网格化特征就是这种结合的产物。字符图 像被均匀地或非均匀地划分为若干区域,称之为“网格”。在每一个网格内寻找 各种特征,如笔划点与背景点的比例,交叉点、笔划端点的个数,细化后的笔划 的长度、网格部分的笔划密度等等。特征的统计以网格为单位,即使个别点的统 计有误差也不会造成大的影响。另外,由于将不同含义的统计特征与结构特征有 效地进行了组合,增强了特征的抗干扰性,整个识别系统的稳定性与泛化能力都 大大地增强了。目前,这种方法正得到日益广泛的应用。 婚北r 、l p 夫学母t 2 4 人工神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,以下称a k n ) 是一种模拟人脯神 经元细胞的网络结构,它是由大啭简单的基本元件一神经元,相互连接成的自适 应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,我们无法确定 a n n 的工作方式是否与人脑神经元的运作方式相同,但是a n n 正在吸引着越来越多 的注意力。 a n n 中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却 可以非常复杂,我们从而可以通过调整神经元问的连接系数完成分类、识别等复 杂的功能。a n n 还具有一定的自适应的学习与组织能力,组成网络的各个“细胞” 可以并行工作,并可以通过调整“细胞”问的连接系数完成分类、识别等复杂的 功能。 a n n 可以作为单纯的分类器( 不包含特征提取,选择) ,也可以用作功能完善 的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符 的图像点阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种情况 下,神经网络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各 个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意 义上来说,a n n 提供了一种“字符自动识别”的可能性。此外,a n n 分类器是一种 非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂 分类问题的解决提供了一种可能的解决方式。 目前,在对于像汉字识别这样超多类的分类问题,a n n 的规模会很大,结构 也很复杂,实用性较差。另外,这种方法所需要的训练样本规模比较大,训练过 程也比较长。对于与样本相差较大的模式的识别能力也比较差。这其中的原因很 多,主要的原因还在于我们对人脑的工作方式以及a n n 本身的许多问题还没有找 到完美的答案。 人工神经网络模式识别与传统的统计模式识别开始是丽个独立发展的分支, 但随着研究的深入,人们发现二者之问存在紧密的联系。在一些情况下,统计方 法和神经网络方法是可互相替代的,实际上神经网络的方法有时被认为是统计方 法的子集。例如,对于统计模式识别方法,如分段线性判决函数法,f i s h e r 线性 判决规则,多变量高斯线性分类器,主成分分析p c a ( p r i m a r yc o m p o n e n t a n a l y s i s ) 等,都可用神经网络的并行计算结构或迭代计算结构实现;而一些重要 的神经网络模型,其学习算法与统计方法是相通的,如在一定条件下,m i ,。和e b f 分类器的对于训练样本的输出就是该样本的后验概率的估叫,这等价于b a y e s j 法。因此,我们至少_ 以说,现有的神经网络方法有许多地方与统计方法在数学 原理上是相通的。但是,神经网络确实有优于传统统计方法的地方,这表现为: 1 ) 神经网络的计算结构是并行的,而且常常是通过大量简单单元的协同运 算完成诸如求矩阵特征值这样复杂的计算任务,这一点在p c a 网络中得以充分体 现; 2 ) 神经网络不但能在模式空间中形成复杂的判决表面,而且还具备自适应 的能力,即网络不但具备自适应的学习能力,还能自适应地调整网络规模的大小, 适合大类别集的识别工作; 3 ) 一般的神经网络兼有模式变换和模式特征提取的作用,如前馈网络的隐 层就有非线性映射的功能,这一特点也被利用来与其他方法结合来确定一些重要 的参数; 4 ) 神经网络由于其信息的分布式的存储方式使它具备一定的容错能力,因 此神经网络分类器对于输入模式信息的缺损不是非常敏感,适合质量较差图像的 识别。 m - i = 上述优点,神经网络的识别方法正在越来越多地得到关注,也因而成为 近来的研究热点。但是,神经网络方法还需要在以下几方面进行深入研究:网络 的模型,以保证网络的快速收敛;训练样本集的选择,全面的学习样本是高识别 率的保证,合理的样本数量可避免网络的过训练;训练样本特征的选取,保证良 好的识别稳定性。 2 5 本章小结 本章对印刷体文字的识别方法进行了简要的论述及比较。文字的识别方法 主要分为结构模式识别、统计模式识别、人工神经网络三种方法。其中结构模 式识别方法主要是早期文字识别的主要方法,随着统计理论的发展,统汁模式 识别方法逐渐成为文字识别主要的研究力法。近年来,人工神经网络发展迅猛, 塑:二:蔓! 型堡兰! ! ! 型塑婆! ! 硎塞一 应1 h = j 到越来越多的行业| + ,它模拟人脑的活动方式,更符合人们的思维刊惯。 但它的建模比较复杂,而且运算量大。在印刷体文字识别中很少采用,在手写 体识别中有一定的应用。 14 第三章系统的研究实现 我们这套印刷体汉字识别系统( 简称l l o c r ) 是在w i n d o w s 平台下,采 用j a v a 语言开发的,可运行于w i n d o w s2 0 0 0 x p 2 0 0 3 等多个操作系统平台。 l l o c r 除了可以完成印刷体汉字的识别外,还增加了许多功能以方便用 户的使用。1 ) 增加了许多对图像的手工处理功能,如图像的分块选取,图像的 反转、缩放、旋转等。2 ) 在文件加载方面,即可以一次加载单个文件,也可以 加载多个文件或目录。3 ) 在识别方面,可以完成单个文件、多个文件、图像的 分块识别。4 ) 在文字的校对方面,显示所识别出汉字的相似字,以便快速实现 校对。 3 1 系统结构 在系统设计时,我们根据处理对象的不同对系统进行模块划分。如图3 1 图3 1 系统模块图 1 ) 文件管理模块:完成对图像文件的加载,识别结果的存贮等操作。也可 以实现对多个文件,目录同时加载。 2 ) 编辑模块:用于对识别出的文字进行修改。如:复制、粘贴、查找、删 除、替换等。 3 ) 图像处理模块:对待识别的图像进行必要的各种处理,以便进行有效的 识别。如:缩放、旋转、倾斜校正、二值化等。 4 ) 汉字识别模块:用于在不同情况下对文本图像的识别。如:所选块( 单 个或多个) 图像、读人的整幅图像、多个图像的自动识别。 l5 5 ) 帮助模块:显尔系统的版本信息及使用疗法。 以上的各个模块都由多个类共同实现,如图像处理模块就包括 i m a g e j p a n e l ,p a g e ,c o l u m n ,l i n e ,b l o c k 类。识别模块包括r e c o g n i t i o n , f e a t u r e l i b f e a t u r e 类。 3 2 系统组件介绍 如图3 2 所示,系统的g u i 由七部分组成,下面我们对各部分的功能进行 简要介绍。 图3 2 系统组件图 1 ) 主菜单:包括文件、编辑、图像、命令、显示、帮助7 个菜单,涉及在文字 识别过程中可能遇到的所有操作。 2 ) 工具条:以快捷按钮的方式显示主菜单中的常用操作。 3 ) 文件加载树:显示所加载的文件、目录。 4 ) 文本区:显示识别出的文字,以及对错误的校对。 5 ) 图像区:显示待识别的图像,可以在识别前对图像进行手工处理。 6 ) 相似字工具条:显示当前光标指示文字所对应的相似字,方便识别后的校对 处理。 7 ) 状态栏:显示图像区识别块的选择情况。 l ,q j l _ j k 火学硕十论文 3 3 系统实现 系统的:l 作流稃如图3 3 所示,文件苗先由文件管理器加载送人图像处理 模块,经二值化版面分析,倾斜校正,行字切分等图像预处理操作后得到 待识文字的点阵,汉字识别模块从点阵中提取识别特征,通过分类,精确匹配 得出识别结果,然后送人编辑模块进行识别后的人工校对。 垂p 图 像 处 理 漠 块 待识别文字点阵 | | h 蒌 别ll 埴 羹ii 姜 垩h 茎h 錾h 蒌l 旧 特 征 匹 配 本节我们按照系统的工作流程,对汉字识别过程的关键步骤进行介绍。 3 3 1 二值化 在汉字识别前,我们首先要区分文本图像中的汉字与背景,我们用眼睛很 容易做到这点,然而对于计算机来说就变得非常复杂。一种常用的方法是根据 文字与背景所具有的不同灰度值来区分。如选取某一临界值( 称为阈值) 与图 像进行逐点比较,如果图像中点的灰度值大于此阈值,则将此点置为1 ( 认为 该点是文字中的点) ,否则置为o ( 该点是背景图像中的点) o 如果阈值的选取 过大会引起文字的粘连,反之,阈值过小,文字会出现断裂现象。直方图法“1 2 1 是人们研究最多的一种方法,它直接从原图像的灰度分布直方图上确定阈值。 包括p 一分位数法、最频值法、最大类i 硼方差法( o s t u 法) 和最大熵分析法。 3 3 1 1 文本图像二值化的基本方法 1 ) p - 分位数法: 特征提取 第三章系统的研究寅现 足最早的种阀值方法。,这种方法假设图像包含黑的臼标和亮的背景,日 标所占区域的百分数已知。、该方法设定的闽值使至少( 1 0 0 一p ) 的像素在_ 值图 像中匹配为目标。例如,已知一页文件上印刷文字约占整页纸的2 5 ,那么所 选闽值应使灰度级小于闽值的像素数目约占总数的2 5 。显然,这种方法对于 事先未知目标点数占像素总数百分比的图像是不适宜的。 2 ) 最频值法( m o d e 法) : 也是一种很常用的简单方法。在较理想状态下,图像中的目标和背景非常 清楚,灰度直方图呈现明显的双峰状。这时可以选取两峰之问的谷底( 最小值) 对应的灰度值为阈值。但是,实际图像的情况往往比较复杂,而且可能有很多 噪音干扰直方图参差不齐,很难确定极大值和极小值。另外,这种方法也不 适用于直方图中,双峰值差别很大,或双峰间的谷宽广而乎坦的情况,以及单 峰直方图的情况。因此这种方法常常与其他方法结合使用。 3 ) 最大类间方差法( o s t u 法) : 是由o s t u 于1 9 7 8 年提出的,它是一种基于判别式分析的方法。把图像中 的像素按灰度级用阚值t 划分成两类c o 和c l 即= c o o i i 1 t c l = ( t + l ,t + 2 , 1 - 1 。若用晶,以,和露分别表示类内,类间和总体方差,则通过使下列关于t 的等价的判决准则函数达到最大,来确定最佳阈值t t 扣器2 ,叩2 詈,壮嚣- 三个准则函数中,刁最为简便,又因矿;已知,与f 值无关,因此最优阔值 r = a ,g 州m 。a x 卜,c r :其中盯;= 曼搿 t ,= 印。,= 咖,珊o ) = p i o s t u 方法计算简单,稳定有效,是实际图像处理中经常采用的方法。 4 ) 最大熵法: 信息论之父s h a n n o n 在其经典著论通信中的数学原理中提出,一个系 统的信息量,即熵,是对于系统的不确定性的度量。近年来,有很多人将信息 理论应用于图像处理和模式识别领域。p u n ”使用s h a n n o n 关于熵的概念,在 瓯北r 业大学l :论文 第二章系统的研究寅现 假设图像仅完伞由其灰度分布直方图表示的基石:| j 上,定义了图像的熵,并用这 一量度来实现目标背景的分离。,k a p u t 等人”4 也使用熵来进行图像分割,不同 的是,他们使用的小是整个直方图的单一概率分布,而是使用目标与背景两个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论