




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 笔划代表着汉字的内部特征,笔划穿越次数是对笔划进行全穿越,反应了汉字的整 体特征,全穿越在粗分时区分汉字的能力不是太强,增加了二级识别的工作量。本文除 了提取笔划全穿越外还提取笔划半穿越,并把半穿越的次数进行重新组合形成新的特征 值。把全穿越和半穿越结合起来作为汉字的特征值,对汉字进行粗分,粗分不能区分的 汉字,采用四个角的能量值密度特征对汉字进行细分。实验结果表明了该方法的有效性。 与单独使用全穿透方法相比,本文提出的方法在粗分时区分汉字的能力增强,减少了二 级识别的工作量。本文还对印刷体数字进行了研究,从数字的结构形状着手,通过分 析印刷体数字的形状,提出了一种基于结构形状的印刷体数字识别方法。该方法不用对 字符图像进行复杂的细化处理,减少了因细化带来的误差问题,因而识别速度非常快, 实验证明了该方法的有效性。 关键词:笔划,穿越次数,能量值,汉字识别 a b s t r a c t s t o k e sr e p r e s e n ti n t e r n a lc h a r a c t e ro fc h i n e s ec h a r a c t e r , t h ep r e v i o u sm e t h o do f t r a v e r s i n gt i m e so fs t r o k e si sf u l l - b r e a k t h r o u g ht os t r o k e ,b u tt h i sm e t h o di sn o te f f e c t i v ef o r s o m e ,c h i n e s ec h a r a c t e r s t h i sp a p e ri n t r o d u c e sh a l f - b r e a k t h r o u g ho fs t r o k e s ,a n dm a k e s t r a v e r s i n gt i m e sc o m b i n en e w l yt h e no b t a i n san e wf e a t u r e i ti su s e dt ob et h ef n s t r e c o g n i t i o nw i t ht h ec o m b i n a t i o no ff u l l b r e a k t h r o u g ha n dh a l f - b r e a k t h r o u g h i fi tc a nn o tb e r e c o g n i z e dt h e nm a k e t h es e c o n dr e c o g n i t i o nw i t he n e r g y d e n s i t y t h i sm e t h o dd o e sn o tn e e d t oc o m p l e xt h i nt ot h ec h a r a c t e rp i c t u r e ,r e d u c i n gt h ee r r o n e o u sq u e s t i o nw h i c hi sb r o u g h tb y t h i n n i n g 。t h er e s u l ts h o w st h i sm e t h o di se f f e c t i v e t h ee f f e c to ft h en e wm e t h o dh a so b v i o u s p r o g r e s sc o m p a r e dw i t ht h ef u l l b r e a k t h r o u g ho n l yi nf i r s tr e c o g n i t i o n ,d e c r e a s i n gw o r k l o a d o ft h es e c o n dr e c o g n i t i o n am e t h o do fp r i n t i n gd i g i t a lh a sb e e np r o p o s e dt h a tb a s e do nt h e s t r u c t u r es h a p e ,t h r o u g ha n a l y z i n gt h es t r u c t u r es h a p eo ft h ep r i n t i n gd i g i t a l t h i sm e t h o d d o e sn o tn e e dt oc o m p l e xt h i nt ot h ec h a r a c t e rp i c t u r e ,r e d u c i n gt h ee r r o n e o u s q u e s t i o nw h i c h i sb r o u g h tb yt h i n n i n g ,s ot h er e c o g n i t i o ns p e e di sq u i c k l y t h er e s u l ts h o w st h i sm e t h o di s e f f e c t i v e n ig u i b o ( a r t i f i c i a li n t e l l i g e n c e ) d i r e c t e db yp r o f z h a n gg u o l i k e y w o r d s :s t r o k e ,t r a v e r s i n gt i m e s ,e n e r g y ,c h i n e s ec h a r a c t e rr e c o g n i t i o n 华北电力大学硕士学位论文摘要 摘要 笔划代表着汉字的内部特征,笔划穿越次数是对笔划进行全穿越,反应了汉字的整 体特征,全穿越在粗分时区分汉字的能力不是太强,增加了二级识别的工作量。本文除 了提取笔划全穿越外还提取笔划半穿越,并把半穿越的次数进行重新组合形成新的特征 值。把全穿越和半穿越结合起来作为汉字的特征值,对汉字进行粗分,粗分不能区分的 汉字,采用四个角的能量值密度特征对汉字进行细分。实验结果表明了该方法的有效性。 与单独使用全穿透方法相比,本文提出的方法在粗分时区分汉字的能力增强,减少了二 级识别的工作量。本文还对印刷体数字进行了研究,从数字的结构形状着手,通过分 析印刷体数字的形状,提出了一种基于结构形状的印刷体数字识别方法。该方法不用对 字符图像进行复杂的细化处理,减少了因细化带来的误差问题,因而识别速度非常快, 实验证明了该方法的有效性。 关键词:笔划,穿越次数,能量值,汉字识别 a b s t r a c t s t o k e sr e p r e s e n ti n t e r n a lc h a r a c t e ro fc h i n e s ec h a r a c t e r , t h ep r e v i o u sm e t h o do f t r a v e r s i n gt i m e so fs t r o k e si sf u l l - b r e a k t h r o u g ht os t r o k e ,b u tt h i sm e t h o di sn o te f f e c t i v ef o r s o m e ,c h i n e s ec h a r a c t e r s t h i sp a p e ri n t r o d u c e sh a l f - b r e a k t h r o u g ho fs t r o k e s ,a n dm a k e s t r a v e r s i n gt i m e sc o m b i n en e w l yt h e no b t a i n san e wf e a t u r e i ti su s e dt ob et h ef n s t r e c o g n i t i o nw i t ht h ec o m b i n a t i o no ff u l l b r e a k t h r o u g ha n dh a l f - b r e a k t h r o u g h i fi tc a nn o tb e r e c o g n i z e dt h e nm a k e t h es e c o n dr e c o g n i t i o nw i t he n e r g y d e n s i t y t h i sm e t h o dd o e sn o tn e e d t oc o m p l e xt h i nt ot h ec h a r a c t e rp i c t u r e ,r e d u c i n gt h ee r r o n e o u sq u e s t i o nw h i c hi sb r o u g h tb y t h i n n i n g 。t h er e s u l ts h o w st h i sm e t h o di se f f e c t i v e t h ee f f e c to ft h en e wm e t h o dh a so b v i o u s p r o g r e s sc o m p a r e dw i t ht h ef u l l b r e a k t h r o u g ho n l yi nf i r s tr e c o g n i t i o n ,d e c r e a s i n gw o r k l o a d o ft h es e c o n dr e c o g n i t i o n am e t h o do fp r i n t i n gd i g i t a lh a sb e e np r o p o s e dt h a tb a s e do nt h e s t r u c t u r es h a p e ,t h r o u g ha n a l y z i n gt h es t r u c t u r es h a p eo ft h ep r i n t i n gd i g i t a l t h i sm e t h o d d o e sn o tn e e dt oc o m p l e xt h i nt ot h ec h a r a c t e rp i c t u r e ,r e d u c i n gt h ee r r o n e o u s q u e s t i o nw h i c h i sb r o u g h tb yt h i n n i n g ,s ot h er e c o g n i t i o ns p e e di sq u i c k l y t h er e s u l ts h o w st h i sm e t h o di s e f f e c t i v e n ig u i b o ( a r t i f i c i a li n t e l l i g e n c e ) d i r e c t e db yp r o f z h a n gg u o l i k e y w o r d s :s t r o k e ,t r a v e r s i n gt i m e s ,e n e r g y ,c h i n e s ec h a r a c t e rr e c o g n i t i o n 声明尸叫 本人郑重声明:此处所提交的硕士学位论文印刷体文字识别的研究是本人 在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成 果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 垒控j 客 日期: 3 丛:l :ip 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:塑必 e t 期:丛金:li2 华北电力大学硕士学位论文 1 1 课题的研究背景和意义 第一章绪论 汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上使用 人数最多的文字,它记录了璀璨的民族文化,展示了东方民族独特的思维和认知方 法。随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地以计 算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。在日常生活和 工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求 就变得非常迫切。现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体的 形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形 见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效 率。因此,要求有一种能将文字信息高速、自动输入计算机的方法。目前,文字输 入方法主要是采用键盘输入的方法,这种方法虽然简单便捷但其输入速度不高,对 于大量已有的文档资料,采用这些方法要花费大量的人力和时间。而且,采用键盘 输入的方法,需要熟记汉字编码,包括音码、形码及其混合类型,对于一般的老百 姓来说,有一定的困难。因此,能够实现文字信息高速、自动输入的只能是计算机 自动识别技术,即光学字符识别技术( o p t i c a lc h a r a c t e rr e c o g n i t i o n 简称o c r ) 。 光学字符识别技术是计算机自动、高速地辨别纸上的文字,并将其转化为可编 辑的文字的一项实用技术。他是新一代计算机智能接口的一个重要组成部分,也是 模式识别领域的一个重要分支。文字识别技术的研究涉及图像处理、人工智能、形 式语言、自动机、统计决策理论、模糊数学、信息论、计算机科学、语言文学等学 科,它是介于基础研究和应用研究之间的一门综合性学科。一方面各学科的发展给 它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而 有着重要的理论意义。现在,随着计算机的普及和i n t e r n e t 的发展,人类已进人信 息时代。人们记录和获取信息的途径已发生了深远的变革,过去人们用纸来记录信 息,今天人们用计算机来记录信息,对它们进行编辑和整理,保存在磁盘、磁带或 其它介质上,以各种方式满足人们的不同需求。在这个信息爆炸的年代,用人工方 式输人文字已不能满足要求。如果计算机可以自动识别文字【l 。2 】,就可以用计算机代 替人们的简单、重复的劳动,将语言及文字高速自动地输人计算机。因此研究计算 机识别文字的目的就是解决文字信息高速、自动输人计算机的问题,使计算机能方 便地进行信息加工处理。文字识别在信息处理领域、办公自动化、新闻出版、机器 翻译等许多方面都有着重要的作用。 ( 1 ) 在信息处理领域中,使用文字识别技术可以提高计算机的使用效率,克服 华北电力大学硕士学位论文 人与机器的矛盾。 随着计算机的发展,计算机进行信息处理地速度越来越高。与此相适应的输出 装置的速度也大幅提高,例如激光打印机每秒种可以输出1 0 0 0 个印刷符号。然而, 作为计算机的输人手段却没有多大的改观,仍然停留在用手指敲击键盘,使计算机 在大部分时间里处于闲置状态。计算机的性能越好,人与机器的矛盾就越突出。因 此,输入的低速度已成为计算机系统提高使用效率的瓶颈,解决这一问题的出路就 在于计算机自动识别文字。 ( 2 ) 文字自动识别是智能计算机智能接口的重要组成部分。 所谓智能计算机就是用计算机代替人类的部分脑力劳动。视觉是智能计算机接 受外界信息的重要手段,它使计算机能阅读文字,看懂图形,理解文章。因而随着 资料文献、报表的增加,对文字需求越来越大。 ( 3 ) 文字自动识别是办公自动化、新闻出版、机器翻译中最理想的输入方法。 ( 4 ) 文字识别将庞大的黑白点阵图像压缩成机器内部编码,压缩量在1 0 0 倍以上, 对提高通讯容量及传播速度是大有好处的。 汉字是世界上存在的最古老的文字之一,它记录了中国五千多年的文明史。对 汉字的识别不仅关系到中文信息高速,自动输人计算机的问题,而且关系到我国能 否在这个信息化时代实现赶超发达国家的重任。 东西方文化不同,汉字与英文的差异就更加巨大。对英文的识别方法并不适合 汉字的识别,因此我们有必要对汉字识别方法进行深入研究。 1 2 国内外研究现状 让我们先回顾一下汉字图像识别研究的发展历程【3 。6 】,最早的字符识别的研究历 史可以追溯到2 0 年代,早在1 9 2 9 年,t a u s h e k 就在德国获得了一项有关o c r 的专 利。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等 文字材料输入计算机进行处理,从5 0 年代就开始了西文o c r 技术的研究,以便代 替人工键盘输人。 据文献【7 】记载,印刷体汉字的识别最早可以追溯到6 0 年代。1 9 6 6 年,i b m 公 司的c a s e y 和n a g y 8 】发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们 利用简单的模板匹配法识别了1 , 0 0 0 个印刷体汉字。7 0 年代以来,日本学者做了许 多工作,其中有代表性的系统有1 9 7 7 年东芝综合研究所研制的可以识别2 0 0 0 个汉 字的单体印刷汉字识别系统;8 0 年代初期,日本武藏野电气研究所研制的可以识别 2 3 0 0 个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外, 日本的太平洋、松下、理光和富士等公司也有其研制的汉字识别系统。这些系统在 方法上,大都采用基于k l 数字变换的匹配方案,使用了大量专用硬件,其设备有 的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。 2 华北电力大学硕士学位论文 我国对汉字识别的研究始于7 0 年代末、8 0 年代初,大致可以分为三大阶段: 第一阶段从7 0 年代末期到8 0 年代末期,主要是算法和方案探索。研究人员提 出了用于汉字识别的各种方法和特征,如特征点法、汉字周边特征、汉字的结构元 特征等,并在此基础上研究成功一批汉字识别系统。这一阶段是印刷体汉字识别成 果倍出的时期。但是,这些成果还仅仅停留在实验室阶段,没有转化为产品来实际 解决印刷体汉字的自动输入问题。 第二阶段是9 0 年代初期,中文o c r 由实验室走向市场,初步实用,在实际的 汉字识别输入应用条件下,检验和考查这些研究成果。这一阶段形成了一些初步实 用的印刷汉字识别系统开始进入市场。 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英 双语混排识别率的提高和稳健性的增强。 其中,从1 9 8 6 年初到1 9 8 8 年是印刷体汉字识别和联机手写体汉字识别研究的 丰收期。印刷体汉字识别是汉字识别研究的主要内容。自1 9 8 6 年以来,各种识别 软件和系统纷纷涌现,某些识别装置可以初步使用,它们的主机全部采用微机。主 要的性能指标为:1 识别字数;2 识别率:对中等质量印刷问题达到9 5 9 9 ;3 识别速度;4 识别字体、字号等等。这些系统都配备了方便的用户界而,从版面分 析、文本识别到识别结果的处理,形成了一个完整的识别输入系统。手写体印刷汉 字识别的研究,也在进行中,自1 9 8 9 年以来,己有若干个软件与系统成功研制并 参与鉴定。 同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府从8 0 年代 开始对汉字自动识别输人的研究给予了充分的重视和支持,经过科研人员十多年的 辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步,从简单的单体识别发 展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料 的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本 的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了 9 8 以上。 当前,印刷体汉字识别研究的主要目的是提高识别系统的品质和效率,增强系 统对不同文本的适应性,扩大使用面。在加强版面分析、识别结果上下文匹配后处 理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的 产品出现。 1 3 本文的结构 本文的内容共分为以下五章来讨论: 第一章是本文的绪论部分,主要介绍了汉字识别研究的背景和意义、研究历程 以及国内外的研究现状。 3 华北电力大学硕士学位论文 第二章主要介绍一下汉字识别的分类、汉字识别存在的困难、汉字的预处理以 及汉字识别的一些主要方法。 第三章详细的介绍汉字识别方法的实现过程,对识别过程的主要步骤进行了详 细介绍。 第四章主要介绍了印刷体数字识别的方法。 第五章总结了本文的工作,对文字识别进行了分析和展望。 4 华北电力大学硕士学位论文 2 1 汉字识别的分类 第二章汉字识别方法的研究 由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题。目前文字 识别技术按照字体的不同可以分为眇1 ( 1 ) 单体印刷体汉字识别( p r i n t e dc h a r a c t e rr e c o g n i t i o n ) :仅识别某种单一印刷体 字体或者某种打印机、照排机输出的文字。 ( 2 ) 多体印刷体汉字识别( m u l t i f o n tp r i n t e dc h a r a c t e rr e c o g n i t i o n ) :能识别出印刷 出的多种字体文字,如黑体,宋体,楷体等等。 ( 3 ) 手写印刷体汉字识别( h a n dp r i n t e dc h a r a c t e rr e c o g n i t i o n ) :用于识别人写在 纸上的规整汉字,不能连笔,书写比较受限。 ( 4 ) 特定人手写体汉字识别( p e r s o n a lh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) :是手写 体识别的一个特例,笔迹鉴别也属于这一类。 ( 5 ) 非特定人手写体汉字识别( u n c o n s t r a i n e d h a n d w r i t t e nc h a r a c t e r r e c o g n i t i o n ) :对于任何人自由书写的文字都能正确识别,这是手写体识别的最终目 的。 手写体汉字识别根据实时性又可以分为联机手写体识别( o n 1 i n eh a n d w r i t t e n c h a r a c t e rr e c o g n i t i o n ) 和脱机手写体识别( o f f - l i n eh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) 。 ( 1 ) 联机手写体识别( o n 1 i n eh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) :又叫做实时在线 手写体识别。使用光笔在图形输入板上写字,人在书写的同时,机器根据书写的笔 画、笔顺提取特征进行识别,是一种方便的文字输人手段,也是文字识别最简单的 一种。 ( 2 ) 脱机手写体识别( o f f - l i n eh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n ) :又称作离线手写 体识别。由书写者预先将文字写在纸上,通过扫描仪转换成图像,再由计算机识别 成汉字,由于手写文字的风格因人而异,即使是同一个人写的文字也会有些变化, 且无法获得实时信息,成为文字识别领域最难的分支。图2 1 表示汉字识别的划分 方法。 华北电力大学硕士学位论文 图2 1文字识别的分类 2 2 印刷体汉字识别中存在的困难 由于汉字在以下几个方面的特点,使汉字在识别难度【1 0 d 1 】上远远大于英文符号 的识别。 ( 1 ) 类别较大 目前我国常用汉字约3 0 0 0 4 0 0 0 个。国标g b 2 3 1 2 8 0 常用汉字字符集中共有 6 7 6 3 个常用字,分为两级。第一级3 7 5 5 个汉字,使用频度为9 9 7 ,第二级有3 0 0 8 个汉字。两级汉字总使用频度为9 9 9 9 ,识别系统一般应能正确识别这些常用字, 才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3 7 5 5 个汉 字,即使是这样,汉字识别也属于大类别( 或者叫超大类别) 数的模式识别问题。 也就是说,汉字识别是种超大类别模式识别问题,而类别数越大,分类识别就越困 难。可以说,字量大是造成汉字识别困难的主要原因之一。 ( 2 ) 结构复杂 汉字是一种结构性很强的文字。在形体上汉字是一个个独立的方块字,每个汉 字都具有特定分布的若干笔划构成,不同人书写的同一个汉字具有基本相同的拓扑 结构。笔划是汉字最基本的组成部分,汉字的笔划最少的只有一划,如“一 ,最 多的可以达三十六划,如:“熊 ,笔划数目的这种变化本身就说明了汉字结构的 复杂程度。汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般 称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了表达不同含义的结 构异常复杂的汉字字符。非字母化,不同于拼字母文字,与世界上常用的其它民族 的文字相比,汉字的结构是最为复杂的。 ( 3 ) 相似字多 部分汉字字符之间只存在着很细小的差别,如:“侯和“候 之间只是相差一 6 华北电力大学硕士学位论文 个小竖的笔划,“大 和“太乃之间只相差一个点。具有相同笔划数目的汉字字符 之间的差异有的表现为某一个笔划位置或形态的微小变化,如:“大一字在不同的 位置上加一个点就可以变成两个意思截然不同的汉字字符“太刀和“犬刀。“大力 的上部加上一小横笔,就变成了“天 ,而这一小横笔倾,斜一个角度就变成了“夭 。 又比如“干 和“于 仅在字符的下部有一细微的差别。有的字只是笔划长短的不 同就是不同的两个字如“土 和“士 ,两个字只是下部的一横笔划长短不同而已。 即使由人来辨认手写的这些汉字,在无上下文信息的帮助时,也很容易出错。识别 算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。 汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别, 因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识别率上都 能满足实际需求就成为整个系统的关键。 2 3 汉字识别的输入设备 汉字识别研究一旦提出或选择了方法,接着碰到的问题就是选择汉字扫描输入 设备,建立汉字识别计算机模拟实验系统。文字识别必须考虑到伴随文字图形输入 的实际干扰,如纸张厚薄、洁白度、光洁度、油墨质量、印刷质量等都会造成印刷 体汉字畸变、笔划交连、断笔、污点等干扰,输入设备本身的鉴别率、线性度、光 学畸变等也要造成文字变形。识别这种带有真实干扰的文字,才能使识别方案有实 际使用价值。汉字识别通过计算机模拟试验,可以建立实用的o c r 。o c r 由输入设 备、汉字识别器和计算机硬、软件三部分组成。核心部分是汉字识别器 ( r e c o g n i z e r ) 。由此可见,无论是建立计算机模拟试验系统,还是构成实用的o c r 装置,都离不开汉字输入设备。 汉字输入设备是一种图像输入设备,早期采用飞点扫描管,目前常用的有: ( 1 ) 电子摄像机( d i g i t a lc a m e r a ) 电子摄像机输入结构小巧,使用灵活,价格较低,输入速度也较快。通过改变 镜头的焦距,对图像大小有很宽的适应范围。不足之处是分辨率在输入文字较多时 不高,不能用于页式输入。所以,只是在一些特殊场合( 例如识别名片等) 才使用。 ( 2 ) 传真机( f a xf a c s i m il e ) 通信技术领域中广泛使用的传真机,也可以作为图像处理的输入输出设备。用 传真机作为图像输入,使得数字化图像可以通过传真网传输,。这是其他输入设备所 不能相比的。和图文扫描器相比,传真机分辨率低一些,原稿要传动是缺点,但价 格便宜,而且一机三用,用作扫描器的同时,可以兼作传真机和热敏印字机是显著 的优点。 ( 3 ) 图文扫描器( s c a n n e r ) 图文扫描器是当前最常用的汉字识别输入设备,它的核心是c c d 电荷耦合器件。 7 华北电力大学硕士学位论文 它的特点是平面台式,原稿固定,平面扫描。 2 4 印刷体文字识别流程简介 印刷体文字识别的过程如图2 2 所示。原始图像是通过光电扫描仪,c c d 器件 或电子传真机等获得的二维图像信号,可以是灰度( g - r a y s e a l e ) 或二值( b i n a r y ) 图像。 图2 2 识别流程图 版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序,图 像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分 析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切 割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一 环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化 ( t h i n n i n g ) 、规范化( n o r m a l i z a t i o n ) 等。提取特征的稳定性及有效性,直接决定 了识别的性能。文字识别,即从学习得到的特征库中找到与待识别字符相似度最高 8 华北电力大学硕士学位论文 的字符类的过程。后处理则是利用词义、 对识别结果进行校正的过程。由此可见, ( 1 ) 扫描输入文本图像。 词频、语法规则或语料库等语言先验知识 印刷汉字识别技术主要包括: ( 2 ) 图像的预处理,包括倾斜校正和滤除干扰噪声等。 ( 3 ) 图像版面的分析和理解。 ( 4 ) 图像的行切分和字切分。 ( 5 ) 基于单字图像的特征选择和提取。 ( 6 ) 基于单字图像特征的模式分类。 ( 7 ) 将被分类的模式赋予识别结果。 ( 8 ) 识别结果的编辑修改后处理。 其中( 4 ) 、( 5 ) 和( 6 ) ,也就是图中椭圆中的部分是印刷汉字识别中最为核心的技 术。近几年来,印刷汉字识别系统的单字识别正确率已经超过9 5 ,为了进一步提 高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术,也 都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总 体性能。 2 5 汉字识别的预处理技术 汉字识别时,经过扫描和模数转换得到的灰度值数字信号由于各种干扰可能产 生成因不同的噪声。所以,在单个汉字识别之前,要对这附带有随机干扰、噪声的 汉字灰度值数字信号进行预处理( p r e p r o c e s s i n g ) 。 一般的预处理包括二值化,行、字切分,平滑、去噪声,规范化和细化( 或抽 取轮廓) 等。 2 5 1 二值化 在汉字识别前,我们首先要区分文本图像中的汉字与背景,我们用眼睛很容易 做到这点,然而对于计算机来说就变得非常复杂。一种常用的方法是根据文字与背 景所具有的不同灰度值来区分。如选取某一临界值( 称为t 值) 与图像进行逐点比较, 如果图像中点的灰度值大于此阈值,则将此点置为1 ( 认为该点是文字中的点) ,否 则置为0 ( 该点是背景图像中的点) 。如果阈值的选取过大会引起文字的粘连,反之, 阈值过小,文字会出现断裂现象。直方图法【汜1 3 1 是人们研究最多的一种方法,它直 接从原图像的灰度分布直方图上确定阈值。 把汉字灰度图像处理成二值( 0 ,1 ) 图像的过程,称为对汉字图像的二值化 ( b i n a r i z a t i o n ) 。对灰度图像二值化能显著的减小数据存储的容量,降低后续处理 的复杂度。 设扫描、a d 转换后的汉字图像点阵为o 9 华北电力大学硕士学位论文 c = f ( i ,歹) i = 1 ,2 ,3 ,pj = l ,2 ,3 ,g ( 2 一1 ) 式( 2 1 ) 中f ( i ,j ) 是象素,力的灰度值。有黑笔画的部分,f ( i ,) 小;而白 背景部分,f ( i ,j ) n j v 。最简单的二值化通过设定固定灰度阈值t 完成,即当f ( i ,) 值比预定阈值t 大。看成背景,以“0 ”标志:否则看成文字笔画。以“1 标志。 假设: 1 1 胞力町 删气n “个净1 ,聃;p 艿弱一g( 2 训 i o 媳力t 怕纠 a = g ( i ,) 即为字符二值化后的图像点阵。 对汉字字符图像二值化,要求二值化后的图像能忠实地再现原汉字。基本要求 为: ( 1 ) 笔画中不出现空白点; ( 2 ) 二值化的笔画基本保持原来文字的结构特征; 二值化的关键在于阈值t 的选择。一般情况下,t 的选择不仅与象素点的位置 有关,而且还与该点的灰度值和它周围点的灰度值有关。因此,阈值t 可用一个形 式为三元函数的阈值算子来表示。 t - - - f ( i ,) ,n ( i ,) ,( f ,) 】( 2 - 3 ) 式( 2 3 ) 中( f ,) 是文字图像中像素点的坐标,f ( i ,) 是点o ,) 的灰度值, n ( i ,) 表示点( f ,) 周围局部灰度特性。 一般的二值化方法有:整体阈值二值化、局部阈值二值化、动态阈值二值化等。 ( 1 ) 整体阈值二值化 仅由象素点( f ,) 的灰度值f ( i ,) 确定阈值的方法称为整体阈值选择法。阈值t 表示为t = f ( i ,) 】。 人工设定整体阈值 根据实验或人的先验经验,预先给定一个固定阈值t 。当f ( i ,歹) r ( i ,) 为文 字笔画上的点,否则为背景上的点。这是一种最简单的速度最快的二值化方法。当 文字清晰,轮廓明显,干扰很小时,它是一种行之有效的二值化方法。人工设定整 体阈值的缺点是: a 不能根据每个文字确定它最佳的阈值。 b 确定阈值t 后,光源等外界条件改变时,不能使阈值随之改变。 由灰度级直方图确定整体阈值 这是一种根据图像和背景的灰度值自动确定整体阈值法。灰度级直方图给出了 一幅图像灰度值的概貌描述。设规范化灰度值g 的范围为。0 2 ( 2 _ 7 ) j = n 1 同理,当满足式( 2 8 ) 时,m ,被认为该字的右部。 y = 厂( ,m 2 ) 2a n dy = 厂( ,m 2 + 1 ) = o ( 2 8 ) 华北电力大学硕士学位论文 2 5 5 平滑去噪 一幅图像可能存在着各种噪声,消除图像中的这些噪声成分叫做图像的平滑 化。平滑处理【2 n 4 1 ,就是将一个n x n 的象素窗口,依次在二值化字符图像的每个象 素点上移动,利用逻辑表达式来消除孤立象素的一种技术。汉字字符图像经过平滑 处理,能去掉孤立的噪声、干扰,平滑笔画边缘。 平滑化处理是图像增强中的一种技术,其目的有两个:一是按特定的需要突出 一幅图像中的有用信息;另一是为适应计算机处理的需要,消除汉字在输入数字化 时所混入的噪声。 对图像平滑化处理的要求有两条:一是不能损坏图像的边缘轮廓及线条等重要 信息;二是使图像清晰,视觉效果好。图像平滑化处理方法有空间域法和频率域法。 ( 1 ) 中值滤波去噪 中值滤波是数字图像处理中经常用到的一种有效的去噪运算方式。 中值滤波的原理是选择一定尺寸大小的窗口,然后把此窗口在图像上移动,用 窗口内各象素灰度值的中间值代替该窗口中心的象素灰度值。例如,考察图2 4 ( a ) 的3 3 窗口,p 代表要处理的像素,假设此时该像素的像素值为1 5 0 ,考察其周围 的8 个像素值,如分别为6 7 ,9 7 ,1 6 0 ,2 7 0 ,3 0 0 ,2 5 0 ,1 2 0 ,1 8 0 。则最终p 的像 素值应取这9 个数排序后的中间值( 即1 6 0 ) 。对于图2 4 ( b ) 中的窗口也可按类似的 方法处理。 111 1p1 l11 p1l 1ll l1l 图2 43 3 窗口 ( 2 ) 邻域平均法去噪处理( 均值滤波) 邻域平均法的基本原理为:假如给定一幅m n 的图像f ( x ,y ) ,用邻域平均法 得到的平滑图像为g ( x ,y ) ,g ( x ,y ) 可用下式( 2 - 9 ) 表示: g ( 训) = 万1 ( 蒹肋,刀) ( 2 - 9 ) 式中( x ,少) = o ,1 ,n 一1s 表示( x ,y ) 点邻域中点坐标的集合,m 表示集合s 内坐标点的总数,在此邻域的取法为:以( x ,少) 为中心,以单位距离的2 为半径构 华北电力大学硕士学位论文 成点( 五y ) 的邻域,选择在圆的边界上的点和在圆内的点为s 的集合,此时 g ( b y ) = 当彳( 掰,刀) ,f = l ,2 ,3 ,9 也即采用以下平滑模板来实现: ll1 1pl l1l 图2 53x3 模板 显然,平均模板法的作用是通过一点和周围邻域运算( 通常为平均运算) 来去除 突然变化的点,从而达到消除一定噪声的目的。不过,这种平均化的运算也不可避 免让图像损失了一定的有用信息,即噪声虽然被消除,可图像灰度急剧变化的边缘 ( 轮廓) 和线却模糊不清了。为了克服这一缺点,我们采用了阈值法来减少由于邻域 平均所产生的模糊效应。其基本方法见下式: g ( 训) :j 丽2 ;1 伽 若沪丽l ” ( 2 - 1 0 ) i f ( x ,y ) 其他情况 式中t 为预定的非负阈值,它是噪声成分标准差的常数倍,实际值由实验决定。 该方法的思想是:当一些点和它邻域内点的灰度平均值的差不大于规定的阈值时, 就仍然保留其灰度值不变,如果大于阈值t 时就用它们的平均值来代替该点的灰度 值,从而可减少因完全平均化而使图像边缘模糊的现象。 ( 3 ) 一种简单有效的平滑去噪方法 下面介绍一种简单有效的平滑去噪方法,印刷体汉字图像的质量在可以保证的 情况下,我们就可以使用简单有效的方法进行平滑去噪就可以了,这样就可以节省 时间。 假设有一个3 3 窗口,如图2 6 所示。 p 3p 2p l p 4 p p o p 5 p 6 p 1 图2 6p 的8 个临点 如果要用新值p ,来替换原来的值p ,那么新值p 的逻辑表达式为: 华北电力大学硕士学位论文 p = p p ? 。p 、p 2 。p 3 1 p 4 p s 4 p 6 jp 7 1 、(2-11) + p ( p o 七p l - i - p 2 + p 3 - i - 1 4 七p 5 + p 6 七p 1 1 ) 由此式可以看出,如果3 x 3 窗口的中心为“o ,而其它相邻点都为“l 那么 必有新值p 为“1 。因此,原来矽的值“o ,被新值p “l 来代替,从而消除了 笔画上的孤立白点。如果中心点p 值为“1 ,同时p 的相邻点至少有一点为“1 , 则新值矽。仍保持为“l 不变,从而减少了黑白噪声干扰。 2 5 6 细化 细化就是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔划宽度只有一个 比特( b i t ) 的文字骨架图像( 见图2 7 ( a ) 、图2 7 ( b ) ) 。所谓骨架,可以理解为图像 的中轴,例如一个长方形的骨架是它的长方向上的中轴线:正方形的骨架是它的中 心点:圆的骨架是它的圆心,直线的骨架是它自身,孤立点的骨架也是自身。之所 以引入细化预处理,是因为在二值化点阵图形中,对识别有价值的文字特征信息主 要集中在文字骨架上,细化后的文字骨架既保留了原文字绝大部分特征,又有利于 特征抽取。细化后骨架的存储量比原文字二值化点阵要少得多,降低了处理工作量。 值得注意的是,细化往往会造成新的畸变,增加了对识别的干扰和困难,细化本身 也要花费不少时间。 十 ( a ) 细化前的汉字图形( b ) 细化后的汉字图像 图2 7 汉字图像“十 的细化效果对比 细化的基本要求如下: ( 1 ) 要保持原有笔划的连续性,不能由于细化造成笔划断开。 ( 2 ) 要细化为单线,即笔划宽度只有一个比特( b i t ) 。 ( 3 ) 细化后的骨架应尽量是原来笔划的中心线。 ( 4 ) 要保持原有的拓扑、几何特征,特别是一些明显的拐角不应被光滑掉。 细化的算法很多,大体分类如下: ( 1 ) 按细化后图形的连续性分,有四邻连接算法,八邻连接算法和混合连接算 法。四邻接连指的是水平垂直四个方向上的连接,八邻连接则加上正反4 5 。共八个 方向。 ( 2 ) 按细化处理过程分,有串行、并行和串并行处理法。用m 刀( 一般为3 3 ) 窗口对某一象素进行检测时,如该点是可删点,立即删除,则为串行细化处理,它 的删除要影响到后续点的检测;如对边缘点全部检测完毕后,再同时改变所有可删 1 6 华
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 经济专业考试题库及答案
- 2025年气象知识在事业单位招聘中的重点与模拟题
- 2025年安徽省(安管人员)建筑施工企业安全员B证上机考试题库及答案
- 2025年股票投资分析与交易技巧预测试题集
- 2025年物流工程师面试题及解答指南
- 2025年农村金融服务与管理人才招聘面试题集与解析
- 桥梁基础知识课件
- 浙江诸暨市牌头中学2026届化学高一第一学期期中监测模拟试题含解析
- 2025年环境艺术设计师招聘考试模拟题及解析
- 2025年城市更新与可持续发展考试试题及答案
- 机电设备概论教案设计
- 拟写议论文分论点(最终版)
- 网络安全设备测试报告
- 康复科提高药品发放及时性PDCA
- 天然气管道置换记录表
- 新GMP自检检查表
- 泵站操作工安全操作规程
- 线性代数教案(正式打印版)
- 小学六年级数学计算题100道(含答案)
- 2018版 压力管道年度检查报告(模板)-新版
- 证据法学教案本科
评论
0/150
提交评论