




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
脱机手写体汉字识别方法的研究 摘要 汉字识别系统能将输入到计算机中的汉字图像,经过一系列处理后提取出汉字的基本 特征,并同计算机标准汉字模板库中的模板进行比较进而识别出输入的汉字。汉字识别问 题属于超多类模式集合的分类问题,分为印刷体识别及手写体识别,而手写体识别又可以 分为联机( o n l i n e ) 与脱机( o f f _ l i n e ) 两种。从识别技术的难度来说,手写体识别的难 度高于印刷体识别,而在手写体识别中,脱机手写体识别的难度又远远超过了联机手写体 识别。到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写 体识别还处在实验室阶段。脱机手写体汉字识别研究对汉字信息处理自动化、开拓新一代 计算机的智能输入具有重要意义和广阔应用前景。 本文主要研究内容及其组织结构如下: ( 1 ) 绪论部分介绍脱机手写体汉字识别的研究背景、研究目的和意义,指出了当前脱 机手写体汉字识别的难点和存在的问题。 ( 2 ) 第一章介绍脱机手写体汉字识别的原理与方法,对汉字识别中最关键的环节特 征选择阶段所采用的统计决策法和句法结构法进行了阐述,并详细介绍了一种经典的统计 决策方法一投影变换系数法。 ( 3 ) 第二章介绍脱机手写体汉字识别的预处理,汉字识别之前必须进行的行字切分、 平滑去噪、二值化、细化、归一化等过程及方法。 ( 4 ) 第三章介绍脱机手写体汉字的分类识别、在识别中常采用的判决策略以及汉字识 别的后处理技术,并重点介绍了本文作者提出的两种新识别方法,对第一种识别方法进行 了系统仿真实验。 ( 5 ) 第四章介绍脱机手写体汉字识别的研究、发展趋势,同时也提出了本文下一步将 要解决的问题。 本文在研究、借鉴脱机手写体汉字识别领域最新成果的基础上提出了两种新的识别方 法一基于脱机手写体汉字笔划方向数的识别方法和基于脱机手写体汉字动态笔划顺序恢 复的识别方法,对于脱机手写体汉字识别问题的研究具有一定的参考价值。 关键词:脱机,手写体汉字识别,结构分析法,笔划方向数,笔划顺序恢复 法则 脱机手写体汉字识别方法的研究 a b s t r a c t t h ec h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e mc a nh a n d l ew i t ht h ec h i n e s ec h a r a c t e ri m a g e s , w i t h d r a wt h ee s s e n t i a lf e a t u r e so ft h ec h i n e s ec h a r a c t e r s ,a n dd i s t i n g u i s ht h e ma f t e rc o m p a r i n g 、析mt h et e m p l a t ei ns t a n d a r dc h i n e s ec h a r a c t e rl i b r a r i e s t h ec h i n e s ec h a r a c t e rr e c o g n i t i o n p r o b l e mw h i c hb e l o n g st ot h ec l a s s i f i c a t i o np r o b l e mo fm u l t i c l a s sp a t t e r n ,c a nb ed i v i d e di n t o t h ep r i n t e dc h i n e s ec h a r a c t e rr e c o g n i t i o na n dt h eh a n d w r i t t e n ,c h i n e s ec h a r a c t e rr e c o g n i t i o n f u r t h e rm o r e ,t h eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nc a na l s ob ed i v i d e di n t ot h e o n - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o na n dt h eo f f - l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o n f o rt h ed i f f i c u l t yo fr e c o g n i t i o n ,t h eh a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o ni s h a r d e r t h a nt h ep r i n t e dc h i n e s ec h a r a c t e rr e c o g n i t i o n , a n dt h eo f f - l i n e h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o ni sf a rh a r d e rt h a nt h eo n - l i n ec h i n e s ec h a r a c t e r r e c o g n i t i o n b yn o w , a l t h o u g ht h e o f f - l i n eh a n d w r i t t e nn u m b e rr e c o g n i t i o ns y s t e mh a s a l r e a d yb e e na p p l i e d ,t h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e mi ss t i l li n t h el a b o r a t o r y t h er e s e a r c h e so nt h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o np l a ya n i m p o r t a n tr o l ei nt h ea u t o p r o c e s s i n go ft h ec h i n e s ec h a r a c t e ri n f o r m a t i o na n dt h ei n t e l l i g e n c eo f t h ec o m p u t e r n l et h e s i si so r g a n i z e da sf o l l o w s ( 1 ) t h ei n t r o d u c t i o ni n t r o d u c e st h eb a c k g r o u n do fo u rs t u d ya n dp r e s e n t st h es i g n i f i c a n c eo f t h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n , a n dw ea l s op o 缸o u tt h ec u r r e n t p r o b l e m sa n dd i f f i c u l tp o i n t so ft h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o ni nt h i s p a r t ( 2 ) t h ef i r s tc h a p t e ri n t r o d u c c st h ep r i n c i p l ea n dm e t h o do ft h eo f f - l i n eh a n d w r i t t e n c h i n e s ec h a r a c t e rm a i n l yi n c l u d e ss t a t i s t i c a l p a t t e mr e c o g n i t i o na n ds t r u c t u r a lp a t t e r n r e c o g n i t i o n f u r t h e r m o r e ,ac l a s s i c a lm e t h o do fs t a t i s t i c a lp a t t e r nr e c o g n i t i o n ,r 而e c ta n d t r a n s f o r r nt h em o d u l u si si n t r o d u c e d ( 3 ) t h es e c o n dc h a p t e ri l l u m i n a t e st h ep r e - w o r ko ft h eo f f - l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o n ,s u c ha ss m o o t h i n g ,b i n a r i z a t i o n ,t h i n n i n ga n dn o r m a l i z a t i o n ( 4 ) t h et h i r dc h a p t e rp r e s e n t st h ec l a s s i f i c a t i o n ,r e c o g n i t i o na n dt h ep r i n c i p l e so fp a t t e r n r e c o g n i t i o nf o l l o w e db yt h ep o s t - p r o c e s s i n gt e c h n o l o g yo ft h eo f f - l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e r s i nt h i sc h a p t e rw es p e c i f yt w on e wm e t h o d so ft h eo f f - l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o n 脱机手写体汉字识别方法的研究 ( 5 ) m f b r mc h a p t e ri n d i c a t e st h et e n d e n c yo ft h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o n , w h i c hi st h ed i r e c t i o no f t h ea u t h o r sf u t u r ew o r k b a s i n go nt h el a s ta c h i e v e m e n t so ft h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n w ep r o p o s et w ok i n d so fn e wm e t h o d s - - t b et r e n do fs t r o k e sa n dr e c o v e r i n gt h eo r d e ro ft h e o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r ss t r o k e w h i c hi sh e l p f u lt ot h eo f f - l i n eh a n d w r i t t e n c h i n e s ec h a r a c t e rr e c o g n i t i o n k e y w o r d s :o f f - l i n e ,t h eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n , s t r u c t u r ea n a l y s i s lt h e t r e n do fs t r o k e s ,t h ep r i n c i p l eo ft h es t r o k eo r d e rr e c o v e r i n g i i i 曲阜师范大学博士硕士学位论文原创性说明 枞郑重飙此处所擞溅摹矗以机手写体汉字识 “本人郑重声明:此处所提交的博士口硕圳论文脱机手写体汉字识 的研究,是本人在导师指导下,在曲阜师范大学攻读博士口硕士 期间独立进行研究工作所取得的成果。论文中除注明部分外不包含他 人已经发表或撰写的研究成果。对本文的研究工作做出重要贡献的个人和集 体,均已在文中已明确的方式注明。本声明的法律结果将完全由本人承担。 作者签名: 科锋 7 嗍砂刁莎咋歹 曲阜师范大学博士硕士学位论文使用授权书 ( 在口划“) 脱机手写体汉字识别方法的研究系本人在曲阜师范大学攻读博士口硕 l 士g 学位期间,在导师指导下完成的博士口硕士q 学位论文。本论文的研 究成果归曲阜师范大学所有,本论文的研究内容不得以其他单位的名义发表。 本人完全了解曲阜师范大学关于保存、使用学位论文的规定,同意学校保留 并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人 授权曲阜师范大学,可以采用影印或其他复制手段保存论文,可以公开发表 论文的全部或部分内容。 作者签名:务中考爹 日期:枷星叱箩 导师签名:匙善勃日期:2 们z 季7 脱机手写体汉字识别方法的研究 1 1 问题的提出 第一章绪论 当今社会正在以前所未有的超高速发展着,每天新产生的有用信息量都很巨大,这些 都是人类社会发展、进步中总结得到的宝贵财富,理应保存下来以供后人借鉴、阅读。但 是伴随着传统的信息存储介质纸质存储介质数量消耗的增加,其潜在的问题也越来越 突出,那就是纸质存储介质存储信息量小、占据空间大、不易长期保存,如何以更小的代 价、更好的效率存储人类社会发展中所获得的宝贵信息财富也就显得尤为重要了。 上世纪4 0 、5 0 年代,计算机的发明使得人类社会步入了一个新的发展时期,各个行 业中都能找到计算机的应用,因其存储信息方便、不易损坏等特点,慢慢发展成为一种新 的信息存储介质。随着计算机存储信息量、处理信息能力不断的增强,使得人类萌生了把 信息通过各种手段输入到计算机中保存下来,再于特定的应用场合输出,伴随而来的问题 是信息输入的低速和信息输出的高速之间的矛盾l l 】。围绕着如何解决上述矛盾的问题,产 生了汉字识别技术。 汉字识别的研究工作,一直被看作是十分困难的模式识别问题,并被视为字符识别的 最终目的 2 1 。汉字识别问题属于超多类模式集合的分类问题,又可以分为印刷体识别及手 写体识别技术,而手写体识别又可以分为联机( o n - - l i n e ) 与脱机( o f f m l i n e ) 两种。从识别 技术的难度来说,因印刷体汉字字体规整、变形小等特点,识别起来要比手写体汉字相对 容易些,而在手写体汉字识别中,脱机手写体汉字不像联机手写体汉字那样有笔触、笔压、 笔划走向等动态信息可以利用,故其识别的难度要远远超过联机手写体汉字1 3 j 。1 9 6 6 年i b m 公司的c a s e y 和n a g y 发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用 简单的模板匹配法识别了1 0 0 0 个印刷体汉字。7 0 年代以来,日本学者做了许多工作,其 中有代表性的系统有1 9 7 7 年东芝综合研究所研制的可以识别2 0 0 0 汉字的单体印刷汉字识 别系统。8 0 年代初期,日本武藏野电气研究所研制的可以识别2 3 0 0 个多体汉字的印刷体 汉字识别系统,代表了当时汉字识别的最高水平。八十年代后期,计算机硬件资源发生了 巨大的变化,为手写体汉字识别提供了相对充分的研究环境,大量有关联机手写体汉字识 别方面的论文和系统问世,使得联机手写体汉字识别理论及其方法逐步成熟,向实用化发 展。想当然,人类又向着汉字识别的最终点一脱机手写体汉字识别发起了新一轮的冲锋。 脱机手写体汉字识别方法的研究 1 2 研究的目的及意义 圉1 卜l 汉宇识别分类 汉字作为非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速高效 地将汉字输入计算机,已成为影响人机交流信息效率的一个重要瓶颈。目前,汉字输入主 要分为人工键盘输入和机器自动识别输入两种。其中人工键入速度慢且劳动强度大,这种 方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。自 动识别输入分为语音识别和汉字识别两种。汉字识别( 也称光学字符识别) ,即o c r 技术 ( o p ti c a lc h a r a c t e rr e c o g n i ti o n ) ,其基本原理就是通过输入装置( 如扫描仪、光电耦合 器件c d c 等) 将汉字点阵图形转换成电信号,然后输入给计算机进行处理,计算机依据一 定的分类算法在汉字字符集合中识别出与之相匹配的汉字。因此,研究脱机手写体汉字识 别的目的就是解决汉字信息如何高速输入计算机的问题,使计算机能更方便快速地进行信 息加工处理。在以下领域中具有广泛的应用前途州: ( 1 ) 信息处理领域中使用汉字识别技术可以大大提高计算机的使用效率。作为汉字字 符的输入仍然停留在依靠人用手指敲击键盘,使计算机在大部分时间里处于闲置状态,从 而导致计算机系统利用率不高,解决这一问题的出路就在于计算机自动识别文字。 ( 2 ) 汉字自动识别是计算机智能接口的重要组成部分。 ( 3 ) 汉字自动识别是办公自动化、新闻出版等最理想的输入方法。 ( 4 ) 很大部分电子文献是以点阵图像存储在计算机中的,经过汉字识别后以字符存 储,会大大节省存储空间,并提高网络等传输速度。 脱机手写体汉字识别不但在实际应用方面十分重要,在理论研究方面也有重大意义。 由于汉字数量多,也即模式类别多,是大类别( 或者称为超多类) 模式识别问题,因此其识 别涉及到模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信 息论、中文信息处理等多个学科,是一门综合性技术,在中文信息、办公自动化、机器翻 译、人工智能等高技术领域,都有着重要的价值和意义。 1 3 脱机手写体汉字识别的难点和存在的问题 和所有模式识别系统一样,脱机手写体汉字识别的主要性能指标是正确识别率和识别 2 脱机手写体汉字识别方法的研究 速度,从实用角度看,还应考虑系统的复杂性、可靠性和价格等等。对识别系统识别率和 识别速度的要求,很难有一种统一的、严格的标准,主要根据实际应用的需要来确定。但 是作为一种输入手段,汉字识别系统的性能至少应该可以和其它输入手段( 如人工输入) 相 比拟。目前由专业人员操作的汉字输入错误率约为1 0 1 0 0 数量级,输入速度最高达2 0 0 字,平均速度也在5 0 字以上。作为参考,这些指标应该是汉字识别系统必须达到的最低 要求( 在某些需要大量输入的场合对识别系统性能的要求还应更高) ,但是由于手写体汉 字的特殊性,要达到上述要求困难较大。手写体汉字的特殊性可归纳为如下几条f 5 】:一 ( 1 ) 字量大 目前我国常用汉字约3 0 0 0 4 0 0 0 个,国标g b 2 3 1 2 8 0 两级汉字共6 7 6 3 个汉字。也就 是说,汉字识别是超大类别模式识别问题,而类别数越大,分类识别就越困难。 ( 2 ) 字体多 汉字的手写字体分楷书、行书和草书三大类,虽然不同字体的拓扑结构基本相同,但 笔画的长短j 位置及姿态却有一定的差别,尤其是草书,可能与楷书和行书根本就不相似。 换句话说,同一汉字的不同字体的字形点阵并不相同,这给分类识别增加了难度。 ( 3 ) 结构复杂 汉字笔画多,结构复杂,笔画最多的汉字有三十六画,每个汉字平均有十一画,这对 分类器的性能提出了较高的要求。 t ? ( 4 ) 字形相似 虽然有些汉字结构简单、笔画较少,但是字形十分相似,如“人、入和“已、巳、 己 等,这就要求分类器能够区分非常精细的结构差别。 ( 5 ) 书写变化大 手写体汉字识别的最大难点在于由书写不同引起的模式结构的变形,这种变形因人而 异,而且变形可能十分严重,主要有以下三点: ( i ) 笔画不规范。五种基本笔画横、竖、撇、捺、折,在书写时出现变形,如横笔 不平,竖笔不直,直笔画变弯,折笔画变弧等等,笔画粗细不匀也是不规范的 现象之一。 ( i i ) 笔画之间、偏旁部首之间相对位置不固定。如“土一字的两横距离不定,一竖 则可能偏左或偏右,又如“仟 字的单人旁和“千 字左右距离不固定等等。 ( i i i ) 连笔书写或笔画粘连,这是手写汉字中常见的现象。连笔或粘连将导致脱机手 写体汉字识别研究字的结构出现质的变化,是手写汉字识别研究中最难解决的 问题之一。 以上三点使得手写体汉字识别成为o c r 研究课题中的难中之难,一些基本的方法如 模板匹配法在手写汉字面前根本无用武之地,些统计特征变得很不稳定。书写变化大是 脱机手写汉字识别系统至今不能达到实用的根本原因。 ( 6 ) 字与字之间相互粘连 脱机手写体汉字识别方法的研究 这也是手写体汉字中常见的现象,字与字之间的粘连使得单个汉字的分割成为o c r 研究中一项富有挑战性的课题。由于分割是o c r 中非常关键的一步,如果分割结果不正 确,识别就无从谈起。 。 一 正因为手写体汉字存在以上六个特殊之处,脱机手写体汉字识别被一些学者看成是模 式识别的最终目标。目前存在的主要问题有: ( 1 ) 脱机手写体汉字的行、列切分正确率不高; ( 2 ) 在特征提取阶段,目前尚未找到一组适用于各种字体、笔迹的特征向量; ( 3 ) 由于汉字的特征向量维数较高,将待识别汉字的特征向量同样本库中的海量模板匹 配会占用很多识别时间,直接导致识别性能不高。 ( 4 ) 对汉字识别结果缺乏标准的鉴定和评价依据,而且尚未建立标准的手写体汉字测试 数据库和测试机制,这使得目前的研究成果无法进行比较和评判。 如果脱机手写体汉字识别系统能够达到实用阶段,将标志着模式识别研究领域达到了 一个前所未有的新高度。 第二章脱机手写体汉字识别的原理与方法 2 1 脱机手写体汉字识别的原理 脱机手写体汉字识别的基本过程如图2 2 - 1 所示:书写在纸张上的手写体文稿通过前 端数字化输入装置( 如扫描仪) 经模数转换成具有一定灰度值的数字采样信号送入计算 机,对所得图像作行字切分,得到单一的汉字二维点阵图像。再对所得图像作平滑去燥、 二值化、细化、归一化等处理,使得手写体汉字成为规范化的二值点阵信息( 如图2 2 - 2 , 其中“l 表示笔划部分,“0 ”表示背景部分) 。对于二值化点阵,按照识别方法的要求, 在特征提取阶段选择合适的能反映汉字基本特性的特征,并与存贮在计算机中己知汉字的 标准特征模板进行匹配判别,找出字典特征集中与输入汉字特征最接近的一个,这个字就 被认为是输入汉字的识别结果i 6 。 4 脱机手写体汉字识别方法的研究 图2 卜1 汉字识 别系统框架结构 2 2 汉字识别方法概述 00010 00 00010 00 l1111ll 000l000 0001000 图2 1 - 2 汉字“十” 的二值点阵 汉字识别是模式识别的一个分支,而模式识别方法基本上分为统计决策法和结构识别 法两大类。结构识别法是以同类模式具有相似结构为基础的识别方法。所谓结构指的是组 成一个模式的基本单元( 简称基元) 之间的关系。例如拼音文字的基元是字母,若干个字母 按一定规律组成一个单字。在识别某一个单字时,如果能判别组成这个字的各个字母以及 它们的( 结构) 关系,就可以识别这个字。基于这种原理,拼音文字的识别系统中的“字典 应包括字母,以及由字母组成单字的规律。在对某一个单字进行识别时,则应先提取构成 这个单字的字母并分析它的结构,然后将它跟字典中所有已知单字的基元及其结构关系逐 个加以比较,就可以确定待识别单字和哪一个已知单字属于同一类别。这种识别方法跟英 语句子的语法分析相似,因而有时也称之为“句法识别法 。模式识别的另一种方法是统 计决策法。这是以同类模式具有相同属性为基础的识别方法。用来描述事物属性的参量叫 做特征,它可以通过对模式多个样本的测量值进行统计分析后按一定准则来提取。必须注 意的是:在选择特征时,用于代表各类模式的特征应该把同类模式的各个样本聚集在一起, 而使不同类的模式的样本尽量分开,以保证识别系统能具有足够高的识别率。 2 2 1 统计决策方法 统计决策方法是提取待识别模式的一组统计量作为汉字的特征,常用的统计量有: ( 1 ) 利用变换特征的方法。对汉字图像进行二进制变换( 如w a l s h ,h a r d a m a 变换) 或更 复杂的变换( 如k a r h u n e n - - l o e v e ,f o u r i e r ,c o s i n e ,s l a n t 交换等) ,得到的一组系数作为汉 字的特征。由于这些变换不是旋转不变的,因此对于倾斜变形的汉字的识别有较大的偏差。 ( 2 ) 投影直方图法。利用汉字图像在水平及垂直方向的投影作为汉字的特征。该方法对 5 脱机手写体汉字识别方法的研究 倾斜旋转非常敏感,细分能力差。 ( 3 ) 几何矩( g e o m e t r i cm o m e n t ) 特征。利用矩不变量作为汉字的特征。 ( 4 ) s p l i n e 曲线近似与傅立叶描绘子( f o u r i e rd e s c r i p t o r ) 。两种方法都是针对汉字图像轮 廓的。s p l i n e 曲线近似是在轮廓上找到曲率大的折点,利用s p l i n e 曲线来近似相邻折点之 间的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各 个系数作为特征的。前者对于旋转很敏感。后者对于轮廓线不封闭的汉字图像不适用,因 此很难用于笔划断裂的汉字的识别。 ( 5 ) 笔划密度特征。笔划密度的描述有许多种,这里采用如下定义:汉字图像某一特定 范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透 次数。这种特征描述了汉字的各部分笔划的疏密程度,相当稳定,在图像质量可以保证的 情况下,可以提供比较完整的汉字信息。 ( 6 ) 特征点特征。其主要思想是利用汉字点阵中一些有代表性的黑点( 笔划) ,白点( 背 景) 作为特征来区分。其特点是对于内部笔划粘连的汉字的识别的适应性较强,直观性好, 但是不易表示为矢量形式。 。 下面重点介绍一种典型的统计决策方法一投影一变换系数法【7 】,这种方法把汉字看作是 二维随机点阵图像,提取它的变换系数作为识别特征。 设f ( x ,y ) 是汉字的二维点阵图像,n 为图像尺寸 f ( x ,y ) = ? 呈蒹 直接求二维汉字图像的变换系数的计算量很大,通常采用投影法把二维汉字点阵变为 一维数据,分别用g ( x ) 和g ( y ) 分别是f ( x ,y ) 在x 轴和y 轴的投影,即 一1一1 g ( x ) = f ( x ,y ) ,g ( y ) = 厂似y ) o ) ) ,少j 圪,l ,l j m 了q 4 ) - l l ,多 ) 与叩1 j m ) ,飞 。 肚l - ii 8 脱机手写体汉字识别方法的研究 微小的变形及噪声淹没在累加值中,因而能取得比较满意的结果,仅仅在字形相近的汉字 区分时,辅之以结构的方法;而在手写字的识别中,由于存在着巨大的变形,统计的方法 只能用于分类,即使在分类的过程中也要利用结构信息,在逐字识别时,则必须利用结构 信息。所以,将统计方法与结构方法有机地结合起来,是脱机手写体汉字识别应当采取的 技术途径。 第三章手写汉字识别的预处理 脱机( o f f - l i n e ) 手写体汉字识别时,首先将写在纸上的汉字,经光电扫描产生模拟电 信号,再通过模数转换电路转换为带灰度值的数字信号输入计算机。由于干扰信号的存在, 从转换机构和数字化电路得到的汉字符号信息,通常不能直接进行识别处理。这些干扰信 号,或称作噪声,大致分为两类: ( 1 ) 因汉字背景( 如书写用纸) 有杂质,书写不好,光电转换线路和数字化电路等引起的 干扰。此类干扰表现为汉字笔画附近出现污点( 称黑色孤立点) ,或汉字笔画中有缺陷( 称 为白色孤立点) 。 ( 2 ) 由传统机构定位精度误差,造成汉字旋转、聚焦不好,书写用力不均、字体潦草等 产生的干扰。此类干扰表现为汉字倾斜,字形大小不一,笔画粗细不均,甚至笔画断开或 相邻文字粘连等。 因此,为了对汉字信息能做进一步的处理,必须进行预处理,清除黑白孤立点、扶正 倾斜文字、均匀笔画粗细、分离粘连汉字笔画,使位置、大小不一的汉字规范化【l o l 。预处 理阶段一般包括单个汉字的分割、平滑去噪、汉字图像的二值化、细化、字体归一化等。 不同的识别方法,对预处理的过程和要求有所差别,如结构识别方法对字体大小归一化可 以从简甚至不需要,有的识别方法对细化要求很高,有的则不需要进行细化。 以下讲述预处理的各个阶段: 3 1 单个汉字的切分 :从实际出发,一个完整的脱机手写体汉字识别系统应该是能够处理整个手写体汉字文 稿,而不是仅仅处理单个手写体汉字。这样,我们就必须考虑对输入的整个手写体汉字图 像进行一些必要的处理,并从中正确切分出一个个手写体汉字,以供下一步进行识别【l 。 手写体汉字文稿经过光电设备扫描进计算机所获得的汉字图像,不但包含了组成文本 的一个个汉字,而且包含了汉字行间与字间的空白,甚至可能还会带有各种标点符号和非 汉字符号。这就需要采用一定的处理技术,将文本中的一个个汉字切分出来,形成单个汉 9 脱机手写体汉字识别方法的研究 字的图像阵列,以便对其进行方便的单字识别处理。这就是汉字文本的行字切分问题,对 汉字图像从上到下逐行扫描,同时计算每扫描行的像素,获取图像的水平投影,利用文字 行间空白间隔造成的水平投影空隙,将行分割,再利用字与字之间的空白间隔在图像行垂 直投影上形成的空白间隙,将单个汉字的图像切割出来。 3 1 1 行切分 。 对于行切分,即区分一行行文本,人类往往非常容易就能确定,但对于机器而言,却 并非显得那么容易,这依赖于手写体汉字文本书写质量和规范性。如果行间隔含糊或者字 走势歪曲,那么行切分起来就不容易;如果行间隔明显,字走势笔直,那么行切分就会容 易。 不失一般性,我们设汉字的图像为f ( i ,j ) ,汉字图像大小为m ixm ,。那么,我们首 先定义f ( i ,j ) 在i 行上的投影函数为 my g o ) = e f ( i ,歹) ,i 兰l ,2 ,a t 皇l 显然g ( i ) ,i = 1 ,2 ,m x 反映了汉字图像的按行灰度累积、密度分布情况。详细 分析g ( i ) 的分布规律,我们就可以获得文本图像按行书写的排列情况,并确定每行汉字 的首行和尾行下标。 , 通常,如果i 行图像处于行间隔,则g ( i ) 几乎为0 ,否则g ( i ) 起码大于一个汉字 的平均投影密度。这样,我们就可以在单字平均投影密度值和0 之间选择一个闽值来对g ( i ) 进行二值处理,形成二值序列g 1 9 2 9 3 g m ,其中gi - g ( i ) 要么为0 ,要么为1 。我 们称序列中连续为1 的子列为行段,连续为0 的子列为间段,行段或间段中1 或0 的个数 称为段长。于是行的切分就可按如下方法来实现: ( 1 ) 生成文本图像的二值序列g 1 9 2 9 3 g m ,井求出全部行段和问段: ( 2 ) 分别求出最大行段长度和平均长度;如果最大行段长度远大于所处理汉字的大小 规模,则对文本图像进行归一化处理,然后转( 1 ) ;否则 ( 3 ) 令k = l ,i = 1 , 1 = 1 。 。 ( 4 ) 分情况对段k 进行如下处理 a ) 如果段k 为间段,则令i = i + 段长k ; b ) 如果段k 为行段且段长p ( 2 3 ) 行段均长则令 分行l = ,i + 段长l 【 及i _ i + 段长k ; c ) 如果段k 为行段且段长k = ( 2 3 ) 行段均长,则确定最大行段下标k k ,满足 七 y 段长,行段最大长度 tl, j = k 1 0 脱机手写体汉字识别方法的研究 并令 分行,= 长度阈值 i = k 二 ( 5 ) 计算 脱机手写体汉字识别方法的研究 今= 字段长度。+ ( 间段长度,+ 字段长度,) j = k + l ( 6 ) 形成 分字l = ( 7 ) k = k + l ,j = j + j + 间段长度k ,+ l 。 ( 8 ) 如果k 字段总数,则1 = 1 + 1 转( 4 ) ;否则 ( 9 ) 得到 1 个分字i = ii = l ,2 ,l 综合文本的行切分和字切分,我们可以从输入的手写体汉字文稿中获取一个个单独 的手写体汉字,从而为下一步的汉字识别提供了理论可能性。 3 2 平滑去噪处理 一幅汉字图像可能存在着各种噪声,消除图像中的这些噪声成分叫做图像的平滑化, 其目的有两个:一是按特定的需要突出一幅图像中的有用信息;另一是为适应计算机处理 的需要,消除汉字在输入数字化时所混入的噪声【1 2 】。对汉字图像平滑化处理的要求有两条: 一是不能损坏汉字图像的边缘轮廓及线条等重要信息;二是使汉字图像清晰,视觉效果好。 3 2 1 中值滤波去噪 中值滤波的原理是选择一定尺寸大小的窗口,然后把此窗口在汉字图像上移动,用窗 口内各象素灰度值的中间值代替该窗口中心的象素灰度值。例如,考察图3 2 1 的3 x 3 窗 口,p o 代表要处理的像素,假设此时该像素的像素值为1 5 0 ,考察其周围的8 个像素值, 如分别为6 7 ,9 7 ,1 6 0 ,2 7 0 ,3 0 0 ,2 5 0 ,1 2 0 ,1 8 0 。则最终p o 的像素值应取这9 个数排 序后的中间值( 即1 6 0 ) 。 图3 2 - 13 x 3 窗口 1 2 脱机手写体汉字识别方法的研究 3 2 2 邻域平均法去噪处理( 均值滤波) 邻域平均法的基本原理为:假如给定一幅n x n 的汉字图像f 【x ,y ) ,用邻域平均法得 到的平滑图像为g ( x ,y ) 。g ( x ,y ) 可用下式表示: 贴2 万1 。磊。肋 式中x ,y - - 0 ,1 ,n - 1 ,s 表示( x ,y ) 点邻域中坐标点的集合,m 表示集合s 内坐标点总 数。邻域的取法为:以( x ,y ) 为中心,以单位距离的2 倍为半径构成点( x ,y ) 的邻域,选 择在圆的边界上的点和在圆内的点为s 的集合,此时 g ( 训) = 吉z ( 所,z ) 待l ,2 ,3 , 也即采用以下平滑模板来实现: lll lpl lll 图3 2 2 邻域平均 。一法去噪模板。 显然,平均模板法的作用是通过一点和周围邻域运算( 通常为平均运算) 来去除突然变 化的点,从而达到消除一定噪声的目的。不过,这种平均化的运算也不可避免让汉字图像 损失了一定的有用信息,即噪声虽然被消除,可汉字图像灰度急剧变化的边缘( 轮廓) 和线 却模糊不清了。为了克服这一缺点,我们采用了阈值法来减少由于邻域平均所产生的模糊 效应。其基本方法见下式: g ( w ) = 需万1 胁川黼i f ( x , 况y ) 一厕汀 式中t 为预定的非负值,它是噪声成分标准差的常数倍,实际值由实验决定。该方 法的思想是:当一些点和它邻域内点的灰度平均值的差不大于规定的值t 时,就仍然保留 其灰度值不变,如果大于值t 时就用它们的平均值来代替该点的灰度值,从而可减少因完 全平均化而使汉字图像边缘模糊的现象。 3 3 二值化处理 把汉字灰度图像处理成二值( o 、1 ) 图像的过程,称为对汉字图像的二值化 脱机手写体汉字识别方法的研究 ( b i n a r i z a t i o n ) 。对灰度图像二值化能显著的减小数据存储的容量,降低后续处理的复杂度。 设扫描、a d 转换后的汉字图像点阵为: c = ( 坪,j ) ) i = l ,2 ,p j = l ,2 ,q 式中f ( i ,j ) 是像素( i ,j ) 的灰度值。有黑笔画的部分,f ( i ,j ) 的值小;而白背景部分, f ( i ,j ) 的值则大,最简单的二值化通过设定固定灰度阈值t 完成,即当f ( i ,j ) 值比预定阈值 t 大,看成背景,以“0 标志;否则看成文字笔画,以“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人家属楼租赁合同5篇
- 新成都市标准劳动合同范本4篇
- 美术材料购销合同范本
- 防水护栏安装合同范本
- 个人渔船雇员合同范本
- 多用途擦地机订购合同6篇
- 清洁与消毒管理培训考试试题及答案
- 知识竟赛数学题目及答案
- 知二求二题目及答案大全
- 商业地产投资项目管理方案落实方案
- 2025北京京剧院招聘工作人员10人笔试备考题库及答案解析
- 工商注册知识培训课件
- 隐患排查治理奖励制度
- 学校食堂清洗消毒工作流程培训测试题及答案
- 计算机组装及维护试题库附带答案总结全面
- 武汉公积金基本知识培训课件
- 校园消防安全知识培训主要内容
- 校园垃圾清运应急预案演练(3篇)
- 楼盘销售技巧培训课件
- 总装工艺基础知识培训课件
- 2025年血透室透析液污染应急预案演练脚本
评论
0/150
提交评论