




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)脱机手写体汉字识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西华大学硕士学位论文 脱机手写体汉字识别研究 计算机应用技术 研究生杨玲指导教师黄襄念 脱机手写体汉字识别是当前o c r 技术研究的热点之一,也是计算机字符识 别中最为困难的一个课题,它的研究对汉字信息处理自动化及开拓新一代计算 机的智能输入都有着重要的意义。手写体汉字识别是一个非常复杂的多模式识 别问题,多年研究实践表明,单一方法的效果是有限的,各种方法有其自身的 特点和优点,但也有其局限性。应用信息融合技术,采用多方法有机结合,走 多特征融合、多方案集成的道路,是手写体汉字识别的一个发展趋势。 考虑到单个分类器不能从根本上有效地提高分类性能,需要依靠多分类器 集成来解决问题,故本文在分析当前汉字识别最新发展技术的基础上,设计了 一种基于多特征融合、多分类器集成的汉字识别策略,即三级串行分类器集成 模型。在该模型中,将距离分类器和神经网络分类器串行集成,并与三种不同 的特征提取方法结合构成识别系统,探讨了不同种系统设计方案的最优融合策 略,最终选用如下集成模型:一级分类,采用基于汉字均匀外围特征的曼哈顿 距离分类器进行粗分类;二级分类,一改传统均匀网格划分下提取汉字穿透特 征的方法,提取基于弹性网格划分的汉字穿透特征,利用相似度进行细分类; 三级分类,提取基于汉字弹性网格划分的四方向线素分解特征,综合前两级分 类器的识别结果,选取较为流行的b p 神经网络分类器对候选结果作确认分类。 本文研究对象为少量常用汉字,研究目标是探索非特定人低限制手写体汉 字脱机识别的有效算法。实验选取了国标g b 2 3 1 2 8 0 一级字库中的5 0 个汉字, 每个汉字采集了10 0 个样本,共5 0 0 0 个汉字样本,并利用m a t l a b 7 1 工具箱对系 统设计模型进行了初步仿真实验,结果表明该模型是有效的。 西华大学硕士学位论文 本文内容对汉字样张采集、预处理、粗分类、细分类和实验结果分析五大 模块进行了较详细说明。汉字样张的预处理包括对待识汉字样张的二值化、平 滑去噪、倾斜校正、汉字切分、汉字大小、位置归一化处理以及样本库的建立 及存取操作。分类器设计中主要介绍了b p 神经网络分类器的原理、网络结构 设计及参数的选择,讨论了b p 算法的缺陷及改进策略;最后,利用m a t l a b 7 1 神经网络工具箱编程实现了b p 网的训练和仿真。 关键词:脱机手写体汉字识别,特征提取,多分类器,神经网络 i i 西华大学硕士学位论文 r e s e a r c ho no f f - l i n eh a n d w r i t t e nc h i n e s e cha r a c t e rr e c o g n i t i o n c o m p u t e ra p p l i c a t i o nt e c h n o l o g y m d c a n d i d a t ey a n gl i n g s u p e r v i s o rh u a n gx i a n g n i a n o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ( h c c r ) i st h ec u r r e n th o t s p o t so fo c rt e c h n o l o g yr e s e a r c h ,a n di sa l s oo n eo ft h em o s td i f f i c u l tt a s ko ft h e c o m p u t e rc h a r a c t e rr e c o g n i t i o n t h er e s e a r c ho no f f - l i n eh a n d w r i a e nc h i n e s e c h a r a c t e rr e c o g n i t i o ni sq u i t es i g n i f i c a n tf o rt l l ea u t o m a t i cp r o c e s s i n go fc h i n e s e c h a r a c t e ri n f o r m a t i o na n dt h e d e v e l o p m e n to fi n t e l l i g e n ti n p u to ft h en e w g e n e r a t i o nc o m p u t e r h a n d w r i r e nc h i n e s ec h a r a c t e r r e c o g n i t i o n i sav e r y c o m p l i c a t e dm u l t i - p a t t e r nr e c o g n i t i o ni s s u e ,y e a r so fr e s e a r c hs h o w st h a tt h ee f f e c t o fas i n g l em e t h o di sl i m i t e d ,a n dv a r i o u sm e t h o d sh a v et h e i ro w n c h a i a c t e n s t i c s a n da d v a n t a g e s ,b u ta l s oh a v et h e i rl i m i t a t i o n s m u l t i f e a t u r ef u s i o na n di n t e g r a t i o n o fm u l t i p l es c h e m e sa r ec o n s i d e r e d t ob eat r e n df o rt h e d e v e l o p m e n to f h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nw i t ht h eu s eo fi n f o r m a t i o nf u s i o n t e c h n o l o g ya n dt h eo r g a n i cc o m b i n a t i o no fm u l t i p l em e t h o d s s i n c et h ei n d i v i d u a lc l a s s i f i e rc a nn o t f u n d a m e n t a l l yi m p r o v et h ec l a s s i f i c a t i o n p e r f o r m a n c ee f f e c t i v e l y ,a n dt h ei n t e g r a t i o no fm u l t i p l ec l a s s i f i e r si sr e q u i r e dt o s o l v et h ep r o b l e m , at h r e e l e v e ls e r i a lc l a s s i f i e rc o m b i n a t i o nm o d e l w a sd e s i g n e d o nt h eb a s i so fa n a l y z i n gt h e d e v e l o p m e n to fc u r r e n tt e c h n o l o g yf o rc h i n e s e c h a r a c t e rr e c o g n i t i o n t h i sm o d e lw a sb a s e do nm u l t i f e a t u r ef u s i o na n dm u l t i p l e i n t e g r a t e dc l a s s i f i e r s i nt h i sm o d e l ,t h ed i s t a n c ec l a s s i f i e r sa n dt h en e u r a ln e 铆or :k c l a s s i f i e rw h i c hw e r es e r i a l l yi n t e g r a t e dw e r ec o m b i n e dw i t ht h r e ed i f f e r e n tf e a t i l i e i i i 西华大学硕十学位论文 e x t r a c t i o nm e t h o d st of o r mar e c o g n i t i o ns y s t e m t h eo p t i m a li n t e g r a t i o ns t r a t e g i e s o fd i f f e r e n td e s i g ns c h e m e so fs y s t e m sw e r ed i s c u s s e da n df i n a l l yt h ei n t e g r a t i o n m o d e lw a so b t a i n e d o nt h ef i r s tl e v e l ,t h ec h a r a c t e r sa r er u d e l yc l a s s i f i e db y m a n h a t t a 皿d i s t a n c ec l a s s i f i e rb a s e do nt h ep e r i p h e r a lf e a t u r eo fu n i f o r mm e s h e s ; o nt h es e c o n dl e v e l ,i n s t e a do fu s i n gt h et r a d i t i o n a lm e t h o do f e x t r a c t i n gc h a r a c t e r s s t r o k ed e n s i t yf e a t u r eo nt h eb a s i so fu n i f o r mm e s h e s ,t h ec h a r a c t e r ss t r o k ed e n s i t y f e a t u r ew a se x t r a c t e do nt h eb a s i so fe l a s t i cm e s h e sp a r t i t i o n ,a n dt h ef i n e c l a s s i f i c a t i o nw a sa l s op e r f o r m e du s i n gs i m i l a r i t yc l a s s i f i e r ;o nt h et h i r dl e v e l ,f o u r d i r e c t i o n a ll i n ee l e m e n td e c o m p o s i t i o nf e a t u r ew a se x t r a c t e do nt h eb a s i so fe l a s t i c m e s h e sp a r t i t i o n ,a n dt h ep o p u l a rb pn e u r a ln e t w o r kc l a s s i f i e rw a ss e l e c t e dt o c o n f i r mt h ec l a s s i f i c a t i o no ft h ec a n d i d a t er e s u l t s a c c o r d i n g t ot h ef o r m e r r e c o g n i t i o nr e s u l t so ft h et w oc l a s s i f i e r s i nt h i sp a p e ras m a l ln u m b e ro f c o m m o n l yu s e dc h i n e s ec h a r a c t e r sw e r es t u d i e d , a n dt h er e s e a r c ht a r g e ti st o e x p l o r et h ee f f e c t i v ea l g o r i t h mf o rr e c o g n i t i o no f o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r sw h i c hi sn o n - s p e c i a la n dl o wl i m i t e d 5 0 c h i n e s ec h a r a c t e r sa r es e l e c t e df r o mf i r s tl e v e ll i b r a r yc h i n e s ec h a r a c t e ro f g b 2 312 8 0 i ne x p e r i m e n t 10 0s a m p l e so fe a c hc h i n e s ec h a r a c t e rh a v eb e e n c o l l e c t e d ,a n dt h et o t a ls a m p l e sr e a c h e d5 , 0 0 0 m a t l a b 7 1t o o l b o xw a su s e dt oc a r r y o u tap r e l i m i n a r ym o d e ls i m u l a t i o ne x p e r i m e n t ,a n dt h er e s u l t ss h o wt h a tt h em o d e l i se f f e c t i v e 。 i nt h i sp a p e r , f i v em o d u l e so fc h i n e s es a m p l ec o l l e c t i o n ,i m a g ep r e p r o c e s s i n g , r o u g hc l a s s i f i c a t i o n ,f i n ec l a s s i f i c a t i o na n de x p e r i m e n t a lr e s u l t sa n a l y s i sw e r e d e t a i l e d t h ep r e p r o c e s s i n go fc h a r a c t e ri m a g es a m p l e si n c l u d e st h ee s t a b l i s h m e n t a n da c c e s so p e r a t i o no fc h i n e s ec h a r a c t e r st os a m p l e sd a t a b a s ea n dt h ep r o c e s s i n g o f i m a g eb i n a r i z a t i o n ,s m o o t hd e n o i s i n g ,l e a na d j u s t m e n t ,s e g m e n t a t i o n , n o r m a l i z a t i o no fs i z ea n dn o r m a l i z a t i o no fp o s i t i o n t h ep r i n c i p l eo fb pn e u r a l n e t w o r kc l a s s i f i e r s ,t h en e t w o r ka r c h i t e c t u r ea n dt h ec h o i c eo fi t sp a r a m e t e r sw e r e i n t r o d u c e di nt h ed e s i g no fc l a s s i f i e r s t h ed i s a d v a n t a g e so fb p a l g o r i t h ma n dt h e w a yo fm a k i n gi m p r o v e m e n tw e r et h e nd i s c u s s e d ,a n df i n a l l yt h eb pn e t w o r k i v 西华大学硕士学位论文 t r a i n i n ga n ds i m u l a t i o na l er e a l i z e db yp r o g r a m m i n gw i t ht h eu s eo fm a t l a b 7 1 n e u r a ln e t w o r kw o l b o x k e yw o r d s :o f f - l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o n ( h c c r ) , f e a t u r ee x t r a c t i o n ,m u l t i p l ec l a s s i f i e r s ,n e u r a ln e t w o r k v 西华大学硕士学位论文 9 声明 本人申明所呈交的学位论文是本人在导师的指导下进行的研究工作及取 得的研究成果除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己 在论文中作了明确地说明并表示感谢。 本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成 果归西华大学所有,特此声明。 作者签名:_ 产刀衫今 口矿年f 月1 日 导师签名: ,d 旷年grr b 西华大学硕十学位论文 1 概论 1 1 研究脱机手写汉字机器识别的目的和意义 汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上 使用人数最多的文字,它记录了璀璨的民族文化,展示了东方民族独特的思维 和认知方式。然而,汉字是非字母化、非拼音化的文字,在当今高度信息化的 社会里,如何赋予计算机识图认字的能力,快速高效地将汉字输入计算机,已 成为影响人机接口效率的一个重要瓶颈。使计算机具有人类感知的能力,能够 识图认字与人类自然进行信息交互,是人类长期以来的梦想。 汉字识别是汉字快速、自动输入计算机的重要手段,是智能计算机接口的 重要组成部分。在文献检索、办公自动化、邮政系统、银行票据处理、报表的 自动处理、试卷的自动阅读等方面有着广阔的应用前景,对我国信息化发展 有着重要意义,概括起来主要有以下几个方面: ( 1 ) 中文信息录入的理想手段 计算机技术的发展,使得汉字输入成为汉字信息、处理系统提高速度的“瓶 颈”问题。要解决这个问题,必须采用计算机自动识别文字或者语音的方式。 而脱机手写汉字识别一直被公认为汉字信息录入的理想手段。 ( 2 ) 智能计算机智能接口的重要组成部分 智能计算机是在更高的程度上,更完善地模拟和取代人类脑力劳动的全新 一代的计算机。智能计算机能认识文字、图形和景物,能听懂语音,能理解文 章。视觉是智能计算机接受外界信息的重要手段。而识别文字是智能计算机必 备的功能。 ( 3 ) 提高办公自动化水平的主要因素 办公自动化就是要求用计算机来代替人们日常的办公活动,可以借助计算 机来进行文档的处理和工程设计等工作。在多媒体时代,图像信息占主要的比 重,而图像中有着大量的文字信息。汉字的自动识别对图像处理以及存储有着 重要的意义。 ( 4 ) 重要的信息压缩手段 汉字图像经识别后形成代码,信息量压缩了1 0 0 倍以上,对汉字信息压缩、 西华大学硕士学位论文 传输有重要意义。 ( 5 ) 丰富了模式识别理论 汉字识别不但在实际应用方面十分重要,在理论研究方面也有重大意义。 手写汉字识别是模式识别领域中的一个难题,模式的特征和分类都很复杂,它 涉及到模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊 数学、中文信息处理等多个学科知识,是一门综合性技术。并且囊括了模式识 别领域中比较典型的问题,如特征的选择、分类器的选择以及样本集的选择等。 手写汉字识别研究不仅将模式识别理论与具体的应用相结合,而且推动了模式 识别理论的发展。 综上所述,对于脱机手写体识别的研究具有深刻的理论意义和实用价值。 1 2 汉字识别研究分类 从采用的输入设备来分,汉字识别可分为联机识别( o n 1 i n e ) 和脱机识 别( o f f - l i n e ) ;从待识别字符字体来分,汉字识别又分为印刷体识别和手写体 识别;从对书写者的要求来分,又分为限制性( c o n s t r a i n e d ) 和非限制性 ( u n c o n s t r a i n e d ) 手写体汉字识别。图1 1 为汉字识别的各个分支。 f 噜1 1t h ec a t e g o r yo fc h i n e s ec h a r a c t e rr e c o g n i t i o n 图1 1 汉字识别分类 从识别技术的实现难度来说,由于印刷体书写较为规整,所以识别难度低 2 西华大学硕士学位论文 于手写体识别。而在手写体识别中,由于脱机手写体识别缺少笔划和笔顺信息, 所以识别难度远远超过了联机手写体识别。到目前为止,除了脱机手写体数字 识别已有了实际应用以外,汉字等文字的脱机手写体识别还处于实验室阶段。 1 3 汉字识别研究的发展历程 汉字的识别技术最早可以追溯到6 0 年代。1 9 6 6 年,m m 公司的c a s e y 和 n a g y 首次发表了一篇关于印刷体汉字识别的论文,在这篇文章中他们利用简 单的模版匹配法识别了1 0 0 0 个印刷体汉字。7 0 年代中期起,日本汉字识别研 究取得了定成果并转化为产品进入市场。国内的汉字识别研究开始于7 0 年 代末,至今已有2 0 多年的历史,科研机构主要以清华大学电子系、北京信息 工程学院、中自汉王、北京邮电大学信息系、沈阳自动化所以及清华大学计算 机系等单位为代表嵋。我国对汉字识别的研究大致可以分为三个阶段: 第一阶段从7 0 年代末期n 8 0 年代末期。这一阶段主要研究的是汉字识别的 算法和方案,研究人员提出了用于汉字识别的各种方法和特征,这一阶段是涌 现印刷汉字识别成果的时期。但是,这些成果还仅仅停留在实验室阶段,没有 转化为产品来实际解决印刷汉字的自动输入问题。 第二阶段是9 0 年代初期开始。将实验室汉字o c r 技术的研究成果推向市场, 推向实用。印刷体汉字识别和联机手写汉字识别走向实用化,手写规整汉字识 别的研究进入高潮,一些初步使用的印刷体汉字识别系统开始进入市场。 第三阶段也就是现在。印刷体汉字识别系统已经走出实验室,加入到办公 自动化产品的行列,得到广泛应用。联机手写体汉字识别已趋于成熟,有多项 产品商业化。脱机手写汉字识别因其自身的复杂性,目前还没有十分成熟的产 品,还是一门待发展的技术,也是国内外研究的热点。 字符识别产品的广泛应用推动了模式识别等相关理论的发展,促进了计算 机应用的普及。经过几十年的发展,现在o c r 技术取得了很多进展。无论是 国内和国外都有了相对成熟的o c r 的产品。传统的o c r 产品主要解决文字 自动录入的问题,现代的o c r 产品实际上已经成为了沟通现实世界和计算机 世界的一座桥梁。 3 西华大学硕士学位论文 1 4 脱机手写汉字识别研究的问题和困难 汉字的数量浩大,结构繁杂,变化多端,使得解决汉字的自动输入问题要 比西方的少量字符拼音文字的自动输入艰巨得多。而手写体汉字识别更是模式 识别研究领域中的难点。正是手写体汉字的自身特点给手写体汉字的识别带来 诸多不利的影响。这些特点包括: 1 字量大 目前,我国常用汉字约3 0 0 0 - - 4 0 0 0 个,国标g b 2 31 2 8 0 两级汉字共6 7 6 3 个。可以说,汉字识别是超大类别模式识别问题,而类别数越大,分类识别就 越困难。 2 字体多 汉字的书写字体分为楷书、行书和草书三大类,虽然不同字体的拓扑结构 基本相同,但笔画长短、位置及姿态却有一定的差别,尤其是草书变形非常严 重。不同字体的同一类汉字字形点阵都不相同,这给分类识别增加了难度。 3 结构复杂 汉字笔画多,结构复杂,笔画最多的汉字有3 6 画,每个汉字平均有l l 画,这对分类器的性能提出了较高要求。 4 字形相似 虽然有些汉字结构简单、笔画较少,但字形十分相似,如“人、入 、“己、 已、“土、士 等,这就要求分类器能够区分细微的结构差别。 5 书写变化大 书写不同引起的模式结构变形是手写体汉字识别最大难点所在。这种变形 因人而异,因时而变,而且变形可能很严重,主要有如下三点: 笔画不规范,六种基本笔画横、竖、撇、捺、点、折书写时出现变形。 笔画之间,偏旁部首之间相对位置不固定。 连笔书写或笔画粘连,下笔轻重不同使得笔划粗细不均,这些均导致 汉字结构出现质的变化。 以上三点使得手写体汉字识别成为o c r 研究课题中的难中之难,一些基 本的方法,如模板匹配将失效,一些统计特征变得不稳定,书写变化大是脱机 手写汉字识别系统至今不能达到实用的根本原因。 4 西华大学硕士学位论文 6 字与字之问粘连 字问粘连使得汉字分割成为o c r 研究的一项富有挑战的课题。由于汉字 切分是o c r 识别的关键一步,分割不正确,识别就无从谈起。 正是由于以上原因,手写体汉字识别被一些学者看成是模式识别的最终目 标。如果对书写过程限制较多,则不实用:限制较少,则识别率较低。因此, 解决好这样一种完全有别于西方文字的超多类的、变化多端的模式识别问题, 还将面临很多困难与挑战。 1 5 脱机汉字识别研究现状及发展趋势 脱机手写识别研究的一个趋势是转向应用研究,应用于特定场合的脱机手 写体汉字识别系统陆续被研究开发,如邮政地址识别、银行票据识别和古籍识 别等1 。但到目前为止,还没有一个性能稳定、抗干扰能力强、适应各种书写 体情况的高效实用系统,因此对于手写体汉字识别还有许多工作要做。 在特征提取阶段,目前尚未找到一组适用于各种字体、笔迹的特征向量: 无法将自然语言理解知识应用于后处理。由于汉字的特征向量维数较高,将待 识别汉字的特征向量同样本库中的海量模板匹配会占用很多识别时间,因此如 何提高识别速度也是一个需要深入研究的课题。 另外,我国对汉字识别成果缺乏标准的鉴定和评价依据,而且尚未建立标 准的手写体汉字测试样本库和测试机制,这使得目前的研究成果无法进行比较 和评判。因此建立统一的手写体汉字字库,制定标准且完善的测试、评价及鉴 定体系,对于脱机手写体汉字识别的发展不仅是重要而且也是必要的。 有人开始研究汉语词语的识别,试图绕开手写汉字单字识别的难点,但目 前看来只是一种探索。目前研究的重点有字形整形变换、多特征融合、多分类 器集成以及用于文本后处理的语言模型等h 。本文也正是针对这些研究方面作 了初步的尝试和探索。 1 6 脱机手写汉字识别原理过程及方法 1 6 1 识别原理 汉字识别,也称光学字符识别,即o c r 技术,其基本原理就是通过输入 5 西华大学硕士学位论文 装置( 如扫描仪、光电耦合器件c c d 等) 将手写汉字文稿转换成电信号输入 计算机后得到灰度图像或二值图像,然后对所得图像进行相应的预处理,再利 用各种模式识别算法对图像进行分析,提取汉字特征,设计分类器分类判别, 最后在汉字集合中识别出与之相匹配的汉字,从而达到识别汉字的目的。 一般说来,一个完整的o c r 识别系统由预处理、特征提取、分类器和后 处理四个模块构成0 。,如图1 2 所示,其中特征提取和分类器是整个汉字识别 系统的核心部分,本文的研究工作也重点围绕这两方面展开。 后处理 f i g1 2t h ef r a m e w o r ko fc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e m 图1 2 汉字识别系统框图 1 预处理 由于图像在扫描过程中不可避免的会带来噪声,因此在识别之前要对扫描 图像进行预处理,以尽可能的将干扰因素降低。预处理是直接从汉字点阵图像 上补偿手写变形,减小属于同一类别的不同模式之间的差异。此外还要对整篇 文档图像中的字符进行正确分割,所以对扫描图像预处理的好坏将直接影响识 别的效果。预处理一般包括将扫描后的图像进行二值化、字符切分、平滑去噪、 归一化等处理。 2 特征提取 特征提取是整个环节中最重要的一环,它是从单字图像上提取统计特征或 结构特征的过程。良好的特征应该使同一种汉字的不同书写样本之间的差异尽 可能小,而在不同汉字之间的差异尽可能大。汉字特征主要分成两大类,即统 6 一 一 一,一一 -il知识库一 一 r 西华大学硕士学位论文 计特征和结构特征。 3 分类器设计 分类器执行对待识别样本类别的鉴别判定,对模式识别性能有直接的决定 作用。能否设计和样本概率分布相匹配的分类器决定了最终识别性能的优劣。 因此分类器设计是提高识别系统识别性能的另一个重要环节。 基于距离的聚类分类器。和神经网络分类器是目前主要的两类分类器u 驯,二者原理不同,各有所长。长期的研究结果表明,基于单个识别器原理不 能从根本上提高系统性能,应该走多分类器集成的道路川。集成的方法从体 系结构上可分为串行、并行与混合三种类型。 4 后处理 为了提高识别率,有时还要对分类器的输出结果进行后处理。后处理阶段 可能不是o c r 系统所必须的,但如果系统能利用上下文信息和语法及逻辑信 息对识别结果进行修正,往往能改善和提高系统的整体识别性能并降低拒识 率。在本文实验中该模块内容不予以讨论。 汉字识别过程中,特征提取和分类器设计是最关键的部分。当前汉字识别 的个研究重点就是提取具有一定互补性的不同汉字特征,走多特征融合 1 0 1 ,多分类器集成的道路1 刳,以适应不同汉字类别及不同样本间的书写变 化,这也正是本文探讨的重点内容。 1 6 2 识别方法 汉字的模式表达形式多种多样,每种形式又可选择不同的特征,每种特征 又可有不同的抽取方法,这使得判别方法和准则以及所用的数学工具不同,从 而形成了种类繁多,形式特别的文字识别方案。从预处理、特征选取、分类决 策到后处理,不同的特征抽取和分类器的设计方法决定了识别系统采用不同的 处理方法,大致可以分为4 类:结构模式识别法u 引、统计模式识别法、统计与 结构相结合的模式识别方法、人工神经网络法等,一些还引入了模糊数学等较 新学科中的方法u4 川引。此外一些仿人类视觉的模式识别方法也逐渐兴起。 1 结构模式识别法 结构模式识别方法一般先抽取笔段或基本笔划作为基元,再由这些基元构 成部件( 子模式) ,由部件的组合来描述汉字( 模式) ,最后利用形式语言及自 7 西华大学硕士学位论文 动机理论,采用句法分析、串匹配、图匹配或知识推理等方法进行分类和识别。 一般说来,结构特征可以更准确地描述字符的几何特征,且受噪声影响较 小。常见的字符结构特征描述方法有特征点u 、线段和笔划u 驯等。 由于结构法描述模式细部结构的能力较强,因此对相似字的分类能力较 强,但是该方法所需的工作量很大,能够识别的字数有限,并且单纯采用结构 模式识别方法的脱机手写体汉字识别系统识别率较低。 2 统计模式识别法 统计模式识别法一般采用统计特征向量进行模式描述,该方法不直接考虑 汉字的笔划结构,主要是选取分类性能好、稳定的统计特征。识别时根据未知 样本的特征向量与识别字典中的参考特征向量的匹配程度来判定识别结果。进 行特征提取时,通常先对汉字点阵进行某种局部或全局性的变换,从点阵平面 得出特征平面,再对特征平面进行区域选取、网格划分、投影及变换等处理, 从而形成特征向量。参考特征向量通常由学习样本的特征向量统计平均而得。 脱机手写体汉字识别的统计特征根据特征抽取区域的不同可粗略地分为 全局统计特征和局部统计特征两大类。 ( 1 ) 全局统计特征 全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征主要包 括全局变换特征( 常用的变换有f o u r i e r 3 芝换、小波变换u 圳、d c t 变换、w a l s h 变换、r a p i d 变换、k - l 变换等) 、不变矩( m o m e n t ) 特征、笔划穿透数目特征、 全局笔划方向特征、背景特征。 ( 2 ) 局部统计特征 局部统计特征是将汉字点阵图像分割成不同区域或网格,在各个小区域内 分别抽取统计特征,主要包括:局部笔划方向特征、细胞特征、相补特征、方 向线素特征、g a b o n 寺征、四角特征。 根据抽取特征的不同,可以选用不同的匹配方法常用的统计匹配方法有模 板匹配、相关匹配、树分类器等。常用的距离度量有欧氏距离、城市块距离、 马氏距离等。 统计模式识别法的特点是对局部噪声和微小畸变不敏感,分类性能较稳 定,粗分类效果良好,但对相似字的区分能力较差。 西华大学硕士学位论文 3 统计与结构相结合的模式识别方法 由上述可见,统计与结构方法各有优缺点。统计方法具有较好的抗干扰、 抗噪声的能力,它一般按一定的距离度量匹配准则,采用多维特征值累加的办 法,把局部噪声和微小畸变淹没在最后的累加和里,但是区分相似字的能力也 ,随之降低;而结构方法对结构特征较敏感,区分相似字的能力较强,但是结构 特征难以抽取,不稳定,因此人们注意到把两种方法结合使用,这种结合包括 两个方面: 一 ( 1 ) 特征的结合:在特征抽取过程中,注意抽取能反映手写汉字结构信 息的统计特征,如方向线素特征心0 2 1 2 副、网格特征瞳3 2 4 2 5 26 | 、四平面笔画 穿透数目特征瞄“。 ( 2 ) 识别方法的结合:可以先用统计方法进行粗分类,再用结构方法进 行细分类区分相似字,即两种方法串联;或将两种方法并联后进行综合集成, 这也是近年来文字识别领域的一个重要研究方向。 4 人工神经网络法 以非线性大规模并行分布处理为主要持征的人工神经网络,其研究在近十 几年内取得了引人注目的进展。它具有自适应功能、泛化功能、非线性映射功 能及高度并行处理等优点。这个引人注目的研究方向试图使机器以生理性的模 拟方式来实现人脑的机能。人工神经网络所具有的特征使其非常适合于解决模 式识别问题。尤其是它的学习功能,大大削减了传统模识别方法所需的约束条 件,使其对某些识别问题显示出极大的优越性。其中,学习训练及分类器的设 计是目前人工神经网络在汉字别领域的主要研究方向,也是最为成功的应用。 人工神经网络在模式识别领域的研究表明:不同的神经网络能完成大多数 常用的统计模式识别的功能。通常用于汉字识别的人工神经网络模型有: h o p f i e l d 神经网络、a r t 网络、前向多层神经网络( 如b p 算法u 。、r b f 网络瞄出 。驯) 等。神经网络方法和传统的识别方法也常常被结合起来使用,互相取长补 短,如先用传统的方法抽取较稳定的特征,再用神经网络进行自组织聚类学习, 并设计性能良好的分类器等。人工神经网络用于手写体汉字识别是一个充满希 望的途径。 5 仿人视觉的识别方法 9 西华大学硕士学位论文 对原始图像进行处理后,利用人的视觉特性进行特征提取,也是有效的特 征提取方法。如有研究表明,人类在抽取低层次视觉特征时,其视皮层简单细 胞对图像信号的响应与二维g a b o r 滤波器极其相似,利用g a b o r 变换可达到空域 和频域的最佳联合清晰度,对噪声和小尺度变化不敏感。实验结果表明,基于 g a b o r 变换处理的特征提取也获得了很高的抗干扰和鲁棒性3 0 3 1 3 2 ,3 3 | 。 1 7 论文主要研究内容 本文给出了一个脱机手写体汉字识别系统的设计方案,针对手写体汉字识 别中的图像预处理、特征提取、分类器设计三大功能模块进行探索性研究,系 统流程图如图1 3 所示。 1 0 两华大学硕士学位论文 样张采集: i i - i i l i -一一 i 一一一一 i l = :级 1 分 :类 - l 1 l l i i i j 特征提取 i 样本库h 提取汉字轮廓 h 轮廓四方向分解 0 i 特征库h方向线素特征k l 弹性网格划分 - 一- _ 一 组合方案对比 比 i i m 分类器 i 三层b p 网络 t i特征库 l - - - - u f i g1 3t h ef r a m e w o r ko ft e x ts y s t e m 图1 3 本文系统框图 1 1 一 两华大学硕士学位论文 2 汉字图像预处理 待识别汉字样张经光电设备扫描后会产生各种各样的干扰信号。这些干扰 信号也称为噪声,主要表现为:纸张厚薄、光洁度、油墨深浅等;印刷或书写 质量造成的字形畸变,如产生污点、断笔、交连等;输入设备的光学畸变;汉 字扫描时的倾斜,造成汉字大小位置不确定,这些都使得识别无法在原始图像 上直接进行。所以,在进行单个汉字识别之前,首先要对原始图像进行预处理, 以降低干扰因素影响,改善图像质量,提高识别率。 预处理是文字识别的第一步,占有十分重要的地位,它与特征提取紧密相 连,良好的预处理可以有效的保持图像信息,反映文字本质特征,使得后续阶 段提取的特征能够更好的代表待识别模式。 本文根据采集到的汉字样张识别需要,对图像进行二值化、去噪、倾斜校 正、汉字行列切分、规范化等处理工作。设计预处理过程如下图2 1 所示。 圉国围图图图圈 f i g 2 1p r e p r o c e s s i n gp r o c e s so fc h i n e s ec h a r a c t e ri m a g e 图2 1 汉字图像预处理流程 首先,把扫描所得的灰度图像转化成一幅黑白二值图像。而后对含有噪声 的二值图像进行滤波,以去除图像中的噪声成分,如背景上的黑色孤立点、汉 字笔画中的孤立白点等。由于在样张扫描过程中,不可避免的会发生倾斜,为 了能正确切分汉字,规范汉字样本,应对倾斜的汉字样张图像进行校正。经切 分后的单个汉字图像还需要进行归一化处理,以消除因字号变化等因素带来的 汉字图像在尺度和位置上的变化。最后将归一化后的单字图像样本入库保存。 2 1 图像二值化 二值图像是指整幅图像画面内仅含黑、8 - 色的图像,在它们之间不存在 1 2 西华大学硕士学位论文 其他的灰度变化。二值化( b i n a r i z a t i o n ) 处理是多数o c r 系统的首要步骤, 二值化结果的质量将直接影响后续处理的效果,决定整个识别系统的性能指 标。对2 5 6 级灰度图像二值化能去掉扫描图像中不必要的信息,显著减小数据 存储容量,降低后续处理的复杂度。 二值化的方法很多,但却没有一种方法能对任何目标对象都普遍适用,必 须根据具体的处理对象而定。二值化的关键是要找到合适的阈值t 来区分目标 和背景。阈值判定法是利用了图像中所要提取的目标物与其背景在灰度特性上 的差异,把图像视为具有不同灰度级的区域的组合,通过选取阈值,将目标区 域从背景中分离出来。 阈值t 选择是关键。它可以表示为一个三元函数,即: t = 【( z ,少) ,n ( x ,y ) ,f ( x ,y ) 】,其中g ,y ) 是图像中像素位置,( x ,y ) 代表图 像中像素x ,y ) 处的灰度值,n ( x ,y ) 为( x ,y ) j 吾- j 围邻域的灰度特征。式中,某些 元素可以省略,因此,演化为以下三种形式: t = l 厂( x ,y ) 】- - - z 为全局阈值( 2 1 ) t = n ( x ,j ,) ,f ( x ,少) 】t 为局部阈值( 2 2 ) t = ( x ,y ) ,n ( x ,y ) ,f ( x ,y ) - t 为动态阈值( 2 3 ) 下面针对几种具体的二值化方法进行些讨论。本文实验对比了整体阈值法 和局部阈值法,结果表明:最大类间方差阈值分割法效果最佳,本文予以采用。 2 1 1 阈值法基本原理 设定某一阈值t ,用t 将图像的数据分成两大部分:大于t 的像素群和小 于t 的像素群。二值化把图像( x ,y ) 分成目标和背景两个区域。 设扫描后的汉字点阵为: c = f ( x ,y ) x = 1 , 2 p ,y = 1 , 2 ,q( 2 4 ) 式中( x ,少) 是像素g ,y ) 的灰度值。由于笔画部分厂g ,y ) 小,而背景部分 ( x ,y ) g k :,所以通过设定固定灰度阈值t ,将大于阈值t 的像素部分看成背景, 像素灰度值设为2 5 5 ;小于阈值t 的像素看成文字笔画,灰度值设为0 ,即: g g ,y ) = o ( 5 z ,y :三: (25)2如y j 5 5 ( x ,y ) 丁x = 1 , 2 - p , y = 1 , 2 - - q 【2 5 ) 西华大学硕士学位论文 b = g ( x ,y ) 即为二值化后的图形点阵。 2 1 2 全局阈值 全局阈值法根据文本图像的直方图或灰度的空间分布确定一个阈值,并根 据此阈值实现灰度文本图像到二值文本图像的转化。典型的全局阈值法包括最 大熵法、o s t u 法等。全局阈值法优点在于算法简单,只需要计算一次阈值。 对于目标和背景明显分离,直方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小区地下管网及设施更新改造工程节能评估报告
- 老旧供水管网改造工程施工方案
- 离婚协议书中财产分割及共同财产分割协议范本
- 复杂家庭结构离婚协议:共同债务处理与子女权益
- 离婚协议书中关于个人财产权益保护协议范本
- 分布式光伏与建筑一体化(BIPV)在2025年农村能源市场推广策略报告
- 2025年新能源产业绿色能源基础设施建设报告
- 十万个为什么知识竞赛题及答案
- 苏科版九年级物理上册13.3电流和电流表的使用说课稿
- 初中几何高考真题及答案
- 江苏省江阴市河塘中学2024-2025学年七年级上学期10月阶级段性练习语文试题
- 小学英语词汇量小学英语词汇大全(约1000词)(按字母顺序)修改版
- 2024年道路交通(驾驶员交通法规及安全)知识考试题库与答案
- 2024年全国职业院校技能大赛中职(数字产品检测与维护赛项)考试题库(含答案)
- 【乡村旅游探究的文献综述4200字】
- 2025年上半年教师资格考试高中历史学科知识与教学能力试卷与参考答案
- 城市供热管网抢修与维护工程技术规程
- DB2104∕T 0011-2022 地理标志产品 清原龙胆
- 《电动汽车双向无线电能传输系统技术规范》
- 医院护理培训课件:《安全注射》
- JBT 7361-2023 滚动轴承 零件硬度试验方法 (正式版)
评论
0/150
提交评论