(通信与信息系统专业论文)基于稀疏表示的脱机手写体汉字识别研究.pdf_第1页
(通信与信息系统专业论文)基于稀疏表示的脱机手写体汉字识别研究.pdf_第2页
(通信与信息系统专业论文)基于稀疏表示的脱机手写体汉字识别研究.pdf_第3页
(通信与信息系统专业论文)基于稀疏表示的脱机手写体汉字识别研究.pdf_第4页
(通信与信息系统专业论文)基于稀疏表示的脱机手写体汉字识别研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(通信与信息系统专业论文)基于稀疏表示的脱机手写体汉字识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 i l l liilllli i i i l l l l l illiillii i iiii i i l u q y 18 2 19 6 8 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:2 1 盖望兰圣 日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:蹲师 山东大学硕士学位论文 目录 摘要1 英文摘要2 第一章绪论3 1 1 脱机手写体汉字识别研究的目的及意义3 1 2 脱机手写体汉字识别存在的问题和困难4 1 3 脱机手写体汉字识别的研究现状及发展趋势7 1 4 本文的主要内容安排9 第二章脱机手写体汉字的预处理1 1 2 1 单个汉字的切分1 1 2 2 灰度化处理13 2 3 二值化处理1 4 2 4 平滑去噪处理16 2 5 细化处理l8 2 6 归一化处理1 9 第三章脱机手写体汉字的特征提取2 2 3 1 特征提取的意义2 2 3 2 统计特征2 3 3 3 结构特征2 8 3 4 基于稀疏表示的特征提取方法3 0 第四章脱机手写体汉字的分类识别3 3 4 1 几种常用分类器3 3 4 2 多分类器的集成3 7 第五章基于稀疏表示的脱机手写体汉字识别3 8 5 1 手写体汉字的稀疏表示:3 8 5 2 干扰汉字识别4 l 5 3 实验和结果分析4 1 总结4 4 参考文献4 5 j | 【谢5 ( ) 攻读学位期间发表的论文,著作5 1 山东大学硕士学位论文 c o n t e n t s a b s t r a c t 1 e n g l i s ha b s t r a c t 2 c h a p t e r1i n t r o d u c t i o n 3 1 1p u r p o s ea n dm e a n i n go fo f f l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n 。3 1 2p r o b l e m sa n dd i f f i c u l t i e si no f f l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n 4 1 3r e s e a r c hs i t u a t i o na n dd e v e l o p m e n tt e n d e n c yo fo f f l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o n 7 1 4t h em a i nc o n t e n t so f t h i sp a p e r 9 c h a p t e r2p r e p r o c e s s i n go f o f f l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n 11 2 1s e g m e n t a t i o no f as i n g l ec h i n e s ec h a r a c t e r 11 2 2g r a y - s c a l ep r o c e s s i n g 13 2 3b i n a r i z a t i o np r o c e s s i n g 1 4 2 4s m o o t h i n g l yd e n o i s i n gp r o c e s s i n g 16 2 5t h i n n i n gp r o c e s s i n g 18 2 6n o r m a l i z a t i o np r o c e s s i n g 19 c h a p t e r3f e a t u r ee x t r a c t i o no f o m i n e h a n d w r i t t e nc h i n e s ec h a r a c t e r 一2 2 3 1t h es i g n i f i c a n c eo f f e a t u r ee x t r a c t i o n 2 2 3 2s t a t i s t i c a lc h a r a c t e r i s t i c s 2 3 3 3s t r u c t u r ec h a r a c t e r i s t i c s 2 8 3 4f e a t u r ee x t r a c t i o nm e t h o db a s e do ns p a r s er e p r e s e n t a t i o n 3 0 c h a p t e r4 c l a s s i f i c a t i o nr e c o g n i t i o no fo f f l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r 3 3 4 1s e v e r a lc o m m o nc l a s s i f i e r 3 3 4 2t h ei n t e g r a t i o no f m u l t i p l ec l a s s i f i e r s 3 7 c h a p t e r5o f f l i n eh a n d w r i t t e n c h i n e s ec h a r a c t e rr e c o g n i t i o nb a s e do ns p a r s er e p r e s e n t a t i o n 3 8 5 1s p a r s er e p r e s e n t a t i o no f h a n d w r i t t e nc h i n e s ec h a r a c t e r s 3 8 5 2r e c o g n i t i o no fi n t e r f e r e n c ew i t hc h i n e s ec h a r a c t e r 41 5 3e x p e r i m e n t sa n dr e s u l t sa n a l y s i s 41 c o n c l u s i o n 二4 4 r e f e r e n c e s 4 5 t h a n k s 5 0 d e g r e eo f p a p e r sp u b l i s h e dd u r i n gt h ep e r i o d 5 1 山东大学硕士学位论文 摘要 脱机手写体汉字识别是模式识别领域的一个研究热点,应用前景非常广泛。 但由于汉字类别多且字形结构复杂,加上不同的人书写风格的不同使得手写体汉 字的变形很大,所以脱机手写体体汉字识别一直是目前文字识别领域的难题之一。 因为汉字具有图像的特征,所以图像处理的一些方法在汉字处理中也可以引 用。本文通过对图像和汉字的可类比性进行分析研究,对目前广泛采用的一些脱 机手写体汉字识别算法和前人的研究工作进行了认真的学习和总结。在此基础上, 把目前用于图像识别的g r o u pl a s s o 算法应用于脱机手写体汉字识别上,做了大 量的实验研究,提出了一种基于稀疏表示的脱机手写体汉字识别方法,取得了良 好的效果。具体做了如下几个方面的工作: 首先,对汉字图像的预处理的各个过程进行了分析,指出了预处理各个环节 对提高后续识别过程的影响及重要性。分析了现有两类特征提取方法:统计特征 提取法和结构特征提取法各自的适用领域,研究了基于距离、模糊识别、人工神 经网络和支持向量机等几种经典的分类器算法。总结这些算法各自的优点和缺点, 为寻找新的识别算法打下基础。 其次,针对现有的几种脱机手写体汉字识别经典算法识别率还不是很高这个 现实,基于压缩传感理论,根据稀疏表示具有很好的判别性这一特点,提出了利 用对手写体汉字进行稀疏表示的方法进行识别的方案,并给出了具体的算法一 g r o u pl a s s o 算法。 最后,针对稀疏表示g r o u pl a s s o 算法,以s c u t i r a c 手写体汉字数据库中的 汉字作为样本,在m a t l a br 2 0 0 9 b 软件环境下,分别采用本文的方法与其它一些经 典算法进行仿真实验。实验结果表明:本方法成功地提高了手写体汉字的识别率 和抗干扰能力,具有较高的推广价值。 关键词:汉字识别;手写体;稀疏表示;g r o u pl a s s o 算法;特征提取 。山东大学硕士学位论文 a b s t r a c t o 用i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o ni sar e s e a r c hh o t s p o ti nt h e p r e s e n tf i e l d o fp a t t e mr e c o g n i t i o n , a n dh a sb r o a da p p l i c a t i o np r o s p e c t s h o w e v e r , b e c a u s eo fm o r et y p e sa n dm o r ec o m p l e xs t r u c t u r eo fc h i n e s ec h a r a c t e r s ,a n di n a d d i t i o n , t h es e r i o u sd e f o r m a t i o no fc h a r a c t e rs h a p ec a u s e db yd i f f e r e n tw r i t i n gs t y l e so f d i f f e r e n tp e r s o n s ,o f f l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o ni sa l w a y so n eo f d i f f i c u l tp r o b l e m si nt h ep r e s e n tf i e l do fc h i n e s ec h a r a c t e r sr e c o g n i t i o n s o m em e t h o d so ft h ei m a g ep r o c e s s i n gc a nb ea l s oa p p l i e dt ot h ec h i n e s e c h a r a c t e rp r o c e s s i n gb e c a m et h ec h i n e s ec h a r a c t e r sp o s s e s st h ec h a r a c t e r i s t i co fi m a g e s i nt h i sp a p e r , w es t u d ya n ds u m m a r i z ec a r e f u l l yt h eo f f i i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o na l g o r i t h ma n dt h ep r e v i o u sw o r k sb ya n a l y z i n ga n di n v e s t i g a t i n g t h ea n a l o g yb e t w e e ni m a g e sa n dc h i n e s ec h a r a c t e r s b a s e do nt h a t , w ea p p l yt h eg r o u p l a s s oa l g o r i t h m ,w h i c hi su s e dt ot h ei m a g er e c o g n i t i o n , t ot h eo f f i i n eh a n d w r i t t e n c h i n e s ec h a r a c t e rr e c o g n i t i o n , c a r r yo u tal o to fe x p e r i m e n t a lr e s e a r c h ,p u tf o r w a r da l l o f f i i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nm e t h o do nb a s i so ft h es p a r s e r e p r e s e n t a t i o n , a n do b t a i ng o o de f f e c t s t h ep a p e ri sa r r a n g e da sf o l l o w s : f i r s t l y , w ea n a l y z ee a c hp r o c e d u r eo ft h ec h a r a c t e ri m a g ep r e p r o e e s s i n g ,a n dp o i n t o u ti t se f f e c to ni m p r o v i n gt h ef o l l o w - u pr e c o g n i t i o np r o c e s sa n di t si m p o r t a n c e w e a n a l y z et w ot y p e so fe x i s t i n gf e a t u r ee x t r a c t i o nm e t h o d s :s t a t i s t i c a lf e a t u r ee x t r a c t i o n m e t h o da n ds t r u c t u r ef e a t u r ee x t r a c t i o nm e t h o df o rt h e i ra p p l i e df i e l d , a n di n v e s t i g a t e s e v e r a lc l a s s i c a lc l a s s i f i e r a l g o r i t h m ,r e s p e c t i v e l y , b a s e d o nt h e d i s t a n c e ,f u z z y i d e n t i f i c a t i o n , a r t i f i c i a ln e u r a ln e t w o r ka n ds u p p o r tv e c t o rm a c h i n e s u m m a r i z et h e r e s p e c t i v ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h e s ea l g o r i t h m , a n dl a yaf o u n d a t i o ni n o r d e rt of i n dan e wr e c o g n i t i o na l g o r i t h m s e c o n d l y ,n o t i c i n gt h ec a l s et h a tt h er e c o g n i t i o ne f f i c i e n c yt h a tt h ep r e s e n ts e v e r a l o f f l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i z cc l a s s i c a la l g o r i t h mi s s t i l ln o th i g h , b a s e do nt h ec o m p r e s s i o ns e n s o rt h e o r y ,a n da c c o r d i n gt os u c haf e a t u r et h a tt h es p a r s e r e p r e s e n t a t i o np o s s e s s e sg o o dd i s t i n c t i o n , w ep r o p o s eas c h e m et oi d e n t i f ys p a r s e r e p r e s e n t a t i o nf o rh a n d w r i t t e nc h i n e s ec h a r a c t e r s ,a n dg i v eas p e c i f i ca l g o r i t h m g r o u p l a s s oa l g o r i t h m f i n a l l y , c o n t r a p o s i n gs p a r s er e p r e s e n t a t i o ng r o u pl a s s oa l g o r i t h m , u s i n gt h e c h i n e s ec h a r a c t e r si ns c u t - i r a ch a n d w r i t t e nc h i n e s ec h a r a c t e rd a t a b a s ea sa s a m p l e , i nt h em a t l a br 2 0 0 9 bs o f i w a l ee n v i r o n m e n t , w ea d o p tt h em e t h o d si nt h i sp a p e ra n d o t h e rc l a s s i c a la l g o r i t h m ,a n dp e r f o r mt h es i m u l a t i o ne x p e r i m e n t s t h er e s u l t ss h o w t h a tt h i sm e t h o ds u c c e s s f u l l yi m p r o v e sh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nr a t e a n da n t i i n t e r f e r e n c ec a p a b i l i t ya n dp o s s e s s e sh i g hp r o m o t i o no fh i g hp o p u l a r i z a t i o n v a l u e k e ,rw o r d s :c h i n e s ec h a r a c t e rr e c o g n i t i o n ;h a n d w r i t t e n ;s p a r s er e p r e s e n t a t i o n ;g r o u p l a s s oa l g o r i t h m ;f e a t u r ee x t r a c t i o n 2 山东大学硕士学位论文 第一章绪论 当今社会已经进入了信息化的时代,每天都有大量的信息出现,这些都是人 类社会发展中得到的宝贵财富,应该保存下来以供后人借鉴和阅读。但是随着纸 张这种传统的信息存储介质消耗的增加,纸质存储介质存储信息量小、占据空间 大、不易长期保存的缺点逐步显露出来。所以以更小的代价和更高的效率存储人 类社会历史长河中获得的信息财富值得我们深刻的思考。 上个世纪中期计算机的发明使得人类社会进入了一个全新的历史时期,计算 机技术在各个领域得到非常广泛的应用。因为计算机存储信息方便快捷且在很长 的时间内不会丢失,所以使用计算机来存储信息成为了一种趋势。但是,随之而 来的问题是如何解决信息输入的低速和信息输出的高速之间的矛盾,这一直是汉 字识别特别关注的热点问题。 1 1 研究脱机手写体汉字识别的目的及意义 1 1 1 背景知识概述 我国的汉字从产生到现在经历了几千年的历史,随着各个国家汉语交流持续 开展,世界各国使用汉字的人数越来越多,汉字已经成为了世界上使用人数最多 的一种文字。但是,由于汉字是一种象形文字,跟字母化的文字相比,存在着录 入速度低的问题。这已经成为当今信息化社会里影响人机交流效率的一个重大瓶 颈。 汉字识别是指用计算机自动读取书写在介质上的汉字的一种技术,它是计算 机智能化的发展趋势,也是将汉字快速、自动录入计算机的重要手段。汉字识别 可分为印刷体汉字识别和手写体汉字识别两大类,而手写体汉字识别又可分为联 机手写体汉字识别和脱机手写体汉字识别。 联机手写体汉字识别是指用户通过手写板等录入工具,按照汉字的书写顺序 在线将汉字笔画的点阵数据输入计算机的一种识别方法,这种方法的特点是边写 山东大学硕士学位论文 边识别,计算机记录了汉字笔画的先后次序信息。由于联机手写体汉字识别有一 个时间作为参照物,更容易获取构成汉字的重要结构信息,因此这种识别方法的 难度比脱机手写体汉字识别要低,目前已经达到了实用的水平。 脱机手写体汉字识别是指不包含书写先后顺序信息,建立在对汉字图像进行 处理上的一种汉字识别技术。这种方法可以利用的信息量比联机手写体汉字识别 少,识别难度相对较大。 脱机手写体汉字识别是字符识别领域内最困难、也是最具有挑战性的研究课 题。经过研究人员几十年的不懈努力,我们国家的印刷体汉字识别和联机手写体 汉字识别技术已成功商用,但脱机手写体汉字识别目前还处于研究阶段。 1 1 2 研究脱机手写体汉字识别的目的及意义 汉字录入方法有人工输入和计算机自动识别两种。其中人工录入速度慢且劳 动强度大,在进行大量文字资料处理时这种方法显然不太适合。对汉字进行识别 的基本原理是通过扫描仪、光电藕合器件等输入装置将汉字点阵图像转换成数字 化的电信号然后输入计算机,计算机根据相关的分类识别方法在汉字字库中识别 出与之相匹配的汉字。研究手写体汉字识别的目的就是解决快速而又自动地将汉 字输入计算机,进而利用计算机方便快速地进行汉字信息的加工处理。脱机手写 体汉字识别在以下几个领域【l j 具有较广泛的应用前景: 第一,在信息处理时手写体汉字识别技术能够大幅度提高计算机的使用效率; 第二,汉字自动识别可用于计算机智能接口的开发与研究; 第三,汉字自动识别对办公自动化、新闻出版等行业的信息录入有巨大的推 动作用: 第四,很多早期的文献资料都是以图像的形式存储在计算机中的,需要较大 的存储空间,通过汉字识别技术可以将图像形式转化为字符形式,从而大大节省 存储空间,提高网络传输效率。 1 2 脱机手写体汉字识别存在的问题和困难 4 手写体汉字识别是一种模式识别问题,其最主要的性能指标是识别率和识别 山东大学硕士学位论文 速度。在不同场合对识别率和识别速度的要求是不一样的。但是作为一种汉字输 入手段,一个成熟的汉字识别系统的性能至少应该比传统的输入方法高。目前专 业打字人员录入汉字的正确率高达9 9 以上,录入速度最高可达2 0 0 字分,平均 速度也会在1 0 0 字分左右。上述指标应该是一个成熟汉字识别系统必须达到的最 低要求,而在一些需要高速大量输入的特殊场合( 比如数据库的建立) 对汉字识 别系统性能的要求还应该更高。 目前要达到上述要求还是非常困难的,其中主要的原因是由手写体汉字跟其。 它字符相比有很多特殊性。手写体汉字识别的特殊性有以下几个方面: ( 1 ) 字量大 我们国家常用汉字大约有三四千个,国标g b 2 3 1 2 8 0 二级汉字共6 7 6 3 个。而 :康熙字典中竟然接近五万个汉字。在实际应用中,一个成熟的汉字识别系统 至少要能识别出三四千个常用汉字,才能满足人们的实际需要。但是,目前的计 算机识别技术还不是很完善。识别过程是采用将想要识别的汉字与事先存储在计 算机内的汉字一一比较,找出其中最相似的一个汉字作为这个汉字的最终识别结 果。由于汉字量非常大,这种对比方法使得识别速度受到很大的影响。为提高识 别速度,研究者提出可以采用按树逐级分类的方法进行识别,这种方法虽然提高 了识别速度,但同时也会造成识别率降低。所以,手写体汉字识别急需解决的困 难之一就是汉字字量大导致识别速度低的问题。 ( 2 ) 字体多 我国的汉字字体种类繁多,不同字体写法往往差别较大。再加上手写体汉字 的不同字体虽然拓扑结构存在一定联系,但是不同人写出的字的笔画粗细、长短 和形态等往往存在很大差异,各个部份的大小比例与位置也不尽相同。特别是草 书这种字体,有很多写法跟楷书和行书几乎没有相似性,给分类识别带来很大困 难。 ( 3 ) 结构复杂 我国的汉字笔画总体较多,结构复杂。笔画最多的汉字有三十多画,平均也 有十一画。结构上又有左右、上下、左中右、上中下,半包围,全包围等等不同。 这就给分类器的设计带来很多麻烦。 ( 4 ) 字形相似 5 山东大学硕士学位论文 虽然有一部分汉字结构简单、笔画少,但是字形有些却十分相似,比如“干、 千 和“天、天 等。在设计分类器时,要考虑将这些比较精细的结构差别区分 开来。 ( 5 ) 书写变化大 汉字中相似字比较多,不同人书写风格又千差万别,这些差异造成手写体汉 字的变形往往很大,具体有以下几点: 。 第一,笔画不规范,书写时出现变形的现象,比如横不水平,竖不垂直,直 线变弯曲,点写得长变成捺,捺写得短变成点,两个笔画该连的没有连上,不该 连的却连在一起,不同书写工具写出的字笔画粗细不均等现象。 第二,笔画之间、部首之间相对位置不固定。比如左右结构的字左右两部分 距离不固定,在极端情况下有可能会被识别成两个字。 第三,书写速度快时的连笔现象或笔画与笔画的相互粘连现象。这种现象在 需要速记的场合显得优为突出。这种连笔或粘连可能会导致书写出的汉字出现结 构上的本质变化,给手写体汉字识别研究带来很大困难。 以上原因使得手写体汉字识别的一些基本方法在很多汉字面前根本不起作 用,一些字本该比较稳定的特征变得非常不稳定。书写变化大是脱机手写体汉字 识别想要达到实用化的最大障碍。 ( 6 ) 字之间相互粘连 在书写速度比较快时,字与字之间相互粘连的现象变得非常突出。这就要求 在进行单个汉字识别之前先要把不同汉字分割开来。寻找出一种有效的汉字分割 方法成为手写体汉字识别研究中一项极富挑战性的课题。 正是由于手写体汉字存在以上几个特殊之处,要想保证识别系统有足够高的 识别率就必须加大识别系统中参考模板的数量,找尽可能多的人写同一个字,这 就会造成识别速度的明显降低。所以,怎样在识别率高的前提下提高识别速度成 为手写体汉字识别系统的研究重点。 6 山东大学硕士学位论文 1 3 脱机手写体汉字识别研究现状和发展趋势 1 3 1 发展历程 最早对汉字识别进行研究的是美国i b m 公司的c a s e y 和n a g y t 2 1 ,他们在1 9 6 6 年采用模板匹配法实现了对一千个印刷体汉字的识别。当今在一些汉字使用比较 频繁的国家都有很多研究者在进行手写体汉字的识别研究。比如中国、日本、美 国、加拿大等,其中研究水平最高的是国家当属日本p j 。 上世纪八十年代日本的f 哂i 【4 】等人通过集成汉字的笔画密度、笔画方向和背景 特征研制出了一个汉字识别系统,通过对一千个汉字进行识别,得到了高达8 5 的识别率。另外,日本的东芝、三洋、富士通等公司也都相继研制出了各自的汉 字识别系统。其中最具代表性的当属东芝公司的印刷体汉字识别系统 o c r v 5 9 5 1 5 1 ,这个系统可以实现对两千多个印刷体汉字和符号的识别,识别率高 达9 9 。1 9 8 6 年n i t 综合通信实验室研制出的汉字识别实验装置【6 l ,可以识别汉 字,英文字母,数字,平假名,片假名等三千多个字符,识别率高达9 8 。 我国在8 0 年代才开始手写体汉字识别的研究【7 j 。有几个脱机手写体汉字识别 系统取得了较了的成绩,其中清华大学的“脱机手写体文本汉字识别系统 和 t h o c r - 9 7 综合集成汉字识别系统等都取得了可喜的成绩。但这些系统也存在较 明显的不足,那就是系统对待识别的手写体汉字样本的书写工整度要求还比较高。 1 3 2 研究现状及发展趋势 脱机手写体汉字识别是汉字识别中难度最大的一个领域。要想提高识别系统 的识别率就要对书写者的书写规范程度进行限制,但限制过多势必会对识别系统 的实用性产生影响。反之,若对书写者的限制较少,则识别率就会降低。为解决 这个矛盾,目前研究者主要在字形变换、多特征融合、多分类器集成等方面寻求 对识别系统进行改进。需解决的问题主要以下几个方面:一是提高手写体汉字的 行、列切分正确率;二是找到一组适用于各种字体、笔迹的特征向量;三是解决 汉字字量大影响识别速度的问题。 针对当前脱机手写体汉字识别的研究现状以及存在的一些问题,以下几个方 7 山东大学硕士学位论文 面【8 1 需要我们进一步的研究和思考: ( 一) 切分技术 目前脱机手写体汉字单字识别率已有很大的提高,但由于手写体汉字在书写 时具有随意性,不同人书写出来汉字大小、间距变化往往很大,使得手写体汉字 比印刷体汉字更难切分,所以字符分割是识别系统应用的一大障碍。 ( 二) 特征提取与分析技术 手写体汉字识别的关键环节之一就是快速提取能描述汉字的稳定可靠的特 征。一个好的特征应该使同一个汉字的不同书写者的书写样本具有尽量多的共同 点,而在不同的汉字之间的差异性尽可能得大。另外,虽然一组特征可以区分不 同汉字,却不能恢复原汉字点阵,因此寻找与这些特征互补的其它特征也是以后 要解决的问题之一。 ( 三) 生成识别字典 由于不同书写者写出的汉字字形差别很大,要想使得识别系统能够适用于所 有的人就需要制作一个具有广泛代表性的识别字典,这是提高识别率的关键途径。 而由于存在多种字体的原因同一个汉字又有不同写法,这就要求识别字典具有识 别各种模板的能力。 ( 四) 把人脑的反馈思想引入汉字识别 人的大脑在分辨一个模糊不清的汉字时总是会反复琢磨,就是说人对事物的 认知过程具有一种反馈的思想。人在阅读时一般不是一个字一个字的看,而是根 据上下文的联系跳跃性的进行。所以研究者提出了一种符合人类心理认知过程的 基于反馈的汉字识别方法,为手写体汉字识别研究指出了一种新的思路。 ( 五) 仿生模式识别 仿生模式识别的基本思想是找出一类手写汉字样本在特征空间中分布的最佳 覆盖。这种方法更加接近人类对事物的认知过程,体现一类事物与无限类事物的 区别。仿生模式识别在进行大样本手写体汉字识别时具有较高的优越性。 ( 六) 多特征组合与多分类器集成 手写体汉字识别不是单一模式识别问题,而是一个非常复杂的多模式识别问 题。采用单一方法处理问题不能达到较好的效果。因此,采用多种识别模式的有 机组合,取长补短,是脱机手写体汉字识别今后的一个发展趋势。 3 山东大学硕士学位论文 1 3 3 稀疏表示理论用于汉字识别的可行性分析 脱机手写体汉字识别研究的这些年取得了很多成果,但实际应用中脱机手写 汉字识别仍有不少需要改进的地方,其中识别率的提高是重中之重。传统方法虽 然在提高识别率上进行了不少的改进,也取得了较好地成绩,但跟理想的识别效 果还有一段距离。 上世纪九十年代,研究者提出了信号基于过完备原子库上的分解思想,通过 信号在过完备库( o v e r c o m p l e t ed i c t i o n a r y ) 上的分解,可得到一个表示信号基 简洁方法。这种在变换域用尽量少的基函数来准确表示原始信号的方法称为信号 的稀疏表示( s p a r s er e p r e s e n t a t i o n ) 。由于具有这种优点,稀疏表示理论很快从 一维信号的研究推广到二维图像的研究上,并表现出了较大的优越性。 近些年的视觉感知研究表明:许多中低层的人体视觉神经元对外部刺激具有 选择性。在视觉系统的神经细胞处理信息的过程中,一个重要的约束条件就是编 码要具有稀疏性,即利用较少资源尽可能多地况且有效地编码出更多的信息。为 了解决超完备基的稀疏线性表示计算问题,研究者提出了压缩传感理论 ( c o m p r e s s i v es e n s i n g ) ,英文简称c s ,该理论的思想是在获取信号同时对数据 进行适当的压缩,对可稀疏表示信号的采集与压缩合二为一。在c s 理论提出以后, 许多研究者进行了大量的稀疏表示领域的研究1 9 - 1 1 l 。由于每个基函数的最稀疏表 示具有较好的判别性,研究者利用稀疏表示这种判别性实现了人脸识别【1 2 1 ,但使 用的是训练样本而不是超完备基。在进行识别时如果每类训练样本足够充分,那 么测试样本就可表示为同一类样本的线性组合,对于整个训练样本集来说,其表 示是非常稀疏的,所以分类识别问题就可以通过稀疏表示的方法来实现。 因为中国的汉字具有图像的特征,所以图像处理的一些方法在汉字处理中也 可以引用,本文通过对图像和汉字的可类比性进行分析研究,基于上述思想提出 了一种使用稀疏性相关特征的手写汉字识别方法。 1 4 本文的主要内容安排 本篇论文由以下五部分构成: 9 山东大学硕士学位论文 第一章,阐述脱机手写体汉字识别研究的目的及意义,分析当前脱机手写体 汉字识别的研究现状及发展趋势,指出当前手写体汉字识别值得我们进一步的思 考和解决的一些问题,确定本文的研究方向。 第二章,介绍汉字图像的预处理方法,汉字图像的预处理阶段一般包括单个 汉字的切分、灰度化、二值化、平滑去噪、细化、归一化等几个步骤。 第三章,介绍汉字图像的两类特征提取方法:统计特征提取法和结构特征提 取法,对这两类方法各自的优缺点进行了详细的对比和分析。然后对本文采用的 基于稀疏表示的提取方法进行理论探讨。 第四章,介绍了几种常用分类器,并对今后手写汉字分类识别方法发展趋势 进行了分析和研究。 第五章,提出了一种基于稀疏表示的脱机手写体汉字识别方法一g r o u pl a s s o 算法,并在m a t l a br 2 0 0 9 b 环境下对该识别方法进行了实验验证。得到了令人满意 的效果。 最后,对本文的研究工作进行总结,提出进一步研究计划。 1 0 山东大学硕士学位论文 第二章脱机手写体汉字的预处理 因为处理汉字与处理图像有类似性,所以本文尝试把图像识别中经常采用的 稀疏表示识别方法应用于汉字识别中。 汉字识别一般可分为预处理、特征提取、分类识别和后处理四个阶段,其中 预处理阶段又可分为二值化、平滑处理和归一化等几个步骤,如图2 1 所示,本 章首先介绍手写体汉字的预处理。 汉叫预处理 h 特征提取h 分类识别h i 后处理卜 识 字 节 矗 k 厶 别 输 输 入 出 平 归 知 值滑识 化处化 库 理 图2 1 汉字识别过程 实验用的手写体汉字测试样本图像,需要输入设备扫描后转换为数字信号输 入计算机。在扫描过程中会产生诸如杂质、聚焦不好、潦草等噪声。所以对汉字 图像进一步处理之前,必须首先进行预处理【1 3 1 。 汉字图像预处理工作的好坏直接影响到识别效果。汉字图像的预处理阶段一 般包括单个汉字的切分、灰度化、二值化、平滑去噪、细化、归一化等几个步骤【1 4 】。 2 1 单个汉字的切分2 1 单个汉字的切分 一个完整的脱机手写体汉字识别系统不仅要能处理单个汉字,而且还应该能 处理整篇的手写体汉字文稿。这就要求识别系统必须要先对扫描输入的整个手写 体汉字文稿图像进行处理,从中正确切分出单个汉字,以供下一步识别1 1 5 】。汉字 切分包括行切分和列切分两部分。 - 山东大学硕士学位论文 2 1 1 行切分 行切分就是把汉字文稿中的不同行的文本区分开来。行切分效果的好坏跟汉 字书写质量有很大关系。如果汉字文稿行与行的间隔模糊,切分起来就有比较困 难;反之如果间隔明显,那么行切分就比较容易。 行切分可以用如下方法实现: 设汉字的图像为f ( i ,j ) ,汉字图像大小为口b 。贝j j f t i ,) 在i 行上的投影函 数为 b g ( f ) = ( f ,j f ) o = l ,2 ,口) ( 2 1 ) ;l 上式中g t i ) 反映了该汉字图像按行灰度累积的密度分布情况。通过分析譬( f ) 的 分布情况,就能够得到汉字文本图像按行书写的规律,从而确定汉字的首行和末 行的下标。 如果第i 行图像正好处于行与行之间的空白,贝l jg t i ) 的值几乎为0 ,否则g ( j ) 的 值至少要比一个汉字的平均投影密度大。由此就可以选出一个合适的g ( f ) 阈值进行 二值化处理,形成二值序列g 1 9 2 9 3 g m ,二值化处理以后的g ( f ) 值只有0 ,1 两种 情况。我们把二值序列中连续为1 的序列称为行段,连续为0 的序列为间段,序列 中1 或0 的个数称为行段长度。 先把所有行段的长度求出来,然后计算平均行段长度。如果行段长度比所处 理的汉字规模大很多,就可以对汉字文本图像进行归一化处理,否则逐渐增大行 段长度,当行段长度小于等于三分之二平均行段长度时分行。 2 1 2 字切分 因为存在左右结构的分离字,再加上不同的人写字时可能写得很宽或很窄, 以及字与字之间可能存在的交连,所以字间距一般不如行间距明显,字切分难度 非常大。如果没有分隔线或者规定固定的字间距,那么很难会找到解决办法。再 加上汉字之间的标点符号或其它非汉字符号的影响,使得切分起来更是难上加难。 在书写比较规范的前提下,可采用下面方法进行字切分: 1 2 山东大学硕士学位论

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论