(信号与信息处理专业论文)印刷体汉字识别系统的特征提取和匹配识别研究.pdf_第1页
(信号与信息处理专业论文)印刷体汉字识别系统的特征提取和匹配识别研究.pdf_第2页
(信号与信息处理专业论文)印刷体汉字识别系统的特征提取和匹配识别研究.pdf_第3页
(信号与信息处理专业论文)印刷体汉字识别系统的特征提取和匹配识别研究.pdf_第4页
(信号与信息处理专业论文)印刷体汉字识别系统的特征提取和匹配识别研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(信号与信息处理专业论文)印刷体汉字识别系统的特征提取和匹配识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人迮理i :人学硕十学位论文 摘要 汉字有数千年的历史,也是世界上使用人数最多的文字,并且它不同于字母化和拼 音化的文字,因此,汉字识别技术研究是社会信息化发展的关键因素。在这个信息爆炸 的年代,如何让计算机高效地“理解 如此之多的特别是印刷体汉字信息,以此节省大 量的人力,是汉字识别识别技术的重要问题。提高印刷体汉字识别效果,包括识别率和 识别速度,对于办公自动化、机器翻译和人工智能等高科技领域,都有重要的实用价值 和理论意义。 本文以国家标准g b 2 3 1 2 8 0 中第一级常用汉字共3 7 5 5 个汉字为字库,从最为影响 印刷体汉字识别效果的特征提取和匹配识别两个方面分别进行阐述。文章对这两个方面 的算法进行了仔细的研究,同时做出了重要的改进。相比原算法,改进算法在效率上有 了很大的提升。本文的主要工作如下: ( 1 ) 本文综合考虑了汉字结构特征和统计特征的优缺点,分析了诸多现如今汉字识 别中常用的特征类型,有繁简度特征、连通体及封闭区域特征、外围及网格特征和汉字 纹理特征等。在研究这些特征提取算法的基础上,分析它们存在的问题,并提出了相应 的改进算法。这些改进算法一定程度上克服或者减弱了原有的问题,为实现组合优化特 征提供了有力保证。另外也提出了汉字不变编码特征和基于汉字笔画类型的特征点特征 等特征,在很大程度上提升了本套印刷体汉字识别系统的识别效果。 ( 2 ) 在匹配识别环节,本文对常用的聚类算法,包括i s o d a t a 、u p g m a 、k m e a n s 以及k - m e a n s 的一种改进算法进行了仔细地研究,并逐一分析了它们的优缺点,针对印 刷体汉字识别提出了对应的问题解决方案。最后提出了一种基于u p g m a 优化初始类中 心的改进k - m e a n s 聚类算法,该算法有效地结合了划分聚类和汇聚聚类算法的优点。实 验表明,该方法具有聚类准确率高,聚类速度快等优点。 在基于对汉字特征提取和匹配识别环节的重点研究的基础之上,统筹考虑整个系统 流程配置,并开发出一套印刷体汉字识别系统,并取得了令人满意的识别效果。 关键词:印刷体汉字识别;特征提取;聚类方法;k - m e a n s ;匹配识别 大连理工大学硕士学位论文 r e s e a r c ho nf e a t u r ee x t r a c t i o na n dm a t c h i n gr e c o g n i t i o no fp r i n t e d c h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e m a b s t r a c t c h i n e s ec h a r a c t e ru s e db ym o s tp e o p l ei nt h ew o r l dw i t ht h o u s a n d sy e a r sl nh i s t o r yi s d i f f e r e n tf r o ma l p h a b e t i cl e t t e r s s ot h er e s e a r c ho nc h i n e s ec h a r a c t e rr e c o g n i t i o nt e c h n o l o g y i st h ek e yt a s ki nt h es o c i a li n f o r m a t i z a t i o nd e v e l o p m e n t i nt h ei n f o r m a t i o ne x p l o s i o ne r a , h o wt om a k ec o m p u t e r se f f e c t i v e l y “u n d e r s t a n d ”s om a n yc h i n e s ec h a r a c t e r ,e s p e c i a l l y p r i n t e dc h i n e s ec h a r a c t e ri no r d e rt os a v em u c hm a n p o w e r ,i sa ni m p o r t a n tf a c t o ri nc h i n e s e c h a r a c t e r r e c o g n i t i o nt e c h n o l o g y i m p r o v i n g t h ee f f e c to fp r i n t e dc h i n e s ec h a r a c t e r r e c o g n i t i o n ,i n c l u d i n gr e c o g n i z i n gr a t ea n dr e c o g n i z i n gs p e e d ,h a si m p o r t a n tp r a c t i c a la n d t h e o r e t i c a ls i g n i f i c a n c ei no a ,m a c h i n et r a n s l a t i o n ,a ia n ds oo n t a k i n gt h ef i r s tc l a s st o t a l l y3 7 5 5c h i n e s ec h a r a c t e ri nt h eg b 2 3 1 2 8 0a st h ec h a r a c t e r d a t a b a s e ,t h i sp a p e re l a b o r a t e sc h i n e s ec h a r a c t e rr e c o g n i t i o nt e c h n o l o g yf r o mf e a t u r e e x t r a c t i o na n dm a t c h i n gr e c o g n i t i o n i td o e sc a r e f u l l yr e s e a r c ho nt h e s et w oa s p e c t sa n d m a k e si m p o r t a n ti m p r o v e m e n t c o m p a r e d 、i t l lo r i g i n a la l g o r i t h m s ,t h ei m p r o v e da l g o r i t h m s p e r f o r mb e t t e r t h em a i n t a s ko ft h ep a p e ri sa sf o l l o w ( 1 ) i tt a k e ss t r e n g t h sa n dw e a k n e s s e so fb o t hs t r u c t u r ef e a t u r e sa n ds t a t i s t i c a lf e a t u r e s i n t oc o n s i d e r a t i o na n da n a l y z e sm a n yk i n d so fc h a r a c t e rf e a t u r e s ,i n c l u d i n gc o m p l e x i t y , c o n n e c t e dc o m p o n e n t s ,c l o s e dr e g i o n s ,c o a r s ep e r i p h e r y ,c e l l u l a rf e a t u r e ,t e x t u r ef e a t u r ea n d s oo n b a s e do nt h er e s e a r c ho ft h ef e a t u r ee x t r a c t i o na l g o r i t h m s ,i ta n a l y z e sp r o b l e m sa n d p r e s e n t sc e r t a i ni m p r o v e da l g o r i t h m st h a to v e r c o m eo rw e a k e nt h ep r o b l e m sa n dp r o v i d e s c o m b i n a t o r i a lo p t i m i z a t i o nf e a t u r ew i t i lap o w e r f u lg u a r a n t e e m o r e o v e r ,i ta l s op r e s e n t s s t r o k e sc o d ef e a t u r ea n df e a t u r ep o i n t sb a s e do nc h i n e s ec h a r a c t e rs t r o k e st y p e s ,a n db o t ho f t h e mi m p r o v et h er e c o g n i z i n ge f f e c t so ft h i sc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e m ( 2 ) d u r i n gt h em a t c h i n gp r o c e s s ,i te l a b o r a t e su s u a lc l u s t e r i n gm e t h o d ,i n c l u d i n g i s o d a t a ,u p g m a ,k m e a n sa n do n ei m p r o v e dk - m e a n sm e t h o d ,a n dp r e s e n t sc e r t a i n r e s o l u t i o n sc o n s i d e r i n gp r i m e dc h i n e s ec h a r a c t e rr e c o g n i t i o n f i n a l l y ,t h ep a p e rp r e s e n t sa n i m p r o v e dk - m e a n sm e t h o db a s e do no p t i m i z i n gi n i t i a lp o i n t sb yu p g m a a n dt h i sm e t h o d e f f e c t i v e l yt a k e sg o o da d v a n t a g e so fh i e r a r c h i c a lc l u s t e r i n ga l g o r i t h m sa n dp a r t i t i o n a l c l u s t e r i n ga l g o r i t h m s e x p e r i m e n tr e s u l t s s h o wt h a tt h ep r o p o s e da p p r o a c hh a sh i g h e r a c c u r a c ya n ds p e e d 一i i 印刷体汉字识别系统的特征提取和匹配识别研究 c o n c e n t r a t i n go nt h er e s e a r c ho fb o t hc h i n e s ec h a r a c t e rf e a t u r ee x t r a c t i o na n dm a t c h i n g p r o c e s s ,i tt a k e st h ee n t i r ef l o wc o n f i g u r a t i o no ft h es y s t e mi m oc o n s i d e r a t i o na n dd e v e l o p sa p r i m e dc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e ma n da c h i e v e ss a t i s f a c t o r yr e s u l t s k e yw o r d s :p r i n t e dc h i n e s ec h a r a c t e rr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;c l u s t e r i n gm e t h o d ; k m e a n s ;m a t c h i n gr e c o g n i t i o n 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:血剧垒这整幺蜀,鬟必舭旌。叁盘区砬幺割碰 作者签名:j 夏红兰l 一 日期:肆年上月j 羔日 人选理i :人学硕十研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目:哿皿陶超掣玺嘘耸羟纪旌豇劢啦圆避巨趔l 一 作者签名: 导师签名: e l 期:地芏年k 月l 日 日期:超芷年立月厶l 日 人连理i :人学硕十学位论文 1绪论 1 1汉字识别的研究意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。 同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大 大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更 是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。 然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机, 是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的关键问题, 更是传播与弘扬中华民族悠久历史文化的关键问题i l j 。但人工键入速度不仅慢而且劳动 强度大,一般的使用者每分钟只能输入4 0 - - - 5 0 个汉字。这种方法不适用于需要处理大 量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升 高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档 资料,汉字自动识别输入就成为了最佳的选择。 因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的 应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术 领域。汉字识别是模式识别的重要应用领域,也是光学字符识别o c r ( o p t i c a lc h a r a c t e r r e c o g n i t i o n ,光学字符识别) 的重要组成部分l 引。汉字识别是一门多学科综合的研究课题, 它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、 几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝力缕的联系。一方 面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科 的发展。因而有着重要的实用价值和理论意义。 1 2 印刷体汉字识别技术的发展历程 计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。加上人 们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。印刷体文字的 识别可以说很早就成为人们的梦想,早在1 9 2 9 年,t a u s h e k 就在德国获得了一项有关 o c r 的专利【3 j 。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据 报表等文字材料输入计算机进行信息处理,从5 0 年代就丌始了西文o c r 技术的研究, 以便代替人工键盘输入。 印刷体汉字的识别最早可以追溯到6 0 年代。1 9 6 6 年,i b m 公司的c a s e y 和n a g y 发表了第一篇关于印刷体汉字识别的论文1 4 j ,在这篇论文中他们利用简单的模板匹配法 印刷体汉字识别系统的特征提取和匹配识别研究 识别了1 0 0 0 个印刷体汉字。7 0 年代以来,同本学者做了许多工作,其中有代表性的系 统有1 9 7 7 年东芝综合研究所研制的可以识别2 0 0 0 个汉字的单体印刷汉字识别系统:8 0 年代初期,同本武减野电气研究所研制的可以识别2 3 0 0 个多体汉字的印刷体汉字识别 系统,代表了当时汉字识别的最高水平。此外,同本的三洋、松下、理光和富士等公司 也有其研制的印刷汉字识别系统。这些系统在方法上,大都采用基于k - l 数字变换的匹 配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵, 没有得到广泛应用。 我国对印刷汉字识别的研究始于7 0 年代末、8 0 年代初,大致可以分为三大阶段【5 l : ( 1 ) 第一阶段从7 0 年代末期到8 0 年代术期,主要是算法和方案探索。研究人员提 出了用于汉字识别的各种方法和特征,如特征点方法、汉字周边特征、汉字的结构元特 征等,并在此基础上成功地研究出一批汉字识别系统,其中比较突出的有清华大学电子 工程系研制成功的清华多字体印刷汉字识别系统,沈阳自动化所研制的沈阳印刷汉字识 别系统和北京信息工程学院研制成功的北信单体印刷汉字识别系统。这一阶段是印刷汉 字识别成果倍出的时期。但是,这些成果还仅仅处于实验室阶段,没有转化为产品来实 际解决印刷汉字的自动输入问题。 ( 2 ) 第二阶段是9 0 年代初期,中文o c r 由实验室走向市场,初步实用。在实际的 汉字识别输入应用条件下,检验和考查这些研究成果。而一个汉字识别系统能否通过这 一严峻的考验,并进一步发展,取决于三个重要因素:第一该系统能否根掘社会的发展, 用户需求的变化,灵活地改进或者增加系统功能,以适应市场需求;第二该系统是否能 在识别效率、识别速度和系统资源三者之间协调好关系;第三该系统是否具有足够高的 抗噪性能,以适应各种各样的实际应用坏境。 ( 3 ) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英 双语混排识别率的提高和稳健性的增强。 印刷体汉字识别系统的研究还要解决好实用汉字识别系统所必须解决的一些问题, 如版面的自动分析、行字切分、人机界面和良好的应用环境等等。这一阶段,形成了一 些初步实用的印刷体汉字识别系统开始进入市场。典型的系统有:清华大学电子工程系 完成的清华o c r ( t h o c r ) ,北京信息工程学院完成的北信o c r ( b i o c r ) 和沈阳自动化 所完成的沈阳o c r ( s y o c r ) 。其中清华o c r 以其较高的性能和良好的使用环境,颇受 用户欢迎。 九十年代计算机硬件资源发生了巨大的变化,为手写体汉字识别提供了相对充分的 研究环境。更为重要的是,从8 0 年代开始,汉字o c r 的研究丌发就一直受到因家“8 6 3 人迮理i :人学硕十学位论文 计划”的很大资助,因而促进了许多o c r 重大成果的获得。特别是在手写体识别方面。 大量有关手写体o c r 方面的论文和系统开始出现。到了1 9 9 2 年后,一些手写体汉字识 别系统逐渐向实用化发展。 由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题。汉字识别技术 可以分为印刷体识别及手写体识别技术。而手写体识别又可以分为联机( o n 1 i n e ) 与脱机 ( o f f - l i n e ) 两种。这种划分方法可以用图1 1 来表示。 图1 1 汉字识别技术组成框图 f i g 1 1 b l o c kd i a g r a mo fc h i n e s ec h a r a c t e rr e c o g n i t i o nt e c h n o l o g y 1 3 印刷体汉字识别中的问题和困难 当今许多汉字识别技术研究者想提升汉字识别系统的识别效果都遇到了一些同样 的问题1 6 j 。这些问题包括汉字字量大、汉字结构复杂、字体字号多以及相似字多。这也 使得汉字识别难度远远大于其它语言文字识别。由于汉字自身的特殊性,研究者也无法 借鉴其它语言特别是西方发达国家的已有的技术来识别汉字。下面末仔细分析一下这些 问题。 ( 1 ) 汉字字量特别大,类别繁多 我国1 9 8 0 年公布的国家标准g b 2 3 1 2 8 0 中第一级常用汉字共有3 7 5 5 个,第二级有 3 0 0 8 个,两级共有6 7 6 3 个汉字。其中常用汉字有3 0 0 0 至4 0 0 0 个之多。第一级汉字使 用频度为9 9 7 ,两级汉字总使用频度为9 9 9 9 。一个汉字识别系统至少要识别这些常 用汉字才能满足需求,才具有实际应用价值。显然,汉字样本数量众多,这对一个系统 来说是一种考验。大量的样本要占据更多的内存空间,更多的寻址时间,这对一个 r t s ( r e a lt i m es y s t e m s ) 来说是致命的。为了提高识别速度而采取一些措施之后,又可能 会导致识别率的降低。这也导致了汉字识别系统不得不在识别率和识别速度之间有个妥 协。 ( 2 ) 汉字结构复杂 印刷体汉字识别系统的特征提取和匹配识别研究 汉字是世界上结构最为复杂的文字之一。它的构成方法主要有三种:象形法、会意 法和形声法。不同的构成方法,具备不同的构字规律,这对采用统一标准处理如此大样 本的汉字集来既是一大困难。汉字的结构复杂也可以用笔画数来描述。每个汉字都是由 特定分布的若干笔画构成。汉字集中汉字笔画数最少的只有一画,如“一 ,笔画数最 多的有三十六笔画之多,如“熊”,而平均每个汉字笔画数达到十一画。笔画数的这种 变化和分布也说明了汉字结构的复杂程度。另外,汉字也可以看成有若干部件组成。部 件是笔画有意义的组合,一般称之为偏旁、部首或字根。笔画和部首的不同排列组合, 构成了表达不同含义的结构异常复杂的汉字字符。非字母化,不同于拼字母文字,与世 界上常用的其它民族的文字相比,汉字的结构是最为复杂的。 ( 3 ) 字体字号多 我国印刷体汉字种类有超过一百种之多,其中主要以宋体、黑体、楷体和仿宋体为 主,其它多为这四种字体的衍生字体。另外,印刷体汉字同一个字的不同字体即使拓扑 结构大致相同,但字形点阵还是有很大差别。笔画的粗细、长短、位置及姿态,都有一 定的差别,各个部件( 如偏旁、部首与主体) 的大小比例与位置,也都有所变异。对于手 写汉字,这种差别就更大。手写体有楷体、行书和草书三类,但其自由发挥度很大,以 致识别难度更大。印刷体汉字的字号更是繁多,这给汉字归一化带来了一定的计算量, 归一化后也有可能使得汉字信息损失一部分,这给汉字识别也带来了困难。 ( 4 ) 相似字多 由于我国汉字种类繁多以及构成方法的原因,汉字集中包含了大量的相似字。这些 相似字不仅在形状上、构造上相似,而且在笔画上也相近。例如,“大”和“太”两个 字只相差一个短捺,常用的特征提取算法根本无法区分这两个字的不同之处。更甚有 “侯 和“候 ,“本和“木 等。这个相似字区分的问题往往出现在汉字识别系统 的最后一级,也是至关重要的一级。 汉字识别可简单的分为两个过程:学习( 训练) 过程和识别过程。学习过程就是让计 算机通过样本学习或训练提取出每个汉字的特征并存储起来,作为标准特征库,即模板 库。识别过程中,计算机首先按学习过程中的特征提取方法提取出输入模式的特征,然 后再与标准特征库中的特征进行匹配,匹配程度最大的汉字即为识别结果。因此,如何 确定表达待识别汉字模式的最佳特征( 组合优化特征) ,如何进行特征匹配,从而进行高 效、快速的识别,是汉字识别技术的关键所在。 人连理l :人学硕十学位论文 1 4 本文的工作与安排 1 4 1 本文研究的主要内容 印刷体汉字识别技术主要分预处理、特征提取、匹配识别和后处理四部分。本文对 预处理和后处理部分只是做基础性的研究工作,将重点放在研究特征提取和匹配识别两 部分。本文试图在前人研究的基础之上,从汉字识别技术中的特征提取算法研究和匹配 识别技术的研究两方面来改善识别率和识别速度之间的矛盾。 印刷体汉字数量大、结构复杂,从而特征也多种多样。汉字特征分结构特征和统计 特征,结构特征描述的是汉字的轮廓结构信息,而统计特征描述的是用统计的方法从汉 字中抽象出来的矢量特征。为了达到最佳的识别率和识别速度,怎样快速地抽取能充分 描述汉字模式地稳定可靠地特征和哪些特征能够将不同的汉字有效地区别开来成为了 研究热点。本文基于已有的特征提取算法,改进了其中的一些特征提取算法,并配合下 文的特征聚类算法的识别效果,选择了一些具有良好表现的结构和统计特征。 聚类算法是本文的另外一个研究内容。它作为统计特征的必备分类算法,能够有效 地将隐含在矢量特征中的汉字差别挖掘出来,并将汉字集分类。如今,在前人的不断努 力研究之下,已经有了众多新的或者改进的聚类技术出现。但大多受到很多的使用限制, 无法照搬照用。本文研究了四种经典的或由前人改进的聚类算法,分析了它们的缺点以 及优点,并将它们应用于已经在本文中分析过的统计特征的分类中去。如此结合使用得 出最佳的组合使用方法。本文根据已有的工作,提出了一种基于优化初始类中心的 k m e a n s 聚类算法。并通过实验证明了它的有效性及优异的聚类表现。 1 4 2 本文各章的内容安排 本文一共分以下六章来论述所研究的内容。 第一章为本文的绪论部分。主要介绍汉字识别技术的研究意义、印刷体汉字识别技 术的发展历程及其发展过程中存在的问题和困难。 第二章介绍了印刷体汉字识别的主要方法和原理。 第三章详细论述了作者对印刷体汉字识别常用特征提取算法的研究以及提出了几 种具有实际意义的汉字特征算法,并给出了具体的算法流程。 第四章详细论述了印刷体汉字识别匹配识别环节的聚类算法进行研究。本章对o c r 常用的几种聚类算法进行了实验,比较其性能。并结合汉字识别的特点,提出了一种基 于优化初始类中心的改进k - m e a n s 聚类算法。 第五章给出了本文所研究的印刷体汉字识别系统匹配识别过程以及系统的最终实 现。其中详细论述了分类器的选择和系统测试结果。 印刷体汉字识别系统的特征提驭和匹配识别研究 望。 第六章对本文的工作进行了客观地总结,并对汉字识别技术的发展趋势作出了展 人迮理i :人学硕+ 学位论文 2印刷体汉字识别方法及原理的研究 2 1印刷体汉字识别方法分析 2 1 1 结构模式识别方法 从上文可知,汉字的数量巨大,结构复杂,但其特殊的组成结构中蕴藏着相当严格 的规律【7 】。从笔画上讲,汉字有包括横、竖、撇、捺、点、折、勾等七种基本笔画,还 有提挑、撇点、横捺等七种变形笔画。从部件上讲,部件是有特殊的笔画组合而成,故 部件也是一定的。换而言之,汉字图形具有丰富的有规律可循的结构信息,可以设法提 取含有这些信息的结构特征和组字规律,将它们作为汉字识别的依据。这就是结构模式 识别。 结构模式识别方法是在2 0 世纪7 0 年代初形成,是早期汉字识别研究的主要方法。 其思想就是直接从字符的轮廓或骨架上提取的字符像素分布特征,如笔画、圈、端点、 节点、弧、突起、凹陷等多个基元组合,再用结构方法描述基元组合所代表的结构和关 系。通常,提取笔段或基本笔画作为基元,由基元组合及其相互关系完全可以精确地对 汉字加以描述,最后利用形式语言及自动机理论进行文法推断,即识别。结构模式识别 方法的主要优点在于对字体变化的适应性强,区分相似字的能力强;缺点是抗干扰能力 差,从汉字图像中精确的抽取基元、轮廓、特征点比较困难,往往受到各种干扰,如倾 斜,扭曲,断裂,粘连,纸张上的污点,对比度差等,而且匹配过程复杂,耗时长。因 此,有人采用汉字轮廓结构信息作为特征,但这一方案需要进行松弛迭代匹配,耗时太 长,而且对于笔画较模糊的汉字图像,抽取轮廓会遇到极大困难。也有些学者采用抽取 汉字图像中关键特征点来描述汉字,但是特征点的抽取易受噪声点、笔画的粘连与断裂 等影响。总之单纯采用结构模式识别方法的脱机手写汉字识别系统,识别率较低。 总之,结构模式识别方法一般都是与统计模式识别或者其它方法结合使用。 2 1 2 统计模式识别方法 统计模式识别方法是用概率统计模型提取待识别汉字的特征向量,然后根据决策函 数进行分类,判别待识别汉字的特征向量属于哪一类。常用的判别准则有距离准则和类 似度准则。统计模式识别具有良好的鲁棒性( r o b u s t n e s s ) ,适合有噪声的文字,它一般采 用多维特征值累加的方法,减少噪声的影响。但是,累加也会使相似汉字的结构的差异 消失,因此区分相似字的能力差。另外,与结构法相比,统计特征无直观性的物理意义。 下面介绍一些常用的汉字统计模式识别方法p j 。 印刷体汉字识别系统的特祉提取和匹配识别研究 ( 1 ) 模板匹配 模板匹配是将汉字的图像直接作为特征,将之与特征库中的汉字图像逐一比较,相 似度最高的汉字即为待选汉字。这种需要将左右汉字图像的像素点阵均存储起来,既占 用大量的内存空间,特别是对嵌入式系统来说是不可容忍的,也将在寻找最相似汉字过 程中耗费大量的时间,这对实时系统也是致命的。另外,其对于倾斜、笔画变粗变细均 无良好的适应能力。 ( 萄利用变换特征的方法 该方法利用各种函数变换,例如k - l 变换、f o u r i e r 变换和g a b o r 变换等对汉字图 像特征进行变换。但这些变换如果没有合适的处理,都多少存在缺陷。有的抗噪性能差, 有的代码复杂度高。 ( 3 ) 笔画方向特征 笔画方向的统计特征总共有3 种:全局笔画方向密度g d c d ,局部笔画方向密度 l - d c d 和周边笔画方向p d c 。前两者用于预分类,后者用于单字识别。这些特征都是 以笔画方向贡献( d i f e c t i o nc o n t r i b u t i o n ) 为基础。 ( 4 ) 外围特征 汉字的外围特征是由汉字轮廓信息获得的。汉字轮廓具有丰富的特征,即使在稍微 倾斜或者笔画粘连的情况,也能提取较为完全的轮廓信息。 ( 5 ) 特征点特征 汉字信息的绝大部分集中在汉字骨架上,而汉字骨架信息又大多集中在若干特征点 上。一旦确定这些笔画特征点,汉字笔画以及结构形状就可以确定。它们包括端点、折 点、歧点和交点等。汉字特征点的提取一般是基于汉字细化后的单像素图像,而往往 细化算法不能达到算法的要求,经常有断笔、非单层像素等情况,一点点变形或噪声都 会影响汉字特征点的提取。也就是它的鲁棒性一般不好。 随着汉字识别技术的发展,已经有越来越多的统计特征出现。但几乎每种特征都不 是完美的,都要在特殊条件下施加一些特殊的处理。 2 1 3 结构模式识别和统计模式识别相结合的方法 随着对结构模式识别技术和统计模式识别技术两种方法的深入了解,二者正在逐渐 融合。统计模式识别方法具有良好的抗干扰抗噪声能力,但对汉字结构差异的区分能力 较弱:而结构模式识别方法对结构特征比较敏感,区分相似字的能力较强。结构方法和 统计方法的特征比较如下表2 1 所示。 人连理i :人学硕+ 学位论文 表2 1结构方法和统计方法特征比较 t a b 2 1c o n t r a s to fs t r u c t u r a lf e a t u r ea n ds t a t i s t i c a lf e a t u r e 所以在实际应用中,统计模式识别方法和结构模式识别方法通常结合使用,两者优 势互补。在特征提取过程中,提取能反映汉字结构信息的统计特征。在识别过程中,先 用统计方法进行粗分类,再用结构方法来细分类,以区分相似字。这也是最近文字识别 领域的重要研究领域。 2 1 4 人工神经网络方法 菇 人工神经网络 9 1 ( a r t i f i c i a ln e u r a ln e t w o r k ,以下称a n n ) 是一种近似模拟人脑神经 元细胞的网络结构,但由于目前对于人脑神经元的研究还很不完善,我们无法确定a n n 的工作方式是否与人脑神经元的运作方式相同,但是a n n 正在吸引着越来越多的注意 力。 a n n 是由大量结构与功能简单的基本元件一神经元,相互连接成的自适应非线 性动态系统,但大量的神经元组合就显得很复杂。a n n 具有一定的自组织的学习功能, 它可以通过调整神经元间的连接系数来完成分类识别等复杂功能,并且组成网络的各个 细胞可以并行工作。a n n 常常应用在一些英文字符和数字等类别较少的分类问题中, 但在汉字这种超类问题往往难以直接应用。汉字结合的类别多,字体和字别也不少。不 同字体的同一类汉字,其图形往往也存在很大差别。复杂的数据集使得多层神经网络的 训练时间长,收敛速度慢,时间问题尤为严重。所以神经网络用于模式分类的研究大多 限于小模式集合的情况。 目前,已经为神经网络应用于汉字集提出了很多分类策略,一定程度上解决了直接 采用多层感知器作为分类网络难以实现的问题,相应产生了一些可应用的神经网络【1 0 】。 h o p f i e l d 神经网络、a r t 网络、b p 网络等神经网络模型已可用于文字识别。这些方法 主要应用于特征提取与选泽、学习训练及分类器的设计、单字识别后处理等几个方面。 与统计方法相比,神经网络与模型无关,具有能够通过调整使得输出在特征空间中逼近 任意目标的优点。但关于神经网络的数学解释很复杂,试验工作量很大。随着研究的不 断深入,神经网络方法和传统的识别方法同益结合,二者可以互相取长补短。 印刷体汉字识别系统的特征提取和匹配识别研究 2 1 5 仿人视觉的识别方法 除此之外,利用人的视觉特性,对原始图像进行一定处理后进行特征提取,也是有 效的特征提取方法。人类的视觉感知始终是计算机视觉研究追踪的目标,模仿人类视觉 特性对原始图像的处理无疑是十分吸引人的。如有的研究已经证明,人类在抽取低层次 视觉特征时,其视皮层简单细胞对图像信号的响应与二维g a b o r 滤波器及其相似。利用 g a b o r 变换可达到空域和频域的最佳联合清晰度,和对噪声,小位移,旋转和尺度变化 的不敏感性。对原始图像进行g a b o r 变换处理进行特征提取的研究和实验结果说明。在 对灰度图像上汉字的识别,包括对于手写汉字的识别,都获得了极高的抗干扰和鲁棒性。 2 2 印刷体汉字识别原理及算法的研究 印刷体汉字识别的流程【l l l 如图2 1 所示。印刷在纸张上的汉字,通过用扫描仪扫描 或者数码相机拍摄等光学方式输入后得到灰度图像或者二值图像,然后利用各种模式识 别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判别,从而达到识 别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等 步骤。预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像 中的干扰因素降到最低。随着汉字识别技术的深入研究,汉字的特征提取的算法越来越 多,如何选择特征和如何组合优化特征已经成了研究的重要领域。匹配识别技术涉及到 分类器的设计等重要问题,这也是非常重要的一个环节。汉字的后处理是出于获得最大 化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。 入 扫描输入图像 二二二二二二 图像的预处理 二= = 二王二二 版面分析理解 文本行字切分 = 二= = 二= 文字特征提取 二二二= e = 二 文字识别处理 识别结果编改 图2 1 汉字识别流程框图 f i g 2 1 f l o w c h a r to fc h i n e s ec h a r a c t e rr e c o g n i t i o n 人迮理i :人学硕十学位论文 2 2 1 预处理 由于通过各种光电设备或者模数转换手段获得的汉字图像必定不可避免存在一些 噪声干扰,图像的倾斜、扭曲、模糊以及笔画连联都是常见的问题。这将导致图像质量 下降,也最终影响了整个系统的识别率。因此在对汉字图像进行识别处理之前,对其进 行预处理,从而尽可能降低干扰因素,这也是非常有必要的。预处理的手段通常也是固 定的关键是看算法是否得当。预处理【1 2 1 通常包括去除噪声、版面分析、二值化、倾斜校 正、行字切分、平滑、归一化、细化等。以下出于对整个系统组成的考虑,简单介绍一 下各个主要预处理环节。 ( 1 ) 版面分析 印刷体文字识别常遇到的识别主体不是一个文字段,而是整个版面,所以版面分析 是印刷体文字识别系统中的重要组成部分。它是指对印刷体文档图像进行分析,提取出 文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在起。这 一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完 成所有的版面分析。 ( 2 ) 二值化 将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理, 二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较 像素值和阈值的大小,从而确定为1 或0 ,这罩二值化阈值的选取较为关键。若闽值取的 过大则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰;若阈值取 得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分 割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。现如今,汉字 图像二值化方法多种多样,但大多都有应用限制。研究一种适合各种文字图像的二值化 方法也是预处理环节的重点。本文使用一种效果较好的自适应二值化方法【1 3 1 。 ( 3 ) 倾斜校正 通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识 别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重 要部分。倾斜校正的核心在于如何检测出图像的倾斜角。目前,倾斜角检测的方法有许 多种,主要可分为5 类:基于h o u g h 变换的方法,基于交叉相关性的方法,基于投影的 方法,基于f o u d e r 变换的方法和k 一最近邻簇方法。灵活运用倾斜角度检测算法将是倾 斜校讵环节的重要研究方向。 ( 4 ) 行字切分 印刷体汉字识别系统的特征提取和匹配识别研究 汉字切分的目的是利用字与字之间、行与行之问的空隙,将单个汉字从整个图像中 分离出来。汉字的切分分为行切分和字切分1 1 4 l 。 行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下 来。典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行丌始 的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。 同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零 值时,判定为行下界。 字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下 来。典型的算法是,在确定这一行的行上界和行下界之后,从左到右搜索一行文字的左 右边界,切分出单字或标点符号。从左边开始垂直方向的行距内像素单列累加和均大于 一个试验常数,则可认为是该汉字的左边界。同理,当出现连续一个汉字宽度的大累加 和情况后突然出现一系列小累加和甚至零值时,判定为该汉字的右边界。对文本汉字行 来说,由于存在左右分离字,宽窄字,字问交连等,加上行间混有英文、数字、符号、 和字间污点干扰,使得字切分比行切分困难得多。 ( 5 ) 归一化 归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置( 平移) ,文字 笔画粗细变换等文字图像的规格化处理。本文采用的标准是3 2 x 3 2 点阵,并只对文字图 像进行投影。汉字图像的归一化往往会带来两个问题:一是字符图像的缩放可能会引入 一些干扰;二是图像缩放本身的运算量较大。所以,必须采用恰当的归一化方法来消除 尺度变化对特征值的影响。 ( 6 ) 平滑 对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑在图像 处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量,在实 际应用中,采用w x w ( 一般采用3 x 3 ) 的辅助矩阵对二值文字图像进行扫描。根据辅助矩 阵中各像素0 、1 的分布,使处于矩阵中心的被平滑的像素天。从“0 ”变成“1 ”或者从“1 ”变 成“o ”。 仍细化 细化处理是在图像处理中相当重要和关键的一环,它是将二值化文字点阵逐层剥去 轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。细化处理的目的是搜索 图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像 的信息量。细化处理结果的好坏,直接影响到识别的效果和质量。在细化处理过程中, 人连理i :人学硕十学位论文 一方面,去除的像素太少,则不能充分有效地减少图像的信息量;另一方面,去除的像 素太多,特别是某些关键像素若被去除,则改变了原始图像的主要特征。因此,高质量 的细化算法程序对图像识别有很大的实用价值。 针对文字图像的细化算法已有很多,它的优劣对系统的识别效果影响很大。对细化 的一般要求是保持原有笔画的连续性,不能由于细化造成笔画断开;细化成为单层像素 线;保持文字原有特征,既不要增加,也不要丢失,保持笔画特征,最好细化掉笔锋: 细化结果是原曲线的中心线,保留曲线的端点,交叉部分中心线不畸变。针对各种不同 的应用,国内外已发表了许多细化算法,如h i l d i t c h 经典细化算法【1 5 l 、d e u t s c h 算法【1 6 1 等。 然而,细化过程本身固有的弱点总是造成笔画骨架线的畸变,增加对识别的干扰,主要 的畸变包括:交叉笔画畸变、转折处出现分叉笔画

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论