(计算数学专业论文)基于单词全局特征的印刷体英文单词识别系统研究.pdf_第1页
(计算数学专业论文)基于单词全局特征的印刷体英文单词识别系统研究.pdf_第2页
(计算数学专业论文)基于单词全局特征的印刷体英文单词识别系统研究.pdf_第3页
(计算数学专业论文)基于单词全局特征的印刷体英文单词识别系统研究.pdf_第4页
(计算数学专业论文)基于单词全局特征的印刷体英文单词识别系统研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算数学专业论文)基于单词全局特征的印刷体英文单词识别系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l i 山大学硕士学位论文 基于单词全局特征的印刷体 英文单词识别系统研究 专业:计算数学 硕士生:吴晓峰 指导教师:杨力华教授 摘要 o c r ( o p t i c a lc h a m c t e rr e c o g i l i t i o n ) 是模式识别中应用最成功的研究方向 之一,自2 0 世纪5 0 年代中期以来,o c r 一直是一个非常热门的研究领域。 本文首先对o c r 研究的历史、现状及前景进行了详细地介绍。其中包括光学 字符识别技术中的统计特征字符识别技术、结构特征字符识别技术和基于神经网 络的字符识别技术,以及应用于不同领域的手写汉字识别技术、印刷体汉字识别 技术、手写数字识别技术和印刷体英文识别技术。 本文的研究重点是印刷体英文识别技术。传统的印刷体英文识别系统很大程 度上依赖于字符分割的好坏。字符分割的难点在于如何解决粘连字符的分割问 题,特别是对小字号的字符,目前还没有一个有效的解决方法。 本文提出了一种基于单词全局特征的特征提取方法。该方法通过对截取的单 词二值图像提取全局特征并进行多级的分类和识别,避免了字符分割这一复杂的 过程,针对实际应用中常用的且字符粘连情况严重的1 2 号t i m e sn e wr o m a i l 字 体进行识别得到了较好的识别效果。通过对特征库中的1 4 8 7 7 个单词进行测试, 识别率达到9 9 7 。基于该方法本人研制开发了在w i n d o w s 平台上适用的图文 翻译好帮手系统,它可以帮助金山词霸截取p d f 文档中图片格式的单词并进 行翻译。该系统具有使用方便、实用性强的特点,通过对大量实际p d f 文档进 行测试,识别率高达9 5 。 关键字:o c r印刷体英文识别 字符分割特征提取分类 巾出大学硕士学位论文 g i o b a if e a t u r 0b a s e dr 0 c o g n i t i o no f p r i n t e de n g i - s hw o r d s m a j o r :c o m p u t a t i o n a lm a t h e m a t i c 8 n a n l c :x i a o f e n gw u s u p e r v i s o r :l i h u ay a i l g a b s t 隐c l 以、r ( 0 舜e 舔髓槭蛾嚣r e c 母g 珏i t o 魏潍雒b e e n 黼。醴妞酾黔瓢靶s e 黼蠢磊畦睦s s i n c et i l e1 9 5 0 s a t 妇瓿g i 赫i 裙o f 氆i sd i s s 慊a t i o n ,如eh i s 晒嘎粼u a l i 母a n d 允t u r eo fo c r 黼 i n t r o d u c e d b e s i d e s ,d i f 孙r e n tk i i l d so fo p t i c a lc h a r a c t e rr e c o g n i t i o ns u c ha s h a n d w r i t i n ga n dp r i n t e dc h i n e s ec h a r a c 址tr e c o g i t i o n ,h a n d w r i t i n ga r a b i cn u r n e r a l r e e o g n i t i o na n dp 蛀m e de n 薛娥w o 破r e c o 馨n 撼o na r ed 溉u s s 醛b r i e 姆,弧 s d i s s e r t a t i o nf b c u s e so nm er e c o g n m o no fp r i n t e de n g l i s hw o r d s t h es e g r n e n t a t i o nf o r aw o f 娃,w h 量c hi sae o 凇。穗s 话p 濂e l a s e 越r e c o g n 疆。魏a 圭g o 内囊m s ,呈s n e e d e di n o u rn e wm e t h o db a u s ei t i sd i f f i c u l ti n s e g m e n t i n gaw o r do fs m a l l e rf o n t si n g c n o r 鲢 an o v e l 加e m o do ff e a t u r ee x 把虬t i o nw i m o u t 、v o r ds e g i 黼n t a 蛀o ni sp r o p o s c di n t h i sd i s s e r a t 洒n ni sk s st i m e c o n s u m i n ga n dh a sah 谵hr e c o g n i t i o nr a t eo f9 9 7 f o rt h el i b 删= yo f1 4 8 7 7w 硎s b a s e do nt h ea l g o 矗媳m ,as y s 艳l 硅艇m e 硅“0 畦l i 黼 e n g l i s h c h i n e s et r a n s l a t i o na s s i s t a n tf o rp d fd o c u m e n t s ,i sd e v e l o p e d ,w h o s e 辖c o g 魏i l o n 掰e e 妇w o 墨so f 鼍i 璐e s 獠渐r _ 。瑚a n ,嫩1 2 ”两翔fd o e u 撙e n t s a r r i v e sa t9 5 k e y w o r d s : o c r p r i n t e de n g l i s hr e c o g n i t i o nc h a r a c 把rs e g m e n t a t i o n f 毫a t u e x t r 矗c t i o nc l a s s i f i e a 畦o n l i 中出丈学硕士攀健论文 1 1o c r 概述 第一章绪论 自从2 0 世纪4 0 年代计算机诞生以后,人们对计算机的智熊化要求不断提高。 随着2 0 世纪5 0 年代人工智能的兴起,模式识别作为一门新兴的学科逐步形成,并 在众多匏领域褥到了成功的纛瘸,冀中光学字符谖别( o c r ) 是模式识别戆一令 最成功的应用,自2 0 世纪5 0 年代中期以来,o c r 一直是一个非常热门的研究领域 【l 】 o c r 是o p t i c a l c h a r a c t e r r e c o g n i t i o n 的简称,即光学字符识别技术,是包动 识澍技术研究茅f 】应蔫中的一个重要领域,它综合了数字图像处理、计簿机图形学 和人工智能等多方恧的知识,并在计算机及其攘关领域中褥到了j 。泛应鼹。 通常,一个o c r 识别系统的工作流程如图卜l 所示: 图1 1o c r 识别系统工作流程 孛出大学颈士学位论文 影像竣入:簸经过o c r 姓鼗楚文楼必绶透过走学仪器,翔影像扫穗捩、 传真机或任何摄影器材,将影像转入计算机。 影像蓠簸瑾:影像蓠鲶瑾是o e r 系统须解决淹惩最多豹一个模块。毽含 了影像正规化、去除噪声、影像矫正、图文分析、文字行与字分离等处理。 文字特鬣提取:单以识剐率而言,特征提取是o c r 的核心。特征可以简 单地分为两类:一类为统计特征;褥另一类为结构特援。本文的第三毒提出了一 种基于单词全局特征的特征提取方法并对该方法进行了详细的描述。 鼹 l 识别:将缓提取之磊,不饕是耀统诗还是绩擒戆特经,聱必矮有特征 数据库来进行b e 对。根据特征的不同,选用不同的距离函数,从特征数据库中找 密与待谈剔文字髂特程距离簸近的结采。 字词后处理:字词后处理就是利用比对后的识别文字与其可能的相似候选 字群,根据前后的识潮文字拽出最合乎逻辑的词,做相应的更正。 续果竣出;输出需要浆档寨格式。 。2 o 勰技术及分类 l 。2 1 按技术策略分类 识别过程首先使识剐设备学习、记忆将要辨识字符的特征,使这些特征成为 识别系绞自身的知识,然后辩测用这些先验知识慰辕入图像进行判决,褥到字餐 的识别结果。字符的特征不仪仅局限于平丽上的点阵位置信息,在频率空间、投 影空淘,甚至蘧义空阉字符都寿蚤羹静特糕,这魏特筵在识鬟字簿露又有备旮静 特点及优游。根据识别字符所采用的具体特征的不同衍生出了不同的识别技术。 通常,搬撰不丽豹技术策珞,毫昃剐方法可戳分魏黧下类:统计特征字符识掰液术、 结构字符识别披术和纂于神缀网络的识别技术【2 l 。 l 。2 。l 。l 统计特征字符识别技术 这葶孛蓼 勇方法一般选取阏一类字符中荚畜戆、稳霹稳定静并量分类往熊好豹 统计特征作为特征向量。常用的统计特征有字符二维平面的位置特征、字符在水 平躐者垂矗方商投影静直方黼特征、矩特缓和字符经过颡域交换或其它形式变换 后的特征等。 大量字符的统计特征经邋提取、学习、分类形成关于字符的原型知识,构成 识别字穆的模板信息,这些模板信惑存德农识别系绞孛。来象耀像在识别露营先 中山大学硕士学位论文 提取相同的统计特征,然后与识别系统存储的字符原型知识嘎配比较。根据比较 缝暴确定字符最终分炎,这舅谖囊静基懿。簿蹩疆酝程度熬撵标常暴建各葶孛薅量 间的距离指标,例如欧式距离、绝对值距离等,为了表达方式的统一,阻落些距 离为基石 i i ,可以得到归一化匹配程度j 。 其中,基于字褥像索点平霆分布楚识到算法,因烫算法麓肇、实现方馁嚣或 为最常愆的匹配方法。这种算法一般先将字符阉像归一忧为横叛的几何维数,然 后根据像素点的位置邂个匹配,求出模板和图像的某种距离搬标。由于要对每个 像素点遴个匹配,造成算法实现计箨量大,且对噪音、字符的偏移积变形非常敏 感,毽魏砖输入的符谈囊蚕豫要黎较高。蔽据冀法戆不是,不断有学者鬟滋改遘 的思路,产生了所谓序贯相似性算法( s s d a ) 1 5 6 棚。k e l n e r 和o l a u b e m a n 在1 9 5 6 年提出膈二维图像的投影代替图像点阵信息,从而使得二维的图像被一维的投影 爨役蛰,减少了计算爨,霾时选消除了文字在投影方囱镳移蕊影穗,毽楚簿予字 符的旋转变形却无能为力。 基于统计特征的字符识别技术对于形近字符区分能力弱,因此,通常废用于 字符的粮分类。对于谈粼字符集比较小、输入图像质量比较赢的图片( 例如打印 懿数字字德集) 逡可蔽担当主要豹识爨 壬务。 1 2 1 2 结构特征字符识别技术 实际应用中,更一般的情况慧相近字符的识剐和像手写字符那样字型变化很 大的字符的识别,因此,发展出了熬于结构的字符识别技术。这种技术首兜耍提 取字符的络构。根据识别策略的不同,结构的选择也有所不闼。可以选择字根、 笔越,魄霹浚选拜魄麓麓更枣我戆浚刚。提载波豹结褐又称佟字符的子棱式、 部件、熬元,所有基冗按照某种序排列起来就成了字符的特概。基于结构的文字 识别实际上是将字符映射到了基元组成的结构空间进行识别。 移l 裂过程是在掇取基元熬基懿上,到罚形式语言窝耋羲撬理论,罴敬键法分 析、树聪配、图匹配稿知识推理的方法分析字符结构的过程。常用的结构特征有: 笔划的志向、孤立的点,以及是否禽有闭合笔画蹲。对于汉字识别来说,豳于汉 字自身舆有很强的结构性,利用汉字黔结构特点避行识别同样露默达到很好蛉效 果。在对汉字笔画避孝子统计的基毳窭上,文献珏辑掇趱了一静翮掰汉字横、受、撇、 捺的结构信息进行识别的方法一弹性网格特征掇取方法。这种方法首先将汉字按 照前景色的投影划分成维度不同的矩形区域,然j 蔷分别提取各个区域中的横、竖、 擞、撩熬缝穆癌惑,簸屠结合统计瓣结果遴嚣分类。在试验中达到辩穆9 翡 识别率,算法效果令人满意。 中山大学硕士学位论史 传统识别方法中,对输入图像采取统一分辨率进行识别,分辨率由系统的计 算和存储资源先期决定,造成了系统资源的浪费和识别效率的降低。j p a r k 分析 了传统结构识别方法中的这些弊端,提出主动字符识别( a c t i v ec h a r a c t c r r e c o g n i t i o n ) 的思想【1 1 1 ,主动依据输入图像,动态确定结构特征的选取,实验证 明,达到了节省资源,加速识别的目的。 与统计识别方法相对应,字符的结构识别技术更加便于区分字型变化大的字 符和字型相近的字符。但是由于对结构特征的描述和比较要占用大量的存储和计 算资源,因此算法在实现上相对复杂、识别速度慢。 1 2 1 3 基于神经网络的字符识别技术 迄今为止,人类识别文字的能力远远胜于计算机,无论是变形的字符、模糊 的字符,甚至是破损的字符,人类都能很好地识别。基于人工神经网络的字符识 别技术目的就是力图通过对人脑功能和结构的模拟来实现字符的高效识别【1 2 1 。 经过近几年的迅速发展,人工神经网络在字符识别方面得到了广1 泛的应用 ”j 。在o c r 系统中,人工神经网络主要充当分类器的功能。网络的输入是字 符的特征向量,输出是字符的分类结果,即识别结果。由于识别策略的不同和对 问题理解水平的限制,输入的特征向量所包含的信息常常是冗余的,甚至是矛盾 的。经过反复学习,神经网络可以智能地将特征向量优化,去除冗余、矛盾的信 息,强化类间的差异。此外,由于神经网络采用分布式的网络结构,本身具备 可以并行的条件,可以加快大规模问题的求解速度【期。k r e z v a k 和l ec u n 主要研 究了b p ( b a c k p r o p a g a t i o n ) 神经网络在文字识别方面的应用,针对网络学习速 度慢、泛化能力弱的缺点,在b p 网络的基础上产生了竞争监督学习的策略。 由于人工神经网络是对生物神经网络的一种极端的简化,并且人们对人脑活 动的认知还停留在初级阶段,人工神经网络在学习效率和算法收敛性等方面还存 在很多亟待解决的问题。 1 2 1 4 光学字符识别技术的展望 基于模糊技术的识别方法 由于字符本身,特别是手写字符,在字型字体上的变化很大,导致在文字识 别中存在着很大的不确定性,因此模糊数学的观念便很自然地被引用到了模式识 别领域中。1 9 7 6 年,a r o s e n f e l d 等人提出了一种景物标识松弛算法,1 9 7 7 年, 4 叶l 山大学硕士学位论文 r j a i n 等人运用模糊集的理论对复杂图像进行了分析,实现了运动目标的检测, 同时开始了模糊数学在图像识别中的应用。1 9 9 6 年,朱学芳通过对文字中直线、 折线和圆进行模糊定义,提出了一种无约束的手写数字识别方案,有效地克服了 手写数字变化大的问题【1 9 】。 结合语义理解的后处理技术 对识别的结果进行后期处理,可以提高识别的正确率。分析人类识别文字的 过程不难发现,文字一般都是结合上下文进行理解的,因此,计算机在识别文字 时也可以在识别单字的基础上,结合单字的上下文信息对识别结果进行校正,以 单词甚至句子作为一次识别的结果。依据对语言文字的统计信息,可以确定某个 文字后可能跟随的候选字符集,达到缩小搜索范围、简化计算的目的。如果把候 选字符集中可能出现的字符赋以一定的出现概率,每识别完一个字符便赋以一个 新的状态,则可以采用隐性马尔可夫模型( h m m ) 加以描述。秦娇华介绍了一种利 用h m m 描述汉语文本识别过程并指导后处理的方法【2 0 】。这种结合上下文信息识 别的技术存在的问题主要集中在如何高效组织候选字符子集、实现候选字符的快 速定位上。 多种策略的综合集成 在o c r 领域,虽然新的算法思路不断涌现,但是在一个高效的o c r 系统中 仅仅采用一种识别方式是无法满足现实要求的。单个识别策略的能力有限,因此 采用多种策略实现优势互补,多角度利用字符的特征信息是o c r 发展的方向。 在这个方向上经常采用的集成策略有投票法、概率法、d e m p s t e r _ s h a f e r 法以及行 为知识空间法等多种综合方法。以投票法为例,每种识别策略都拥有一张选票, 对于同一个字符不同策略各自产生自己的结果即投票,所有策略投票之后,得票 最多的识别结果就是最终的识别结果。显然,在这种综合方式中需要大量资源。 一方面要使各种算法都能够完成,另一方面,如果各种算法间的并行性不好,总 的执行时间就要成倍增长。 除了像投票法这样多个识别策略并行识别的综合方式之外,多种方法互相渗 透,相互补充也是一个综合的趋势,例如遗传算法和神经网络的综合就是这种情 况。与人工神经网络不同,遗传算法主要实现在一个大的解集中寻找全局的最佳 解或者近似最佳解日”。遗传算法和人工神经网络的综合一般有两种方式:一种是 在人工神经网络对输入的字符特征进行识别分类前,先利用遗传算法对通常是大 中趣大学磺士学位论文 曩躲字蛰将缝进行饯纯,去除搏趸余黪袋者分类牲不好鹣特 歪,达至l 减少天工辛牵 经网络的计算量,摁高神缀网络分类性能的目的;另种是优化人工神经网络的 互联强度露学习策耀,敬达到缩短学习时闯、提高学习效粱的磊的。1 9 8 7 年, b k o s k o 将神经网络和模糊理论结合起来产生了模糊神经网终的理论( f u z z y n e u r a in e t w o r k ) 【2 2 。该理论汇集了两个理论的各自优势,集f n n 学习、联想、 识别、自适应等优势于一是口硼。 l 。2 。2 按谖烈对象分类 梭据滚澍对象的不耐,先学字符谈潮技术可以分为印涮体谖潮技术放手写体 识别技术。而手写体识别又可以分为联机( o 舻l i n e ) 与脱机( o f f l i n e ) 两种。这 种翻分方法可以用圈卜2 朱表示。 一莓茎 图卜2 光学字符识别技术分类 光学字符识别按照识别内容的不同又可以分为英文识别、汉字识别、数字识 剐及其毽不爨蓬家文字豹识别。麸谖裘技术翡角度来看,手写体谈掰难予印嗣体 识别,而脱机手写识别又难于联机手写体识别。 本章将对这些年来比较热f 1 豹研究领域散一个介绍: 1 2 2 1 手写汉字识别 手写汉字识别技术的发展及现状 随着计算机技术的发展和计冀机应用的大众化,一种新的汉字输入方法 联祝手写汉字输入法诞生了。这种输入方法,怒完全以平常的习惯,把要输入的 中山大学硕士学位论文 汉字写在一块叫书写板的设备上( 实际上是一种数字化仪,现在有的与屏幕结合 起来,可以显示笔迹) ,这种设备将笔尖走过的轨迹按时问采样后发送到计算机 中,由计算机软件自动完成识别,并用机器内部的方式保存、显示。 联机手写汉字识别技术相对起步较晚。1 9 8 1 年,i b m 公司e f y h a p 等推出 了第一套较为成熟的联机手写汉字识别系统。该系统是基于对汉字进行笔划、字 根编码的思想进行识别的。系统中每个汉字用7 2 种字根拼成,而每个字根又可 分解为4 2 种笔划的组合,通过对笔划和字根的判定识别所输入的汉字。而对字 根进行的编码树表示又使得系统对通常的笔顺变化具有一定容忍能力。当时对 2 2 6 0 个汉字识别的正确率为7 9 9 ( 第一次使用) ,书写者要求使用工整楷书。 1 9 8 8 年我国刘迎建等人提出利用笔段为基元的联机手写汉字识别技术。该 方法把汉字分为笔段、笔划、字根、单字和词组五个层次,分别用模糊属性文法 进行描述,以启发式模板引导匹配。该系统采用了对笔段进行基于位置关系的排 序方法,摆脱了对笔顺的依赖。识别字典可达到6 7 6 3 1 2 0 0 0 字。对于手写正楷 汉字,熟练用户的识别率可达9 5 以上,已经具有了一定的实用性。刘迎建等还 完成了4 0 0 万字的手写体汉字样本库的建立,这是当今国际上最大的手写体汉字 样本库。在此基础上完成的”手写体汉字识别系统的理论与实践”的研究成果,荣 获1 9 9 2 年中国科学院自然科学奖一等奖。2 0 0 2 年2 月“汉王形变连笔联机手写 汉字识别方法与系统”获国家科技进步一等奖。目前汉王科技的手写识别系统识 别率达到9 7 5 ,速度2 6 字,分钟,连笔、倒插笔、简化、繁体、行草等都可以 识别。汉王的0 c r 在技术上已经成为中国的第一。 一般认为,联机手写汉字识别比脱机手写汉字识别相对容易些。联机手写汉 字识别是一种人工实时地把汉字输入计算机的方法,它利用手写板把笔画变为一 维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是 一维的线条( 笔画) 串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度 等信息,而脱机手写汉字识别处理的仅是二维的汉字点阵图像,是汉字识别领域 中最后一个十分困难的问题,目前仍然处于实验室研究阶段。由清华大学电子工 程系图像教研组o c r 实验室研制的t h o c r 一9 7 综合集成汉字识别系统于1 9 9 7 年3 月2 2 日通过了由国家教委组织的鉴定并获得了高度评价,其中的非特定人 脱机手写汉字文本识别子系统,对于书写较为工整的手写汉字文本,正确识别率 达9 5 8 ,为该子系统走向实用化奠定了良好的基础。 手写汉字识别中存在的问题及困难 手写汉字识别是一种重要的、适用于把手写文稿随时输入计算机的方法,也 巾出大学颧学位论文 是撬器字蟹识裂最为困难豹一个误题,这些睡噬秘阂题表瑷在: 1 、汉字类别多。仅康熙字典中就包含了4 9 0 0 0 多个汉字,而常用的汉 字裁有4 0 多个,舀丙汉字谖潮滔题属于大类嗣( 或者称为超多类) 模式识潮 问题,在模式识别理论和方法研究方蕊有重大意义。 2 、汉字字形结构复杂。汉字集合中相似字较多,有些汉字的差荆仅为一点 或一个笔画,由于手写变形的存在,侵褥手写体中棚似字的区分嗽印刷体要困难 得多。在脱机手写汉字识别领域,非特定人脱机手写汉字识别又滩于特定人手写 汉字识别。 因不同人书写风格的差异造成手写汉字的变形很大,具体表现在以下几个方 嚣: ( 1 ) 基本笔画变化。横不平,竖不直,蠢笔变弯,折笔的拐角变成圆弧等。 ( 2 ) 篙画模糊,不规范,该连的不连,不该连的却相连。 ( 3 ) 笔画与笺画之阀、部传与部件之阐豹位矍发生变化。 ( 4 ) 笔画的倾斜角、笔画的长短、部件的大小发生变化。 ( 5 ) 黠予聪躐手写汉字,不弱入侵鼹不阕豹书写笔可链造戏笔蓉蕊粳绥交 化。 粪中,手写汉字字形的变纯是最罐班解决的阍麓。 手写汉字谈剐技术展望 在经历了近2 0 年的发展,汉字手写输入从技术上来说已经很成熟。其应用 范围越来越广,参与汉字手写按术骚发雄广懿筏翰巍逐滚增多,冀孛氍蠢汉王葶苒 技、微软、摩托罗 立这样的知名企业,又有清华大学这样的科研院校。随着手碍 汉字谈鬟技术的不新完善,手写输入已经开始宙辅韵输入方式向主流输入方式转 变,手写输入技术的应用范围也将越来越广泛,除了传统的手写笔产品外,在 p d a 、p c 、智能通讯终端、智能家电、手机等许多领域都将得到更j 。泛的应用。 1 2 2 2 印刷体汉字识别 与脱机警写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在 向更篱的往麓、更宠善的璃户彝箍的方向发展。虽然在计葬机两络飞速发展的今 天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版 物,但是我们可以着到印利材料的数量也大大地增加了,一魑专业单位如新闻社、 图书镶、古赣出版孝、档案馆等艨接触螅印犀枣孝辩更是浩懿烟海,毕竟阙读窜联 材料更为符合人的自然阅读习惯:同时,网络信息资源的爆炸性增长以及网络传 输容量的限制,都是方便、快速地获取这些信息的约束因素。电子化文档与印刷 文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或更长的 时间内将不会出现一者被另一者取代的情况。 印刷体汉字识别的研究历程 印刷体汉字的识别最早可以追溯到6 0 年代。1 9 6 6 年,i b m 公司的c a s e y 和 n a g y 发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的 模板匹配法识别了1 ,0 0 0 个印刷体汉字。7 0 年代以来,日本学者做了许多工作, 其中有代表性的系统有1 9 7 7 年东芝综合研究所研制的可以识别2 0 0 0 个汉字的单 体印刷汉字识别系统:8 0 年代初期,日本武藏野电气研究所研制的可以识别2 3 0 0 个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日 本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系 统在方法上,大都采用基于数字变换的匹配方案,使用了大量专用硬件,其设备 有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。 我国对印刷体汉字识别的研究始于7 0 年代末8 0 年代初,大致可以分为三大 阶段: ( 1 ) 第一阶段从7 0 年代末期到8 0 年代末期,主要是算法和方案探索。 ( 2 ) 第二阶段是9 0 年代初期,中文o c r 由实验室走向市场,初步实用。 ( 3 ) 第三阶段也就是目前,主要是印刷体汉字识别技术和系统性能的提高, 包括汉英双语混排识别率的提高和稳定性的增强。 印刷体汉字识别技术展望 总体来说,近几年来国内对印刷体汉字识别的研究还是相当深入的,也取得 了很大成绩,系统的识别率不断上升。目前印刷体汉字识别系统的应用已经相对 成熟。不过,这些系统还存在着一些可改进之处: 从识别角度:( 1 ) 、汉字识别率总是汉字识别中最重要的指标,应该达到更 新的高度,从而最大程度地减少用户校对、修改的工作量。( 2 ) 、印刷体汉字识 别的鲁棒性( r o b u s t n e s s ) 还不够强,鲁棒性可以理解为识别系统对于不同质量、 不同字号、不同字体的文本图像表示出来的适应性。在文字识别中,识别系统的 鲁棒性尤其反应在随着印刷质量的下降,系统误识率的上升趋势上。( 3 ) 汉英混 排文本的切分仍不够成熟,随着汉字识别率的上升以及汉英混排文本的增多,切 中山大学硕士学位论文 分错误在所有错误中所占的比重不断上升,怎样使文字正确分割变成了另一个还 未很好解决的问题。 从用户界面和自动化程度方面,应减少人工干预的成分,如扫描仪自动亮度 调节,版面的自动分析,中文印刷表格的自动录入,版面自动恢复,以及系统提 供用户自学习功能,使用户自由地扩大专业识别字符集。 1 2 2 3 手写数字识别 在整个o c r 领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽 管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有 一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始 把它向各种实际应用推广。 研究手写数字识别的理论意义 手写数字识别作为模式识别领域的一个重要问题,有着重要的理论价值: l 、阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基 本上与文化背景无关,这样就为各国、各地区的研究工作者提供了一个施展才智 的大舞台。在这一领域大家可以探讨,比较各种研究方法。 2 、由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。 这方面最明显的例子就是人工神经网络,相当一部分的人工神经网络模型都以手 写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的优缺点。 3 、尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多 成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有 难度的开放问题。 4 、手写数字的识别方法很容易推广到其它一些相关问题,一个直接的应用 是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识 别放在一块儿研究的。 基于手写数字识别的典型应用 手写数字识别有着极为、1 泛的应用前景,这也正是它受到世界各国的研究工 作者重视的一个主要原因。下面我们将介绍一些以手写数字识别技术为基础的典 型应用。 中山大学硕士学位论文 ( 一) 手写数字识别在大规模数据统计中的应用 在大规模的数据统计( 如:行业年检、人口普查等) 中,需要输入大量的数据, 以前完全要手工输入,需要耗费大量的人力和物力。近年来在这类工作中采用o c r 技术已成为一种趋势。 因为在这种应用中,数据的录入是集中组织的,所以往往可以通过专门设计 表格和对书写施加限制以便于机器的自动识别。目前国内的大多数实用系统都要 求用户按指定规范在方格内填写。另外,这些系统往往采用合适的用户界面对识 别结果做全面的检查,最终保证结果正确无误。可以看出,这是一类相对容易的 应用,对识别核心算法的要求比较低,是目前国内很多单位应用开发的热点。 ( 二) 手写数字识别在财务、税务、金融领域中的应用 财务、税务、金融是手写数字识别大有可为的又一领域。随着我国经济的迅 速发展,每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把 它们用计算机自动处理,无疑可以节约大量的时间、金钱和劳力。与上面提到的 统计报表处理相比,在这个领域的应用难度更大,原因有:l 、对识别的精度要 求更高;2 、处理的表格往往不止一种,一个系统应能智能地同时处理若干种表 格;3 、由于处理贯穿于整个日常工作之中,书写应尽量按一般习惯( 如:不对 书写者的写法做限定,书写时允许写连续的字串,而不是在固定的方格内书写) , 这样对识别及预处理的核心算法要求也提高了。 ( 三) 手写数字识别在邮件分拣中的应用 随着人们生活水平的提高,经济活动的发展,通信联系的需求使信函的互换 量大幅度增加,我国函件业务量也在不断增长,一些大城市的中心邮局每天处理 量将高达几百万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在 邮件的自动分拣中,手写数字识别往往与光学条码识别、人工辅助识别等手段相 结合,完成邮政编码的阅读。 手写数字识别技术展望 在实际应用中,对数字识别的单字识别正确率的要求要比文字苛刻得多。这 是因为,数字没有上下文关系,每个单字的识别都至关重要,而且数字识别经常 涉及的财会、金融领域,其严格性更是不言而喻的。因此,用户的要求不是单纯 的高正确率,更重要的是极低的、千分之一甚至万分之一以下的误识率。此外, 大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过低的方 法是行不通的。因此,研究高性能的手写数字识别算法是一个有相当挑战性的任 务a 随着国家信息化进程的加快,手写数字识别的应用需求将越来越广泛,因此 申出大学硕士学垃设文 瘦当趣强这方鬟的磺究工终。应爱系统懿褴能斡荚键与瓤颈爨然在予手写数字识 别核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别算法。此外, 尽旱建立反映中蓬人书写习溪酶、纂有国家稼准涟葳静手写数字样本库也怒当务 之急。 l 。2 ,2 4 印刷体英文识别 印裂传英支援别,又称英文e 漾,是文字援剐鬏域熬一个魄较吉老懿分支。 随漕全球经济体化和计算机网络的发展,需要处理的印刷体英文材料也在不断 增多。 按照不同的功能謦h 处理时间上的先后把印刷体英文识别系统分成主要的四 大模块:预处理,行字切分,特征提取和分类器设计,后处理。印刷体英文识别 系统的工作过穰太致如下:利用竣入设备妇扫描仪等,形残德识别印到体荚文文 本的图像数据,对该数据进行预处理,主撰是去除噪声殷进行版面理解,接着将 其中文本震牲筑霭像琰送入甥分模块,递萼亍萼亍切分帮字切分,镯分蜃瀚结暴馕可 以由识别模块进行识别,根据不同的识别方法,利用事先训练学习得到的识别字 典进行禳式分类,得翻一个秘步识剐结采,这一缩梁还寝经过识剐詹处理模块加 以进一步纠错例如可以利照一些简单的蚬则或采用粪字典馋攒法检查的方式 等。在字符切分和识剐模块之间,逐有个反馈的过程,利用识别结果的置信度 来指导切分过程“。 有关印刷体英文识别的知识将在本文的第二章详细介绍。 印刷体英文识别的难点 人们往往以为英文的类别( 5 2 个大小写字母、l o 个数字以及一些常用躲符 号) 少,对印刷体英文的识别的难度就小。实际上,多字体印刷体英文的识别存 程壤如下几个难点:字母宽痰、大小不一,增热了切分瓣难度;字蛰篾单,包含 的分类信息少,有些字符很相似,如“l ”、“l ”、“i ”等,较难区分:字体千变 万纯,慧静字体毒上予静,鬻熏的字体龟蠢鼗百耱,每一耱字体还有黑蒋、瓣俸 等的变化,而且不同字体间的差别很大,在字符的高度,宽度,笔画分布和笔画 褪缡等郡有狠大的交诧;常觅字母缀合在投影上为一整体,许多常见的字母组合 象“n ”、“f i ”、“f f ”、等,实际上为不可分的整体,另有些组合,象“f o ”、“f e ” 等,特别在字体为斜体时,尽管字母之间互不粘连,但在投影上也是不可分的, 虽然有些舞级的切分搜术象“绕切法”可以罴鼹,却增宓曩了不少处理时润;字母 中山大学硕士学位论文 与字母的组合容易相互混淆,有些字母切分成两半后仍为合理的字母组合,象 “m ”变成“m ”;有些字母组合粘连在一起则可能成为合法的字母,象粘连的“c l ” 变成“d ”。对于这些混淆,即使采用带回溯的切分方法或利用识别结果指导切分, 都难以得到满意的结果;英文字符本身结构简单,因此噪声影响明显,劣化文本 图像的识别常常难度很大。 1 3 本文的主要研究内容及章节安排 本文提出了一种基于单词全局特征的特征提取方法,该方法目前针对实际应 用中常用的且字符粘连情况严重的1 2 号t i m e s n e w r o m a n 字体进行识别得到了 较好的识别效果。基于该方法本人研制开发了图文翻译好帮手系统。该系统 可以帮助金山词霸截取p d f 文档中图片格式的文字并进行翻译,弥补了金山词 霸不能处理p d f 文档的缺陷,并具有使用方便、实用性强的特点。通过对大量 实际p d f 文档进行测试,识别率高达9 5 。 本文章节安排如下: 第一章是绪论,介绍本文的研究背景和理论基础。 第二章着重介绍印刷体英文字符识别方法,介绍一般印刷体英文字符识别系 统的构成以及字符识别中的特征提取方法。 第三章是本文研究的重点,提出了一种基于单词全局特征的特征提取方法, 并对其算法进行了详细的描述。 第四章是在第三章提出的基于单词全局特征的特征提取方法的基础上,介绍 本人所研制的图文翻译好帮手系统。 第二章印刷体英文字符识别 2 1 印刷体英文字符识别系统介绍 一般地,印刷体英文识别的过程如图2 1 所示: 图2 1印刷体英文o c r 系统的流程图 图像 符图像 征 的单词结果 下面,我们简单地对系统中的一些处理过程作一些说明【2 5 】: f 1 )预处理:预处理只是为了去噪声,加强有用的信息,并对输入测量仪 器或其它因素所造成的退化现象进行复原。预处理的方法也因噪声的 不同会稍有区别。假如字符分割和特征提取两部分都具有较好的抗噪 声能力,这一部分并不是必需的。 ( 2 )版面分析:版面分析主要是把文字与图像部分分离。这对于纯文字的 文档是不必要的。同时,随着研究的不断细分,这部分也逐渐地作为 一个独立的分支进行研究;而且,这一领域的研究存在着很多难题, 也越来越引起研究人员的兴趣。 ( 3 )行分割:这一部分是相对容易实现的,主要需要解决的问题就是文字 1 4 中山太举硕士学位论文 出璎倾斜的楱援。这一部分已经是一个提成熟的技术了。 ( 4 1字符分割:字符分割是模式识别里面一个难题。它怒字符识别的前提, 字符分害l 懿好坏,直接影穗弱字簿的浚裂率。鏊蓊为壹,字符分裁还 没有究全有效的解决方案。字符分割童要面临的难题是各种各样的粘 连字符的分帮l 蠲,本章2 2 节将详细介绍字符分害i 的现状及存程的问 题。正是因为字符分割存在羞这样的问题,字符识别不能逑分蚋依赖 于字符分割。现在很多的研究都把方向转移到分割与识别的有理结合 上,薅虽,实际效果表明,这榉匏套联结合对系统识别数正确零毒明 显的提高2 7 】,【蚓,【冽。本文将另辟蹊径,绕过字符分割这个环节来对整 个擎溺进霉亍謦 爨。 ( 5 )特征提取:特征提取部分是o c r 系统的关键部分。特征掇取的好坏, 是决定字符识粕率离低的最关键的要綮。这怒任何一个o c r 系统成功 与否的关键,也是模式识别领域中人们研究的热点晴岍。在本人所做的 图文翻译好帮手系统中,对整个单词的全局特征的提取变得尤为 重要。 ( 6 )分类:分类其实就是一个分类决策的过程。它是在特征空间中用统计 方法掘谖蒡l 对象j | 三l 为菜一类囊。基本锻法是在样本诩练集基穑上确定 某个判决规贝l j ,使按这种判决规受q 对被识别对象进行分类所造成的错 误识剃率达到最小或弓i 超的损失最小戮 。 ( 7 )后处理;后处理是必了纠正一些错误的识别,这往往是基于文法分辑 上的m j 。当然,这一部也不是必需的。这样的处理只是为了进一步提 裹识躞率。 2 ,2 字符分割瑗状及存在问题 图像分割楚任何图像分析及视觉系统的必不可少的霾要环节,是计算机视觉 磷究中魄一个较困难的问题。其困娥在于图像分割本身跫一个癍态阉题,分割的 目的是为了理解,但分割却要求理解后得到的知识。这种病态性给问题的解决造 成了镘大戆困戆,残舞辍碍诗筹巍税燮发麓款一令瓶臻:| ;霉嚣。疆正是因为鹜缘分 割是计算机视觉的一个基本问题,分割结果对视觉系统的影响很大,所以,图像 分裁始终逶计算机麓擞孛的一个石骨究燕点。 字符分割属于图像分割范畴。教众多的英文o c r 系统中,文字图像往往先被 分割为只含单个字符的字符图像,并把字符图像提交给识别模块进行字符识别。 其中把文字图像分割戈字簿图像约道程称佟字符分割。字綮分裂在r 系绞中处 中出大学疆士举谴论文 予藿要圭| 蠡经,努裁的准确率纛搂影霸整个o c r 系统的| 垒戆。字耱分割约难点在于 如何解决粘连字符的分割问题。 2 2 。1 字符粘连的分类 字符闻的糨互粘连是由于字体风格、字体大小、字间距、复印等原因,或是 由于扫撒仪有限的分辨率以及为了避免失真而使用高的= 值化闽值所致。根据 字符鞑逡戆具体形态,霹将凝连分必以下死耱基本类型( 懿爨2 _ 2 ) : ( 1 ) 简单粘连,指字符相互接触但其闭包没有重叠的粘连; ( 2 ) 交错粘连,楚一耱邋辑土的粘连情况,两个字祷静前荣点连通区域并没 有接触,但垂直投影及闭包存在羹叠现象; ( 3 ) 复合粘连,这种粘连葡时其各以上两种粘连特点; ( 4 ) 莛叠粘连,这是最复杂的数连情况,枢聂糕连的字符获享巢一部分翦景 点。 其中,阙懿是据羧缘孛瓣一个夔景点遽逶嚣城翳簸小乡 接矩形凝。 正如上面所说,由于小号字符的图像具有能辍小、字符笔划细、对噪音敏感 等特点,这4 释馕况在,j 、号字符图像中崮现静频率辍离。 (a)(b)( c )( d ) 图2 2 字符粘连的分类 ( a ) 穗单粘连( b ) 交错粒连( c ) 复含牯连( 鸯羹叠糙逡 2 2 。2 现有的字符分割算法及其不足 1 9 8 2 年,e a s e y 等人提出了一耪递归分割算法:营先粗略 鑫诗图像鲍黪毒可 能分割点,并分别测试各分割点分割出来的小图像是否可以识别成功来确定最终 螅分割点。1 9 蟠年,s e o n 幕妇nl e e 等入提出一穗蒺予获度图豫豹遮瑾信惠 的提取以及结合动态规划方法的非线性字符分割方法恻 ”1 ,并对分割结粜进行 谈弼,最终重灏整合分箭结袋。1 9 9 9 年,耩i n c h u lj u n g 等人键出了基于字模的 四侧外轮廓匹配的字符分割方法。”,在分割过程中可以基本确定已分割出米蛇小 图像的谈剐结栗范围。2 0 0 0 年,卢达等人通过对字符图像的骨架形态进行分析, 提出了基于骨架形态分辑的连体字德图像移 别方法啪1 。攀佳等入对现鸯字 孥分裁 巾山大学硕士学位论文 方法的总结基础上,提出了基于前端预测识别的粘连字符分割方法”。 这些字符分割算法都各有特点和应用范围,但它们同时具有一大缺点它 们都是基于大字号字符的分割方法。这些方法一旦应用到小字号字符时,效果均 不理想。这是由小字号字符的以下特点所导致的: ( 1 ) 字符模板很小( 通常为1 0 1 0 左右) ; ( 2 ) 字符图像能量小: ( 3 ) 字符笔划细( 通常是单象素宽度) ; ( 4 ) 对噪音敏感。 此外,根据大量实验表明,在小字号字符的粘连情况中,衬线粘连的情况( 属 于2 2 1 节所述粘连情况的( 1 ) 或( 3 ) ) 尤为严重。所谓衬线,是一个印刷业的名 词,指本身不属于字母的笔划,而是由字体设计者为了美观而在笔划末端添加上 去的,短小而柔细的并且与字符笔划垂直的直线段。常用字体中,如r o m a j l , c o u r i e r 等,都大量使用了衬线。 图2 3 是单词i i l i n i i i l i z e 在w i n d o w s 下使用r o m a n 字体、1 2 号字渲染出来的 效果。上面所说的各种字符分割情况均无法很好地作用于这类粘连字符。很明显, 图像中除字母e 外,其它字母均是衬线粘连的情况,而且是一个严重粘连的特例。 扪口】蚰】如口】z e 图2 - 3 单词m l n i m i z e 在w i n d o w s 中以r o m a n 字体1 2 号字的渲染结果 如果要应用以上所述的方法,必须对图像进行放大处理,然而图像放大本身 就是一个极其困难的插值问题,而且图像放大往往会导致伪噪音、边缘模糊等等 问题的出现。 2 3 字符识别中的特征提取方法 2 3 1 特征提取以及特征提取的原则 我们知道图像或波形的数据量是相当大的。一幅1 0 0 1 0 0 的二值文字图像 就有1 0 0 0 0 个数据。这样庞大的数据,其实并不都是我们所想要的。人类在看到 一幅图像后,会很自觉的对图像中的信息进行有效的加工,最后从图像中获取需 要的信息。模仿人类对事物的识别原理,为了有效地实现分类识别,需要对这些 原始数据进行变换,得到最能反映分类本质的特征。这就是特征提取的过程。一 般我们把原始数据组成的空间叫测量空间,把分类识别赖以进行的空间叫特征空 碡l 出走学颈学稼谵空 间。通过变换,可把谯维数较瀚的测量空间中表示的模式变为在维数较低的特征 空藏孛袭示熬模式。在特薤窆潮中豹一个模式遥窝邀蘩敲一个耧本,它毪往胃鞋 表示巍个淘量,辩穗征空蠢孛弱个点9 4 。 特锻提取在广义上就是指 平十映射。若x 是测景空间,y 越特征空间,则映射 f :x 一¥就叫骰耱蔹撬取器。 在字籀识鞠翦特繇提取中,瘫该要遵撵下一些氦剿:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论