




已阅读5页,还剩97页未读, 继续免费阅读
(计算机系统结构专业论文)低质量文本图像ocr技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
低质瞳文奉幽像0 c r 技术的研究:摘要 摘要 本论文对低质量文本图像的o c r 技术进行了深入的研究,目标就是从理论,算法和 应用三个层次上研究低质量文本图像的高性能识别问题。研究工作主要包括以下几个方 面: 首先分析论述了低质量文本扶度图像条件下,文字识别与人的认知、经典人工智能 问题、以及二值图像识别技术之间的关系,对低质量文本图像o c r 技术的研究方向提 出了有别于传统的观点和看法。 在上述理论框架的指导下,结合低质量文本自身的特点和规律,设计了一个低质量 文本图像的识别流程,并在各主要步骤给出了实用高效的算法,主要有: 基于连通区域的层次结构切分算法:不同于传统的先行列切分,再字切分的算法过程, 本方法采用了由小到大、自底向上的切分策略。通过连通区域特征的变化规律找出适用于 切分的最佳阈值,再根据先验知识和启发式规则,对连通区域做适当的合并分割操作,最 后得到最优的切分结果。实验表明,该方法对于低质量文本图像能够取得令人满意的切分 效果。 基于地形特征的种子区域增长算法:基于确定点和关键点概念,利用像素地形特征自 动的选择种子点,通过一种改进的种子区域增长方法,从种子区域开始,依据一定的优先 级规则,逐渐向其近邻点扩展,对单字狄度图像二值化,有效地获取了字符的结构信息。 本方法与已有的二值化方法相比较,能够更好的保留有效的字符结构信息,提高了识别的 j f 确率。 基于不对称性的分类部分空间法:发现了相似字之间误识的不对称性,并对这种不 对称现象的成因进行了细致的探讨和分析。基于这种不对称性,提出了一种分类部分空 白j 方法来解决相似字的识别问题。相似字按其结构特点被分成若干基本类别。不同类别在 相应的部分空间提取不同的特征进行比较,以达到正确识别相似字的目的。 经百万字左右的文本测试表明,本文提出的方法对于不同质量文本的识别性能有不 同程度的提高,尤其是对于质量比较低的文本( 五十年代的文本数据) ,其识别正确率达 低质鼍史奉雕像0 ( = r 技术的研究:摘要 9 0 * , 左右,比已有方法提高了约九个百分点,误识率降低了约四个百分点,效果明显。 关键词:文字识别低质量文本,模工弋识别,图像处理,狄度图像,二值化,切分,识 别,连通区域,种子区域增长,地形特征,相似汉字。 n 低质壁文本酬像o c r 技术的研究: a l 惰t r a c t s t u d i e so f o c r t e c h n o l o g yf o rd e g m d e dd o c u m e n ti m a g e s s u n y u f e i ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yp r o f e s s o rl io u o j i e i nt h i sd i s s e r t a t i o n ,t h eo c r t e c h n o l o g yf o rd e g r a d e dd o c u m e n ti m a g e si sd e e p l ys t u d i e d i n t h r e el e v e l s - t h e o d e s ,a l g o r i t h m sa n da p p l i c a t i o n s t h i sd i s s e r t a t i o nm a i n l yc o v e r sf o l l o w i n g t o p l c $ f i r s t , t h er e l a t i o n s h i p sa m o n go c r f o rd e g r a d e dd o c u m e n ti m a g e sa n dt h ec o g n i t i o no f h u m a nb e i n g s ,t h ec l a s s i c a la i ,a n dt h eb i n a r yr e c o g n i t i o nt e c h n o l o g ya r ea n a l y z e d s o m e n o v e lv i e w p o i n t sw h i c ha r cd i f f e r e n tf r o mt h et r a d i t i o n a lc o n c e p t i o na r ep r o p o s e da n dt h e t h e o r yf l a m eo f o c rt e c h n o l o g yf o rd e g r a d e dd o c u m e mi m a g e si se s t a b l i s h e d w i t ht h eg u i d a n c eo fa b o v et h e o r yf r a m ea n dc o n s i d e r a t i o no ft h ec h a r a c t e r i s t i c so f d e g r a d e dd o c u m e n ti m a g e s ,a no c r f l o wf o rd e g r a d e dd o c u m e n ti m a g e si se s t a b l i s h e dw i t h h i g h l ye f f i c i e n ta l g o r i t h m sp u tf o r w a r dr e s p e c t i v e l yi na l lt h em a i ns t e p so ft h ef l o w t h o s e a l g o r i t h m si n c l u d ef o l l o w i n g : c o n n e c t e d - c o m p o n e n t - b a s e dc h a r a c t e rs e g m e n t a t i o nm e t h o db yu s i n gm u l t i - l a y e r s t r u c t u r e :i no r d e rt oo v e r c o m et h ew e a k n e s so fc o n v e i i f i o n a ls e g m e n t a t i o na l g o r i t h mi n o c p , an e ws e g m e n t a t i o nm e t h o df o rd e g r a d e dd o c u m e n ti m a g ei sp r o p o s e d t h em o s t i m p o r t a n tf e a t u r eo ft h en e wm e t h o di s t of i n dt h eo p t i m a lt h r e s h o l df o rs e g m e n t a t i o n a c c o r d i n gt ot h ev a r y i n gl a wo ft h ea t t r i b u t e so fc o n n e c t e dc o m p o n e n t s f i r s t , t h ew h o l e d o c u m e n ti m a g ei sc o n s t r u c t e di n t oam u l t i l a y e f 蜘m l r eb yu s i n gt h eg r a d i i 玛c o n n e c t e d c o m p o n e n t s t h e n , t t l o s ec o n n e c t e dc o m p o n e n t so nt h em a i nl a y e ra m e r g e d o rs p l i tb y m e h e u r i s t i cr u l e s t h ef i n a lc o n n e c t e dc o m p o n e n t s a r e e x p e c t e ds e g m e n t a t i o n r e s u l t s e x p e r i m e n t a lr e s u l t sd e m o n s t r a t e dt h a tt h i sm e t h o di sm o r ee f f e c t i v et h a nt h et r a d i t i o n a l m e t h o d a u t o m a t e ds e e d e dr e g i o ng r o w i n gm e t h o df o rb i n a r i z a t i o nb a s e do nt o p o g r a p h i c f 吼m r e s :t h i si san e wb i n a r i z a t i o nm e t h o df o rt h ei n d i v i d u a lc h a r a c t e rg r a y - s c a l ei m a g e i t d o e sn o th a v et h ee x p l i c i tt h r e s h o l d i ts e a r c h e st h ep r i n ta n db a c k 伊。蛐dp i x e l sd i r e c t l yb y u s i n gam o d i f i e ds e e d e dr e g i o ng r o w i n g ( s r g ) t e c h n i q u e t h i sm e t h o da p p l i e sh i g h e r - l e v e l k n o w l e d g et o t h ee n t i r ea l g o r i t h mp r o c e s s f i r s t , s e e dp i x e l sa r es e l e c t e da u t o m a t i c a l l y a c c o r d i n gt ot h e i rt o p o g r a p h i cf e a t u r e s ;t h e nr e g i o n sa r eg r o w nw h i c hi sc o n t r o l l e db yn e w w d g h t e dp r i o r i t yu n t i la l lp i x e l sa r cl a b e l e db l a c ko rw h i t e ;f i n a l l y , n o i s yr e 萄。璐a r er e m o v e d b a s e do nt h es t r o k ew i d t hf e a t u r e t h e s ef e a t u r e sc o n t a i ne s s e n t i a ls t r u c t u r a li n f o r m a t i o n ;h e n c e i i i 低质量殳本幽像o c r 技术的纠 究l a b s t r a c t t h ef i n a lb i n a r i z a f i o nr e s u l tc a np r e s e r v et h eu s e f u lc h a r a c t e rs i l t l c u l r ew e | 1 t h ee x p e r i m e n t a l r e s u l t so f e v a h i a t i o ns h o w e ds i g n i f i c a n ti m p r o v e m e n tc o m p a r e dt os e v e r a lo t h e rm e t h o d s a s y m m e t r y - b a s e dr e c o g n i t i o nm e t h o df o rs i m i l a rc h i n e s ec h a r a c t e r s :s i m i l a r c h a r a c t e r sr e c o g n i t i o nh a sag r e a ti m p a c to nt h ea c c u r a c ya n du s a b i l i t yo ft h ew h o l eo c r s y s t e m i nt h i st h e s i s ,t h ea s y m m e t r yi ns i m i l a rc h i n e s ec h a r a c t e rr e c o g n i t i o ni si n t r o d u c e d t h ec a u s e so ft h ea s y m m e t r yp h e n o m e n aa r ed i s c u s s e da n da n a l y z e di nd e t a i l s b a s e do nt h e a s y m m e t r y , am e t h o do fc a t e g o r y - b a s e dp a r t i a la r e am a t c h i n gf o rs i m i l a rc h i n e s ec h a r a c t e r s r e c o g n i t i o ni sp r o p o s e d i na c c o r d a n c ew i t ht h e i rs t r u c t u r a lc h u r a c t e r i s 6 c s 。s i m i l a rc h a r a c t e r s a r cd i v i d e di n t od i f f e r e n te l e m e n t a r yc a t e g o r i e s t h ed i f f e r e n tc a t e g o r yf e a t u r e sw h i c ha l e e x t r a c t e df r o m c o r r e s p o n d i n gp a r t i a l a r e aa r eu s e dt o r c c o g n i z es i m i l a r d 埔r a c c e 培 e x p e r i m e n t a lr e s u l t ss h o w e dt h ev a l i d i t yo ft h ep r o p o s e dm e t h o d ,w h i c hs i g n i f i c a n t l y i m p r o v e dt h ea c c u r a c yo f s i m i l a rc h i n e s ec h a r a c t e rr e c o g n i t i o n t h ee x p e r i m e n tr e s u l t so f am i l l i o nc h a r a c t e rt e s td e m o n s t r a t e dt h a tt h ep r o p o s e dm e t h o d i m p r o v e dt h er e c o g n i t i o np e r f o r m a n c e ,a n dt h ed e g r e eo ft h ei m p r o v e m e n ti sr e l a t e dt ot h e q u a l i t yo f t h ed o c u m e n ti m a g e s e s p e c i a l l yf o rt h ei o w - q u a l i t yd o c u m e n ti m a g e sp r i n t e di nt h e 5 0 s ,t h er e c o g n i t i o np r e c i s i o nr a i ei sa b o u t9 0 ,w h i c hi sa l m o s tan i n ep e r c e n ti m p r o v e m e n t o nr e c o g n i t i o np r e c i s i o nr a t ea n df o u rp e r c e n ti m p r o v e m e n to ne r r o rr a t ec o m p a r e dt o t r a d i t i o n a lm e t h o d k e y w o r d s :o c i ) e g r a d o dd o c u m e n t , p a t t e mr e c o g n i t i o n , i m a g ep r o c e s s i n g ,g r a y - s c a l e i m a g e ,b i n a r i z a t i o n , s e g m e n t a t i o n , r e c o g n i t i o n , c o n n e c t e dc o m p o n e n t ,s e e d e dr e g i o n g r o w i n g , t o p o g r a p h i cf e a t u r e ,s i m i l a rc h i n e s ec h a r a c t e r 声明 我声明本论文足我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:吾孔稠雒 日期:7 畎r 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者签名:劲翻谁导师签名霉国芝日期:7 叮r 销一帝0 l 苦 第一章引言 文字是信息的载体,是人们表达和交流思想,传播知识和情报,保存资料和典籍的 媒介据不完全的统计,目前仍有9 0 的信息资源的主体是各种载体的文档资料信息。 近年来,随着信息技术的飞速发展,信息数字化已成为国际潮流,也是全球关注和各行 业竞争的焦点,利用计算机对大量的文档资料信息数字化进行处理、存储、管理已是必 然的趋势。 o c r 是英文o p t i c a lc h a r a c t e rr e c o g n i t i o n ( 光学字符识别) 的缩写,即将扫描仪、 摄像机等光学输入方式得到的书籍、报刊、文稿、表格等印刷品的文字图像信息转化为 可供计算机识别和处理的文本信息。它的研究大大促进了模式识别、图像分析等学科的 发展,使得文本信息可以高速地输入计算机,解决了低速的信息输入与高速信息处理之 间的矛盾,从而提高了整个计算机系统的效率,把人们从繁重的键盘录入的劳动中解脱 了出来在信息化进程加快的今天,o c r 技术已经成为一种极为重要的非键盘输入技术, 在各行各业以至普通人的学习工作中部具有重要的意义。 o c r 技术可以分为印刷体识别及手写体识别技术,手写体识别又可以分为联机 ( o n - l i n e ) 与脱机( o f f - l i n e ) 两种。从识别技术的难度来说,手写体识别的难度高于印刷体识 别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。但从目前应 用的程度来说,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体 识别还处在实验室阶段。与脱机手写体和联机手写体识别相比,印刷体识别的实用化程 度最高。本文所要探讨的主要是汉字印刷体识别。 图1 1 0 c r 的分类 经过了数十年的发展,o c r 技术在印刷体识别方面的进步最为显著,在市场上已经 推出了很多成功的商业软件,以汉字为例,如汉王公司的文本王,清华文通t h - o c r 、 尚书o c r 、蒙恬o c r 以及丹青o c r 等。其应用范围也越来越广泛,不仅仅局限于个人 或o e d , 企业的办公自动化,在会融、税务、数字图书馆等领域也已经开始了大规模地应 用 i 中陶科学院博i 。学位论空低质盛史奉捌像o c r 技术的研究 但是在具体应用中,我们发现文本图像的质量对o c r 系统的识别性能有着直接的 影响实践证明,较高印刷质量的书刊,其识别率大都可以在9 9 以上,印刷质量差的 文件识别率则显著下降,有的甚至不到7 0 ,在实际中根本无法应用。于是,提高低质 量文本图像的识别正确率就成为了o c r 技术产业化进程中必须解决的一个课题。 1 1 研究的理论意义 o c r 技术作为模式识别领域的一个重要分支,它涉及模式识别、图像处理、数字信 号处理、自然语言理解,人工智能、模糊数学、信息论、计算机、中文信息处理等众多 学科,是介于基础研究和应用研究之洲的综合性技术,有着重要的理论价值。尤其是低 质量文本图像的o c r 技术具有很强的理论挑战性: l 、目前在模式识别领域,不仅仅是文字识别,其他的分支诸如语音识别、人脸识 别、指纹识别等,都面临着一个共同的难题:在低质量,高噪音的情况下萨确识别模式 的问题各分支所研究的模式对象虽然有所不同,但是基本的原理是一致的,在很多方 面都有可以相互借鉴的地方。 2 、本文主要研究的是印刷体汉字o c r 技术。由于汉字数量众多,结构复杂,因此 汉字识别问题属于超多类模式集合的分类问题,也是文字识别中最为困难的问题,在模 式识别理论和方法研究方面有着重大的意义,有助于对o c r 技术做深入地分析研究及 验证一些新的理论的有效性,评价各种方法的优缺点。 3 、尽管人们对文字识别已从事了很长时间的研究,并己取得了很多成果,但到目 前为止机器的识别本领还无法与人的认知能力相比,尤其在低质量文本图像的识别问题 上如何用计算机较好的实现人的模式识别能力,这仍是一个有难度的丌放问题。 4 、印刷体的低质量文本的识别方法很容易推广到其它一些相关问题,一个直接的 应用是车辆牌照的识别。事实上,虽然车辆牌照识别主要处理的是英文字母和数字,但 它们两者在很多环节的解决方法上都是非常相似的。 1 2 研究的应用背景 文字识别有着极为广泛的应用前景,这也正是它受到世界各国的研究工作者重视的 一个主要原因。而目自口低质量文本图像的识别问题已经成为了阻碍o c r 技术进一步发 展和应用的瓶颈。下面我们将介绍一些以印刷体识别技术为基础的典型应用,及低质量 文本图像识别在其中的重要性。 。 ( 一) 印刷体识别在办公自动化中的应用 目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发 展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版 物,但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、出版 社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅 镛一牵奇 读习惯。电子化与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的 十几年或更长的时删内将不会出现一者被另一者取代的情况 并且,在办公自动化中,低质量文本占有相当大的比重,这主要是来源于传真和复 印这两个在办公中最经常使用的信息传递方式。 c z ) 印刷体识别在数字图书馆领域中的应用 数字图书馆是采用高新技术支持的数字信息资源系统,是下一代互联网上信息资源 的管理模式,将从根本上改变互联网上信息分散的现状。数字图书馆是知识经济时代文 化的载体和催化剂。数字图书馆的建设已经成为当d 口评价一个国家信息基础水平的重要 标志。 目前我国数字图书馆建设中的瓶颈是中文信息的数字化问题。有关统计资料表明, 目前在互联网的信息中,9 0 以上是英文,中文信息少得可怜。大量的数字化资源是数 字图书馆的“物质”基础,建设数字图书馆的首要任务,就是要把图书馆罩浩如烟海的中 文图书资料输入计算机系统,转化成网上中文信息数据库。o c r 技术作为数字图书馆建 设中的基础环节一信息资源加工的关键技术,其重要性已是不言而喻了。 大量的早期中文图书资料,因当时印刷技术条件的限制和长期保存的原因,都属于 低质量文本。 ( 三) 印刷体识别在财务、税务、舍融领域中的应用 财务、税务、会融是印刷体识别大有可为的又一领域。随着我国经济的迅速发展, 每天等待处理的财务、税务报表、发票、支票、付款单等越来越多。如果能把它们用计 算机自动处理,无疑可以节约大量的时白j 、金钱和劳力。 发票、支票等因为防伪等原因,背景复杂、变化、有纹理,也属于低质量文本。 ( 四) 印刷体识别在图像文字信息处理中的应用 随着数字图像技术的飞速发展,对于图像中嵌入的低质量低分辨率字符的识别需求 也大大的增强了。例如一些通过数码相机,摄像机和手机获取的图像或者单帧视频图像 中的文字信息的提取和识别。由于实际使用条件的影响,存在着许多不利于识别的因素, 包括背景复杂、光照条件变化影响、镜头污损,以及由于拍摄角度或运动等原因导致字 符变形歪斜等。这些都属于低质量文本的范畴。 随着信息化进程的加快,文字识别的应用需求将越来越广泛,因此应当加强这方面 的研究工作。笔者认为,o c r 应用系统的性能的关键与瓶颈仍然在于低质量文本图像的 识别性能上,最终目标是研究零误识率和低拒识率的高速识别算法。 1 3 低质量文本图像 低质量文本图像是本文的研究对象,下面我们就对低质量文本图像的产生原因和特 点,以及当前的o c r 技术在面向低质量文本图像时存在的不足做详细的探讨和分析。 3 中瞰料学院博i 擘”论疋低质藿立= 奉幽像o e r 技术的栅窀 1 3 1 产生和存在的原因 在现实环境中,低质量文本图像产尘和存在的原因多种多样,主要有两大类:一类 是文本资料本身质壁的原因,另一类足因为输入设备的原因。 文本资料本身的原因; a ) 灰度或者彩色的背景,例如杂志和商业表格。 b ) 纹理背景,例如银行支票。 d ) 版面排列不归整,行列自j 距不明显,字符错位。 e ) 墨迹的浸润和不均匀,字符笔划的粘连,断裂。 f ) 纸面污渍,污损、褶皱等。 输入设备的原因: a ) 扫描仪的分辨率低,光源不稳定,反光度不同。 b ) 传真机或复印机的传真复印性能差。 c ) 照相或摄像器材分辨率低,运动成像等。 为了能够尽量反映文本的原貌和保留有效信息,从各种设备获取文本图像时,尤其 是低质量文本图像,越来越多的选择廖i 度图像的形式。 头作簿投 燕略释鸯 细有之齑: 辫棠瀚 份潞警:; 鬻芝 壅毁凳 样;,建毫醛麓* 变动爵时代嚣键 们要递 钠捆信这里的暇黄燧 幽1 i 低质蛙文本图像 低质量文本图像是本文的研究对象,可是如何评价一副图像的质量,对于怎样的图 像是低质量的,目前还没有一个统一的定义,也很难用一个量化的标准去界定,我们只 能从人的主观观察的角度来认定因为低质量文本图像多种多样,在本文中所要研究的 低质量文本图像主要是指具有如下特征的文本图像: 4 凡殴 钨一帝0 i 育 a ) 前景和背景对比度差,背景有一定变化; b ) 字符结构印刷不清晰,有弱笔划或强背景: c ) 存在一定程度的噪音。 图1 1 给出了几个低质量文本扫描图像的例子,分别具有上述的这些特点。 1 3 2 当前o c r 技术存在的不足 印刷体o c r 技术经过这么多年的发展,在某些方面已经比较成熟,也有很多成功的 商业产品,但是在很多方面仍存在不足,比如自动版面分析、后处理纠错等,不过这些 不是本文所要探讨的,我们所关注的重点是和高质量的文本图像相比,当前的o c r 技 术对于低质量文本图像还存在着哪些不足之处: 损失大量有效信息的二值化。 当前的o c r 处理技术还是主要面向于二值图像,所以要先对狄度图像二值化。而耳 前的二值化方法对于低质量文本图像难以得到令人满意的结果,造成大量有效信息的丢 失,这些信息对于后面的步骤非常关键,尤其是对于单字识别来说是至关重要的如何 有效的保留字符的结构信息是二值化方法所要努力的方向 大量的切分错误。 低质量文本图像的版面信息非常不舰整,目前的切分技术很难对行列倾斜、间距小、 字符错位、字问粘连等非常规稿件进行j 下确的切分。传统上,o c r 研究者们往往更关 心识别算法本身,而轻视切分技术,一直以来对于切分都缺少系统的理论研究,尤其是 对于中文文本,还是先行列切分再字切分,采用的是从大到小,自顶向下的切分策略 在单字识别技术越来越成熟的今天,最终识别结果的错误有很大一部分直接来自于切分 错误降低切分的错误率,将有效地提高整个o c r 系统的性能,因此,切分技术将是 今后的一个侧重点。 低效的狄度特征提取 因为二值化操作常常造成字符笔划的粘连和断裂,给识别带来很大的困难,研究者 寄希望于从原始的灰度图像中直接提取特征进行识别来提高识别的正确率。但是当前文 献中的灰度特征提取算法大都计算繁琐,而且效率低下,对于低质量的单字文本图像难 以提取出有效的特征。所提取的特征中有效信息和噪音信息并存,对识别性能没有什么 明显的改善。 相似字识别率低 相似字多是汉字的一个特点。在常用的3 7 5 5 个汉字中,约有1 0 的字在字形上十 分相似有的只差一点或一划,其意义就完全不同例如“王,主”“千、干”等等这 些相似字很容易混淆,原本币确识别起来就比较困难,在低质量文本中这个问题更为突 出对于这些相似字的识别必须给予特别的注意。 中固 4 学院博i 学位论望低质垦文奉图像0 c r 技术的研究 t 4 本论文的贡献 本论文主要对低质量文本图像的o c r 技术作了一些探索性的理论研究,观察分析了 低质量文本图像的识别难点。以其自身特性和规律作为指导,在算法方面作了一些深入 细致地研究。目标就是从理论,算法和应用三个层次上研究低质量文本图像的高性能识 别问题。研究丁作差要包括以下几个方面: 1 ) 对当前已有的o c r 技术进行了分类分析和比较,归纳总结出了低质星文本图像 识别的难点和应解决的关键问题。 2 ) 分析文本图像的特点和性质,对于人对文本图像的认知本质进行了探索性的研 究论述了文字识别与人的认知、经典人工智能问题、以及二值图像识别技术之间的关 系,将二值和狄度识别技术在理论上统一了起来,为低质量文本图像的识别提供了理论 依据和指导。 3 ) 在上述理论框架的指导下,根据低质量文本图像自身的特点和规律,设计了一个 方便和传统的二值o c r 技术接口的低质量文本图像的识别流程,并在各主要步骤提出 了实用高效的算法本文的主要创新点包括: 基于连通区域的层次结构切分算法:该方法不同于以往的自顶向下、由大 至小的切分算法,而是采用了自底向上、由小到大的策略。通过连通域特征的变 化规律寻找适用于切分的最佳阈值。具体做法是先将狄度图像的狄度值进行分级 处理,再根据分级连通域的概念把整个图像构造成多层次结构,然后确定主层次, 根据一定的规则在部分连通域上进行合并、分割等进一步处理,最后得到最优的 切分结果。实验表明,该方法对于低质量文本图像能够取得比常规切分方法更好 的效果。 基于地形特征的种子区域增长算法:利用种子域的增长有效地获取了字符 的笔划结构信息。先根据像素点的地形特征自动的选择种子点;然后,从种子区 域玎始,依据一定的优先级规则,逐渐向其近邻点扩展,直到所有点全部处理完; 最后再利用平均笔划宽度特征和已知的字符结构的先验知识,去除噪音,得到最 终的二值结果。大量的实验结果证明,本方法与已有的方法相比较,能够更好的 保留下字符的有效结构信息,提高了识别j 下确率。 基于不对称性的分类部分空间法:发现了相似字之间误识的不对称性,并 对这种不对称现象的成因进行了细致的探讨和分析基于这种不对称性,提出了 一种分类的部分空白j 方法来解决相似字的识别问题。相似字按其结构特点被分成 若干基本类别,不同类别在相应的部分空间提取不同的特征进行比较,以达到正确 识别相似字的目的。实验结果表明了本方法的有效性,相似字识别的准确性得到 了很大的提高。 经l o o , 匀字左右的文本测试表明,本文提出的方法对于不同质量文本的识别性能有不 同程度的提高,尤其是对于质量比较低的文本( 5 0 年代的文本数据) ,其识别正确率可达 6 第一帝0 l 育 9 0 左右,比已有方法提高了约9 个百分点,误识率降低了约4 个百分点。 4 ) 应用前景分析:低质量和噪音背景下的模式识别问题是模式识别领域各分支面临 的共同的问题,也是o c r 技术在实际应用中迫切需要解决的一个难题。低质量文本图 像o c r 技术的研究不仅可以为模式识别的其他分支领域提供借鉴,更能够加速o c r 技 术的产业化进程商业应用前景非常广阔。 1 5 本论文的组织 论文内容的安排如下表所示: 第二章o c r 技术的研究和发展现状 第三章 低质量图像o c r 技术的理论框架 第四章基于连通区域的层次结构切分算法 第五章基于地形特征的种子区域增长算法 第六章相似字识别的研究 第七章 系统性能分析评测 第八章结束语 7 光学字符识别( o c r ,o p f i c a lc h a r a c t e rr e c o g n i t i o n ) 是模式识别的一个重要分支妇 “删。艏“骁“删”蚓,简单的说,是先将文本经扫描仪扫描,进行光电转换得到 图像信息,然后利用识别技术,将图像信息转换为计算机可以直接处理的文字代码形式 它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信 息论、计算机、中文信息处理等众多学科,是介于基础研究和应用研究之间的综合性技 术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,有着重要的 实用价值和理论意义 2 1 1 发展历史 o c r 的概念产生于1 9 2 9 年,山德国的科学家t a m h c c k 首先提出,到现在已经有7 0 多年的发展历史。 欧美国家为了将浩如烟海、与开俱增的大量报刊杂志、文件资料和单据报表等文字 材料输入计算机进行信息处理,从5 0 年代就开始了西文o c r 技术的研究,以便代替繁 重的人工键盘输入。经过4 0 多年的不断改进和完善,并伴随着计算机技术的飞速发展。 现已将o c r 技术广泛应用于各个领域,使大量的文档资料能快速、方便、省时省力和 及时地自动输入计算机,实现信息处理的电子化。 中文o c r 技术最早可以追溯到6 0 年代。1 9 6 6 年,i b m 公司的c a s e y 和n a g y 发表 了第一篇关于中文o c r 技术的论文,在这篇论文中他们利用简单的模板匹配法识别了 1 ,0 0 0 个印刷体汉字i c 8 q 1 9 6 6 l 。7 0 年代以来,闩本学者做了许多工作,其中有代表性的系 统有1 9 7 7 年东芝综合研究所研制的可以识别2 0 0 0 个汉字的单体印刷汉字识别系统;8 0 年代初期,r 本武臧野电气研究所研制的可以识别2 3 0 0 个多体汉字的印刷体汉字识别系 统,代表了当时汉字识别的最高水平。 我i 雪对中文o c r 技术的研究始于7 0 年代未、8 0 年代初,大致可以分为三大阶段: ( 1 ) 第一阶段从7 0 年代末期到8 0 年代末期,主要是算法和方案探索。 9 中闺科学院i 撙i 学位论文- - - 4 睡质墨殳奉幽像0 c r 技术的埘究 ( 2 ) 第二阶段是9 0 年代初期,中文o c r 由实验室走向市场,初步实用。 ( 3 ) 第三阶段也就是目l ;i ,主要是印刷汉字识别技术和系统性能的提高。 同国外相比,我国对中文o c r 技术的研究起步较晚,但由于我国政府对中文o c r 技术的研究从8 0 年代丌始给予了充分的重视和支持,经过科研人员十多年的辛勤努力, 中文o c r 技术,尤其是印刷体汉字识别技术的发展和应用,有了长足进步:从简单的 单体识别发展到多种字体混排的多体识别:从中文识别发展到中英混排的双语识别;系 统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的 版面可以进行有效的定量分析。我国的o c r 识别技术在理论上与实践上都具有国际先 进水平。 迄今为止o c r 技术已经发展的比较成熟,达到了实用的程度,在个人信息管理、 办公自动化、电子出版物、网络资源、各种大型文献资料管理数掘库、数字化图书馆等 领域有着广泛的应用,在邮政、会融、电子政务、保险、税务、工商等行业的需求呼声 也越来越高。 随着o c r 技术应用的领域越来越广泛,对于系统识别和处理能力鲁棒性的要求也 越来越高。在实际应用中,各种文本图像的情况复杂多变:纹理背景、变化背景、噪音 干扰、不规则版面、低品质印刷等等。面对这些复杂的情况,传统的o c r 技术就显的 力不从心,因此,o c r 的研究近年来就逐渐转移到如何高速准确的识别复杂低质量文本 图像问题的研究上来。 2 1 2 系统流程 一般的o c r 系统的流程如图2 1 所示,主要包括: ( 1 ) 扫描输入图像; ( 2 ) 图像的预处理: ( 3 ) 版面分析和理解; ( 4 ) 文本图像切分; ( 5 ) 基于单字图像的特征提耿; ( 6 ) 基于单字图像特征的模式分类: ( 7 ) 识别结果的编辑修改和后处理。 通过扫描仪等将印刷文本转换成二维原始图像,可以是灰度i 拘( g r a y s c a l e ) 或二值的 ( b i n a r y ) - - 然后对原始图像预处理,包括去噪、倾斜校正或各种滤波处理一再对文本图 像的总体进行版面分析,区分出文本段落及排版顺序图像、表格的区域,对于文本区 域将进行识别处理对于表格区域进行专用的表格分析及识别处理,对于图像区域进行 压缩或简单存储 对文本区域进行行列字切分,以横版为例,就是将大幅的图像先切 割为行,再从图像行中分离出单个字符图像 从单个字符图像上提取特征,包括为此 而做的细化f f h i n n i n g ) 、归一化( n o r m a l i z a t i o n ) 等工作 文字识别,即从学习得到的特征 库中找到与待识字符相似度最高的字符类后处理,是利用词义、词频、语法规则或语 1 0 锫一章o c r 技术的研究和发艘现状 料库等语言先验知识对识别结果进行校萨。 幽2 io c r 技术的流群图 扫描输入图像:原始图像是透过光学仪器,如影像扫描仪、传真机或任何摄影器材, 将影像转入计算机而得到的。扫描仪等的输入装置的品质直接影响着原始输入图像的质 量,对o c r 的性能也有一定的影响,扫描仪的高分辨率使影像更清晰、商扫描速度更 增进o c r 处理的效率。 图像的预处理:这部分包括对原始图像的去噪、倾斜校正和各种滤波处理,如果输 入图像是灰度或彩色图像,一般还要进行二值化处理。 版面分析和理解:版面分析完成对于文本图像的总体分析,区分出文本段落及排版 顺序、图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表 格分析及识别处理,对于图像区域进行压缩或简单存储。 文本图像切分:将大幅的文本图像区域先切割为行( 列) ,再从图像行( 列) 中分离 出单个字符的过程。 单字图像特征提取:特征提取是整个环节中最重要的一环,它是从单个字符图像上 提取统计特征或结构特征的过程,包括为此而做的细化( t h i n n i n g ) 、归一化( n o r m a l i z a t i o n ) 等步骤提取的特征的稳定性及有效性,直接决定了识别的性能。 模式分类( 识别) ;模式分类就是将待识别字符特征向量与通过学习得到的特征库进 行比对,找到相似度最高的字符类作为结果的过程。 识别结果后处理:一般是利用词义、词频、语法规则或语料库等语言先验知识对识 别结果进行校正的过程 其中( 、( 5 ) 和( 6 ) 步,也就是图2 1 中的阴影部分是o c r 技术中最为核心的技术。 近几年来,为了进一步提高系统的总体识别率,图像的预处理、版面分析和理解以及识 别后处理等方面的技术,也丌始引起研究者的关注,并取得了一定的进展 1 1 中周科学院博卜学位论丈低质盛史奉幽像o c r 技术的t 0 d c 各个环节的方法和算法将在下面的d , 节v e 详细讨论。主要集中在我们所关注的二值 化。切分和特征提取这三个方面。 2 2 图像二值化方法 图像二值化就是将灰度图像转化为只有黑和白f 两个颜色值图像的过程,它是图像预 处理环节中的一部分。事实上,目前市场上推出的绝大多数0 ( 2 r 系统部是面向二值图 像的,因为二值图像具有存储空f b j 小、便于数据压缩、特征突出、处理简单的优点如 果原始的输入图像是狄度图像,就要先将灰度图像进行二值化。 二值化属于图像处理中的图像分割技术。图像分割主要有阈值、边缘检测和区域增 长三大类方法。阈值方法 s a 虹2 0 0 m “2 0 0 2 1 因其实现简单、计算量小、性能稳定而成为文 本图像二值化的最基本和应用最为广泛的二值化技术。 阈值就是二值化时区分前景与背景的门槛值,小于或等于阂值的像素属于前景,而 其它属于背景。闽值的f 确选择是二值化的关键,通常分为全局阈值和局部阈值两类, 下面分别对这两类方法的典型算法进行了介绍。 2 2 1 全局阈值 全局阔值又称为静态阈值,是根据整幅图像的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业无人机租赁服务平台的用户需求与满意度调查报告
- 房屋拆除工程防护方案(3篇)
- 农业无人机植保作业效率2025年提升策略及案例分析报告
- 东莞亮化工程方案(3篇)
- 安全教育常培训课件
- 安全教育工作培训课件
- 安全教育家长培训课件
- 农业品牌建设2025年资金申请流程与注意事项报告
- 辽宁国企面试题库及答案
- 乐亭二中面试题库及答案
- 国防知识教育培训课件
- 预防艾滋病、梅毒和乙肝母婴传播服务流程
- 中国陶瓷教学课件
- 医院内肺炎预防与控制操作规程
- 医院新入职员工礼仪培训
- 学校课后延时服务费分配细则
- 儿科停水停电应急预案演练脚本
- 2025年专业医疗机构感染控制与消毒作业外包服务合同书
- 高档小区宠物管理办法
- 2024注册安全工程师《历年计算题型》
- 2025年江苏省开发区运行现状及投资战略研究报告
评论
0/150
提交评论