(计算机系统结构专业论文)计算机文字识别的研究与实现.pdf_第1页
(计算机系统结构专业论文)计算机文字识别的研究与实现.pdf_第2页
(计算机系统结构专业论文)计算机文字识别的研究与实现.pdf_第3页
(计算机系统结构专业论文)计算机文字识别的研究与实现.pdf_第4页
(计算机系统结构专业论文)计算机文字识别的研究与实现.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东太学硕士学位论文 摘要 近年来,随着计算机的迅速发展,模式识别技术不断取得新的进展,大大改善 了人机之间的信息交互能力。计算机文字识别是模式识别的一个重要分支,它包括 数字字符识别、西方文字字符识别、东方文字字符识别。数字字符识别和英文字符 识别研究最充分,识别方法比较成熟,识别率也比较高;而东方文字字符识别比较 困难,其中汉字字符识别是文字识别中最困难的部分。 汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,学科上属于模 式识别和人工智能的范畴。汉字识别涉及到模式识别、图像处理、人工智能、形式 语言与自动机、模糊数学、组合数学、信息论、中文信息处理等学科,也涉及到语 言文字学、心理学、仿生学等,是- - f 综合性技术。 计算机文字识别是使汉字和其它字符高速自动输入计算机,解决了汉字信息处 理系统中手动输入效率低这一关键问题的理想途径,是办公自动化不可缺少的文字 自动输入手段,是智能计算机智能接口的重要组成部分。同时联机手写汉字识别是 一种很方便的汉字输入方式,而且字符图像经识别后形成的代码,在信息量上减少 了百分之九十九以上,对信息压缩和传输有重要意义。 汉字识别是一种难度非常大的模式识别。这是因为:从客观上讲,汉字是种 特殊的模式集合,其模式种类很多,结构非常复杂,有的模式又十分相似,加上印 刷质量与干扰的影响,以及人们在书写时的随意性使字形不够规范等原因,都使得 汉字字符的识别十分困难。 从技术上讲,虽然关于模式识别的研究有较长的历史,但至今仍没有适用于分 析和描述各种模式的严谨的理论。目前的模式识别,与其说是- - i 科学,还不如说 是- - i 技术,有的人甚至认为它是- - f 艺术。在研究某些模式识别问题时,有的方 法比较巧妙,或者某种识别方法比较符合被识别的模式集合的情况,因而得到较好 的效果。但是即使是较好的方法,由于不容易顾及所有方面的问题,所得结果往往 也不是全局最佳”】。 本文在总结学术上已有关于计算机文字识别成果的基础上,描述了计算机文字 山东t l = 学硕士学位论文 识别的基本过程,介绍了几种常用的数字字符识别方法和汉字字符识别方法,对已 有字符识别方法的改进主要有: 1 提出了一种新的数字字符识别方法,即基于整体特征的数字字符识别方法, 使数字字符识别对字符的书写风格依赖性减小,能够识别书写不规范的数字 字符。 2 对现有的关键背景点法数字字符识别进行了改进,使原本几乎只能够用于印 刷体数字字符识别的方法能够用于识别手写体数字字符。 3 提出了一种专用于字符识别的细化算法,使得细化骨架不受字符边缘修饰的 影响,形变很小,同时速度很快。 4 提出了一种从脱机字符点阵图像中恢复动态信息,将脱机识别问题转变为联 机识别问题的方法。 l l 关键词:数字识别汉字识别模式识别文字识别细化算法 一生查查堂堡主兰篁堡茎 a b s t r a c t w i t ht h e d e v e l o p m e n to fc o m p u t e rt e c h n o l o g y p a t t e r nr e c o g n i t i o n t e c h n o l o g yh a sb e e nm a k i n gn e wp r o g r e s sr e c e n t l y ,w h i c hh a si m p r o v e dt h e a b i l i t yo fi n f o r m a t i o ni n t e r a c t i o ng r e a t l y ,c o m p u t e rc h a r a c t e rr e c o g n i t i o n i sa ni m p o r t a n tb r a n c ho fp a t t e r nr e c o g n i t i o n ,w h i c hc o n s i s t so fd i g i t a l c h a r a c t e rr e c o g n i t i o n ,w e s t e r nl a n g u a g ec h a r a c t e rr e c o g n i t i o n ,e a s t e r n l a n g u a g ec h a r a c t e rr e c o g n i t i o n d i g i t a lc h a r a c t e ra n de n g l i s hc h a r a c t e r r e c o g n i t i o na r et h em o s tf u l l ys t u d i e d ,a n dt h e i rr e c o g n i t i o nm e t h o d sa r e m a t u r e ,t h e i rr e c o g n i t i o nr a t e sa r ef a i r l yh i g h :w h i l ee a s t e r nl a n g u a g e c h a r a c t e rr e c o g n i t i o ni sf a i r l yd i f f i c u l t ,a m o n gw h i c hc h i n e s ec h a r a c t e r r e c o g n i t i o ni s t h em o s td i f f i c u l t c h i n e s ec h a r a c t e rr e c o g n i t i o nm e a n sa u t o m a t i c a l l yr e c o g n i z i n gc h i n e s e c h a r a c t e r sp r i n t e do rw r i t t e no np a p e rw i t ht h eh e l po fc o m p u t e r 1 ti sa k n o w l e d g ep e r t a i nt op a t t e r nr e e o g n i t i o na n da r t i f i c i a li n t e l l i g e n c e i t d e a l sw i t h p a t t e r nr e c o g n i t i o n ,i m a g ep r o c e s s i n g , a r t i f i c i a l i n t e l l i g e n c e ,f o r m a ll a n g u a g ea n da u t o n o m a ,f u z z ym a t h e m a t i c s ,c o m p o u n d i n g m a t h e m a t i c s ,i n f o r m a t i c s ,c h i n e s ei n f o r m a t i o np r o c e s s i n g ,a sw e l l a s 1 i n g u i s t i e s ,p s y c h o l o g y ,b i o n i c s ,i t i sau n i v e r s a l t e c h n o l o g y c o m p u t e rc h a r a c t e rr e c o g n i t i o ni st h e i d e a lw a yt os o l v et h ep r o b l e m o fi n p u t t i n gc h a r a c t e r si n t oc o m p u t e r, a n i n d i s p e n s a b l em e a s u r ef o r a u t o m a t i cc h a r a c t e ri n p u t t i n gi no f f i c ea u t o m a t i o n , a ni m p o r t a n tc o m p o n e n t o fi n t e r f a c eo fi n t e l l i g e n tc o m p u t e r a tt h es a m et i m e 。o n 一1 i n eh a n d - w r i t t e n c h i n e s ec h a r a c t e rr e c o g n i t i o ni sa nc o n v e n i e n tw a yo fi n p u t t i n gc h i n e s e c h a r a c t e r s m o r e o v e r ,t h ee x t r a c t e d i n f o r m a t i o na m o u n to fc h a r a c t e rc o d e i sm u c hl e s st h a n1 o fi t si m a g e w h i c hm e a n st h a tc h a r a c t e rr e c o g n i tt o n i i l 山东人学硕十学位论文 _ _ - _ _ _ _ _ _ _ - _ _ - - _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ - - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - j su s e f u lf o ri n f o r m a t i o n c o m p r e s s i n ga n dt r a n s f e r r i n g c h i n e s ec h a r a c t e r r e c o g n i t i o n isak i n do fp a t t e r n r e e o g n i t i o i lw i t h g r e a td i f f i c u l t y o no n eh a n d ,c h i n e s ec h a r a c t e r sa r eas p e c i a lp a t t e r n s e t ,w h i c hh a sm a n yp a t t e r n s ,c o m p l i c a t e ds t r u c t u r e s s o m ep a t t e r n sa r e v e r ya l i k e p o o rq u a l i t yo fp r i n t i n g ,i m p a c to fv o i c e ,a n di r r e g u l a rs h a p e o fw r i t t e nc h a r a c t e r sm a k et h e i rr e c o g n i t i o ne v e nm o r ed i f f i c u l t f i r s t , t h en u m b e ro fc h i n e s ec h a r a c t e ri sh u g e n o w a d a y s ,t h en u m b e ro fc h i n e s e c h a r a c t e ri nc o m m o nu s ei sa b o u t3 ,0 0 0t o4 ,0 0 0 ,n a t i o n a ls t a n d a r dc o d e g 9 2 3 1 2 8 0“c ) 1 7 1 7 e s ec h a r a c t e rc o d e & tf o rf n f o r m a t i 0 1 1 i n t e r c h a n g e 一b a s i cs e t h a s6 7 6 3c h a r a c t e r s o n l yw h e nar e c o g n i t i o n s y s t e mc a l lr e c o g n i z et h e s ec h a r a c t e r sc a ni ts a t i s f yp r a c t i c a lu s e s e c o n d ,c h i n e s e c h a r a c t e r sh a v eq u i t eaf e wf o n t s t h e r ea r es e v e r a lp r i n t i n gf o n ts u c ha ss o n gf o n t , f a n g s o n gf o n t ,b l a c kf o n t ,a n dr e g u l a rf o n ta n ds oo n ,h a n d - w r i t t e nf o n t ss u c ha s r e g u l a rf o n t ,c a s u a lf o n t ,c u r s i v ef o n t s d i f f e r e n tf o n t so f t h es a m ec h i n e s ec h a r a c t e r d i f f e ri nw i d t h ,l e n g t h ,l a y o u t ,s h a p eo fi t ss t r o k e s ,s i z ep r o p o r t i o n ,t h o u g ht h e yh a v e t h es a m e t o p o l o g i c a l s t r u c t u r e w h a t sm o r e ,c h i n e s ec h a r a c t e r s s t r u c t u r ei s c o m p l i c a t e d ,m a n yc h a r a c t e r s a r ea l m o s tt h es a m e m a n yc h a r a c t e r sh a v eo n l ya l i t t l ed i f f e r e n c e s o m ec h a r a c t e r sa r ea l lt h es a m ee x c e p tf o rd i f f e r e n c eo fo n e s t r o k e s l e n g t h t h e r ea r eo t h e rf a c t st h a ta f f e e tp e r f o r m a n c eo f c h i n e s ec h a r a c t e rr e c o g n i t i o n s y s t e m s a sf o rp r i n t i n g s ,t h eq u a l i t yo fi t sp a p e r ,t h et h i c k n e s so fp r i n t i n go i l , c o n t a m i n a t i o no fp a p e r ,q u a l i t yo fs c a n n i n gd e v i c e a l la f f e c t r e c o g n i t i o n r a t e d i r e c t l y a l lk i n d so f c h a r a c t e r sw i t hd i f f e r e n ts i z e sa n df o n t s ,c h i n e s ec h a r a c t e r sa n d n o n c h i n e s ec h a r a c t e r s ,c h a r a c t e r sa n d g r a p h i c s ,t a b l e sp r i n t i n g o nas a m ep a g e m a k e si te v e nm o r ed i f f i c u l tt or e c o g n i z et h e m o nt h eo t h e rh a n d ,t h e r ei sn op r e c i s et h e o r yt h a tc a nb eu s e dt oa n a l y z ea n d d e s c r i b ea l lk i n d so fp a t t e r n s n l o u g hw eh a v er e s e a r c h e dp a t t e r nr e c o g n i t i o nf o ra l o n gt i m e n o w a d a y sp a t t e r nr e c o g n i t i o ni sm o r e l i k eat e c h n o l o g yt h a nas c i e n c e ,i ti s e v e nr e g a r d e da sa na r t s o m em e t h o d st oo n ep a t t e r nr e c o g n i t i o np r o b l e ma r ea r t i f i c e , b u te v e nt h e s eg o o dm e t h o d sa r en o to p t i m a l 1 v 东人学硕士学位论文 b u te v e nt h e s eg o o dm e t h o d sa r en o to p t i m a l t h e p a p e r d e s c r i b e sb a s i cp r o c e s so fc o m p u t e rc h a r a c t e rr e c o g n i t i o ns y s t e m g i v e s s o m ec o m m o n u s e d d i g i t a l c h a r a c t e ra n dc h i n e s ec h a r a c t e r r e c o g n i t i o nm e t h o d s , p r e s e n t s t w on e wd i g i t a lc h a r a c t e rr e c o g n i t i o nm e t h o d sa n daf a i r l yg o o ds k e l e t o n a l g o r i t h m t h e m a i n i m p r o v e m e n t s t oa v a i l a b l ec h a r a c t e rr e c o g n i t i o nm e t h o d sa r e : 1 ,an e wd i g i t a lc h a r a c t e rr e c o g n i t i o nm e t h o dh a sb e e np r e s e n t e d ,i e ,d i g i t a l c h a r a c t e rr e c o g n i t i o nb a s e do ng l o b a lf e a t u r e ,w h i c hm a k e sr e c o g n i t i o n i n d e p e n d e n t o n w r i t i n gs t y l e ,a n d c a n r e c o g n i z ei r r e g u l a r l y 。w r i t t e nd i g i t a l c h a r a c t e r s 2 i m p r o v e m e n t h a sb e e nm a d et oa v a i l a b l e k e y b a c k g r o u n dp o i n td i g i t a l r e c o g n i t i o nm e t h o d ,w h i c hm a k e st h em e t h o dc a n b eu s e dt o r e c o g n i z e h a n d - w r i t t e nd i g i t a lc h a r a c t e r s 3 ab r a n d n e wc h a r a c t e r r e c o g n i t i o n - o r i e n t e ds k e l e t o na l g o r i t h mh a sb e e n p r e s e n t e d i nt h ep a p e r ,w h i c hm a k e sc h a r a c t e r sb o r b e ro m a r n e n th a sl i t t l e i m p a c t o nt h ec h a r a c t e r ss k e l e t o n 4 am e t h o dr e c o v e r i n gd y n a m i ci n f o m a t i o nf r o mo f f - l i n ec h a r a c t e rm a t r i xi m a g e h a sb e e nf o u n d ,w h i c ht r a n s l a t e sao f f - l i n er e c o g n r i o np r o b l e mi n t oao n l i n e n n e k e yw o r d s :d i g i t a l c h a r a c t e rr e c o g n i t i o n c h i n e s ec h a r a c t e rr e c o g n i t i o n p a t t e r nr e c o g n i t i o n c h a r a c t e r r e c o g n i t i o n s k e l e t o na l g o r i t h m v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名: 日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 一:燧聊躲凇 东_ 人学硕士学位论文 第一章文字识别研究的历史回顾和现状 随着模式识别和人工智能研究的发展,在英文、数字字符识别的基础上,六十 年代人们开始对汉字识别进行的研究,七十年代出现了初步成果。最近二十多年, 全国都进行了大量的研究工作,并已经取得了不少成果。 以当前在汉字识别方面居于世界前列的日本为例,约在七十年代开始对印刷体 汉字识别进行了研究。饭岛,中野,板井,河田等在1 9 7 3 年前后发表了一批汉字识 别的论文,至u 1 9 7 7 年,完成了日本通产省制定的“图像信息处理系统“中印刷体汉 字识别装置,并于1 9 8 0 年识别进行了公开表演。该装置可识别两千个的汉字,识别 速度为1 0 0 个汉字秒,识别率达到了9 8 ,4 。1 9 8 4 年,日本研制成识别2 3 0 0 汉字的多 体印刷体汉字识别装置,识别率为9 9 8 8 ,识别速度大于1 0 0 个汉字秒,代表了当 前印刷体汉字识别的水平。从七十年代中期开始,手写印刷体汉字识别在日本也开 展起来,进入八十年代后,研究工作日趋活跃并且有少数使用高档微机的印刷、手 写印刷日本汉字装置出现。 中国从七十年代开始进行主要用于邮政信函分检的数字识别和计算机输入用的 英文、数字、符号识别的研究,七十年代末,一些大学和研究所开始对e f j s u 体和手 写印刷体汉字的识别进行原理性研究。开始的时候只有少数单位少数人进行识别方 法的探索;从八十年代开始中国汉字字符识别研究的取得了可喜成就。其中,从1 9 8 6 年初步n 1 9 8 8 年是印刷体汉字识别和联机汉字识别研究的丰收期;从1 9 8 8 年到目前 是印刷体和联机手写汉字识别实用系统的研制和初步使用期,也是手写印刷体汉字 识别研究的高潮期。联机手写汉字识别已经研制出了几个初步实用的装置,其识别 指标为:识别字数6 ,7 6 3 个至l j l 2 0 0 0 个,识别率初次使用为百分之八十左右,经常使 用可以达到百分之九十五以上,但也有三分之一的人的书写很难达到高识别率,识 别速度基本能跟上人书写的速度。书写时要求笔划数目和类型基本正确,最常用的 少数字可以连笔书写,这是属于联机手写印刷体识别的范畴。低限制的联机手写体 汉字识别也在研究。与击键编码人工输入汉字相比,联机识别装置虽然输入速度较 t i t 东火学硕士学位论文 汉字识别也在研究。与击键编码人工输入汉字相比,联机识别装置虽然输入速度较 慢,1 _ l l 有不用特殊培训,人人会操作的好处。 当前,为适应中文笔式计算机的需要,联机手写体汉字识别正在兴起新高潮。 它将向两个方向发展。一是研究不严格依赖子笔划和笔顺的手写行书文字识别,二 是研究价格便宜、性能稳定可靠、特别是书写方便地板和纸。s p 届t j 体汉字识别要提 高识别系统的识别率和速度,增强系统对不同文本的适用性,扩大使用范围。要加 强版面分析、识别结果后处理和各种实用化技术的研究“1 。 随着国家信息化进程的加速,手写数字识别的应用需求将越来越广泛,因此应 加强这方面的研究工作。应用系统性能的关键与瓶颈仍然在于手写数字识别核心算 法性能上,最终目标是研究零误识率和低拒识率的高速识别算法。此外,尽早建立 反映中国人书写习惯的、具有国家标准性质的手写数字样本库也是当务之急。 【l i 东人学硕十学位论文 第二章计算机文字识别的主要应用 2 1 手写数字字符识别的应用 2 1 1 在大规模数据统计中的应用 在大规模的数据统计( 如:行业年检、人口普查等) 中,需要输入大量的数据, 以前完全要手工输入,则需要耗费大量的人力和物力。近年来在这类工作中采用o c r 技术已成为一种趋势。因为在这种应用中,数据的录入是集中组织的,所以往往可 以通过专门设计表格和对书写施加限制以便于机器的自动识别。目前国内的大多数 实用系统都要求用户按指定规范在方格内填写。另外,这些系统往往采用合适的用 户界面对识别结果做全面的检查,最终保证结果正确无误。可以看出,这是一类相 对容易的应用,对识别核心算法的要求比较低,是目前国内很多单位应用开发的热 点。 2 1 2 在财务、税务、金融领域中的应用: 财务、税务、金融是手写数字字符识别的又一主要领域。随着我国经济的迅速 发展,每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们 用计算机自动处理,无疑可以节约大量的时间、金钱和劳动力。与上面提到的统计 报表处理相比,在这个领域的应用难度更大,原因主要是对识别的精度要求更高, 处理的表格往往不止一种,系统应能智能地同时处理若干种表格,由于处理贯穿于整 个日常工作之中,书写应尽量按一般习惯( 如:不对书写者的写法做限定,书写时允 东人学硕十学位论文 许写连续的字串,而不是在固定的方格内书写) ,这样对识别及预处理的核心算法要 求也提高了。 2 1 3 在邮件分拣中的应用 随着人们生活水平的提高,经济活动的发展,通信联系的需求使信函量大幅度增 加,我国函件业务量也在不断增长,预计到2 0 0 0 年,一些大城市的中心邮局每天处 理量将高达几百万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在 邮件的自动分拣中,手写数字识别( o c r ) 往往与光学条码识别( o b r o p t i c a lb a r r e a d i n g ) ,人工辅助识别等手段相结合,完成邮政编码的阅读。 2 2汉字字符识别的应用领域 汉字字符识别研究鉴于基础研究和应用研究的边缘,它的研究对加速建立汉字 信息库,对汉字信息处理系统全自动化,对开拓新一代计算机的智能输入都有着重 要意义。 2 2 1 汉字的高速自动输入 使汉字高速自动输入计算机,解决了汉字信息处理中手动输入效率低这一关键 问题。随着计算机技术的发展,汉字信息处理系统处理和输出汉字的高速度,越来 越和使用平工输入方式的低速产生矛盾,使得汉字输入计算机成为整个系统效率的 瓶颈。代替手工自动输入汉字的自动输入方法,虽然有汉字字符识别和汉字语音识 别两种,但是,使汉字高速输入计算机,在原理上能与汉字输出速度相匹配,从目 前看,汉字字符识别是唯一的方法。 东大学硕士学位论文 2 2 2 办公自动化 是办公自动化和建立汉语语料库不可缺少的文字自动输入设备的基础和便于输 入的手段,也是建立在自然语言理解基础上的自动翻译的理想输入方法。 2 2 3 智能计算机 是智能计算机智能接口的组成部分。智能计算机是在更高程度上,更完善的模 拟和取代人类部分脑力劳动的全新一代计算机。智能计算机能识别文字、图形和景 物,能听懂语言,能理解文章。视觉是智能计算机接受外界信息的重要手段。随着 文献、资料、统计报表等逐年增加,对文字信息识别的智能接口也日渐重要。 2 2 4 信息压缩与传输 汉字字符点阵图像经计算机识别后形成的字符代码,信息容量不到原来图像的 百分之一,因此,汉字字符识别对汉字信息压缩和传输有重要意义。 2 2 5 汉字录入 联机手写体汉字字符识别是一种很方便的汉字输入方法。是在各种自动识别输 入的方法中,能够完全代替或部分代替人工编码输入的唯一可能的方法。笔迹鉴别 仪器以及利用汉字识别技术制成的自动阅读机等,对扩大计算机再国民经济各部门 的应用有实际意义“3 。 山东大学硕士学位论文 第三章计算机文字识别基础知识 3 1b m p 图像文件的格式 b m p 文件格式是微软公司定义的一种广泛使用的图像文件格式,在图像处理中 使用广泛,本文所讨论的计算机文字识别的识别对象字符点阵图像就是b m p 文 件格式的,因此有必要在谈论识别方法之前先介绍一下b t “i p 文件格式。 b m p 文件由文件头、位图信息头、颜色信息和图形数据四部分组成。b m p 文件 的文件头数据结构中含有b m p 文件的类型、文件大小和位图起始位置等信息。其结 构定义如下口: t y p e d e f s t r u e t t a g b i t m a p f i l e h e a d e r ? w o r d b f r y p e ;位图文件的类型,必须为b m d w o r d b f s i z e ;位图文件的太小。以字节为单位 w o r d b 承e s e r v e d l ;位图文件保留字,必须为0 w o r d b f r e s c r v c d 2 ; 位图文件保留字,必须为0 d w o r db f o f f b i t s ; 位图数据的起始位置相对于文件头的偏移量 ) b i t m a p f i l e h e a d e r : b m p 文件的位图信息头用于说明位图的尺寸等信息,其结构如下: t y p e d e f s t r u c tt a g b i t m a p i n f o h e a d e r d w o r db i s i z e ;本结构所占用字节数 l o n g b i w i d t h ;位图的宽度,以像素为单位 l o n g b i h e l g h t ;,位图的高度,以像素为单位 w o r d b i p l a n e s ;目标设备的级别,必须为1 w o r d b i b i t c o u n t 每个像素所需的位数,必须是1 , 4 ,8 或2 4 之一 d w o r d b i c o m p r e s s i o n ; 位图压缩类型, d w o r d b i s i z e l m a g e ; 位图的大小,以字节为单位 l o n g b i x p e l s p e r m e t e r ;位图水平分辨率,每米像素数 l o n g b i y p e l s p e r m e t e r ;位图垂直分辨率,每米像素数 d w o r d b i c l r u s e d ;位图实际使用的颜色表中的颜色数 d w o r d b i c l r l m p o r t a n t ; 位图显示过程中重要的颜色数 ) b i t m a p i n f o h e a d e r ; b m p 文件的颜色表用于说明位图中的颜色,它有若干个表项,每一个表项是 dj 东人学硕士学位论文 个r g b o u a d 类型的结构,定义一种颜色。r g b q u a d 结构的定义如下 t y p e d e fs t r u c t t a g r g b q u a d b y t e r g b b l u e ; 蓝色的亮度( 值范围为0 - 2 5 5 ) b y t e r g b g r e e n ; 绿色的亮度( 值范嗣为0 - 2 5 5 ) b y t e r g b r e d ; 红色的亮度( 值范围为o - 2 5 5 ) b y t e r g b r e s e r v e d ;保留,必须为0 ) r g b q u a d ; 颜色表中r g b q u a d 结构数据的个数由b i b i t c o u n t 来确定:当b i b i t c o u n t = l 、4 、8 时,分别有2 、1 6 、2 5 6 个表项;当b i b i t c o u n t 为2 4 时,没有颜色表项。位图信息 头和颜色表组成位图信息,b i t m a p l n f o 结构定义如下: t y p e d e f s t r u c t t a g b i t m a p i n f o b i t m a p i n f o h e a d e rb m i h e a d e r :位图信息头 r g b q u a db m i c o l o r s 1 ; 颜色表 ) b i t m a p i n f o : 位图数据记录了位图的每一个像素值,记录顺序是在扫描行内是从左到右,扫描行之 间是从下到上。位图的一个像素值所占的字节数可如下计算: 当b i b i t c o u n t = l 时,8 个像素占1 个字节; 当b i b i t c o u n t - - - - 4 时,2 个像素占1 个字节; 当b i b i t c o u n t = 8 时,1 个像素占1 个字节; 当b i b i t c o u n t = 2 4 时,1 个像素占3 个字节; w i n d o w s 规定一个扫描行所占的字节数必须是4 的倍数( 即以l o n g 为单位) ,不足的 以0 填充,一个扫描行所占的字节数计算方法: b y t e n u m b e r p e r l i n e = ( b i w i d t h xb i b i t c o u n t + 3 1 ) 8 d a t a s i z e p e r l i n e = ( b y t e n u m b e r p e r l i n e 4 ) x 4 东大学硕士学位论文 3 2计算机文字识别的基本过程 计算机文字识别系统的处理流程如图3 1 。印刷资料由光电转换装置变为电信 号,一般是采用扫描仪将文稿扫描得到文稿的图像,经预处理后送入计算机。在预处 理阶段,计算机一般要完成去除噪音,断笔续连,版面分析,行分割,字分割,字 复点阵图像规范化,细化等工作。经过预处理后的字符点阵图像在进行特征提取。 字符的特征有两类:统计特征和结构特征。现代的识别方法一般趋向于将两类特征 结合起来,同时提取两类特征,放入字符特征向量库。在特征向量的基础上,可以 开始对字符进行分类。分类一般采用多级分类,即先进行粗分类,再在粗分类的基 础上进行进一步的细分类,直到识别该字符。识别后为了进一步提高识别率,可以 对识别结果在其所处的上下文进行后处理“3 。 图3 1 计算机文字识别的流程 3 3 1 整体阈值二值化 3 3 二值化 ( 一) 人工设定整体阈值 根据实验和人的先验经验,预先给定一个固定阈值。当像素的灰度值小于该闽 值时认为该像素为文字笔画,否则为背景。这是一种最常用的最简单的速度最快的 二值化方法。当文字清晰,轮廓明显,干扰很小时是一种行之有效的二值化方法。 人工设定整体阈值的缺点是不能根据每个文字确定最佳的阈值,而且确定阈值后, 东大学硕士学位论文 当外界条件改变时,不能使阈值随之改变1 】【2 2 2 5 【2 6 】。 ( 二) 由灰度级直方图确定整体阈值 灰度级直方图给出了一张图像灰度级的概貌描述,字符点阵图像的直方图一般 有两个峰值,一个峰值对应文字笔划部分,另一个峰值对应字符的背景部分。阈值 应取在两个峰值的波谷处,波谷越深越陡,二值化效果越好。这是一种根据图像和 背景的灰度值自动确定整体阈值的方法1 】 2 5 】。 3 3 2 局部阈值二值化 由像素的灰度值和该像素周围像素点局部灰度特征来确定该像素的闽值叫做局 部阈值选择。识别书写或印刷质量差,干扰较为严重的字符文稿时,整体阈值法很 难正确进行二值化,这时采用局部闽值二值化是一个很好的选择【5 1 2 0 l1 2 6 1 。 3 3 3 动态阈值二值化 当阈值选择不仅取决于该像素灰度值以及其周围各小组的灰度值,而且还和该 像素坐标位置有关,这叫做动态阂值选择。它可以处理低质量甚至单峰值直方图图 像。对文字点阵图像而言,其笔画和背景的区分是比较明显的,而且动态阂值法计 算时间长,因此在文字识别中很少采用。 最后需要指出的是:局部阈值和动态闽值选择虽然能处理书写质量较差的文字, 避免整体阈值法带来了不应有的失真,但是时间开销大,而且实际的局部阈值和动 态闽值选择算法往往在图形的某些部分上产生整体闽值不会产生的失真,所以,在 文字识别中,以整体闽值法作为二值化的主要方法是较为妥当的1 】1 2 5 【2 6 1 。 东大学硕士学位论文 3 4 版面分析 一页字符点阵图像经过二值化处理后成为一页字符图像的二值数字信号,它是 一个整体,包含图形,表格,文字,以及行间、字间的空白。所以要识别单个字符, 首先要把每个字符从一页文字中分离出来,这就是版面分析要完成的任务。 3 4 1 域分离 印刷板面由文本域和附属域构成。文本域包括标题域和正文域:附属域包括图 像、图形、表格等。域分离器就是用来分离这些不同的域。域分离器是利用域间的 空白条、直线或者修饰线来完成域的分离的。域分离也可采用交互式分离方式1 】 2 2 1 2 4 1 。 3 4 2 行切割 行切割的一般方法是:对二值化图像从上到下逐行扫描并同时计算每扫描行的 前景像素数目,以获取图像的水平投影,根据水平投影值确定文字行的位置,利用 文字行间空白间隙造成的水平投影空白间隙,即可将各行文字分割开来 5 1 6 1 【1 8 】 1 9 】。 在图像输入时,有时会出现纸张的倾斜,因而造成文字行的倾斜。少量的倾斜 对行切分以及下面要讲的字切分影响不大,但倾斜严重时可能使行切分失败。当然 可以利用将文字图像旋转适当角度的办法来消除倾斜,但这种方法运算量过大,实 际难以使用。最直接的办法还是人工旋转。 3 4 3 字切割 从左往右搜索一行文字单字的左右界,切分出单字和标点符号。对文本汉字行 来说,由于存在左右部件分离的情况,字的宽度不同的情况,手写汉字字符间粘连 山东太学硕十学位论文 的情况等,加上行中会有英文、数字、符号和污点干扰等,使得字切割比行切割困 难很多。 字切分大致有两个过程,首先是求出文字、符号和部件的左右界限;其次是合 并部件成为完整的汉字1 】 1 9 1 口“。 3 5 1 平滑 3 5 平滑和规范化 汉字图像经过平滑处理,能去除孤立的噪声、干扰、平滑笔画边缘。一种简单 的平滑方法如图3 2 所示。在图中对图3 2 ( a ) 的前景平滑化后更改为背景。对图 3 2 ( b ) 的背景更改为前景“”。 困围因圈 露圈髓圈 3 5 2 规范化 ( b ) 图3 2 字符的平滑处理一表示前景,o 表示背景 所谓规范化,就是把文字尺寸变换成同一大小,纠正文字位簧,变换文字笔画 粗细等。所以规范化有位置规范化、尺寸规范化、笔画粗细规范化、方向规范化四 种。 东火学硕士学位论文 ( - - ) 位置规范化”1 为了消除汉字点阵配置上的偏差,即将整个汉字点阵图形移到规范的位置上来, 称为位置规范化。位置规范化的方法有两种。一种是基于重心的位置规范化的;另 一种是基于外框的位置规范化。前者是求出文字的重心,在把重心移到规定的位置 上;后者是先求出文字的外框,找出中心,再把文字中心移到规定的位置上。 基于重心的位置规范化方法更为稳定,不易受污点或笔划缺损等干扰的影响。 其过程是,先定义m ( p ,q ) 如下:其中,( i ,j ) 在笔划上为1 ,在背景上为o 。 肋( b g ) = i j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论