(模式识别与智能系统专业论文)自由格式手写体汉字的切分方法研究.pdf_第1页
(模式识别与智能系统专业论文)自由格式手写体汉字的切分方法研究.pdf_第2页
(模式识别与智能系统专业论文)自由格式手写体汉字的切分方法研究.pdf_第3页
(模式识别与智能系统专业论文)自由格式手写体汉字的切分方法研究.pdf_第4页
(模式识别与智能系统专业论文)自由格式手写体汉字的切分方法研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(模式识别与智能系统专业论文)自由格式手写体汉字的切分方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自由格式手写体汉字的切分方法研究 摘要 文本图像处理是图像处理与模式识别领域中的重蹬分史在许:多方面发挥 着重要的作用。离线手写体字符识别是文本图像处理中的重要研究方向,然而d j 于手写体汉字数量庞大,结构复杂,变形多样,离线手写体汉字识别一直是文本 图像处理领域的一个极具挑战性的问题。目前,大多数汉亨光学字符识别( o c r ) 系统都针对印刷体或孤立的手写体字符进行处理。制约i 格式手写体汉字的u 别走向实用的一个重要原因是汉字的切分问题,即如何将连续书写的汉字分为一 个个孤立的字符。征确的切分是成功识别的关键,然而山1 二其l f l 涉及的困难较多, 这方面研究工作还不多。 本文以邮政信函地址区域的手写体汉字的切分作为应用背景,针对自由格 式手写汉字的切分进行研究,提出了一种新的切分方法,即基于模糊决策规则的 两级切分算法。实验表明本文提出的方法获得了良好的匕u 分效果。 本文的主要工作如下: 1 、作为理论背景,系统地总结和分析了现有的切分方法。将l ;u 分策略分为两类, 即基于结构特征的切分和基于识别的切分,深入讨论了两类切分策略巾各利t 方法的优缺点。 2 根据切分目的和手写体汉字的特点对原始图像进行预处坪。预处理包括去噪 声、归一化和笔划加粗。数学形态学为基于形状的图像处理提供了有力的工 具。在预处理中,充分利用了数学形态学方法。预处理取得了良好的效果, 为后续处理奠定了基础。 3 提出两级切分算法。算法包括粗切分和细睁j 分。籼分利川厩直投影和背景 细化,使字符图像的前景信息和背景信息有机结合,解决r 交叠字符的l ;j _ j 分 问题。细切分处理粘连字符块。粘连字符的切分直是字符切分领域中的难 题。本文提出的方法能够有效的切分粘连字符。细切分包括两步:确定可能 存在切分点的候选笔划,以及确定候选切分点。为了处理噪声达到一定的鲁 棒性,利用模糊隶属函数定位候选笔划。 4 将模糊决策规则用于判别切分路径。由于决策树简甲i 7 f j 综合的特性,它在模 式识别领域有着广泛的应用。另一方面,人类在感知活动中采用鲁棒的策略 理解噪声模式,从而能够很好地识别模式。模糊逻辑能船达到类似_ 人类感 摘要 知系统的鲁棒性,因此本文采用模糊决策规则分类切分路径。首先提取粗切 分和细切分路径的特征。然后将特征输入到一利,1 “效的机器学习程序c 45, 中,产生决策树和决策规则。最后使决策舰则模糊化,用来分类切分路径。y , 关键字:文本图像处巍手写体汶字识别,字符沥务秕连j 溺,模糊隶属函 数,特征提取,决策树,模糊决策舰则 l t l s t u d y o n s e g m e n t a t i o n o ff r e e f o r m a th a n d w r i t t e n c h i n e s ec h a r a c t e r s a b s t r a c t a so n eo ft h ei m p o r t a n tb r a n c h e si ni m a g ep r o c e s s i n ga n dp a t t e r nr e c o g n i t i o n , d o c u m e n ti m a g ep r o c e s s i n gs h o w si t s p a r t i c u l a rs i g n i f i c a n c e o m i n eh a n d w r i t t e n c l f i n e s ec h a r a c t e rr e c o g n i t i o n ,a sn i l eo ft h em o s ti m p o lr a n ta r e a so fd o c u m e n ti m a g e p r o c e s s i n g ,r e m a i n sc h a l l e n g i n gp r o b l e m sd u et o t h r e ec b a r a c t e r i s t i c so fc h i n e s e c h a r a c t e r s :t h eh u g ea m o u n t ,t h ec o m p l i c a t e ds t r u c t u r ea n dt h ed i f f e r e n tw r i t i n gs t y l e n o w a d a y s ,m o s te x i s t i n gc h i n e s eo p t i c a lc h a r a c t e rr e c o g n i t i o n ( o c r ) s y s t e m so n l y d e a lw i t hm a c h i n e p r i n t e do rw e l l i s o l a t e dh a n d w r i t t e nc h i n e s ec h a r a c t e r s am a i n p r o b l e mi nt h er e c o g n i t i o no f u n c o n s t r a i n th a n d w r i t i n gc h i n e s ec h a r a c t e r si st h ee r r o r p r o n ep r o c e s so fc h a r a c t e rs e g m e n t a t i o n t h e r e f o r e c o r r e c ts e g m e n t a t i o n i sc r u c i a i t os u c c e s s f u lr e c o g n i t i o n h o w e v e r , b e c a u s eo fm a n yd i f f i c n l t i e si n v o l v e d ,1 i t t l ew o r k h a sb e e nd o n ei nt h i sa r e a t h i st h e s i sf o c u s e so nt h es t u d yo fs e g m e n t a t i o no fu n c o n s t r a i n e dh a n d w r i t t e n c h i n e s ec h a r a c t e r s an e wa p p r o a c h t w o s t a g es e g m e n t a t i o nw i t hf u z z yd e c i s i o n r u l e si r e sb e e n p r e s e n t e d ,e x p e r i m e n t a lr e s u l t sa r ev e r i f i e d0 1 1l h eh a n d w r i t t e nc h i n e s e c h a r a c t e r si m a g ef r o m p o s t a lm a i l s ih es t r u c t u r eo ft h et h e s i si sa sf o l l o w s : f i r s t ,a st h et h e o r e t i c a lb a c k g r o u n d ,e x i s t i n gs e g m e n t a t i o nm e t h o d sh a v eb e e n w e l i s t u d i e d g e n e r a l l ys e g m e n t a t i o na p p r o a c h e sa r ed i v i d e d i n t ot w oc a t e g o r i e s , s t r u c t u r eb a s e d s e g m e n t a t i o n a n dr e c o g n i t i o n i n t e g r a t e ds e g m e n t a t i o n b o t h t h e a d v a n t a g e sa n dd i s a d v a n t a g e s o ft h em e t h o d si ne a c h c a t e g o r ya r ea n a l y z e d s e c o n d ,p r e p r o c e s s i n g i s d i s c u s s e d p r e p r o c e s s i n g i s n e c e s s a r y d u et ot h e u n c o n s t r a i n e dn a t u r eo fh a n d w r i t t e nc h i n e s ec h a r a c t e r s t i f f si n c l u d e sn o i s er e m o v a l , n o r m a l i z a t i o na n ds t r o k e w i d e n i n g m a t h e m a t i c a lm o r p h o l o g y i su t i l i z e di n p r e p r o c e s s i n g t h i r d ,t h et w o - s t a g es e g m e n t a t i o na l g o r i t h m ,w h i c hi n c l u d e sc o a r s es e g m e n t a t i o n a n df i n es e g m e n t a t i o n ,i sp r e s e n t e di nd e t a i l s b yc o m b i n i n gv e r t i c a lp r o j e c t i o nw i t h b a c k g r o u n ds k e l e t o n ,c o a r s es e g m e n t a t i o n i s i m p l e m e n t e d f i n es e g m e n t a t i o n i s a p p l i e dt op r o c e s st h eb l o c k st h a tm a y c o n t a i nc o n n e c t e dc h a r a c t e r s s e g m e n t a t i o no f c o n n e c t e dh a n d w r i t t e nc h a r a c t e r sh a sb e e nt h em o s t c h a l l e n g i n gp r o b l e mi nc h a r a c t e r s e g m e n t a t i o n t h e r e a r et w o k e ys t e p si nf i n es e g m e n t a t i o n ,l o c a t i n gc a n d i d a t es t r o k e s a n dl o c a t i n gc a n d i d a t eb r e a kp o i n t s i no r d e rt oc o m b a tn o i s ea n dt oa c h i e v eac e r t a i n d e g r e eo fr o b u s t n e s s ,f u z z ym e m b e r s h i pf u n c t i o n sa r ee m p l o y e d 1 h ed e c i s i o nt r e eg e n e r a t i o n ,a sam a c b i n e l e m + n i n gt e c h n i q u e h a sb e e nw i d e l y a b s t r a c t u s e di np a t t e r nr e c o g n i t i o nb e c a u s eo f i t se a s y i m p l e m e n t a t i o na n dc o m p r e h e n s i b i l i t y o nt h eo t h e rh a n d ,h u m a n b e i n g sp e r f o r mw e l li nr e c o g n i t i o nb e c a u s ew e a d o p t av e r v r o b u s ts c h e m et oi n t e r p r e t n o i s yp a t t e r n s s i n c et h ef u z z yl o g i ca p p r o a c hi so n ew a yt o a c h i e v es u c hr o b u s t n e s s ,f u z z yd e c i s i o nr u l e s a r ea p p l i e dt o c l a s s i f ys e g m e n t a t i o n p a t h s i nt h i s t h e s i s a t f i r s t ,v a r i o u sf e a t u r e sa s s o c i a t e dw i t hc o a r s ea n d f i n e s e g m e n t a t i o np a t h sa r ee x t r a c t e d t h e s ef e a t u r e st o g e t h e rw i t h t a r g e tc l a s s i f i c a t i o na r e i n p u ti n t oc 4 5 ,a ne f f i c i e n tl e a r n i n ga l g o r i t h mt h a tg e n e r a t e sd e c i s i o n t r e e sa n dr u l e s f i n a l l y , t h e s er u l e sa r ef u z z i f e da n du s e dt oe v a l u a t ee a c b s e g m e n t a t i o nc a n d i d a t e p a t h k e y w o r d s :d o c u m e n t i m a g ep r o c e s s ,h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n c h a r a c t e r s e g m e n t a t i o n ,c o n n e c t e d c h a r a c t e r s ,f u z z ym e m b e r s h i p f u n c t i o n ,f e a t u r ee x t r a c t i o n ,d e c i s i o nt r e e ,f u z z yd e c i s i o nr u l e s 1 1 课题的研究背景 第一章绪论 1 1 1 文本图像处理的应用领域 人类社会已进入信息时代,把浩如烟海的各类载体上的原始信息转化为数字计算机可以 处理和传输的电子信息,已经成为信息领域中的重要问题。在符种媒体信息中,文字是记录 人类文明的最重要的载体,也是人们在日常生活中无时无刻不在使川的重要的通信手段。人 们每天从1 s 信往来,古今邶籍,报刊杂志以及互连网上获取火箭的信息,文字阅读是人们认 识世界和了解世界的最重要的途径之一。因此文本信息的l h 于化问题在信息资源的共享和 利,b 方面有极其重要的研究意义。 文本图像处理就是利用计算机自动切分和识别文本图像中的字符,目前文本图像处理有 以下一些应用: 1 将纸张文档转变成电子文档。例如,二i 籍报章、表格利1 。程h 纸以及公式和符号等 的自动输入。随着计算机惠川的将及,备行箨业,如银行、海芙和税务局锝,都需要建立数 据库,以方便信息的管理与应_ l i j 。随着数字图书馆、网上图l5 馆的逐步流行,大量的图1 ;资 料需要电子化。通过文本图像的处理可以迅速准确地将各种纸张上的文字转变成电子文档, 大大节约了人力物力,加快了信息的传输。 2 信息检索互连网的普及使人们足不出户便可感受精彩的大干世界,如何从庞杂的 信息海洋中获得自己感兴趣的内容变得十分重要。因此文本图像检索已成为文本图像处理领 域的一个重要的研究方向。同时,文本图像经过识别以后再进行编码,使信息量压缩了1 0 0 倍以上,大大提高了文本信息的传输效率。 3 以文本信息为基础的控制系统。例如,邮政部门的信酌亡1 动分拣系统和银行的支票 自动识别系统。另外,将光学字符识别( o c r ) 系统与语音合成系统结台起来,能够形成自 动阅读机和盲人阅读机。 4 基于字符信息的目标辨别。例如,汽车牌照号码的识别在l 乜子警察,加油站、停乍 场嗣j 道路的自动收费系统等场所有十分重要的应用价值。 5 以字符识别为基础的鉴别系统。例如,通过分析和比较手写体字符的“阽写风格来判 断柚写人身份的。捧写人鉴别系统,在司法、公安和安检等部f 、j 有j 泛而重要的应j _ j 。 6 文本图像处理也是智能计算机的智能接口中的关键技术”“”。 第一章绪论 1 1 2 字符切分的研究意义 文本图像处理的最终目标是识别文本中的字符和图表,从中提取人们感兴趣的信息 m 9 ”i 。文字和图表是文本图像处理的两大研究领域1 6 ”1 ,其中文宁处理包括: 倾斜校正( 由扫描造成的文本图像倾斜) 定位分栏、段落、文字行以及文字 光学字符识别( o c r ) 在过去的3 0 年中,对单个字符的识别技术,包括印刷体识别和手写体识别,已取得了突 破性的进展,许多有效的方法的正确识别率已达到9 0 以上。总的来说,离线字符识别方法 可以分为三类1 l 1 1 9 5 2 : 全局方法( h o l i s t i ca p p r o a c h e s ) 这种方法主要用于西方文字的识别,它将词( w o r d ) 作为一个粘体加以识别,而不是先 识别出字符( c h a r a c t e r ) 再组成词。识别所需的特征均为全局特征,如弧岛笔划数目等,识别 :j :作由词分类器完成。 基于切分的方法( s e g m e n t a t i o n b a s e da p p r o a c h e s ) 这种方法首先将词切分为一系列的字段,然后由字符识别给i _ f ! ) j l j 结果,再与词进行匹 配。 混合方法( h y b r i da p p r o a c h e s ) 它是全局方法和基于切分的方法的结合。 全局识别方法非常困难,非常复杂字库中所有的单词都需要存储,识别时需要和字库 中所有的单词进行匹配,因此词识别方法所需的时间和存储空间都一 f 常巨大。它的另一个缺 点是不能识别错误拼写的单词。所以,现有的绝大部分o c r 系统都采川后两种方法。字符切 分就是将文本图像中的字符行分为单独的字符的技术。字符切分足肚r 单字的字符识别方法 的基础。火量断裂和粘连字符的存在是导致识别失败的重要原闪,而i i :确切分断裂和粘连字 符是解决这一问题的关键,因此j e 确的切分是提高识别正确率的阿提。 1 1 3 邮政信函地址的切分 信函分拣机自本世纪6 0 年代问i f i :以来,在短短的3 0 年里已纾历丁人i 按键、| ,自动信函 分拣机、识别条码的o b r 信函分拣机和直接识别手写体或印刷体f 邮政编码的o c r 信函分拣 机的发展过程。我国白7 0 年代中期就开始r 倌幽分拣机的研究竹,j 儿年来研制,稃种类 2 ,麦童声謦 硕士学位论文 型的信函分拣机。8 0 年代末9 0 年代初,邮l 乜部第二研究所n :总结以f j :研制1 :作的基础上, 结合中国信函处理机械化的实际情况研制出o v c s ( o p t i c a lv i s u a lc o l l e c t i o ns y s t e m ) 信函自 动分拣系统“,该系统的与众不同之处在于它在发挥o c r 识! l ;1 j 作川n 同时采瑚了人阱 码 技术,从而达到了提高处理效率的日的。 o v c s 信函分拣系统的投入馊川,标忠着我国b 政信函分拍、if 1 迈入r 自动化平钾能化 日i j 代。信函自动分拣机极大地降低丁分拣l :人的劳动强度,其高速处删能力( 每小时3 万什 以上) 也是手:l 无法比拟的。这些分拣机的成功应j h 无疑对| | i ;政通信事业的发展起到了良好 的推动作用。然而由于m 口政编码 s 写不规范、邮政编鸫数字伟写错误以及o c r 技术水平的限 制等诸多冈紊的影响,系统在识别率和错识率等方面尚需进一步提高。现有的信函自动分拣 机都是以邮政编码数字作为i 唯一依据,经过儿十年的努力数字u ! 圳技术已逐步走向成熟,进 一步提高识别率和降低错识率十分困难,尤其是由邮政编码数字l5 写质鼍引起的拒识和错识 已很难改进。本研究课题力图充分利用信封上的收信人地址信息,通过汉字识别获得相关的 邮政编码信息,与邮政编码数字的识别结果相结合,以提高正确识别率,从而有效地提高牲 个系统的性能。课题研究的重点在_ - r 离线自由格式手写体汉字的u 刖。 然而,离线自由格式的手写体汉字识别技术离实州要求还有一定的距离。正如上文所述, i ,i :多的识别错误,f 不是完全由下 只别方法利分类器的缺陷造成的,而烂由字符切分的错误引 起的,即手写汉字串的切分是其中一项关键技术。由丁汉字数射浩人,结构复杂,变换多端, 对汉字的处理一直是模式识别领域最为困难的问题之一。自由格式手写汉字切分问题的主要 困难如下: 1 手写汉字的二i ;写风格闻人而异,且汉字结构复杂,冈此字符常常有严重的畸变,如 笔划宽度的变化、笔划交叉的不同、笔划重叠以及笔划增多或笔划减少等,这些现象给切分 带来了很大困难。 2手写体汉字中的粘连和断裂现象很难避免( 如图11 ) 。而h 粘连字符和断裂字符一 商是字符切分领域中的核心问题。与宽度固定的印刷字符相比,于7 巧汉字的字型和人小以及 字符之间的空隙变化多样,很难确定字符串中所含的汉字个数,从而 h 难定位字符串中的粘 连字符块,往往将两个粘连字符误分成一个字符。断裂字符的切分也存住同样的问题,而且 还存在一个过度切分的问题,即将一个字符切分成儿部分。汉字叶l 百很多左右结构的字,有 相当一部分左右结构的汉字其偏旁部首本身就是一个完整丽独、的字,所以如阿判断过度切 分的情况,以及如何将这些分裂宁符块进行合并,使之成为个j t 忭的宁符也是项艰巨的 任务。 第一章绪论 3 为了规范地址的f 写,我国不少信封上印有| 5 写线如图11 所示。 5 写线同然给 地址区的定位带来了一定的方便,但由于峙写汉字爪线反而增加r 字符切分的难度。所以在 进行字符切分前,必须将f 写线去除,”将由r 去除15 弓线而断裂的笔划连接起来。 芗q ;删蛐蘧虫幽 图ii 信函地址中出现粘连字符、断裂字符和书写线的情况 f i g 1 1 c o n n e c t e dc h a r a c t e r s b r o k e nc h a r a c t e r sa n dw r i t i n gl i n e s0 1 1t h ee n v e l o p 1 2 本文的主要工作 本文以邮政信函地址区的手写体汉字的切分为研究背景,捉山r 一种自由格式手写汉字 切分的新方法一基于模糊决策规则的两级切分方法。本文的主要f :作和创新点包括: 1 系统地分类和总结了现有的字符切分方法,比较了符种疗法1 1 f j 优势和不足,从中得 到很多有茄的启发,为新算法的提出奠定了理论基础。 2 总结了手写体汉字的特点以及手写体汉字的变形规律,为预处理、特征提取以及切 分算法的设计做好了准备。 3 研究了汉字切分的预处理方法。通过对各种预处理方法分析平| 比较,采用了适合本 课题研究目的的预处理方法,达到良好的效果。 4 提出了一种新的切分算法,即基于模糊决策规则的两级切分锋法。两级切分算法考 虑了汉字的结构特征,有效地结合了字符图像的前景信息和7 景信息,成功地解决了交番汉 字利粘连汉字的切分问题。模糊隶属函数干模糊决策规则的引入,彳- 效地克服了噪j f 达到 了较强的鲁棒性。 5 列租切分和细切分路径,提取了足够且充分表征路释信息的特征,由此得到较好的 模糊决策规则,在分类路径时发挥了很好的作用。 1 3 本文的内容安排 本文共分六章 4 麦鱼z 謦 硕- j :学位硷文 第一章概述文本图像处理的应_ _ 领域和字符切分的研究意义,介纠邮政信函地址切分的 重要性和存在的些困难,并介绑本文的主要i :作和组织安排。 第二章介纲字符切分的常刚算法。首先简要介 f 基丁图像特m ! 的切分策略和基丁识别的 切分策略,然后介绍不同字符,如e 刷体字符和手写体字符,阳文字符,数字和汉字等的具 体的切分方法。 第三章字符图像的预处理。预处理包括去噪声、归一化和j 笔划加:| ; l 。在预处理中充分利 用了数学形态学方法。 第四章详细介纲了两级切分算法。两级切分算法分为粗切分平i i 细切分。粗切分利用垂直 投影和背景细化将连续书写的汉字串分为独立的不相连的字符块。而细切分则针对粘连字符 进行处理,解决了字符切分中的难题。细切分有关键的两步:确定州能含有切分点的候选笔 划和确定候选切分点。同时为了达到鲁棒性,采用了模糊隶属酌数。 第五章阐述了特征提取和模糊决策规则。提取粗切分和细切分路径的特征,输入到一种 有效的机器学习程序c 45 中,产生决策树和i 决策规则,最后川模枷决策规则分类切分路径。 以信封上地址区的手写汉字作为实验图像,取得了良盘,的切分效果。 第六章结论与展望。 2 1 引言 第二章字符切分的方法 字符切分是识别的前提,也是提高识别率的关键技术。在对字符切分问题的讨论中,一 个棘手的问题是如何对字符切分方法进行分类。t a p p e r t 等人提 u 的“外部”和“内部”切分 t a p 9 ,以字符切分是否利用识别结果作为分类标准。d u n n 和w a n 也基丁上述的思想将切分 方法分为“直接切分”和“识别切分两类 d u n 9 2 。 一般而言,字符切分的策略可以分为两 类:基于字符特征的切分和基于识别的切分。基于字符特征的切分根据字符图像的结构特征 和统计特征特征进行切分。当然也可以在切分过程中利h 识别的结果,但在这里,识别过程 仅仅局限丁对粗切分结果进行判别,然后利 识别结果来指导和谰粘切分方案,识别算法虽 然指导切分,但在算法中的比重比较轻。而在基t 识别的叨分方法r 1 1 t 识别算法直接指导切 分,对切分起着决定性的作_ j ,字符图像特征变得不太重要。这两种方法是相对的切分策略。 字符切分的方法可以采朋其中的一种策略,也可以是两种策略的组合。 这一章首先简要介绍两和切分,然历介绍不同的字符,如印刷体字符平手写体字符,阳 文字符,数字和汉字等的具体的切分方法。 2 2 基于图像特征的切分与基于识别的切分 2 2 1 基于图像特征的切分策略 基于图像特征的切分镱略充分n i - k j 了字符的结构特征平统h 特征,例如,字符的高度, 宽度,相邻字符块的间距,笔划的分布规律锝。这是经舆的字符切分方法。这种切分策略首 先分析字符图像的特征,然后将图像切分成字符块。当然也可以利川宁符的识别结果,但在 这里,识别只是川t - 证实切分正确与否,而切分本身,r 不定依赖ju l j l j 。 1 )基丁字符间空隙和字符火小特征 字符间的空隙是切分是的一个重要的特征。连续的印刷体字符之间通常有固定的空隙, 在一些特定的应用领域,还列字体加以专门规定,以利于字符的切分,比如银行支票字体被 设计成具有很粗的边缘特征,且被限制在同定的方框中。义如千写 刷体字符常被限制在扫 描设备无法检测到的特定颜色的方框中,或是要求f5 写青必须按一定问距i5 写字符。所以字 符间的空隙成为切分印刷体和手写i = i l 刷体的重要特性。另外,字符的人小和单位水平距离中 的字符个数等都可作为切分依据。 2 】牡1 :投影特祉 6 1 k 第二章字符切分的方法 垂直投影,也叫作垂直投影直方图,是对图像的每一列象素进行统计。它可以作为字符 间空隙检测的依据。也可以由此推测山字符中垂直笔划的位置。所以作为一维分析的投影方 法是许多字符切分采h j 的基本方法。 3 ) 连通元特征 连通元特征也是切分的重要依据。通过合理合g b l l i 分裂图像中的连通元,可以形成字符, 从而完成切分。合并的依据是, f n s l l 连通元之间的关系,而分裂! j ! | j 剁川琏通元的人小、k 度平 宽度等信息。合并平分裂过程一般需采刚先验知识。这矛t 切分方法精度高且计算量小。 l e c o l i n e t 等人对基于投影特征和基丁连通元特征的切分方法进行r 比较”1 ,测试样本集由 2 7 2 8 7 0 个字符组成,采川相同的分类器,连通元方法的正确率为9 7 5 ,而投影方法的正确 率为9 5 3 。 2 2 2 基于识别的切分策略 基丁识别的切分策略可以分成两个子类别:移动窗口法和识别寻优法。 1 ) 移动窗口法 移动窗口法的基本思路是利t j 宽度可改的移动窗口( m o b i l ew i n d o w ) 来对字符串进行切 分,产生一系列的试验性切分结果,最后通过字符识别决定接受或拒绝此切分方案。移动窗 口切分一般分成两步:j ) 产生一系列的分割结果;i i ) 选择最仆的切分方案。 2 ) 识别寻优法 识别寻优法的基本思想是先根据图像的一些基本特征产生一系列的假殴切分点,并对其 进行识别,再根据识别结果选择最佳的切分方案。这里运_ l f j 的识别算法可以是申行或并行。 前者,从左到右反复地对字符进行识别,直到寻找出最满意的识别结果。后者采用全局的方 法,它首先产生包含所有字符特征甥合的网格( 1 a t t i c e ) ,然扁在网格叶1 挑选山最优的路径, 作为最佳的切分方案。 移动窗口的切分策略儿乎是“亩目”地将图像切分成竹:多可能的字符边界,而并不考虑 图像中字符特性。然后通过对这些子块的评估和识别,从中选l 投摄优的切分方案。而识别寻 优法首先检测一些字符固有的特征点和图像的特征,然席将这蝗特征点进行综合地考虑,寻 找出一种最佳的切分方案,最j i 亓通过识别算法指导平修改原米的切分力案。移动窗口切分方 法中,识别算法的作用剥象是一些较粗的切分结果,而识别寻优切分方法中,识别针羽那些 比较精确的细切分结果。基于识别的切分策略是字符识别的副产品,它避免了复杂的切分算 法。 下面介纲儿种具体的基于识别的切分方法,在这些方法中,识别算法的选抨是关键所在。 甲期,k o v a l e v s k y 提山的切分方法是针对较低质量印刷体字符的1 k o 、6 8 。k o v a l e v s k y 的 切分模型基于这样的假设:所有正确的切分都是在列方向i t f l t s 。1 l k f i , j 疗法, l jj l j 阿文字符的原 型图像( c h a r a c t e rp r o t o t y p e s ) 作为参考。他提出,从待切分图像r ,分割l u 与之对麻的原j 弘字 7 ,克童z 謦 硕士学位论文 符图像的概率为原型图像和待切分图像差异的球对称函数( s p h e r i c a l l ys y m m e t r i cf u n c t i o n ) 。 所以定义切分判别函数为:切分厉字符块和与之相符的原型字符图像的距离平方。晟佳切分 方案即对应该判别函数的最小值。 b o k s e r 提山的“最短路径切分”( s h o r t e s tp a t hs e g m e n t a t i o n ) 技术“9 ”,利用神经网络识 别算法在一系列预切分点中寻找一种最佳的组合作为最优的切分方案。它首先产生一个切分 图表,图表巾的”1 ,点为所有可能的切分位置,按照实际的切分力案,将这些肖点相连,对应 的连线上给出一定的权值代表该路径的代价,权值由神经网络识别结果给出。图表中对应的 一条路径即代表一种可能的切分方案,所以寻找最佳的切分方案的问题,就转化为在此图表 中寻找一条代价最小的路径。 e l l i m a n 和l a n c a s t e r 提山了“选择性关注”方法【e “”1 也是将神经网络用于切分问题。 神经网络在输入图像中搜索可识别模式,并能抑制掉已识别出的字符,在相邻区域继续寻找 其他字符。 另一剃r 方法为隐马尔科夫模刑( h i d d e nm a r k o vm o d e l ) ,它川来剥印刷体平手写体的淋 在变化进行建模州”。这是一种潜在的不可观察的概率模型。这引r 模,诬由一系列状态平状态 间的变化构成。系统刑字符图像的切分,可以用随机变婿来表示。此随机变量的概率分布是 基于状态的。而别字符图像的切分结果用一系列的特征来表示。隐马尔科夫模型在o c r 中有 许多应, t t j ,在字符切分问题中,隐马尔科夫模型用来表示字符i j 状态到状态的转移。这些转 移提供了有关字符的一系列数据。通常从左到右测量,邀就将个嗣寝示为字符串模型,切 分的过程实际上就是将模型与词图像中获取的特征数据进行匹配,经过对特征的分析,决定 一个字符模型何处终止,何处是下一字符的开始。 概率松弛( p r o b a b i l i s t i cr e l a x a t i o n ) 算法可以用来对离线手写体单词进行识别。通过对单词 的轮廓描述来建立一个等级描述模型( h i e r a r c h i c a lw r i t t e nw o r d s ) 。在提取出笔划图表和字符 图表后,在图表中的:竹点上运用概率松弛算法。只选择那些接近最佳的切分方案进行概率松 弛计算,会大大减少算法的复杂程度。统计方法可以_ 【 j 来拒识那些错误的字符组合。这种算 法的最大缺点是计算量过于庞大。 许多人提出一种称之为假设- 检测- u e 实( h y p o t h e s i s t e s t i n g v e r i f i c a t i o n ) 的体系结构来剥 手写体字符进行识别m 驯比如,一种树结构的词典( t r e ed i c t i o n a r y ) 被川来对字符和单词 进行描述:通过字符树来描述一个可能的单词t 而字符由特 l i ! 树米描述。通过在字符树中寻 找该字符的特征集所对应的路径,来实现对该字符的预测,然厉在单词词典中寻找匹配程度 来对这种预测进行证实。 还有一些方法使月j 了单词规则性和独特性( r e g u l a r i t i e sa n ds i n g u t m i t i e s ) 的概念”。通过 单词轮廓化来提取它的笔划,用这些笔划描述这个单词,随厉去除那些与其他单词共性的部 分,保留表达该单词的独特信息,晟后从这些独特性特征中导 | i f i 述链,从巾得到舟棒性较 强一些的字符特征。 第二章字符切分的方法 i i 提出了一种自上而f 的词校验方法陋”,称为“反向匹配”。在草 体识别中,每个字符的辨识能力不一样,有些字容易识别,丽有些字较难识别a 这种方法的 识别不是白左向右的依次进行而是采用从两边向中间的顺序进行在字符、特征和子特征 三级上进行匹配。由于系统预先知道所搜索的目标,利_ l j 多级的上f 文知识提高识别效果, 该系统将低层处理和商层处理有机结合起来,是很盘的尝试。 2 3 印刷体字符的切分 印刷体字符切分的复杂性在1 :字体繁多,风格各异以及由 。i 到像获取设备的局限而导致 的低质量的字符图像。另外,细化和二值化通常是必要的预处理,这些过程容易导致字符断 裂和粘连。在这里不对印刷体数字和汉字进行讨论,只介纠印刷体阳文字符的切分。按切分 的难易程度,对印刷体西文字符的分类如一f l u 9 5 1 】,如图21 所示: 大小统一的字符 相互分开、未断裂、大小不一致但成比例的字符 断裂字符,即一个完整的字符分成儿部分 粘连字符,即一个以上的字符形成一个连通体 断裂且粘连的字符 断裂的斜体字符 粘连的斜体字符 印刷体手写字符 印刷体字符的切分通常采用垂寓投影、字符大小估计,轮廓分析以及与识别相结合等方 法。其中断裂字符和粘连字符的切分是研究的重点。 2 3 1 基于垂直投影的切分 垂赢投影在字符切分中有r 泛的鹿川。垂直投影v ( x ) 就是扯x 坐标何置上,通过垂直扫 描累计图像中前景图像的象素点数最。对一行印刷体字符做乖直投影州,字符的垂直笔划会 产生一个峰值,而字符之间的空隙处v “) 为零,所以可以根据投影确定字符区或间隙区,从 而实现字符切分。然而,通常情况f ,由于印刷质量不好、图像采集效果不佳或者图像二值 化方法不完善等因素导致印刷体字符的图像并不理想。针对这一问题,l u 等人提出了两种基 于多行垂直投影方切分大小固定的印刷体字符“”“。首先将文本行按字符大小分成不同的 组,然历对每组进行多行投影。如果在同一组中的所有的字符行都剥齐良好,则在同一列不 同行的字符有相同的边界。这意味着多行投影为零的地方对麻1 :字符之间的空隙。 l u 提出的第一种方法利川了字符宽度和零投影山现的空问问隔饰统计特性,为保证准确 性,统计。只对多行字符进行。决策过程检测宽度、空隙和零投影现的间隔等的方藉,如果 9 ran dolph ( a ) b u l l d l n g ( b ) f u l n i l m e n t ( d ) 8 ( f ) u n i v e r s i t y p b r 矗 ( h ) 圈2 l 印刷体字符的例子。( a ) 大小固定的字符;( b ) 太小成比例的字符;( c ) 断裂字符;( c ) 粘连字符;( c ) 断裂且粘连的字符;( f ) 断裂的斜体字符;( g ) 粘连的斜体字符;( h ) 草体字符 f i g2ie x a m p l e so f t e x ti nd i f f e r e n tf o n t s ( a ) t e x ti nf i x e dp i t c h ;( b ) t e x ti np r o p o r t i o n a lf o n t s ;( c ) t e x tc o n t a i n i n g b r o k e nc h a r a c t e r s ;( d ) t e x tc o n t a i n i n gt o u c h i n gc h a r a c t e r s ( c ) t e x tc o n t a i n i n gb r o k e na n dt o u c h i n gc h a r a c t e r s ;i f : b r o k e nc h a r a c t e r si ni t a l i cf o n t ;( g ) 7 t o u c h i n gc h a r a c t e r si na l li t a l i cf o n t s ;( h ) l e x ti nas c r i p tf o n t 这些方差在一个可按受的范围,则启动合并和分裂过程。如果方芹超过可接受的范围,则认 为字符不具有相同的大小和间距,即可能有断裂字符存在,则凋刚合并过程之后再进行判 断。如果切分结果还不可接受,则分别处理每一行字符。第二种方法称为空隙周期检测( g a p p e r i o d i c i t yd e t e c t i o n ( g p d ) ) 算法。此方法利用了大小统一的字符之间的空隙周期山现这一信 息。首先根据多行垂直投影得到空隙的平均值和反向投影( 即原投影的摄大值为反向投影的 最小值) 的游跃平均值,从而得到字符大小的估计值。如果空隙的平均值和反向投影游长的 平均值超过某一阈值,或者字符大小的估计值大于字符行的平均高度,则认为字符不是大小 统一的,需要用其它方法切分。 基于多行投影的切分方法在多数情况下可以克服个别字符的断裂给切分带来的不良影 响,但是字符之间的噪声可能模糊字符之间的空隙,从而使切分算法无效。 2 3 2 断裂字符的切分 断裂字符的切分一直是印刷体字符切分研究的重点之一。断裂字符的切分方法有两类: 一类之采用基丁字符宽度和空隙估计值的合并算法,另一类是基丁识别结果的部件组合方法。 这里只讨论第一类方法,第二类方法将在2 34 节中介绍。 i l u 9 2 1 1 l u 等人提山了一种断裂字符的合井方法。这种方法由四个模块绸成,估计过程, 一系列的合并过程,基于估计的分组过程以及判别过程。首先根据乖直投影将一行字符分成 1 0 嗣 墟 n n 缸 渝=三| 州 r n 凸 a 妄 三警 v 第帝t 。符切分f i j 力法 若下个小域,针列这些限域统计宁钧的亨问距、宽度孙问隙,含剪问隙最小n 相邻两个小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论