




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘璎 摘要 通过对大量脱机手写体汉字样张的统计和分析,采用先料切分再精细切分的思 路,对脱机手写体汉字样张图像进行切分。在对图像进行预处理后,利用水平投影进 行行切分,对于文本行书写歪斜的图像采用分段投影的方法处理,从而得到一系列 的文字行的字符图像;然后对其进行单个字符图像的切分,首先利用垂直投影,得 到一些若干字符图像的结合体( 简称为字段) ,然后通过统计得到字段高度的均值, 以此估计正常单个汉字的宽度,判别字段的属性,完成粗切分,再分别采用不同的切 分策略对不同属性的字段进行精细切分,采用基于邻域覆盖的切分算法对属性为粘 连的字段进行再切分,合并属性为部件的字段,完成精细切分。实验表明,该方法 可以达到较好的切分效果。 关键词脱机手写体汉字字符切分粘连字符粗切分精细切分邻域覆盖 a b s t r a c t a bs t r a c t t h i s p a p e rp r o p o s e s a no f f i i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r s e g m e n t a t i o n a l g o r i t h m ,w h i c hw o r k sb yc o a r s es e g m e n t a t i o na n df i n es e g m e n t a t i o n ,b ys t a t i s t i c sa n d ad e e pa n a l y s i so fo f f i i n eh a n d w r i t t e nc h i n e s ec h a r a c t e ri m a g e s a f t e rt h ep r e t r e a t m e n t , t h eo f f i i n eh a n d w r i t t e nc h i n e s ec h a r a c t e ri m a g ei sf i r s t l ys e p a r a t e di n t ot h ei m a g e so f t h et e x tl i n e sb yt h eh o r i z o n t a lp r o j e c t i o n ,a n dt h ei m a g ec o n t a i n i n gt h eo b l i q u et e x tl i n e s i sd e a l tw i t ht h es u b s e c t i o np r o je c t i o n s e c o n d l y , t h ei m a g eo ft h et e x tl i n e si sd i v i d e d i n t ot h es i n g l ec h i n e s ec h a r a c t e ri m a g e s ,a n dt h e ns o m ec o m b i n a t i o no ft h es i n g l e c h a r a c t e ri m a g e s ,w h i c hi sr e f e r r e dt oa s f i e l d ,a r eo b t a i n e db yt h ev e r t i c a lp r o j e c t i o n t h en o r m a lw i d t ho fas i n g l ec h i n e s ec h a r a c t e ri se s t i m a t e db yt h em e a no ft h ef i e l d s h e i g h t ,w h i c hi sg o tb ys t a t i s t i c s ,a n dt h et y p eo ft h ef i e l di sj u d g e d ,t h e nt h ec o a r s e s e g m e n t a t i o n i sf i n i s h e d t h ef i n es e g m e n t a t i o nw o r k sb ya p p l y i n gt h ed i f f e r e n t s e g m e n t a t i o ns t r a t e g i e sa c c o r d i n gt ot h et y p eo ft h ef i e l d a sf o rc o m p o n e n t s ,t h e s t r a t e g y o fc o m b i n a t i o ns h o u l db et a k e n af o rt h e t o u c h i n g c h a r a c t e r s ,t h e n e i g h b o r h o o d - c o v e r i n ga l g o r i t h ms h o u l db et a k e n ,s ot h a tt h en o n - l i n e a rs e g m e n t a t i o n p a t hw i l lb eo b t a i n e d t h er e s u l t ss h o wt h a tt h ea l g o r i t h mp r o p o s e di nt h i sp a p e r i sv a l i d k e yw o r d s o f f i i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rc h a r a c t e rs e g m e n t a t i o n t o u c h i n gc h a r a c t e r s c o a r s es e g m e n t a t i o nf i n es e g m e n t a t i o n n e i g h b o r h o o d c o v e r i n g 1 i 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了致谢。 作者签名: 虱建蕴日期:三驾l 年互月二l 日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密盯。 ( 请在以上相应方格内打“”) 保护知识产权声明 本人为申请河北大学学位所提交的题目为谨番唏均麟恿簪彩芬燃 的学位论文,是我个人在导师( 蹴j 指导并与导师合作下取得的研究成果, 研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费 资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定 的各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人_目逝日期:盟年l 月三日 作者签名: 习羹缉 导师签名:望垒鱼: 日期:趟年_ _ 月l 日 日期:盟年曼月三二一日 第1 章绪沦 1 1 课题背景及意义 第1 章绪论 自从文字出现,人类社会才算真正迈入了文明时代。文字作为人们思想交流的工具, 在人类文明传承的过程中起到了举足轻重的作用。随着电子计算机的广泛应用,人们处 理事情的方式也在悄悄的发生改变,总想让计算机帮他们做更多的事情,例如,让计算 机能够认识印刷或者手写在纸上的文字,这样,光学字符识别( o p t i c a lc h a r a c t e r r e c o g n i t i o n ,简称o c r ) 技术应运而生。o c r 作为模式识别学科的一个重要研究领域, 在模式识别的发展过程中起到了重要的作用。 汉字识别作为o c r 一个重要的研究方向,按识别对象的不同可分为:联机汉字识 别和脱机汉字识别,脱机汉字识别又分为脱机印刷体汉字识别和脱机手写体汉字识别。 目前联机汉字识别和脱机印刷体汉字识别已经有了成熟的产品,如汉王笔、清华文通 t h o c r 等,但是脱机手写体汉字识别仍然处于实验室阶段,离实用化还有一定的距离。 这主要是因为脱机手写体汉字书写的随意性,书写风格、字的大小等信息因人而异,给 识别带来一定的困难;另外,脱机手写体汉字图像的切分也是必须考虑的因素,脱机手 写体汉字图像切分的难度要比联机手写体汉字图像和脱机印刷体汉字图像切分的难度 要大得多。汉字的识别率与汉字图像的切分准确率成正比,错误的切分必将导致错误的 识别。所以,提高脱机手写体汉字图像切分的准确度是提高汉字识别率的关键的一个环 节。 脱机手写体汉字识别具有非常广泛的应用前景,例如在手写地址邮件的自动分拣、 票据签名的自动识别、试卷的自动评阅等领域,都会用到脱机手写体汉字的识别。 所以,对于脱机手写体汉字切分方法的研究,具有非常重要的意义,也是一个亟待 解决的问题。 1 2 研究现状 1 9 9 5 年,l u 【l 】提出的直方图投影分割法是一种最早被广泛使用的汉字切分方法,该 方法主要适用于印刷体汉字和书写工整的手写体汉字的切分。c a s e y t 2 1 提出一种基于像素 河北人学i j 学硕f :学何论文 跟踪法的连通域分析法,通过跟踪笔划,来完成汉字切分,该方法无法完成粘连汉字的 切分。另外,一种基于神经网络识别器的汉字切分方法也在该文章中被提及。t s e n g 和 c h e n 3 】提出了一种基于笔画边界框合并的方法,采用提取笔划边界框后按启发式策略对 笔厕框进行合并,最后利用动态规划算法,选出汉字最优的切分边界,来解决笔画粘连 问题。t s e n g 和l e e e 4 】提到的v i t e r b i 法则利用动态算法可以产生一条非线性的最优切分 路径,非常适用于重叠字符的切分。z h a o 等人【5 】提出利用模糊决策规则来对候选的切 分路径进行评价,从而得到最有优的切分路径。l i a n g 等人【6 j 提出一种基于隐马尔可夫 模型的切分方法,也是一种基于识别的切分方法。 国内一些学者结合具体的应用领域,对于汉字切分方法也开展了积极的研究。王嵘 等人【7 j 将汉字切分应用于邮政信件分拣系统,提出了基于地址相结合的手写体汉字切分 识别算法,该算法通过提取手写地址的笔画并合并,再结合地址信息利用动态规划算法, 完成汉字的切分识别。吕岳等人【8 9 】提出基于汉字结构特征和组件合并的手写体汉字切分 算法,该算法主要通过分析汉字组件之间的关系,然后据此对组件进行合并处理来实现 汉字切分的。赵姝岩等人【i o 】提出一种基于笔画分析和背景细化的切分算法,该算法主要 是针对粘连汉字的切分的,首先对粘连笔画进行细化,提取笔画上的特征点,连接特征 点构成笔段,根据笔段的相互关系来完成汉字切分。陈强等人【1 1 , 1 2 】的文章提到连通域的 上下轮廓差和动态规划的算法切分汉字,并结合大写金额汉字的识别效果,最终确定切 分路径。王嵘等人【l3 】提出基于笔划合并的手写体信函地址切分识别算法,该算法先提取 汉字的笔划,依据一定的规则合并笔划,最后结合地址解析利用动态规划的算法选择最 佳的切分路径。针对连通域无法切分的粘连汉字,王琳婉等人【1 4 】提出了基于连通域单元 和穿越算法的汉字切分算法。吴越等人【1 5 】提出了用于粘连汉字切分的二次寻点算法,该 算法对粘连汉字首先确定可能的候选切分点,然后结合细化后的笔划特征点以及笔划的 分布情况,来最终确定切分点,适用于无重叠的粘连汉字的切分。朱锴等人【l6 j 针对邮件 信函地址,提出一种离线手写体汉字切分的自适应算法,该算法首先用灰度投影对地址 行汉字进行粗切分,然后利用伸缩框法自适应的实现对单字部件的合并和粘连汉字的再 切分,不适用于重叠汉字的切分。王宏志等人【1 7 】改进了笔划包围盒算法,根据方向行程 提取笔划,建立笔划包围盒,合并笔划包围盒,最后利用动态规划算法寻找最佳的汉字 切分位置。陈艳等人【l8 】提出了基于连通域的汉字切分方法,对灰度图像进行灰度分级, 第1 章绪论 选择主灰度级,确定连通域,根据连通域的关系对其进行合并和切分,从而完成汉字切 分。魏湘辉等人【1 9 】对于粘连汉字利用凸包像素比特征判决最优的切分路径,达到较好的 切分效果。马洋涛等人【2 0 1 提出一种用于手写体汉字切分的优化模型,该模型利用多个正 念分布加权去拟合粘连、部件和单字的宽度,然后应用动态规划的方法求解该模型,实 现汉字的切分。 到目前为止,字符切分还没有完全有效的解决方案,面临的主要难题仍然是各种各 样粘连字符的切分问题。研究粘连字符分割是提高识别率的一项关键技术,它对识别系 统走向实用化具有重要的意义。 1 3 本文工作及组织结构 通过对大量脱机手写体汉字样张进行统计和分析,采用先粗切分再精细切分的思 路。第一步,对手写体汉字图像进行预处理。第二步,利用水平投影进行行切分,对于 文本行书写歪斜的图像采用分段投影的方法处理。第三步,粗切分行切分得到的文本行 图像,得到若干字段,统计其高度和宽度,判别字段的类型,完成粗切分。第四步,对 不同类型的字段采用不同的切分策略进行精细切分,对于被判为粘连汉字的字段,把其 宽度与单个汉字的平均宽度比较,得到该粘连的字段可能包含单个汉字的个数,再统计 垂直投影信息,若垂直投影值的波谷小于某一阈值,则直接在投影波谷处切开;若垂直 投影值的波谷不小于某一阈值,则采用基于邻域覆盖的切分算法,实现非直线的切分路 径。对于被判为汉字部件的字段,尝试与其相邻的字段进行合并,完成精细切分。 本文内容分为六个章节展开。 第l 章主要叙述课题的背景、意义以及与本课题相关的国内外研究状况和本文工作 及组织结构。 第2 章描述手写体汉字切分基本问题,介绍求解该问题的一些方法。 第3 章利用投影信息完成对脱机手写体汉字的粗切分,并统计粗切分结果实现对粗 切分结果的分类。 第4 章详细阐述基于邻域覆盖的脱机手写体汉字的精细切分算法。 第5 章给出实验结果,并分析切分错误的原因。 第6 章对本文的工作进行总结,分析不足之处,并对未来的研究提出展望。 河北人。i :。学颂十学位论文 2 1 字符切分概述 第2 章脱机手写体汉字切分概述 在现行的o c r 系统中,一般都是把字符序列的图像切分成为单个字符的子图像集, 然后送到识别器进行识别。把字符序列的图像切分成为单字符图像的过程,称为字符切 分。在基于切分一识别的框架的识别系统中,字符切分占有及其重要的地位,切分的准 确性将直接影响到识别系统的性能。 根据不同的分类标准对字符切分进行分类,如图2 1 所示。三个坐标轴所代表的字 符切分的类别,相互组合可以得到更详细的字符切分的类别,如:脱机印刷体汉字字符 切分。本文处理的是脱机手写体汉字字符切分。 图2 1 字符切分的分类 根据字符切分与字符识别的依赖关系,常用的字符切分的策略2 ,2 1 。2 3 1 ,如表2 1 所示。 第2 章脱机手 j 休汉宁切分概述 表2 1 字符切分的策略 策略简介 主要nj t j 图像的特征,如:字符i n j 隙、字符人小、投影和连通域等,进 基于图像分析的策略 行字符切分。 基t - 识别的策略土要借助识别器的识别结果,来指导字符的切分。 基丁图像分析和识别首先利川图像的特征,得剑一些可能的切分位置,再利用识别器的识别 相结合的策略 结果来选择最优的切分路径。 基于整体识别的策略把识别的字符串作为一个整体进行识别,借助丁后处理指导切分与识别。 2 2 手写体汉字的特点 脱机手写体汉字与印刷体汉字相比,书写具有随意性,不同的人具有不同的书写习 惯,其汉字字符的大小、字问距、字内距变化很大,由于用笔力度不同,汉字笔画本身 可能存在断裂,相邻汉字之间经常发生相碰、连笔和重叠的情况;脱机手写体汉字与联 机手写体汉字相比,没有笔划信息可以利用。因此,脱机手写体汉字切分要比印刷体汉 字和联机手写体汉字切分的难度要大得多。 脱机手写体汉字书写可能如下6 种位置排列情况【2 4 1 ,如图2 2 所示。 ( 1 ) 正常:汉字之间有明显的| 、日j 隙,各自作为一个整体存在,互不干扰; ( 2 ) 简单粘连:相邻汉字的某一笔划在一点或几点发生接触; ( 3 ) 重叠:汉字问无接触,但无法用垂直分隔线分割; ( 4 ) 交叠:两个汉字共享某一部分象素区域,不仅仅在个别几点发生接触; ( 5 ) 简单粘连且重叠:简单粘连与重叠的情况并存; ( 6 ) 过分:汉字左右部分间距过大或者汉字内部出现笔划断裂。 圊廉 ( a ) 止常 ( b ) 简单粘连( c ) 重叠 河北人学i :学硕十位沦艾 碰任职 ( d ) 交叠( e ) 粘连与重叠并存 ( f ) 过分 图2 2 脱机手写体汉字书写的位置关系 2 3 手写体汉字的切分方法 常用的脱机手写体汉字字符切分方法有以下几种:投影的切分方法,根据字符点阵 的黑色像素的统计直方图的分布情况,选择波谷的地方作为切分点,将汉字字符图像切 分开。该算法思路简单,运行效率高,适合于书写工整的手写体汉字的切分。连通域分 析的方法是通过像素跟踪的方法,把笔画上点连成一系列的连通的区域,然后在根据各 个连通区域的位置关系,对其进行合并,完成切分。优点:不用处理重叠的情况。但是, 容易把字符图像切得过碎,合并过程复杂;不能处理粘连汉字的切分。笔画分析的方法 主要是通过对笔画进行细化,找出笔画上的端点、叉点和角点等特征点,根据这些特征 点提取笔段,利用笔段之间的位置关系,对笔段进行合并,确定切分点。该方法的优劣 依赖于笔段的提取的好坏。背景分析的切分方法,首先对图像的背景进行细化,找到背 景的特征点,根据这些特征点的分布情况来完成切分的。基于组件合并的切分,先提取 笔画,根据笔画间的位置关系把笔画合并成为组件,再由组件之间的上下、包围、左右 位置关系以及相邻组件的距离,对组件进行合并,最后得到单个汉字。基于识别的切分, 先对汉字图像的结构特征进行分析,得到多个候选的切分路径,然后根据识别器的识别 结果,从中选择最优的切分路径。该方法对识别器的要求较高,一般适用于字符集不大 的字符或者特定领域的汉字字符的切分识别,如:银行票据的大写金额的识别切分,邮 政地址的切分识别等。基于v i t e r b i 的切分方法,可以实现非线性的切分路径,特别适 用于无粘连的重叠字符的切分。基于动态规划的切分,把切分的过程划分为多个步骤, 可以降低处理的难度,也可以减少因为垂直分割带来对后期识别的影响,该方法是一种 有效的寻找最优切分路径的方法。 总而言之,无论采用哪种单一的分割方法都很难在切分字符的同时,对汉字间粘连 及汉字内部件分离的问题给予完善的处理。 第3 章脱机下乍了体汉宁的事h 切分 3 1 概述 第3 章脱机手写体汉字的粗切分 投影法是一种最经典的汉字切分方法,根据字符图像的水平方向和竖直方向上的黑 色像素的统计直方图的波峰和波谷的分饰情况,选择一定的阈值,从而得到可能的切分 位置,如图3 1 所示。投影法思路比较简单,实现容易,效率高,但在一定程度上依赖 于手写汉字文本的书写质量和规范。通过投影法可以对汉字字符进行粗切分。 歇镰的碌因 _ k _ k 山u _ 图3 1 投影法 从文本块图像到单个的汉字图像,需要经历行切分和字切分两个过程。行切分的任 务是提取文本块的行结构信息,并把不同的文本行图像提供给识别系统的字切分部分。 字切分的任务是对文本行图像进行单个字符图像的切分,为识别做准备。 本章介绍手写体汉字的粗切分算法。首先对经过预处理的文本图像进行行切分,得 到文本行的图像,其后采用投影法对文本行进行粗切分,得到的要么是单个汉字,要么 是汉字的一个部件,要么是多个汉字粘在一起的子图像块,本文称这些单字、汉字部件 和多个汉字粘在一块的子图像块为“字段”;然后统计出所有字段的高度的分布情况, 根据字段高度的分布来估计宽度的范围,根据此范围与所有字段的宽度作比较,可以判 别出来字段的类型,完成字符的粗切分。 河北人j :学硕十。何沦文 3 2 文本块的行切分 现代人书写汉字,一般都是横向的,所以这罩只考虑横向排版的情况。文本块行切 分的流程图,如图3 2 所示。 图3 2文本块行切分的流程图 3 2 1 基于水平投影的行切分 一般的文本块都具有一定的行结构信息,即行和行之间都有行间距,同时文字的宽 度一定大于某一个阈值,这个阈值为最小字号文字图像的高度( 或者平均高度) ,据此特 征可以进行行切分。 设文本块图像的点阵表达式为: p c z ,= ? 耄宝圭,。z 朋,。, 行 c 3 , 其中m 为列数,刀为行数。 水平投影的行切分的算法流程图如图3 3 所示。其中丁为行高的阈值,脚卿 第3 章脱机丁写体汉宁的料切分 幻口j 7 是文本行的起始和结束的行坐标。 v 婿死 ,l ,f la g ,| b n 2 为0 - p + 一弓? 、。,疋 卜, i 是 :否 盟i l ! ! 垒! _ p 土坚一 j l b h u m 1 = j+ q l + - 肥羽a g = 爹 。、 v 二 b n u m o - - j f l a g = l n u m + + 图3 3 水平投影行切分算法流程图 如图3 4 所示,( a ) 所示为手写体样张以及水平投影,( b ) 为图( a ) 的行切分结果。 囝每游缸对麓媳粼+ 耱瞬掩象零漏耄留蠛箍,锫鬟谚溯耋,鬻痨芝纡一客_ 镌囊蝴礁擎褥鹳獬弛般溯糯,暖梆摄 黼萼噎孽锝勿辨确。辫龟耀镌篙矿稀谚辑淤龇韵娜誓瓤熬_ _ _ 一 工m 掇黼岛蠹,氖擎鼋黎调孳。獭。弼潮囊蕾泰鳓移黼粥蛳- 一 侈锄爱珥囊旋魏掰客撩辱撅,叁熊弼磷髓勃鼢锄协黼确,_ _ 一 僦镶确锄孵搪斟雾辞两孵;毛塌缸锨极装z 谯豫,礴麓镑- 黔 豁令,秀囊荡蝴磷麓亨,囊掀霜一耢- 罗 ( a ) 手写样张以及水平投影 幽 河北人学i 硕十学何沦文 ( b ) 行切分结果 图3 4 行切分实验 3 2 2 基于分段水平投影的行切分 上述行切分方法,只适用于文本行书写规整的图像。但是,由于人们的书写习惯, 手写的一行汉字的中心很难保证在一条直线上,很容易发生向上或者向下歪斜。如果偏 差过大,很容易造成两行汉字的一部分在水平方向的重叠,即行与行之间的空白区域也 可能不在一个直线带上,若采用简单的水平投影的方法进行不可能正确地将文本行图像 的切分开。然而,让用户在书写时保证无偏差是十分困难的,也是不切合实际的。如图 3 5 ( a ) 所示的情况,在实际书写时是经常发生的。 如果出现文本行中心发生歪斜的情况,就不可能用一条直线带把两行文本切分开, 此时可以采用基于分段水平投影的行切分方法把两行文本切分开。如图3 5 ( b ) 、3 5 ( 0 所示。 ( a ) 文本行的中心发生偏差的例子 匝 眵一 第3 章脱机下下j 体汉宁的粗切分 翟豢筹端;鬈等釜一 1 - 鼢醉厦入寻躺 礴彩、触y 缈一巧影烨门”阳 ( b ) 文本行的中心发生歪斜时行切分错误的例子 ( c ) 文本行的中心发生歪斜时行切分止确的例子 图3 5分段投影法行切分举例 上述做法的基本思想就是一条长的折线可以看作由若干条短的线段连接得到的。基 本算法步骤如下: 第一步:把文本块在水平方向上平均划分为后个子块。 第二步:对每个子块采用水平投影方式进行行切分,若某个子块出现两行仍然切分 不开的,转入第一步。 第三步:把每个子块得到的空白区域连接起来,找出行与行之间的分界线。 如图3 6 所示的样张发生了文本行中心线歪斜,采用分段投影方法行切分效果如图 3 7 所示,粗线表示行与行的分界线。 帅霎墨= 2 。躞一量豢 咝磊警船意舞船黜一 謦曼兹翁臻蓊搿篙磊一 全然黧黧嬲篡一口焉 戮蔫赫黼 域撇薪酬写欲孝舷有机要! 。蔗目茹赫 柏象励看机殄姗企业辽可孵料峙1 引”“ 图3 6原始图像 1 1 河北人;乏硕 j 学何论文 图3 7 采用分段投影行切分的效果 文本行中心线是否发生向上( 下) 歪斜的判别可以按着下面的方法进行: 第一步:对文本块逐行扫描,求得水平投影值有: q = f ( i ,a 1 n - 1 第二步:求出水平投影值的峰值有: ( 3 2 ) m a x i ,扣1 ,2 ,k( 3 3 ) 其中k 表示峰值的个数。 第三步:求出任意两个相邻的峰值之间的最小值有: m i n j ,= 1 ,2 ,k - 1( 3 4 ) 第四步:如果满足下面的不等式: k m i n j 】m a x m a x i ,m a x i + 1 ) ,1 i j f + l k( 3 5 ) 则可以判定为浚文本块发生了中心线歪斜。其中k 是一个大于1 的正常数。 如图3 8 所示,( a ) 的文本行中心线没有发生歪斜,而( b ) 的文本行中心线发生歪斜, ( c ) 和( d ) 分别是( a ) 和( b ) 的图像的水平投影信息。 第3 市脱机手写体汉字的粗切分 锄缸对楚蝻剐撕懈朱不瓢慨,做湖考,獬逆行谴 概蝴肫谚疑工饷嚏酬筋弛侔俭藏殛一瀚,娜撮 酗辱一嚏霉得狲1 罘陪另卸、- 粮撵驾业,情,物 亏谚粤龇舞轩1 捕袍苯惑众取 工对孑撮酗弓画,没铲宦磊调查、磔,做训缓l 蓊酬切蜘似斫晷形淞 精臣1 承趁旌业捌节麝排辱方配,合业则码麓锄逆行撕彖伽獬确, 僦日黼伽嫣拍群骂外团时;乏弓解缸仂老钦髓竣别磙獠殇递匀 锨,糯跏媵村,蘧凇刁日珏 譬妻曼2 凛:之堂萝了工垒、员工雳倦3 京吴自鹾墩嗍喜诅嘭舶 黧笺糍鳓 1 修蝴刍面韵乩谚毅铂事破五再鏖。一;磊菇纛銎:;兰盟j 学 肌舡婀该糊渤榭。花濒荔磊赫罐,菇 ( c )( a ) 对应的水平投影信息( d )( b ) 对应的水平投影信息 图3 8 文本行中心线发生歪斜对比实验 3 3 汉字粗切分 在获得文本行图像之后,还需要经过字切分处理才能得到单个汉字的图像。字符粗 切分的任务是把经过行切分的字符图像切分成为一些字段,要么属于单个汉字,要么属 于汉字的一个部件,或者是多个汉字的结合体。 河,i 匕人子! i :。j :f 页f 予:1 秒论文 通过观察大量手写体样张,发现一般人在手写一行汉字时,字与字之间都会留出一 i b i 隙,即字间距,即使是有些连笔使两个汉字发生粘连,但大部分还是会有i 、日j 隙。可 以据此特征,通过对行文本图像进行简单的竖直投影,找出投影值为零的地方即为字符 切分点。 粗切分的基本步骤如下: 第一步,确定字段的左右边界。 设若文本图像行的表达式为: z c z ,= o :薹昌圭,。, w ,。j 局 c 3 6 , 按着从左到右的顺序,寻找出所有满足式( 3 8 ) 的0 和k ,即为字段的左边界和右 边界。 ( 0 ,k ) l 乜一= o & 心o & o & + t = o ) ( 3 7 ) 其中日,表示第个位置的竖直投影。 第二步,确定字段的四边界。 对于每一个字段,可以根据式( 3 8 ) 求出最大字高。 7 l i 。= m a x m a x j j l ( i ,) o m i nj l j l ( i ,) o 】 ( 3 8 ) 根据字段的左右边界和最大字高,就可以确定出第p 个字段的四边界,这里采用矩 n l 垂r e c t ( 1 p ,乞,饧) ,如式( 3 9 ) 所示。 r e c t ( 1 p , ,乞,饧) = ( 0 ,五,k ,工+ k 。) ( 3 9 ) 其中z 为字段的上边界坐标。 文本块粗切分的结果如图3 9 所示。 踟籽黼边瞄夺和也熙炷反越 ( a ) 原始图像 山从山_ k _ j l 山kk k u ( b ) 垂直投影 第3 章脱f j 【丁下了体汉宁的栅切分 籽鞠选瞄夺和也鼯妪反划 ( c ) 粗切分结果 图3 9 文本块粗切分 通过对文本行进行垂直投影,可以切分出大部分单个汉字的图像,对于字段宽度过 大的,需要进一步处理;对于有可能出现的汉字部件“过分”的情况,需要进行合理的 判别与合并。 3 4 汉字粗切分结果类型的判别 经过字符粗切分,文本行被切分为若干字段。字段的类型可能是单个汉字、粘连的 多个汉字或者是汉字的部件。如果能够把字段的类型估计出来,单个汉字就可以直接得 到切分结果;对于字符粘连情况还需继续作切分处理;对于过切分的情况需要考虑对其 进行合并处理。 3 4 1 手写体汉字宽度和高度的分析 一般而言,汉字部件的宽高比要小于单个汉字的宽高比,而多个汉字粘连块的宽高 比要大于单个汉字的宽高比。对于同一个人,在某个时间段内写出来的字的宽度是变化 的,但会符合一定的规律,可以把字的宽度看作是一个随机变量,该随机变量应该近似 服从正态分布。 对粗切分所得到的字段的宽度和高度进行统计,得到相对应的分布曲线。对于具有 一定数量汉字的文本块而言,该统计结果应近似服从正态分布,宽度的均值代表了单字 的最可能宽度,高度的均值代表了单字的最可能高度。但是宽度分布的峰值容易受书写 风格的影响,对于书写过于松散的字,峰值会偏向于部件的宽度;对于书写比较紧凑的, 峰值可能会偏向于多个汉字粘连的宽度,因此有必要对单字符宽度的估计进行校正。 由于字符的高度受部件和多个汉字粘连的影响较小,利用字段高度的分布可以得到 字高的均值和方差,以此为依据设定宽度的取值范围: ( 字高的均值一字高的标准 差) 水o 8 5 ,( 字高的均值+ 字高的标准差) 木0 8 5 ,选择宽度满足该条件的粗切分结果的字 段作为单字样本,计算其样本均值与样本方差,以此构造正态分布密度函数,该正态分 布函数可以很好的表达单个汉字宽度的分布情况。实验样张如图3 1 0 所示,对其进行粗 1 s 河北人:乏顺十。、芦何沦文 切分,结果如图3 1 l 所不。 一单位赵千役屡阶段公司撕姨盘土茸似垛匝陵兀呲,单伎 用人翻妞有所拗娜佻众弓i 趣人民纳汛入i l 蟛单位妮 袒啉百勺譬求 二企业、晕龟役匿战硌酌铷电专春断悯程会;起雅雅艰位 自气唧迁变动i 岫镟砖略百 l 需求比识人民政坏幼动删 勋七血亍珥需娶尊位对辱1 人做出莉友6 缝时悯叠 三企簟位殳子炭阶段对人艮倘衰硅穆名亩晦丘q 聊e 也在乃断 投代协嗓靴零孽篙囊硅久布趴会毛超l 太罩位隔如爱蹴7 7 链嘏 百电匣艮工向下删劭或涤啦绞自i 满上,琼荤艟墨蜃书僦力强离 被;,嘞重嘁从力l 、却吾入进冈入单位 皿从艮蛹函来说f 蝇删住口勺蝣进弓挺慈铘力渐暹、 刚足工脚讷机茸硼蚣三愈牌部i 1 酌蔹葡 图3 1 0j h j i 。】分析半写仪子苋皮丰【l 两殳明样张 钠弛匿黼获霸溅 蹲鳃一浮碉 鬻西哦韬赫撩幽蕊斓巍斟灭斟淞蹶菱溉猢 搭特蠹龟鬻蘧 面亚巨酗漱鲻酗划缒涿颧黼澄鬣窿遂搬霹蒯l 妣逢如! 队燕盏获葳蒜醚囊叠藉划湖蔑嶷碉塬搠| 趟瀚鳓 确懑鞠譬艇蒜甏冀饺巍壤滋徽斓龋陵艇谰麓 答躐佥她瓣l 徽呶聪耥薰磷糍鳓秣继勰 围描瓣髓需墓篙交鼬矮l 纨 :越粼熊舔酗趣 霪甄耐剿翻蘸燃动翁漩蝴圜躺圆嚣糕:疑淹鬣篪毽崩 潞鳓熏戳隅劐餮瀚礴馏 避蝴耋篇落糊黼榔麴垒嬲踯麟锄磷蠛 斛烈蜘绒氚菇呔璃鬓鲺趣嘞瓣凌蜘 图3 i i粗切分结果 对图3 1 1 进行统计,共得到2 5 2 个字段,其中单个汉字的字段有1 6 4 个,部件的字 段有4 3 个,多个粘连汉字的字段4 5 个,计算出相应的样本均值和样本方差如表3 1 所 筇3 章脱 j l 手1 j 体汉宁的芈h 切分 示,根据样本均值和样本方差得到的i f 念分布的密度函数,如图3 1 2 所示。 分析表3 1 和图3 1 2 可知,根据高度统计估计得到的单字的宽度的分布与单字宽度 实际的分布非常接近,另外部件的分布和粘连字段的分布与单字宽度的分布相差比较 远,所以由高度统计估计得到的单字的宽度的分布来对粗切分结果进行分类。 表3 1对粗切分得到的字段的宽度和高度的分析 一: 统计变量样本均值样本方差 样本标准差 样本来源 所有字段字段的高度 6 0 6 48 7 1 89 3 3 抽取宽度属t 4 3 ,6 0 的字段 字段的宽度 5 1 8 02 4 9 34 9 9 属丁部件的字段字段的宽度 2 4 0 94 7 7 66 9 1 属丁单个汉字的字段字段的宽度 5 3 1 31 0 9 3 71 0 4 6 属于多个粘连汉字的字段字段的宽度 1 1 3 1 l7 6 0 1 92 7 。5 7 图3 1 2 统计得到的关于高度和宽度的分布密度函数图像 河北人学。倾f j 学何论文 3 4 2 汉字粗切分结果类型的判别 通过对手写体汉字的高度和宽度的分衫r ,司以完成粗切分结果类型的判别。字段类 型判别步骤如下: 第一步:统计所有的粗切分数据得到的字段高度,得到其样本均值、方差和标准差。 设所有字段的高度分别为:办i ,吃,丸,样本均值、方差、标准差分别为: - 、s h 2 、s h 删杌静s h 2 - - 喜华,瓯= 厨 第二步:抽取宽度w 满足条件:尼串f ,办一瓯) w 尼木( ,办+ s ) 的字段,并计算其样 本均值w 和样本标准差咒,其中参数k 由实验得到,一般取o 8 5 。 第三步:字段的类型的判别规则如下: 若眦,术f ,w 2 瓯) ,则该字段属于汉字的部件; 若l i 水( w - 2 s 。) w 厶木( w + 2 s 。) ,则该字段属于单个汉字; 若胗厶木f ,卅砜夕,则该字段属于多个粘连汉字; 其中w 为待判别字段的宽度,厶,厶为系数由实验得到,一般取厶= 0 9 ,厶= 1 1 。 对图3 9 的粗切分结果进行分类的数据如下: w = 5 1 8 ,瓯= 4 9 9 ,厶= 0 9 ,厶= 1 1 , l i 卑( w 一2 s w ) 2 3 7 6 3 8 ,l 2 卑( w + 2 s w ) = 6 7 9 5 8 判别结果如表3 2 所示。 表3 2 字段类型判别结果统计 结果 实际的判为部件的判为单字的判为粘连汉字的 判别错误率( ) 类型 字段数字段数字段数字段数 部件 4 3 4 2l 02 3 3 单字 1 6 41 01 4 41 21 3 4 粘连汉字 4 5oo4 5o 由于有的汉字的一个部件本身就是一个单字,宽度很接近,例如“调”的“周”就 第3 申脱机手下亏体汉字的粗切分 是一个单字;有的左中右结构的汉字的宽度比较大,如果再加上手写松散的话,宽度可 能会和两个粘连汉字的宽度接近,例如,“难”;一般粘连汉字的宽度都会比较大,所以 粘连汉字被判为部件和单字的可能性很小。 3 5 小结 根据水平投影信息实现对手写体汉字图像的文本行切分,利用垂直投影信息完成字 图像的粗切分,并且依据粗切分结果的统计信息,得到粗切分结果的分类。对于文本行 中心线发生歪斜的图像采用分段投影的行切分方法。通过统计粗切分得到的字段的高度 和宽度的情况,估计出单个汉字的最可能的宽度范围,并且根据此范围对粗切分结果进 行分类,提高了切分的针对性。 河北人学一1 :学硕十学何沦文 4 1 概述 第4 章基于邻域覆盖的脱机手写体汉字精细切分 由于个人书写习惯等问题,粗切分获得的字符有粘连字符情况,同时也有左右结构 的汉字被切分成左右部件的情况,因此对以上情况要进行字符精细再切分和对部件合 并,得到单个汉字图像。 4 1 1 粘连汉字切分的难点 1 粘连位置的确定 由于汉字字符集是大字符集,并且每个人的书写习惯不同,发生字符粘连的位置不 确定,什么样的字符会发生粘连也不确定。 2 粘连类型的多样化 粘连的情况是多样的,有的是发生点的接触,有的是汉字的边缘紧紧相连,有的虽 然没有直接相连,但它们的垂直投影相叠,仍然无法用直线切分开。这些都给正确切分 带来一定的困难。 3 切分路径的确定 切分路径是指把各个字符切分丌的一系列连续点阵。由于两个发生粘连的汉字之 间,粘连的位置和形式都比较复杂,单纯的直线路径一般很难准确地把二者切分开,所 以寻找正确的切分路径难度较大。 4 粘连字数的确定 由于个人书写的随意性,可能两个汉字发生粘连,也可能三个汉字发生粘连,甚至 更多汉字发生粘连。另外手写体汉字的宽度不固定,也给粘连字数的确定带来困难。 4 1 2 精细切分的流程 精细切分的流程图如图4 1 所示。 第4 章荩j :邻域覆羔的脱机于下了体汉字精细切分 ,、 :开始) 、,_ _ _ _ _ _ 。_ 。_ _ 。_ _ _ _ ,。_ _ _ _ 。一, 一 ! 料l 切分结果分类l 一再一二暑潦 是 ,亘菇i 交石p 是 堡、! 竺罗 否 是一、琳连汉字, 。 根据统计的字宽, 切分为多个两个粘 连汉字的形式 0 , 称u ( p o ,万) 为p o 点的万邻域,如果满足条件: u ( p o ,万) = 劬一p o l 万) ,其中岛称为邻域中心,万称为邻域半径。 算法中的邻域定义为:一个以,z 的正方形,如图4 4 所示, ,l = 3 ,岛为邻域中心, 邻域半径万= 1 ,p l ,p 2 ,岛,p 4 ,p 5 ,p 6 ,p 7 ,风为属于u ( 岛,1 ) 的点。 图4 4 邻域定义 覆盖2 6 1 属于集合论中的概念,若把集合a 分成若干个称为分块的非空子集,使得a 河北人。节l :。顽卜学何论文 中每个元素至少属于一个分块,那么,这些分块的全体构成的集合叫做a 的一个覆盖。 邻域覆盖算法的基本思想是用一组邻域中心属于白点( 或者黑点) 的邻域得到手写 体汉字部分图像一个覆盖,把相邻的邻域中心连起来,从而找到一条全部属于白点( 或 者黑点) 的陆线。 邻域中心为白点的邻域覆盖算法的基本步骤如下: 第一步:给定一个初始点x o ( i ,) ,得到以x o 为中心,半径为1 的邻域。 第二步:查看邻域内的点x 的情况,确定下一个邻域的中心,即 如果工( f ,_ ,) 达到边界,转入第三步;如果x ( i ,j + 1 ) = 0 ( 白点) ,则x ( i ,j + 1 ) 为下一个 邻域的中心,转入第二步;如果x ( i ,j + 1 ) = 1 j 丑x ( i 一1 ,) = 0 ,则x ( f l ,) 为下一个邻域的 中心,转入第二步;如果x ( i ,j + 1 ) = 1 t x ( i + l ,j ) = 0 ,则x ( i + 1 ,) 为下一个邻域的中心, 转入第二步; 第三步:连接所有的邻域中心,得到一条曲线。 对于邻域中心为黑点的邻域覆盖算法,只需要对上述算法处理的图像作反相处理即 可。 4 4 重叠汉字的切分 4 4 1 对于重叠字符的分析 通过对手写体汉字样张的研究,发现重叠字符图像有如下特点:在发生重叠的地方 附近的背景中,一定存在一条贯穿于背景的曲线,这样的曲线就可以把重叠的汉字分成 两部分,因此只要能够找到这样一条曲线,就可以完成重叠字符的切分。如图4 5 示。 炽进 图4 5 重叠字符的特点 第4 章萆丁邻域覆薷的脱机手乍亏体汉亨精细切分 4 4 2 利用邻域覆盖算法切分重叠字符 算法分为两步: 第一步:确定第一个邻域的中心。 第二步:执行邻域覆盖算法,寻找切分曲线。 在该算法中,对于第一个邻域的确定非常重要。如果第一个邻域选择的不恰当,可 能会得到错误的切分路径。如图4 6 所示,有两条切分路径,左边这一条切分路径明显 是错误的。对于两个汉字的重叠,一般重叠的位置应该出现在两个汉字中间的某个位置, 另外重叠部分的投影值也会比较小。如图4 7 所示。 一 图4 6 搜索起始点的确定不当图4 7 重叠汉字的投影 假设粘连块的外接矩形坐标为( 西,y t ,y ,) ,则第一个邻域中心( f ,) 的确定可以 = 尼i m i 巩,三? 二二后詈( 一西) ) c 4 4 , 一缸舭 图4 8原始图像 河,i t 人学i :。? 硕十:0 伊沦丈 图4 9切分效果图 4 5 重叠和粘连并存的汉字切分 对于重叠和粘连并存的手写体汉字来说,找不到一条贯穿于背景的并且能够把汉字 切分丌的曲线,所以采用上述算法,无法直接把粘连的汉字切分开,但是可以找到一条 接近切分点的曲线,如图4 1 0 所示。 图4 1 0 采用基丁邻域覆盖的算法切分重叠和粘连并存的汉字 根据重叠和粘连并存手写体汉字的这个特点,仍可以采用基于邻域覆盖的算法,算 法基本步骤如下: 第一步:确定第一个邻域的中心s 。 第二步:利用邻域中心为白点的邻域覆盖算法,找到切分的部分路径,并得到该路 径的一个终点p 。 第三步:把终点p 作为一个起点,执行邻域中心为黑点的邻域覆盖算法,得到一条 曲线尸q 。 第四步:则曲线肼甲q 即为切分路径。 实验切分原始图像和切分效果如图4 1 l 所示。算法流程图如图4 1 2 所示。 第4 章墓丁邻域覆,蔫的脱机手1 _ j 体汉宁卡占细切分 ( a ) 原始图像 ( b ) 切分效果 图4 1 1重叠和粘连并存的切分 图4 1 2 基于邻域覆盖的粘连汉字切分算法流程图 4 6 多个粘连汉字的切分 4 6 1 多个粘连汉字的特点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扫黑除恶与预防邪教课件
- 房地产销售营销知识培训课件
- 2025年卫校招生考试题目及答案
- 慢阻肺呼吸锻炼科普
- 慕课课件观看时长
- 文明纪检部考试题及答案
- 长治妇联考试题及答案
- 江苏交安考试真题及答案
- 深圳生物高考试卷及答案
- 济南护士招考试题及答案
- 心理健康与寝室生活
- 糖尿病病人饮食健康宣教
- 慢阻肺护理查房
- 2025北京顺义初三一模化学试卷
- 儿童健康开学第一课-守护成长,从健康开始
- 支付宝迎新活动策划方案
- 广东春季高考2024年数学试卷
- 在线教研室活动方案
- 安保日常培训课件
- 具身智能行业深度:技术路线、市场机遇、产业链及相关公司深度梳理
- 1《我三十万大军胜利南渡长江》跨学科公开课一等奖创新教案统编版语文八年级上册
评论
0/150
提交评论