(模式识别与智能系统专业论文)手写数字串智能处理算法的研究与实现.pdf_第1页
(模式识别与智能系统专业论文)手写数字串智能处理算法的研究与实现.pdf_第2页
(模式识别与智能系统专业论文)手写数字串智能处理算法的研究与实现.pdf_第3页
(模式识别与智能系统专业论文)手写数字串智能处理算法的研究与实现.pdf_第4页
(模式识别与智能系统专业论文)手写数字串智能处理算法的研究与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(模式识别与智能系统专业论文)手写数字串智能处理算法的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

手写数字串智能处理算法的研究与实现 摘要 手写数字串的智能处理有着越来越广泛的应用前景,并且在研究 中取得了很大的进展,诞生了许多实用化的系统。但是由于手写小写 数字受数字笔画少、书写者书写风格等因素的限制,因此机器的识别 能力还很难与人的认知能力相比。 本文的研究重点在于受限制的手写小写数字的智能处理,以票据 中的小写金额模块智能处理为例,实用中可以推广到统计表格及邮政 编码中数字的智能处理等应用。本文以实验室自主开发的小写数字切 分识别工具箱为基础重点讨论了票据中小写金额模块的预处理、切分 和识别。小写金额模块的处理难点在于预处理部分,包括如何有效的 去除边框保留文字、去除“¥”字头以及去噪。本文重点介绍了一种 运用h o u g h 燹换方法准确找到直线位置,并保留字符信息去除边框 的方法,解决了原有直线投影方法在去除了边框的同时也去除了一些 有用的字符笔画的弊端。还介绍了利用“¥”字头字型特点,结合投 影和统订的方法对“¥”字头进行定位和去除的方法,以及通过划分 连通域取定域值去噪的方法。在切分和识别部分介绍了常用的切分和 识别算法,特别是滴水切分算法。然后重点介绍了一种识别和验证结 合策略的基于切分的识别系统,介绍了系统的主要原理和概念,并给 出系统结构图。并提出了一种将这种方法应用在对滴水算法的改进上 的思想,对其可行性进行了分析。本文最后给出了将上述算法结合在 一起的小写数字切分识别工具箱的小写金额模块,使算法得到实现, 它可以方便地对金融票据的小写金额进行切分并最后给出识别结果; 并且,我们对文中算法以及小写金额模块给出实验结果和分析。 关键字 票据o c r h o u g h 变换小写金额滴水算法 识别和验证结合的策略 r e s e a r c ha n di m p l e m e n t a t i o no f i n t e l l i g e n tp r o c e s sa l g o r i t h mo f h a n d w r i t t e nd i g l t s a b s t r a c t t h e i n t e l l i g e n tp r o c e s s i n go f h a n d w r i t t e nd i g i ts t r i n g sh a sm o r ea n d m o r ea b r o a d a p p l i c a t i o n ,p e o p l eh a v e m a k e r a p i dp r o g r e s si ni t ,a n dm a n y p r a c t i c a ls y s t e m sh a v eb e e nt or e a l i t i e s h o w e v e r , d u et ot h ec o n s t r a i n t s o fl e s ss t r o k ea n dd i f f e r e n tw r i t t e n s t y l e ,t h er e c o g n i t i o na b i l i t y o f m a c h i n e si sw o r s et h a nt h a to f p e o p l e s t h i st h e s i sw i l lf o c u so nt h ei n t e l l i g e n tp r e p r o c e s s i n go fh a n d w r i t t e n c o u r t e s yd i g i t s ,e s p e c i a l l yt h ec o u r t e s ya m o u n tm o d u l a ro f c h e c ka m o u n t , a n dc a r l s p r e a di t t ot h e i n t e l l i g e n tp r o c e s s i n go ft h ed i g i t s o fs t a t i s t i c f o r ma n d z i pc o d e ,a n ds oo n t h i st h e s i se m p h a s i so nt h ep r e p r o c e s s i n g , s e g m e n t a t i o na n dr e c o g n i t i o no fc o u r t e s ya m o u n t ,b a s e do nt h ec o u r t e s y a m o u n ts e g m e n t a t i o n r e c o g n i t i o nt o o l b o xd e v e l o p e db yt h ep r i sl a bo f b u pt t h ed i f f i c u l t i e so fc o u r t e s ya m o u n tp r o c e s s i n gr e s t sw i t ht h e p r e p r o c e s s i n gp a r t ,i n c l u d i n gh o wt or e m o v et h ef o r me f f e c t i v e l y , a n d h o wt oe r a s et h e ”¥”a n dn o i s e s w es p e n dm o r et i m eo nt h e u s i n go f h o u g ht r a n s f o r m a t i o no f f o r mr e m o v a la n dc h a r a c t e rs t r o k ep r e s e r v a t i o n ; i t g e t so v e rt h es h o r t c o m i n go f t h ep r o j e c t i o nm e t h o d a n di n t r o d u c et h e l o c a t i o na n de r a s i n gm e t h o do f ”¥”u s i n gt h ep r o j e c t i o na n ds t a t i s t i c m e t h o d s ;a n dt h ec o n n e c t e dc o m p o n e n t se x t r a c t i o nm e t h o d t oe l i m i n a t e n o i s e i nt h es e g m e n t a t i o na n dr e c o g n i t i o np a r tw ei n t r o d u c et h em a i n m e t h o d so f s e g m e n t a t i o n a n d r e c o g n i t i o n ,e s p e c i a l l y t h e d r o p f a l l a l g o r i t h m t h e nm a k e se m p h a s i s o nt h er e c o g n i t i o na n dv e r i f i c a t i o n s t r a t e g ys e g m e n t a t i o n b a s e d r e c o g n i t i o ns y s t e m ,i n t r o d u c em a i np r i n c i p l e a n d c o n c e p t ,g i v e s t h es t r u c t u r eo ft h e s y s t e m t h e na n a l y z e t h e f e a s i b i l i t yo f i tu s i n go nt h ei m p r o v i n go f d r o p p i n g f a l la l g o r i t h m a t l a s t , i n t r o d u c et h ec o u r t e s ya m o u n tm o d u l a ro ft h ec o u r t e s y d i g i ts e g m e n t a t i o n a n d r e c o g n i t i o n t o o l b o xc o m b i n i n gt h e s em e t h o d s i tc a n e x p e d i e n t l yg i v e t h er e s u l to ft h er e c o g n i t i o no ft h ec o u r t e s ya m o u n t ;t h e nw eg i v et h e e x p e r i m e n t r e s u l ta n d a n a l y s i so f t h e m e t h o d si nt h i st h e s i s k e yw o r d s c h e c ko c r h o u g h t r a n s f o r m c o u r t e s y a m o u n t d r o p p i n gf a l la l g o r i t h m a r e c o g n i t i o na n d v e r i f i c a t i o ns t r a t e g y 独刨性( 或创薪性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加阻标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有下謇之处,本人承担一切相关责任。 本人签名: 壹至灸 日期: 型! 鱼至生日【旦 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期: 2 逊k 坠! 旦l 旦 日期: 鎏! ! :! ! 第一章栅述 第一章概述 手写数字识别是“光学字符识别”( 简称o c r ) 技术的一个分支,它研究的 对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 在整个o c r 领域中最为困难的就是脱机手写字符的识别。到目前为止, 尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还 有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开 始把它向各种实际应用推广,为手写数据的高速自动输入提供了解决方案。 1 1 发展背景及理论意义 字符识别处理的信息可分为两丈类:一类是文字信息,处理的主要是用各种 不同的文字( 如:汉字、英文等) 书写或印刷的文本信息,目前在印刷体和联机手 写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由 阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报 表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。以银 行为例,每天要处理的票据数以万计,如果完全靠手工录入的话,工作量的巨大 程度是可想而知的。如果能通过手写数字识别技术实现信息的智能录入,无疑会 促进这一事业的进展,也会大大减轻工作人员的负担。因此,手写数字串的智能 处理研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和 经济效益。 由于阿拉伯数字在全世界的广泛应用,手写数字识别有着极为广阔的应用前 景和重要的理论价值,这也正是它受到世界各国的研究工作者重视的一个主要原 因。下面我们是一些手写数字识别技术为基础的典型应用。 手写数字识别在大规模数据统计中的应用 在大规模的数据统计( 如;行业年鉴、人口普查等) 中,需要输入大量的数据, 以前完全要手工输入,则需要耗费大量的人力和物力。近年来在这类工作中采用 o c r 技术己成为一种趋势。 因为在这种应用中,数据的采集是集中组织的,有一定的格式要求,所以往 往可以通过专门设计表格和对书写施加限制以便于机器的自动识别。目前国内的 大多数实用系统都要求用户按指定规范在方格内填写。另外,这些系统往往采用 合适的用户界面对识别结果做全面的检查,最终保证结果正确无误。因此,这是 一类相对容易的应用,对识别核心算法的要求比较低,开发应用较为简单。 第一章概述 手写数字以别在财务、税务、金融领域中的应用 随着哉国经济的迅速发展,每天等待处理的财务、税务报表、支票、转账单 等越来越多。如果能把它们用计算机自动处理,无疑可以节约二j 量的时间、金钱 和劳力。与上面提到的统计报表处理相比,在这个领域的应用难度更大,原因有: l 、对i j , n 的精度要求更高;2 、处理的表格往往不止一种,一个系统应能智能地 同时处理若干种表格;3 、由于书写者不同风格的因素影响,对识别和切分的算 法的要求相应增加了。 在本文中将要阐述的小写数字切分识别工具箱的小写金额模块就是这样的 一种典型的应用,由于小写金额在票据中的特殊地位,它的识别要求很高的精度, 并且由于边框和“¥”字头的存在,它的预处理电存在相当的难度。 手写数字识别在邮政编码识别中的应用 信函是人们生活中必不可少的联系工具,随着经济活动的发展,通信联系的 需求使信函的互换量大幅度增加,我国函件业务量也在不断增长,一些大城市的 中心邮局每天处理量高达几百万件,业务量的急剧上升使得邮件的分拣自动化成 为大势所趋。在邮件的自动分拣中,手写数字识别( o c r ) 往往与光学条码识别、 人工辅肋识别等手段相结合,完成邮政编码的阅读。 手写数字识别作为模式识别领域的一个重要问题,电有着重要的理论价值: 1 阿拉伯数字是唯一的被世界各国通用的符号,因此有效的手写数字识别算法 也就是全l 廿界通用的算法,与文化背景无关。这样不同地区的研究工作者就 可以广泛的探讨和研究。 2 由于数字识别的类别数较小( 1 0 类) ,验证算法方面计算量较小,有助于做 深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络,很 多的人工神经网络模型都以手写数字识别作为具体的实验平台,验证理论的 有效性,评价各种方法的优缺点。 3 尽管人们对手写数字的识别已从事了很长时间的研究,得到很多有效的算 法,但到目前为止机器的识别本领还无法与人的认知能力相比,特别是金融 票据中小写数字识别应用中还很难有很突出的实用成果,这仍是一个有难度 的开放问题。 4 手写数字的识别方法很容易推广到其它一些相关问题,比如说英文这种与数 字相比同样比划简单的字符。事实上,很多学者就是把数字和英文字母的识 别放在一块儿研究的。 从上面我们可以看出小写数字的智能处理有着广泛的理论价值和应用前景, 随着国家信息化进程的加快和“三金”工程的推广,手写数字识别的应用需求将 越来越j 。泛,因此亟待加强这方面的研究工作。因此我们首先需要分析手写数字 2 塑二望塑笙 一一 智能处理中的关键技术,看它的实现中存在着哪些难点,本文中研究的对象足金 融票据中的小写数字串,囚此我们下面给出其中关键技术的分析。 1 2 金融票据o c r 系统中关键技术的介绍 在金融票据o c r 系统中,对每一种单据需要识别很多区域的数据:大小写 金额、大小写日期、账号等。对每一个区域的处理都包括四个关键步骤:( 1 ) 识别 要素提取和图像预处理;( z ) 识别区域内字符串的切分:( 3 ) 单个字符的识别:( 4 ) 后 处理。每个阶段关键技术运用地是否合理,都影响着票据o c r 的最终结果。1 图像的预处理 图像的预处理,主要包括以下几个方面:图像的二值化,识别要素的提取, 去除无用信息,字符图像的去噪、归整。图像的准确的预处理是切分和识别的前 提,因此在整个智能化处理过程中有着基础的作用。 我们以小写票据中的小写金额为例按顺序说明这些预处理步骤,并对每一步 中的难点进行分析: a ) 在整张票据中除了待识别的字符外还有许多的各类边框、底纹及印章, 因此我们需要好的二值化方法,能够使识别要素与这些干扰信息区分丌 来。 二值化的难点在于某些支票图像的质量很差,即使在提取的待识别要素 区域仍然存在严重的印章的污染等于扰,这样,图像的二值化的域值的 选取就尤为重要,如果用固定的域值进行二值化,就会遗留很多噪声, 对后面的处理造成影响。 b ) 在整张票据中,我们要进行处理的可能只是其中的一部分或几部分,因 此我们需要将要处理的部分从整张票据中切分出来,这被称作识别要素 的提取。以小写金额为例,通常是整张票据中含有最多垂直直线的部分, 我们需要将其从票据中切分出来。 提取要素的难点在于,要处理的票据的数量是非常巨大的为了提 高效率。必须找到提取区域的自动选取办法。但是由于不同种类的票 据中小写金额所处的位置有很大的差异,因此仅仅通过简单的定位来切 割是不现实的,目前我们还没有找到很好的方法来自动对其进行提取, 我们的实验中所取得的识别要素是通过手工切割得来的。这仅仅对于数 据量不是很大的实验来说还是可行的。 c ) 得到识别要素后,我们为了能够对其中的字符进行切分识别,我们必须 去掉其中的对识别无用的元素。在小写金额中,这些包括用来隔开字符 的水平和垂直边框、“¥”字头,以及嗓声。我们把噪声的处理单独作为 3 第一章概述 一个步骤。只有去掉这些无用的元素后,留下的爿是的待处理的字符。 这部分的难点在于边框的去除,传统的方法是简单的作垂直方向上的投 影来确定边框的位置,将这一位置上的黑象素全部去除。这种方法的缺 点在于,当字符和边框交叉或相切的情况发生时,去除边框的同时也去 除了有用的字符信息,造成字符的断笔或噪声,严重影响了后面的切分 和识别步骤。小写金额部分还存在一个特殊的字符“¥”字头,它在所 有数字的最前面,在切分前必须将其准确去除才能保证不将其作为一个 数字送入识别器,影响谚 别结果。 d ) 字符图像的去噪。经过上述处理后的图像中除了待切分字符外还可能存 在一些干扰,如一些二值化时没去掉的噪音或去边框的残留。 这些嗓声的去除也是非常关键的,没有去干净的噪声会被当作字符进行 后面的处理从而使识别结果多出很多的位数,根本无法使用。噪声的 去除可以通过划分连通域的方法,噪声的域值的选取足其中的关键问题。 因为数字的笔画比较少,如果域值选取不当,如“1 ”这样简单的数字很 可能被当作噪声被去掉从而影h 向识别结果。 e ) 最后是归整,把字符图像归整成标准的图像格式,以用于识别。 字符的切分 手写的字符由于书写者的书写习惯,存在连写字符的情况是非常多见的,即 使小写金额数字之间存在着垂直的分隔边框,连写的情况也是无法避免的,特别 是在连零的情况中。为了方便谚 别起见,我们需要将上述预处理后得到的字符串 进行切分,得到单个的字符。字符的切分方法是大家研究的热点,要找到正确的 切分路径是研究的目标。 由于连笔和倾斜的发生,简单的直线投影切分根本不可能达到很好的效果。 因此必须使用曲线切分方法。现有的曲线切分方法有很多,如根据上下边缘特征 的切分算法、滴水切分算法、多模具切分算法等,这些算法都有着很好的理论基 础,并且在实验中也取得了一一些成果,但是也存在不足。我们应该着眼于这些算 法的改进上。如滴水算法切分路径穿越字符容易陷入局部最优解,最终不能得到 正确地切分路径。 字符的识别 我们需要根据不同识别要素的特点,选择各自合适的识别算法。对于手写的 小写数字的识别,由于手写的小写数字受书写者书写风格的不同影响,笔画有粗 有细,形状也有大有小,很不固定,所以,我们选择神经网络的识别方法。 可信度的研究 银行票据由于其特殊性要求有很高的准确识别率,要求误识率几乎等于o 。 4 第章概述 剥于那些切分不够准确的字符串,我们宁肯将其据识,再通过人工识别。 这就需要引进呵信度的概念,我们可以引进一个概率模型,在识别结果得出 后计算一个后验概率,低于一个域值的尽量给拒识掉。这里的难点在于概率模型 的建立,选择合适的概率模型对于这个系统的可靠性尤为重要。 后处理 票据中的识别要素,有其规律性和可循的规则。如小写金额部分,最重要的 规则就是首位数字不可能为零,如果识别结果中出现首位数字为零,那么这张票 的识别结果应该抛弃。利用这些类似的信息,进行适当的后处理,可以提高系统 的识别性能。 最后,由于本文的主要内容是针对小写金额的,因此我们对小写金额处理过 程的难点作一统一的总结: 1 书写区域由一个长方形边框和多个垂直边框所限制,去掉这些边框对数字字 符存在很大的影响。数字往往贴边框书写,这样就有边框等因素所带来的干 扰: 2 小写金额的前边有一个“y ”字头,“¥”字头位置的正确判断是实现数字 正确切分的重要前提之一; 3 边框去除不干净可能造成特殊的噪声,这类噪声特点是呈长短不一的直线形 状。 4 数字串中经常出现字符断笔和连笔情况,要求能够f 确处理断笔的检测与恢 复、以及连写数字串的切分; 5 阿拉伯数字本身的笔画少,特征的提取是一个较大的难点。对于金融票据来 说,对识别结构准确性要求很高,相似字之问的辨别也是难点之一 如图1 - 1 所示,图中黑框部分即为票据的小写金额部分。 图卜1 :金融票据及其小写金额部分 第一章概述 1 3 主要工作及取得的进展 上面一节我们对票据中小写金额部分的处理的关键技术和难点进行了分析, 本文针对上述难点进行研究,分析了一些数字串智能处理的算法,最终给出手写 数字切分t 别工具箱的小写金额部分。小写金额部分的流程图如下图卜2 所示。 由于实验所用图像是由合作单位提供的已经二值化后的图像,因此在流程中我们 省去二值化步骤。对于预处理部分我们进行重点的分析。 捉取识别1 j 去除水平l。i h o u g h 变换找 区域广1边框r 垂直直线獭撅“y ”字头夕1字头 统计特征定 位“¥”字 头 结束) - 一字符的识制卜 字符的切分卜- d太噪 击除垂直直 线 尉1 2 :小写金额处理模块流程图 研究 :作中我们主要解决的问题和用到的关键技术作以下总结: 1 对于原有直线投影去除边框会同时去除有用的字符信息的弊端,我们提 出了运用h o u g h 变换的方法找直线,根据直线的平均厚度信息去除边 框,并且对去除的信息进行检测,填补被错误去除的字符信息的方法。 通过杭州信雅达公司提供的数据进行实验的结果来看该方法能够有效 的去除边框,但是无法给出去除效果的定量结果,只能通过系统的模块 完成后的效果进行分析。 2 通过h o u g h 变换找垂直直线和统计的方法结合的方法去除“¥”字头。 因为“y ”字头的特殊结构决定,在i o u g h 变换找直线时很可能被当作 垂直直线,因此,我们对该垂直直线的位置进行判断以判定是否为“¥” 字头。如果上面的方法无法找到“¥”字头,则我们利用方框之间黑象 索的统计信息来判断它的位置,这主要是由“¥”字头位于数字的最前 端,它的前面框格内黑象素数应该为零决定的。实验证明,这种结合 h o u g h 变换和统计信息的方法能够有效地去除“¥”字头,我们将在 本文最后给出的实验结果,在切分识别工具箱的整体实验中“¥”字头 的定位是非常有效的。 3 采用连通域提取的方法去除噪声。由于小写金额部分有垂直边框的限 制,我们可以将切分简化为沿边框的垂直切分,因此会造成越过边框的 字符部分成为噪声的情况。在连通域提取后,噪声与其它字符的区分的 关键在于噪声域值的选取。在实验中,我们发现,由于去边框不干净残 留的噪声存在形状为或长或短的直线的特点,极易与字符1 混淆, 6 第一一章概述 因此严格选定了噪声的高度和宽度以及质量的域值,做到既干净的去除 噪声又有效地保留正确的数字信息。该算法的有效性可以通过整个切分 识别模块的性能得到体现。 4 由于小写金额的数字之间存在垂直边框的限制的特点,实验中我们可以 将切分简化为以垂直边框为基准的直线切分,因此切分正确率是取决于 直线的正确定位的。只有在直线切分线模糊或缺失的情况下才需要使用 连通域提取的方法进行切分,甚至在连写的情况下需要使用滴水算法进 行切分。这种切分可能在数字笔画穿越边框的情况下将这部分笔画划分 成噪声,但是可以通过去噪的方法将其去除,并且不对字符的形状造成 大的影响,因此基本不影响对字符的识别。 5 滴水切分算法的弊端在于容易陷入局部最优解,找到错误的切分路径。 本文阐述一种具有识别验证结合的策略的基于切分的识别的系统的思 想,并且给出这种系统思想在解决滴水算法的上述缺陷中的应用的思 想,分析复:可行性。这种系统首先建立一个合适的概率模型,在滴水算 法中保留伊。阿的可能的切分路径送入识别器,在识别结束后。根据识别 结果,得出识别的后验概率,以识别后验概率最大的作为正确地切分结 果。这样就将切分和识别合理地结合在一起,以识别指导切分,可以解 决滴水算法局部性的弊端。 6 本文还给出r 切分识别工具箱的小写金额模块,从中我们可以检验各种 算法的优劣,并且直观地得到识别的最后结果从而可以方便地对票据 中的小写金额模块进行智能化处理。对系统性能和识别结果的分析将在 本文的后面进行详细的讨论。 1 4 论文主要内容 根据研究工作的内容,论文主要分成五个部分,阐述了金融票据中小写金额 部分从预处理到识别的若干关键技术,以及金融切分工具箱中小写金额处理模块 的最终形成,具体内容安排如下: 第一章主要介绍本文的研究背景,金融o c r 系统的关键技术及研究难点。 第二章主要介绍了金融票据预处理中去边框的算法和小写金额模块预处理 中“¥”字头的去除方法和去噪的方法。 第三章主要简要介绍现有切分和识别技术,以及切分结合识别验证的策略的 理论和将这个理论应用在滴水算法改进中的想法。 第四章主要介绍切分识别工具箱,特别是其中的小写金额处理模块。 第五章主要给出文章中算法的实验及其测试结果,并对每一个算法做出评 价并给出切分识别工具箱小写金额处理模块的性能的测试结果。 第六章是对所做工作总结和对未来的展望。 7 第二章金融票据o c r 系统巾的预处理 第二章金融票据o c r 系统中的预处理 金融票据小写金额预处理部分,首先足二值化,二值化是一切处理的前提, 由于算法比较成熟在此不再赘述。然后主要的是去除边框保留字符笔画和“¥” 字头位置的判断和噪声的去除,下面将分别对这几个算法进行阐述,其中主要的 也比较复杂的是运用h o u g h 变换去除边框保留字符笔画的方法,下面将对其进 行详细的阐述。 2 1 运用h o u g h 变换的方法去除边框 以前的切分识别工具箱的去除边框的方法主要是运用直接投影法,这种算法 的优点是算法比较简单,缺点是在边框不为绝对水平或垂直情况下易受字符或噪 音的影响,且在去除边框的同时也去掉了有用的字符笔画造成断笔,增加了噪声。 基于h o u g h 变换算法对小写金额的边框进行定位和去除的方法解决了上述 缺点对其进行实验,取的了很好的效果,是对原有方法的有效改进。 2 1 1 主要原理 1 用h o u g h 变换检测边框 利用h o u g h 变换,将直角坐标中的点变换到i t o u g h 域,点变换成曲线。利 用下式: 岛= x c o s o ,+ y s i n 0 , 式( 2 一1 ) 其中p 是原点到直线的法线的长度,0 是法线与坐标轴的夹角。 输入图像上的任意点的坐标,由上式可以映射到t t o u g h 域,得到一个关于 l p ,伊j 的曲线。在同一条直线上的点,有着相同的p n o ,在i 如u g h 域中就会相 交于一点。 如图2 - l ( b ) ,给定象素坐标( x ,y ) 变换到l t o u g h 域后,e 在氏。和只。之间 以一定的步长增加,由( 1 ) 式可求得相应的p 。每输入一个象素点坐标,矩阵中 的相应元素就会增加1 。当要检测的是水平直线,8 应在8 5 4 和9 5 4 之间或一9 5 。和 - 8 5 。之间。这样就有两个矩阵,可设置步长为l 。 从两个矩阵中选取元素值最大的n 个元素( 殴定域值) 。反变换得到直线, 求出直线与图像边缘( 边缘检测) 的交点( 因为求得的是直线而非实际的线段) 。 计算直线段的黑象素数,将最左边和最右边的象素位置保存下来。选取象素数最 8 第二章金融票据o c r 系统中的预处理 多的侯选线。 x 图2 - 1f t o u g h 变换的基本原理 直角生标中的直线 ( b ) h o u g h 变换域 其中直线的斜率计算方法为: m = t a n ( 9 0 。+ 们 式( 2 2 ) 与法线矢量的交点坐标为: = p ,c o s t 9 和n = p ,s i n t 9 式( 2 3 ) 2 去除直线的方法 a ) 估计图像中的直线的宽度,因为直线是水平的,所以可以将它们表示成 一系列的垂直的薄“片”( 宽度为一个象素) 。沿着直线计算每一个片的 位置和高度,并记录下每一片的最高和最低象素位置。理论上沿着直线 的每一片应该有着相同的高度,但是,当字符与直线发生交叉时,来自 字符的象素与直线象素相接,字符片的高度就会发生变化。直线的实际 高度被估计为这个沿线的片的高度的中值。如图2 2 所示: s l i c e h e i g h t s :55 4555 5 55 4555 97 678 s 8767 7 5 5 55 5545 555 4555 m e d i a ns l i c el 舱i s h t :5 图2 2 :直线上每一4 片”的高度( 高度的均值为5 ) 9 第二章金融票据o c r 系统中的预处理 所示 所有的高度低于或等于这个中值的片都会被去除,去除后的结果如图2 - 3 图2 - 3 :去除低于中值的片后的结果 剩下的片还要做进一步处理以将直线和字符分离。 b ) 并非所有的扫描图像质量都足够的好以使这种去除直线的方法取得很好 的效果。事实上很多直线会产生失真,它们的宽度会有一定的起伏。这 就需要继续分析和处理没有被去除的片。连续的显示出具有直线一样统 计特性的片被组成一组,叫做r t l n s 。 在处理失真问题的算法中,一个核心的问题就是,区别一个d 1 n 是起 止于被去除的片还是从那些包含字符数据的片中来的。当一个r u n 起止 于字符数据的片,就要进行更严格的检测,这个r u n 是否只包含直线信 息并应该被删除。而如果一个片起止于被删除的片,那么情况可能就恰 恰相反。更严格的检测包括改变片的高度的域值,一个r u n 内起伏的数 目和r u n 的长度( 长度是一个重要的信息,因为相连的片保持相对稳定 的长度越长,这些片就越可能属于直线) 。 3 填补字符的空缺 当字符的笔画特别细时,被删除的直线中很有可能包含字符笔画,如图2 4 ( 如字母o 或c 的底部) 。这样字符的底部就被分成了两部分,留下一个空缺。 重新填补这样的空缺,有两个方法: 考虑到空白地方的长度越短,包含字符的可能性就越大。填补空白部分, 就是简单的把被擦除的片重新画上。每一组连续的被擦除的片被称为一 个r u n ,每一个r u n 先被当作个空白部分来看。判断一个空白部分是 否足够短的门限是基于直线上片的高度的中值。另外使用门限 1 , - - m a x ( 8 ,8 m ) ( 其中m 是中值) ,来判断空白部分是否足够的短,如 果是,则每一个r u n 的边缘就被检测兼容性。因为临近这些r u n 的左右 边缘的片是没有被擦除的部分,并被认为是包含字符信息,如果这些片 的高度在门限l c = m + 2 之内,则就可以判断,空白部分包含字符,并应当 1 0 苎三兰垒壁茎塑旦曼垦墨堑! 塑堡丝墨一 被填补。 图2 - 4 :笔画被包含在直线中的情况下笔画被错误的去除 如图2 - 5 所示的被擦除部分的长度很有可能超过门限l 。,第二种方法就 是针对这种长的空白部分的。 图2 - 5 :被擦除部分长度过长时如何恢复 这时候有必要分析相临的字符片的形状特征。没有被擦除的片组被组成 一个嬲。首先七匕较它们的内部垂直高度 如图的v l 和v ,) 以确定中间的空 白部分是完全通过了两个相临的字符片。然后字符片组的底部( h i 和h ,) 也 被测量。以确定没有字符贯穿了线的底部。然后就可以断定这两个相临的字 符片是从直线的上面开始向下延伸并与直线交叉并且没有贯穿直线的底部。 这时候就要检测两个字符片的顶部的内部轮廓,以确定是否存在弯曲部分。 如图l l 和l r 用来近似顶部的内部轮廓。给定h l 和h r 如果再满足以下标准,就 可以断定空白部分包含一个字符弯曲并应该被填补: l i 是水平的或有正斜率l 是垂直的或有负的斜率 l i 和l f 如果一个不是完全垂直的,那么另外一个就是完全水平的。 空白部分长度必须小于门限= m a x ( 1 0 ,5 o x m ) ,这避免了填补两个不 同字符之间的过大得空白。 l i 和l r 交叉于中间的空白部分区域内的一点。 4 角的检测和删除 第二章金融票据o c r 系统中的预处理 被重新填补的部分既有直线部分又有笔画部分。这样就有了多余的角的部 分,这些部分也是应该被删除的属于直线的部分。 在实验中,我们发现,由于角的部分的象素数非常少,只有几个象素,因此对 算法的影响非常少,为了简化算法,提高效率,我们将这一部分处理去掉了,在这 里就不再进行更深的研究 由上面的阐述我们可以看出,这种方法的关键点在于,运用h o u g h 变换的方 法确定直线的位置,然后求出直线上每一象素单元的厚度,求出整个直线的平均 厚度,小于这个厚度的部分就被当作直线去除掉了。当然这样有可能同时去除了 与直线相切的字符部分,因此要检测每一个被去除调的段的特征以及与相邻段的 关系,以判断是否为与直线相切的字符部分,然后将这个段重新填补上。这种方 法克服了传统的投影算法在直线由于扫描等原因发生小角度倾斜的情况下无法 准确定位直线,以及在去除直线的同时,去掉了与直线相切的有用信息的弊端, 因此具有可行隆:下面我们就对实验的代码以及结果进行分析,在本文的后面章 节我们会给出实验结果。 21 2 对代码做简单说明 这部分的代码分为两部分:分别是文件:b o r d e r h o r 和b o r d e r v e r ,分别表示 去水平框和去垂直框的部分。两个文件结构和算法基本相同,现只就b o r d e r h o r 文件作一说明。 主要有三个函数: 1 b o r d e r h o r 函数。入口参数为m _ o r i f i l e n a m e ( c s t r i n g ) ,表示未被处理的原始 的图像。出口为砀儡p f i l e n a m e ( c s t r i n g ) ,表示经过去除水平边框处理之后 的文件。功能是打开的未被处理的文件名为mo r i f i l e n a m e ,读该b m p 图像 得到图像宽度值n w i d t h ,高度值n h e i g h t 和每点象素i m a g e 这是以后处理的 主要参数。进行处理调用函数h o u g h l i n e h o r ,这是主要的处理函数。处理 后的图像保存为文件m 。_tmpfitename 2 h o u g h l i n e h o r 函数,入口参数为读图像得到的参数n w i d t h ,n h e i g h t 和i m a g e 。 主要功能就是实现h o u g h 变换,并调用函数l i n e e r a s e h o r 实现去除直线和填 加去除直线造成的字符的空白部分的填补。h o u g h 变换的部分不再详述,见 上面的原理叙述部分和代码注释。 3 l i n e e r a s e h o r 函数 入口参数: s l o p e :h o u g l l 蛮搀、反变换后得到的直线的斜率。 n o r m a l x :h o u g h 变换、反变换后得到的直线与法线的交点的x 坐标。 1 2 第二章金融票据o c r 系统中的预处理 n o r m a l y :h o u g h 变换、反变换后得到的直线与法线的交点的y 坐标。 i m a g e ,n w i d t h ,n h e i g h t 这几个参数同上。 主要功能实现去除直线和填加去除直线造成的字符的空白部分的填补。 21 3 算法分析以殛待解决和改善的问题 针对这一算法傲了大量的实验,试验结果和分析在后面章节有详细介绍下 面仅对实际的票据处理时遇到的问题作大致总结,在以后的使用中需要不断补充 和完善。 1 在直线的特征不是很明显的时候,例如直线非常细或出现截断,而相对 来说字符粗且明显的时候,h o u g h 变换找到的直线位置很可能在字符上。 这是因为h o u 曲变换找极值,是在每个7 * 7 的矩阵中找的,所以可能出 现多个满足阈值条件的极值。 2 在运行程序时所采用的样本全部都是只有两条水平边框和两条垂直边框 的样本,边框位置信息比较明显,因此在找到多条直线时可以根据边框 的位置信息进行限制。但是在处理小写金额那样的有多条较短的垂直边 框( 这种情况下h o u g h 找极值的闽值也要修改) 的情况或其他有多条边 框的情况时,这种限制信息显然是不行的,因此这也是要改进的问题。 3 每个s l i c e 的上下坐标搜索的算法,对于个别票据情况还有问题。 4 a v e r a g e s l i c e ( s l i c e 高度小于和等于a v e r a g e s l i c e 的都会被去掉) 的值的选 择( 是除l e n g t h 之后直接取整还是四舍五入) 造成了直线是否去的干净 和字符的底边与直线的交叠部分能否保留的矛盾。如果a v e r a g e s l i c e 直接 取整( 即向下取整) ,那么因为直线不是很均匀,造成直线略粗的部分就 无法干净的去除,因此需要四舍五入。但是如果采取四舍五入,那么在 底边与直线交叠的情况下,若字符略宽于直线的情况下,这个字符的底 边就很可能被去除,在直接取整时情况就会好一些。 2 2 “¥”宇头位置的寻找和去除 “¥”字头位置的寻找和准确的去除是小写金额识别预处理的一个关键问题 也是其特有的问题,但由于小写金额存在垂直边框的限制,因此问题也可以得到 简化。 如图2 - 6 所示,“百”下方所示为“¥”字头,可见它的特征为:前方的方框 内黑象素为零( 不包括噪声的话) :规则的写法存在一条较长的垂直直线。 1 3 第二章金融票据o c r 系统中的预处理 百i 十l 万i 千l 百l 十l 元j 角 分 图2 - 6 小写金额示例 去除“¥”字头主要是运用去除横直线边框后,剩余的每两个垂直线边框之 间的黑象素信息来确定。首先,在用h o u g h 变换找到垂直直线的位置后,因为 “¥”字头的结构特征造成它有可能被认为是一条直线。所以对h o u g h 变换后 得到的每一条垂直直线的位置进行判断,如果某个垂直直线与它前面和后面的垂 直直线的距离都小于一个阈值( 在本实验中取定为直线框之间平均距离的三分之 二) ,则判定此垂直直线为“¥”字头:其次,若上面的方法没有找到“¥”字 头,则计算每两个垂直直线之间的黑象素的宽度、高度以及总和,当没有“¥” 字头时,小写金额前面的格子应该为空白,考虑到噪声的存在,应该小于一个阂 值。当“¥”字头出现时,每两个垂直直线之间的黑象素总和则大于此阂值。由 此可以得出“¥”字头的位置。在去除“¥”字头之后去除垂直直线。 上述两种方法应该结合进行,并且需要对域值进行调整才能找到合适的值, 以准确判断“¥”字头的位置,因此域值的调整是其中的关键问题。我们在后面 章节会给出实验的结果。 2 3 噪声的去除 噪声f 勺存在会对切分和识别产生恶劣的影响,太的噪声甚至会被错误地识别 为字符,因此准确地判别和去除噪声是正确切分和识别的前提。 正确地判别噪声的前提在于对连通域的提取,连通域的提取也是正确对字符 进行切分的前提。所谓连通域,是指从该区域内任何一个点到另外一个点的路 径只通过黑像素点,而不经过白像素点,并且该区域包含所有满足条件的黑像素 点。将图像按照每个连通域划分开,其中当然也包括噪声,这种情况下噪声分两 种:与字符粘连的和与字符分开的。由于好的二值化方法下的噪声不会太大,因 此与字符粘连的噪声对字符不会造成太大的影响,多数情况下会被看作字符的一 部分而进行识别,而且能够得到正确地识别结果。 对字符的识别影响较大的是与字符分开的噪声,这种噪声在连通区域提取 后,被独立的划分为一个连通域,按照字符来对待送入识别模块,因此会被错误 地提取特征识别成相似地字符。因此去除噪声地关键就在于噪声域值的选取。 由于小写金额模块的特殊性,可以对连通域的提取方法进行简化。小写金额 1 4 第二章金融票据o c r 系统中的预处理 模块中色台垂直的边框,因此规范地书写情况下每个数字之间已经被垂直直线分 开,在正确地找到相应的每一条垂直直线的情况下,每个数字已经被自然的分开。 为简化算法起见,就将这条垂直直线作为正确的切分线,这样,越过切分线的字 符的笔画部分就成为了另外个字符的噪声。如下图2 7 所示: 图2 7 :垂直分割造成噪声 仍是上图2 - 6 的例子,字符4 有一部分比划越过了切分线到字符3 的 边,成为了3 的噪声( 图中圈出部分) ,字符4 仍能正确进行识别不受 影响。所以问题的关键就在如何去除这部分噪声上。因此需要且仅需要对每两个 垂直边框间进行连通域提取。 下面对连通域的提取方法进行阐述“1 : 按照从左往右,从上到下的顺序搜索。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论