(计算机软件与理论专业论文)储蓄凭条中手写体的提取与净化.pdf_第1页
(计算机软件与理论专业论文)储蓄凭条中手写体的提取与净化.pdf_第2页
(计算机软件与理论专业论文)储蓄凭条中手写体的提取与净化.pdf_第3页
(计算机软件与理论专业论文)储蓄凭条中手写体的提取与净化.pdf_第4页
(计算机软件与理论专业论文)储蓄凭条中手写体的提取与净化.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(计算机软件与理论专业论文)储蓄凭条中手写体的提取与净化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 孵修么 目前,我国银行普遍应用电子计算机处理储蓄业务,大量的票据靠 v 一 手工输入,速度慢,录入人员数量大,劳动强度大:j 银行票据自动识别 系统能够对票据中的数据信息进行识别,由手工录入转化为计算机的自 动处理。国内外已经对银行票据自动识别系统作了很多的研究工作,但 是,在对储蓄凭条中的手写体处理方面约束性强,而且只能够处理手写 体的小写和大写金额,在分割手写体汉字时会出现丢失笔划的情况,还 没有能够同时处理不同类别的储蓄凭条的嚣统。 ( 本文在现有的研究成果的基础上,) 设计了一种基于先验知识的二值 化方法,可以减小二值化处理对手写体笔划的宽度所产生的影响,并且 针对于手写体汉字的结构特征,提出了一种新的图象分割方法,该方法 解决了手写体汉字笔划丢失的问题,同时,本文还克服了手写体与基线 或印刷体文本交叠的局限性,在进行基线去除时,如果手写体与基线交 叉,则会出现笔划断开的问题,本文可以对笔划中的裂缝进行弥合处理, 而且能够将手写体从印刷体中分离出来,此外,本文通过模板匹配的方 法扩大了处理对象的范围,能够将不同类别的储蓄凭条中的手写体填充 项提取出来。 关键宇:储蓄凭条处理:图象分割手写体提取 外文摘要 a b s t r a c t 1 o d a y ,m o r e 锄dm o r c w o t k sh 船b e e nd o n ea u t o n 枷c d l yb y d e v e l o p i i l g o fs c i 髓c e t e c h n o l o g y a 5 e s 始n t i a lo p e 觚o ni nm a n yb u s i n e s s 锄d g o v 豇n m e mo r g 锄l i 荭呖o n s o nt e l e c o l i m l u i l i c a t i o i l h e a l mc a r e ,f i n a n c e , i n s u m c c ,强dp u b l i cl n i l m e s ,f b 加p m c e s s i n gr e m a i l 塔al 籼r - 劬奠1 s i v et a s k , a i l dt h e 咖砸o no f t h i sp r o c e d u r ch 嚣a 钍r t e di i n c 釉i v er e s e a r c hh l t c 托s t s c 1 1 i n e s eb a i l d w 矗血1 9 sa 阳i m p o n a n t 抽f 0 栅t i o ni nb a n :kc h e c k s ,w em l l s t s 印a r a _ t e 也e m 丹o mt h ei m a g ea n d 鞠v e 也e m i i l b i i l a r yi n l a g ei i lo r d e rt o r e c o g n i z ei t nc 锄b e l l s e df o re i t l l c ro c r s y s t c mo r 姗蹦n g e l e c t r i c 硒l a g ed o c u m c n t t h es y s t e mi sp r o p o s e dt oa m o m a t i c a l 】ye x 打a c t 锄dc l e a n h a n d w r i t t e ni t e m sf 洒b i i s i n e s sf o n 璐h 如d w r i t t e nd a t au s u a i l yt o u c ho r c f o s sp r e p r i m c df b r m 曲m c s 龃dt 咖t h e p a p 盯d e s c r i b e sc o m p o n e m s a n d 耐也m e d ci i lt h e s ) r s t c m t h ea u t o m a t i cb a n kc h e c kp m c e s s m gs y s 忙m i n c l u d e ss i ) 【i n l p m 恤tp a r t s :锄o o t h i n g ,b 幻e l i n c1 0 c a t i o n ,b 勰e l i n ed e l e t e , i 1 1 南帆n a d o n r e s t 0 他,i m a g es e g m e n t ,c l e 趾h 咂帕r t a m a r i m m e t i c : m o r p h o l o g i c a le r o s i o n ,m o r p b o l o g i c a ld i l a t c ,o p e n 锄d d o s e , 王o u g h 仃a i l s f b n n ,r e g i o ni n c r e 丛c ,p 喇e c 廿o n ,e t c w t 幛nt h eh 习皿d w r i t i n g sa r ef o l l i l d t o u c 矗血塔o rc s s i n gp 1 e l 妇t c dt e ) ( t s ,m o r p h o l o g i c a lo p 盯a l i o mb 船e do n s 僦s t i c a l 角翻1 聆sa r ci l s e dt oc l 锄t h 锄i f 丘u e d - i m a g e sa r es ia n _ t ,w i l i c h c a nb cr e c 镒e db yh o u 曲订a n s f o 玎n 1 1 l cs u 巧e c t i v ee v a l u 撕。璐s h o w p m m i s i n g r 豁u l t so f t h ep l 印o s e ds ) ,s t 锄 k e y w o r d s:c h e c k p m c 姻s i n gi m 曩g es e g m e n th a n d w 一_ t i n g e i t i t c 6 h 第l 章引言 第1 章引言 在许多商业和政府机构,通讯,医院,保险中,表格处理是个繁重 的劳动。在日常生活中接触最多的是银行的储蓄凭条。根据朱比特媒体 ( j u p i t c rm e d i a ) 的统计,美国银行业2 0 0 1 年7 月网络银行数据流量比一 年前增长了7 7 6 ,数据监测公司 a t am o n i t o r ) 预测,今后两年欧洲网 络银行帐户数量将每年增加3 4 ,在美国和欧洲,这个比例还在迅速增 加,但是网络银行交易量只占到整个零售银行业务量的5 到1 0 【”。银 行每时每刻所产生的大量纸张票据凭证对于银行来说是至关重要的宝贵 资料和财富,同时商业银行中还存在大量的诸如会计、人事档案,诉讼 和照片声像等需要长期保存的资料,银行储蓄所的日常工作中有一项是 要将客户的存取款信息输入计算机,支行以上级别的银行还需将从储蓄 所收到的大量票据再输入计算机并进行复核。长期以来,银行档案管理 工作因管理手段落后而一直困扰着银行界,各类档案的打印、整理、装 订和归档需要花费大量的人力和物力,同时各类凭证的事后监督与归档 的分离也浪费了大量的人力和物力。随着银行帐务处理集中化模式的出 现,如何实现凭证的高效录入、查询和可靠保管已成为银行界面临的一 大课题,引起了人们强烈的研究兴趣。 银行票据自动识别系统的研究具有重要的实际意义和理论价值,有 着广阔的应用前景,也是图象处理领域的一个重要的研究方向。9 0 年代 的计算机多媒体技术对计算机的图象处理,图象信息的压缩和图象档案 的传输以及计算机声音信号的处理等都提出了更高的要求,对计算机图 象处理技术也要求向更高级方向发展,对图象处理的要求不断提高,在 提取图象中特征的处理方面做出了显著成果,这对于银行票据自动识别 系统的开发提供了理论基础。 银行票据自动识别系统通常包含三大部分:预处理,字符识别和后 黑龙江大学硕士学位论文 期处理。 其中预处理部分负责获取储蓄凭条的影像数据,并为o c r 系统提供 手写体信息。k o d a l ( 9 5 0 0 和k o d a l c 3 5 2 0 扫描仪扫描速度快,k o d a l c 9 5 0 0 日处理量达1 万张天,k o d a k 3 5 2 0 日处理量达5 0 0 0 张,天,保证了系统 能处理大、中规模的票据量。 字符识别部分将手写体的图象信息转换为文本信息。手写体汉字识 别以其巨大的困难性与广阔的应用前景,向人们提出了严峻的挑战,成 为当今文字识别领域的一个重要热点。国外从7 0 年代初研制成“光学字 符识别机( o c r ) ”,能够自动识别印刷体的英文文字及阿拉伯数字,在7 0 年代末,又开发出能识别手写体的英文字母的o c r ,我国从7 0 年代就 开始进行了字符识别的研究,8 0 年代末已经进入实用阶段( 数字识别) , 主要应用于邮政信函自动分检及报表的处理,可以达到7 0 - 8 0 的成功 率。由于中文汉字结构复杂,而且要考虑到书写的规范性,目前还没有 确定统一的手写体识别标准,已经开发出的中文手写体识别系统准确率 还没有达到实际应用的标准,现有的手写体o c r 系统的平均正识率还不 到8 0 。1 ,由汉王科技开发的银行票据自动识别系统对大写金额和小写金 额可以达到8 5 的识别率,这显然不能满足金融系统对正识率的要求, 所以目前对储蓄凭条的处理的实际用途还只能停留在存储电子图象文档 的阶段和对特定的手写体汉字的识别。 后期处理部分包括为储蓄凭条建立索引,形成光盘库以供查询和保 存,以及完成事后监督工作。 典型的银行票据自动识别系统的组成都分如下图1 1 所示。 由于预处理部分位于银行票据自动识别系统的最前端,它对于整个 系统的正确率有着直接影响,本文所要讲述的储蓄凭条中手写体的提取 与净化系统( b 姐k c h e c ke x 乜佻t i o n 孤dc l e a 血gs y s t c m 简称b e c s ) 即是 第1 章弓l 言 预处理部分。 图1 1 b e c s 作为预处理部分同样是一个非常有意义的研究领域。 首先,b e c s 可以取代保存大量的纸张介质的储蓄凭条,将整张的储 蓄凭条分割为只包含手写体信息的子图象,尽可能的减小每张储蓄凭条 所需的存取空间,并且为手写体的识别做前期处理,为o c r 系统提供无干 扰的手写体信息。 其次,每个银行所使用的储蓄凭条的表格形式都不一样,而且同一 家银行内所使用的存款单与取款单的结构设计也不相同。b e c s 充分考虑 到它的适应性,能够处理不同类别的储蓄凭条,提高了系统的通用性。 最后,由于课题中要处理的对象是储蓄凭条的图象,即由银行的工 作人员将储蓄凭条通过扫描仪批量输入到计算机中,在扫描图片时,可 能会产生一定的倾斜角度。该课题能够对倾斜角度在( 一l o ,l o ) 范围内 的图象进行校正,不会因此而影响手写体的提取功能,可以避免工作人 员的手工校正。 1 1 银行票据识别系统研究概述 在美国,英国,巴西等发达国家手写体提取技术发展较快,在银行 票据识别系统的研究领域也有很多成果。 美国的r a f 硷lp a l a c i o s 和a d l s h us i n h a 【3 4 】开发的b 越q k c 耻c k r e a d 矾gs y s t e m 能够对银行票据中的手写体金额部分进行识别,正 确率达到8 4 左右。该系统是通过票据中的金额区的固定位置来对手写 体数字定位的,对于没有固定位置的银行票据则无法处理。 加拿大的) ( i a i l g y e 和m o h a m e dc h e r i e t 【5 l 开发的系统的提取正确 率可以达到9 7 4 ,数字识别率9 5 5 。该系统是通过基线( 手写体被填 充在该直线上) 特征来定位手写体信息,虽然满足系统的通用性,但是 并不能处理提取区为其他特征,如定位格( 金额区或帐号区) ,虚线的情 况。 y o u s e fa 1 o h a l l 【6 l 则通过建立阿拉伯数字的数据库的方式,来提高识 别率,越e s s 孤d r 0l k d e r i c h 和l u 觚l i i l gl e e 【7 】在对巴西的银行票据进行 处理时,根据先验性知识,获得票据的结构信息,提取正确率在 8 8 7 9 8 3 之间,但在该系统中并没有考虑手写体与印刷体交叠的情 况。 在处理手写体信息时,处理对象是数字或是字母,这样会减小处理 的复杂性,因为汉字的结构要比由字母构成的单词复杂的多,汉字笔划 断开的几率明显大于字母和数字的,适用于提取字母和数字的图象分割 方法在对汉字进行处理时会丢失部分断开的笔划信息。国际上所使用的 储蓄凭条的样式与国内的完全不同,结构相对简单,金额部分的位置相 第1 章引言 对固定,手写体出现在基线上,容易定位,可以直接从储蓄凭条的图象 中获得提取区的位置。而国内所使用的储蓄凭条中,手写体的位置不固 定,可能在基线上。基线又分为实线和虚线,也可能在定位格中,还可 能在空白区内,这些因素都给提取区的定位带来困难。而且,由于用户 在填写存款单或是取款单时,书写并不规范,有时填充的手写体会超出 填充范围( 提取区) ,与预打印文本交叠在一起,在国际上,储蓄凭条中 的预打印文本笔划和基线的宽度通常小于3 ,而国内的各储蓄凭条的情 况不一,不能保证严格小于3 ,这对于分离与预打印文本交叠在一起的 手写体来说,会降低正确率。 虽然,国内在银行票据处理方面的研究有一些成果,但是还处于初 级阶段”】,存在着一些问题。已开发出的银行票据自动识别系统( 汉王 科技,方正奥德,清华紫光) 只能对手写体的小写及大写金额进行处理, 马峰和苏辉嘲开发的支票无约束手写体数字分割与识别系统整张支票的 识别率为8 5 ,但只能对阿拉伯数字进行处理,在储蓄凭条中,用户还要 填写其它信息,通常包含帐号,户名,地址,期限,金额,证件名称, 证件号码,币种,储种这几个部分。对于这些手写体部分,系统并没有 对其进行处理,它在功能上不全面,并且不能处理多样化的储蓄凭条, 也可以说成是它的通用性较差,清华大学开发的支票容错识别系统 ( f 昧s ) “”中虽然对支票中的手写体汉字进行处理,但系统所处理的图 象中的手写体需要具有规范性,并没有对手写体与印刷体文本交叠的情 况进行处理,增加了系统的局限性。 在银行票据识别系统的理论研究方面,由于国内现有的产品只是针 对于特定票据进行的( 指定的支票或储蓄凭条) ,在进行手写体区域定位 时,根据先验性知识,直接在预识别的图象中,通过对定位格或矩形区 的识别来定位。在本文中要处理不同类别的储蓄凭条,由于表格结构不 同,需要通过将表格结构模板与已填充图象进行匹配来对填充手写体的 区域定位。 无论是从国内还是从国际的角度看,追求更高的正识率是共同的目 标,只有正识率提高了,才能增强它的实用性,而且要提高系统的通用 性,扩大使用范围,最终实现由计算机的自动化来代替人的手动工作。 1 2 本文的贡献和主要工作 在国内这一课题的研究虽然已经取得了一些研究成果,还存在着很 多难点,在实际应用中还有很多困难,受多方面的影响。 本文的目的就是要用计算机来自动处理这些储蓄凭条,将用户填写 的内容从储蓄凭条中提取出来,为文字识别系统提供干净的数据来源。 由于不同类别的储蓄凭条的表格结构不同,为了从已填充的储蓄凭条中 提取手写体信息,必须要通过分析该储蓄凭条的结构模板来获得表格结 构信息,得到手写体的位置( 提取区的位置) 。结构模板是通过对未填充 储蓄凭条进行直线特征提取和定位格的识别来建立的,因为储蓄凭条是 由高速扫描仪自动录入的,图像可能出现噪声或有倾斜角度,需要进行 二值化,平滑,校正等处理。如果手写体填充项超出给定区域,并与基 线,表格的边框或印刷体文本交叠,则要进行基线去除和手写体净化的 处理。 在论文中,首先设计了可以粗略定位手写体提取区的表格识别算法。 在表格图象分析部分,系统从一个未填充的储蓄凭条中捕获表格结构并 且从被填写过的储蓄凭条中提取出储户填入的手写体信息“。我们的目 的是净化提取区中的手写体文本,例如,要从定位格中和印刷体文本中 分离出手写体填充项。 由于该课题对已填充储蓄凭条中手写体区的定位是通过与模板匹配 获得的,则必须确定两者之间的对应关系,即“原点”的选取。储蓄凭 第1 章引言 条可能有一定的倾斜角度,出现锯齿的直线在进行位置统计时会导致 5 1 0 象素的误差,本文通过霍夫变换与区域增长相结合的方法,能够确 保在同类储蓄凭条中的不同图象中的“原点”为同一个点,并且改进后 的霍夫变换算法减少了运行时间,降低了内存开销。 图象的质量直接影响系统的正确率,图象二值化位于b e c s 系统的 最前端,如果二值化不能够起到抑制污点和背景噪声的作用,或者对手 写体的笔划宽度产生影响,这对于后续的操作很不利。r 幽c lp a l a c i o s 和 a 璐h us i n h a p 4 】所使用的是固定阈值法,该方法不适合于不同类型的储 蓄凭条,徐蔚然和张洪刚【1 2 】使用的是o g t i l 方法,如果该方法用于灰度直 方图双峰不明显的图象,二值化结果会添加噪声。本文根据处理图象的 灰度直方图的分布特征,对传统o s t u 方法进行改进,并且对产生的阈值 进行调整,使得该算法能够有效克服二值化引起的噪声现象以及图象模 糊的问题。 为了把手写体从图象中提取出来,可以通过区域增长法来实现,但 是要找到恰当的种子。种子的选择直接影响图象分割的效果,而且在区 域增长过程中,会丢掉不连通的笔划信息。本文在传统的区域增长法基 础上,设计了一种新的图象分割方法,有效的解决了这一问题。 论文中的最大的难点是要兼顾多种类别的储蓄凭条,因为各储蓄凭 条的结构差异较大,手写体既可以出现在实线上,也可以在虚线上,还 可以在定位格中,而且不同的储蓄凭条的灰度分布也不同,基线与印刷 体的宽度也不一样,这对于二值化,基线去除,手写体分割,净化处理 都带来了困难。 1 3 各章的内容安排 第一章引言。分别介绍银行票据识别系统的发展以及国内外的 研究现状,并阐述了课题研究的意义,本文的贡献和主 熏龙江大学硕士学位论文 要工作。 第二章预备知识。本章介绍了开发银行票据识别系统所需要的 理论知识。 第三章储蓄凭条中手写体提取与净化系统( b e c s ) 的结构介绍。 主要讲述了b e c s 的实现原理和系统的体系结构。 第四章b e c s 中表格分析系统的设计与实现。介绍了表格分析系 统的模块设计及算法的实现,并提出了一种新的二值化 方法 第五章b e c s 中手写体处理系统的设计与实现。详细的介绍了各 模块的算法实现,并提出了一种新的图象分割的方法。 第六章实验结果。本章给出了各模块的处理结果和实验数据, 并对其进行了分析。 第2 章预备知识 第2 章预备知识 2 1 位图文件的基础知识 人眼看到的任何自然界的图象都是连续的模拟图象,其形状和形态 表现由图象各位置的颜色所决定。计算机视觉使用的理论方法主要是基 于几何,概率和运动学计算与三维重构的计算视觉理论,它的基础包括 投影几何学,刚体动力学,概率论与随机过程,图象处理,人工智能等 理论。尽管视觉的目的不仅仅是要识别出物体的形状和类别,但实际上 对高等动物的视觉系统而言,识别却是极其重要的,同时计算机视觉处 理的原始信息又多是图象,正是由于这些特点,这一领域又和图象处理, 模式识别等有着十分密切的联系。图象处理的内容涉及图象的变换,分 割,增强以及压缩等内容“。色度学理论认为,任何颜色都可由红,绿, 蓝三种基本颜色按不同的比例混合得到,红,绿,蓝被称为三原色,简 称r g b 三原色。根据论文需要,这里主要介绍平面图象。平面上的每一 点仅包括两个坐标值,因此,平面图象函数是连续的二维函数,即:f 【x ,y ) = 僦( x y ) ,幻噼,y ) ,f b l u e ( x ,y ) ) 。图象可以分为黑自图象和彩色图象。 所谓黑白图象,就是图象中每一点都不是彩色的,即每一点的红,绿, 蓝颜色分量值都相等,即:丘甜= 姆n = f b l 眦。对于黑白图象,其f ( x ,y ) 表示( x y ) 位置处的灰度值。在计算机内通常采用二维数组来表示数字图 象的矩阵。 把象素按不同的方式进行组织或存储,就得到不同的图象格式,把 图象数据存成文件就得到图象文件。图象文件按其数字图象格式的不同 一般具有不同的扩展名,常见图象文件格式有位图文件( b m p ) ,t g a 文件( + t g a ) ,p c x 文件( p c x ) ,g 文件( + g 狐) ,t i f f 文件( t i f f ) 等。在w 抵b w s 系统中,最常用的图象格式是位图格式,论文中采用的 正是该格式。 数字图象的颜色深度是指表示每一象素的颜色值的二进制位数。颜 色深度越大则能表示的象素的颜色数目越多,它们之间的关系取决于数 字图象采用的颜色表示法。常用的有r g b ,c m y k ,h s l 和y u v 等。用 r ,g ,b 颜色分量来表示数字图象象素的颜色值的方法就是r g b 法。如 用于表示r ,g ,b 颜色分量的位数分别是n 1 ,2 ,n 3 ,则可表示的象素的 颜色数为2 “1 + 1 1 2 们。2 4 位真彩色图可表示的颜色数为1 6 ,7 7 7 ,2 1 6 。 w i n d o w s 位图的文件格式 w i n d o w s 的位图文件( b m p ) 的格式如下所示: 位图文件头由b i t m a p f i l e h e a d e r 结构表示 位图信息头由b i t m a p i n f o h e a d e r 结构表刁r 调色板由p a l e t t e 结构表示 位图中象素数据 在位图文件中分为有调色板图象和无调色板图象( 真彩色图) 。对于 后者,在位图信息头后面直接是位图数据,每个象素需要3 个字节才能表 示,所能表示的颜色数为2 5 6 宰2 5 6 2 5 6 种,真彩色图与人眼所看到的现实 世界很接近,只是文件过大,为图象处理带来不便。我们在论文中研究 的对象是具有调色板的2 5 6 色灰度图,如果输入图象是真彩图,需要先将 其转换为灰度图象。 调色板实际上由多个r g b q u a d 结构组成的数组,数组的元素个数由 b i t m a p i n f o h e a d e r 中的b i c l r u s e d 值决定。由这样的结构组成的r g b 表就 是该图象文件的调色板。 最后的部分就是实际的位图数据了,如果是有调色板的图象,则该 部分信息用来表示每个象素所对应的颜色在调色板中的索引值。如果 b i c l r u s e d 值为2 ,即该图象为二值图,则调色板中只有两种颜色,只需 第2 章预备知识 一位即可为其建立索引。那么在位图数据中,一个字节可以表示8 个象素, 可以减小文件的大小。如果是2 5 6 色位图,一个字节刚好表示一个象素。 这便于图象处理时对象素的分析计算。 调色板的介绍 在真彩色系统中,每一个象素的值都用2 4 位来表示,象素值与真彩 色值可以一一对应,所以象素值就是所表现的颜色值。但对于仅能同时 显示1 6 色或2 5 6 色的系统,每个象素仅能分别采用4 位或8 位来表示,象素 值与真彩色值不能一一对应,用象素值代表颜色值的方法将不能得到最 佳的效果,而必须采用调色板技术。所谓调色板就是在1 6 色或2 5 6 色显示 系统中,将图象中出现最频繁的1 6 或2 5 6 种颜色组成颜色表。对这些颜色 按4 位或8 位,即0 到1 5 或o 到2 5 5 进行编号,每一个编号代表一种颜色。这 种编号叫做颜色的索引号,4 位或8 位的索引号与2 4 位的颜色值的对应表 叫做颜色查找表。使用调色板的图象叫做调色板图象,前面已经提到, 位图数据中的象素值并不是颜色值,而是颜色在调色板查找表中的索引 号。 下面介绍一些关于在w i n d o w s 下对调色板的操作。 在窗口中显示的每一个图象的调色板都保存在内存中,称为逻辑调 色板,显示系统当前使用的调色板称为系统调色板,在任一时刻,应有 一个系统调色板,它决定了当前屏幕上实际的颜色显示。 如果窗口或应用程序想按自己的调色板显示颜色,就必须将自己的 调色板载入系统调色板中,称为实现调色板。函数c d c :s e l e c t p a l e t t e 和c d c :r e l e a s e p a l e t t e 用于实现该操作。位图的操作与调色板操作密切 相关。w i n d o w s 使用两种不同的位图,即设备相关位图d d b ( d e v i c e d e p e n d e n tb i t m a p ) 和设备无关位图d i b ( d e v i c ei n d e p e n d e n tb i t m a p ) 。 d i b 位图文件中包含该位图的逻辑调色板的颜色表,其象素值是该调色板 黑龙江大学硕士学位论文 中的颜色索引值。在结构上,d i b 与d d b 的主要区别是d i b 包含一个名为 r g b q u a d 的结构,它描述了d i b 位图的颜色表。在位图的输入和输出部分 还会对调色板的实现具体化。 位图的输入和输出 首先需要将储蓄凭条以图象的形式存储到计算机中,目前国外多家 公司已经推出批量扫描的机器,如果用于储蓄凭条的输入工作,会大大 提高工作效率,而自动输入的缺点是有可能造成图象的倾斜,在论文实 验中所使用的是普通扫描仪,是人手动完成的。在扫描时可以选择图象 的颜色类型,灰度或二值图或真彩图象,文件格式也有多种,为了图象 处理的方便,论文中采用的是灰度位图,即b m p 图象。在论文中所要处理 的是设备无关位图,所以这里只介绍d i b 文件的读取与显示操作。d i b 又 分为w i n d o w sd i b 和0 s 2d i b ,后者在信息头结构和颜色表结构与前者 不同,论文要研究的是w i n d o w sd i b ,也就是在2 1 中介绍的文件格式。 需要注意的是,位图数据以行为单位存储,即每行所占的存储长度总是 四字节的整数倍,不足时将多余位用o 填充。而且位图行的存储次序是颠 倒的,即位图文件中位图数据部分的第一行对应的是实际位图中的最底 行。 2 2 图象的几何变换 图象的几何变换包括很多方法,例如平移,旋转,镜像,转置,缩 放等等。但在本篇论文中只涉及到旋转和缩放两个算法。由于在对图象 进行几何变换时,只是改变图象的几何位置,所以只需对图象文件中的 位图数据进行处理即可,关键是要找到新象素位置与原始象素位置之间 的对应关系。 旋转 图象旋转存在着以什么为中心的问题,本文采用的是以图象的中心 第2 章预备知识 为圆心旋转。旋转可以改变画布大小进行等比旋转,图象本身大小不变, 也可以改变图象的大小,而画布大小不变,也可以两者都变化。论文中 所用到的是第一种情况,因为我们需要获得正确的相对位置。图2 1 为旋 转示意图,图中r 为( x o ,y 0 ) 到原点的距离,a 为该点旋转的角度,b 为最 初r 与x 轴的角度。 旋转之前:x o = r 木c o s b ;y o = r 木s i n b ; 旋转a 角度后:x 1 = r 木c o s ( b a ) = x 0 幸c o s a + y 0 牢s i n a ; y 1 = r 木s i n ( b a ) = 一x 0 木s i n a + y 0 斗c o s a ; 也可以表示为: 广 c o s as l n au 、 x 1y l1 = x oy o1 木l s i n ac o s ao i l oo1 j 2 1 卜嗍是w 巴1 f 剐p 洮刁 黑龙江大学硕士学位论文 其中w n e w ,h n e w ,w 0 1 d ,h o l d 分别为旋转后图象与原始图象的圆币聃苋发 和高度。在 1 0 中给出了一种旋转算法的改进方法,但是该算法只适合 于( 一3 ,3 ) 范围内的倾斜图象。 缩放 在进行缩放时,必须保证图象是等比缩放,不会出现水平或垂直方 向的变形,否则会改变图象中各象素之间的比例关系。假设图象的缩放 因子为r a t i o ,缩放的变换矩阵 1 3 为: 厂l r a t i o oo 、 il x oy o1 = x ly 11 木l ol r a t i o o i l - oo l r a t i 。j 2 3 其中( x 0 ,y 0 ) 表示原始图象中象素,( x l ,y 1 ) 表示缩放后的图象中的象素。 只要给出缩放因子即可通过上面的公式 2 3 获得目标图象。由于在后面 的处理中,我们需要建立信息模板,需要准确的手写体相对位置,所以 必须是对所有的图象进行等比缩小,保证原图中的各项信息的相对位置 不变。在代码实现部分需要注意的是,图象的文件大小会发生变化,必 须修改新图象的文件头信息,即b r r m a p f i l e 脏a d e r 结构中的b f s i z e 一项的值。 2 3 数学形态学的基本操作 数学形态学( m a t h e 毗t i c a lm o r p h 0 1 0 9 y ) 是一种应用于图象处理和 模式识别领域的新的方法。用于描述数学形态学的语言是集合论,数学 形态学是建立在集合论基础上的代数系统,它提出了一套独特的变换和 概念用于描述图象的基本特征。数学形态学方法比其它空域或频域图象 处理和分析方法具有一些明显的优势,例如:在对图象处理中,基于数 学形态学的形态滤波器可借助于先验的几何特征信息,利用形态学算予 第2 章獯备知识 有效的滤除噪声,又可以保留图象中的原有信息。在论文中所使用的降 噪算法就是采用的形态学方法。在形态算法设计中,结构元素的选择十 分重要,其几何特征及窗口的大小是能否有效提取信息的关键。形态学 算法很多,这里只给出论文中所涉及到的四个形态学算法:腐蚀运算, 膨胀运算,开运算,闭运算“3 。 腐蚀运算 腐蚀的公式表示为“;a o b = x :b + x a ) 其中a 为输入图象,b 为结构元素。算法实现的原则是,将结构元素b 中的原子( 指定) 和输入图象a 中的象素一个一个的对比,如果b 中的所 有点在输入图象中值一样,如果是二值图,则在满足原点值为0 时,若b 中的其他点在a 中也都是o 值,则保留原点所对应的a 中的象素值为o ,否 则为1 。 腐蚀操作的例子如图2 2 所示: r , my p 凝扎川 , o t 、 图2 1 旋转图2 2 腐蚀操作 在上图2 2 中原点在结构元素b 的内部,从处理结果可以发现腐蚀具有收 缩输入图象的作用。从几何角度看,结构元素b 在a 的内部移动,将圆盘 的原点位置( 圆心) 标记出来,便得到腐蚀后的图象。需要注意的是, 如果结构元素相对于原子的位置对称,则腐蚀后的图象在位置上不发生 偏移,如果不对称,则会改变图象的位置。 黑龙江大学硕士学位论文 膨胀运算 膨胀的公式表示为“:a o b = u ( a + b :b b 其中a 为输入图象,b 为结构元素。算法实现的原则是,将结构元素b 中的原子( 指定) 和输入图象a 中的象素一个一个的对比,如果b 中有一 个点在输入图象中的值与原点一样,如果是二值图,则在满足原点值为0 时,若b 中至少有一个点在a 中也是o 值,则保留原点所对应的a 中的象素 值为0 ,否则为l 。如果结构元素b 为一个圆盘,那么,膨胀可以填充输入 图象a 中的小孔( 相对于结构元素而言比较小的孔洞) ,以及在图象边缘 处的小凹陷的部分。膨胀具有“扩大”图象的效果。 膨胀操作的例子如图2 3 所示: 图2 3 膨胀操作 开运算 从前面的例子中可以发现,腐蚀运算收缩图象,膨胀运算扩大图象。 而开运算能平滑图象的轮廓,消除掉毛刺,去掉较细的突起。 开运算定义为“”:aob = ( a b ) o b 式中a 为原始图象,b 为结构元素,表示a 被b 作开运算,也可以说成是a 被b 腐蚀后的结果再被b 膨胀。 开运算操作的例子如图2 4 所示: 第2 章预备知识 口画 i 訇2 4a a b( a b ) o b 闭运算 闭运算能平滑图象的轮廓,填平小孔,弥合小裂缝,并保证位置和 形状不变。闭运算定义为“”:a b = ( a o b ) b 式中a 为原始图象,b 为结构元素,表示a 被b 作闭运算,也可以说成是a 被b 膨胀后的结果再被b 腐蚀。闭运算操作的例子如图2 5 所示: 0 图2 5a a 审b( a o b ) b 2 4 霍夫变换原理 霍夫( h o u g h ) 变换是用于检测图象中某些给定形状的曲线并用参数 方程将其描述出来“8 蚓。只要能够给出正确的参数方程,即可在图象中 获得该特征的曲线信息。h o u g h 变换的主要优点是检测受曲线中断点的干 扰的影响较小,因而是一种快速的形状检测方法,缺点是为考虑点的相 邻性,有时得到的最佳逼近直线可能会由于邻近的点的影响而产生扭曲。 在论文中用到的是直线的检测法,它可以将笛卡尔坐标空间的线变换为 极坐标空间中的点。假设直线与原点的法线距离为s ,法线与x 轴的夹角 为a ,直线上的每个点都满足公式: 黑龙江大学硕士学位论文 s = x + c o sa + v + s m lz 4 j 霍夫变换使不同坐标系中的线和点建立了一种对应关系。变换域( s ,a ) 的大小直接影响( x ,y ) 域中逼近直线的精确度。如图2 6 所示。 2 5 图象分割 图象分割是按照具体应用的要求和图象的内容将图象分割成一块块 子区域,目的是将感兴趣的对象提取出来。图象分割技术偏重于图象分 析,而不是图象处理。通常可以将图象分割技术分为三种类型:基于象 素灰度值的分割技术,例如直方图操作;基于区域的分割技术,例如区 域增长法啪3 ;基于边界提取的方法。这里只对区域增长法进行讲解。最 简单的区域增长法是将象素聚类,从一个种子象素点出发,按照某种连 通方式( 四连通或八连通) 和规则来检查周围邻近的象素点,如果具有 和种子象素点相似的性质,就说明它们属于同一区域。在进行区域增长 时,种子的选择是很重要的。如果是灰度图象,可以通过在某个区域内 的图象的直方图中的峰值作为该区域的种子。”。具体实现是从种子出发, 向各个方向在邻域内找到所有的满足相似性准则的象素,构成小块区域, 当新的点被合并后再用新的区域重复这一过程,直到没有可接受的邻近 点生成为止。相似性规则可由用户自行定义。下面是4 邻域的实现伪代码 : 1 a b e l r e g i o n o f ( 工,x ,y ,l a b e l ,i n t e n s i t y ) i fi ( x ,y ) 一i n t e n s i t yt h e n i ( x ,y ) := l a b e l ; l a b e l r e g i o n o f ( i ,x ,y l ,1 a b e l ,i n t e n s i t y ) l a b e l r e g i o n o f ( i ,x ,y + 1 ,1 a b e l ,i n t e n s i t y ) l a b e l r e g i o n o f ( i ,x l ,y ,l a b e l ,i n t e n s i t y ) l a b e l r e g i o n o f ( i ,x + l ,y ,l a b e l ,i n t e n s i t y ) 第2 章预备知识 8 邻域表示如图2 7 所示,对( x l ,y 1 ) 进行8 邻域操作既是用该点的象素值 分别与( x o ,y 0 ) ,( x 0 ,y 1 ) ,( x o ,y 2 ) ,( x 1 ,y 0 ) ,( x 1 ,y 2 ) ,( x 2 ,y o ) ,( x 2 ,y 1 ) , ( x 2 ,y 2 ) 8 个象素的值进行比较,如果象素值相同,则将该点作为新的种 子,再对该点进行8 邻域操作。 图2 6h o u g h 变换 x o ,y ox o ,y 1x o ,y 2 x 1 ,y o x 1 ,y 1x l ,y 2 x 2 ,y o x 2 ,y 1x 2 ,y 2 图2 7 熏龙江大学硕士学位论文 第3 章b e c s 的结构介绍 b e c s 的原型系统包含表格分析与手写体处理两个部分,前者是对未 填充储蓄凭条的处理,后者是对已填充储蓄凭条的处理。 表格分析部分是为了获得图象中的表格结构信息。在银行票据中, 通常包含$ 标记,基线,矩形等特征,在 2 2 】中提出了$ 标志的提 取方法,但是在国内的几大银行所使用的储蓄凭条中并不包含特定的银 行支票标志( b a n kc h e c kl o g o ) 。所以对于这种表格来说,分析线( 基线) 是最重要的特征,一旦基线被正确的定位,被填充的项目就可以提取。 如果用彩色的墨水来打印那些要在上面填写手写体数据的直线( 基线) ,可 由此来区别手写体填充项所在的位置,但这样做会加大打印的开销,而 且在改变现存的设计,扫描,存储时间和处理时间方面都有困难,在表 格处理系统中二值图象仍是主要输入类型,所以要从基线的特征进行分 析。因为在储蓄凭条中还包含定位格,而且基线又分为实线和虚线,手 写体又可能出现在空白区,所以在该部分需要分别对其进行识别。 手写体处理部分是为了提取手写体信息,并对其进行净化处理。首 先要对已填充储蓄凭条中的手写体提取区进行定位,因为批量扫描,图 象可能是有倾斜角度的,通过h 0 u g h 变换获得角度信息,进行校正处理。 如果手写体填写的不规范,可能与基线或印刷体交叠,所以要将基线去 除掉,而由此造成的断开的笔划信息需要恢复,同时还要将与手写体交 叠在一起的印刷体分离出去。如果储蓄凭条中包含定位格,则要将每一 个手写体数字从定位格中提取出来。 3 1 8 e c s 的体系结构 b e c s 的体系结构如图3 1 所示,其中深色箭头所指的为未填充储蓄 凭条的处理过程,记为,浅色箭头所指的为已填充储蓄凭条的处理过 程,记为。在和中,首先通过高速扫描仪输入到计算机中,然后 第3 章b e c s 的结构介绍 要进行预处理,其中包括图象的二值化,等比缩小和降噪处理。 经过预处理之后,要执行膨胀操作,垂直方向的膨胀处理是为了 提高h o u g h 变换统计出的最长直线的准确率,水平方向的膨胀处理是为 了提高定位格识别的准确率。 然后进行h o u g h 变换,找到图象中的“最长直线”的左端点,将 其作为该图象的原点,并在用户输入的范围内,根据实线,虚线,定位 格的几何特征进行识别,最后用提取区的相对于原点的位置构造结构模 板。 经过预处理之后,要执行平滑处理,这是为了填平手写体中的小 孔和过滤掉笔划上的毛刺,可以使手写体的笔划宽度均匀,提高手写体 的质量。 在进行基线去除操作时,首先要读取结构模板文件,由此来获得 图象中的手写体提取区的相对位置,再对图象进行h o u g h 变换,通过求 得的“最长直线”的位置来判断图象的倾斜角度和原点的位置,在获得 手写体提取区( 实线) 的绝对位置后,将其去除掉,同时也去除掉所有 与最长直线的长度相近的直线。 需要进行笔划的弥合处理,因为当手写体的笔划与基线( 实线) 交叉时,在去除基线的同时会丢失在基线上的手写体笔划,只要手写体 的笔划宽度大于基线的宽度就可以将断开的笔划弥合。 在进行手写体提取时,首先要将种子定位在手写体上,然后开始 区域增长,将手写体信息从图象中分割出来,也包括不连通的笔划信息。 提取的手写体如果与印刷体文本交叠在一起,则在图象分割时会 一同提取出来,只要手写体的笔划宽度大于印刷体的笔划宽度就可以将 多余的印刷体清楚掉。 提取的手写体若是在定位格中,为了减少手写体子图象的噪声, 黑龙江大学硕士学位论文 则需先进行定位格的去除操作,然后再对手写体数字进行图象分割。 最后将提取出的手写体子图象转换为标准二值图象文件,己备后 期处理时使用。 未填充 储蓄凭 已填充 储蓄凭 高 膨胀处理 - 卜 用户选毒提取区 v - 。 速 t 识别基线,矩形或空白区 扫 刊二值化 i 等比缩小 描 - 1 去除噪声构模板、 仪 。 1 录 平滑处理i- j 基线去除 il 入 预处理上 断开的笔划进行弥合 上 手写体提取 去除印刷体定位格去除 图3 1 b e c s 的体系结构 第4 章b e c s 中表格分析系统的设计与实现 第4 章b e c s 中表格分析系统的设计与实现 针对于表格结构的严格性,所有的表格能分为两大类【5 1 。一种称为 “物理表格”,在表中各种区域的位置和大小固定,填充项的区域由矩形 划分,对这类表格处理时只要获得表格的结构信息,就可对其处理。另 一种表格称为“逻辑( 拓扑) 表格”,它的填充项区域会出现在不同的地 方,并没有限定在矩形表格中,但要保留某个重要的逻辑( 拓扑) 结构。 例如银行支票,收据等,在不同类别的储蓄凭条中,我们感兴趣的项目 可由预先打印的基线或定位格来指定。 因为提取系统需要处理不同类型的储蓄凭条,为了能够准确定位不 同结构图象中的提取区的位置,必须先获得这一类型的空储蓄凭条的结 构信息。把一个空表格图象定义为i b = i b ( x ,y ) ,( x ,y ) 【m b + n b 】) ,已经填 过的表格图象为i f = i f ( x ,y ) ,( x ,y ) 【m p n 目) ,我们假设它们有相同的结 构,目的是解释i b 的结构并提取i 冲填充的数据。在对表格图象进行分 析时,通常是分别建立矩形,三角形,线段,圆的几何特征的集合,如 果图象中包含标志符( l o g o ) ,也可将其作为几何特征进行识别。在本系 统中,只需统计出基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论