(计算机软件与理论专业论文)基于矢量化特征的金融票据类型识别系统研究.pdf_第1页
(计算机软件与理论专业论文)基于矢量化特征的金融票据类型识别系统研究.pdf_第2页
(计算机软件与理论专业论文)基于矢量化特征的金融票据类型识别系统研究.pdf_第3页
(计算机软件与理论专业论文)基于矢量化特征的金融票据类型识别系统研究.pdf_第4页
(计算机软件与理论专业论文)基于矢量化特征的金融票据类型识别系统研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)基于矢量化特征的金融票据类型识别系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四川师范大学硕士学位论文 基于矢量化特征的金融票据类型识别系统研究 计算机软件与理论专业 研究生兰翔指导教师王玲 近几年来,无论是国有商业银行,还是股份制商业银行,对银行业务电子 化处理都给予了前所未有的重视,电子化集中处理成为各银行建设的重要目标, 实现对票据的电子化和自动化处理已成为银行新业务增长的一个关键。因此金 融票据自动处理系统以其较高的学术价值和应用价值越来越受到国内外众多著 名研究机构以及学者的广泛重视。 对银行票据的自动处理一般由以下几个步骤组成:首先,把要处理的票据 通过扫描仪、摄像机等输入设备输入到计算机中作为图像数据储存下来;其次, 对电脑中的票据图像进行处理,识别票据类型:再次,在票据类型识别的基础 上,进行票据有效信息( 包括打印体和手写体) 的定位和截取。在票据识别的基 础上,实现有效信息的定位是不难的,因为每种票据包含有效信息的区域在图 像中都有固定的位置。第四,识别截下区域中的有效信息并记录入数据库中。 这些有效信息包括:用户名、账号、操作金额、操作员、日期等。在以上处理 步骤中,票据类型的识别是十分关键的一步。 通过对图像处理和模式识别相关理论和成果的研究,本文提出了一个比较 完整的票据类型识别系统模型,对票据类型识别流程中的关键模块做了详细的 讨论,并且给出了具体的实现方案。首先,通过图像预处理使得票据的表格结 构图像与背景和字符图像实现比较完美的二值分割,同时尽量修复表格框线的 断裂,这样既可以减少图像的像素位数,提高后面算法的处理速度,又可以减 少图像中无效的干扰信息,降低后面算法的实现复杂度;然后,在直线检测的 四川师范大学硕 :学位论文 基础上实现票据框线的矢量化,并通过细化、合并和修正使得矢量化的结果集 合尽量小而精确,该矢量化集合不但能够减少图像储存空间,还能够为后面的 特征提取提供参考。最后,本文根据票据图像中各特征信息在识别时所起的作 用大小,采取分层的思想提取特征值,并与模版库进行分层匹配来完成票据类 型的识别。 实验结果表明,本文的矢量化算法能够比较准确地还原票据的表格框架结 构,同时识别算法具有较高的识别率和较低的复杂度,并且抗噪声和断裂的能 力较强。 关键字:会融票据、d e c 方法、矢量化、类型匹配 “ 四川师范大学硕上学位论文 b i l lt y p er e c o g n i t i o nr e s e a r c hb a s e do n v e c t o r i z a t i o nf e a t u r e m a j o r :c o m p u t e rs o f t w a r ea n dt h e o 专 g r a d u a t es t u d e n tl a nx i a n g i n s t r u c t o r w a n gl i n g i nt h el a s tf e wy e a r s ,n o to n l yt h es t a t e o w n e dc o m m e r c i a lb a n k , b u ta l s oj o i n t s t o c ks y s t e mc o m m e r c i a lb a n k , g a v et h eu n p r e c e d e n t e dv a l u et oc o m p u t e r i z a t i o n p r o c e s s i n go fb a n ks e r v i c e , t h e c e n t r a l i z e d p r o c e s s i n go fc o m p u t e r i z a t i o nh a s b e c o m et h eg o a lo fe v e r yb a n k sc o n s t r u c t i o n t h er e a l i z a t i o nh a sb e c o m ea k e yt o t h eb i l lc o m p u t e r i z a t i o na n da u t o m a t i cp r o c e s s t h e r e f o r et h ef i n a n c eb i l la u t o m a t i c p r o c e s ss y s t e mm o r ea n dm o r er e c e i v e sw i d e l ya t t e n t i o nb yt h e m u l t i t u d i n o u s d o m e s t i ca n df o r c i 朗f a m o u sr e s e a r c hi n s t i t u t i o n s 器w e l la st h es c h o l a r sf o ri t sh i 曲 a c a d e m i cv a l u ea n dt h ea p p l i c a t i o nv a l u e t h eb a n kb i l la u t o m a t i cp r o c e s si sg e n e r a l l yc o m p o s e do ff o l l o w i n gs e v e r a l s t e p s :f i r s t , t h eb i l lw h i c hm u s tp r o c e s st h r o u g hi n p u td e v i c e ss u c ha st h es c a n n e r , c a m e r a , i n p u t st ot h ec o m p u t e rs t o r i n g a st h ei m a g ed a t a ;s e c o n d , c a r r i e so n p r o c e s s i n gt h eb i l li m a g e ,r c g o g i l i z e sb i l lt y p e ;t h i r ta f t e rc o m p l e t et h eb i l lt y p e r e c o g n i t i o n , c a r r i e s0 1 1l o c a l i z i n ga n di n t e r c e p t i n gt h eb i l l se f f e c t i v ei n f o r m a t i o n ( i n c l u d i n gp r i n tb o d ya n dh a n d w r i t t e nf o r m ) i ti sn o t d i f f i c u l tb e c a u s ee a c hk i n do f b i l lc o n t a i n st h ee f f e c t i v ei n f o r m a t i o n ;i t sr e g i o nh a st h e 丘x c dp o s i t i o ni nt h ei m a g e f o u r t h , r e c o g n i z e se f f e c t i v ei n f o r m a t i o ni nr e g i o na n dr e w o r di n t od a t a b a s e t h e s e e f f e c t i v ei n f o r m a t i o ni n c l u d e :u s e rn a m e ,a c c o u n tn u m b e r , o p e r a t i o na m o u n t , o p e r a t o r , d a t ea n ds oo n i na b o v ep r o c e s s i n gs t e p s ,t h eb i l lt y p er e c o g n i t i o ni sa n n l 四川师范大学硕士学位论文 e x t r e m e l ye s s e n t i a ls t e p t h r o u g hr e s e a r c h i n gt h e r e l a t i o n a lt h e o r i e sa n d a c h i e v e m e n t si n i m a g e p r o c e s s i n ga n dp a t t e r nr e c o g n i t i o n , t h i sa r t i c l ep r o p o s e sac o m p a r a t i v ec o m p l e t eb i l l t y p er e c o g n i t i o ns y s t e mm o d e l ,a n dm a d et h ed e t a i l e dd i s c u s s i o no fe a c hm o d u l ei n b i l lt y p er e c o g n i t i o n , a n dh a sg i v e nt h ec o n c r e t ep l a n f i r s t ,im a k ei m a g eb i n a r y b e t w e e nt h eb i l lf o r ms t r u c t u r ea n dt h eb a c k g r o u n di m a g eb yt h ei m a g ep r e p r o c e s s , t h e nr e p a i r st h eb r o k e nl i n eo ff o r mf r a m e 嬲f a r 硒p o s s i b l e t h e r ea r et w o a d v a n t a g e s :f i r s t , r e d u c i n gt h ep i x e ln u m b e r so ft h ei m a g ed a t am a ye n h a n c et h e p r o c e s s i n gs p e e d ;s e c o n d ,d e c r e a s i n gt h ei n v a l i di n f o r m a t i o no ft h ei m a g ei s a d v a n t a g e o u sf o r t h es i m p l i f i c a t i o no ft h ef o l l o w i n gs t r a i g h t l i n ee x a m i n a t i o n a l g o r i t h ma n dr e d u c e st h ec o m p l e x i t yo ft h er e a l i z a t i o na l g o r i t h m ,t h e nm a k et h e v e c t o r i z a t i o nb yd e t o e t i n gt h ef o r mf r a m el i n e ,a n dt h r o u g ht h i n , m e r g ea n dr e v i s i o n c a l l s e st h ev e c t o r i z a t i o ns e ts m a l la n dp r e c i s e t h ev a c t o r i z a t i o nr e s u rm a yr e d u c e t h es t o r a g es p a c e ,m o r e o v e rp r o v i d e st h er e f e r e n c ef o r t h e f o l l o w i n gf e a t u r e e x t r a c t i o n f i n a l l ya c c o r d i n gt ot h ew e i g h tv a l u e so fc h a r a c t e r i s t i c si n f o r m a t i o ni n t h er e c o g n i t i o n , e x t r a c t 】f e a t u r ei nl e v e l s ;m a t c ht ot h ep a t t e r na n dc o m p l e t et h eb i l l t y p er e c o g n i t i o n t h e e x p e r i m e n t a l r e s u l ti n d i c a t e dt h a t ,t h ev e c t o r i z a t i o na l g o r i t h mc a n a c o u r a t e l yr e t u r nt h eb i l lf o r mf r a m ec o n s t r u c t i o na n dt h er e c o g n i t i o na l g o r i t h mh a s s t r o n ga n t i - n o i s ea b i l i t y , h i g hr e c o g n i t i o nr a t ea n dl o wc o m p u t a t i o nc o m p l e x i t y k e yw o r d s :b a n kb i l l ,d e cm e t h o d ,v e e t o r i z a t i o n ,p a t t e r nm a t c h 四川师范人学硕士学位论文 四川师范大学学位论文独创性及 使用授权声明 本人声明:所呈交学位论文,是本人在导师王验指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其 他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的 个人和集体,均己在文中以明确方式标明。 本人承诺:已提交的学位论文电子版与论文纸本的内容一致。如因不符而 引起的学术声誉上的损失由本人自负。 本人同意所撰写学位沦文的使用授权遵照学校的管理规定: 学校作为申请学位的条件之一,学位论文著作权拥有者须授权所在大学拥 有学位论文的部分使用权,即:1 ) 已获学位的研究生必须按学校规定提交印刷 版和电子版学位论文,可以将学位论文的全部或部分内容编入有关数据库进行 检索:2 ) 为教学和科研目的二学校可以将公开的学位论文或解密后的学位论文 作为资料在图书馆、资料室等场所或在校园网上供校内师生阅读、浏览。 论文作者签名:善 2 0 。7 年j 月j 占日 加川师范大学硕i 学位论文 第一草刖吾 1 1 研究背景 本文研究的课题背景是金融票据自动处理系统。 中华人民共和国票据法规定的票据含义是指出票人约定自己或者委托 付款人在见票时或者指定的日期向收款人或持票人无条件支付一定金额并可流 通转让的有价证券。票据有广义和狭义之分。广义上的票据主要是指在经济往 来中使用的单据、凭证。如证券、单证、仓单、票证、提单、货单、运单、发 票、存款单等,范围很宽,难以准确具体地加以界定。狭义上的票据,仅指汇 票、本票和支票 随着我国社会主义市场经济和金融活动的迅速发展,票据己成为社会经济 活动中法人、公民进行资金清算和支付的重要工具商业银行每日处理各类支 付凭证( 以下简称票据) 的数量都在迅速增长。传统的以纸为媒介来存放并处 理文字、数据和图像等信息的方式己无法适应时代发展的要求。如何有效利用 计算机、网络、通讯等信息处理技术来适应日新月异的信息化世界,成为了金 融行业特别是银行业发展的迫切需求。不论是国有商业银行,还是股份制商业 银行,一方面加强管理、提高效率、改变服务、激烈争夺市场,发展新型业务; 另一方面对金融票据自动处理系统给予了前所未有过的重视,加大科技投入, 改善服务手段,各行纷纷开始在系统规划和建设的环节中加快调整工作,如何 尽快实现金融票据业务处理自动化成为热门话题。 票据的处理程序严格而又烦琐,其处理程序包括:审票、核对印鉴、一记 账、事后监督、分类保管、票据档案检索等等,这为各商业银行带来沉重的操 作负担。传统的票据处理方式是采用手工的方式处理,这种方式存在处理速度 慢、劳动强度大、准确率低等特点。以支票为例,在手工操作时,银行的业务 人员不但要通过键盘输入客户的帐号、大小写金额、开票i t 期,还要验证支票 上多枚印鉴的真伪和金额与密码的正确性。这要求操作人员业务必须十分熟练, 精力必须极为集中,这种苛刻的要求是难以百分之百达到的。因此利用计算机 技术对票据迸行自动分析、验证、检索,对于确保金融业务的安全、提高工作 四川师范大学硕:i :学位论文 效率、减轻劳动强度和增加处理准确性都具有重要的现实意义。同时,在金融 电子化的趋势下,信息技术手段己成为金融行业新的业务增长点,快捷、准确、 高效地实现银行r 常业务的自动化,缩短每笔业务的操作时间,保存客户原始 信息,并对其进行电子认证,可以使银行在同国外同行竞争时处于有利位置。 光学字符识别( o c r ) 是模式识别学科的一个传统研究领域。从5 0 年代开 始,许多的研究者就在这一研究领域开展了广泛的探索“一。近年来计算机硬件 技术的高速发展使得o c r 在多种实验和应用系统中得到运用o 。1 ,如邮政编码 自动分检系统* ,、文档自动分类系统、文档自动识别系统嘲、车牌自动识别系统 等。因此,金融票据自动处理系统( 尤其是支票的自动处理) 作为o c r 应用中 具有较高学术价值和应用价值的领域,越来越受到国内外众多著名研究机构以 及学者的广泛重视“”3 。 金融票据处理系统的设计涉及到多个方面和多项技术,这其中主要包括与 金融和银行有关的法律及制度,计算机图像处理、模式识别,计算机网络,数 据库技术,密码学及档案管理及检索的有关法律制度。金融票据对于安全可靠 性有严格的要求,处理技术复杂难度大,是国内外学术界和金融界关注的一个 研究课题。 1 2 研究目的和意义 。 票据类型识别系统是金融票据自动处理系统中的重要组成部分。 对金融票据的自动处理一般由以下几个步骤组成:首先,把要处理的票据 通过扫描仪、摄像机等输入设备输入到计算机中作为图像数据储存下来;其次, 对电脑中的票据图像进行处理,识别票据类型:再次,在票据类型识别的基础 上,进行票据有效信息( 包括打印体和手写体) 的定位和截取。在票据识别的 基础上,实现有效信息的定位是不难的,因为每种票据包含有效信息的区域在 图像中都有固定的位置;第四,识别截下区域中的有效信息并记录入数据库中。 这些有效信息包括:用户名、账号、操作金额、操作员、日期等。 2 岬川师范大学顾l :学位论义 在以上处理步骤中,票据类型的识别是整个自动处理系统的首要步骤,是 后面o c r 字符识别过程的前提,为后期工作的顺利进行提供保障,是整个自动 处理系统中十分关键的一步,因此,具有很高的研究和实用价值。 1 3 国内外现状分析 由于票据格式的多样性,以及图像预处理和字符识别的复杂性,使得开发 一套通用的票据自动处理系统非常困难。国际上对金融票据自动处理系统的研 究开始于二十世纪八十年代初期。法国、美国、加拿大、意大利、日本、巴西 等国的研究工作开展得比较深入,取得了重要的成果,目前,已有多个系统在 银行进行实验考核”一。但由于西方发达国家使用的银行票据极不标准,每家银 行都发行各种式样和规格的票据,给票据的自动处理带来了巨大的困难。此外, 西方发达国家使用签字作为票据的合法性验证手段,而手写签字的自动识别是 模式识别领域一个至今尚未解决的研究课题。但强烈的市场需要仍然推动着金 融票据识别技术的快速发展,并取得了很多相关的成果。 张丘等“”提出了变黑边缘板的概念和基于区域填充的黑边去除算法,能够 有效地去除黑边,快速准确地检测出图像的倾斜角,并具有较强的实用性。庞 韶宁等1 在样本直方图分析的基础上,讨论了阈值选取和样本明暗度的关系并 由此设计了一种票据数据获取过程结构。在线框提取和字符定位及提取方面, 张重阳等“2 1 针对票据图像中手写体字符与格线交叠的情况,提出一种直接利用 图像灰度信息的格线检测与去除算法。王林水等“”提出了基于连通体的区域聚 类方法来解决版面印刷字符区域的准确提取问题,提出了基于自然语言理解的 错误纠正和信息分类算法解决字符识别率较低和信息分类困难的问题。李琥等 “”在分析以往图像中直线提取算法之优缺点的基础上。根据票据图像中线条的 特点给出了一个适用于票据图像的快速线段检取算法,在此基础上,根据不同票 据有不同几何和拓扑结构这一原理,给出了一种基于特征线检取的票据类型识 别算法。赵斌等“”在支票容错识别系统的基础上,介绍了预处理算法的设计与实 现,包括软件定位、各单元子图的提取与背景去除、倾斜校正处理、方格去除和 字符串分割等,可以得到单个数字字符的图像点阵,直接送入单字符识别器进行 旧川师范火学颂i 学位论文 识别。郑冶枫等“”提出了一种基于自定义的称为“有向单连通链”的图像结构 基元,并提出一种的自底向上的表格框线检测算法,引入表格框线约束信息来 去除伪直线,补全断裂的直线,具有抗任意角度的倾斜、抗一定程度断裂的优 点,但对于断裂非常严重的表格效果较差。张洪刚等“”提出了提出了一种基于 信号匹配的自适应打印支票二值化方法,它在处理噪声干扰大的图像信号时效 果明显,但该方法使用的前提是要知道原信号对于不满足此条件的图像,分割 就不准确。 随着研究的不断深入,目前也开发出许多实用化的产品,如: 1 、法国a 2 i a 公司研制的支票自动处理系统。它的处理速度很高,具有每 天处理7 0 0 0 0 张支票的能力,现在该系统已经进行了大量支票的测试。对1 7 6 0 0 0 张支票的处理结果显示:其手写体大小写金额的识别率为7 5 时,错识率不超 过1 1 0 0 0 0 。这是国际上目i j 尚不多的、已经得到实际应用的一个支票自动处理 系统。 2 、加拿大c o n c o r d i a 大学的c e n p a r m i 中心研制的支票自动处理系统。 在字符识别领域,加拿大c o n e o r d i a 大学的c e n p a r m i 中心是国际上著名的研 究单位。该中心研制了支票自动处理系统原理样机。在手写体金额的抽取和分 割方面,用2 0 0 张银行支票测试的结果为正确率高于9 8 ,手写金额识别方面 的性能达到了识别率为7 0 时,错识率低于0 8 5 。 3 、美国纽约州立大学c e d a r 中心研制的支票手写体金额自动识别系统。 美国纽约州立大学c e d a r 中心是字符识别领域国际上最有影响的研究单位之 一。该中心在研究支票中的手写体金额识别系统时,在研究性能优良的大小写 金额分类器的同时,还较好地使用了大小写金额相互验证方法,使得手写金额 的识别达到了很高的性能。在识别率为4 3 8 时,错识率为0 。 4 、国内在这方面的研究比国外起步略晚,但同样取得了非常大的进展。在 2 0 0 0 年6 月,由北京邮电大学的模式识别实验室丌发出了“盒融0 c r 系统”。 该系统将脱机文字识别技术应用于金融领域,可以识别支票及其它银行票据中 所包含的人民币大小写金额、同期、流水号等要素,为银行提供金融票据的自 4 l ! q 川师范大学硕卜学位论文 动核对、校验、检查功能“”。 从国内外的现状分析得出,目前在金融票据自动处理系统中对于字符的识 别研究的比较多,也取得了很好的效果,但对于票据类型的识别相关的研究和 报道比较少,如果改善这方面的性能对于整个自动处理系统的性能来说会有较 大的提高。 1 4 本文研究内容和结构安排 本文提出了票据类型识别系统模型,并阐明票据分类识别系统中所使用的 原理以及方法,根据作者的实践经验对其中的关键技术做了一些深入讨论,并 给出了部分实验结果。 论文分成六章,内容组织如下: 第一章是前言。描述了研究目的、意义、研究内容和国内外现状。 第二章提出了票据类型识别系统的模型。并对整个系统的主要模块的功能 作了概括性的介绍。 第三章是预处理技术研究。根据票据图像的特点,本章针对目前预处理中 单一化方法的不足,提出了一种基于方向的边缘检测二值化和修复的票据图像 预处理方法,简称d e c 方法,实验结果表明该方法能够有效地提取票据中的框 线图像,并去除大部分的干扰信息。 第四章提出了基于直线检测的票据框线矢量化方法。首先介绍了直线检测 原理和目前常用的方法,并根据票据特征加以针对性的改进,得到矢量化的框 线集合,然后再通过细化合并和矢量化数据修正,使得矢量化结果最小化,并 且能够准确地还原票据的表格框架结构,本章还给出了算法过程和实验结果。 第五章是特征提取与票据类型匹配。本章提出了一个在构成票据图像的矢 量化框线集合中,根据各特征信息在识别中的作用不同,分层地提取特征的方 法和分层地匹配特征的算法,最后给出了识别结果。 阴川师范大学硕士学位论文 第六章是结束语,总结了本文所做的主要工作,同时指出了需要进一步完 善和改进的内容。 6 四川师范丈学硕士学位论文 第二章票据类型识别系统模型 2 1 基本概念 2 1 1 票据图像 经过扫描仪或其它数字图像输入设备输入到计算机中所得的图像文件是二 维的数字图像点阵,我们所处理的图像通常是2 5 6 级灰度级图像( 如图2 1 ) , 即数字图像中的每一个像素取值是1 0 ,2 5 5 之间的整数值。所以票据版面图像 可以视为m n 的灰度矩阵,我们用m ,力表示像素值,其数学模型可以如下 描述: f 0像素点为黑色 厂( 力= k 0 k 2 5 5 像素点为七级灰度值 1 2 5 5像素点为白色 其中x 1 ,2 ,册;y 1 ,2 ,m 。 2 1 2 票据特征尺度 图2 1 票据图像 7 四川师范大学硕士学位论文 票据的特征尺度指的是描述票据版面信息特征的单位,从目前各种版面分 析的研究情况来看,版面特征尺度可以分为点、线、面三大类,这些尺度同样 适用于票据版面的处理。 1 、点特征尺度 点特征是指将点作为描述票据特征信息的最小单位。票据图像的点特征包 含了票据版面的全部细节。因此,基于点特征的版面处理方法适应性和健壮性 都很好,受图像质量影响较小,可以处理版面较为复杂的情况。但是,它忽略 了版面的整体结构信息,运算量大,时间消耗过多。 由它可以获得版面的两种特征:统计特征和结构特征。利用特征统计直方 图是获得统计特征的常见方法。连通域的搜索与合并是基于点特征版面处理方 法获得结构信息的关键技术。 2 、线特征尺度 线特征是指将线作为描述票据特征信息的最小单位。线特征尺度所应用的 对象是具有局部直线特征的票据图像,依靠自底向上的方法,拾取图像中的线 特征。与点特征相比,线特征增大了特征尺度的量度,减少了用于描述版面图 像的信息量,强调了版面图像的整体结构信息,这导致运算量减少,时间消耗 也大幅度下降,另一方面也导致版面图像细节特征的模糊化。提取票据中的局 部直线的信息是我们进行票据处理的重要参量。 3 、面特征尺度 面特征反映的是票据图像的整体特征信息。它进一步增大了特征尺度的量 度。如何利用面特征进行版面分析还是一个未得到充分讨论的课题。 2 1 3 票据结构特点 2 1 3 1 物理结构特点 四川师范大学硕卜学位论文 金融票据大多是具有表格结构的信息载体,因此会融票据类型识别系统可 以看作是一个典型的多类别表格识别系统。 虽然我国现行使用的票据样式繁多,尚无标准的、统一的格式,但其内容通 常包括标题、指示栏目( 定域) 、用户填写栏目( 交域) 及其它一些辅助信息。票据 中的指示栏目和用户填写栏目中的信息,包括票据上本身印刷的字符和用户手 写或打印的汉字、数字或符号等,我们称为字符信息,其中用户填写栏目是票 据自动处理系统后期o c r 识别的对象,与本文中的票据类型识别没有关系。 印刷在票据版面上的水平和垂直线段构成了票据的表格框架,我们称之为 框线。相同类型的票据上框线的特征,如宽度、长度、颜色( 灰度级) 等基本 相同,线与线之间的相对位置也是固定的,是本文用来提取特征的主要对象。 利用框线可以还原出票据表格的框架结构,通过这些结构特征我们可以识别不 同的表格,也就识别出了不同类型的票据。 2 1 3 2 逻辑结构特点 票据中的水平线段和垂直线段纵横交错构成了各个单元格,又称为栏目。 栏目包括指示栏目和用户填写栏目,指示栏目中是事先印刷好的信息,我们称 为提示类信息,用户填写栏且中是用户手工填写的信息,我们称为数据类信息。 票据的逻辑结构特点就主要体现在提示类信息和数据类信息之间的关系上。对 于特定的提示类信息,其数据类信息也在一个范围内的,如:提示类信息是姓 名,其数据类信息就可以排除阿拉伯数字和一些符号字符;提示类信息是金额, 就可以排除掉大多数的文字字符。这样利用这种逻辑关系就可以在o c r 识别过 程中设计特定的模版过滤机制和容错处理。“” 因此,可以说票据物理结构中的水平线段和垂直线段起到了分割票据版面 功能块、确定各功能块之间相对位置结构关系的重要作用,而且根据横线与竖 线的相对位置,甚至可以初步确定用户填写的内容语义嘲。 9 四川师范大学硕j :学位论文 2 2 票据类型识别系统流程图 l 待识别票据li 空票据1 0 图像采集设备 o l 预处理il 预处理l u ; i 直线检测与矢量化直线检测与矢量化1 00 l 特征提取l:i ,特征提取l o0 i 类型匹配i 票据模版库 0 读取模版特征信息 i 类型识别l , 围2 2 票据类型识别系统流程图 2 3 主要功能模块 票据类型识别系统主要包括以下几个功能模块: l 、预处理模块 本模块的目的是把票据中表格的框线与背景图像分割开,为直线检测模块 提供较高质量的框线图像信息,难点是分割后得到的框线通常含有断裂,并且 图像中字符信息不容易去除。本文提出了一种基于定向的边缘检测二值化和修 1 0 州川帅地人学坝l 学位论义 复的d e c 方法来进行预处理,取得了较好的效果。 2 、直线检测与矢量化模块 本模块的目的是检测出票据图像中的框线,并将其矢量化。由于分割后的 图像不容易直接匹配成功,我们采用了提取图像特征的思路进行类型匹配,这 就需要有能够抽取图像特征的算法。在表格类框架结构中,直线特征是最容易 提取的和利用的,故本文采用了直线检测的方法对票据图像的框线进行矢量化, 然后通过细化、合并和修正使得矢量化的集合尽量小而准确,使用该矢量化结 果可以还原票据表格的框架结构,同时在矢量化的结果中便于抽取用于图像匹 配的相关特征。本模块的难点在于直线检测和矢量化修正算法。 3 、特征提取和类型匹配模块 , 本模块的目的是提取特征然后簟模版库的图像进行匹配识别,难点在于特 征值的选取和匹配算法。通过查询票据模版库,寻找同待识别票据的特征相近 似的模版进行匹配,确定票据的类型。根据票据的矢量化结果,我们采用了分 层的特征提取和匹配的方法对图像进行识别,选择票据表格外框的特征点作为 匹配的第一层特征,通过第一层特征可以过滤掉大部分不相关的模版,然后分 别选择水平和垂直的矢量化特征线作为第二层特征和第三层特征,进行更精确 的匹配。 四川师范大学硕l ? 学位论文 第三章预处理技术研究 3 1 引言 票据图像处理中的一个重要环节是对扫描的图像进行预处理。由于在票据 使用和流通过程中难免会产生污渍,同时现有扫描设备始终存在噪点和精度问 题,在票据图像中就会包含有噪声、畸变和倾斜,通过预处理过程,消除这些 图像中不稳定因素的影响,将使得特征的提取和识别变得容易进行。 国外学者对票据预处理技术的研究开始于八十年代初期,经过多年的努力 己取得了丰硕的成果伽“一,在图像分割、噪声去除以及字符串分割等方面都有 重大进展。我国的票据与国外的票据差别比较大,如国内票据中用于规范用户 填写的框线信息比较多、背景底纹一般较浅、票据流通过程中加盖上去的印章 图像比较多;而国外票据中框线信息较少、很多票掘背景图案复杂。 针对不同的子识别域图像,可以采取不同的预处理方法,但单一化的方法 效果往往不好,特别是对于票据图像,因此本文针对单一化方法的不足,提出 了一种基于定向的边缘检测二值化和修复的票据图像预处理方法,下面简称 d e c 方法。 d e c 方法的主要思想是:将票据图像的处理分为水平方向和垂直方向两个 子过程,首先对票据图像进行水平方向边缘检测,这样可以得到仅包含水平边 缘的图像,去除了含有比较明显垂直边缘的图像,再通过r c 迭代阈值选取对 该图像二值化,就可以将图像背景与票据水平框线分割,对于分割过程中出现 的线段断裂和干扰信息我们再使用水平方向的修复方法来填补和去除。之后对 原票据图像进行垂直方向边缘检测,再通过二值化和垂直方向的修复来完成垂 直框线图像的分割。 d e c 方法的流程如图3 1 所示。另外在预处理的过程中我们还用到了一些 辅助的图像处理方法,有平滑处理、灰度拉伸等,下面将详细介绍d e c 方法中 每个步骤。 四川师范大学硕t 学位论文 图3 1d e c 方法流程图 3 2 平滑处理 票据图像常常含有许多噪声,要对其进行平滑处理。噪声的产生原因很多, 可能是扫描时填入的灰尘,可能是储蓄凭条上的污点,也可能是由于二值化不 当引起的噪声等等。在图像处理中,噪声有多种类型,例如:高斯噪声,脉冲 噪声( 椒盐噪声) 等。 一种最简单的行之有效的平滑方法就是中值滤波方法。中值滤波器属于统 计滤波器,是一种非线性的空间滤波器,它是将像素( 在中值计算中包括的原 像素值) 邻域内灰度的中值( 统计排序结果决定) 代替该像素的值。由于领域 中亮度的中值不受个别毛刺的影响,因此中值滤波能够很好地消除脉冲噪声, 同时不会明显地模糊边缘。 本文选用了3 3 的中值滤波器,取得了不错的效果。 3 3d e c 方法 3 3 1 边缘检测 边缘是灰度不连续的结果,是图像中灰度的急剧变化。边缘检测的定义有 很多种,其中最常用的一种定义为晒1 : 理过程来描述图像扣灰度变化的过程。 是几何方面的,也可能是光学方面的。 边缘检测是根据引起图像灰度变化的物 引起图像灰度不连续性的物理过程可能 几何方面的,比如深度的不连续性、表 四川师范大学硕士学位论文 面取向、颜色和纹理的不同;而光学方面的,比如表面反射、非目标物体产生 的阴影以及内部倒影等。这些景物特性混在一起会使随后的解释变得非常困难。 而且,在实际场合中,图像数据往往被噪声污染。因此边缘检测方法要求既能 检测到边缘的精确位置,又可以抑制无关细节和噪声。 传统的边缘检测算法通过梯度算子来实现1 。在求边缘的梯度时,需要对 每个像素位置计算,在实际中常用小区域模板卷积来近似计算。模板是n n 的权值方阵。经典的边缘检测算子模板有:s o b e l 模板、k i r s c h 模板,p r e w i t t 模 板,r o b e r t s 模板、l a p l a c i a n 模板、点模板、线模板( 分0 度,4 5 度,9 0 度,4 5 度四个方向) 等。对于方向模板卷积,可同时得到边缘方向和沿该方向的强度。 若待检测图像产生模糊,则用模板卷积得到的边缘常常有一定的宽度,此时可 使用“非最大值压制算法恤1 得到单像素宽的边缘线条。在经典算子的基础上 发展出了马尔算子( l o g 滤波算子) 、c a n n y 边缘检测算子、曲面拟合法等边 缘检测算法。近年来,又出了很多新的边缘检测方法,包括基于小波的边缘、 基于网络神经元的边缘检测等,同时将模糊数学、数学形态学等方法应用到边 缘检测中,可以取得更好的效果。 3 3 1 1 基于方向的边缘检测 票据表格有特殊的结构特点,一般由水平线段和垂直线段构成,故边缘检 测的重点应放在水平线段与其它信息的分割和垂直线段与其它信息的分割上。 本文的边缘检测分为两部分,一部分是水平边缘检测,另一部分是垂直边缘检 测,这两部分的组合构成了整个有效的票据表格框架边缘。由于需要检测的边 缘局部特征比较单一,对细节的要求不高,所以经典的检测算子由于有构造简 单、容易实现、运算量小等优点非常适合本步骤的需要。其中,l a p l a c i a n 算子 作为一种二阶微分算子在图像细节的增强处理方面有明显的优点,但l a p l a c i a n 算子与梯度算子相比会产生更多的噪声。梯度算子在灰度变化的区域( 灰度斜 坡或阶梯) 的响应要比l a p l a c i a n 算子更为强烈,而梯度算子对噪声和小细节的 响应要比l a p l a c i a l l 算子弱,而且可以通过均值滤波器对其进行平滑处理进一步 降低1 。故本文采用了水平s o b e l 梯度算子和垂直s o b e l 梯度算子来分别检测水 4 四川师范大学硕士学位论文 平边缘和垂直边缘。模版如下: 1 ,2 1 oo o 1 2 1 1o1 2o2 1 0 1 ( a )( b ) 图3 ,2 ( a ) 水平s o b e i 梯度算子;( b ) 垂直s o b e i 梯度算子 3 3 1 2 灰度拉伸 在实际运用中,直接使用s o b c l 梯度算子的效果并不太好,特别是对于有 背景图案的票据,背景边缘对票据表格框线边缘的干扰非常大,这时就需要做 灰度拉伸来抑制背景并突出前景。 我们约定前景象素比背景象素的灰度值更小( 更暗) ,记4 y g 为图像的平 均灰度值,r 。、,赫分别为图像前景象素的最大、最小灰度值,曰。、曰。 分别为图像背景象素的最大、最小灰度值。在理想情况下,我们有以下关系式: o f i a v g b m 占。 ( 3 1 ) 在该情况下,我们a v g 是区分前景和背景象素的关键值。但实际运用中我 们发现票据图像中背景象素往往比前景象素多的多,因此( 3 1 ) 式往往变成如下 的关系式: f 哺 曰m a v g 占一 ( 3 2 ) 为了在满足上式的图像中更好地抑制背景,我们首先可以把灰度值属于区 f 司 a v g ,岛嗣的象素归为背景象素,然后把剩下的所有象素的灰度值线性地拉 仲到 0 ,2 5 5 的区间内。 线性灰度值拉伸按下面的线性灰度值映射函数进行: 四川师范大学硕士学位论文 f 2 5 5 c 算 y 2t c ( x l y ) - m n x 望 i f ( c ( x , y ) a v g ) 矿( 删c ( 工,y ) l 时,灰度值映射的权 重偏向较高( 较亮) 的灰度值:当0 p l 时,灰度值映射的权重偏向较低( 较暗) 的灰度值:当p = 1 时,( 3 4 ) 式就是( 3 3 ) 式。即线性灰度映射是非线性灰度映 射的一个特例。 虽然非线性的灰度拉伸在理论上能够最大化地突出前景像素并抑制背景像 素,但由于p 值只能在不同的应用中依靠经验来确定,对于种类繁多、背景差 异较大的金融票据来说,难以找到通用的值,故本文采用线性灰度拉伸。 3 3 1 3 实验结果 通过实验我们发现( 见图3 3 ) ,图像中的垂直边缘被很好的弱化了,同时 1 6 四川师范大学硕士学位论文 水平边缘更加突出,特别是组成表格的水平框线非常地明显,而垂直框线基本 已经消失,不过在水平框线与垂直框线的交叉点出现了线段断裂现象,这是后 面需要填补的。 萋据号码; j ( o 讼赫一”j | 一 亿千l 百 十万i 千 百十兀角分 l ,抛 8 9移秽移。 “ ( a ) , ( b ) 图3 3 ( a ) 原始票据灰度:( b ) 图像水平方向的s o b e f 边缘检测结果 3 3 2 二值化 二值化处理是指将2 5 6 级灰度图像转变成只有黑、白分布的二值图像的工 作。我们利用图像中要提取的目标物与其背景在灰度特性上有差异的特点,将 图像中的物体和背景以明显不同的灰度级区别开。 3 ,3 2 1 常用二值化方法 7 四川师范大学硕:匕学位论文 1 、利用直方图选择阐值 首先求出给定的文字图像的直方图,如果直方图中具有两座明显的山峰分 别对应背景部分和文字部分,可以选择这两座山峰中间低谷处的灰度值作为阈 值。 当文字图像部分与背景的灰度值相差很大时,这样选阐值是适当的。但当 对比度不很大时,因为不能形成明显的波谷,所以无法确定阈值。这时,可以 采用微分直方图法。 微分直方图法的基本思想是考虑到文字图形的边缘部分与背景部分的灰度 值如果有急剧变化,就可以利用灰度的变化率来决定阐值。具体做法如下:设 图像中某点象素具有灰度值s ,计算与该象素相邻的8 个象素的灰度值与该象 素的灰度值的差的最大值,或计算各个差的绝对值的和,求出给定图像中的具 有灰度值s 的所有象素的微分值的和,当s = 1 时,可以作出各个灰度值的 微分分布。则微分值最大的灰度值就是最佳闽值。 2 、最大方差阈值设定法 假设阈值t 将灰度值分为两组,一组对应于背景部分,一组对应于框线和 文字部分,则这两组灰度值的组内方差应当最小,两组自j 的方差应当最大。即 基于两组问最佳分离来决定阈值。最大方差法可以应用在图像中任意灰度区间 内的像素分类。 设氕p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论