




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
银行票据自动识别系统摘要 摘要 票据类文档是较为常见的一类文档,其中,银行票据又是应用范围最为广泛的的一种。 目前,大量的银行票据仍然由人工进行处理,包括用户信息、金额的提取等等,浪费了大 量的人力物力,并且容易出现错误,所以实现银行票据的自动化处理已经成为各火银行一 项非常迫切的任务。随着o c r 技术的日益完善,银行票据识别逐渐成为了该领域内关注 的焦点。 本文论述了银行票据自动识别系统的构造过程,并且完整实现了一个银行票据自动识 别系统,用以提取用户信息,如:姓名、地址、邮编等。本文针对银行票据版面的特点将 聚类方法应用于连通体序列的提取中,并且使用了自然语言理解技术对文档版面结构进行 理解,最后使用字典匹配进行拼写检查的方法以提高识别精度。测试结果表明该系统具有 很高的性能,完全达到了实际应用的要求。 本文设计的方法还可应用于类似的票据处理中,如航空票据、交通票据等。 关键词;票据识别,版面分析,聚类,信息抽取,自然语言理解 银行票据自动识别系统 a b s t r a c t a b s t r a c t b i l l sa l ep o p u l a rd o c u m e n t s i nw h i c hb a n kc h e c k sa r e p r o b a b l yt h em o s tw i d e s p r e a d n o w a d a y s ,t h eg r e a tb u l ko ft h e m i ss t i l lp r o c e s s e dm a n u a l l yb yh u m a n o p e r a t o r s ,w h i c hw a s t e s m o l el a b o ra n dh u m a nl e s o b l c ea n dm a yb r i n g m a n ye l t o r s ,s oi t i s i m p o r t a n tf o rb a n k st o i m p l e m e n tt h e a u t o m a t i o no fb a n kc h e c kp r o c e s s i n g b e c a u s eo ft h ee v o l v e m e n to fo c r t e c h n i q u e ,m o r e r e s e a r c hf o c u s e so nt h ea u t o m a t i o no fc h e c kr e c o g n i t i o ni nr e c e n ty e a r s t h i sp a p e rd e s c r i b e st h em e t h o da n dm e c h a n i s mt oc o n s t r u c tac h e c k r e c o g n i t i o ns y s t e m a p r a c t i c a lc h e c ka u t o p r o c e s s i n gs y s t e mi sd e s i g n e da n di m p l e m e n t e di nt h i sp a p e r t h i ss y s t e m c a ne x t r a c tp a t r o nd a t as u c ha sn a m e s ,a d d r e s s e sa n dz i pc o d e sf r o ms c a n n e di m a g e so fu s c h e c k s a i m i n g a tt h el a y o u to fc h e c k d o c u m e n t s ,c l u s t e r i n gm e t h o d s a r eu s e dt oe x t r a c tl i n e st o l o c a t et h et e x ta r e a s ,a n dn a t u r a ll a n g u a g eu n d e r s t a n d i n g t e c h n i q u ei sa l s oa p p l i e dt ou n d e r s t a n d d o c u m e n tl a y o u ts t r n c t u r e f i n a l l y , l e x i c o n so fn a m e sa n dz i pc o d e sa r eu s e df o rs p e l l i n gc h e c k t oi m p r o v et h er e c o g n i t i o nr a t e t h i ss y s t e mw h i c hh a sb e e nt e s t e di se f f i c i e n te n o u g ht ob e a p p l i e di nb u s i n e s se n v i r o n m e n t m o r e o v e r , t h et e c h n i q u ed e s c r i b e di n t h i sp a p e rc a nb ea p p l i e dt oo t h e rb i l l sp r o c e s s i n g d o m a i n s ,s u c ha sa v i a t i o nb i l l s 。t r a f f i cb i l l s ,e t c k e y w o r d s :c h e c kr e c o g n i t i o n ,l a y o u ta n a l y s i s ,c l u s t e r i n g ,d a t ae x t r a c t i o n ,n a t u r a ll a n g u a g e u n d e r s t a n d i n g 银行票据自动识别系统 引言 第一章引言 当前,随着金融机构业务的快速发展,银行每天都将产生大量需要处理、保存的各种 票据,这些票据记录着银行业务往来的各种业务数据,作为重要的书面凭证,票据必须要 经过事后监督,经核实无误后方能保存,其保管年限又有强制规定。这种传统的方式具有 很多弊端,例如: 1 ) 所有票据凭证均以分散式管理、存储,每个分支业务点、业务部门都有自己的票据 仓,占用办公空间,实际上增加办公费用。 2 ) 以纸张作为存储介质,票据缺乏安全备份。一旦出于种种原因票据损坏或丢失,将 造成难以补救的损失。 3 ) 各部门手工从文件堆里调阕客户查询,费对费力,影响效率和服务质量,段时阊 后,票据不能在本地查询,要到很远的票仓查询,更增加查询麻烦。 4 ) 票据查询后,又很难在成堆的票据中找到原来的位鼍将票据放回。如果归档发生错 误,将为再查询制造困难。票据查找时要拆开装订后再装订好,这样的过程对票据损害会 很大。 因此建设“集中、统一、规范、高效”的电子化票据处理中心。己成为银行亟待解 决的问题。 1 1 银行票据自动识别系统的提出 随着当前多媒体、网络、数据库等各方面技术日新月异的发展,使得银行票据的电子 化管理成为可能。目前国际上普遍采用的方式是将票据扫描成数字图像存储在服务器、光 盘、海量存储器等数字媒体中,同时将票据上的重要信息人工录入到系统数据库中以便网 络检索、查询及调阅。这种大众化的方式虽然是对过去银行工作模式的一种划时代的革新, 但是其中的人工录入环节却浪费了大量的时间程人力,工作效率低下,雨且手工操作难免 由于精神状况不佳,造成人为的差错,这将带来不必要的经济损失,同时也面临了极大的 业务风险。利用模式识别中的o c r 技术可以高效的解决这个问题,这就是银行票据的自 动识别。该技术自动将银行票据的数据和文字转化为计算机可以处理的信息代码,部分或 全部代替票据人工输入的方式。 银行票据自动识别系统在商业银行有非常大的实用价值,并且容易在其它领域中得到 转化应用,有大量的潜在用户和非常好的市场前景。利用o c r 技术,可实现银行柜台业 务、后台稽核业务中对各种会计票据的票面要索资料的自动审核,也可应用于国际结算、 l 银行票据自动识别系统引言 保险、海关、税务中各种单据中各种要素资料的审核及提取,同时可利用o c r 技术完成 各种票据、文件、单据的数字化影像索引值的自动建立。以下便是银行票据自动化处理系 统的构成。 图1 - 1 银行票据自动化处理系统 从图1 1 可以看出票据自动识别系统是票据自动化处理系统中必不可少的一个重要环 节,识别系统效率的高低直接影响到整个票据处理系统的性能,因此如何设计出高效的 o c r 系统便成为整个系统的关键所在。 1 2 银行票据自动识别系统综述 从以上的分析中我们可以看出,银行票据自动识别系统是整个银行票据自动化处理系 统的最关键部分,也是模式识别和图像处理的重要研究领域。随着模式识别研究的不断深 入以及日益增长的商业需求,银行票据识别成为领域内关注的焦点。 银行票据自动识别系统属于文档图像处理系统的一个重要分支,通常我们将文档处理 系统分为通用系统( g e n e r a lp u r p o s es y s t e m ) 和专用系统( t a s ks p e c i f i cs y s t e m ) a 专用系 统是针对特定的文档而设计的,票据自动识别系统就是一种专用系统。另外常见的专用系 统还有:表单阅读系统,名片处理系统,邮件处理系统等。该类系统的特点是: 1 ) 吞吐量大,因为系统面临的常常是大量的文档,为了提高处理速度,系统常常带有 专用的硬件设备以获取需要处理的图像区域。 2 ) 识别精度高,由于专用系统所处理的文档字体都比较有限,格式也比较固定,有的 2 银行票据自动识别系统 引言 系统能同时识别印刷体字符和手写体字符。 3 ) 因为文档类型比较固定,可以比较准确地对文档建立模型,从而获取关于文档的先 验知识,因此对文档的理解程度高。 y 3 # t ,该类系统常常提供简便易用的用户界面,使用户能对识别结果进行校对。 图1 - 2 银行票据自动识别系统的流程 一个典型的银行票据识别系统由以下一些功能模块构成。 1 ) 预处理 该模块的功能主要包括去噪声,二值化,倾斜校正等。这些功能主要通过图像处理的 算法来实现。 2 ) 版面分析 该模块需要识别出图像中的不同对象并将其与图像其他部分分割开。同时,该模块生 成一个描述文档图像的层次结构:几何结构。它描述了组成文档图像的对象的属性、大小、 位置等几何信息。通常该结构以树或链表的形式存在。银行票据版面分析主要工作是实现 待识别区域的定位工作。 3 ) 文档理解 银行票据自动识别系统 引言 该模块处理版面分析的结果,对版面内图形、图像信息和结构关系进彳亍识别和理解。 在文档图像处理系统中,该模块比较复杂,至今仍未得到较好的解决,但在银行票据识别 系统这种特定的应用中,文档理解却可以达到非常高的层次,具体内容本文将在后续的章 节中详细介绍。 4 ) o c r 引擎 该模块实现字符自动识别。 5 ) 后处理与信息抽取 该模块主要采用一些方法提高识别精度,将识别最终结果抽取出来提交给上一级系统。 银行票据自动识别系统的流程如图l 一2 所示。 1 3银行票据识别领域的发展现状 由于票据识别领域的固有特点,单纯使用传统的版面分析方法并不能达到很好的效果。 在o c r 技术蓬勃发展的今天,不断有专家提出新的方法解决票据识别的特定问题,这也 使得该领域内的理论不断完善。在国外,票据识别研究大多集中在支票识别方面,而国内 对于表格式票据( 如存款单、取款单) 研究较多,这也是国内外银行业务差别的缘故。以 下是国内外在银行票据识别领域内的一些研究成果。 n g o r s k i 等人研究开发了一个支票阅读机( a 2 i ac h e c kr e a d e r ) 。该系统能够对美国、 法国和英国的支票,借贷单据,国际银行文档等进行识别,提取其中的金额,包括数字金 额( c o u r t e s ya m o u n t ,例如$ 3 4 5 ) 、文字金额( 1 e g a la m o u n t ,例如f o r t y t h r e e d o l l a r s ) 。 s d j e z i r i 等人将填写后的支票与空白支票的模板求差值,通过这种方法将支票中的 水平线条和背景滤除,然后再对图像进行连通体分析。 l u i zs o l i v e i r a 等人吲认为s d j e z i r i 方法并不适用于巴西银行的支票识别,因为在巴西 的2 5 0 多家银行中,每家银行的支票至少都有三种背景和格式,要想用支票的模板匹配实 现非常困难,作者在本文中设计了读取空白支票的识别方法。 h a n se g r a f 等人【4 1 提出了一种方法处理含有大量噪声的银行票据图像;另外许多文献 都提出了识别票据中手写字符的方法【5 】 6 1 。 在国内,票据识别研究主要集中在表格处理方面,有些文献7 f 剐主要通过版面分析用于 抽取表格内的手写金额;还有文献吲通过表格分析用以抽取表格内的各种信息。 1 4本文的研究内容及结构安排 本文分析和论述了票据自动识别系统的构造过程,并以银行票据中最为常见的票据类 4 银行票据自动识别系统引言 型银行支票为例实现了一套完整的票据自动识别系统。 通过前文的介绍可以看出目前国际上的许多文献主要讨论票据中的手写字符的提取和 识别问题,但是因为脱机手写字符识别技术本身的难度,目前离实际的系统应用还有较大 的距离。同时我们发现,票据中大量的个人信息都是打印上去的,准确识别并抽取这些信 息对票据自动处理有着非常重要的意义。本文论述的系统便主要实现了这些功能。 后续个章节的安排如下:第二章介绍了票据版面预处理,主要包括二值化、倾斜校正 等;第三章介绍了版面分析的一些方法和票据版面分析的难点,并采用连通体分析、聚类 等多种方法实现了目标区域的定位:第四章介绍了票据文档理解的方法,并提出了一套票 据信息抽取的方案;第五章是分析了系统的测试结果,提出了系统存在的一些不足并对进 一步的工作进行了展望。 银行票据自动识别系统票据版面的预处理 2 1 = 值化处理 第二章票据版面的预处理 银行票据要想输入计算机中,首先要通过扫描仪扫描成数字图像。扫描后的得到的图 像可能是彩色、灰度或者二值的,这取决于扫描时选项的设定。由于许多文档处理的算法 都是以黑白二值图像作为处理对象的,所以二值化便成为预处理中一个重要的环节。把一 幅彩色或者灰度的多值图像转变为黑( 前景部分) 、白( 背景部分) 分布的二值图像的过 程叫做二值化。 2 1 1 基本概念 二值化处理是将图像中象素的灰度值与一阙值相比较而完成的,具体过程如下。 邝= 住怒羔 在上面的公式中,t 称为二值化阈值。当图像i j 点象素灰度值f ( i j ) = t 时,我们将该点 象素值赋为1 ,表示该点为图像的文字或图形部分:当图像i j 点象素灰度值f ( i j ) t 和d ,: t ,则建立第三个 聚类中心z ,:否则,屯最近邻的聚合中心:依此类推,直到把所有的n 个样本都进行了 分类: 按照某种聚类准则考察聚类结果,若不满意,则重新选取距离闽值t 和第一个聚合 中心z ,返回;直到满意时,算法结束。 2 ) 最大最小距离聚类算法 这是另一种简单的试探性算法,它以试探类问距离为最大作为预选出聚类中心的条件, 以图3 一l l 为例说明其算法步骤: 银行票据自动识别系统版面分析与区域定位 图3 - 1 1 最大最小距离聚类算法示例 给定口,0 0 1 9 1 2 ,则建立第 四个聚合中心:依此类推,直到最大最小距离不大于6 d :时,结束寻找聚合中心的计算: 在图中,只存在三个聚合中心,即z 。= x 。,z := x 。和z ,= : 按照最近原则把所有样本归属于距离最近的聚合中心,在图中i x 。,x ,x 。) z 。, ( x 2 x 6 z 2 , 互5 ,x 7 ,工b ,x 9 ,工i o ) z 3 : 按照某种聚类准则考察聚类结果,若不满意,则重新选取距离阈值t 和第一个聚合 中心z ,返回:直到满意时,算法结束。 在样本分布一定的情况下,这两种聚类算法的结果在很大程度上取决于第一个聚合中 ” 银行票据自动识别系统 版面分析与区域定位 心的选取和距离阈值的大小。这两种算法的突出优点是简单。如果我们具有样本分布的先 验知识,用来指导阈值和起始点的选取,可较快地得到合理的结果。但是对于高维空间的 样本集来说,要做到这一点比较困难,只有多次选取进行试探,并且对聚类结果进行验算, 从中选择最优的聚类结果。 3 4 4 3 本系统所采用的聚类方法 本系统聚类分析要处理的对象是页面滤噪及合并后的文本行。通过观察大量的滤噪合 并后的文本行的分布状况,可以看出待定位的区域内文本行比较类似,分布比较密集,而 区域外文本行则较为稀疏,因此在聚类过程中,将文本行的密集程度考虑进去是非常必要 的。所以对每个文本行l f ,我们定义其特征向量为只( 工,y ,z ,c o u n t ) ,其中x ,y ,z 表示 文本行l 本身具有的特征,如高度、宽度、密度等,c o u n t 用来计算与其相似并且相邻的 文本行个数,该特征体现了厶附近文本行的密集程度。聚类过程如下: 1 ) 对每个文本行厶,计算c o u n t i 值,计算方法如下: i c o u n t 。+ l ,f u n a ( 厶,l ,) ”l ”,”g ”一 9 ,”l 一 ”1 一”。更正后邮编域的 准确率有了很大的提高,但还是不能保证完全正确,所以我们采取了以下的策略。 1 ) 如果能够抽取5 位数字的z i p c o d e ,那么就与z i p c o d e 字典进行匹配来确定c i t y 和 s t a t e ,匹配失败转入2 ) ; 2 ) 如果不能够抽取5 位数字的z i p c o d e ,那么由c i t y 和s t a t e 与字典匹配确定z i p c o d e : 匹配失败转入3 ) : 3 ) c i t y 、s t a t e 分别与c i t y 字典和s t a t e 字典匹配。匹配失败对原c i t y 和s t a t e 不予处 理。以下是邮编的匹配算法: p c i t y l n f o 为p c i t y 中各位字符的可信度串,由o ,1 组成; b o o lz i p c o d e m a t c h ( c h a r 8p c i t y , c h a r 4p c i t y l n f o , c h a r + p s t a t e ,c h a r + p z i p c o d e ) ( b o o ls t a t u s ; i f ( p z i p c o d e 五位串全是数字) ( s t a t u s = z i p c o d e m a t c h l ( p c i t y , p s t a t e ,p z i p c o d e ) ; i f ( s t a t u s ) r e t u r nt r u e ; 3 9 银行票据自动识别系统票据文档理解与信息抽取 ) s t a t u s = z i p c o d e m a t c h 2 ( p c i t y , p c i t y l n f o ,p s t a t e ,p z i p c o d e ) i f ( s t a t u s ) r e t u r nt r u e ; s t a t u s = c i t y m a t c h ( p c i t y , p c i t y l n f o ) ; r e t u ms t a t u s ; b o o lz i p c o d e m a t c h l ( c h a r + p c i t y , c h a r 4p s t a t e ,c h a r + p z i p c o d e ) i “字典中不存在该p z i p c o d e ) r e t u r nf a u l s e ; e l s e i f ( 字典中p z i p c o d e 对应的s t a t e 值与p s t a t e 一致) 将查找到的c i t y 值赋给p c i t y ; r e t u r nt r u e ; ) e l s e r e t u mf a l s e ; ) z i p c o d e m a t c h 2 ( c h a r 8p c i t y , c h a r + p c i t y l n f o ,c h a r + p s t a t e ,c h a r + p z i p c o d e ) i f ( p c i t y 和p s t a t e 同时匹配成功) 将字典中c i t y 的值赋给p c i t y : 将字典中z i p c o d e 的值赋给p z i p c o d e ; r e t u r nt r u e ; ) e l s e r e t u r nf a l s e ; 关于两个地址域的抽取因为每个地址行对应一个地址域,所以不存在域的划分问题 所以系统只是简单的将地址行的内容抽取出来作为地址域的内容。 本系统采用的字典匹配方法效果非常显著,系统的识别率有了较大的提高,具体效果 如图4 1 0 所示。 h r v e y s w l d m a n m y r i mw a l d m n 3 14p e n nc e n t e rh o u s e 9 0 0j f k 日l v d 蕾 p 19 10 3 醢霜蕊墅显嚣饕蕾基。瓣7 ,篇r u l c l m ,8 鐾嚣霉 罡芋 岳品型口 衄 图4 - 1 0 使用字典匹配法提高识别率 4 0 银行票据自动识别系统系统性能评测与展望 第五章系统性能评测与展望 5 1系统测试环境与测试数据准备 本系统的开发环境是v c 6 0 ,运行环境是赛扬1 g ,2 5 6 m 内存。 测试数据是由美国红 | 字会提供的2 3 6 8 页二值票据样张,分辨率为2 4 6 4 3 5 0 7 象素。 5 2实验结果与分析 以下是系统最后的处理结果示例: i 霞匝强霾图如厦d 藏善菌圈匕二 囤匝i 面团 区五瓯口 f 二 二 e = 3 e = e = 了 。 ! 瞄亩蕴霞厦嗣一氲d 画面蔚豆 二 i i 二 i i 匣r e e 蛋蜀王田日 r a i ga n y m a n 1 - 0 1 , 犀u s a n na nl 露嚣昌四h y m 幽a n 昌jl 巨u 若鱼n l 臣 l j 1 1 1 5c a l l e r yw a yl :晒工豇工誓匝玉亚习 - 慷牲山业日田乩j 强l _ _ 1 盟2 i _ _ ji l _ j l 旺珂 日至匦圊田 l 圆团噩口飘盈百盈圄 二 二 i 曙躁二盈圈瞳面= 卫磕e 团墨匹【 圈 1 e 皿口卫圆田墨圈吧母。卫旺口 l 一廷娶蛋g 匹圆圆凰固 圈5 - 1 系统处理结果演示 我们对2 3 6 8 页样张进行了测试,测试结果如下: 1 ) 字符级识别情况 2 3 6 8 页样张中1 4 个域共包括字符数1 2 2 0 0 8 ,其中误识字符数为1 1 5 4 2 ,识别率9 0 5 4 4 l 譬 银行票据自动识别系统 系统性能评测与展望 2 ) 信息域级识别情况 对2 3 6 8 页样张进行测试结果如下: 表5 - 1 测试结果统计 信息域 f i r s t n a m e lm i d d l e n a m e ll a s t n a m e ls u f f i x la d d r e s sl 错误数 2 5 32 3 73 9 78 79 9 4 识别率 8 4 0 7 8 5 0 8 7 5 o l 9 4 5 2 3 7 4 4 ( a ) 信息域 f i r s t n a m e 2m i d d l e n a m e 2l a s t n a m e 2s u f f i x 2a d d r e s s 2 错误数 1 5 51 9 41 9 63 l1 0 5 识别率 9 0 2 4 8 7 7 9 8 7 6 6 9 8 0 4 9 3 - 3 9 ( b ) 信息域c i t y s t a t e z i p c o d e a c c o u n t n t l mt o t a l 错误数 4 0 78 02 0 403 3 4 0 识别率 7 4 3 8 9 4 9 6 8 7 1 6 1 0 0 8 4 9 8 【c ) 由以上的测试数据可以看出a c c o u n t n u m 识别率达到1 0 0 ,这是因为a c c o u n t n u m 是 扫描后打印到图像上的;s t a t e 识别率很高,达到9 4 9 6 ;域内单词长度越长,识别难度 就越大,字典匹配又不能完全解决问题,所以识别率低,这就造成了f i r s t n a m e ,m i d d l e n a m e , l a s t n a m e ,a d d r e s s ,c i t y 的识别率低些:由于a d d r e s s 域中字母数字符号相混杂,又没 有固定格式,我们没有采用相应的提高识别率的方法,所以识别率只有3 7 4 4 :( b ) 中域 识别率普遍高于( a ) 中相应域的识别率,这是由于( b ) 中的域可能不存在,如果判定正确,那 么就认为这些域为空,此时识别率为1 0 0 :s u f f i x 识别率很高是因为其出现机会较小, 长度较短,另外,取值范围也有限,很容易通过字典匹配的方法确定。 5 3 不足与展望 本文主要论述了银行票据识别系统构造过程,并以银行票据中最为常见的银行支票为 例实现了一套自动识别系统。银行票据的格式和种类是千变万化的,该系统不可能适用于 所有的情况,但是本文提出的设计思想可以应用于许多方面的票据识别中,如航空票据、 交通运输票据等,应用前景是非常广泛的。 本系统在地址识别方面还有所欠缺,可以考虑建立地址字典或地址常用词语字典,使 4 2 银行票据自动识别系统 系统性能评测与展望 用字典匹配的方法提高识别率。另外,研究票据内的手写字符识别也是很有意义的,因为 票据中的金额也是非常重要的信息,并且相对于其他手写体的文字信息,数字信息较为容 易提取,具有实际的应用价值。同时对于票据中用于校验的信息码也要进行研究,可以用 于票据的安全验证。 银行票据自动识别系统 参考文献 参考文献 1 】n g o r s k i ,va n i s i m o v ,e a u g u s t i n ,o b a r e t ,d p r i c e ,j - c s i m o n ,“a 2 i ac h e c kr e a d e r : a f a m i l yo fb a n kc h e c kr e c o g n i t i o ns y s t e m s ”,聊hi n t e r n a t i o n a lc o n f e r e n c eo nd o c u m e n t a n a l y s i sa n dr e c o g n i t i o n ,s e p t e m b e r1 9 9 9 ,p p 5 2 3 5 2 6 2 】s d i e z i r i ,f n o u b o u d ,r ,p l a m o n d o n ,“e x t r a c t i o no fi t e m sf r o mc b e c k s ”,4 t hi n t e r n a t i o n a l c o n f e r e n c ed o c u m e n ta n a l y s i sa n dr e c o g n i t i o nf i c d a r ,9 7 ) ,、b 1 1a n dv b l 2 ,a u g u s t1 9 9 7 , p p 7 4 9 7 5 2 3 o l i v e i r al s a n db o r t o l o z z if ,“m o r p h o l o g i c a la p p r o a c hf o rt h ep r e p r i n t e di n f o r m a t i o n e x t r a c t i o no fb r a z i l i a nb a n kc h e c k s ”,i n t e r n a t i o n a lc o n f e r e n c eo ni m a g i n gs c i e n c e ,s y s t e m s , a n dt e c h n o l o g yf c 琊r 2 0 0 0 ) ,v o l _ l ,p a g e s2 7 7 2 8 2 ,l a sv e g a s u s a ,c s r e ap r e s s ,2 0 0 0 , j u n e2 6 2 9 4 】h rg r a f ,cj c b u r g e s ,ec o s a t t o ,c r n o h l ,“a n a l y s i so fc o m p l e xa n dn o i s yc h e c k i m a g e s ”,1 9 9 5i n t e r n a t i o n a lc o n f e r e n c e o ni m a g e p r o c e s s i n g ,v 0 1 3 ,o c t o b e r1 9 9 5 ,p p 3 1 6 - 3 1 9 5 】a k o e r i c h ,l l i n g ,“as y s t e mf o ra u t o m a t i ce x t r a c t i o no ft h eu s e r - e n t e r e dd a t af r o m b a n k c h e c k s ”,i n t e r n a t i o n a ls y m p o s i u mo nc o m p u t e rg r a p h i c s , v i s i o n a n d i m a g ep r o c e s s i n g , j a n u a r y1 9 9 8 ,p p 2 7 0 2 7 7 6 a a g a r w a l ,k h u s s e i n ,a g u p t a ,a n d e s pw a n g ,“d e t c t i o no f c o u r t e s ya m o u n t b l o c ko n b a n kc h e c k s ”,j o u r n a l o l e l e c t r o n i ci m a g i n g ,v 0 1 5 ( 2 ) ,1 9 9 6 ,p p 2 1 4 2 2 4 7 】杨颖,杨磊,“票据自动识别录入系统”,计算机工程与应用2 0 0 4 1 6 ,2 0 0 4 , p p 1 5 7 1 5 8 8 庞韶宁,李介谷,“票据识别系统数据获取过程研究”,计算机工程,第2 3 卷,1 9 9 7 年1 2 月,p p 2 8 7 2 8 9 9 胡恒兴,张铮,冯刚,“应用o c r 技术的金融票据处理系统”,计算机与数字工程,第3 0 卷,第4 期,2 0 0 2 ,p p 2 9 3 2 , 【1 0 k e n n e t hr c a s t l e m a n ,“d i g i t a li m a g ep r o c e s s 丑呵g ”,p r e n t i c e h a l lp m 黜c o m p a n y , 清华大学出版社,北京,1 9 9 6 ,p p 7 6 【11 o i v i n dd u et r i e r , a n i lk j a i n ,“g o a l d i r e c t e de v a l u a t i o no fb i n a r i z a t i o nm e t h o d s ”,i e e e t r a n s a c t i o n so np a t t e r n a n a l y s i sa n dm a c h i n ei n t e l l i g e n c e ,v 0 1 1 7 ,n o 1 2 ,1 9 9 5 ,p p 1 2 】e k s a h o o ,s s o l t a n i ,a k c w o n g ,y c c h e n ,“a s u r v e y o ft h r e s h o l d i n gt e c h n i q u e s ”, c o m p u t e rg r a p h i c s ,v i s i o na n di m a g ep r o c e s s i n g ,1 9 8 8 ( 4 1 ) ,p p 2 3 3 2 6 0 【1 3 】吴全,朱兆达,“图像处理中灰度级阈值选取方法3 0 年( 1 9 6 2 1 9 9 2 ) 的进展( 一) ”,数据采 集与处理,1 9 9 3 ,8 ( 3 4 ) ,p p 1 9 3 2 0 1 【1 4 n o b u y u k io t s u ,“a t h r e s h o l ds e l e c t i o nm e t h o df r o m g r a y l e v e lh i s t o g r a m s ”,i e e e t r a n s o n s y s t e m s ,m a n ,a n dc y b e r n e t i c s ,v 0 1 s m c 一9 ,n o 1 ,1 9 7 9 ,p p 6 2 6 6 1 5 】潘武模,“模型序列方法与文档版面结构理解”,南开大学博士论文,2 0 0 1 ,p pl l 1 2 1 6 】阮秋琦,“数字图像处理学”,电子工业出版社,北京,2 0 0 1 ,p p 4 1 7 4 1 9 1 7 】r y u ,s k a n ga n ds l e e ,“p a r a m e t e r - i n d e p e n d e n tg e o m e t r i cd o c u m e n tl a y o u ta n a l y s i s ”, p r o c 1 5 t hi n t c o n f o np a r t r e c o g ( i c p r ) ,v 0 1 4 ,2 0 0 0 ,p p 3 9 7 4 0 0 , 【1 8 】l i a n g ,j ,h a ,j ,h a r a l i c k ,r m ,p h i l l i p s ,i t 。“d o c u m e n tl a y o u ts t r u c t u r ee x t r a c t i o n u s i n gb o u n d i n g b o x e so fd i f f e r e n t e n t i t i e s ”,p r o c e e d i n g s3 r d i e e e w o r k s h o p o n a p p l i c a t i o n s “ 堡! ! 矍型皇塑堡型墨竺 叁耋苎壁 o f c o m p u t e rv i s i o n ,1 9 9 6 ,p p 2 7 8 2 8 3 1 9 】d d r i v a sa n da a m i n ,“p a g e s e g m e n t a t i o n a n dc l a s s i f i c a t i o n u t i l i s i n gb o t t o m u p a p p r o a c h ”,p r o c t h i r di n t ,c 0 衫d o c u m e n ta n a l y l y s i sa n dr e c o g n i t i o n , m o n t r e a l ,1 9 9 5 ,p p 6 1 0 6 1 4 2 0 】a a z l a t o p o l s k y ,“a u t o m a t e dd o c u m e n ts e g m e n t a t i o n ”,p a t t e r nr e c o g n i t i o nl e t t e r s ,v 0 1 1 5 1 9 9 4 ,p p 6 9 9 7 0 4 2l 】a ,s i m o n ,j e a n - c h r i s t o p h ep r e t ,a n da p e t e rj o h n s o n ,“af a s ta l g o r i t h mf o rb o t t o m u p d o c u m e n tl a y o u ta n a l y s i s ”,i e e et r a n s o np a t t e r na n a l y s i sa n dm a c h i n e i n t e l l i g e n c e ,v 0 1 1 9 ,n o 3 ,m a r c h1 9 9 7 ,p p 2 7 3 2 7 7 【2 2 1w u m op a n ,q r 。w a n g ,“g u i d e l i n e sf o rc r e a t i n gar u l e b a s e dk n o w l e d g el e a r n i n g s y s t e ma n dt h e i ra p p l i c a t i o nt oac h i n e s eb u s i n e s sc a r dl a y o u ta n a l y s i ss y s t e m ”,j o u r n a lo f c o m p u t e r s c i e n c e a n d t e c h n o l o g y ,v 0 1 1 6 ,n o 1 ,j a n 2 0 0 1 ,p p 4 7 5 6 【2 3 】史广顺,“文档图像中表格结构的自动定位与分析”,南开大学博士论文,2 0 0 3 ,p p 、1 9 , 2 4 】李金宗,“模式识别导论”,高等教育出版社,北京,1 9 9 4 年7 月,p p 2 9 4 3 5 2 f 2 5 】g e o r g en a g y , t w e n t yy e a r s o fd o c u m e n t i m a g ea n a l y s i si np a m i ”,i e e et r a n s a c t i o n s o n p a t t e r n a n a l y s i s a n d m a c h h z e l n g e t l i g e n c e ,v 0 1 2 2 ,n o 1 ,j a n u a r y2 0 0 1 ,p p 3 8 6 2 2 6 】s m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 采购成本控制策略制定指南
- 一年级书信给老师的一封信150字7篇范文
- 早期阅读小鸟和大树课件
- 市场推广和联合营销合同书内容
- 人类请高抬贵手700字(12篇)
- 2025年日语J.TESTT级试卷
- 早孕健康知识培训课件
- 2025年三支一扶考试公共基础知识备考与模拟试卷
- 纪委监督检查知识培训课件
- 清华中学数学试卷
- 肿瘤患者有效沟通技巧
- 医院科室停电应急预案
- 2025-2030中国工业用地开发与产业升级分析报告
- 2025年教育学家教学理论考试试题及答案解析
- 2025年医疗器械不良事件培训考试试题(有答案)
- 第1课 互联网和物联网 课件 2025-2026学年七年级下册信息技术浙教版
- 信息技术在课堂教学中的应用
- 江苏省宿迁市沭阳县如东实验学校2024-2025学年七年级下学期期末数学试卷(含答案)
- 项目初步验收汇报
- 2025年湖南省高考真题卷政治和答案
- 混凝土防暴墙拆除方案(3篇)
评论
0/150
提交评论