银行票据自动处理五_第1页
已阅读1页,还剩2页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

银行票据自动处理五

1ocr子系统orc技术是光学文本识别的缩写。它通过扫描和其他光学输入方法将不同的发票、报纸、书籍、手稿和其他印刷品的文本转换为图像信息,然后使用文字识别技术将图像信息转换为计算机输入技术。由于其应用前景广泛,在应用领域有着重要的意义。随着经济的迅猛发展,金融系统每天都要处理成千上万的银行票据。在自动化程度越来越高的今天,实现银行票据自动处理也成为必然趋势。OCR子系统是银行票据自动处理系统中的核心。它需要完成的工作有:凭证票面要素如大写金额、小写金额、日期、帐号等的识别,并进行稽核;检查大小写金额一致性及签发日期的有效性等。2日期后处理算法的研究首先,作为银行的一个应用领域,涉及到的都是和支票、数据之类的一些票据,所要识别的都是和经济挂钩的一些数据,因此对识别结果的精度要求很高。拿系统指标来衡量,误识率的要求相当严格,理论上要求误识率趋近于0,这就为识别系统的后处理提出了较高的要求,即要求有过硬的手段对识别结果进行判别并具有一定的纠错能力。根据这个特点,研究开发了日期后处理算法,并开始了对可信度的研究。其次,由于识别要素仅局限于票据上的金额、日期、帐号,因此识别字符集小就成为此识别系统另一项比较重要的特点:汉字识别仅仅局限于数字的大写汉字零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾和金额的单位诸如万、亿等共22个汉字。识别对象少了,识别速度无疑提高不少。同时,针对不同汉字对识别算法进行细化的想法也比较容易付诸实践,而不用担心程序的运行速度问题。第三,银行票据种类繁多,其版式、底纹色彩等识别要素都不尽相同,因此对预处理部分的二值化、切割等技术提出了较高的要求。由于二值化和切割是整个识别系统的最前期工作,因此预处理算法的好坏,将直接影响整个系统的性能。因此选择合适的切割与二值化的程序至关重要。3银行费用oc处理参照文献,OCR在银行票据识别中主要包括以下几个部分。3.1值化编码编码本部分可进一步细分为要素定位、二值化、切割、文字归整几个部分。由清分机或者高速扫描仪扫入的原始票据经过本部分的处理,其识别要素如金额、日期按照单个汉字分别被存储为汉字点阵,其中手写体大写汉字、印刷体大写汉字以及印刷体小写数字,被存储为64*64的点阵,而手写的小写数字被存储为96*80的点阵,然后对此汉字点阵进行字符识别处理。由于某些种类的票据中,即便为同一张票据,其各要素的背景噪声都不相同,所以对各不同要素区域采用了不同的二值化方法。在切割完成之后,各要素已经成为单独的字符点阵,文字归整则是针对单个字符点阵进行。票据上的金额、日期、帐号等都分别要经过上面的流程处理。3.2系统的别要素识别按照识别系统所要识别的字符种类来分,本系统需识别的文字有:印刷体汉字、印刷体数字、手写体汉字、手写体数字。按照识别要素,系统包含日期识别、金额识别、帐号识别、磁码识别几个不同模块。本系统对汉字识别采用了模板匹配方法,对数字识别采用了人工神经网络方法。模板匹配的基本原理是抽取未知文字的特征与事先存储好的标准的文字特征进行匹配,在一定的距离或相似度测度下,找出与未知文字的特征匹配得最好的标准特征,将该标准特征所代表的文字作为未知文字的识别结果。3.3在训练样本中的应用训练是识别的基础,标准特征的好坏直接影响到识别结果,选取具有代表性的样本作为训练样本。训练前先将样本按一定的顺序存放起来,训练样本也是64*64的点阵。与识别部分的特征抽取相对应,训练部分的特征抽取也是在对文字图像进行规整和分割基础之上进行的。抽取的标准特征是每个汉字不同的样本的特征值的平均值,还抽取了每个汉字的标准方差,方差记录了每个字的离散度。标准特征和标准方差在识别过程中都有很重要的作用。3.4编码算法的比较首先,改进汉字识别算法,必须充分考虑即将要开发的识别算法所要面对的识别对象与原有算法所面对的识别对象之间的区别。原算法是面对变形较大、笔划比较稠密的手写汉字,而所开发的算法面对的是字形比较固定、笔划比较稀疏的小写数字,相对来讲,识别对象简单了很多。而且识别字符集也小了不少,由原来的3755个汉字变为简单的十个数字,1,2,3,4,5,6,7,8,9,0,不过其中相似字仍然存在,如5和6,3和8;其次是识别要求上的变化,识别率由原来的手写汉字的识别率要求基本达到100%。3.5日期识别的提高由于支票上面印章对日期区域的污染,造成此区域二值化与切割的困难,从而致使日期识别的识别率不尽如人意。从系统的开发之初,日期识别就是识别系统性能提高的瓶颈所在。在提高预处理算法性能的同时,开发合适的日期后处理算法无疑是提高系统性能的一个捷径。日期部分的识别字符集只包含下列十一个大写汉字:零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾,小字符集的特点加上日期语法规则的限制,使得日期部分的排列组合的种类少了很多,还使后处理算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论