




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r s t h e s i $ 摘要 随着经济高速发展,金融业市场化进程r 益加快,票据业务不断膨胀,票据数 量与日俱增,而票据处理工作十分繁重。为了摆脱这种繁重的重复枯燥的劳动,计 算机识别可以发挥重要作用,因此票据自动识别系统的研究非常有必要。票据中的 手写体数字的自动识别是这类系统的关键。 手写数字识别系统主要涉及到图像处理和模式识别领域。本文以票据中的手写 体数字为研究背景,介绍了手写数字的识别过程。重点研究了手写数字串的分割以 及分类器的选择和训练。 手写数字的识别一般分为图像预处理,特征提取,数字串分割,识别这几个阶 段。首先,票据的数字图像进行预处理,通过去噪,平滑,二值化等一系列预处理 工作,得到较利于识别的二值图像;通过版面分析,确定需提取要素所在区域:采 用h o u g h 变换去除框格线,得到待识别的手写体数字串:本文提出了一种基于识别 的分割方法以得到分割最佳组合,这种分割方法的分割结果是基于识别结果的,在 识别数字的同时得到分割结果;设计了包含s i g m o i d 神经元的b p 神经网络分类器 识别手写数字,在训练分类器的时候,将反例样本作为必要的训练样本估计分类器 的参数,并且合理的选择正例样本和反例样本的比例,这样训练得到的分类器具备 很好的分类能力。 试验数据表明,这样设计的手写体数字识别分类器大大的降低了误识率,得 到了较高的识别正确率。 关键诃:手写数字识别;分割;b p 神经网络;反例样本;动态规划; 硕士学位论文 m a s le r 。sf h e s l s a b s t r a c t r e c e i p tp r o c e s s i n gd e v e l o p sw i t ht h ed e v e l o p m e n to ff i n a n c i a lm a r k e t r e c e i p t p r o c e s s i n gi sa l la r d u o u sw o r k s oi no r d e rt ou s i n gc o m p u t e rt oi n s t e a dp e o p l et od o t h e s ea r d u o u sw o r k ,p r o c e s s i n gf i n a n c i a ld o c u m e n ta u t o m a t i c a l l yi sn e c e s s a r y a u t o m a t i c h a n d w r i t t e nd i g i tr e c o g n i t i o ni st h ek e y h a n d w r i t t e nd i g i tr e c o g n “i o ns y s t e mi n v o l v e dt h ea r e ao fi m a g ep r o c e s s i n ga n d p a t t e r nr e c o g n i t i o n t h i sp a p e rd e s c r i b e st h ep r o c e s so fh a n d w r i t i n gd i g i tr e c o g n i t i o n b a s e do nt h eh a n d w r i t t e nd i s i to fr e c e i p t s t h ee m p h a s e sa r e t h es e g m e n t a t i o no f h a n d w r i t t e nn u m e r a ls t r i n ga n dt h ec h o i c ea n dt r a i n i n go f c l a s s i f i e r t h ep r o c e s so fh a n d w r i t t e nd i g i tr e c o g n i t i o ni n v o l v e sp r e p r o c e s s ,f e a t u r ee x t r a c t i o n a n ds e g m e n t a t i o na n dr e c o g n i t i o no fh a n d w r i t t e nd i g i ts t r i n g f i r s t l yr e c e i p ti m a g ei s p r e p r o c e s s e dt h r o u 【g ht h em e t h o d s ,w h i c ha l er e d u c i n gt h en o i s e ,m a k i n gt h ei m a g e s m o o t ha n db i n a r ym e t h o d s ;c o n f i r mt h ei n t e r e s t i n gr e g i o n b yd o c u m e n ta n a l y s i s ;g e t r i do ft h ep r e p r i n t e df o r mf r a m el i n e sa n dg e tt h eh a n d w r i t t e nn u m e r a ls t r i n gb yh o u g h t r a n s f o r m ;p u tf o r w a r dt h er e c o g n i t i o n - b a s e dm e t h o dt os o l v et h es e g m e n t a t i o np r o b l e m ; d e s i g nac l a s s i f i e rb a s e do nt h eb p n e u r a ln e t w o r k st or e c o g n i z et h eh a n d w r i t t e nn u m b e r , t og e tc l a s s i f i e rw i t hb e t t e rp e r f o r m a n c e ,n e g a t i v ed a t am u s tb et h en e c e s s a r yt r a i n e d s a m p l e sa n dt h er a t eo f n e g a t i v ed a t aa n dp o s i t i v ed a t am u s tb er e a s o n a b l e t h ec l a s s i f i e r g e t sh i g h e rr e c o g n i t i o na c c u r a c yt h r o u g ht h ei n c r e a s eo f r e f u s er a t e t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h ec l a s s i f i e rt r a i n e dw i t hn e g a t i v ed a t aa n d p o s i t i v ed a t ag e tl o w e r r a t eo f m i s r e c o g n i t i o na n db e t t e rr e c o g n i t i o na c c u r a c y k e yw o r d s :h a n d w r i t t e nn u m e r a ls t r i n gr e c o g n i t i o n ;s e g m e n t a t i o n :b pn e u r a l n e t w o r k ;n e g a t i v ed a t a ;d y n a m i cp r o g r a m m i n g 硕士擘位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:懒日期:铆年g 月,。日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名:猁 日期:月f 9 日 导师签 日期: o 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a m s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。园重迨塞堡銮厦澄厦;旦兰生;旦二生i 旦三生筮查! 作者签名:疡氆彩氓 日期:m 年l 月口日 导师签名: 日期- 御 硕士学位论文 m a s t e r st h e s i s 1 绪论 图像的识别与分类属于当代计算机科学研究的重要领域,已经发展成为一门 独立的学科。这一学科在近几年里面发展十分迅速。应用范围相当的广泛,几乎 遍及各个领域。在人工智能、系统控制、遥感数据分析、生物医学工程、军事目 标识别等领域,在国民经济、国防建设、社会治安和社会发展等方面得到广泛的 应用,对整个社会都产生了深远的影响。图像识别的目的在于用计算机自动处理某 些信息系统,以代替人去完成图像分类以及辨识的任务,对图像识别来说,无论是 数据、信号或平面图形,甚至使物体,都是除掉与他们各不相同的物理内容,考虑 对他们进行“分类”这一共性来研究的。针对这一共性,以统一的观点把同一种共 性者归为一类,另一种共性归为另一类。例如,阿拉伯数字0 到9 就是需要把目标 分成l o 类,手写英文字母就要分成2 6 类。 1 1 手写体数字识别的研究意义 手写体数字的识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ) 是图像识别科学下的一个 分支,它的研究目的是:利用计算机智能的识别书写在纸张上的数字。 随着金融市场化进程的日益加快,票据业务不断发展,票据数量与日俱增。手 写体数字识别在这个领域应用非常广泛,例如个人凭证,支票,发票,进账单等需 要处理大量字符信息录入的票据,在很大程度上要依赖数据信息的输入。长期以来, 票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量 的人力和物力,同时各类票据凭证的事后监督与归档的分离也浪费了大量的人力和 物力。如果能通过手写数字识别技术实现信息的自动录入,无疑大大有利于解决传 统的人工处理方式中存在的工作量大、成本高、效率低、时效性差等问题。 手写体数字识别的研究不仅有很大的应用价值,而且有重要的理论价值,由于 数字是全世界通用的符号,识别种类较小,有助于作深入分析及验证一些新的理论。 例如支持向量机( s v m ) 的研究就是以手写数字识别作为具体的测试平台,并在美国 邮政服务数据库中取得了很好的测试结果。可以说,手写体数字识别的研究将有助 于模式识别、机器理解、机器人技术的发展,对今后研究如何更好地进行人机交互, 使计算机具有和人一样的能力有很大的理论价值。 1 2 手写体数字识别的研究与发展 模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机 器来实现人及某些动物对事物的学习、识别和判断能力,因而受到了很多科技 领域研究人员的注意,成为人工智能研究的一个重要方面。 字符识别是模式识别的一个传统研究领域。从5 0 年代开始,许多的研究者就 在这一研究领域开展了广泛的探索【1 1 1 2 并为模式识别的发展产生了积极的影响。 字符识别一般可以分为两类:l 联机手写字符识别:2 光学字符识别( o p t i c a l c h a r a c t e rr e c o g n i t i o no c r ) 或称离线字符识别。在联机手写字符识别中,计算机能 够通过与计算机相连的手写输入设备获得输入字符笔划的顺序、笔划的方向以及字 符的形状,所以相对o c r 来说它更容易识别一些。但联机字符识别有一个重要的 不足就是要求输入者必须在指定的设备上书写,然而人们在生活中大部分的书写情 况是不满足这一要求的,比如人们填写各种表格资料,开具支票等。如果需要计算 机去认识这些已经成为文字的东西,就需要o c r 技术。比起联机字符识别来,o c r 不要求书写者在特定输入设备上书写,他可以与平常一样书写,所以o c r 的应用 更为广泛。o c r 所使用的输入设备可以是任何一种图像采集设备,如c c d 、扫描 仪、数字相机等。通过使用这类采集设备,o c r 系统将书写者自己写好的文字作为 图像输入到计算机中,然后由计算机去识别。由于o c r 的输入只是简单的一副图 像,它就不能像联机输入那样比较容易的从物理上获得字符笔划的顺序信息,因此 o c r 是一个更具挑战性的问题。 手写体数字识别是多年来的研究热点也是字符识别中的一个特别问题,它是 本文研究的重点f 3 1 1 4 1 5 1 。手写体数字识别在特定的环境下,如邮政编码自动识别系统, 税表和银行支票自动处理系统等般情况下,当涉及到数字识别时,人们往往要求 识别器有很高的识别可靠性,特别是有关金额的数字识别时,如支票中填写的金额 部分,更是如此。因此针对这类问题的处理系统设计的关键环节之一就是设计出高 可靠性和高识别率的手写体数字识别方法。这个领域取得了飞速的发展,部分是由 于更好的学习算法,部分是由于更优良的训练集。美国国家科学学会( n i s t ) 建立了 一个包含6 0 0 0 0 个经过标注的数字的数据库,它已经成为对新的学习算法进行比较 的性能测试标准。然而可以说还没有哪个手写体数字识别器达到完美的识别效果。 在过去的数十年中,研究者们提出了许许多多的识别方法,按使用的特征不同,这 些方法可以分为两类:基于结构特征的方法扣1 1 7 和基于统计特征的方法【9 1 ( 1 0 l 【1 1 】。统 计特征通常包括点密度的测量、矩、特征区域等:结构特征通常包括圆、端点、交 2 又点、笔划、轮廓等,一般来说,两类特征各有优势。例如,使用统计特征的分类 器易于训练,而且对于使用统计特征的分类器【l2 1 ,在给定的训练集上能够得到相对 较高的识别率:而结构特征的主要优点之一是能描述字符的结构,在识别过程中能 有效地结合几何和结构的知识,因此能够得到可靠性较高的识别结果。本文针对手 写数字识别选用b p 神经网络这种基于传统统计学基础上的分类方法,用于分割和 识别,并取得了较好的识别效果。 1 3 票据中手写体数字识别研究的特点和难点 本文的工作主要集中在银行票据中手写体数字的识别,即手写体数字识别在金 融等业务方面的应用。 票据中手写体数字一般是书写在框格中的,与其它手写体数字书写环境相比, 除了容易产生连笔,挤压,倾斜,变形等共性问题外,同时还会受到印章污染,大 量存在着数字与格线相粘连的情况【”) ,所以进行识别前的图像数据获取,图像预处 理都会对最后的识别结果产生较大的影响。清晰图像数据的获取依赖于高性能的硬 件设备,在实际应用中,票据的量非常大,所以在选择图像获取设备时应该选择高 速专业的输入设备【2 “。票据中的手写数字的识别,有以下几个问题是关键所在: 1 版面分析,定位票据中需要识别的手写数字范围; 2 票据的预处理。针对票据特点进行二值化,平滑,去噪,形态学处理等一 系列预处理工作; 3 手写数字串的提取和分割。去掉框格线,寻找最佳的分割路径,获得干净 的手写体数字串; 4 选用适合的分类器识别手写体数字。选择多种样本训练分类器,适当选择 样本分布。 1 4 本文的内容和组织安排 本文研究的是票据中手写数字的识别问题,侧重点在手写数字串的分割与识 别,这也是目前制约识别率的一个关键因素,是手写数字识别中需要迫切解决的问 题。本文分为五个部分,内容组织如下: 第一部分是绪论。介绍了课题研究的意义,手写数字识别的研究与发展,票据 中的手写数字识别的特点和难点; 第二部分是手写数字识别的过程。分别对汉字图像预处理、特征提取、分类识 硕士学位论文 m a s l - e r 。st h e sj s 别三个阶段现有的技术进行了概述: 第三部分是b p 神经网络的介绍。介绍了神经网络的基本原理和b p 神经网络 分类器; 第四部分是基于反例样本识别的数字串分割。选择b p 神经网络作为识别机器 进行测试,恰当选择样本种类和样本分布并得到测试结果并分析; 第五部分是结论和展望。对本文研究工作总结,在针对票据中手写数字识别的 研究工作做出了进一步的设想。 4 硕士学位论文 m a s t e r st h e s i s 2 手写数字识别的过程 手写体数字识别的过程如图2 1 所示,一般分为预处理、特征提取、数字串的 分割、分类器、等模块。原始图像是通过光电扫描仪,c c d 器件或电子传真机等获 得的二维图像信号。预处理包括对原始图像的去噪、倾斜校正或各种滤波处理。手 写体数字具有随意性,其字符大小、字间距、字内距变化很大,分割难度较大1 3 “。 手写数字串的分割是其中最重要的环节,是制约识别率的瓶颈所在,也是本文要讨 论的重点部分。去噪是预处理中极重要的环节。系统面对的是从实际环境中切分出 的字符图像,可能有粘连的边框、随机的墨点、切分不正确引入的其他字符笔划等 使前景点增加的噪声,还可能有断线等使背景增加的噪声,目前适应各种环境的通 用去噪算法还不成熟。预处理中的规格化也不仅仅是同比例的放缩,它不仅要保持 拓扑不变,更要最大限度地突出所取特征。在众多应用环境中,特征提取、分类器、 多分类器集成是整个识别系统的核心。大体上来说特征可以分为结构特征和统计特 征两类。由于分类器的选择取决于所提取的特征,因此相应的识别方法便有结构方 法和统计方法。 总之,从手写体数字识别原理可见,手写体数字识别技术主要包括以下几点: 1 ) 图像预处理,包括二值化,归一化,滤除干扰噪声等; 2 ) 基于数字图像的特征选择和提取; 3 ) 数字串的分割; 4 ) 模式分类识别。 其中,第三、四部分是手写体数字识别中最为核心的技术,而第三部分数字串 的分割将是本课题研究的主要内容。本文将以手写数字串分割为中心,使用基于识 别的分割方法,对手写体数字识别系统进行研究和实现。 原 图 图2 1 识别流程 结果 2 。1 票据预处理 票据是一种表格。表格一般具有十分相似的表现形式,并且大多具有一些特定 的表格要素。首先,表格一般具有表头,标识了表格的用途种类。再者,表格一般 还具有格线,限定了表格的信息区域并将各个填写区域划分开来。表格中一般还有 填写单元的说明,如打印体的“姓名”标明了此项中应填写姓名而不是其他信息。 这些表格的基本元素一般都出现在表格的固定位置,如表头一般出现在表格的顶 部。它们构成了一张表格的概貌。这些形式固定的信息能够帮助计算机根据表格的 扫描图像辨别表格的类型,并对表格图像进行定位,以及提取信息。 表格预处理是把一个不理想的原始表格图像转变成为较理想的二值表格图像。 表格图像扫描时,一方面由于受表格图纸本身的绘制质量、光电扫描时的光照度不 均匀、纸张厚度、洁白度、光洁度、油墨深浅、印刷或书写质量都要造成字形畸变, 产生污点、飞白、断笔、交连等干扰。扫描系统带宽限制、鉴别率、线形度、光学 畸变、量化过程等因素也要产生噪声。另一方面,由于纸张边缘不平,纸张摆放不 平整或者扫描仪的纠偏性能不稳定等因素,会使扫描图像存在倾斜的情况。这些将 会为后而的正确分析表格图像的版面工作带来较大地困难,所以,在单个字符识别 之前,要对带有随机噪声的票据图像进行预处理。 我国使用的票据中用于规范用户填写的框线信息比较多、背景底纹一般较浅、 票据流通过程中加盖上去的印章图像比较多。针对不同的子识别域图像,预处理过 程采用的步骤可能不一样,但核心技术主要包括二值化、直线的检测和去除、平滑、 去噪声、字符串分割等。下面对这些关键技术做一下简单介绍。 2 1 i 图像的去噪 噪声f 5 3 】可以理解为“妨碍人们感觉器官对所接收的信源信息理解的因素”。 例如一幅黑白图片,其平面亮度分布假定为,“,y ) ,那么对其接收起干扰作用的 亮度分布为r ( ,y ) ,即可称为图像噪声。但是,噪声在理论上可以定义为“不可 预测,只能用概率统计方法来认识的随机误差”。因此将图像噪声看成是多维随 机过程是合适的,因而描述噪声的方法完全可以借用随机过程的描述,即用其概率 分布函数和概率密度分布函数。但在很多情况下,这样的描述方法是很复杂的,甚 至是不可能的。而实际应用往往也不必要。通常是用其数字特征,即均值方差,相 关函数等。因为这些数字特征都可以从某些方而反映出噪声的特征。 图像系统的噪声一般具有如下特点: 6 硕士擘位论文 m a s t e r st h e s i s a ) 噪声在图像中的分布和大小不规则: b ) 噪声与图像之间具有相关性; c ) 噪声具有叠加性。 噪声影响图像处理的各个环节,去除噪声对图像处理十分重要。表格图像中的 噪声种类很多,对图像信息的影响十分复杂。一般噪声是不可预测的随机信号,有 些和图像互相独立,不相关,有些则是和图像相关的,噪声与噪声之间也有相关的 也有不相关的,所以噪声只能用概率统计的方法去认识。常见的噪声一般有以下 几类: ( 1 ) j j n 性噪声 加性噪声和图像信号强度是不相关的,如图像在传输过程中引进的信道嗓声,电 视摄象机扫描图像的噪声等。这类带有噪声的图像g 可看成为理想无噪声图像厂和 噪声n 之和,即: g = ,+ 力 ( 2 1 ) ( 2 ) 乘性噪声 乘性噪声和图像信号是相关的,往往随图像信号的变化而变化,如飞点扫描图像中 的噪声、电视扫描光栅、胶片颗粒噪声等,这类噪声和图像的关系是: g=f+fn(2-2) ( 3 ) 量化噪声 量化噪声是数字图像的主要噪声源,其大小显示出数字图像和原始图像的差 异,对这种噪声的减少最好办法就是采用按灰度级概率密度函数选择量化级的最 优化措施。 ( 4 ) 椒盐噪声 椒盐( s a l ta n dp e p p e r ) 噪声经常出现在图像中,当摄像机中包含一些失效的像素 时,所采集的图像就会出现这类噪声,椒盐噪声因在像素中表现为黑白相间的斑点 而得名,即黑图像的白点、白图像上的黑点。对于表格图像,一般存在一些识别的 小点,这些小点可以看作是椒盐噪声,应该去除。对于这类噪声的去除可以采用中 值滤波或者运用数学形态学去嗓。 中值滤波f 1 3 】是一种非线性信号处理方法。中值滤波器在1 9 7 1 年由j wj u k e y 首先提出并应用在一维信号处理技术( 时间序列分析) 中,后来被二维图像信号处理 技术所引用。中值滤波在一定的条件下可以克服现行滤波器如最小均方滤波和均值 滤波等带来的图像细节模糊,能有效保护边缘少受模糊,而且对滤除脉冲干扰、图 7 滤波等带来的图像细节模糊,能有效保护边缘少受模糊,而且对滤除脉冲干扰、图 像扫描噪声及椒盐噪声最为有效。由于在实际运算过程中不需要图像的统计特征, 因此这也带来了不少的方便。但是对于一些细节多,特别是点、线、尖顶细节多的 图像不宜采用中值滤波。 中值滤波一般采用一个含有奇数个点的滑动窗口,将窗口中各点灰度值的中 值来替代指定点( 一般是窗口的中心点) 的灰度值。对于奇数个元素,中值是指按 大小排序后,中间的数值对应偶数个元素,中值是指排序后中间两个元素灰度值 的平均值。 原图处理后的图 00 o0 0 0 00 0oo o o o 0 02220 000 222o o 0 027 2 o o0 0 222 0 0 0 0 222o o0 0 2 220 0 0 0 0 0 0 0 0o 0 0 00 00 图2 - 2中值滤波 图2 2 中数字代表该处的灰度。可以看出原图中间的7 和周围的灰度相差很 大,是一个噪声点。经过3 1 窗口( 即水平3 个象素取中间值) 的中值滤波,得到 右边那幅图,可以看出,噪声点被去除了。 对于二维情况,中值滤波的窗口形状和尺寸对滤波器效果影响很大。不同图 像内容和不同应用要求往往选用不同的窗口形状和尺寸。常用的二维中值滤波窗 口形状有线状、方形、圆形、十字形等。 均值滤波可用低通滤波实现。均值滤波的目的又可分为两类。一类是模糊, 目的是在提取较大的目标前去除太小的细节或将目标内的小间断连接起来。另一 类是消除噪声。对n * l l 的模板佃一般为奇数) ,最简单的是取所有系数都为1 。为 保证输出图像仍在原来的灰度值范围,在算得后要将其除以1 3 2 再行赋值。这种方 法也o q 辱1 3 域平均,它的所有系数都是正的。 中值滤波的应用非常普遍,对于很多种随机噪声,它都有良好的去噪能力, 且在相同尺寸下比起线性平滑滤波引起的模糊要少,因此在测试中,选择中值滤 波的去噪方法比较合适。 2 1 2 图像的二值化 图像的二值化就是把图像中的像素根据一定的标准划分成两种颜色。在这个系 统中就是根据像素的灰度值处理成黑白两种颜色。对数字字符图像二值化后要能忠 实地再现原数字,其基本要求为:笔画中不出现空白点,二值化的笔画基本保持原 来文字的结构特征。图像二值化的关键在于阈值的选择。图像的二值化有很多成熟 的算法,有整体阈值二值化法、局部阈值二值化法、动态阈值二值化法等。下面介 绍几种常用的二值化方法。 1 利用直方图选择阂值 首先求出给定文字图像的直方图【1 6 1 ,如果直方图中具有两座明显的山峰( 分别 对应于背景部分及文字部分) ,可以选择这两座山峰中间低谷处的灰度值作为阈值 ( 如图2 3 所示) 频 度 阚值灰度值 图2 _ 3 直方图的团僵选取 当文字图像部分与背景的灰度值相差很大时,这样选择闽值是适当的。但当对 比度不很大时,因不能形成明显的波谷,无法确定阈值,这时,常常采用微分直方 图法。微分直方图法的基本思想是认为文字图形的边缘部分与背景部分的灰度值会 急剧变化,因而不直接利用图像的灰度值,而是利用灰度的变化率来决定阈值。这 种方法的做法是:设图像中某点象素具有灰度值s ,计算与该象素相邻的8 个象素 灰度值与该像素灰度值的差的最大值,或计算各个差的绝对值的和,求出给定图像 中具有灰度值s 的所有象素的微分值的和,当s = l n 时,可以作出各个灰度值的微 分分布,微分值最大的灰度值被认为是最佳的阈值。 利用直方图选择阈值是整体阈值二值化法的一种,这一方法在文字边界处于一 定的灰度值范围是有效的。但是,实际上边界附近的灰度值的变化范围大( 表现为图 像中没有明显的波峰) 。因此,有时很难准确地定出阈值。但是这种方法非常简单, 9 速度也很快,如果与其它方法配合起来使用,可以产生良好的效果。 2 动态阈值选择 上面所讲的阈值选择方法是对整幅图像而言的,即认为在一幅被扫描的文件中, 只存在文字部分及背景部分。但实际处理的文件往往比较复杂。例如从银行的票据 中提取手写数字时,可能需要抑制污点和污染的背景,这种阈值选择是依据该点的 灰度值及其周围的局部邻域的灰度值决定的。因此,这种选择闽值的方法称作动态 闽值选择。 对于二值化的方法,一般说来,随着阂值选择算法的复杂化,己经逐渐能够适 应书写质量差或背景情况复杂的图像,当然这是以时间开销为代价的。对于印刷质 量中等以上、背景单一的印刷文本,只要利用整体闽值就可以切割出供识别用的二 值化图像来,达到节约时间提高输入速度的效果。我国票据图像的背景复杂,主要 由纹理、定位格线、印章和各种噪声组成,其中图像中的印章是导致二值化困难的 主要因素之一。对于这种复杂背景下的票据,我们采用阈值递归选取算法和灰度一 双边缘直方图分析算法【1 5 】,并在实践中得到了较好的效果。如下图就是原图和二值 化后的图像的对比。 图2 4 二值化图像对比 1 0 2 1 3 倾斜校正 图像获取设备将纸质文档转换为电子图像,文档图像不可避免的包含一定的倾 斜。由于倾斜图像不便于计算机处理,因此,有必要对图像进行倾斜校正。 基础知识: 平移:把平面直角坐标系上的点a ( x ,y ) 平移到点爿0 ,y ) ,用笛卡尔坐标表示为 y x i = 。x y + + t 乃x 娌s , 旋转:把平面直角坐标系上的点a ( x ,y ) 绕原点逆时针旋转口角变到a ( x ,y 。) 用笛卡尔坐标表示为 乡 = 。c 诅o s 口0 - s 。m 日o j l l y x c z 4 , 下图是平移和旋转变化的图示。 y o x o x 图2 5 平移变换图2 - 6 旋转变换 2 1 4 常用的倾斜估计方法 f l ,y ; 1 近邻法( n e a r e s t - n e i g h b o rm e t h o d ) 文献1 6 提出了一种新的倾斜角检测的算法。该算法选取文本图像的某个子区 域中字符连通区的中心点作为特征点,利用基线上的点的连续性,计算出对应的文 本行的方向角,从而得到整个页面的倾斜角。该方法通过检侧连通区域,然后找出 最近的连通区域,通过连通区域间隔的中心线计算出倾斜角度。不同的近邻连通区 域可计算出多个倾斜角度,根据大多数倾斜角度的方向确定实际的倾斜方向。近邻 法也具有较高的估计精度,对于具有较多相互邻近的组成部分时比较费时。 2 投影法( p r o j e c t i o np r o f i l em e t h o d s ) 投影法是最常用的倾斜校正方法【l ”,它是基于对投影图形状进行分析的方法。 其基本方法是计算每个倾斜角度的投影形状,并定义一个目标函数,实际的倾斜角 度就是使目标函数最优。由于这种方法需要计算每个倾斜角度的投影形状,要使得 倾斜估计精度较高,这种方法的计算量非常大。 最简单的方法是将文档图像向不同的方向投影。当投影方向和水平文字行方向 一致时,文字行对应的投影图上的峰值最大,行间空白对应投影的峰谷。文献1 8 提出了一种改进投影算法提高了倾斜校正的计算的速度和精度,它是基于连通元素 的方法,假设一行中的字符是对齐并且十分靠近的。它采用一种自底向上的方法进 行分析,将该行字符作为一个连通区域,以不同的角度进行投影,投影图上出现最 大峰值和最宽峰谷时,该投影角度就是倾斜角度。文献1 9 提出的方法将一页文档 分成几列,然后向水平方向投影,计算每一列的投影值。每一个峰值对应于该列的 文字行。将投影图上每一列的峰值连接成一条曲线,曲线的切线就是文档的水平方 向,切线的倾斜角度就是文档的倾斜角度。 投影法是一种基于文字行的倾斜校正方法,不适用于版面复杂的文档,计算量 比较大,而且精度不高。 3 h o u g h 变换【2 0 】 h o u g h 转换是最常用的检测倾斜角方法,下面简单介绍h o u g h 交换。用极坐标 可将直线y = m x + b 表示为 r = 厢s i n ( p + 庐) ( 2 _ 5 ) 也可表示为 r = x c o s o + y s i n 0其中留妒= 形, ( 2 6 ) , 其中,( ,0 ) 定义了一个从原点到该直线最近点的向量,显然,这个向量与该 直线垂直。直线可以用参数r 和口完全确定下来,其中,指明了该直线到原点的距离, 口确定了该直线的方位,如图2 。7 所示。 = 、y = + b 爪。 12 囤2 - 7 直线的极坐标形式 1 2 直线参数化方程表示在变换的过程中,图像空间的一条直线上的点,对应着 一个参数空间累加器,并且直线上的每一点引起对应累加器的值增加l ,从而在 h o u g h 参数空间形成一个与直线对应的局部最大值,通过检测h o u g h 参数空间中的 所有局部最大值,就可以找到一组对应的直线。h o u g h 变换的最大优点是抗干扰能 力强,能够在信噪比较低的条件下,检测出直线。式( 2 5 ) 和( 2 6 ) 称为直线的h o u g h 变换。显然弘) ,平面中的任意一条直线都与r 口空间( 称为参数空间) 的一个点相对 应,即x y 平面中的任意直线的h o u g h 变换是参数空间的一个点。对于图像中边缘 上的每一点映射到h o u g h 空间的一组累加器,对于满足式( 2 5 ) 或( 2 6 ) 的每一点,将 使对应的所有累加器进行计数。如果图像空间包含有直线,则对应的累加器会有局 部最大值出现,通过检测这个最大值,可以确定与该条直线对应的一对参数f r ,口1 , 从而把该直线检测出来。 2 1 5 版面分析 经过对票据的预处理后进入版面分析【2 l l 。版面分析阶段主要是判别输入票据的 种类,并从原始图像中提取需要处理的子识别域图像。金融票据种类繁多,不同的 国家、不同的银行以及不同的业务一般具有不同格式的票据。通过对图像中的预打 印信息的分析,识别票据的种类,然后根据该种票据的格式在原始图像中定位字符 位置,并将含有字符图像的区域从原始图像中提出。 金融票据版面是信息的高度抽象与概括,制定票据的目的是使得从票据各栏目 中读取相应的信息非常容易。一般来讲,票据是一种严格定义的表格式版面。内容 包括标题、指示栏目( 定域) 及用户填写栏目( 变域) 。栏目由纵横直线相交的矩形框构 成,这些都是印刷好的。需要用户填写的内容可能是打印机打印的或手写的汉字、 数字或符号等,因此它是印刷体汉字( 标题) 、印刷体字符、线图形、手写汉字、手 写数字及手写符号多项识别技术的综合运用。 表格版面的结构包括几何结构和逻辑结构,文档几何结构是指各版面基元的大 小以及它在文档版面中的位置。表格文档的逻辑结构是定义版面基元的属性,及各 基元之间的逻辑结构关系。通过对不同类别的表格文档分析,可以归纳出表格文档 的共同特征: ( 1 ) 同一类表格具有相同的版面结构: ( 2 ) 对于表格,需要处理的信息仅占表格信息的- - + 部分,通常为用户填写的 信息( 变域内的信息) ; ( 3 ) 矩形块是构成表格几何结构的最基本单位,用户填写信息分布在表格版面 硕士荦位论文 m a s t e r s t h e s i s 的若干个矩形子块中,各矩形块的几何位置没有任何重叠或交叉; ( 4 ) 需要计算机识别的信息包括己知的印刷体、手写文本或手写字符,另外, 还有部分图像( t n 照片、签名及印章等) 需要计算机保存: ( 5 ) 水平线和垂直线在表格文档中相当普遍,矩形子块间通常由水平线和垂直 线分隔开; ( 6 ) 文档从结构上可分为几何结构和逻辑结构。对于表格文档来说,其几何结 构和逻辑结构之间存在一一对应关系。 1 票据版面功能单元的分类 ( 1 ) 根据功能单元的用途不同,票据版面上的功能单元可以划分为定域和变域两 部分。 定域:指己经印刷在票据版面中的固定的非空的功能单元集合,如 印刷的直线、字符以及图形等等;票据版面的定域部分的功能单元的状态始终为非 空,不会发生变化;对于相同类型的票据版面而言,具有完全相同的定域,并且定 域具有完全相同的相对位置与语义。 变域:指要求填写的功能单元的集合,如要求用手填写的字符功能单元以及要 求加盖印章的图形功能单元等等。在填写之前,变域中的功能单元的状态为空,在 填写之后,变域中的功能单元的状态为非空。票据版面的变域中的功能单元的状态 随着填写而发生变化。但是,对于相同类型的票据而言,相同变域中的各功能单元 的相对位置是相对固定的,并且其取值范围可以先验确定,它的类型是不会发生变 化的。 ( 2 1 根据票据版面功能单元的作用将其分为三类对象。 图形对象类:指印刷在票据版面上的线条( 如横线和竖线) 、由线条构成的矩形 框以及图标等功能单元的集合。图形对象类属于票据版面中的定域部分。图形对象 类一般包括四种对象类型:横线、竖线、矩形框和图标图形对象类的主要作用是划 分票据版面,确定其它对象的相对位置,其结构如2 8 所示。 标题对象类【2 2 l :指印刷在票据版面上文本符号功能单元的集合,标题对象类也 是属于票据版面中的定域部分,一般包括印刷体数字字符、印刷体英文字符和印刷 体汉字字符三种对象类型。标题对象类的主要作用是指明票据版面类型以及种类, 说明与其相关的对象类的属性和约束条件,其结构如图2 8 所示。 数据对象类:指票据版面中填写的功能单元的集合。数据对象类属于票据版面 中的变域部分。一般包括手写体数字字符、手写体英文字符、手写体汉字字符和手 写图标四种对象类型。数据对象类实际上就是需要提取和识别的有用信息。 1 4 硕士学位论文 m a s ,r e rsr h e s i s 图2 8 版面三类对象结构 2 票据版面的特点 票据版面分析的过程与票据的用途以及票据版面的布局紧密联系。票据是用来 记录和处理数据的传统方式,具有简明、规范、便于填写和易于理解等鲜明特点票 据版面布局最显著的特点就是存在横线和竖线,并且这些直线是印刷在票据版面上 的,相同类型的票据版面上的线特征,如宽度、长度、颜色( 灰度级) 等基本相同, 线与线之间的相对位置也是固定的:票据版面上的横线与竖线纵横交错,将票据版 面划分为不同的区域。即栏目:栏目中内容通常是手工填写的字符以及印章等图形, 所以,在票据版面中的横线和竖线起到了分割票据版面功能块、确定各功能块之间 相对位置结构关系的重要作用,而且根据横线与竖线的相对位置甚至可以初步确定 填写的内容语义。 通常票据版面中要求填写的栏目类型是英文字母、数字字符、汉字字符等;票 据版面中还存在已经印刷在版面上的字符和图形,这些字符和图形一般起到指明票 据类型、栏目类型以及说明栏目性质的作用。 同时,票据版面中的有些栏目之间除了位置结构关系之外,还包括简单的逻辑 关系。如票据中有大写数字和小写数字,分别处于不同的栏目中,但同张票据的填 写的金额是唯一的,所以识别结果也应该是一致的。求出结果后,看是否符合该逻 辑关系,是一种简单的检错处理。 3 票据的版面学习 所谓票据版面学习就是计算机通过对空票据的学习获得票据版面类型、全局识 别标时间等;全局识别标志有模板图像文件名、票据外框尺寸、识别标志( 如图标、 水平垂直线等) 构成;所谓栏目描述是指票据管理者感兴趣的各个栏目及其有关信息 的组织,每一栏目包括栏目类型( 如指定栏目、填写栏目) 、位黄尺寸、处理类型( 如 汉字、数字、符号1 ,验证规则及其编排格式,它们主要用于实票据的分析与识别、 栏目位置的查找、栏目内容的识别和后处理( 检错处理) 及票据重构。 空票据的学习方式有以下两种:一种是自动学习票据表格框线结构,生成票据 框线信息文件;另一种是通过人机交互方式,使用票据定义工具,描述票据类型识 别标志,栏目的相互关系、属性及特定的处理方式。一般来讲,在具体的系统中, 这二者是结合在一起使用的。 一般来讲,票据版面学习中可以自动得到版面中各栏目的位置,但各栏目的内 容是什么即版面中各功能单元的语义以及栏目之间相互关系或联系,计算机是不知 道的,因此必须采用人机交互的方式,将有关票据的知识告诉计算机。另外,版面 特征信息一般要送入数据库,通过数据库进行票据信息的检索、查询是非常方便的。 建立数据库时应该考虑到各种类型票据的版面特征与数据库中各字段相对应。 以x x 银行的支票为例,如图2 - 9 所示,根据先验知识,可以记录下票据表格 的长、宽、颜色,标题的长、宽、颜色,标题相对于表格的位置,等信息,这样就 可以通过对图像的检测,确定票据的类型。对表格的功能区域进行划分,记录每个 功能区域相对表格边框的相对距离,这样就可以容易获得兴趣变域。由于本课题感 兴趣的是票据中的手写体数字金额,所以记录下金额变域的长、宽、相对表格上边 框、右边框的距离,当确定了票据表格的上边框和右边框的位置坐标后,很容易就 可以确定本课题感兴趣的金额变域位置。 图2 9 原始票据 1 6 硕士学位论文 m a s t e r sr h e s i s 4 票据的兴趣区域定位 经过版面学习,己经得到了票据结构的大量的特征信息,包括票据版面上的各 功能单元的相对位置、意义以及相互之问的关系,所以在此基础上可以直接定位各 个填写区域,把变域提取出来。而票据版面分析的主要任务有两个:一是提取变域: 二是进行各个变域本身的版面分析,如手写体数字的切分、手写体汉字的切分等。 所以,主要工作集中在变域本身的版面分析上。 首先已经使用h o u g h 变换探测到票据表格的右边界框,同理,再检测到票据表 格的上边框。两条直线的交点就是票据表格边框的右上右上角,记录下交点坐标。 根据对空票据的版面分析,己经知道每种表格的长、宽、各变域的相对位置,所以, 很容易可以找到感兴趣的变域位置及坐标。如2 1 0 所示。 2 2 特征提取 圈2 1 0 票据中的兴趣区域 模式识别使用特征来区分不同的种类。因此,特征提取是模式识别系统的关键 部分。特征提取的目标是找到某种变换,将n 维或n + ”维的模式类别空间转换到维 数小得多的州维特征空间,并同时保留模式识别所需要的大部分信息。通过特征提 取,模式分类可以在维数低得多的空间上进行,从而降低了计算的复杂度。而且, 对给定的训练样本进行特征提取可以获得更精确的分类函数的描述,以构造更可靠 的分类规则。 同样对于手写字符的识别,特征提取可以降低字符信息量、去除无用的冗余信 息,提高识别系统效率,一直是字符识别领域中的关键点。手写体字符的识别,常 用的特征有结构特征和统计特征。结构特征和统计特征各有其优点:结构特征能描 述字符的结构,对于不同人书写的字符,形体不同,但结构都是一致的,所以结构 特征能克服手写字体因人而引起的畸变:统计特征最大的优点是对环境噪音不敏 感,如若字符的背景噪音通常都是里高斯分布,用统计特征进行识别可对此影响忽 略不计。 1 7 2 2 1 结构特征 采用结构特征对字符进行结构分析从而达到识别目的,是一种非常直观的方 法。字符由
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通信业务租用合同范本
- 装修物品工程合同范本
- 道路清淤维修合同范本
- 私人地皮转让合同范本
- 酒吧委托协议合同范本
- 道路施工补充合同范本
- 车辆合法租赁合同范本
- 资金变动协议合同模板
- 软件系统转让合同范本
- 活动板房外包合同范本
- 化学反应中的表示课件九年级化学(2024)上册
- 乳腺肿物手术配合护理
- 2024年在图书管理员培训上的讲话范例(3篇)
- 《天津市主要葫芦科作物对CGMMV的抗性鉴定及耐热性研究》
- 《语言学概论》教案(完整版)
- 《成本会计》高职财经类专业全套教学课件
- 2023年合肥市肥东县大学生乡村医生专项计划招聘考试真题
- 2024年共青团团课考试测试题库及答案
- 跨平台智能汽车故障预警
- 2024年新华东师大版七年级上册数学全册教案(新版教材)
- NBT 31075-2016 风电场电气仿真模型建模及验证规程
评论
0/150
提交评论