(信号与信息处理专业论文)基于动态权值集成的手写数字识别研究.pdf_第1页
(信号与信息处理专业论文)基于动态权值集成的手写数字识别研究.pdf_第2页
(信号与信息处理专业论文)基于动态权值集成的手写数字识别研究.pdf_第3页
(信号与信息处理专业论文)基于动态权值集成的手写数字识别研究.pdf_第4页
(信号与信息处理专业论文)基于动态权值集成的手写数字识别研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(信号与信息处理专业论文)基于动态权值集成的手写数字识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 光学字符识别是2 0 世纪2 0 年代逐步发展起来的一门自动化技术。日常生活 中会遇到各种各样的数字信息需要录入到计算机叶1 去,如大规模的数据统计、财 务、税务、金融及邮件分拣等。因此手写体数字识别有着广泛的应用前景,对其 进行研究有着重要的现实意义。 本文对手写数字识别技术进行了研究和探讨,提出了一种动态权值集成的多 分类器手写数字识别方法。该识别方法以图像预处理和字符特征提取为基础,采 用b p 神经网络识别作为核心识别分类器,对多个神经网络识别器的输出向量进 行动态权值集成确定最后的识别结果。 在预处理方面,本文着重研究了光照不均字符灰度图像的二值化问题,提出 了一种基于高斯拉普拉斯( l o g ) 算子的边缘零交叉二值化方法,该方法能够适 应光照不均和噪声等干扰,其二值化后的字符图像能够很好地保持本来形态。 在特征提取方面,本文提取了三种有效特征向量,分别为原始点阵向量、宏 观特征、宏观特钲和微观特征。通过分析研究,利用三种不同特征向量进行字符 分类,分类结果具有很好的互补性。 分类识别器采用了b p 神经网络。对b p 神经网络的训练算法进行了研究,提 出一种综合优化训练算法,使网络训练速度得到提高,网络收敛也得以保证。将 三种不同特征向量作为神经网络的输入,设计了三个不同网络结构的神经网络分 类器,并提出动态权值的多分类器集成方法对三个分类器进行系统集成,提高了 系统的性能和识别精度。 识别系统对自主采集建立的手写体数字图像库( s h n i d ) 和美国邮政管理局 ( u s p s ) 手写体数字图像库分别进行了三单分类器和动态权值集成测试实验,单 分类器最好识别率分别为9 8 6 8 6 和9 1 6 7 9 l ,采用动态权值集成方法集成后的 识别率分别达到了9 8 9 1 5 2 和9 2 1 7 7 4 。实验结果表明该系统对手写数字具有较 高的识别率。 关键词:手写数字识别;预处理;特征提取;b p 神经网络;动态权值集成 a b s t r a c t o p t i c a i c h a r a c t e r r e c o g n j t i o n i sa na u t o m a l i z a l j o n t e c h d o j o g ys t e pb ys l e p d e v e l o p e ds l n c e t h e1 w e n t i e so ft h e2 0 t hc e n t u r y a l l “n d so fn u m e 髓li n f o r m a t i o n n e e dt ob ei n p u t e di n t oc o m p u t e ri nd a i l yl i f e ,s u c ha sl a r g e s c a l es t a t i s t i c s 、f i n a n c i a l a f f a i r s 、t a xa f f a i r s 、f i n a n c e 、m a i ls o r t i n ga n ds oo n t h e r e f o r e ,h a n d w r i t t e nn u m e r a l r e c o g n i t i o n h a saw i d e p r o s p e c t f o r a p p l i c a t i o n , a n dt h e r ei sa g r e a tp r a c l i c a l s i g n i f i c a n c et os t u d yj t t h i st h e s i sh a ss l u d j e da n dd i s c u s s e dt h e t e c h n 0 1 0 9 yo fh a n d w r i t t e nn u m e r a i 陀c o g n j t i o n a n dp r o p o s e dan e wh a n d w m t e nn u m e r a lr e c o g n i t i o nm e t h o db a s e do n d y n a m i cw e i g h t e d m u l t i c l a s s i f i e r i n t e g r a t i o n t h er e c o g n i t i o n m e t h o d a d o p t s b p n e u r a ln e t w o r ka st h ek e r n e lc l a s s i f i e ra f t e rt h ei m a g ep r e - p r o c e s s i n ga n dc h a r a c t e r f e a 【u r ee x t r a c t i o n t h e n i n t e g r a t e s t h en e u r a ln e t w o r k o u t p u t v e c t o r sa st h ef i n a l r e c 。g n j l j o 几r e s u i fw j i hd y n a m i cw e j g h t e dm u 】l j c l a s s j f j e rj n t e g r a t j o n f o r p r e p r o c e s s i n g , t h i st h e s i sh a sb e e ns t u d i e d e m p h a t i c a l l y o nt h eu n e v e n i l l u 丌1 i n a t i o nc h a f a c t e f s 1 m a g e s b i n a r i z a t i o n p f o b l e m , t h e na n e d g ez e r o - c r o s s i n g h ln a r i z a t i o na i g o r i t h mw a s p r e s e n l e db a s e d0 nl o go p e r a t o r t h i sa l g o r i t h mc a na d a p t l h ei n t e r f e r e ss u c ha su n e v e n 川u m i n a t i o n 、n o i s e ,a n dt h eb i n a r i z a t i o ni m a g e sc a n k e e pi h eor g i n a ls h a p e so ft h ea i m s f ( ) rf e a l ur ee x i r a c t i o n ,t h r e ek i n d so fe f f e c t i v ef e a t u r ev e c t o ra r ee x t r a c t e d t h e ya r e t ) “g i n a lp i x c i s v e c t o r f e a t u r e s ,m a c r o s c o p i c a lf e a t u r e s ,m a c r o s c o p i c a l f e a t u r e sa n d m i c r o c o s m i cf e a t u r e sr e s p e c t i v e l y t h r o u g ha n a l y s i n ga n dr e s e a r c h i n g ,t h ed i f f e r e n l c l a s s j f i e r sc l a s s f i c a t i o nr e s u l l ss h o wag o o dc o m p l e m e n t a r i t yb yu t i l i z i n gt h r e ek i n d s o fd i f f e r e n if e ac u r e sv e c t o r st oc a r r vo nt h ec l a s s i f i c a l i o no fc h a r a c t e r s t h ec i a s s j f j e r sh a v ea d o p t e db pn e u r a ln e t w o r k a f t e rr e s e a r c h i n gt h et r a i n n i n g a i g o r i i h m o fb pn e u r a l n e t w o r k , a s y n t h e t i c a li m p r o v e dt r a i n n i n g m e t h o dw a s p r e s e n t e d l o s p e e d t h en e t w o r kt r a i n n i n ga n dg u a r a n t e et h en e t w o r kc o n v e r g e n c e u s i n gl h r e ek i n d so fd i f f e r e n if e a t u r ev e c t o f sa st h ej n p u to f t h en e u r a ln e t w o r k ,t h r e e n e u r a ln e t w o r kc l a s s i f i e r sw i t hd i f f e r e n tn e t w o r ks t r u c t u r ew e r eg i v e n t h ed y n a m i c w e i g h t m u l t i c l a s s i f i e r i n t e g r a l i o n m e t h o dw a s p r o p o s e d t o i n t e g r a t e t h et h r e e c l a s s j f i e r sa n dt oi m p r o v et h es y s t e mp e r f o r m a n c ea n dr e c o g n i t i o np r e c i s i o n t h er e c o g n i t i o n s y s t e m b a sc a r r i e do n t e s t i n ge x p e “m e n t sw i t ht h r e es i n g l e c l a s s i f j e r sa n dd y n a m i c w e i g h i e dj n t e g r a t i o nu s i n gs h n i dh a n d w r i t t e nn u m e r a lj m a g e d a f a b a s ea n du s p sh a n d w r i t t e n n u m e r a l i m a g e d a t a b a s e r e s p e c t i v e j y s i n g j e c l a s s i f i e r s b e s tc i a s s i f i c a t i o nr a t e sa r e9 8 6 8 6 a n d 9 1 6 7 9 1 r e s d e c t i v e i v a f t e r a d o p t i n gd y n a m i cw e i g h t e dm u i t i - c i a s s i f i e ri n t e g r a t i o nm e t h o d ,t h ed i s c e r n i n gr a t e s a r er a i s e dt o9 8 9 1 5 2 a n d 9 2 1 7 7 4 c o r r e s p o n s i v e l y t h ee x p e r i m e n t a lr e s u l t i n d i c a t e st h i ss y s t e mh a sh i g hc l a s s i f i c a t i o nr a t ef o rh a n d w “t t e nn u m e r a l k e y w o r d s : h a n d w “t i e nn u m e r a l r e c o g n i t i o n ; b i n a r i z a t i o n ; f e a t u f e e x t r a c l i o n ;b p n e u r a ln e t w o r k ;d y n a m i cw e i 曲t e dm u l t i c l a s s i f i e ri n t e g r a t i o n 第一章绪论 1 1 引言 光学字符识别( 0 p t i c a lc h a r a c t e rr e c o g n i t i o n ,简称o c r ) 是2 0 世纪2 0 年 代逐步发展起来的一门自动化技术,是图像处理和模式识别领域的一个重要分支 “1 。其目就是把图像作一个转换,使图像内的图形、表格继续保存,图像内的文 字和表格中的资料一律变成计算机文字。从而达到减少存储容量、通讯交流的信 息量、循环利用已识别出的文字以及节省因键盘输入而浪费人力与时间的目的。 手写数字识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ,简称h n r ) 是光学字符 识别技术的一个分支,它的任务是把手写阿拉伯数字( 如0 ,l ,2 ,9 ) 通过非 键盘方式输入到计算机巾,以便作进一步处理和应用,给计算机建立视觉系统, 自动辨识人用笔写在纸( 介质) 上的数字。它是模式识别、人工智能的一个重要 分支,在办公自动化,机器翻译等方面有重要实用意义。手写数字识别涉及到模 式识别和图像处理、人工智能、统计决策理论、模糊数学、组合数学、信息论、 计算机等学科;同时也涉及心理学等等,是介于基础研究与应用研究之间的一门 综合性的技术“1 。手写数字识别主要包括两大类,一类是联机手写数字识别,另 一类是脱机手写数字识别。本文讨论的均为脱机手写数字识别。 在现实生活中我们会遇到各种各样的数字信息,如:邮政编码、统计报表、 财务报表、银行票据、学生成绩、车牌号码等。在日常生活中,这些大量的数据 往往需要进行手工录入,耗时且由于长时间工作引起的疲劳而不可避免地产生差 错,这日益成为阻碍信息化发展的瓶颈问题。随着计算机技术的快速发展和计算 机的日益普及,人们将目光转向计算机,希望计算机能够代替人们的简单、重复 的劳动,并利用其高速、自动、存储量大的特点,将这些数字信息高速自动输入 计算机,用计算机对它们进行编辑和整理,保存在磁盘或其他介质上,以满足人 们的不同需要。手写数字识别技术正是要实现这些信息的自动录入,它不仅可以 节省大量时间和人力,而且在稳健的识别系统下也保证了数据录入的正确性。因 此手写数字的识别研究有着重大的现实意义和十分广阔的应用前景,一旦研究成 功并投入应用将产生巨大的社会和经济效益。 目前手写数字识别主要的应用领域“1 :( 1 ) 手写数字识别在大规模数据统计 巾的应用。在大规模的数据统计( 如:人口普查、农业普查、经济普查、成绩单录 入、行业年检等) 中,需要输入大量的数据,以前完全靠手工输入,需要耗费大量 的人力和物力。例如:我国第四次人口普查,在某省,面对2 0 0 0 万人口、6 ,6 亿 个字符,手写数字识别的应用不仅提前5 个月完成数据录入工作,且误差率极低。 ( 2 ) 手写数字识别在财务、税务、金融领域应用。随着我国经济的快速发展,每 天会有大量的财务、税务、支票、付款单等越来越多,使用计算机进行自动化处 理,无疑会节省大量的时间和金钱。该领域对识别的精度要求很高,因此对预处 理和识别的算法要求就很高。( 3 ) 手写数字识别在邮件分拣中的应用。传统的邮 件分拣主要是由人工来实现的。随着经济的发展,各种私人和商务信件会越来越 多,一些大城市每天处理的邮件高达几百万件。因此部件的自动分拣成为大势所 趋。目前国内县市级以上邮政部门都已使用邮件分拣机,其中使用量最大的0 v c s 分拣机的0 c r 拒分率为3 0 ,o c r 分拣差错率为1 1 。 但是手写数字识别有相当的难度。数字只有十种模式,笔划又简单,看起来 识别问题似乎不是很困难。但事实上,一些测试结果表明,数字识别的正确率还 不如印刷汉字识别等的正确率高。手写数字识别的困难在于:( 1 ) 数字笔划简单, 其笔划差别相对较小,字形相差不大,使得准确区分某些数字( 例如o 与6 ,o 与 9 ,l 于7 ,5 与6 等) 相当困难。( 2 ) 手写数字由于各个书写者的些书写习惯 和随意性,造成单个模式内变化很大,见图卜1 。( 3 ) 数字之间一般不存在上下 文相关性。般来说,单个数字之问没有语义相关性,这就减少了通过后处理进 行纠正的可能性。实际上,一些测试结果表明,手写数字的正确识别率并不如印 刷体汉字识别率高,甚至也不如联机手写体汉字识别率高。因而研究高效可靠的 识别系统将是难点所在。 爹q5舀7霸 彳 i譬 攀 叁拿塞9 5 曩謦譬 56;霉9 黪 y麓警 图1 1 手写体数字部分样本 f i g 1 - ls o m e s a m p l e so f h a n d w r i n e nn u m e r a 蹲够纛 璧o ,“嘈矗 毅 玉 氛 l i l 鑫6 搿 第一章绪论 因此,手写数字识别就有相当的挑战,同时又具有十分重要的意义。随着全 球信息化的深入和国家信息化进程的加速,低速的信息输入手段日益成为高速信 息处理的瓶颈,用机器阅读手写书稿的要求愈来愈强烈,手写数字识别的应用需 求将越来越广泛。研究高识别率手写数字识别算法,将是十分有意义的重点课题。 1 2 国内外h n r 研究的历史及现状 早在1 9 2 9 年,t a u s c h e k 就试图用光学模扳匹配的方法来识别十个印刷体阿拉 伯数字“1 ,装置见图卜2 。其主要的原理如下,机器中有十个相应于阿拉伯字符 o 9 的模板,这些模板类似于照相的负片。当文件上的阿拉伯数字例如“2 ”与模 板上的“2 ”字相吻合时,透过模板的光线最少,在模板后面的光接收器输出很小。 而当文件上的阿拉伯数字与模板上的字符不相吻台时,字符以外纸面反射的自光 就能部分透过模板的透明部分,使光接收器有很大的输出。对每个待识别的字符 依次试过十个模板,输出最小的模板就是待识别的字符。字符识别就是在这个原 始方法的基础之上不断地加以改进而得以发展,最后形成相对成熟的字符识别方 法。 将讽射童帏 一兮输出 光基收疆 图1 2t a u s c h e k 装置示意图 f 嘻l - 2s k e t c hm a p o f t a u s c h e k se q u i p m e n t 经过几十年的发展,现在技术取得了很多进展。h n r 无论是国内和国外都有了 相对成熟的h n r 的产品。识别过程首先使识别设备学习、记忆将要辨识字符的特征, 使这些特征成为识别系统自身的知识,然后再利用这些先验知识对输入图像进行 判决,得到字符的识别结果。字符的特征不仅仅局限于平面上的点阵位置信息, 在频率空间、投影空间,甚至语义空间字符都有各自的特征。这些特征在识别字 嚣 厨乡 一 一 n 、 娉 妄童三些銮耋王耋堡兰兰堡篁兰 符时又有各自的特点及优势。根据识别字符所采用具体特征的不同便衍生出了不 同的识别技术。通常,根据不同的技术策略,识别方法可以分为如下4 类:统计特 征字符识别技术、结构字符识别技术、基于神经网络的识别技术和基于支持向量 机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 的字符识别技术。 1 2 1 统计特征字符识别技术 这种识别方法一般选取同一类字符中共有的、相对稳定的并且分类性能好的 统计特征作为特征向量。常用的统计特征有字符二维平面的位置特征、字符在水 平或者垂直方向投影的直方图特征、矩特征和字符经过频域变换或其它形式变换 后的特征等。 大量字符的统计特征经过提取、学习、分类形成关于字符原型知识,构成识 别字符的模板信息,这些模板信息存储在识别系统中。未知图像在识别时首先提 取相同的统计特征,然后与识别系统存储的字符原型知识匹配比较,根据比较结 果确定字符最终分类,达到识别的目的。衡量匹配程度的指标常采用各种向量间 的距离指标,例如欧式距离、绝对值距离等,为了表达方式的统一,以这些距离 为基础,可以得到归一化匹配程度。 其中,基于字符像素点平面分布的识别算法,因为算法简单、实现方便的特 点而成为最常用的匹配方法。这种算法一般先将字符图像归一化为模扳的几何维 数,然后根据像素点的位置逐个匹配,求出模扳和图像的某种距离指标。由于要 对每个像素点逐个匹配,造成算法实现计算量大,且对噪音、字符的偏移和变形 非常敏感,因此对输入的待识别图像要求较高。根据算法的不足,不断有学者提 出改进的思路,产生了所谓序贯相似性算法( s s d a ) 。k e l n e r 和g l a u b e r m a n 在1 9 5 6 年提出来用二维图像的投影代替图像点阵信息的思路“3 。二维的图像被一维的投 影代替,计算量减少,同时也消除了文字在投影方向偏移的影响,但是对于字符 的旋转变形却无能为力。 基于统计特征的字符识别技术对于形近字符区分能力弱,因此,通常应用于 字符的粗分类。剥于识别字符集比较小、输入图像质量比较高的图片( 例如打印 的数字字符集) 也可以担当主要的识别任务。 1 2 2 结构特征宇符识别技术 实际应用中,更一般的情况是相近字符的识别和像手写字符那样字型变化很 大的字符的识别,因此,发展出了基于结构的字符识别技术。这种技术首先要提 取字符的结构。根据识别策略的不同,结构的选择也有所不同。提取出的结构又 称作字符的子模式、部件、基元,所有基元按照某种序排列起来就成了字符的特 征。基于结构的文字识别实际上是将字符映射到了基元组成的结构空间进行识别。 识别过程是在提取基元的基础上,利用形式语言和自动机理论,采取词法分 析、树匹配、图匹配和知识推理的方法分析字符结构的过程。常用的结构特征有: 端点、线特征、是否含有闭合笔画等。 传统识别方法中,对输入图像采取统一分辨率进行识别,分辨率由系统的计 算和存储资源先期决定,造成了系统资源的浪费和识别效率的降低。j p a r k 分析 了传统结构识别方法中的这些弊端,提出主动字符识别( a c t i v ec h a r a c t e r r e c o g n i t i o n ) 的思想,主动依据输入图像,动态确定结构特征的选取,实验证明, 达到了节省资源,加速识别的目的“。 与统计识别方法相对应,字符的结构识别技术更加便于区分字型变化大的字 符和字型相近的字符。但是由于对结构特征的描述和比较要占用大量的存储和计 算资源,因此算法在实现上相对复杂、识别速度慢。 1 2 3 基于神经网络的字符识别技术 迄今为止,人类识别文字的能力远远胜于计算机,无论是变形的字符、模糊 的宁符,甚至是破损的字符,人类都能很好地识别。基于人工神经网络的字符识 别技术目的就是力图通过对人脑功能和结构的模拟来实现字符的高效识别。 经过近几年的迅速发展,人工神经网络在字符识别方面得到了广泛的应用。 在h n r 系统中,人工神经网络主要充当分类器的功能。网络的输入是字符的特征向 量,输出是字符的分类结果,即识别结果。由于识别策略的1 :同和对问题理解水 平的限制,输入的特征向量所包含的信息常常是冗余的甚至是矛盾的。经过反 复学习,神经网络可以智能地将特征向量优化,去除冗余、矛盾的信息,强化类 间的差异。其次,由于神经网络采用分布式的网络结构,本身具备可以并行的条 件,可以加快大规模问题的求解速度。i l s e o k 和l e c u n 主要研究了b p ( b a c k p r o 口a g a t i o n ) 网络在文字识别方面的应用,针对b p 网络学习速度慢、泛化能力弱 的缺点,在b p 网络的基础上产生了竞争监督学习的策略”“。为减小神经网络的觌 模,赵跃龙提出了种基于b p 网络的手写数字识别方案,提高了神经网络的工作 效率:”。 :蛮三些奎耋三耋堡圭耋堡篁苎 由于人工神经网络是对生物的神经网络的一种极端的简化,以及人们对大脑 活动的认知还停留在初级阶段,人工神经网络在学习效率和算法收敛性等方面还 存在很多亟待解决的问题。 1 2 4 基于支持向量机( s v m ) 的宇符识别技术 支持向量机( s v m ) 是目前机器学习界的研究热点,它的理论基础来自于v a p n i k 等1 9 9 5 年提出的统计学习理论“。s 专门针对有限样本情况,得到的是全局最优 解,解决了b p 算法中无法避免的局部极值问题。 基本的s v m 是针对两类的分类问题,要实现手写数字这种多类的识别就需要构 造合适的多类分类器。目前通常采用的方法是通过组合多个二值分类器来实现多 分类器的构造。这种方法包括“一对多”和“一对一”两种策略。“一对多”就是 将每个类同余下的类分开。“一对一”就是将已知类别两两分开,然后通过对“一 对一”分类器进行投票等策略实现正确的分类。 多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有 一种简单的方案能达到很高的识别率和识别精度。因此,最近这方面的研究日渐 重视,向着更为成熟、复杂、综合的方向发展。一方面,研究工作者努力把新的 知识运用到预处理、特征提取和分类中,如:神经网络、数学形态学等。另一方面, 将多种识剐方法( 如:神经网络、模糊识别、聚类分析等) 的综合使用也是一个发展 的趋势。 1 - 3 本文研究的目的及内容 1 3 1 本文研究的目的 手写数宁由于其应用要求的广泛,学者们对其进行了重点研究,提出了许多 的识别方法,使其识别精度越来越高。但目前计算机处理这方面的能力仍然不如 人类,因此设计高精度的手写数字识别系统仍是众多科技工作者所追求的:本文 也正是基于这个目标,对手写数字识别进行了研究和探讨。 在预处理模块,对常用的预处理进行实现对比,研究出适合于手写数字识别 的预处理方法。 在特征提取模块,研究如何有效的提取手写数字字符的特征信息,有效减少 数据向量的维数。 在识别分类器模块,研究一种好的具有高鲁棒性的识别系统。 1 3 2 本文的主要内容 本文针对手写数字识别,对以下内容作了研究和探讨。 ( 1 ) 在预处理方面,研究对比了多种手写数字的预处理算法,并在此基础上, 选用了合适的方法或者提出了新方法。在二值化方厩阶段提出了一种基于l o g 算 子的边缘零交叉二值化方法,该方法能够适应光照不均和噪声等干扰,其二值化 后的字符图像能够很好地保持本来形态。 ( 2 ) 在特征提取方面,分别提出了三种特征提取的方法:原始点阵向量;宏 观特征;宏观特征和微观特征。通过分析研究,利用三种1 i 同特征向量进行字符 分类,分类结果具有很好的互补性。 ( 3 ) 研究实现了b p 神经网络的分类识别器,提出一种综合优化训练算法, 使网络训练速度得到提高,网络收敛也得以保证。具体措施有:带动量因子、自 适应学习速率、目标向量修正、子集分步学习、跳读。 ( 4 ) 在分类识别方面采用不同的输入特征向量,设计了三个不同网络结构的 分类器,提出一种动态权值多分类器集成法有效地进行系统集成,提高了系统的 识别率。 _ 。 耋王兰态耋三兰璧圭耋竺鎏苎 第二章手写数字识别系统概述 2 1 引言 本章将对本文建立的多分类器集成识别系统及其主要模块的功能、作用做简 要的介绍。 2 2 系统余绍 手写数字识别系统主要由三大模块组成:( 1 ) 预处理模块,其目的就是减少各 种干扰,将待识别文件的字符处理成便于计算机自动识别的形式;( 2 ) 特征提取模 块,其目的就是将预处理后的字符形式迸一步进行加工,减少数据的维数,同时 减少类间差异,而增大类间差异:( 3 ) 识别分类器模块,其目的就是想办法将字符 正确的分类。本文研究的手写体字符识别的过程如图2 1 所示。 预处理特秆提取识别分类器 图2 1 手写体数字识别系统 f i g 2 lr e c o g n i t i o ns y s t e mo f h a i l d w r i t t e nn u m e r a l 2 3 图像获取及预处理 在任何一个o c r 系统中,都必须有一个具有光电转换功能的输入设备。该设 备能够将纸面上的文字图形转换成图像电信号,再经a d 变换,转换成计算机能 处理的数字信号。目前,使用光电扫描仪作为o c r 系统的输入设备。扫描仪的扫 描方式一般有二进制方式( b i n a r y ) 和灰度级方式( g r a ys c a l e ) 。二进制方式适合于扫 描成像质量较好的文件;灰度级方式适合于扫描具有灰度层次的图像。本h n r 系 统采用灰度级方式,以便于利用软件改善图片质量。 在特征提取和识别前,需要对字符图像进行二值化处理、单字符分割、 第二章手写数字识别系统概述 去噪、字符平滑以及位置和大小的归一化等处理。因此,根据手写数字自身 的特点,设计预处理效果较好的算法应用到系统中去,尽可能地减少图片降质、 噪声,字符大小、宽高、变形、倾斜等造成的影响,以利于后面的识别过程。 有时候,为了更好的提取特征,还需要对字符进行细化,同时消除细化造成 的短枝等干扰。 总之,图像获取是h n r 系统的第一步,它将待识别文件,通过扫描输入,将 其数字化;预处理是h n r 系统中非常关键的一步,它的好坏直接影响到系统的识 别性能。 在研究了常用的字符识别预处理方法后,同时结合本系统的需要,本所采用 的预处理方法主要有:图像二值化、单字符分割、单字符平滑、单字符归一化、 字符细化、去除细化干扰短枝。 2 4 特征提取 特征提取是指找出用于表示输入模式的合适特征,以便在特征空间中增 大来自不同类的模式之间的差别的过程。通常,预处理获得的字符原始数 据空间的维数会很高,过高的维数会导致识别分类器结构会很复杂。特征 提取即是一个降维的过程,那些重要的变量就作为特征,次要的变量可忽 略不计。特征提取需要将数据空间( 模式空间) 变换为特征空间。特征空间 要尽可能的代表全体变量,虽然同最初的数据空间相比,特征空间维数减 少很多,但它仍然保留了数据内容的大多数本质信息。单一的特征提取方 法存在对莱干扰特别敏感的情况,并且不同的干扰对各种特征提取所造 成的影响也有很大的区别。 特征提取是识别分类器的直接基础,有效特征的提取,不仅可以减少识 别分类器的复杂度,而且可以提高识别分类器的鲁棒性。 本文在研究手写数字的各模式自身具有的特征和模式之间的差别基础 上,采用了三种特征提取方法:第一种,就是将归化后的字符点阵按行 扫描的方式转化为一维向量;第二种,就是对归一化后字符点阵提取宏观 方而特征,这些特征包括粗网格特征、七段框架投影值特征、宽高比;第 三种,就是同时从宏观和微观两个方向提取特征,宏观特征就是粗网格特 征、七段框架投影值特征、宽高比,微观特征足端点特征、孔洞特征、线特 征、凹特缸、凸特征、穿线数特征。这样不同的特征向量作为神经恻络的输 9 :耋三竺奎兰三耋堡圭耋堡篁兰 入,构成不同网络结构的识别分类器,多种方法有效结合起来,互相补充, 提高系统的识别率。 2 5 识别分类器 字符识别最为根本的目标是在一定速度前提下获得尽可能高的识别率。目前 无论是传统方法还是一些新方法都不可避免地存在无法解决的识别“死角”,而采 用单一的识别方法来提高识别率是十分困难的。 由于手写体数字因个人书写习惯等,字符千变万化,这也是识剐困难的 丰要原因。经过以一系列的预处理后有效的去除了许多干扰和形变,同时 消除了部分字体间的差异。但是传统的模板匹配及结构模式( 如分类树) 识别方法及神经网络各有优缺点。如模板匹配法,往往需要不断的增加新 模板,这使得识别速度下降。树分类器,其各级分类的标准难以选取。神 经网络虽然具有很强的学习和记忆能力,被广泛的应用到模式识别领域, 但训练过程往往非常费时。 基于以上原因,本文研究并实现了基于神经网络的分类识别器,提出一 种综合优化训练算法,使网络训练速度得到提高,网络收敛也得以保证。同时, 为了提高识别正确率,尽量降低误识率,采用不同的字符特征作为神经网 络的输入向量,构造了三个不同网络结构的神经网识别分类器。并提出动 态权值的多分类器集成方法对三个分类器进行系统集成,提高了系统的性能和识 别精度。 2 6 小结 本章概述了本文研究的手写数字识别系统的组成,并对其三个核心模 块,即预处理模块、特征提取模块、识别分类器模块,分别对其功能和作用及主 要技术路线作了较为全面的介绍。 第三章图像获取及预处理 第三章图像获取及预处理 3 1 引言 要进行手写数字识别,首先需要将写在纸上的数字( 或者数字串) , 经过光电扫描并模数转换为数字化的灰度数字图像,过程如图3 一l 所 示。 图3 1 图像获取 f i g 3 一li m a g ea c q u i r e m e n t 纸张的洁净度、平整度及书写笔迹的深浅等条件会造成数字图像的 数字图像产生诸如污点、断笔、模糊不清等现象。因此需要进行预处理, 为了尽可能地减少图片降质、噪声,字符大小、宽高、变形、倾斜等造成的 影响,必须要对其进行一系列的处理以利于后面的识别。本系统所采用的预 处理有:图像二值化、单字符分割、单字符归一化、单字符平滑、字符 细化、去除干扰短枝。整个预处理模块包括的过程如图3 2 所示。 图3 2 图像预处理 f i g - 3 - 1i m a g ep r e p r o c e s s i n g ! :耋三些奎耋三耋翟占兰堡篁兰 3 2 图像二值化 二值化就是把数字图像的灰度数字信号处理成只有0 和l 两级灰度的图 像。二值化的基本要求是: ( 1 ) 笔划中不出现空白。 ( 2 ) 二值化后的笔划较好的保持原来文字的特征。 二值化是图像处理、图像分析及模式识别中的一个重要问题,是许多识别 应用系统中不可或缺的重要环节,二值化效果的好坏直接影响到系统的性能。 因此学者们对此进行了重点研究,目前提出了许多算法“”“,这些算法大体 上可以划分为两类,即全局阈值法和局部阈值法。 3 2 1 常用二值化方法 ( 1 ) 全局二值化。全局闽值法是指对整幅图选取单一的阈值来进行二值 化,典型的算法有直方图和直方图变换法小“1 、o t s u 法( 大津法) “、熵 法“7 “”“”1 等。如果图像的灰度直方图呈现双峰或者图像中背景灰度与目标 灰度呈明显分离状,全局阈值法分割图像效果良好且速度快。 ( 2 ) 局部二值化。图像常常要受到噪声、光照不均匀、污染等影响,致 使背景像素灰度和目标像素灰度互相交错重叠在一起,图像直方图呈现单峰或 者多峰,全局闷值法无泫歌得满意的二值化效果,这时必须要考虑图像的空间 局部特性。局部阀值法根据局部信息确定局部阈值来二值化图像。典型的局部 阈值法有k a m e 卜z h a o 算法1 、b e r n s e n 算法1 等,它们能够克服光照不均匀 等干扰,自适应的根据局部灰度特性选取闺值。k a m e 卜z h a 。算法由于要选择 一阈值,使用受到限制:b e r n s e n 算法则没有这个限制,实验结果普遍表明其 效果要比k a m e 卜z h a o 算法好,但是却会产生诸如目标部分缺失、伪影( g h o s t ) 等缺点和问题。叶芗芸、戚飞虎等人提出的基于局部极值的快速二值化方法 ( l o c a le x t r e m ev a l u eb a s e db i n a r i z a t i o n ,简称l e v b b 算法) ”是对b e r n s e n 算法进行的改进,但是仍然有一些不足,比如文本笔划粘连等。 3 2 2 基于l o g 算子的边缘零交叉二值化方法 针对全局闽值法和局部闽值法的缺陷,提出了一种基于l o g 算子的边缘零 交叉二值化方法。利用l o g 算子的优良特性检测m 图像的边缘零交叉,确定出 边缘零交叉点两侧的像素为目标或是背景,对图像中均一区域( 背景或者目标) 1 2 根据邻域属性确定其归属。实验结果表明该方法能克服局部阈值法的目标部分 缺失和伪影现象,也克服了全局阈值法易受噪声和光照不均匀的影响,而且二 值化效果比l e v b b 算法要好。 在m a r r 的视觉理论”中,视觉的第一阶段很大程度上是由零交叉检测器 完成的。然而利用图像强度二阶导数的零交叉点求边缘的算法对噪声十分敏 感,所以希望在边缘增强前滤除噪声。为此,m a r r 和h i l d r e t h 将高斯滤波和 拉普拉斯边缘检测结合在一起,形成l o g ( l a p l a c i a no fg a u s s i a n ) 算法,也 称为拉普拉斯高斯算法“。这种方法的特点是图像先与高斯滤波器g ( x ,y ) 进 行卷积,这一步既平滑了图像又降低了噪声,孤立的噪声点和较小的结构组织 将被滤除。然后利用无方向性的拉普拉斯算子v2 实现边缘检测。 设原图像为f ( x ,y ) ,利用下式通过卷积运算得到l o g 算子的输出h ( x ,y ) : h ( x ,y ) = v2 g ( x ,y ) f ( x ,y ) ( 3 1 ) 利用卷积定理,上式变为 h ( x ,y ) = v 2 g ( x ,y ) f ( x ,y ) ( 3 2 ) 其中: 为拉普拉斯运算,铲= 善+ 等 。 一生 6 ( ) 2 寺8 2 酽 v 2 吣= 驾+ 鼍掣= 嘉c 等讪e 等 慨。, 缸2 。 而2 月6 4 、2 6 2 ” l o g 算子为一个倒立的墨西哥草帽形( 如图3 3 所示) ,神经心理学研究 证实它是对视网膜神经细胞感受域组织的一个良好近似,可看作是由一个兴奋 中心区和一个抑制周边区组成”。 图3 3 取占= 1 0 时的l o g 算子图形 f i 9 3 3l o go p e r a t o rg r a p hw h e n 6 = 1 0 至三些奎茎三:鎏圭兰堡鎏奎 对于离散数字图像,l o g 算子通常可以用一个离散的l o g 模板m ( x ,y ) 近似。 这里占值的选取与模板宽度w 有关,如果w 相对于占取得小,则边缘位置精度 高,但检测出来的细小变化也要多;如果w 相对于占取得大,则检测出来的边 缘位置会偏离真实边缘过大,且会滤掉一些重要的细节部分。w 与6 取值的一 个较好经验公式是w = 2 i n t 2 26 + l ( i n t 表示取整运算) 。根据经验公式确 定w 和6 后,便可以利用公式( 3 3 ) 计算l o g 模板m ( x ,y ) 。例如当模板窗宽w = 9 时,6 :1 4 ;当模板窗宽w = 7 时,6 = 1 0 ;当模板窗宽w = 5 时,占= o ,7 ,这时l o g 模板如图3 - 4 所示。 、 0 0 0 2 70 0 3 31o 0 6 9 0o 0 3 3lo 0 0 2 7 o 0 3 310 1 7 9 30 0 0 9 80 1 7 9 3o 0 3 3l o 0 6 9 00 0 0 9 81 3 2 5 70 0 0 9 80 0 6 9 0 o 0 3 3 10 1 7 9 30 0 0 9 80 1 7 9 3 0 0 3 3 l 0 0 0 2 7o 0 3 3l0 0 6 9 0o 0 3 31o 0 0 2 7 图3 45x5 l o g 模板m ( x ,y ) f i g 3 45 5l o gt e m p l a t em ( x ,y ) 于是对于离散数字图像f ( x ,y ) ,公式( 3 2 ) 的l o g 算子的输出h ( x ,y ) 刭以近 似用下式计算: 1 1 ( x ,y ) = m ( x ,y ) 术f ( x ,y ) ( 3 4 ) l o g 算子边缘零交叉算法在图像处理中常用于边缘检测。这里利用其对边缘 两侧运算后产生的结果正负性,并结合连通区域标记进行二值化。 对于图像的边缘( 如图3 5 a 所示) ,利用l 0 6 算子计算后的边缘零交叉, 结果如图3 5 b 所示。由图易知,对图像的边缘两侧的像素经过l o g 算子计算 后,低灰度值侧的h ( x ,y ) 0 ,高灰度值侧的h ( x ,y ) 0 的像素为背景,h ( x ,y ) 0 时,令该像素为背景 b 。 ( 2 ) 当该极大极小差值大于某个阈值且h ( x ,y ) n u m b 时,用a 标记该l 。r 。 ( 6 ) 对( 5 ) 步处理过的l ( x ,y ) 进行二值化处理。即将l ( x ,y ) 中为a 的点标记为目标,而将其他点标记为背景。 ( 7 ) 经过( 6 ) 步后的二值图l ( x ,y ) ,可能仍然会存在一些小块的区域为 假目标区。为了剔除这些因局部干扰引起误分的小区域,可以设定一阈值t a 。 t a 的选取要依赖于目标的大小,一般选取估计目标区域点数最小值的l o 。当 l ( x ,y ) 中8 连接目标区域a r 点数小于t a 时,令该a r 区域为背景。处理后得 到最终的二值化结果输出图像b ( x ,y ) 。 采用该方法对一个于写数字字符串图像的二值化结果如图3 6 所示,其中 6 薹三兰塑堡童墨墨鎏墼矍 图3 6 a 为原始手写数字字符串,图3 6 b 为采用新方法二值化后的结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论