(信号与信息处理专业论文)集成型神经网络手写体数字识别.pdf_第1页
(信号与信息处理专业论文)集成型神经网络手写体数字识别.pdf_第2页
(信号与信息处理专业论文)集成型神经网络手写体数字识别.pdf_第3页
(信号与信息处理专业论文)集成型神经网络手写体数字识别.pdf_第4页
(信号与信息处理专业论文)集成型神经网络手写体数字识别.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)集成型神经网络手写体数字识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集成型神经网络手写体数字识别 摘要 手写数字识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ) 是光学字 符识别技术( o p t i c a lc h a r a c t e rr e e o g n i t i o n ,简称o c r ) 的一个分支, 它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿 拉伯数字。这几年来我国开始大力推广的”三金”工程在很大程度上要 依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动 录入,无疑会促进这一事业的进展。 本文建立了一个集成型神经网络手写体数字脱机识别系统,系统 主要由两个部分构成,即:学习部分和识别部分。学习部分主要完成 七个b p 神经网络的学习训练,识别部分是由特征提取和集成型神经 网络识别构成。在整个系统的实现过程中,本文的工作主要有以下几 个方面: 1 实现了宏观、局部和微观三个层次的特征提取,分别应用于七 个不同的神经网络分类器。 2 为提高网络的收敛速度和避免网络假饱和现象,对传统的b p 神经网络做了一些改进,例如修改学习因子,修改s i g m o i d 函数,引入 学习因子。 3 对七个b p 神经网络的结果采用多种算法进行组合,例如最大 值规则、多数投票规则,用实验证最优线性组合算法( o l c :o p t i m a l l i n e a rc o m b i n a t i o n ) 充分利用每一个分类器的长处,既要发挥它们 的最佳性能,又能克服单个分类器的弱点,以达到最优的系统识别性 能。 4 本文建立的集成型神经网络手写体数字识别系统,综合使用了 多种模式识别方法,全面反映了手写体数字各个方面的特征。实验结 果表明该系统在一定程度上提高了手写体数字识别的精度,值得深入 研究下去。 关键字:b p 算法、神经网络、手写体数字识别、特征提取、集成、 置信度 h a n d w r i t t e n d i g i tr e c o g n i t i o no f a n i n t e g r a t e dn e u r a ln e t w o r k a b s t r a c t h a n d w r i t t e nn u m e r a i r e c o g n i t i o n i sam a i nb r a n c ho fo p t i c a l c h a r a c t e r r e c o g n i t i o n h o w t o r e c o g n i z e h a n d w r i t t e n d i g i tu s i n g m a c h i n e si st h er e s e a r c ho u j e c t w i t ht h er a p i d d e v e l o p m e n to f a u t oi n p u t m e t h o d ,t h eh a n d w r i t t e nn u m e r a lr e c o g n i t i o nw i l lb em o r ea n dm o r e i m p o r t a n t i nt h i s p a p e r , ah a n d w r i t t e nd i g i tr e c o g n i t i o ns y s t e m b a s e do n i n t e g r a t e dn e u r a ln e t w o r k i ss e tu p i nt h el e a r n i n gp a r t ,s e v e nb pn e u r a l n e t w o r k sa r et r a i n e d t h e r ea r et w o s t e p si nt h er e c o g n i t i o np a r t t h e y a r e f e a t u r ee x t r a c t i o na n dc o m b i n e dr e c o g n i t i o n d u r i n gt h er e a l i z i n go ft h e s y s t e m ,t h ef o l l o w i n g i sd o n ei nt h i sp a p e r 1 s e v e nf e a t u r e sf o rh a n d w r i t t e nd i g i t sb a s e do nm a c r o s c o p i c a l , p a r t i a l a n dm i c r o c o s m i ca r e e x t r a c t e d ,w h i c h a r e a p p l i e d i ns e v e n r e s p e c t i v e n e u r a ln e t w o r k s 2 m a k es o m ei m p r o v e m e n t so nb pn e u r a ln e t w o r kt oq u i c k e nt h e n e t w o r kc o n s t r i n g e n c ys p e e da n dt oa v o i df a k es a t u r a t i o np h e n o m e n o n f o r e x a m p l e ,c h a n g e t h el e a r n i n g f a c t o r 3 m a n y c o m b i n e da r i t h m e t i ca r eu s e dt oc a l c u l a t et h el a s t r e c o g n i t i o nr e s u l ta c c o r d i n g t ot h er e s u l t so ft h es e v e db pn e t w o r k s t h e r e s u l to ft h ee x p e r i m e n ts h o wt h a tt h ec o m b i n a t i o nm e t h o do fo p t i m a l l i n e a rc o m b i n a t i o ni st h eo p t i m i z a t i o na l g o r i t h m 4 ah a n d w r i t t e nn u m e r a lr e c o g n i t i o ns y s t e mb a s e do i lt h ei n t e g r a t e d n e u r a ln e t w o r ki sb u i l tu pi nt h i sp a p e r m a n yp a t t e r nr e c o g n i t i o nw a y s a n dm a n yh a n d w r i t t e nn u m e r a lc h a r a c t e r sa r eu s e di nt h es y s t e m t h e r e s u l t so f e x p e r i m e n ts h o w t h a tt h i ss y s t e mc a ng e th i g hc o r r e c tr a t ea ta c e r t a i ne x t e n t i ti sw o r t ht ob es t u d i e dl a t e r k e yw o r d s :b pa l g o r i t h m ,n e u r a ln e t w o r k ,h a n d w r i t t e nd i g i t r e c o g n i t i o n ,f e a t u r ee x t r a c t i o n ,i n t e g r a t e d ,c o n f i d e n c e - i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师盛立东教授的指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮 电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担切相关责任。 本人签名: 1 蕴骅 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密盾遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期:塑翌圭:生 日期:型型二_ 2 :塑 硕士论文 集成型神经网络手写体数字识别 1 1 问题的提出 第一章绪论 手写体数字识别在邮政编码自动识别、银行业务等方面有重要的应用,由于 字体变化大,对识别率要求高,因此有较大的困难。神经网络具有学习能力和 快速并行实现的特点,可以用于解决这一问题。由r u m e l h a r t 提出的多层前馈 神经网络模型,由于采用误差反传的学习算法,被称为b p 网络。 1 i 另一方面,不同的特征空间往往反映事物的不同方面,在一种特征空间很 难区分的两种模式可能在另一种特征空间上很容易分开;而对应于同一特征空 间的不同分类器又以不同的方式将该种特征映射到相应的类别空间。因此不同 的特征和分类器能够更全面的反映出一个事物。【2 】大量的实验也表明,尽管某 一种方法的总体性能最好,但是这种方法误识的样本其它方法却可能正确的识 别出。也就是说,不同的识别方法对于待识别样本可能存在着互补信息。我们 就要挖掘出这些互补信息,把多个分类器有机的组合起来提高总体识别性能。 【3 】模式识别系统设计的最终目的是为了尽可能的达到最好的识别性能,这一目 的推动了模式识别各方面的发展使大量学者投入到集成型分类器的研究工作 中 1 2 手写体数字识别的研究概况 手写数字识别( h a n d w r i t t e nn u m e r a lr e c o g n i t i o n ) 是光学字符识别技术 ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,简称o c r ) 的一个分支,它研究的对象是: 如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 在整个o c r 领域中,最为困难的就是脱机手写字符的识别。到目前为止, 尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距真正 意义上的实用还有一定距离。而在手写数字识别这个方向上,经过多年研究, 研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提 供了一种解决方案。 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各 国家、各民族的文字( 如:汉字,英文等) 书写或印刷的文本信息,目前在印 刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据 信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如: 第l 页 硕士论文 集成型神经网络手写体数字识别 邮政编码、统计报表、则务报表、银行票据等等,处理这类信息的核心技术是 手写数字识别。这几年来我国开始大力推广的”三金”工程在很大程度上要依赖 数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会 促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦 研究成功并投入应用,将产生巨大的社会和经济效益。 1 3 本文研究工作概述 本文主要研究神经网络集成方法,主要的工作和研究结果整理如下: ( 1 ) 在特征提取方面总结目前国内外特征提取的主要方法,选择了能反映手 写体数字宏观、局部和微观三个层次特征集的特征提取方法,并用程序实现。 ( 2 ) 在单个b p 神经网络方面,对传统的b p 神经网络算法进行了改进,引入 了学习因子、动量因子和加窗s 函数。 ( 3 ) 在神经网络集成结果处理方面,根据统计学理论,引入了最优线性集成 的概念,提出一个合理的模型使集成权重系数不仅与分类器有关,还与判决的 结果类别相关。 ( 4 ) 把上边提到的方法应用到手写体数字识别上。以u s p s 手写体阿拉伯数 字数据库为训练样本集,对样本进行特征提取,集成与单分类器效果相比较, 识别分辨率有了明显的提高。 1 4 本文的内容安排 本文共分为四章。 第一章介绍了手写体字符识别的进展,同时对神经网络集成的研究与发展 以及在手写体数字识别中的应用进行了概述。 第二章讨论了手写体数字特征抽取方法,分析了不同的特征抽取方法对手 写体识别的不同影响,并在此基础上对实验数据得到了7 个不同的特征集。 第三章对手写体数字识别中使用到的b p 神经网络分类器进行了研究,分析 了集成学习和个体神经网络生成的方法以及最终结果的处理。针对在第二章得 到的7 个特征集,相应的得到7 个属于不同信息层次的神经网络,同时对实验 中遇到的一些问题进行了探讨。 第四章提出了系统设计方案,介绍了系统的应用和尚需改进的地方。 第2 页。 硕士论文集成型神经网络手写体数字识别 1 5 参考文献 1 罗晓斌、董守斌等,”集成型神经网络手写体数字识别”计算机工程,第 2 8 卷,第8 期,2 0 0 2 年8 月,第6 9 页 2 韩宏,”多分类器组合及其在手写体数字识别中的应用”中文学术期刊, 2 0 0 0 年4 月,第l 页 3 张丽,”基于多分类器动态组合的手写体数字识别”中文学术期刊,2 0 0 2 年4 月,第1 页 第3 页 坝士论文集成型神经网络手写体数字识别 第二章手写体数字的特征提取1 1 】 特征抽取的主要目的是从原始数据中抽取出用于区分不同类别的本质特 征。按照统计学的观点,好的特征抽取方法必须满足以下条件:特征之间相互 独立,减小类内距离的同时增大类间距离,特征向量的维数尽量小。但在实际 应用中,很难达到以上的要求。 对于手写体数字,根据抽取特征的方法般将其分为两类:统计特征( 局部 特征和全局特征) 和结构特征。统计特征是利用一些统计方法计算得到的,一般 包括点密度的估计、矩、特征区域等等。结构特征则是对字符的笔画进行分析 得到的,能更好地区分局部细节,一般包括圈、端点、交叉点、笔画、轮廓等 等。不同性质的特征描述了事物的不同方面,统计特征和结构特征有着各自的 优缺点。结构特征对细节变化比较敏感,能较好地分辨出结构上细微的差异。 但是它对噪声也比较敏感,对噪声较大的图像,识别率不高。结构特征一般使 用句法类的分类器,对于任意书写的手写体数字,由于训练样本数量的限制, 总有一部分待识字符无法分类,因此拒识率较高,同时错误率较低。统计特征 对噪声不敏感,具有较好的稳定性,但对图像细节上的细微差异不敏感,在待 识字符形状比较相似时易发生错误。统计特征可使用的分类器较多。由上可知, 统计特征和结构特征对于识别具有一定的互补性。因此提取不同的特征对提高 分类器的性能有很大的帮助。 为更稳定地描述各类别的差异,抽取的特征必须对可能发生的各种变化具 有一定的不变性。通常应对下列变换具有不变性,如旋转、尺度、倾斜、拉伸、 镜像等。但某些类别( 如“6 ”和“9 ”) 的识别却需要对旋转具有可变性的特征。 如果得不到具有不变性的特征,则可以将输入的图像正规化为具有标准大小的 图像,再进行特征抽取。虽然这能减少由于旋转、尺寸、倾斜等带来的差异, 但同时也会引进新的离散化误差。一些特征抽取方法能够从被抽取的特征中重 建得到原始数据,这保证了原始数据的全部信息均可从抽取的特征中获得,但 通常这样抽取的特征维数较大,而由于训练集的大小有限,如果使用统计分类 器,特征的维数必须保持一合理的数量。基本的原则是:每一类别的训练样本 的个数应当是特征向量维数的5 - 1 0 倍。通常只取对分类最有效的前n 个特征。 在手写体数字识别的研究中,对于已二值化的图像抽取特征的方法有许多 种,常用的统计特征有g a b o r 变换特征、l e g e n d r e 矩特征、p s e u d o z e r n i k e 矩特征与z e r n i k e 矩特征统计特征通常反映图像点阵总体分布情况,这些 特征的图像预处理简单,对噪声不敏感,但对字的一些精细结构部分反应不灵 - 第4 页 硕士论文 集成型神经网络手写体数字识别 敏由数字图像的骨架和轮廓可抽取出手写体数字的结构特征,它往往对字结 构精细部分反映灵敏,但图像预处理复杂,对噪声较敏感,个完善的基于结 构特征的分类器往往十分庞杂一般认为,不同性质的特征往往反映物体的不 同方面,在一种特征空间很难区分的两种模式可能在另一种特征空间上很容易 分开:而对应于同一特征的不同分类器又从不同的角度将该特征映射到决策空 间上,因此利用不同性质特征和不同分类器的组合就可能全面反映出一个物体 从而得到一个较好的分类结果 2 2 1 测试样本集【3 】 本文使用的实验样本集取美国邮政服务数据库u s p s ( u sp o s t a ls e r v i c e ) 中的政编码集。u s p s 数据库是以m a t l a b 文件形式存在的,包含3 个文件: u s p s t r a i n i n g d a t a m a t ( 训练集) 、u s p s t e s t i n g d a t a m a t ( 测试集) 和 u s p s f u l l d a t a b a s e m a t ( 全集) ,有7 2 9 1 个训练样本和2 0 0 7 个测试样本,每一 个模式都以1 6 1 6 的点阵形式存在,点阵的每一个元素都是一1 “+ 1 之间的双 精度实数。其中,t r a i n t a r g e t s 给出了每个模式的真实类别,比如说,一个数 是6 ,那么它在6 这个位置为l ,其余位置为一1 。每一个文件的结构及 t r a i n t a r g e t s 的实例见附录i i 。且训练集和测试集关于类别是均匀分布,即每 类所包含的样本大小是相同的。图2 - 1 ,图2 2 分别显示了从两个个样本集中 随机抽取的部分样本。显然这1 0 个数字的书写风格变化很大,而且存在着倾斜、 断笔画的现象。 一般认为机器( 计算机) 拥有手写数字图象中的特征信息越多,则它的识别 能力越强。但这种信息也并不是越多越好,因为对于特定的分类器,有些特征 可能反而降低其分类性能,这是由于许多原因造成的,如类别间的相似性,特 征的不稳定性等等。而且使机器具有的信息越多,则需要进行越多的处理,而 一般识别是受时间限制的。因此我们必须先对文字图象作相应的处理、分析, 把一个复杂问题分成若干个较易解决的小问题,使文字中的许多信息逐步表现 出来。 我们所需要的信息有: 1 宏观特征信息,需要在整幅图像上获取的特征信息: 2 局部特征信息,只需要在图像局部区域上获取的特征信息: 3 微观特征信息,只需要在部分象索点或个别象素点上获取的细微的特征信息。 第5 页一 硕士论文集成型神经网络手写件数字识别 d,oo6o2s厶o穹6os盖l0 i d9 z60zbb09uz60bz1bu ! i ! j ! ! ! ! j 苎 垒j ! | ! = l ! j ! j 鱼 ! j 叟j 璺j 墨i 全l ! j 546647361b21609026o4 356056 18206o90261601 60522617616 o4731826o - o宁9o 蠡 l7olrd5 王ez , - 902617016052209 27609 00 62618o1d 6992971d2 b07029 71028234282 122 8658287 3928217282 720 r 一一r t r 1 t r 1 r r r 1 t 广r 一一r o ! 宁舀1 【3l 备 3 i3io 色 工1 守l | oi i a l ! 二、一l l 二j - l l i j l l 一 09228362 83d3286012 b1 图2 - 1 训练集的样本 第6 页 婴主堡苎 叁盛型塑丝塑塑量兰竺墼兰望型 r f 丁雨可下雨丌丌司百陌f 可可可订订丁阿阿 l 一j l 、,l 一。j j j j 。l 。l l l 、,l 一 318o501b0013 b8206809 d 争i 君i o3叠i詹d弓)i ,工:王0吖is 09b0321b032241 296415 25516455101b4984604b 477o8409284601236662 99799756b2756日101116 7685d948 18 b85d89d067 413164141bn5241n0011 万话可_ r 丌丁i 雨可丌丌丁阿币可t 丌可i 百而m 0d1b100d71o017100201 3931010日101011000110 图2 2 测试集的样本 2 2 手写体数字的特征提取 对实验数据获得如下特征集: 1 压缩特征。抽取特征前,图像矩阵经过非线性的正规化处理成8 x 8 的图像矩 阵。则每个样本用一6 4 维的特征向量代表。 2 k i r s c h 特征。图像的预处理过程同l 。得到每个样本用一6 4 维的特征向量代 表。 3 g a b o r 特征。采用:8 x 8 采样点,4 个方向( o 。,4 5 。,9 0 。,1 3 5 。) 。抽取特征前,图 像被细化成骨架图像。每个样本用一2 5 6 维的特征向量代表。 - 第7 页 硕士论文 集成型神经网络手写体数字识别 4 l e g e n d r e 矩特征。其x ,y 各计算到l o 阶抽取特征前,图像矩阵经过简单 的归正化处理,将矩阵中表示数字笔画的值的个数归正为3 0 0 个。每个样本用 一1 2 1 维的特征向量代表。 j p s e u d o z e m i k e 矩特征。计算到8 阶。图像的预处理过程同4 。每个样本用一 3 6 维的特征向量代表。 6 z e m i k e 矩特征。其被计算到第9 阶。图像的预处理过程同4 。每个样本用一 3 0 维的特征向量代表。 7 质心层次特征。抽取特征前,图像被细化成骨架图像。每个样本用一1 5 0 维 的特征向量代表。 2 2 1 压缩特征的提取 假设原图像为f ( m ,1 2 ) ,m = 1 ,2 ,m ,n = l ,2 ,n ,正规化后的 图像为g ( i ,j ) ,i = 1 ,2 ,i ,j = l ,2 ,j 。 设h ( m ) ,v ( n ) 分别为笔画像素在水平和垂直方向上的投影函数。 h ( 珑) = f ( m ,h ) ,1 1 1 2 1 2 m = i m 矿( ”) - - z f ( m , ) ,n = l ,2 ,n h = 1 ( 2 1 ) 非线性正规化处理方法的目的:通过坐标变换,使得规范化后图像的特征 在空间上尽量均匀分布。 i 扛( 七) ,日( 七) : j j = z v ( k ) ,倭矿( 七) ik = l,f = 1 此式表明了原始图像的像素( m , 为减少特征维数,将规范化后1 6 x i 6 缩特征。 ( 2 2 ) n ) 在规范化后图像中的对应位置( i ,j ) 。 图像压缩为8 x 8 维,它构成了字符6 4 维压 2 2 2i o r s e h 特征的提取 手写休和印刷体字符主要都是线画图,即二维空间中的一维结构。因此局 部线段特征是一种比较好的特征。即在给定的方向上,图像中的每一个位置是 否存在一个线段。k i r s e h 定义了一种非线性增强算法如下: g ( f ,护m “ l ,m 酬5 s 7 i 一3 t 后i 1 k - - - 0 3 ) ll 其中s 。= a 女+ 4 + 彳m ,丁。= 4 m + 4 + 么m + 4 舢+ 么m 第8 负 集成型神经网络手写体数字识别 上式中彳k = o ,1 ,7 为像素( i ,j ) 的八邻域,且其下标对8 取模。邻 域的具体位置见图。此处的g ( i ,j ) 为点( i ,j ) 处的梯度值。对规范化后大小 为16 x 1 6 的图像,分别利用k i t s c h 提出的方法来抽取水平方向h 、垂直方向v 、 右对角方向r 和左对角方向l 上的特征。具体的计算见公式,其相应模板见图。 由此得到了4 个1 6 x 1 6 维的图像,为减少特征维数,将其分别压缩为4 个4 x 4 维的图像,它们构成了字符6 4 维k i r s c h 特征。 第9 页 硕士论文 集成型神经网络手写体数字识别 a da a 2 a t ( i ,j ) a 3 虬氏 儿 p b55 - 3o 一3 3- 3 - 3 邻域位置 i 一3 - 33 1 3 03 i 5 55 a ) 水平方向h 【 一33 5 一3 o p 0 ; 卜。 - 3- 3 53 3 5 o- 3 i 53 - 3 b ) 垂直方向v 一35 5 【 一300 l 一33- 3 i 一3 3- 3 3 05 - 35 5 l 一3 - 3- 3 i 5 o一3 i 5 53 对角线方向r 0 53 0 0- 3 - 33 - 3 对角线方向l 图2 - 3 k i t s c h 模板 硕士论文 集成型神经网络手写体数字识别 g ( i ,) = m a x ( 1 s s o 一3 t 0 i ,15 s , 3 瓦i ) g ( i ) r r = m a x ( 5 s 2 3 五i ,| 5 s 6 3 t 6 1 ) a ( i ,) r = m a x ( 1 5 s 1 3 正i ,f 5 s 一3 t 5 i ) g ( i ,) = m a x ( 5 s 3 3 五i ,l5 s 7 3 t 7 1 ) ( 2 4 ) 他鸸 鹕阳坤m 甓+ 珊e 印( z 刳 s , 其中r f = x c o s 口k + y s i n o k ,r = 一x s i n r k + y c o s 臼k ,a 和吼分别是正弦平 面波的波长和方向,万:和万:分别是x 和y 方向的标准方差。一般幺的取值 如下:馥:生墨石,k :1 ,2 ,聊,其中j l 】表明方向数。g a b 。r 函数最优地同时 达到空间域和频率域的局部化,即在空i 日q n 部化的同时,具有很窄的频率和方 向响应。g a b o r 特征可以视为在给定采样点处g a b o r 滤波器的响应值,此响应 值通过将图像与滤波器卷积得到,g a b o r 滤波器抽取与方向有关的频率特征。 对经过预处理的细化二值图象,找到字符的最小外接矩形,将此矩形扩展 一定的大小a ,在扩展后的区域中均匀抽样得到大小为n x n 的图像f ( x ,y ) 本文 中采用8 x 8 采样点,取以下4 个方向( 0 。,4 5 。,9 0 。,1 3 5 。) 。 在像素( x ,y ) 处,方向为巩的g a b o r 特征的计算公式如下: g ( x , y ,皖,口,文,毛) = l f + i ,y + ,) 厂( ) l ,( 2 - 6 ) 此处j z j 表示对复数z 取模运算。 由上获得的g a b o r 特征具有尺度、平移不变性。 2 2 4 矩特征的提取 基于矩的特征抽取主要是计算图像与给定的二维多项式乘积在给定范围内 第1 1 页 硕士论文 集成型神经劂络手写体数字识别 的积分值,此积分的形式如下: = j p ( x ,y ) h 。( x ,y ) d x d y ,其中f ( x ,y ) 是二维字符图像,h p q ( x ,y ) 是x 方向上p 阶、y 方向上q 阶的多项式。 在实际的运算时,这些积分值是通过在离散区域上的求和来近似的。多项 式的形式有许多种,最为简单是k ( z ,y ) = x p y v ,由此获得的是图像的几何矩 这里我们抽取了l e g e n d r e 矩、z e m i k e 矩与p s e u d o z e m i k e 矩特征。 为使得到的矩特征具有尺寸不变性,需要对原图像进行规正化。 设图像长宽分别为m ,n ,f ( x ,y ) 表示图像上点( x ,y ) 的值,笔划像素值为1 ,背 景像素值为0 。规正化使笔划的像素总数为“,此处取u = 3 0 0 。令 = ,( z ,y ) a , c a y ,现在需要获得一长宽为m a , n a 的新图像,( 薯j ,) ,使得 f 7 ( 工,y ) 出方= ,而 m o o = 盯,( 五y ) 蚴= ,盯f 7 ( x a , y a ) d x d y = 盯f ( z ,y ) d x d y = a 2 , 狲m 涵 0 ( 2 7 ) 因此日= m o o 伽 故只要将原始图像长宽等比例放大口= 鬲。伽倍即可。 以下三种矩特征均是对用以上方法预处理过的图像计算得到的。 2 2 4 1l e g e n d r e 矩特征的提取 图像f ( x ,y ) 的( p ,q ) 阶l e g e n d r e 矩k ,定义如下: = “砟( x ) 岛( y ) 足x ,y ) d x d y , 其中昂( 垆砑1 丽d p ( 矿,p q ( 班南嘉( 冉驴雕 ( 2 - 8 ) 在离散的情况下,计算可由下式逼近: k :m n 印 i ) p q ( y i ) f ( 工j ,) 血缈 ( 2 _ 9 ) ,。i j = l 硕l j 论文 集成型神经网络手写体数字识别 l e g e n d r e 矩不具备旋转不变性。 2 2 4 2z e r n i k e 矩特征的提取 z e r n k e 引入了在单位圆( x 2 + y 2 = 1 ) 内部构成完备正交集的一组复多项 式。 令这组多项式表示为k ,。( z ,y ) , 则( x ,y ) = v ( p ,0 ) = r # m ( 力e x p ( j m o ) , ( 2 1 0 ) k c p ,= h 蒌2 c 一1 ,5 j i i 巍p ”孙,其中n 是正整数或。, m 是正整数或负整数,满足n 圳= 偶数且h s p 是原点到点( x ,y ) 的距离, 0 是点( x ,y ) 到原点的矢量与x 轴逆时针方向的夹角, 这组多项式满足: 刿叫+ ”川蚴一7 7 + 7 = 器巍( 2 _ 1 1 ) n 阶m 级重复度的z e r n i k e 矩计算如下: 爿。= - n + i z f ( x ,y ) 矿二( p ,口) ,z 2 + y 2 l ( 2 1 2 ) 2 2 4 3p s e u d o z e r n i k e 矩特征的提取 p s e u d o z e r n i k e 矩与z e m i k e 矩比较相似,它们的不同在于对吃。( p ) 的定 义,在p s e u d o z e r n i k e 矩中,( p ) 定义为 蹦加争卜丽带糯广。 其余的与z e r n i k e 矩的计算是一样的。 同样,p s e u d o - z e r n i k e 矩也具备旋转不变性。 由于正交矩特征的计算较为复杂,故需要一种快速而且精确的算法。步骤 硕j 一论文 集成型神经网络手写体数字识别 如一f : 1 计算得到图像的几何矩特征。 2 为将图像的有效大小包含在要求的外接圆或外接矩形中,对这些获得的几何 矩还需进行一些相关计算。 3 将这些值变换为相应的矩特征。具体将几何矩转化为对应的l e g e n d r e 矩、 z e m i k e 矩与p s e u d o z e r n i k e 矩的过程见参考文献 4 。 2 2 5 质心层次特征的提取 对经过预处理的细化二值图象,计算字符的最小外截矩形,其左上角顶点 坐标为( ,) ,右下角顶点坐标为( x iy 1 ) 。 计算矩形框内字符的质心坐标如下: 质心的垂直坐标咒。将外截矩形分为上下两个子区域,同理可分别计算两个 子区域的质心坐标。重复该过程,在外截矩形的垂直方向上确定分布不均匀的 1 5 个特征抽取位置l y f o ,y c l ,y c l 4 ) a 对质心的水平坐标鼍o ,同样可在外 截矩形的水平方向上确定分布不均匀的1 5 个特征抽取位置 ( t o ,砭,鼍l 。) 。这种不均匀分块的方法,可以在一定程度上克服无约束 手写体数字由于字形的千百万化所引起的不稳定性。 分别从字符的左、上两个方向抽取特征。 1 左侧层次特征( 从左向右扫描) 定义字符的左侧第一层层次特征为三u ) ,= 卫。,卫。,咒,。, 三7 ( ) 的值为从左向右扫描字符时,第一次遇到厂g ,) = 1 时的水平坐标 值,即 l ( j ) = m i n n 呼 i lf t i ,) = 1 ,五 ,j = y c o 咒1 ,y c l 4 字符的左侧第n 层层次特征r ( ,) = y c o , y c l ,儿1 4 定义为从左向右扫 第1 4 砒 “ 厂 冬嘞兰娜量唧笠 八“y 八 _ x j 弘 兰嘞兰珊 硕士论文 集成型神经网络手写体数字识别 描字符时, 第n 次从”0 ”跳变到”1 ”时的水平坐标值。递归公式如下 l ”( j ) = m i n m i n 厶_ ( ) 八朋扔= , j 2 y c o ,l ,y c l 4 ,” 1 2 上方层次特征( 从上向下扫描) , 同理,从上方抽取的特征为: u ( i ) = m i n m i n ( f ,) = 1 ,h u ”( ) = m i n 呼n u “( ) 八巾,舻 z = x o ,x l ,x ,1 4 ,九 l 为了确保特征的位移不变性,分别对f ( ,) ,u ”( f ) 进行规一化使特征值在 o 1 。 v ( j ) = ( r ( ) + 1 ) ( 一x o + 1 ) u ”( f ) = ( u ”( “) 一甄+ i ) ( m y o 十1 ) 滓o ,1 ,1 4 ,j = 圪o ,咒1 ,圪1 4 将以上两个方向获得的层次特征合并起来,即得到字符的质心层次特征, 其中n 由实验获得,取值为5 。故抽取的特征维数为2 x 5 x 1 5 = l s o 。质心层次特 征将手写数字在空间的二维分布转化为一维,便于识别分类;并且特征抽取过 程简单,易于实现。 2 3 参考文献 1 韩宏,”多分类器组合及其在手写体数字识别中的应用”中文学术期刊, 2 0 0 0 年4 月,第1 4 页一第2 7 页 2 金忠、胡钟山等,”手写体数字有效鉴别特征的抽取与识别”计算机研究与 第1 5 页- 硕士论文集成型神经网络手写体数字识别 发展,第3 6 卷,第1 2 期,1 9 9 9 年1 2 月,第1 4 8 5 页一第1 4 8 6 页 3 a b h ij i ts p a n d y a ,r o b e r tb m a e y 著徐勇、荆涛等译,神经网络模 式识别及其实现( p a t t e r nr e c o g n i t i o nw i t hn e u r a ln e t w o r k si nc + + ) ,电 子工业出版社 4 l i a os i m o nx a n dp a w l a km i r o s l a w ,o ni m a g ea n a l y s i sb ym o m e n t s i e e et r a n s p a m i ,v 0 1 1 8 ,n o 3 ,p p 2 5 4 2 6 6 ,1 9 9 6 第1 6 页 硕士论文集成型神经网络手写体数字识别 第三章手写体数字的分类器设计 分类器的设计是模式识别问题中最为关键的问题。针对模式特征的不同选 择及其判别决策方法的不同,可将模式识别方法大致分为五大类:统计模式分 类法、句法结构方法、逻辑特征法、模糊方法、神经网络方法。 1 其中神经网 络方法就是使用人工神经网络方法实现模式识别。可处理一些环境信息十分复 杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变, 神经网络方法的缺点是其模型在不断丰富完善中,目前能识别的模式类还不够 多,神经网络方法允许样品有较大的缺损和畸变,这正是识别存在较大噪声的 手写体数字的识别所需要的。在数字识别中l o 个数字并不多,所以用神经网络 方法实现不必考虑其识别类不够多的问题 2 鉴于以上分析,神经网络模式识别具有良好的容错能力、分类能力强、并 行处理能力和自学习能力等原因,神经网络成为手写体识别较好的选择。 3 1 神经网络分类器 人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据 逻辑规则进行推理的过程:它先将信息转化成概念,并用符号表示,然后根掘符 号运算按串行方式进行逻辑推理:这一过程可以写成串行的指令,让计算机来执 行。然而,直观性的思维是将分布式存储的信息并行协同处理的过程。譬如说, 我们常常无意识地将分布在大脑各部位的信息综合起来,结果是忽然间产生想 法或解决问题的方法。这种思维方式的根本之点在于以下两点: 1 信息是通过神经元上的兴奋模式分布存储在网络上: 2 信息处理是通过神经元之间同时相互作用的动态过程来完成的。 人工神经网络就是模拟人思维的第二种方式。它是一个非线性动力学系统, 其特色在于信息的分布式存储和并行协同处理。神经科学研究表明,生物神经 系统是由大量的神经细胞或神经元广泛相互连接组成的,一个神经元与另一个 神经元密切接触,传递神经冲动,实现信息传递。人的大脑皮层是由六个不同 的功能区组成的,上面布满了大约1 0 ”个神经细胞,它相当于一万台大型计算 机并行运行。所以说,人脑是一个广泛相互连接的复杂非线性系统,这种系统 具有特殊的信息处理功能。研究人的大脑的目的就是试图模拟人脑信息处理机 制,来设计新一代智能型计算机,所以,工程上研究的都是人工神经网络( a n n ) 的范畴。美国的神经网络学家h e c h tn i e l s e n 给出人工神经网络的一般定义: 第1 7 页 硕士论文 集成型神经网络手写体数字识别 神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算 机系统,该系统是靠其状态对外部输入信息的动态响应来处理信息的。 3 图3 2 人工神经元模型 用数学表达式对神经元进行抽象和概括,令x ,( r ) 表示t 时刻神经元j 接收 的来自神经元i 的信息输入;o j ( f + 1 ) 表示1 + i 时刻神经元j 的信息输出,则 ( 3 - 1 ) 其中,b j 表示神经元的阈值;国f 表示神经元i 到j 的权重值;厂( ) 表示神 经元转移函数。有一点需要说明的事,上式是为了简单起见,将突触时延取为 单位时间。 输入总和常称为神经元在t 时刻的净输入,用下式表示: n e t m ) = 甜 一( r ) ( 3 2 ) 同样是为了简单起见,本论文在后面用到上式时,常将其中的( t ) 省略。如 果令= 一1 ,0 9 。,= b ,则有一b ,= x o r - o o ,因此净输入与阚值之差可表达为; n e t 。j - b j = n e t j = 薯( 3 - 3 ) 综上,神经元模型可简化为: ( 3 4 ) 虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系 统所能实现的行为却是极其丰富多彩的。与常规的算法相比,神经网络具有集 体运算的能力和自适应的学习能力。另外,它还有很强的容错性和鲁棒性,善 于联想、综合和推广。 - 第1 8 页- 硕士论文 集成型神经网络手写体数字识别 人工神经网络模型各种各样,目前己有数十种,它们是从各个角度对生物 神经系统不同层次的描述和模拟。代表的模型有感知机、多层映射b p 网、r b f 网络、h o p f i e 2 d 模型、8 0 l l z m a n n 机、自适应共振理论( a r t ) 等等。 在这些模型和算法中,b p 算法是比较成熟的算法之一,根据k o l m o g o l o v 定理,由输入层、隐层和输出层组成的三层网络可实现输入信号的任何非线性 连续函数,所以本文选择使用三层的神经网络模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论