已阅读5页,还剩50页未读, 继续免费阅读
(信号与信息处理专业论文)高精度手写体数字的识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高精度手写体数字的识别 高精度手写体数字的识别 摘要 本文建立了一个二级b p 神经网络手写体数字识别系统,在这个 系统的实现过程中,本文的工作主要有以下几个方面: 1 针对本文所使用样本库和神经网络的特点,系统提取了包括压缩 特征、k i r s c h 特征、g a b o r 特征、l e g e n d r e 矩特征、p s e u d o z e m i k e 矩特征、z e m i k e 矩特征和质心层次特征在内的七类共1 0 9 维特征向 且 里o 2 对于传统的b p 算法存在的一些局限,如学习率和动量因子在迭代 过程不是变量,不能适应复杂的误差曲面,其收敛性对输入样本特性 和连接权值的选取比较敏感,收敛速度往往相当慢;而且在学习过程 中,经常陷入误差函数值局部极小状态,而达不到预定的收敛精度; 本文通过引入自适应学习率及动量因子等对b p 算法这些局限进行了 一定程度的改进。 3 对一级b p 网络分类器进行了分析,提出采用二级b p 网络实现分 类器。对试验的样本库进行了大量的统计和试验,并以此为依据对二 级b p 神经网络分类器进行了设计和实现,进一步用实验论证了使用 二级b p 网络实现分类器的优越性。 4 给出了整个识别系统的设计方案和实现流程,并介绍了系统仍需要 北京邮电大学硕士学位论文 进一步改进的地方。本文建立的二级b p 神经网络手写数字识别系统 的实验结果表明该系统在一定程度上提高了手写数字识别的精度。 除此之外,对于应该引一部深入研究的问题,如隐藏层单元数目 的选择等,本文也进行了简单的探讨。 关键词:模式识别神经网络b p 算法手写体数字识别特征提取 , 北京邮电大学硕士学位论文 高精度手写体数字的识别 h i g ha c c u r yh a n d w r i t i n gd i g i tr e c o n g n i t i o n s y s y t e m a b s t r a c t i nt h i sp 印e r ,as y s t e mb a s e do nt w og r a d eb pn e u r a ln e t w o r ki ss e t u p d u r i n gt h ei m p l e m e n t i n go ft h i sh a n d m i t i n gd i g i tr e c o g n i t i o ns y s t e m , t h em a i nw o r ki sd o n ea sf o l l o w i n g : 1 10 9d i m e n s i o n sf e a t u r e so fs e v e nt y p e sf o rh a n d 、r i t t e n d i g i t s b a s e do nd i f f e r e n tc o n s i d e r a t i o n sa r ee x t r a c t e d ,w h i c ha r e 印p l i e dt h e t w o 伊a d eb pn e u r a ln e t w o r ks y s t e m 2 m a k es o m ei m p r o v e m e n t so nb pn e u r a ln e t w o r kt oq u i c k e nt h e n e t 、v o n ( c o n s t r i n g e n c ys p e e d a n dt oa v o i d f - a k esa 七u r a t i o n p h e n o m e n o n f o re x a m p l e ,c h a n g et h el e a m i n g f a c t o r 3 a n a l y z e dt h es h o r t c o m i n g so fo n eg r a d eb pn e u r a ln e t w o r k ,a n d b yag r e a t d e a lo fs t a t i s t i c w o r k ,s u g g e s t e d t o i m p l e m e n tt h e h a n d w r i t i n gd i g i tr e c o g n i t i o ns y s t e mw i t ht w og r a d e b pn e u r a l n e t w o r k a n db a s e do nt h es t a t i s t i cr e s u l t sd e s i g n e dt h es e c o n dg r a d e o fb pn e u r a ln e t w o r k i l l u s t r a t e dt h ea d v a n t a g eo ft h et w og r a d e n e u r a ln e t w o r ks y s t e m 4 t h er e s u l to ft h ee x p e r i m e n ts h o wt h a tt h et w og r a d en e u r a l n e t w o r ks y s t e mc a ng e th i g h e rc o r r e c tr a t ea tac e r t a i ne x t e n tt h a nt h e o n e g r a d eb p n e u r a ln e t w o r k 一 北京邮电大学硕士学位论文 高精度手写体数字的识别 p l u s ,ab r i e fd i s c u s s i o na b o u tt h eq u e s t i o n sw o n ht ob es t l l d i e d 如r t h e ri sg i v e ni nt h ee n d k e yw o r d s :p a t t e mr e c o g n i t i o nn e u r a ln e t w o r kb p a l g o r i t h m h a n d 、v r i t i n gd i g i tr e c o g n i t i o ns y s t e m f e a t u r e se x t r a c t i o n 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论 本人签名: 处,本人承担一切相关责任。 嗍趁哗社 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部 门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学 本人签名 导师签名 适用本授权书。 日期迎墨筝至缦望目 日期: 北京邮电人学硕士学位论文高精度手写体数字的识别 第一章绪论 1 1 手写体数字识别问题的提出 北京邮电人学硕1 :学位论文茴精度f 写体数的识别 尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距真j 下意 义上的实用还有一定距离。而在手写体数字识别这个方向上,经过多年研究,研 究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了 一种解决方案。 这几年来我国开始大力推广的”三金”工程在很大程度上要依赖数据信息的 输入,如果能通过手写体数字识别技术实现信息的自动录入,无疑会促进这一事 业的进展。因此,手写体数字的识别研究有着重大的现实意义,一旦研究成功并 投入应用,将产生巨大的社会和经济效益。 手写体识别被认为是模式识别领域最后一个堡垒。针对这一问题,各个领域 的专家和学者也提出了各种各样的解决方法,并取得了一定的成果。在我国邮电 部第三研究所,以信函分拣为目的,识别书写在信封上的邮政编码。其他用传统 方法进行识别研究的有中国科学院自动化研究所,该所对手写体数字识别的研究 历史几乎有2 0 年,在他们新近的报告中,利用有限状态自动机为主的识别途径 识别1 1 0 0 个手写体数字,识别率达9 5 2 ,拒识4 ,误识0 2 。上海交通大 学基于压缩子结构特征的手写体数字识别算法选取1 2 6 0 0 个样本组成训练集, 6 0 0 0 个样本组成测试集,用b p 网络进行分类,识别正确率为9 7 5 8 ,误识率 为1 0 4 ,拒识率为1 3 8 e 德国e9 ,的f r i e d h e l ms c h w e n k e r 采用s v - i m f 4 0 对手写体数字进行识别,测试样本1 0 0 0 0 个,识别正确率为9 8 5 6 清华大学采 用s v m 对金融票据中的手写体数字进行识别,测试样本2 0 0 0 0 个,识别率约为9 2 。 这些系统,要么对书写的f 规程度有要求,要么其测试样本和训练样本出于同一 批人之手。总之,一般的系统对书写人员限制较多,或者对书写的正规程度有要 求,或者对书写位置有要求,或者对所用笔、纸有要求,例如对税务报表的识别 就要求用规定的字型书写数字,并且对书写的位置有要求,而真正的无限制手写 体数字识别的研究还有待进一步提高。 1 3 本文的内容安排及结构 第4 章介绍了手写体数字谚 别问题的提出和研究的进展概况。 舀:第二章讨论了手气j 体数。j t 特征抽耳义办法,分析了不同的特征抽取办法对手 北京邮电大学硕士学位论文高精度手写体数字的识别 写体识别的不同影响,并在此基础上对实验数据得到了7 个不同的特征集。 第三章对手写体数字识别中使用到的b p 神经网络分类器进行了研究,详细 介绍了神经网络分类器的设计过程。为提高网络的收敛速度和避免网络假饱和现 象,对传统的神经网络做了一些改进。 第四章,并分析一级b p 神经网络的结果和存在的闯题,针对一级b p 网络的 局限采取了二级b p 神经网络分类器进行识别,同时对实验中遇到的一些问题进 行了探讨。给出了整个识别系统的设计方案和实现流程,并介绍了系统仍需要进 一步改进的地方。 1 4 参考文献 1 罗晓斌、董守斌等,”集成型神经网络手写体数字识别”计算机工程,第2 8 卷,第8 期,2 0 0 2 年8 且,第6 9 页 2 韩宏,”多分类器组合及其在手写体数字识别中的应用”中文学术期刊,2 0 0 0 年4 月,第1 页 北京邮 u 人学硕一i 二学位论文苛精度于写体数,的识别 第二章手写体数字的特征提取 2 1 手写体数字训练库和测试库的建立 本文使用的实验样本集取美国邮政服务数据库u s p s ( u sp o s t a ls e r v i c e ) 中的政编码集。u s p s 数据库是以m a t l a b 文件形式存在的,包含3 个文件: u s p s t r a i n i n g d a t a m a t ( j i i 练集) 、u s p s t e s t i n g d a t a m a t ( 沏4 试集) 芹口 u s p s f u l l d a t a b a s e m a t ( 全集) ,有7 2 9 1 个训练样本和2 0 0 7 个测试样本,每一 个模式都以1 6 冰1 6 的点阵形式存在,点阵的每一个元素都是一1 + 1 之间的双精 度实数。其中,t r a i n t a r g e t s 给出了每个模式的真实类别,比如说,一个数是6 , 那么它在6 这个位置为l ,其余位置为一1 。每一个文件的结构及t r a i n t a r g e t s 的实例见附录工i 。且训练集和测试集关于类别是均匀分布,即每类所包含的样 本大小是相同的。图2 1 2 2 分别显示了从两个个样本集中随机抽取的部分样 本。显然这1 0 个数字的书写风格变化很大,而且存在着倾斜、断笔画的现象。 一般认为机器( 计算机) 拥有手写体数字图象中的特征信息越多,则它的识 别能力越强。但这种信息也并不是越多越好,因为对于特定的分类器,有些特征 可能反而降低其分类性能,这是由于许多原因造成的,如类别间的相似性,特征 的不稳定性等等。而且使机器具有的信息越多,则需要进行越多的处理,而一般 识别是受时间限制的。因此我们必须先对文字图象作相应的处理、分析,把一个 复杂问题分成若干个较易解决的小问题,使文字中的许多信息逐步表现出来。 我们所需要的信息有: 1 宏观特征信息,需要在整幅图像上获取的特征信息: 2 局部特征信息,只需要在图像局部区域上获取的特征信息: 3 微观特征信息,只需要在部分象素点或个别象素点上获取的细微的特征信 鼠。 北京邮电人学硕士学位论文高精度手写体数字的识别 则每个样本用一3 2 维的特征向量代表。 2 k i r s c h 特征。图像的预处理过程同1 。得到每个样本用一1 6 维的特征向 量代表。 3 g a b o r 特征。采用:4 个方向( o o ,4 5 。,9 0 。,1 3 5 。) 。抽取特征前,图像被细化 成骨架图像。每个样本用一1 6 维的特征向量代表。 4 l e g e n d r e 矩特征。抽取特征前,图像矩阵经过简单的归正化处理,每个 样本用一8 维的特征向量代表。 5 p s e u d o z e m i k e 矩特征。计算到8 阶。图像的预处理过程同4 。每个样本 用一8 维的特征向量代表。 6 z e m i k e 矩特征。其被计算到第9 阶。图像的预处理过程同4 。每个样本用 一8 维的特征向量代表。 7 质心层次特征。抽取特征前,图像被细化成骨架图像。每个样本用一2 4 维的特征向量代表。 压缩特征的提取: 假设原图像为f ( m ,n ) ,m = l ,2 ,m ,n = 1 ,2 ,n ,正规化后的图 像为g ( i ,j ) ,i = 1 ,2 ,i ,j = 1 ,2 ,j 。 设h ( m ) ,v ( n ) 分别为笔画像素在水平和垂直方向上的投影函数。 日沏) 2 荟f ,z ) ,m _ 1 ,2 ,k ,m m y ) 2 善f 沏,z ) ,n _ 1 ,2 ,k ,n ( 2 1 ) 非线性正规化处理方法的目的:通过坐标变换,使得规范化后图像的特征在 空间上尽量均匀分布。 2 毒日 卜j 莓日 。2 2 , 卜荟y 阶,荟y ) 北京邮电人学顼i :学位论文岛精度于弓体数字的识别 k i r s c h 特征的提取: 手写体和印刷体字符主要都是线画图,即二维空间中的一维结构。因此局部 线段特征是一种比较好的特征。即在给定的方向上,图像中的每一个位置是否存 在一个线段。k i r s c h 定义了一种非线性增强算法如下: g o ,) = m a x 1 ,m a x 1 5 s 尼一3 丁j i :i 【 七l o j ( 2 3 ) 其中s t 2 4 t + 彳m + 彳m , 丁t 。4 脯+ 彳m + 彳脯+ 彳m + 彳m 上式中4 t ,七= o ,1 ,k ,7 为像素( i ,j ) 的八邻域,且其下标对8 取模。邻 域的具体位置见图。此处的g ( i ,j ) 为点( i ,j ) 处的梯度值。对规范化后大小为 1 6 x 1 6 的图像,分别利用k i r s c h 提出的方法来抽取水平方向h 、垂直方向v 、右 对角方向r 和左对角方向l 上的特征。具体的计算见公式,其相应模板见图。由 此得到了1 6 :l :1 6 图像,为减少特征维数,将其压缩为4 x 4 维的图像,它们构成了 字符1 6 维k i r s c h 特征。 北京邮电大学硕士学位论文高精度手写体数字的识别 g ( f ,j ) 日= m a x q 5 一3 l ,1 5 叉一3 疋i ) g ( f ,_ ) y = m a x q 5 s 2 3 砭i ,i5 s 6 3 瓦1 ) g ( f ,歹) r = m a x q 5 墨一3 五l ,1 5 一3 瓦i ) g g ,j k = m a x q 5 s 一3 毛i ,1 5 s 7 3 易1 ) ( 2 4 ) 胁叼蚺一十陋补x p 5 , 其中墨= z c o s 吼+ ys i n 嚷,q = 吣s i n 吼+ yc o s 吼,旯和吼分别是正弦 平面波的波长和方向,l j i :和6 ;分别是x 和y 方向的标准方差。一般吼的取 值如下:吼= 与万,七= 1 2 ,k ,垅,其中m 表明方向数。g a b 。r 函数最优地同 采用8 x 8 采样点,取以下4 个方向( o o ,4 5 。,9 0 。,1 3 5 。) 。 在像素( x ,y ) 处,方向为吼的g a b o r 特征的计算公式如下: g ,y ,吼,口,以,6 y ) = i 芝f + i ,y + ,) 厂( ) l 此处i z l 表示对复数z 取模运算。 北京邮电人学硕f :学位论文高精度手写体数字的识别 矩特征的提圾: 基于矩的特征抽取主要是计算图像与给定的二维多项式乘积在给定范围内 的积分值,此积分的形式如下: m p 孽2 盯厂o ,y ) 砟q o ,y 蚴,其中f ( x ,y ) 是二维字符图像, ,y ) 是 x 方向上p 阶、y 方向上q 阶的多项式。 在实际的运算时,这些积分值是通过在离散区域上的求和来近似的。多项式 的形式有许多种,最为简单是办胛 ,) ,) = z p 厂,由此获得的是图像的几何矩 这里我们抽取了l e g e n d r e 矩、z e m i k e 矩与p s e u d o z e m i k e 矩特征。 为使得到的矩特征具有尺寸不变性,需要对原图像进行规正化。 设图像长宽分别为m ,n ,f ( x ,y ) 表示图像上点( x ,y ) 的值,笔划像素值 为1 ,背景像素值为0 。规正化使笔划的像素总数为弘,此处取2 3 0 0 。令 m 0 0 2 驴。,y 出匆,现在需要获得一长宽为m a ,n a 的新图像j f l ,g ,y ) ,使得 篇 ,现在需要获得一长宽为m a ,n a 的新图像tb ,y ) ,使得 f 7 ,y 矽= 肛,而 。2 题f ,y ) 蛐2 题f7 口,y 肛) 蚴2 觑:f ,y ) 删y = 口2 ,( 2 7 ) 因此口2 m o o 弘 故只要将原始图像长宽等比例放大口2 朋o o 似倍即可。 以下三种矩特征均是对用以上方法预处理过的图像计算得到的。 l e g e n d r e 矩特征的提取 图像f ( x ,y ) 的( p ,q ) 阶l e g e n d r e 矩0 - ,定义如下: 九。= ,正p p ( z ) p 。( y ) f ( 训) 蚴 削,删= 南。等酽- 1 ) p 舭) 2 南。嘉睁驴胙 _ 1 ,1 北京邮电火学硕士学位论文 高精度手写体数字的识别 。 mn 颀= 刀似) 朋( y f 沙似,刃) 血缈 z e r n i k e 引入了在单位圆( z 2 + y 2 = 1 ) 内部构成完备正交集的一组复多项 令这组多项式表示为o ,川, 则0 ,y ) = y ( p ,a ) = 如( j d ) e x p ( 加们, ( 2 1 0 ) j号睨n(,)=n警2(二1)5:ii;j!:一,h一2s zz ,其中n 是正整数或 o ,m 是正整数或负整数,满足您一l 历l 。偶数且f 垅is 咒,p 是原点到点( x ,y ) 的距离, 工题。阮) k 肋2 南屯2 尽巍阻 如= 竿f 肜二( ”) ,x 2 + y 2 s1 p s e u d o z e r n i k e 矩特征的提取: p s e u d o z e r n i k e 矩与z e m i k e 矩比较相似,它们的不同在于对心。p ) 的定义, 在p s e u d o z e r n i k e 矩中,也。( j d ) 定义为: 洲= 扣5 丽希广5 北京邮电人学硕上学位论文苛精度f 写体数一的识别 其余的与z e r n i k e 矩的计算是一样的。 同样,p s e u d o z e r n i k e 矩也具备旋转不变性。 由于正交矩特征的计算较为复杂,故需要一种快速而且精确的算法。步骤如 下: 1 计算得到图像的几何矩特征。 2 为将图像的有效大小包含在要求的外接圆或外接矩形中,对这些获得的几 何矩还需进行一些相关计算。 3 将这些值变换为相应的矩特征。具体将几何矩转化为对应的l e g e n d r e 矩、 z e m i k e 矩与p s e u d o z e r n i k e 矩的过程见参考文献。 质心层次特征的提取: 对经过预处理的细化二值图象,计算字符的最小外截矩形,其左上角顶点坐 标为( 而,) ,右下角顶点坐标为( 而,y 1 ) 。 计算矩形框内字符的质心坐标如下: t 。= 鑫轰汉厂伽,鑫轰厂叫, y c 。2 塞轰歹厂叫,塞轰厂叫, 。2 州, 质心的垂直坐标y c o 将外截矩形分为上下两个子区域,同理可分别计算两个 子区域的质心坐标。重复该过程,在外截矩形的垂直方向上确定分布不均匀的 1 5 矩 种 。珏 北京邮电大学硕士学位论文高精度手写体数字的识别 l 7 ( 歹) 的值为从左向右扫描字符时, 值,即 第一次遇到厂g ,歹) = 1 时的水平坐标 l 7 ( 歹) = m i n 呼n 纠厂g ,) = 1 ) ,一) ,歹= 虼o ,虼1 k ,1 4 字符的左侧第n 层层次特征r ( _ ) ,j 2y 。o ,y 。- ,k ,咒1 4 定义为从左向右扫描 字符时,第n 次从”0 ”跳变到”l ”时的水平坐标值。递归公式如下: d ( 歹) = m i n 呼n f i b d 。( 歹) 人厂g = 1 ) ,_ ) 歹= 虼o ,圪1 举,虼1 4 ,挖 1 0 1 。 2 上方层次特征( 从上向下扫描) , 同理,从上方抽取的特征为: u 7 g ) = i i l i n 呼n 腓j ) = 帆) u 肝( 歹) = m i n 呼n f i b u 柚( 歹) 人厂g = 1 ) 规) , 江o ,t 1 k ,1 4 ,z 1 为了确保特征的位移不变性,分别对r ( ,) ,u a ) 进行规一化使特征值在 r ( _ ) = ( r ( _ ) 一而+ 1 ) “一+ 1 ) u g ) = ( u 疗 ) 一y o + 1 ) ( y 1 一y o + 1 ) 江o ,甏1 k ,1 4 ,歹= y c o ,圪1 k ,虼1 4 将以上两个方向获得的层次特征合并起来,即得到字符的质心层次特征,其 中n 由实验获得,取值为5 。故抽取的特征维数为2 x 5 x 1 5 = 1 5 0 。质心层次特征将 手写数字在空间的二维分布转化为一维,便于识别分类;并且特征抽取过程简单, 易于实现。 北京邮f 【:1 人学颐 :学位论文 彘精度于弓体数j 的识别 2 3 参考文献 1 李涛等,”b p 神经网络在字符识别中的设计改进”达县师范高等专科学校学 报( 自然科学版) ,第1 4 卷,第2 期,2 0 0 4 年3 月,第4 9 页 2 韩宏,”多分类器组合及其在手写体数字识别中的应用”中文学术期刊,2 0 0 0 年4 月,第2 9 页一第3 0 页 3 m a r tint ,h o w a r db d e m u t ha n dm a r kh b e a le ,n e u r a ln e t w o r kd e si g n , p p 5 1 0 , 2 0 0 2 4 k m h o r n i k ,m s t i n c h c o m b ea n dh w h i t e ,”m u l t i l a y e rf e e d f o r w a r d n e t w o r k sa r eu n i v e r s a la p p r o x i m a t o r s ,n e u r a ln e t w o r k s , v 0 1 2 , n o 5 , p p 3 5 9 3 6 6 , 19 8 9 5 张保轩,周建鹏,”用b p 网络群识别手写体数字的新方法”山东通信技术, 第2 8 卷,第8 期,1 9 9 5 年2 月,第1 5 页一第1 6 页 6 罗晓斌,董守斌等,”集成型神经网络手写体数字识别”计算机工程,第2 8 卷,第8 期,2 0 0 2 年8 月,第6 9 页一第7 1 页 7 石琼,”基于人工神经网络的手写体数字识别( 分类器) ”,2 0 0 4 年6 月, 第1 2 页一第1 8 页,第2 8 页一第3 6 页 8 a k r o g h , p s 0 1 1i c h ,”s t a t i s t i c a lm e c h a n i c so fe n s e m b l el e a r n i n g ”, p h y s i c a lr e v i e we ,5 5 ( 1 ) :8 1l 一8 2 5 ,1 9 9 7 9 王珏,”机器学习研究”,演讲稿,中国科学院自动化所,2 0 0 3 1 0 h l a p p a l a i n e n ,j w m i s k i n , ”e n s e m b l el e a r n i n g ”,a d v a n c e si n i n d e p e n d e n tc o m p o n e n ta n a l y s i s( e d b yg i r o l a m i ,m ) ,s p r i n g e r v e r l a g s c i e n t i f i cp u b l i s h e rs ,2 0 0 0 11 r e s c h a p i r e , ”ab r i e fi n t r o d u c t i o no fb o o s t i n g ”, t h e1 6 t h i n t e r n a t i o n a lj o i n tc o n f e r e n c eo na r t i f i c i a l 工n t e l l i g e n c e , 1 9 9 9 1 2 周志华,陈世福,”神经网络集成”计算机学报,第2 5 卷,第1 期,2 0 0 2 年8 月,第1 页一第8 页 1 2 张丽,”基于多分类器动态组合的f 写体数谚 别”中文学术期刊;2 0 0 3 年 1 月,第9 页一第2 2 页 1 3 1 h r c i m a n ,s t a c k e dr e g r e s s i ( 】r s ,m a c h i n ci 。e i r n in g ,v ( ) 1 2 ,1 ,p p 4 9 6 4 , 一1 北京邮电人学硕i :学位论文苛精度手写体数! 的识别 第三章手写体数字的分类器设计 3 。1 神经网络的基本理论 3 1 1 神经网络概述和定义 神经科学研究表明,生物神经系统是由大量的神经细胞或神经元广泛相 互连接组成的,一个神经元与另一个神经元密切接触,传递神经冲动,实现 信息传递。人的大脑皮层是由六个不同的功能区组成的,上面布满了大约 1 铷1 0 “个神经细胞,它相当于一万台大型计算机并行运行。所以说,人脑 是一个广泛相互连接的复杂非线性系统,这种系统具有特殊的信息处理功能。 研究人的大脑的目的就是试图模拟人脑信息处理机制,来设计新一代智能型 计算机。所以,工程上研究的都是人工神经网络( a n n ) 的范畴。美国的神经网 络学家h e c h tn i e l s e n 给出人工神经网络的一般定义:神经网络是由多个非 常简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统是 靠其状态对外部输入信息的动态响应来处理信息的。 3 1 2 神经网络的基本思想 人工神经网络是源于人脑神经系统的一类模型,是模拟人工智能的一条 重要途径,具有模拟人的部分形象思维的能力。它是 j 简单信息处理单元( 人 工神经元) 互联组成的网络,能接受处理信息,网络的信息处理由处理单元 间的相互作用来实现,它是通过把问题表达成处理单元间的连接权来处理的。 一般情况f ,人工神经网络是作为信息处理单元来模仿大脑,执行特定的任 务或完成感兴趣的功能,它是一种并行的分布式信息处理结构,通过称为连 接的单向信号通路将止譬处理单冗( 具有局部存储j i :能执行j 部信息处理能 北京邮电大学硕士学位论文高精度手写体数字的识别 力) 互联而组成。每一个处理单元的都有一个但输出到所期望的连接。每一 个处理单元传送相同的信号一处理单元输出信号。处理单元的输出信号可 以是任一种所要求的数学模型。在每一个处理单元中所执行的信息处理在它 必须完成是局部的限制下可以被任意定义,即它必须只依赖于处理单元所接 受的输入激励信号的当前值和处理单元本身所存储记忆的值。 把神经网络应用于模式识别问题包括两个截然不同的阶段。第一阶段为 训练阶段:把输入模式映射到相应分类器所需知识由权值体现,最初权值是 未知的,寻找有用权值的过程就称为训练过程。训练首先要提供训练集合, 它由输入样本和与之相应的代表正确分类的输出组成,调整权值系数,训练 集合的每一矢量是否有特定的期望输出,这是一种有监督的学习。第二阶段 称为工作阶段:权值固定不变,并且把实验数据或实际数据输入到网络时, 网络能够对其正确分类。 人工神经网络中的各个神经元的结构与功能较为简单,但大量的简单神 经元的组合却可以非常复杂,我们从而可以通过调整神经元间的连接系数完 成分类、识别等复杂的功能。人工神经网络还具有一定的自适应得学习与组 织能力,组成网络的各个“细胞”可以并行工作,并可以通过调整“细胞” 间的连接系数完成分类、识别等复杂的功能,这是冯诺依曼的计算机无法做 到的。 人工神经网络可以作为单纯的分类器( 不含特征提取,选择) ,也可以用 作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题 中,常常将字符的图像点阵直接作为神经网络的输入。不同于传统的模式识 别方法,在这种情况下,神经网络所“提取 的特征并无明显的物理含义, 而是存储在神经网络中各个神经元的连接当中,省却了由人来决定特征提取 得方法与实现过程。从这个意义上来说,人工神经网络提供了一种“字符自 动识别”的可能性。此外,人工神经网络分类器是一种非线性的分类器,它 可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决 提供了一种可能的解决方式。 神经网络对信息的处理是按照存储和回忆来实现的,存储是指将图形或 信息存在某种存储器中,而回忆是将已存储的信息按照某种方式恢复处理。 北京0 j u 电人学颐i :学位论文苛精度丁写体数,的识别 信息的存储按存储方式的不同又可以分为具有长期存储功能的内容殉职存储 器和具有短期存储功能的联想存储器,而信息的回忆又根据网络的拓扑结构 分为前馈回忆和反馈回忆两种。 3 1 3 神经网络的特点 神经网络的主要特点是: ( 1 ) 类似人脑的高度并行性 神经元之间传递信息( 神经脉冲) 是以毫秒计的,而普通计算机,信息 传递则为毫微秒数量级。但是人们往往能在很短的时间内对事物作出正确的 判断,说明人脑一定是建立在大规模并行处理基础上的,反映了人脑具有不 同的计算原理。 ( 2 ) 类似人脑的高度非线性全局作用 神经网络系统是由大量简单神经元构成的,每个神经元接受大量其他神 经元的输入,通过非线性输入、输出关系,产生输出,影响其他神经元。网 络就是这样相互制约、相互影响,实现从输入状态空间到输出状态空间非线 性映射过程。网络的演化遵循从全局性作用原则,从输入状态演化到终态而 输出。从全局观点来看,网络整体性能不是网络局部性能的简单迭加,而表 现某种集体行为;而电脑遵从串行式局域性操作原则,每一步计算与上一步 计算紧密相关,并对下一步产生影响,问题是通过算法逐步进行处理的。 ( 3 ) 类似人脑的良好容错性和联想记忆功能 人脑能够很快辨认出多年未见、面貌变化很大的朋友,能从严重模糊、 缺损的照片辨认出其原来的真实图像,说明人脑具有很强的容错性和联想记 忆功能。另外,人脑每同有大量的细胞死亡,但这并不影响人脑功能。但是 对于电脑来说,情况完全不同,元件的局部受损,程序中的微笑错误,都可 能引起严重后果,表现出极大的脆弱性。 ( 4 ) 类似人脑的自适应、自学习能力 人脑虽然受先天因素的制约,但后天因素,如经历、训练、学习等电起 厦要作用,人类很多只能活动并f i 按逻辑推理方式进行,而是由训练习惯而 自然形成的。但是这些活动往往很难说出具体的特征是什么,找不到明 矗算 北京邮电大学硕士学位论文 高精度手写体数字的识别 法,要编出程序来是十分困难的,这说明人脑具有很强的自适应、自学习能 力。 3 1 4 神经网络的学习方式 神经网络的训练方法( 学习方式) 主要包括四种: ( 1 ) 有导师( 也称外监督o u t e r s u p e r v i s e d ) 学习: 待分类的模式类别属性已知,对于每次模式样本的输入,网络输出端 都有一个对应的指导( 监督) 信号与其属性相匹配。基于网络输出端监督 信号与实际输出的某种目标函数准则,通过不断调整网络的连接权值,使 得网络输出端的输出与监督信号的误差逐渐减少到预定的要求。 ( 2 ) 无导师( 也称自组织s e l f _ o r g a n i z i n g ) 学习: 待分类的模式类别属性未知,网络的结构和连接权根据某种聚类法则, 自动对周围环境的模式样本进行学习调整,直至网络的结构和连接分布能 合理的反映训练样本的统计分布。 ( 3 )自监督( s e l f _ s u p e r v i s e d ) 学习: 待分类的模式类别属性已知。对于每次模式样本的输入,网络能够根 据样本自身的特性,基于某种法则,通过不断调整网络的连接分布,直至 得到给定的精度要求。 ( 4 ) 有导师和无导师混合学习: 待分类的模式类别属性已知。网络的内部结构和参数按照无导师聚类 方法学习,而网络输出端仍然有一个对应得指导( 监督) 信号。按照某种 准则,通过不断调整隐层与输出层的连接权值,使得网络输出端的输出与 监督信号的误差逐渐减小的预定的要求。 上面给出的四种神经网络训练方法,实际上可以根据模式样本有无属性标 记,分为有标记模式分类和无标记模式分类。对于无标记模式分类,因为不知道 模式的属性,所以一般采用无导师或者聚类的方法,对于未知属性的样本进行最 佳编码;而对于有标记的模式分类问题,大多在网络输出端设置监督信号,来强 迫输入模式经网络各层的非线性映射逼近期望的监督信号。但某些分类网络也无 外界的监督( 导师) 信号,而是直接利用所给的标记模式进行网络的连接权值的 设计或训练,所以这种方式称为无导师自监督学习方法。实际上,在实际操作过 北京邮电人学硕上学位论文盎精度于写体数字的识别 程中,即使是无导师学习或自监督学习的网络,往往也需要人为选择控制参数。 所以,从广义上来说,所有的学习方法都是有监督的学习,只不过具体形式不同 罢了。表3 一l 给出了四种学习方法用于分类器设计的性能比较。 表3 一1 人工神经网络学习方式的比较 指标模版训练分类自适白反实现推广 方式属性速度精度 应性应感 目标能力 有导师学习 有标记 慢向 强差 容易较好 自监督学习有标记快较高好强较容易较好 无导师学习无标记快中好强可变较好 混合学习有或无标记较快同好 由 容易好 3 1 4 人工神经网络方法用于文字识别的研究方向 人工神经网络方法用于识别的研究主要包括以下一个方面: 神经网络用于特征抽取与选择:通常直接将字符点阵信息送入网络进行学习 训练,由网络抽取得到的特征不具有明显的物理含义。 神经网络用于学习训练及分类器的设计:这是目前人工神经网络在文字识别 领域的主要研究方向,也是最为成功的应用。 神经网络用于单字识别后处理。 3 2 神经网络分类器 人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻 辑规则进行推理的过程:它先将信息转化成概念,并用符号表示,然后根据符号 运算按串行方式进行逻辑推理:这一过程可以写成串行的指令,让计算机来执行。 然而,直观性的思维是将分布式存储的信息并行协同处理的过程。譬如说,我们 常常无意识地将分布在大脑各部位的信息综合起来,结果是忽然间产,仁想法或解 决问题的方法。这种思维方式的根本之点在于以下两点: 1 信息是通过神经元上的兴奋模式分布存储在网络卜: 2 信息处理是通过神经元之间同时相互作用的动态过程来完成的。 人呻 经网络就足模拟人心维的第:种力。它足。个惮戈性动力学系统, 北京邮电大学硕士学位论文高精度手写体数字的识别 其特色在于信息的分布式存储和并行协同处理。神经科学研究表明,生物神经系 统是由大量的神经细胞或神经元广泛相互连接组成的,一个神经元与另一个神经 元密切接触,传递神经冲动,实现信息传递。人的大脑皮层是由六个不同的功能 区组成的,上面布满了大约1 0 n 个神经细胞,它相当于一万台大型计算机并行运 行。所以说,人脑是一个广泛相互连接的复杂非线性系统,这种系统具有特殊的 信息处理功能。研究人的大脑的目的就是试图模拟人脑信息处理机制,来设计新 一代智能型计算机,所以,工程上研究的都是人工神经网络( a n n ) 的范畴。 图3 1 人工神经元模型 x 1 a z f a x n 用数学表达式对神经元进行抽象和概括,令鼍o ) 表示t 时刻神经元j 接收 的来自神经元i 的信息输入;d g + 1 ) 表示t + 1 时刻神经元j 的信息输出,则神 经元j 的状态表达式为: 。q + 1 ) = 厂喀t 卅) ( 3 1 ) 其中,6 ,表示神经元的阈值;表示神经元i 到j 的权重值;厂( ) 表示神 经元转移函数。有一点需要说明的事,上式是为了简单起见,将突触时延取为单 位时间。 输入总和常称为神经元在t 时刻的净输入,用下式表示: 删,o ) 2 善盯毛。) ( 3 2 ) 同样是为了简单起见,本论文在后面用到上式时,常将其中的( t ) 省略。如 果令z 。= 一1 ,o = 6 ,则有一6 ,= 石。,因此净输入与阈值之差可表达为: 北京邮 u 人学硕士学位论文高精度于写作数字的识别 胎f 一,硼哆2 荟嘞鼍 综上,神经元模型可简化为: o j = f 婶e tj 、) ( 3 3 ) ( 3 4 ) 虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统 所能实现的行为却是极其丰富多彩的。与常规的算法相比,神经网络具有集体运 算的能力和自适应的学习能力。另外,它还有很强的容错性和鲁棒性,善于联想、 综合和推广。 经过对大脑的深入研究,人们经过简化、抽象和模拟,提出了若干人工神 经网络基本模型。应该指出的是,现在提出的各种神经网络模型只不过是人们现 有的对高级动物脑的研究成果中得到的一些启示,是制造智能机器工程上的一种 模型而己。这些模型反映人脑功能的若干基本特征,但并不是人脑的逼真描写, 还不能反映高级动物脑的机制,它们只是从不能得侧面模拟了人脑的功能,并已 被实验所证实。 人工神经网络模型各种各样,目前己有数十种,其中主要包括:前馈网络( 如 m a d a l i n e s 、多层感知器模型、径向基函数网络、函数链网络等) 、反向网络( c p n ) 、 脑中盒状态( b s b ) 模型、自组织特征映射( s o f m ) 、h 锄皿i n g 网络、自适应共振理 论( a r t ) 、h o p f i e l d 模型、b o l l z m a n n 机等等。 神经网络的拓扑结构一般分为两种:前馈网络和反馈网络。通常的前馈网络 包括m a d a l i n e s 、多层感知器模型( m 【。p n ) 、径向基函数网络( r b f n ) 、函数链网 络( f l n ) 、概率神经网络( p n n ) 、高阶网络( h o n ) 或函数链网络等;反馈网络通常 包括1 1 0 p f i c l d 模型、b 0 1 1 z m a n n 机、a r t 网络等。而i i a m m i n g 网络则是两种网络 形式的合成。 北京邮电大学硕士学位论文高精度手写体数字的识别 3 3b p 神经网络 3 2 1b p 算法的基本思想和学习过程 b p ( b a c kp r o p a g a t i o n ) 网络又叫误差反向传播神经网络,是由美国加 利福尼亚大学的p d p ( p a r a l l e ld i s t r i b u t e dp r o c e s s i n g ) 小组于1 9 8 5 年 提出的一种神经元网络算法,b p 模型实现了m i n s k y 的多层网络设想,如图 3 2 所示。网络不仅有输入节点、输出节点,而且还有一层或多层隐蔽节点。 图3 2 三层b p 网络模型 输出层
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 订购化工材料合同范本
- 演出舞美服务合同范本
- 置业顾问交定金协议书
- 酒店包月套房合同范本
- 2025年初中一年级物理专项突破试卷(含答案)
- 2025年初中二年级化学上学期元素化合物测试
- 酒店切割拆除合同范本
- 网络店铺加盟合同范本
- 社保局解除合同协议书
- 租房信息咨询合同范本
- 2025视觉设计师秋招笔试题及答案
- 2025年工会考试真题及答案
- 2023年食品筛选清洗机械相关行业项目成效实现方案
- 衡重式挡墙设计与施工技术要点
- DB22∕T 389.1-2025 用水定额 第1部分:农业
- 2026届广东肇庆市高三一模英语试题答案讲解课件
- 2025年广东普法考试试题及答案
- 2024年云南云天化股份有限公司招聘考试真题
- 2025年山东省公务员考试申论综合分析专项训练试卷(含答案)
- 2025版房屋租赁合同模板
- 2025-2030零工经济发展现状及平台商业模式优化策略研究报告
评论
0/150
提交评论