(控制理论与控制工程专业论文)基于神经网络的手写体字符识别研究.pdf_第1页
(控制理论与控制工程专业论文)基于神经网络的手写体字符识别研究.pdf_第2页
(控制理论与控制工程专业论文)基于神经网络的手写体字符识别研究.pdf_第3页
(控制理论与控制工程专业论文)基于神经网络的手写体字符识别研究.pdf_第4页
(控制理论与控制工程专业论文)基于神经网络的手写体字符识别研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(控制理论与控制工程专业论文)基于神经网络的手写体字符识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

成浩:基于神经网络的手写体字符识别研究 abs t ract m a n u s c r ip t c h a r a c t e r r e c o g n it io n is a lw a y s a v e ry i m p o rt a n t t a s k i n t h e p a tt e r n r e c o g n it io n a n d im a g e h a n d l in g f i e ld . a r it if ic ia l n e u r a l n e t w o r k r e c o g n i t i o n m e t h o d is a n e w m e t h o d o f t h e r e s e a r c h f ie ld i n r e c e n t y e a r s , a n d t h is m e t h o d h a s s o m e m e r it t h a t t r a d it io n a l t e c h n iq u e d o n o t h a v e : g o o d t o le r a n c e f o r e r r o r , s t r o n g s o rt i n g a b il i诊s t r o n g p a r a l le l h a n d li n g a b i l it y a n d s t r o n g s e lf - le a r n i n g a b i lit y . i n s e tt l i n g r e c o g n it io n p r o b le m s , t h o s e a d v a n t a g e s m a k e it d o n o t s t i c k le o n c h o o s i n g c h a r a c t e r is t ic p a r a m e t e r a n d m a k e it a b le t o t r a in a n d r e c o g n iz e in t e g r a t e d p a tt e r n . i n a l l k i n d s o f n e u r a l n e t w o r k m o d e ls , b a c k p r o p a g a t i o n n e u r a l n e t w o r k m o d e l is a k i n d o f t h e m o s t w id e - u s e d m o d e ls c u r r e n t l y , b u t t h e u s u a l b p t r a in i n g a l g o r it h m h a s s o m e d i s a d v a n t a g e , s u c h a s t h e lo w c o n v e r g e n c e s p e e d , t h e a i m f u n c t i o n w h i c h e a s ily t r a p s i n t h e lo c a l m i n im a l . h o w e v e r , u s i n g t h e r a n d o m o p t i m iz i n g t e c h n iq u e o f t h e g e n e t ic a lg o r it h m t o t r a in t h e p o w e r a n d t h r e s h o ld o f t h e m u lt i l a y e r n e u r a l n e t w o r k , w e c a n g e t t h e b e s t a n s w e r . b a s e d o n t h e a b o v e t h e o r i e s , t h e a u t h o r o f t h is a rt ic le h a s d e v e lo p e d t h e r e s e a r c h w o r k o f t h e m a n u s c r ip t c h a r a c t e r r e c o g n it io n . b e c a u s e t h e c h a r a c t e r s t o b e r e c o g n iz e d i n c l u d e s c a p i t a l l e tt e r s , l o w e r c a s e l e tt e r s , n u m b e r c h a r a c t e r s a n d o p e r a t o r c h a r a c t e r s , t h e a u t h o r p u t s f o r w a r d a n d u s e s a s c h e m e a s a w h o le , w h ic h a d v a n c e d s o rt s t h e c h a r a c t e r s b a s e d o n t h e i r f i g u r e f e a t u r e a n d b u i lt s b p n e t t o t r a i n a n d r e c o g n i z e f o r e a c h s o rt o f c h a r a c t e r s . t h e w o r k o f t h e a d v a n c e d s o rt i n g is t o h a n d le t h e c h a r a c t e r s b i n a ry im a g e , w h ic h i n c l u d e s g e tt i n g r i d o f t h e n o is e , d iv is io n , t h i n n i n g a n d g e tt i n g t h e f e a t u r e . i n t h e a s p e c t o f t h e t h in n in g a l g o r it h m , a ft e r t h e r e s e a r c h o f a l l k in d s o f t h e b i n a ry i m a g e t h i n n in g a lg o r it h m a n d t h e a n a ly s is o f t h e t h i n n i n g r e s u lt , t h e a u t h o r c o m b i n e s t h e c l a s s ic t h i n n i n g a r i t h m e t ic a n d f o r m w o r k m a t c h in g t h in n i n g a r it h m e t i c t o t h e d e v e lo p i n g s y s t e m , a n d a l l t h e c h a r a c t e r i m a g e s t o b e h a n d le d g e t c o n t e n t t h i n n in g r e s u lt . a i m i n g a t t h e f e a t u r e s u s i n g t o s o rt t h e c h a r a c t e r s , t h e a u t h o r p u t s f o r w a r d a k i n d o f a lg o r it h m w h ic h n a m e d t h e f r a m e w o r k c h a i n c o d e d e v e lo p in g a n d f e a t u r e g e tt i n g a lg o r i t h m , a n d t h i s a l g o r it h m c a n g e t t h e s t r u c t u r a l f e a t u r e o f t h e t h i n n e d b i n a ry i m a g e q u i c k ly a n d e f f ic ie n t ly , a n d it m a k e s t h e w o r k o f s o rt i n g e a c h c h a r a c t e r c o r r e c t ly . i n t h e a s p e c t o f t r a i n i n g t h e p o w e r a n d t h r e s h o ld o f t h e b p n e u r a l n e t w o r k , t h e a u t h o r im p r o v e s s o m e e x c e l l e n t r e s e a r c h r e s u lt , a n d u s e s a k i n d o f b p n e t s m ix e d t r a in in g a lg o r it h m b a s e d o n r e a l c o d in g . a l o t o f e m u l a t i o n a n d e x p e r i m e n t r e s u lt p r o v e s t h e e ff e c t o f t h e a b o v e s c h e me a n d a lg o r it h m. k e y w o r d s : m a n u s c r i p t c h a r a c t e r r e c o g n it i o n ; i m a g e h a n d l i n g ; t h e t h i n n in g a lg o r it h m; t h e s t r u c t u r a l f e a t u r e ; n e u r a l n e t w o r k ; t h e g e n e t ic a lg o r it h m 中南大学硕生毕业论文 第一章绪论 1 . 1 字符识别技术的历史、现状及前景展望 国际上对字符识别技术的研究开始于二十世纪的六十年代,至今已 近4 0 年的历史。 按照识别的对象和方式, 字符识别可分为联机手写体字符识别、脱机印 刷体字符识别和 脱机手写体字符识别。其中脱机手写体字符识别由于输入字符图象的随意性很大,是字 符识别领域内最困难、最具有挑战性的研究课题。 随着模式识别和人工智能研究的发展,字符识别技术在近二、三十年来取得了长足 的进步,并在一些领域中获得了成功的应用。以目前在字符识别领域居于世界前列的日 本为例, 该国在九十年代初期已研制出使用高档微机的印刷、手写中英文字符识别系统, 识别字符数为3 0 0 0 字以 上, 识别速度达到1 0 5 0 字/ 秒, 识别率对印 刷体可达9 8 % -9 9 %, 对手写体 9 0 , 己完全达到实用的水平。目 前, 各国仍在不断完善字符识别的理论, 提高字符识别系统的性能。 中国是从七十年代开始进行字符识别技术的研究,当时的研究主要是用于邮政信函 分检的数字识别和计算机输入用的英文、 数字、 符号识别。八十年代开始对印刷体和手 写体汉文的识别进行原理性的研究。 九十年代以 后,各种用于微机的识别系统和软件象 雨后春笋般出现,其中部分系统己初步达到实用,并在市场销售。但是,这些系统在识 别性能上仍有很多需完善的地方。 社会的迫切需 要是字符识别技术继续发展的强大动力。未来该领域的发展将直接面 向实用系统, 面向 市场需求, 其主要表现在如下几个方面: ( 1 )从单项前馈的简单系统转变为多级反馈的复杂系统 现有的识别系统从采集图象到输出识别结果是一个串联式结构的单向 前馈简单系 统。随着计算机技术的发展,设计更为复杂的多级反馈系统成为可能。例如,分类器的 识别可以 反馈到图象预处理、 字符分割、 细化等前期处理阶段,作出 有价值的指导。 ( 2 )从孤 立字符识别 转变为组 群识别, 综合知识在系统集成中 得到充分 应用 目前的分类器一般针对孤立字符设计,忽略了字符之间具有特定相关性这一潜在信 息。以邮政编码数字识别为例,六个数字的书写风格基本一致,相互之间的特征和识别 结果可以互作参考。邮政编码字典在识别过程中有重要的应用价值。比如,我国邮政编 成浩:基于神经网络的手写体字符识别研究 码数字的第一位不可能是“ 9 ” , 如果识别器的结果是 “ 9 ” ,该识别结果必然为错。因此, 在对邮政编码数字进行识别时,深入研究邮政编码字典在整个识别系统的作用,有利于 提高识别率和降低错识率,具有重要的现实意义。 1 . 2 字符识别的研究意义 在图象处理和模式识别领域,字符识别的研究一直占 据着显著的 地位。字符, 在某 种程度上反映了图 形的一般特点,是一类特别的图形,其自 动识别一直受到人们的极大 关注,因为它的解决对于生产、生活具有非常现实的意义。 人类已 进入了 计算机时 代,计算机广泛运用于各种领域,可是在计算机的输入问题 上,基本上是人工操作。比 如程序员编制的程序是从键盘输入的,需要存档的文章、资 料也需要由操作员 逐字逐句输入计算机,邮件的分检工作仍然是由 人工 完成。 所有, 字 符的自 动识别已 成为一个迫切需要解决的问 题,它是机器智能化的瓶颈。目 前, 对于印 刷体字符的识别效果比较令人满意,已经有了 “ 读书”的机器。相对而言,手写体字符 识别的难度较大, 字符的形变、平移和尺度变化都是手写体字符识别必须解决的问题。 传统模式识别技术的关键和难点是特征提取,特征提取的好坏直接影响到识别率的 高低。近几年来, 传统模式识别方法的发展遇到了前所未有的困 难,而曾 经沉寂一时的 人工神经元理论悄然抬头, 它本身固有的并行性和学习 机理正受到各学科的密切注意p 人们对文字、图形等的识别过程,实际上是一系列联想、记忆、比较、推理和归纳等复 杂的大脑智能活动过程。 人工神经网 络正是模拟人脑生物神经系统,它的并行性、容错 能力和学习性能, 使它在解决识别问 题上不再拘泥于选取特征参数而对综合的输入模式 进行训练和识别。 针对字符的形变、平移和尺度变化,可以用神经网 络提取字符的不变 性特征以及采用3 层前传网络及b p学习算法,其缺点是学习缓慢且易陷入局部极值点。 然而, 利用其它随机优化技术,比如说遗传算法, 来训练多层神经网 络的 权、闽值,可 以实现全局最优。 1 . 3 论文结构简介 本论文的第一章主要介绍的是字符识别技术的发展历史、 现状和前景以 及该研究方 向的研究意义。第二章至第三章将简单介绍本系统开发中 用到的一些基本理论知识。第 二章介绍的是二值图象处理基本理论,第三章对误差反向传播神经网络算法和遗传算法 中南大学硕生毕业论文 的基本理论作简单介绍。 第四章是本论文的 核心和重点, 它详细介绍了 本系统的总体方案以及系统每一环节 的实现方案、实现流程和实现中遇到的问 题。 本章主要分成以下四节: 根据字符轮廓特 征对字符进行预分类、神经网络输入特征向量的提取、神经网络的识别和训练、系统测 试结果分析。其中第一节又分成字符预分类的总体方案、去噪和分割、细化算法、骨架 链码形成和特征提取算法四个部分。在神经网 络的识别和训练这一节中, 将详细介绍本 系统使用的基于实数编码遗传算法的b p 网 络的混合训练算法。 第五章将对作者在本系统开发中所作的工 作予以总结,同时展望尚未完成的工作。 成浩: 基于神经网 络的手写体字符识别研究 第二章手写体字符识别中的预处理技术 二值图 像( b in a ry i m a g e ) 是指整幅图 像页面内 仅黑 ( 灰 度值为o ) 白 ( 灰度值为1 ) 二 值 的图像。在该 类图象上面不呈现出灰度的变化。一般用于文字识别的文字图 像、进行指 纹识别的指纹图像,都属于二值图像。 在数字图像处理中,二值图像占有非常重要的地位。这是因为,一方面如文字图 像、 指纹图 像、工程图纸等图 像本身是二值的。另一方面,在某些情况下即 使图像本身 是有灰度的, 我们也设法使它变成二值图 像再进行处理( 即灰度图 像的二值化) 。 这是因为 在实用的图像处理系统中, 要求处理的速度高、 成本低, 信息量大的浓淡图 像处理花销 太大,不是上策。再说二值化后的图像能够用几何学中的概念进行分析和特征描述,比 起灰度图像来说方便得多。因 而二值图像处理目 前已 成为图像处理中的一个独立的、重 要分支而获得广返的应用。 在本章中,首先将介绍二值图 像的基本理论,然后介绍字符识别中的 预处理技术。 2 . 1 2 . 1 . 1 二值图像的基本理论 二值图像的连接性 为了 对二值图像讨论的 方便, 有必要对它某些规律性几何特征加以 描述和定义。其 中二值图像的 连接性是最基本的 概念,它在二值图 像的处理上很重要, 下面对它以 及在 数字图像处理邻域中己 确立的几个重要概念加以叙述。 1 . 邻域和邻接 对于 任意象素0 1 a, 把包含该 象素 在内的 一个集合称为 象素( i , j ) 的 邻域。 从直观 上 来看, 这是象素( i , 力及其附 近某 些象素 所形成的 一个小区域。 在 用栅格平面 表示的 数 字图像中, 最常用的是 所谓“ 某象素的4 邻域” 和 “ 某象素的8 邻域” ( 写成4 - 邻域和8 - 邻域) 。它们是这样定义的: ( i ) 象素的4 邻域 ( 4 - n e ig h b o r ) 对象素( i , j ) , 将它以 及其上( i 一 i , 力、 下( i + 1 , j ) 、 左( i , j 一 1 ) 、 右( i , j + 1 ) 点 构成的集合,称为象 素( i , 力的4 一 邻域, 有时也称为4 一 近邻 ( 2 ) 象素的8 邻域 ( 8 - n e ig h b o r ) 中 鱼 叁 塑进坐些 对象素(i , j), 将它和其上( i 一 1 , 力、下( i + 1 , 力、 素以 及对角线的四个 象素( i 一 i , j 十 1 ) , ( i 一 1 , j 一 1 ) , 集合,称为 象素。 , a的8 - 邻域, 有时 也称为8 一 近邻。 左( i , j 一 1 ) 、 右( i , j + 1 ) 四 个 象 ( i + 1 , j 一 1 ) 、( i + 1 , j + 1 ) 构 成的 象素(i , 力的4 一 邻域, 有时 也 称为 象素(i , 01a的 直接邻 域, 其 符号 表示为d 一 近邻。 一 个 象 素的8 - 邻 域, 除 去 它的d 一 近 邻, 余下 的 对 角 线 上 的4 个 象 素, 称 为 象 素( f , 力的 非 直 接 邻域, 其符号表示为1 一 近邻。所谓两个象素互相4 - 1 8 - 邻接,是指它们均存在于4 - 1 8 - 邻域 中。 2 . 象素的连接 在二 值图 像中 , 具 有 两 个 相同 数 值的 象 素a 、 和a 2 , 若 所 有 与 它 们具 有 相同 值的 象素, 能 够 在4 - / 8 一 邻 域内 构 成 一 个 从a , 到凡的 邻 接的 象 素 序 列 , 则 我 们 把 象 素a , 和a : 叫 做 4 - / 8 一 连接。 3 . 连接成分 在一个二值图像中, 如果把相互连接的象素汇集为一组的话, 就产生了 若干个 “ 0 值象素组和 ,+ i ” 值的 象素组, 我们分别称这些组为连接成分。 在连接成分中, 如果存在 与外围的一行一列的象素不相连的成分, 则把它叫做孔 ( h o l e ) 。 不包含孔的,+ i ”连接 成分叫单 连接成分。 仅含有一个象素的单连接成分叫 孤立点 ( i s o l a t e d p o i n t ) 。含有孔的 1 ” 连接成分叫多重 连接成分。 4 . 象素的连接数 在 某 个 象素 区 中 的 连 接 数, 可以 以 这 个 象素 的8 - 邻 域 值f ( x u ) 一 a x 7 ) 按 下 式 进 行 计算: n 一艺( 1 一 f ( x k ) ) 一 ( 1 一 f ( x k ) ) ( 1 一 f ( x k * m ( 1 一 f ( x k t z ) ) l k =0 _ 2 _ 4. 6 如 果x , = x 8 , 责 令x 8 = x , 通过对x象素8 一 邻域一切可能存在的值, 按上式进行计算, 其连接数总是取 0 - 4 之间的值。 象素x的 连接数作为二值图 像局部的 特征量,有着多种多样的 应用。 象素可 根 据 其 连 接 数从进 行 分 类: n , = 0 , 该 象 素 点 为 孤 立 点 或内 部 点 :n = 1 , 该 象 素 点 为 端点 ;从= 2 , 该 象 素 点 为 连 接 点 : n = 3 , 该 象 素 点 为 分 支 点 ; n = 4 , 该 象 素 点 为交叉点:为此, 通过对象素x的 连接数的计算, 也就了 解了它的 特征以 及在连接成分 中的地位,便于对它作进一步操作。 成浩:基于神经网络的手写体字符识别研究 2 . 1 . 2 二值图像的链码表示 表示二值图像的一个连接成分在屏幕上的位置有两种方法: 1 .直角坐标表示法 对连接成分的 每 一个象素 都可以 用( x , y ) 这一坐 标来 表示, 这是 我们习 惯的一 种表示 方 法。 例 如: 设 置 一 数 组 , 用n ( 1 ,1 ) 表 示( x 1 , y i ) ; 用n ( 2 ,2 ) 表 示( x 2 , y 2 ) ; . 二 ; n ( m , m ) 表 示( x m , y m ) , 连 接 顺 序 为1 - 2 - 3 -. . .- m -1 0 2链码表示 法( c h a in c o d e ) 链码表示法可看成是一种向 量表示法。 它是相互邻接两个象素按照不同的方向 给定一 个规定的数字符号 ( 或码) 。用一串 这样的 符号表示一个连接成分的方法叫链码表示法。 一个以 为( i , 力中 心的 象素, 在光栅平 面上的8 - 邻域中 只 可能存在八个方向。 对每 一个方向规定一个码 ( 如图2 - 1 所示) 。 a 3 3 a 2 2a l1 a 4 4( i介 j ) a 0 0 a 5 5 a 6 6 a7 丫 图2 - 1链码表示法 因此, 如果以a为起点的下一个象素是a o , 则可表示为a o , 它表示为a的8 一 邻 域中的 右邻。 连 接成分中 的 第三个象素的 码, 应考 虑它对第二个象素为( i , ) 时 所处8 - 邻域中 的方 位。 同 理, 连接成分中的 第四 个象素的 码, 应考虑它 对第三个 象素为( i , 力时 所处8 -邻域中的方位, . . 如此循环下去。 因此, 一个连接成分除第一个元素要赋予绝 对坐标外, 其它象素均为一些数字符号。 链码表示法具有直观, 节约内 存等优点。 特别对一封闭曲 线, 内 存可大大节省。 所 以这种表示方法在二值图像中获得了广泛应用。 中南大学硕生毕业论文 2 . 2 字符识别中的预处理技术 字符识别时,首先将写在纸上的字符经光电扫描产生模拟电 信号,再通过模数转换 为带灰度值的数字信号输入计算机。纸张的洁白度,光洁度,油墨深浅以及书写质量都 可能造成字型畸变,产生污点,飞白,断笔,交连等干扰。输入设备的鉴别率, 线性度, 光学畸变,量化过程也可能产生噪声。所以,在单个字符识别之前,要对这幅带有随机 干扰噪声的整版字符灰度值数字信号进行预处理。 预处理一般包括二值化、 行字分割、 平滑、去噪声, 规范化和细化 ( 或抽轮廓) 等。 不同的识别方法,对预处理的项目和要求有所差别。如结构识别方法,对字符规范化可 以从简,甚至不需要。有的识别方法对细化预处理要求很高,有的则不需要细化等。 2 . 2 . 1 二值化 把字符图 象带灰 度电 平的 数字 信号 处理成 二值( o , 1 ) 的 数字信号, 称为 字符图 象数字 信号二值化。 设扫描、a / d转换后的字符图象数字信号为: c= ( c ( i , j ) ) c ( i , j ) = g ( i , j )i = 1 , 2 , 3 , 二 , p ; j =1 , 2 , , 二 , 9 式中g ( i , j ) 是 象素( i , 力的 灰 度值电 平。有黑笔划的 部分,g ( i , j ) 小,白 背景 部 分则大。 最简单的 二值化可通过设定 灰度闽 值来完成。 即当g ( i , 力值比 预定闽 值大, 看 成背景, 以“ 0 ” 标记; 否则 看成 字符, 以“ 1 ” 标记。 这样经过二 值化, 上式中的c ( i , j ) 为: c ( i , j ) = 1 ( 字符 上) c ( i , j ) = 0( 空白) i = 1 , 2 , 3 , 二 。 p ; j = 1 ,2 , . . , 9 二值化的基本要求是,二值化后图象能忠实的再现原字符。具体要求为: 1 .笔划中不出现空白。 2 . 二值化后的笔划基本保持原来字符的特征。 二值化的关键在于阐 值t的 选择,下面是一种常用的闭值t的选择方法: 1 .由灰度直方图设定闭值t 灰度直方图 给出了 一 幅图 象灰 度值的 概貌描述, 设 规范化 灰度值9 的范围 为 。 毛 成浩:基于神经网络的手写体字符识别研究 g_ p k , ) 式中, f ( i , j ) 是 一 页 字 符二 值图 象, l 是 行长, k , p l p 2 , . . . i p k + ; 是 大 于 零的 常 数。 同理,行下界用下式判断,满足时则i 为行下界。 ( 艺 f ( i , j ) 、 9 , ) a . . . a ( 艺 f ( i + m , j ) 9 , , )a ( 艺f ( i + m + l , j ) = 0 ) 式中 ,m , 9 i 9 z , , 9 m a 是 大于 零的 常 数。 2 .字分割 从左到右搜索一行字符的左右界,切分出单个字符。对于每一字符行来说,由于 字符宽窄不同,并存在字符间的交连、字符间的污点干扰,使得字切分比行切分要困 难的多。若只考虑字符之间至少存在一列空白列的情况,可根据这一条件对单个字符 进行分割。 生 吏 2 登里丝竺生生一一一一一一一 2 . 2 . 3 平滑和规范化 1 . 平滑 字符图象经平 滑处理,能去掉孤立的噪声、干扰,平滑笔划边缘。一种简单的平滑 处理方法如下。 采用n x n( 一般为3 x 3 ) 辅助矩阵 对二 值字符点阵 进行扫 描。 根据辅 助矩阵中 各 象素 值的 分 布, 使 处于 矩阵 中 心 的 被 平 滑的 象素x 。 从“ 0 ” 变 成“ 1 ” , 或 从“ 1 ” 变成“ 0 , 完成平滑处理。 平滑算法如下。 x 0 = x o x 3 - x , - ( x i + x s ) + ( x , - x s - ( x s + x , ) ) + x o ( x s + x 7 ) . ( x n + x 5 + x c ) + ( x , + x 2 + x s ) + ( x , + x s ) - ( x 6 + x , + x s ) + ( x z + x 3 + x 4 ) 式 中 , x 。是x 。 点 平 滑 处 理 后 的 值 上 式 也 包 括 平 滑 掉 孤 立 黑 点( 四 周 为 白 点 ) 或 孤 立白 点 ( 四 周为黑点) 。当 然, 在字符识别中, 不一定都需要平滑处理。 2 . 规范化 字符扫描输入, 经二值化和平滑后, 有时需要规范 化处理。 所谓规范化, 就是把字符 尺寸变换成统一大小, 字符位置 ( 旋转、平移) 纠正,字符笔划粗细变换等字符图象的 规格化处理。在字符识别中,也不一定都需要规范化处理。 2 . 2 . 4 细化 许多字符识别方法在预处理中都很重视对二值化字符的细化处理。 直观来说, 细化就 是将二值化字符点阵逐层剥去轮廓上的点, 变成笔划宽度只有 1 个象素宽 度的字符骨架 图形。 之所以需要细化处理, 是因为在二值化点阵图形中, 对识别有价值的文字特征信 息主要集中在字符骨架上,细化后的字符骨架既保留了原字符绝大部分的 特征, 又利于 特征提取。 细化后骨架的存储量比 原来的二值化字符点阵要少的多, 降低了 处理工 作量。 字符细化的基本要求如下: 1 .保持原有字符笔划的连续性, 不能由于细化造成笔划断裂。 2 .要细化为单线,即笔划宽度只有 1 个象素宽。 3 .细化后的骨架应尽量是原来笔划的中心线。 成浩:基于神经网络的手写体字符识别研究 第三章 误差反向传播神经网络算法和遗传算法 3 . 1 3 . 1 . 1 误差反向传播神经网络算法 误差反向传播神经网络算法概述 误差反向 传播神经网 络简称为b p ( b a c k p r o p a g a t i o n ) 网 络,它是由 非线性变换单元组 成的前馈网络。 b p网 络由 输入层、隐含层( 可为一层或多层) 和输出层构成, 各层之间实 现全连接。 b p网 络的学习由四个过程组成: 输入模式由 输入层经中间层向 输出 层的 “ 模式顺 传播”的过程,网 络的 希望输出与网 络实际输出之差的误差信号由 输出 层经中间层向 输 入层逐层修正连接权的“ 误差反向传播”的过程,由“ 模式顺传播” 与“ 误差反向传播” 的反复交替进行的网络 “ 记忆训练”过程,网络趋向收敛即网络的全局误差趋向极小值 的 “ 学习收敛” 过程。归结起来为, “ 模式顺传播” 一 “ 误差反向 传播” 、 “ 记忆训练” * “ 学习收敛”过程。b p 网络学习规则有时也称广义s 规则。 b p学 习 算 法 的 基 本 思 路 为 : 设 有 个p 输 入 学 习 样 本x x 2 ,. , x p , 对 应 教 师 t l i t 2 i ., t p , 将 实 际 的 输 出 y i , y 2 , 。二 , y , 与 t 1 i t 2 i.i t , 的 误 差 来 修 改 连 接 权 和 阂 值 , 使 输 出与要求尽可能接近。 沿信 息 流 方向 , 设b p 网 络相 邻3 层 的 典 型 节点 分 别为i , j 和m , 则 节点j 的 输入 可表示为: x , 一 i y , w o 其 中 , y , 是 节 点i 的 输 出 , w , 是 节 点 之 间 的 连 接 权 值 。 定 义f , ( ) 为 节 点 的 节 点 函 数 , 则 y , = f , ( x , ) 一般取非线性函数为: f ( x ) = 1 / ( 1 + e - ) 定义e为系统输出的误差函数,并定义 9 1 二 a e i a x , 则 有 :a e l a 叽 = a e i a 1 ; x a x , i a 叽= 6 , y , 中南大学硕生毕业论文 当i 为输出节点时, 有 s , = a e 1 a x , = a e l o y a y , / a x , = o e l a y , x f , ( x , ) 令平方形误差函数: e = 习y - y . ) 1 2 则 沿 误 差 减 尔 的 方 向 有 : 戈 一( 兀 氏 ) ,(3 .1 ) 故可根据( 3 . 1 ) 式直接计算。 当 i 为 隐 节 点 时 , 由 于a e / a 乙为 复 合 函 数 , 故 需 作 如 下 分 解 : a e l a y 二 j : a e l a x m x a x , l a y ; = 1 s . w 因 此 , 有 : 切 a e ! a 叽 二 s , y , 8 , 一 f , ( x ; ) 艺s . w ,. (3 .2 ) 这样, 公 式 ( 3 . 1 ) . ( 3 .2 ) 提供了 一种 通过 误差反向 传播方式计算网 络 权值偏导数的 递推 算法,即b p 算法。 例如,网络共m层,第一层为输入节点,第m层为输出节点,学习 样本有n个,则b p 算法步骤如下: ( 1 ) 选定初始权值w; ( 2 ) 重复以 下过程直到收敛: a . 从m = 1 到n , 计 算珠, x 。 和y 。( 正向 过 程) , 对 各 层从m到2 反向 计算 ( 反向过程) ; b . 对 同 一 层 节 点 竹e m, 由 式 ( 3 . 1 ) ,( 3 .2 ) 计 算 气: ( 3 ) 修正权值: 叽( n o + 1 ) = 叽( n o ) + 柯( n o ) , 7 0 其中: d ( n o ) = - a称为动量因子。 成浩:基于神经网 络的手写体字符识别研究 3 . 1 . 2 误差反向传播神经网络的映射与容量分析 1 . 映射作用 b p 网络中的1 1 0关系可以 看作是一种高度的非线性映射关系, 而它的信息处理能 力取决于简单的非线性函数的多次组合。下面, 给出几个相关的定理。 定理1 : k o l m o g o r o v 定理 ( 连续函 数表示定理) 给定任一 连续函 数 : e 0 -* r 0 , 4) ( x ) = y , 这里e 是闭 单 位区间 0 , 1 ) ( e 可视 为m维单位立方体) , 中由一个三层神经网络实现, 此神经网 络的第一层有m个处理 单元,中间层有 ( 2 m + 1 )个处理单元,第三层有n 个处理单元。 定理2 : b p网络构造定理 给 定 集 合 ( x p y i ) l ( x 2 . y 2 ) . . , ( x l i y z ) , 此 集 合 是 连 续 函 数中 : s - s 的 动 作 集, 5 用 和s ” 分 别 是 m 和n 维欧 式 空 间 的 单 位圆 , 且 对所有i = 1 ,2 , . . .,l 有o ( x ) = y , , 可 构 造 具 有 ( 2 m + 2 n + l ) 个 处 理 单 元 的 五 层 神 经网 络 来 实 现函 数vv , 使w ( x , ) = y, 并 且 使 x , 比 其 它 所 有 x , ( i x 幻更 趋 近 xe s , 。 这 样 y = yr ( x ) 将 更 接 近 于 y . 更 进 一 步 , 如 果 , 存 在 , 那 么 网 络 就 可 以 自 动 地 实 现 映 射 v - 1 , 在 交 换x 和y 后 仍 具 有 以 上 性质。 最后, 对 任意一 个具 有( 2 m + 2 n 十 n ) 个处理单元的五 层 神经网 络都能 构造出来, 使 v ( x ) = y , 和 yy 一 , ( y ) = x , ( 若 w 一 , 存 在 ) 对 所 有i 都 近 似 成 立 , 误 差 在 最 小 均 方 差 的意义一 都被极小化。 定理3 :令袱x) 为 有界单调 递增连续函 数, k为r ” 的 有界闭 合子 集,固 定层数 k = 3 。 对任何连续映 射t : k - + r ( 即x- f) , 可由一 个k 层 ( k - 2 个隐 层) 网 络的1 / o映 射来 逼近, 此网 络隐 单元的 输出 为武x) , 而输入和输出 单 元的 关系是线性 的,即 对任何连续映 射f: k- r 和任意 0 , 存在一个k层 ( k = 3 ) 网 络可一 致逼近此映射。 定理4 : 给定任意 0 和任意函 数f : 0 ,1 1 r - r 气 存在一个三 层b p 网 络, 它可在任意平方 误差精度内 逼近f= 上述定理从理论上证明了b p 网 络的可行性和实用性。 定理1 确保了 在一连续函数或 映射均可由 一个三层神经网 络实现: 定理 2 , 3 , 4则为构造网络提供了 可行的方法。从 这些理论中可看出, b p 网 络是通过对简单的非线性函数的复合来完成映 射的, 它在此基 础上为发展数学映射、 变换和函数提供了工具, 使许多实际问题都可化为用b p网络来解 _史 m 竺巡 vp * i丝卜一一一 一一 -一一- 决问题,如模式识别、系统辨识、图象处理、信号检测等。 从理论上说, b p网络可实现任意连续函数的映射,但从具体实现上存在很多问题有 待进一步研究。 2 . 容量分析 定理5 :线性可分函数定理 r “ 中n 个向 量上的 齐 次 线 性 可 分函 数 个数b ( n , d ) 满足 d-l艺间 b ( n, d ) _ n / ( 1 + l o g 罗 ) 结论: 从前面的定理知, 一个三层的b p 神经网络可完成任意n 维到m维的映射。 对 实际问 题, 输入层与 输出 层神经元的数目 总是给定的, 所以设计网 络时我们所需确定的 只是隐含层神经元的数目 , 但隐含层神经元数目 的确定一直是个十分复杂的问 题。 定理5 . 6 在理论上给了 很好的 证明。 当 然, 在实际应用时还需要进一步根据具体要求来确定其数 目。 3 . 1 . 3 误差反向传播神经网络的容错性、鲁棒性和泛化能力 这里,先给出几个定义。 定义 1 :当网 络中的部分节点或连接权失效时,网络仍能正常工作 ( 对于 前向 无反 馈网 络) 或稳定 ( 对于反馈网络)的 输入输出 关系特性称为网络的 容错性。 定义 2 :当 输入信息或网 络参数发生有限振动时,网 络仍能 保持正常 ( 对于前向 无 反馈网络) 或稳定 ( 对于反馈网络)的 输入输出关系特性称为网络的鲁棒性。 定义 3 : 对于同一样本集中的非训练样本,网络仍能 给出正确的 输入输出关系的能 力称为网络的泛化能力。 对于 b p网 络,当 部分隐节点失效或网 络间的连接权值发生突变时,网 络的 特性将 如何变化通常是不可与测的, 即信息的分布式存储和加工是网络具有容错性的必要条件, 成浩:基于神经网 络的手写体字符识别研究 而不是充分条件。 b p网络的鲁棒性则依赖于网络参数取值时系统附近误差曲面的具体形态。 当曲面较 为平缓时,网络的鲁棒性就好;否则,网络的鲁棒性就差。而使曲面在参数取值处平缓 的主要方法是选用平滑的节点函数,但平滑的节点函数不利于提高网络的学习速率。所 以,在实际应用中还应根据具体情况和要求进行折衷。 b p网络的泛化能力依赖于网络的结构和训练样本的特性,而网络的结构与隐节点 数、隐层数和隐节点的函数特性有关。 3 . 1 . 4 误差逆传播神经网络算法存在的问题和改进方案 b p 算法理论依据坚实, 推导过程严谨, 所得公式对称优美, 物理概念清楚 ( 误差的 反向 传递) , 通用性强。由 于这些优点, 它仍然是多层前向网络的 最主要的学习算法。 尽管b p 算法有上 述贡献和优点, 但人们在使用中 发现b p 算法本身也存在许多不足 之处。主要有如下三点: 1学习过程收敛速度缓慢; 用b p 算法所得的网络性能差; 易限于局部最小。 为了 提高 误差反向 传 播算法的 收 敛速度, 人 们提出了 很多 变学习 率77 和变动量因 子 a的方案。 例如以 启发式原则提出的 变学习率方案, 这类方案的依据是 b p算法是梯度 法。训练开始时, 误差较大, 应使用大的学习率。随着误差减小, 为避免振荡和局部极 值, 应逐渐 减小 学习 率 。 参 考 文 献 1 7 , 1 8 1 中 给出 了 如 下 调 整17 的 方 法: 77 ( t ) = 17 ( t 一 1 ) ( 1 一 c / p ) 其中,c 为一常数,p为学习周期 ( 即样本总数) 。 77 ( t ) = 17 o ( i 一 t / n ) 其中,77 。 为 初始步长,n为一正整数。 同时,为了 提高利用b p 算法训练的神经网络的网络性能,即改善b p 算法的泛化能 力。一些学者提出如下措施: 措施 1 :在反传 ( b p )学习中对输入信息注入噪声 一些学者在实 验中发 现, 将噪声加入训练所需的输入样本能大大增强所得到的网 络 的泛化能力 ( 参考文 献 1 5 p 。 m a t s u o k a 从数学上 给出了 将噪声注 入输入 有这样效果的 原 q a 鑫 pyp t tr 1 竺兰一 一 一 因 。 其 方 法 是 在 网 络 训 练 输 入 中 加 入 均 值 为 0 l 方 差 为 s i 几 ( 与 , 为 n c x n * 阶 单 位 阵 ) 的随机躁声。其中 在训练过程中根据网络目 标函数e的变化而变化。当e比 希望的一 定精度大时,值 减少 ,当e达到一定精度后,则值 增大 。 这里 为足够小 的量。 ma t s u o k a 的分析表明:噪声注入输入实质上相当于在b p算法的最小二乘型目 标函 数e上加入网络输出对网络输入变化的灵敏项 这样b p 算法的训练过程将使网络输出对 网络输入变化的敏感性逐渐减小,因而所得到的网络的泛化能力有较大的提高。 噪声注入法不仅对大网络有效,而且对减小到一定程度的小网络也是有效的。 但应 注意, 噪声注入法的前提是网络实现的从输入空间到输出 空

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论