(通信与信息系统专业论文)手写体数字识别技术研究.pdf_第1页
(通信与信息系统专业论文)手写体数字识别技术研究.pdf_第2页
(通信与信息系统专业论文)手写体数字识别技术研究.pdf_第3页
(通信与信息系统专业论文)手写体数字识别技术研究.pdf_第4页
(通信与信息系统专业论文)手写体数字识别技术研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(通信与信息系统专业论文)手写体数字识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理r 大学硕士学位论文 中文摘要 手写体数字识别的应用非常广泛,而且要求识别有较低的误识率。传统的手写数字 识别的方法是通过提取手写数字高维数特征集,并运用特征选择方法筛选出较低维特征 集,然后通过神经网络训练得到手写数字的分类器。这种方法往往不能达到识别的高精 度要求。本文以手写数字系统的高性能为出发点,摒弃了上述方法。 本文设计的神经网络以字符图像的所有像素灰度作为输入,保证了数字字符的特征 信息的完整性。在神经网络的设计上,针对数字图像的特点,采用了卷积网络的设计方 法,卷积网络是专门针对图像识别而设计的,其权值共享的特点可以减少网络的训练参 数,使神经网络结构变得简单,适应性变强。本文的卷积网络共5 层:一个输入层、3 个中间层和一个输出层,其中中间层包括2 个卷积层。每一个卷积层的神经元组成若干 个特征图,每一个特征图为上一层与特定卷积核进行卷积的结果,这个卷积核就是该特 征图的神经元的共享权值阵列。 网络的学习算法仍然采用b p 算法,但是在传统的b p 算法上引入了二阶方法,即用 于权值更新的学习速率不再为固定值,而是与输出代价函数的h e s s i a n 矩阵有关的能自适 应的变化量。二阶方法大大加快了网络误差的下降速度。另外,采用随机输入样本,加 快了收敛速度,而且可以避免陷入局部极小,从而改善训练效果。文中选择双曲正切函 数作为激励函数,其( 1 ,+ 1 ) 的值域范围更适合本文的网络输出。对于那些网络误差小于 上次误差1 1 0 的训练阶段,因为这种情况下的权值修正量比较小,所以本文忽略这些阶 段的反向传播过程,这一处理方式提高了训练的效率。 在进行数字识别前,对待识别图片作若干处理,诸如二值化分割、去边框、字符分 割、形态学处理、去噪声、归一化处理等操作。然后将分割的字符依次通过神经网络识 别出结果。 实验结果表明,本文所采用的神经网络分类器方案针对m n i s t 库的手写数字样本具 有较高的识别率,整个系统对带边框数字字符图片也取得了较好的识别效果。 关键字:手写数字,卷积网络,b p 算法,预处理 a b s t r a c t h a n d w r i t t e nd i g i tr e c o g n i t i o ni sw i d e l yu s e d ,a n dr e q u i r e s al o w e re r r o rr a t e t h e t r a d i t i o n a lm e t h o do fh a n d w r i t t e nd i g i tr e c o g n i t i o ni se x t r a c t i n gh i g hd i m e n s i o n a lf e a t u r e s e to f h a n d w r i t t e nd i g i t sa n du s i n gf e a t u r es e l e c t i o nm e t h o dt of i l t e r o u tal o w e rd i m e n s i o n a l c o i l e c t i o n a n dt h e nt r a i n i n gt h en e u r a ln e t w o r kf o rd i g i t s sc l a s s i f i e r s t h ea p p r o a c h e so f t e n f a i l st om e e tr e q u i r e m e n t so fh i g h p r e c i s i o no fr e c o g n i t i o n t a k i n gh i g hp e r f o r m a n c e h a n d w r i t t e nd i g i t a ls y s t e m sa sas t a r t i n gp o i n t ,t h ep a p e ra b a n d o n e dt h em e t h o d t h en e u r a ln e t w o r kd e s i g n e di nt h ep a p e rp u ta l lp i x e l sg r a y s c a l eo fc h a r a c t e ri m a g ea s i n p u t s , w h i c he n s u r e si n t e g r i t yo fc h a r a c t e r i s t i c si n f o r m a t i o no fd i g i t a lc h a r a c t e r i nt h en e u r a l n e t w o r kd e s i g n ,c o n v o l u t i o nn e t w o r ki sa p p l y i n ga g a i n s tc h a r a c t e r i s t i c so ft h ed i g i t a li m a g e s c o n v o l u t i o n a ln e t w o r ki ss p e c i f i c a l l yd e s i g n e df o ri m a g er e c o g n i t i o nw h o s ew e i g h ts h a r i n g c a nr e d u c et h et r a i n i n gp a r a m e t e r so ft h en e t w o r ka n dm a k et h en e u r a ln e t w o r ks t r u c t u r e s i m p l ea n dm o t ea d a p t a b l e t h i sc o n v o l u t i o nn e t w o r ki n c l u d e s5l a y e r s :a ni n p u tl a y e r , t h r e e m i d d l el a y e ra n da no u t p u tl a y e r , w h e r et h em i d d l el a y e rc o n s i s t s o ft w oc o n v o l u t i o n l a y e r s t h en e u r o ni ne a c hc o n v o l u t i o nl a y e rc o m p o s ea n u m b e ro ff e a t h e rm a p s ,e a c ho fw h i c h i st e s u i to fc o n v o l u t i o nb e t w e e np r e v i o u sl a y e ra n das p e c i f i cc o n v o l u t i o nk e r n e lw h i c hi s a s h a r i n gw e i g h t sa r r a yo f t h en e u r o n si nt h ef e a t h e rm a p l e a r n i n ga l g o r i t h mi s s t i l lb pa l g o r i t h m t h ep a p e ri n t r o d u c e ds e c o n dm e t h o dt o t h e t r a d i t i o n a lb pa l g o r i t h m ,w h i c hw e i g h t su p d a t ei sn ol o n g e rac o n s t a n tl e a r n i n gr a t e ,b u t a d a p t i v ev a r i a b l e sr e l a t e dt o t h eh e s s i a nm a t r i xo ft h eo u t p u tc o s tf u n c t i o n s e c o n d - o r d e r m e t h o dg r e a t l ya c c e l e r a t e dt h er a t eo fd e c l i n eo ft h ec o s tf u n c t i o n i na d d i t i o n ,t h eu s i n go fa s m a l ln u m b e ro fr a n d o mi n p u ts a m p l ev o l u m es i m p l i f i e st h ee r r o rc o n v e r g e n c ec o n d i t i o n ,a n d i se a s yt oi m p l e m e n t ,a n dr a n d o mi n p u t sa v o i dl o c a lm i n i m u m ,s oa st oi m p r o v et r a i n i n ge f f e c t t h ep a p e rs e l e c th y p e r b o l i ct a n g e n tf u n c t i o na sa c t i v a t i o nf u n c t i o n ,w h o s e ( 。1 ,+ 1 ) v a l u er a n g e i sm o r es u i t a b l ef o rt h i sn e t w o r ko u t p u t f o rt h ee r r o ro ft h en e t w o r ke r r o r i sl e s st h a n1 1 0o f t h el a s tt r a i n i n gp h a s e ,t h eb a c kp r o p a g a t i o np r o c e s sw a ss k i p p e db e c a u s eo fs m a l lw e i g h t c o r r e c t i o n ,w h i c hi m p r o v e dt h ee f f i c i e n c yo ft r a i n i n g b e f o r er e c o g n i t i o nt h ep i c t u r es h o u l db e d o n es o m et r e a t m e n t ,s u c ha sb i n a r y s e g m e n t a t i o n ,t e m o v e m e n tt h eb o r d e r c h a r a c t e rs e g m e n t a t i o n ,m o r p h o l o g i c a l p r o c e s s i n g , f i l t e r i n gn o i s ea n dn o r m a l i z a t i o n t h e ni d e n t i f ys p l i t e db y t h en e u r a ln e t w o r ko r d i n a l l y 武汉理工人学硕士学位论文 e x p e r i m e n t a lr e s u l t ss h o wt h a tt h en e u r a ln e t w o r kc l a s s i f i e ru s e di nt h ep a p e rh a dh i g l l r e c o g n i t i o nr a t ef o r t h em n i s tl i b r a r yh a n d w r i t i n gs a m p l e s ,a n dt h es y s t e ma l s om a d eag o o d r e c o g n i t i o np e f f o r m e n c et ot h en u m b e ro fc h a r a c t e r si nf r a m e k e yw o r d s :h a n d w r i t t e nd i g i t a l s ,c o n v o l u t i o nn e t w o r k s ,b p a l g o r i t h m ,p r e t r e a t m e n t m 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:终因 日期:丝f 2 :苎:兰夕 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权磉留黉向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借时。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生c 签名,瘤碉导师c 签钳碍卅期砷歹,7 武汉理丁大学硕士学位论文 1 1 课题研究背景 第1 章绪论 手写数字识别可分为联机手写数字识别和脱机手写数字识别两类。相对来 说,联机识别比脱机识别要容易些。联机手写数字识别是一种利用书写板人工地、 实时地把数字输入计算机的方法,这种方法把笔划变为一维的电信号,输入的是 表示笔尖移动轨迹的坐标点序列,所以被处理的是一维的笔划串,含有笔划数、 笔划走向、书写速度和笔划顺序等信息【1 1 。而脱机手写数字识别处理的仅仅是二 维的数字点阵图象。本论文讨论的为脱机手写数字的识别。 虽然数字笔划又简单,类型也只有十种,但事实上,一些实验结果表明, 数字识别的j 下确率还有待提高。手写数字识别的难点体现在以下几点。 1 数字的笔划简单,而且差别相对较小,使得准确区分诸如3 与8 或5 与 6 等这些数字比较困难。 2 手写阿拉伯数字全球通用,使用者不计其数。书写者具有个性化的书写 习惯,即使同一书写者每次的书写结果也会有差异,这就造成了同一数字形状的 千差万别,很难做出可以兼顾各种写法而识别率极高的通用性数字识别系统。 3 在实际应用中,对数字单字识别率的要求要比普通文字识别要苛刻的多, 识别精度需要达到更高的水平。这是因为手写数字识别没有上下文,不存在语意 相关性,数据中的每一个数据又都至关重要。丽数字识别经常涉及金融、财会等 特殊领域,其对识别结果的严格性更是不言而喻。因此,国内外众多的学者都在 为提高手写数字的识别率而努力。 随着信息网络的推广,有大量的数据要输入计算机网络。而且在现代信息 社会,方方面面都要与数字打交道。目前手写数字识别主要的应用有以下三个领 域【2 j 【3 1 。 1 在邮件分拣中的应用 在邮件的自动分拣中,脱机手写数字识别往往与人工辅助识别等手段相结 合,完成邮政编码的阅读,然而在一些大城市的中心邮局每天处理量高达几百万 件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。 2 在财税、金融领域中的应用 金融财会、税务、金融是脱机手写数字识别应用的又重要领域。随着我 国经济的迅速发展,每天等待处理的财会、税务报表、支票、付款单等越来越多, 如果能把它们用计算机自动处理,无疑可以节约大量的时间、金钱和劳力,更可 以提高效率,但是在这个领域的应用不仅对数字识别的精度要求高而且要处理的 武汉理工大学硕士学位论文 表格往往不止一种,所以对识别的核心算法要求比较高。 3 在大规模数据统计中的应用。 手写数字识别在数据统计、行业年检、人口普查等领域都要进行大规模的 数据统计,此时就需要输入大量的数据,以前完全要手工输入需要耗费大量的人 力和物力。目前国内的大多数实用系统都是要求用户在规范的方格内填写,因此 这一类应用不仅相对容易,而且对识别核心算法的要求也比较低。 手写体数字识别今后将在更多的领域应用。所以手写数字识别的研究具有 很重要的实际意义。 另外,因为手写数字的模式比较简单,总的类别只有1 0 类,因此可以做为 各种算法的实验平台。而且由于阿拉伯数字的国际通用性,各国研究人员可以很 好的相互交流。所以手写数字识别的研究具有很好的理论意义。 1 2 国内外研究现状 目前研究手写体数字识别的方法有【4 l : ( 1 ) 模板匹配法 模板匹配法是模式识别中常用的基本方法之一。其基本原理是:对每个模 式类都定义一个标准的模式并将它作模板,这种方法适用于印刷体字符或受到 相当限制的手写体字符,对于脱机手写数字这种方法很难适用。 ( 2 ) 统计决策法 统计决策法是模式识别的一个经典方法,它是在概率论和数理统计的基础上 产生和发展,因其严格的数学基础,此方法发展得较为成熟。而且它也是模式识 别中能用严格的数学计算来识别字符的方法之一。该方法抗干扰能力较强,但 是较难抽取到好的特征且难以反映模式的精细结构特征。 ( 3 ) 句法结构法 句法结构法是在形式语言和自动机的基础上产生的,它能够反映模式的结 构特征,而且对模式的结构特征变换不敏感,因此多用于联机识别,但由于抽取 字符的基元比较困难,因而不是特别适用于脱机识别,同时这一方法的理论基 础不可靠,抗干扰能力较弱。 ( 4 ) 模糊判别法 模糊判别法的理论基础是模糊数学,用隶属度将模糊集合模式类划分为若干 子集,子集总数与模式的类别总数相同然后根据择近原则分类,由于隶属度函 数度量了未知样本同标准模式之间的相似程度,所以此方法能够反映出字符模 式的整体特征,并且允许待识样本有一定的变形和干扰,只是要建立合理的隶 属度函数不太容易。 2 武汉理工大学硕士学位论文 ( 5 ) 逻辑推理法 逻辑推理法以人工智能为基础。其基本原理是:运用知识库中的规则从事实 出发进行推理得到相应的结果,而每个结果都是相应的模式类。所谓知识就是 待识字符的构成规律。此法的缺点是难以得到待识字符的事实。 ( 6 ) 神经网络法 神经网络法利用神经网络的学习和记忆功能,让神经网络学习各个模式类 别中的大批训练样本,以记住各模式类别中的样本特征,然后在识别待识别样 本时将他们逐个与记忆中的各模式类别的样本特征相比较,从而确定样本所属的 类别。神经网络法通过自身的学习机制形成决策区域,不需要给出有关模式的 经验知识和判别函数,其特性由拓扑结构神经元特性决定,通过对不同状态的 信息逐一训练而获得某种映射。此方法的缺点是过分依赖特征向量的选取。为尽 可能全方位描述手写数字的特征,研究者须从不同的方面抽取相应的结构特征 或统计特征。单一识别网络的输入向量维数通常不能太低也不能太高,太低学习 达不到要求的精度,太高则导致网络规模过大,收敛困难。因此所选抽取特征向 量的各分量应当具备足够的代表性,才能够取得较好的识别效果。在实际应用中。 综合神经网络和b a y e s 分类器的优势,能够具有更好的综合分类效果,只是需要 的训练样本数较多。支持向量机( s v m ) 方法是九十年代初出现的新的分类方法, s v m 方法可以解决神经网络方法中的局部极值问题,从理论上说是全局最优 的,支持向量机在数字识别领域也是一个值得研究的方面【5 1 。 多年来,对于应用神经网络识别手写数字的研究主要集中在两个方面。 一是研究用于识别的神经网络。首先是对神经网络的结构的研究,目的是设 计出适合手写数字的神经网络结构。神经网络结构有通用多层全连通网络、遗传 神经网络、多层分组网络和适合图像识别的卷积网络等等。其次是网络算法的研 究。最经典是反向传播( b p ) 算法,在此基础上衍生了许多改进算法,比如加入动 态量的改进算法、基于遗产算法的b p 算法【6 l 等等。 二是研究用于神经网络输入的手写数字特征的提取。许多有效的特征被提出 来,例如轮廓特征、网格特征、傅里叶变换特征、对称特征( s y m m e t r yf e a t u r e s ) 1 7 1 等。并且提出了用于筛选特征的特征选择方法,比如k - w 法、直方图方法、不 确定性选择法、递归特征淘汰法1 8 j 等。但是提取适应性很强,能识别各种手写体 风格的特征集仍是一个难点。 1 3 论文研究内容 本文做了以下研究工作。 1 针对手写数字应用神经网络的方法设计了一个多层的卷积网络,该网络 3 武汉理工大学硕士学位论文 通过共享权值使得连接权数量较少,减小了网络规模。 2 介绍网络训练的算法并提出改进办法:优化激励函数、随机输入样本、 在反向修改权值的算法上引入了二阶方法以及忽略某些反向传播过程等,改善了 训练效果和效率。 3 通过一系列有效的预处理,从待识图像中提取单个字符,利用神经网络 分类器识别出手写体数字对应的数值。 1 4 论文组织结构 本文共分六章,具体章节安排如下: 第一章,介绍手写数字识别的研究背景,研究意义。 第二章,介绍了神经网络的相关理论知识。 第三章,提出样本的预处理方法,设计了一个5 层卷积网络,介绍了网络权 值更新的b p 算法,并提出训练的几点改进。 第四章,主要阐述了待识别图像的预处理技术,以及识别过程。 第五章,通过实验数据,分析比较了不同特征输入方法的区别、像素点输入 和分块输入的性能差异、训练样本数量对系统性能的影响,以及不同参数对本文 所设计的卷积神经网络的性能的影响。 第六章,对本文的工作做了总结,并对后续工作作了展望。 4 武汉理t 人学硕士学位论文 2 1 人工神经元模型 第2 章神经网络 人工神经网络的基本信息处理单位是人工神经元,其模型如图2 - 1 所示1 9 1 , 这是神经网络的构造基础。 z l z 2 图2 - 1 人工神经元模型 人工神经元模型可看作是由以下三种基本结构元素构成: ( 1 ) 若干连接:连接上的权值表示连接强度,其值可取正也可以取负,为 正表示激活,为负表示抑制。 ( 2 ) 加法器:用来求不同输入信号对相应的神经元突触的加权之和。 ( 3 ) 激活函数:因为激活函数将输入信号压制( 限制) 到允许范围之内的 某值,所以它也称为压制函数,作用是用来限制神经元输出振幅。一般,一个神 经元输出的正常幅度范围为【0 ,1 】,或者【1 ,+ 1 】。有些时候,可以给神经元增加 一个外部偏移- 量_ ( b i a s ) b l 。偏移量的功能是合理的调节激活函数的网络输入。人 工神经元i 可以用以下公式表剥1 0 j : ) ,r 一z , j - 1 ( 2 1 ) 而t ,( y l + 包)( 2 2 ) 式中,y i 表示f 单元的总体输入;z ,u = l ,m ) 表示网络的输入信号; ( 彬= 1 ,m ) 表示f 单元的突触权值;表示神经元的输出信号;包表示i 神经元 的偏移量;,( ) 表示激活函数;m 为输入信号的数目。 激活函数主要有下面三种形式i l o l : ( 1 ) 阶跃函数:当自变量小于o 时,输出0 ;当自变量大于或等于o 时, 输出1 。用该函数可以把输入分成两类,如图2 - 2 ( a ) 所示。 5 武汉理工大学硕士学位论文 m 一鼯暑 , ( 2 ) 分段的线性函数:如图2 - 2 ( b ) ,此函数在( - 1 ,+ 1 ) 的线性区域内的放 大因子是相同的,因此,该种类型的激活函数可以当做是近似的非线性放大器。 f 蜘1 ) ,一 v ( - l v 1 ) ( 2 4 ) l l ( v s - 1 ) j八1 ,) 1 o v r ( a ) 阶跃函数 j 1 - 1。 j i 、 0 上 v 7 , 1 ( b ) 分段的线性 图2 2 阶跃函数和分段的线性函数 ( 3 ) 非线性转移函数:该函数是非连续函数,定义域为实数域r ,值域为 【0 ,l 】,代表了状态连续型的神经元模型。最常用的是单极型s i g m o i d 函数,即常 说的s 型函数,它的特点是其本身及其导数均是连续的,便于计算,处理上比较 简单。s 函数定义如下: 1 f ( v ) 一去 ( 2 - 5 ) 单极型s 函数如图2 - 3 : 7 一 0 j i f o 鼻 o f 6 j 。 一 o1 0 图2 3 单极型s 函数 某些场合也采用双极性s 型函数形式: 厂( v ) 。土一1 。生 m ) 。寿一。 6 ( 2 6 ) 武汉理_ 下大学硕士学位论文 2 2 神经网络的结构和工作方式 2 2 1 神经网络的结构 神经网络就是大量功能简单的神经元通过一定的拓扑结构组成集体并行式 处理的计算结构。神经元的连接是指将一个神经元的输出送到另一个神经元作为 输入,每个连接对应一个连接权系数,不同的连接方式将得到不同特性的神经网 络。根据神经元的拓扑结构,可将神经网络分为分层网络和互连型网络两大类。 1 、分层网络 分层网络是所有神经元按照功能分为若干层的一种神经网络。通常分为输入 层、中间层和输出层。输入层用于外部信号输入,并由各输入单元传送给相连的 中l b j 层各单元:中间层是神经网络的内部处理单元层,它体现了神经网络具有的 模式变换能力,中间层层数无限制,可以没有,也可以是多层;输出层即产生神 经网络的输出【l l l 。 分层网络可以分为以下三种连接方式: ( 1 ) 单纯的前向网络:输入信号依次经过输入层、中间各层,然后在输出层 产生输出。 ( 2 ) 具有反馈的前向网络:网络本身是前馈的,但存在反馈的单元,也称隐 单元,其输出称为内部输出。反馈的结构形成封闭环路。 ( 3 ) 层内互连的前向网络:同一层内单元通过相互连接形成彼此制约的关 系。一些自组织竞争网络就采用这种拓扑结构。 2 、互连型网络 这种网络是指网络中任意两个单元之间都可能存在连接路径。互连网络又分 为局部互连和全互连【1 2 l 。 神经网络的连接方式图2 4 所示。 y l y 2 : y 3 y l y 2 : y 3 ( a ) 单纯的前向网络 y l y 2 : y 3 y 1 y 2 : y 3 ( b ) 具有反馈的前向网络 ( c ) 层内互连的前向网络( d ) 互连网络 图2 - 4 神经网络的连接方式 7 武汉理工大学硕士学位论文 对于简单的前向网络,网络能根据某一给定输入迅速产生一个相应的稳定输 出。但在相互连接的网络中,对于给定的某一输入,由某一网络参数出发,输出 在一段时间内处于动态变化中,网络的输出最终可能是稳定的,但也可能进入周 期性振荡或混沌状态。 2 2 2 神经网络的学习模式 神经网络的学习( 训练) 是指神经网络在外部输入刺激下调整自身参数,以 一种新的状态应对外部输入刺激的一个过程。神经网络这种能够从环境中学习和 在学习中提高自身性能特点是最有意义的地方,通过反复学习来达到对环境的适 应。神经网络的学习方式可以分为有教师学习、无监督学习和再励学习1 1 3 11 1 4 。 ( 1 ) 有监督学习 如图2 5 所示,有监督学习是在有“监督”指导和考察的情况下进行的学习 方式。“监督”给出了与所有输入模式p 对应的输出模式的期望输出t ,用于学习 过程的输入输出模式的集合称为训练样本集。神经网络学习系统根据一定的学 习规则进行学习,每一次学习过程完成后,“监督”都要考察实际输出a 与期望 输出t 的差别( 误差e ) ,以此决定网络是否需要再次学习,并根据误差信号调 整学习的进程,使网络的误差逐渐减小,直至达到目标性能指标为止。 输入p 实际输出a 期望输出t 图2 5 有监督学习 ( 2 ) 无监督学习 无监督学习是靠神经网络本身完成的,如图2 6 所示。网络没有现成的信息 作为响应的校正,而是根据输入的信息,根据其特有的网络结构和学习规则来 调节其参数或结构,从而使网络的输出反映输入的某种固有特性。 输入p 图2 - 6 无监督学习 8 实际输出a 武汉理:【= 大学硕士学位论文 ( 3 ) 再励学习 也叫做强化学习,介于上述两种学习方式之间。外部环境对学习后的输出结 果只给出评价信息,而不给出正确答案。神经网络学习通过强化那些受奖励的 行为来改善自身的性能。再励学习如图2 7 所示。 输入p 2 2 3 神经网络的学习规则 图2 7 再励学习 实际输出a 人类的智能,主要是通过学习获得的。人工神经网络要获得人工智能必须要 具有学习功能。因此,有关神经网络的学习规则的研究一直处于特殊重要的地 位。无论哪种学习方式,其学习过程都有一定的规则,神经网络中常用的四种学 习规则如下1 1 0 】1 1 5 】【1 6 1 。 ( 1 ) h e b b 规则 h e b b 规则是d o h e b b 根据生物学中条件反射机理,于1 9 4 9 年提出的神经 元连接强度变化的规则,属于无教师学习。h e b b 规则的内容为:如果两个神经 元同时兴奋,则它们之间的突触连接加强。如果神经元f 是神经元f 的下一层节 点,用v i 、v j 表示神经元f 和| f 的激活值( 输出) ,w i j 表示两个神经元之间的连 接权,则h e b b 学习规则可以表示为: 出屹墨r l v i v j ( 2 7 ) 其中,7 表示学习速率。 从h e b b 学习规则衍生出许多其他学习规则,这些规则都可以看作h e b b 学习 规则的变形。 ( 2 ) 误差校j 下学习算法 误差校正学习算法的适用面比较宽,它能用于非线性的学习过程,且学习 样本的数量也没有限制,甚至还能容忍训练样本中的矛盾之处,这也是神经网 络容错性能的表现方式之一。误差校正学习算法是根据神经网络的输出误差对 神经元的连接强度进行修正,属于有监督学习。 9 武汉理下大学硕士学位论文 设输入输出样本数据对为何,d ) ,k = l ,2 ,n ,其中,y 一( y p y :,y 。,) r , d 一似。,d :,d p , ) r 。把矿作为网络的输入,在连接权的作用下,可得到网络的 实际输出x 一瓴,x :,z p ) r 。设神经元f 到- 的连接权为w i j 则权的调整量为 一叼( 7 产f ( 2 8 ) 式中,叩为学习速率,x i 是第f 个神经元的实际输出,仃,表示误差函数 e 对神经元f 输入的偏导数。 e = 去【d 。 ) 一矗 ) 】2 ( 2 - 9 ) 误差校正学习算法是神经网络中非常重要的一类算法,前馈网络的b p 算法 即是误差校正学习算法。 ( 3 ) 随机学习算法 上面谈到的误差学习算法通常采用梯度下降法,存在局部极小问题。随机 学习算法通过引入不稳定因子来处理这种情况。一般而言,不稳定因子是从大到 小逐渐变化的,只要其变化足够慢,学习时间足够长,总存在一种状态使得神 经网络可从局部极小跳出,而无法从全局最小跳出,从而使网络收敛于全局最 小点。比较著名的随机学习算法有遗传算法和模拟退化算法。 ( 4 ) 竞争学习算法 有监督的学习算法不能充分反映出人脑神经系统的高级智能学习过程,人 脑神经系统在学习过程中各个细胞始终存在竞争。竞争学习网络由一组参数有 所不同,但性能基本相同的神经元构成。对于一个输入模式内各子模式的作用, 每个神经元通过互相竞争来做出不同的反映,每个神经元的激活范围遵循某种 特定的限制。 该算法的基本思想是:竞争获胜的神经元权值修正,输入状态为l ,权值增 加,状态为0 ,权值减小。学习过程中,权值越来越接近于相应的输入状态。竞 争学习属于无监督算法。 2 3 感知器 感知器是神经网络中的一种典型结构,它是一种前馈神经网络。感知器具有 分层结构,信息从输入层进入网络,逐层向前传递至输出层。根据感知器神经 元激励函数、中间层数以及权值调整规则的不同,可以形成具有各种功能特点 的神经网络f 1 7 1 。 1 0 武汉理工大学硕十学位论文 2 3 1 单层感知器 在神经网络中,感知器是用来进行模式识别的最简单的一种模型,属于前向 神经网络类型。感知器模拟人的视觉接收环境信息,并由神经冲动进行信息传 递。感知器研究中首次提出了自组织、自学习的思想,而且对所能解决所的问 题存在着收敛算法,并能从数学上严格证明,因而对神经网络的研究起了重要 的推动作用。单层感知器的结构与功能都非常简单,以至于目前在解决实际问 题时很少被采用,但由于它在神经网络研究中具有重要的意义,是研究其他网 络的基础,是学习神经网络的起点。 单层感知器模型如图2 - 8 所示,它包括一个线性的累加器和一个二值阈值元 件,同时还有一个外部偏差b ,也称作阈值,其值正负皆可。线性累加器的输出 与偏差b 的和作为二值闽值元件的输入,这样当二值阈值元件的输入为正时, 神经元就产生输出+ 1 ,反之,则产生输出1 。 姐弋 y 2 监 : y m 图2 8 单层感知器模型 仅由一个神经元组成的单层感知器只能区分线性可分的模式。唯一增强网 络分类能力的方法就是在输入层与输出层之间增加一个中间层,从而构成多层感 知器。这种由输入层、中间层以及输出层构成的神经网络称为多层前向神经网 络。 2 3 2 多层感知器 多层感知器是对单层感知器的延伸,它能够成功解决单层感知器不能解决 的非线性可分问题。其拓扑结构如图2 - 9 所示。 输入层神经元的个数的个数等于输入信号的个数,中间层层个数以及中间 层层节点的个数则视具体情况而定,输出层神经元的个数为输出信号的个数。 6 武汉理t 人学硕士学位论文 图2 - 9 多层感知器模型 多层感知器同单层感知器相比具有3 个明显的特点: ( 1 ) 多层感知器含有一层或多层隐单元。隐单元从输入模式中获得了更多 有用的信息,使网络可以完成更复杂的任务。 ( 2 ) 多层感知器中每个神经元的激活函数采用可微的函数,如s 型函数 1 1 毛。,( 只) 。瓦面丽( 2 - 1 0 ) 式中,y i 是第f 个神经元的输入信号:x i 是该神经元的输出信号。 ( 3 ) 多层感知器的多个突触使得网络更具连通性,连接域的变化以及连接 权值的变化都会引起连通性的变化。 多层感知器所具有的这些特点,使得它具有强大的计算能力从而成为一种 广泛使用的神经网络。 兰一 武汉理工人学硕士学位论文 第3 章用于手写数字识别的神经网络实现 3 1 手写数字样本库说明 当前比较有代表性的、样本数量较大的手写数字样本库有:n i s t 数据库, 由美国国家标准与技术局收集;u s p s 美国邮政服务数据库;e t l 数据库,由日 本电工技术研究所收集;i t p t 数据库,由日本邮电通信政策研究所收集;c e d a r 数据库,由纽约州立大学b u f f a l o 分校计算机科学系文本分析与识别中完成的邮 政编码的样本库。本文中使用的是m n i s t 的手写数字样本库作为训练样本集。 该数据库是n i s t 数据库的一个优化子集,包含了6 0 0 0 0 个训练样本数据集和 1 0 0 0 0 个测试用例。 3 2 样本库图片读取 m n i s t 的手写数字数据库包含训练集和测试集两个样本集共四个文件,每 个样本集包含图像文件和标签文件。图像文件存储了样本集所有样本的图像数 据,标签文件存储了样本集所有样本代表的数值标签。训练集包含6 0 0 0 0 个训练 样本,测试集包含1 0 0 0 0 个样本。文件的数据存储格式如下表所示。 表3 一l 标签文件数据格式 地址偏移 数据长度( 字节)值描述 0 0 0 040 x 0 0 0 0 0 8 01 幻数 0 0 0 446 0 0 0 0 数目 0 0 0 8l 标签值( 1 a b e l ) 其中标签的取值为0 - 9 。 表3 - 2 图像文件数据格式 地址偏移数据长度( 字节)值描述 0 0 0 04 0 x 0 0 0 0 0 8 01幻数 0 0 0 44 6 0 0 0 0 样本数目 0 0 0 84 2 8 样本行数 0 0 1 24 2 8 样本列数 0 0 1 6l 像素值 武汉理工大学硕十学位论文 像素值取值为0 - 2 5 5 。 样本提取过程:从标签文件的第5 个字节开始,每次读取一个标签值( 一个 字节) ,记作l a b e l 1 1 ;从图像文件的第9 个字节开始,每2 8 2 8 个字节数据 对应一个样本x n ,x n 表示的数字即l a b e l 1 1 。 样本如图3 - 1 所示。 国 3 3 样本图像预处理 图3 - 1 提取训练样本 样本图像不能直接使用,还需作二值化、扩边、反色等处理。 3 。3 1 二值化 初始样本图像是灰度图像,图像中的每个象素的灰度值大小决定了象素的亮 暗程度。需要对原始样本图像进行二值化处理,以便开展下面的图像处理操作。 图像的二值化就是根据一定的标准把图像中的象素分成黑白两种颜色。图像的二 值化也有很多成熟的算法。它可以采用给定阈值法,也可以采用自适应阈值法( 如 o t s u 法) 1 8 j 【1 9 l 。 这里采用的是给定阈值的方法。一般是根据要处理的图片底色来设置闽值, 根据直方图分析,样本图片底色灰度值大约在0 1 2 0 之间,所以将这个阈值设为 1 2 0 ,大于此值,置2 5 5 ,小于此值,置0 。 团园 图3 2 样本的二值化处理 3 3 2 扩边 将2 8 2 8 的样本扩成2 9 * 2 9 ,这样做的理由将在第四章的神经网络设计中给 出。 1 4 武汉理工大学硕士学位论文 方法是,在第2 9 行和第2 9 列作黑点的填充。 3 3 3 反色 原图是黑色背景,白色前景,需要进行反色 国 图3 - 3 图像的反色 样本经过一系列处理,就可以为神经网络的输入做准备了。 3 4 特征输入量的选择 在特征输入方面,总的来说可以分为两类。一类是将原始像素灰度值作为神 经网络的输入;另一类是通过结构特征和统计特征原理,提取一系列数字字符的 特征,然后通过特殊的特征选择方法选择有效的特征构成一个有效的多维的特征 集合1 2 0 甾1 。 用原始的像素灰度值作输入,有点显而易见,就是保留了数字字符图片的所 有信息。缺点是,输入的特征维数很大,加大了神经网络的复杂度,表现为需要 建造更庞大的网络,分类器的训练所需要的数据量以及判别一个分类器的好坏所 需要的数据量都随着所用特征量的数目呈指数增长i 冽。 第二类方法,优点是有效的降低了输入的特征维数,降低了神经网络的复杂 度,提高了学习效率。但是,提取到的特征很难讲对所有的手写数字类型都适用, 即使是多种较好的特征的集合也未必能显著提升分类器的性能。而且进一步抽取 新的有效特征十分困难。从实验来看,这种方法的识别效果通常是不尽如入意, 难以达到实用的价值。 本文研究的主要目标是设计一个具有高识别率的手写数字识别系统。在这个 前提下,在分类器训练方面所付出的代价是可以接受的。只要样本类型数量足够 多就可以训练出一个较好的网络。如果无需添加新的样本,就不需要重新训练网 络,那么这种训练的花销就是有限的。 因此本文的重点是如何设计一个高性能的神经网络,使得系统有高的识别 率。 把灰度值作为输入量,有两种方式:一种是不加处理,把图像的每一个像素 的灰度值全部作输入,例如样本图片的尺寸是2 9 2 9 ,那么神经网络的输入就 是一个8 4 1 维的灰度值向量。相应的神经网络的输入层神经元的数目为8 4 1 ,神 武汉理工人学硕士学位论文 经网络的规模相当庞大。另一种方式是为了输入量的维数,对图像做分块处理, 如2 9 2 9 的点阵分成5 5 的块,即每6 6 的像素点阵构成一个小块,计算每 个区域的黑点数所占比例b 。设定一个阈值b ,若1 3 b ,则该区域的表征值置 1 ;否则置0 。最后输入给神经网络的是一个2 5 维的特征向量。较之上一种方法, 神经网络的输入层神经元数目只有2 5 ,其规模大大减少。 实验表明,分块输入的方式大大简化了神经网络,节省了训练时间,学习效 率高,但识别率比较低,识别效果差;像素输入的方式虽然使训练网络庞大,训 练时间大幅增加,但是训练的网络具有很好的识别效果。所以,从本文的出发点, 最终采用像素输入的方式。具体的比较数据将在第五章给出。 3 4 1 以块方式输入 将整个区域划分成n x n 个区域。然后计算每个区域内平均灰度值,然后以 某阈值为基准进行二值化,以二值化结果作为特征,这样可得到n x n 个特征。 如图3 4 所示。 3 4 2 以单个像素方式输入 5 57 7 图3 4 分块输入 对于一个t o p - d o w n 图像,从左上角开始,从左到右、从上到下一次提取每 个像素的灰度值作为网络的输入。输入向量记为g = f ( i ,j ) ,i = 0 ,1 ,2 ,2 8 ; j = o ,1 ,2 2 8 。 3 5 神经网络设计 现在神经网络已经得到了大量的应用,使用最广泛的是全连通的多层感知机 ( m l p s ) ,比如常说的三层b p 网络。按照传统的方法,在训练之前必须通过一些 1 6 武汉理r 学硕士学位论文 算法从原始的样本数据中提取特征,然后通过梯度下降算法训练多层神经网络, 就可以得到从高维特征空问到易于分类的低维特征空问复杂的非线性映射。但 是般情况下,很难确定出哪些特征是用于分类的正确的或者说好的特征。而 且,即便是排除掉特征提取的步骤,将样本的每一个像素作为一个单独的特征进 行处理鉴于各种原因,这在实际操作中仍不是妥善可行的办法。比如,如果输 人图像过大,那么建立一个m l p s 系统而需要的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论