(计算数学专业论文)基于特征提取和神经网络的手写数字识别.pdf_第1页
(计算数学专业论文)基于特征提取和神经网络的手写数字识别.pdf_第2页
(计算数学专业论文)基于特征提取和神经网络的手写数字识别.pdf_第3页
(计算数学专业论文)基于特征提取和神经网络的手写数字识别.pdf_第4页
(计算数学专业论文)基于特征提取和神经网络的手写数字识别.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算数学专业论文)基于特征提取和神经网络的手写数字识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士论文基于特征提取和神经网络的手写数字识别 摘要 数字识别是文字识别中的一个研究课题。由于识别类型规模较少,在实际 生活中有深远的应用需求,一直得到广泛的重视。近年来借助计算机技术的飞速 发展,数字识别在电子商务,机器自动输入等场合已经获得成功的实际应用。 对于文字识别,目前已经发展了很多种方法,它们是基于神经网络算法, 基于笔划特征的算法,基于遗传算法,基于小波变换算法,基于傅立叶变换算法, 基于支持向量机算法和基于模板匹配算法等等。另一方面,手写数字识别的难度 在于其变体极多。目前对各类字体的数字识别特别是脱机手写数字识别仍然处于 在发展阶段,识别效果仍然不够理想。因此,研究简单高效的手写数字识别依然 是一个重要的研究方向。本文通过分析和提取数字的外轮廓特征,网格特征和笔 划密度特征和其他的统计特征,并结合使用m a t l a b 工具箱中提供的人工神经网 络函数设计了一种手写数字识别的新方法。实验表明,该方法可以获得较好的识 别率。 关键词:数字识别,特征提取,人工神经网络 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 h a n d w r i t t e nn u m e r a lr e c o g n i t i o nb a s e do nf e a t u r ee x t r a c t i o na n dn e u r a ln e t w o r k m a j o r : c o m p u t a t i o n a lm a t h e m a t i c s n a t n e :c h e ny i n a n s u p e r v i s o r :y a n g l i h u a a b s n a c t h a n d w r i t t e nn u m e r a lr e c o g n i t i o ni sab r a n c ho fc h a r a c t e r r e c o g n i t i o n a n d a t t r a c t e dg r e a ta t t e n t i o nb e c a u s eo fi t sl e s s e rc l a s s i f i c a t i o nb u tf a ra n db e n e f i c i a l d e m a n di n p r a c t i c e f u r t h e r m o r e ,w i t h t h e r a p i dd e v e l o p m e n t o f c o m p u t i n g t e c h n o l o g yb y r e c e n ty e a r s ,n u m e r a lr e c o g n i t i o nh a sf o u n ds u c c e s s f u la p p l i c a t i o n so n e - b u s i n e s s ,a u t o m a t i ct r a n s l a t i o na n do t h e rf i e l d s p e o p l eh a v ed e v e l o p e ds o m em e t h o d so nt h er e s e a r c ho fn u m e r a lr e c o g n i t i o n n o w a d a y s t h e ya r eb a s e do nn e u r a ln e t w o r k ,s t r o k ef e a t u r ee x t r a c t i o n ,g e n e t c a l g o r i t h m ,w a v e l e tt r a n s f o r m ,f f rt r a n s f o r m ,s v ma l g o r i t h m ,t e m p l a t em a t c h i n g a l g o r i t h ma n de t c h o w e v e r , o f f l i n en u m e r a lr e c o g n i t i o nh a ss t i l lo n i t sd e v e l o p i n g s t a g ea n dt h er e c o g n i t i o nr a t ei s s t i l ln o tv e r yp e r f e c td u et ot h ev a r i e t yo fw r i t t e n s t y l e s f o rt h e s er e a s o n s ,t of i n ds i m p l ea n de f f e c t i v em e t h o d s i ss t i l lac h a l l e n g i n g t a s k i nt h i sp a p e r , an o v e lm e t h o di sd e v e l o p e db ye x t r a c t i n gt h ec o n t o u rf e a t u r e s , l a t t i c ef e a t u r e s ,s t r o k ef e a t u r e sa n do t h e rs t a t i s t i c a lf e a t u r e s ,a n dt a k i n ga d v a n t a g eo f t h ea r t i f i c i a ln e u r a ln e t w o r kf u n c t i o n so fm a r l a bt o o l b o x e x p e r i m e n t sa l ec o n d u c t e d t os u p p o r to u r a l g o r i t h m k e yw o r d s :n u m e r a lr e c o g n i t i o n ,f e a t u r ee x t r a c t i o n ,a r t i f i c i a ln e u r a ln e t w o r k n 中山大学硕士论文基于特征提取和神经网络的手写数字识别 1 1 模式识别 1 1 1 模式识别的构成 第1 章引言 本文研究的脱机手写数字识别是模式识别的一个分支,因此先对模式识别作 简单的讨论。什么是模式和模式识别? 广义地说,存在于时间和空间中可观察的 事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式 是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式 所属的类别或同一类中模式的总体称为模式类( 或简称为类) 。而“模式识别”则是 在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。回顾模式识 别的历史,模式识别诞生于二十世纪二十年代,随着四十年代计算机的出现,五 十年代人工智能的兴起,六十年代初迅速发展成为一门学科。它所研究的理论和 方法在很多科学和技术领域得到了广泛的重视,推动了人工智能系统的发展,其 中也包括了文字识别系统的迅速发展。 模式识别的研究主要集中在两方面,即研究生物体( 包括人) 是如何感知对 象的,以及在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是 生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范 畴:后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经 取得了系统的研究成果。 一个计算机模式识别系统基本上是由三个相互关联而又有明显区别的过程 组成的,即数据生成、模式分析和模式分类。数据生成是将输入模式的原始信息 转换为向量,成为计算机易于处理的形式。模式分析是对数据进行加工,包括特 征选择、特征提取、数据维数压缩和决定可能存在的类别等。模式分类则是利用 模式分析所获得的信息,对计算机进行训练,从而制定判别标准,以期对待识模 式进行分类。 中山大学硕士论文基于特征提取和神经网络的手写数字识别 1 1 2 模式识别的方法 有两种基本的模式识别方法,即结构( 句法) 模式识别方法和统计模式识别 方法【2 6 】。利用模式与子模式分层结构的树状信息所完成的模式识别工作,就是 结构模式识别或句法模式识别。统计模式识别是对模式的统计分类方法,即结合 统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。 特别指出的是,统计模式识别已经在天气预报、卫星航空图片解释、工业产品检 测、语音识别、指纹识别、医学图像分析等许多方面已经得到了成功的应用。本 文的研究对象是手写数字的识别问题,采用的也是统计模式识别的方法。 在统计模式识别中,贝叶斯决策规则从理论上解决了最优分类器的设计问 题,但其实施却必须首先解决更困难的概率密度估计问题。b p 神经网络直接从 观测数据( 训练样本) 学习,是更简便有效的方法,因而获得了广泛的应用,美中 不足是目前它还是一种启发式技术,缺乏指定工程实践的坚实理论基础。统计推 断理论研究所取得的突破性成果导致现代统计学习理论v c 理论的建立,该 理论导出了一种新的学习方法支撑向量机【2 8 】。 1 1 3 模式识别的最新进展 近年来,不同领域的研究又带动了一些新的模式识别方法。其中就有共享核 函数模型、粗糙集理论方法、仿生模式识别( 拓扑模式识别) 等。下面分别介绍 一下。 1 共享核函数模型 概率密度估计构成一个无监督的方法,该方法试图从所得到的没有标记的数 据集中建立原始密度函数的模型。密度估计的一个重要应用就是它可以被用于解 决分类问题。 广泛应用于统计模式识别中密度估计的方法之一是基于混合密度模型的。根 据期望最大( e 脚算法得到了这些模型中有效的训练过程。在参考文献【2 0 】中,作 者指出,按照共享核函数可以得出条件密度估计的更一般的模型,这里类条件密 度可以用一些对所有类的条件密度估计产生作用的核函数表示。作者首先提出了 一个模型,该模型对经典径向基函数( r a f ) 网络进行了修改,其输出表示类条件 密度。与其相反的是独立混合模型的方法,其中每个类的密度采用独立混合密度 2 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 进行估计。最后提出了一个更一般的模型,上面提到的模型是这个模型的特殊情 况。 2 粗糙集理论( r o u g h s e t t h e o r y , 简记r s t ) 方法 在2 0 世纪7 0 年代,波兰学者p a w l a kz 和一些波兰的逻辑学家们一起从事 关于信息系统逻辑特性的研究。粗糙集理论就是在这些研究的基础上产生的。 1 9 8 2 年,p a w l a kz 发表了经典论文r o u g hs e t s ,宣告了粗糙集理论的诞生。此 后,粗糙集理论引起了许多科学家、逻辑学家和计算机研究人员的兴趣,他们在 粗糙集的理论和应用方面作了大量的研究工作。1 9 9 1 年,p a w l a k z 的专著和1 9 9 2 年应用专集的出版,对这一段时期理论和实践工作的成果作了较好的总结,同时 促进了粗糙集在各个领域的应用。此后召开的与粗糙集有关的国际会议进一步推 动了粗糙集的发展。越来越多的科技人员开始了解并准备从事该领域的研究。目 前,粗糙集已成为人工智能领域中一个较新的学术热点,在模式识别、机器学习、 知识获取、决策分析、过程控制等许多领域得到了广泛的应用【2 8 】。 粗糙集理论是处理模糊和不确定性的一个新的数学工具。用粗糙集理论构造 决策规则的算法一般都是考虑决策规则的数量而不是它们的代价。参考文献 2 3 1 的作者介绍了如何采用多目标决策来协调规则的简明性和代价之间的冲突,以及 提高粗糙集的效率和效力。参考文献【2 4 】将粗糙集理论与向后传播的神经网络 ( b p n n ) 相结合来进行瞬态稳定性估计,包括特征提取和分类器构造。首先,通 过初始输入特征的离散化,利用基于r s t 的诱导学习算法来简化初始特征集。 然后,利用采用半监督学习算法的b p n n 作为一个“粗糙分类器”将系统稳定性分 为三类,即稳定类、不稳定类和不确定类f 边界区域) 。不确定类的引入提供了减 少误分类的一个切实可行的方法,且分类结果的可靠性也因此而大大提高。 3 仿生模式识别( 拓扑模式识别) 参考文献 3 1 】提出了一种模式识别理论的新模型,它是基于“认识”事物而不 是基于“区分”事物为e t 的。与传统以“最佳划分”为目标的统计模式识别相比,它 更接近于人类“认识”事物的特性,故称为“仿生模式识别”。它的数学方法在于研 究特征空间中同类样本的连续性( 不能分裂成两个彼此不邻接的部分) 特性。、文 中用“仿生模式识别”理论及其“高维空间复杂几何形体覆盖神经网络”识别方法, 对地平面刚性目标全方位识别问题作了实验。对各种形状相像的动物及车辆模型 3 中山大学硕士论文基于特征提取和神经网络的手写数字识别 作全方位8 8 0 0 次识别,结果正确识别率为9 9 7 5 ,错误识别率与拒识率分别为 0 与0 2 5 。 模式识别从2 0 世纪2 0 年代发展至今,人们的一种普遍看法是不存在对所有 模式识别问题都适用的单一模型和解决识别问题的单一技术,我们现在拥有的只 是一个工具袋,所要做的是结合具体问题把统计模式识别或句法模式识别与人工 智能中的启发式搜索结合起来,把统计模式识别或句法模式识别与支持向量机的 机器学习结合起来,把人工神经元网络与各种已有技术以及人工智能中的专家系 统、不确定推理方法结合起来,深入掌握各种工具的效能和应有的可能性,互相 取长补短,开创模式识别应用的新局面。 1 2 手写数字识别的综述 1 2 1 手写数字识别的研究意义 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国 家、各民族的文字( 如:汉字,英文等) 书写或印刷的文本信息,目前在印刷体 和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息, 主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、 统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。 这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入, 如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进 展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用, 将产生巨大的社会和经济效益。 手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值: 1 阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本 上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的 大舞台。在这一领域大家可以探讨,比较各种研究方法。 2 由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这 方面最明显的例予就是人工神经网络( a n n ) 相当一部分的a n n 模型和算 法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的 4 中山大学硕士论文 基于特征提取和神经网络的手写数宁识别 优缺点。 3 尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成 果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难 度的问题。 4 手写数字的识别方法很容易推广到其它一些相关问题,一个直接的应用 是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识 别放在一块儿研究的。 1 2 2 手写数字识别的难点 数字的类别只有十种,笔划又简单,其识别问题似乎不是很困难。但事实上, 一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也 不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。这其中主要 原因是:第一,数字笔划简单而平滑,字形相差不大,使得准确区分某些数字相 当困难;第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别, 全世界各个国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做 到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外,在实际应用中, 对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为,数字没有上 下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的财会、金融领 域其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的 是极低的、千分之一甚至万分之一以下的误识率。此外,大批量数据处理对系统 速度又有相当的要求,许多理论上很完美但速度过低的方法是行不通的。因此, 研究高性能的手写数字识别算法是一个有相当的挑战性的任务。 1 2 3 学习和测试样本库的选择 正如前一部分提到的,手写数字的写法带有明显的地区性和民族性,因而选 择一个可供系统训练和测试使用的样本库是手写数字识别研究的重要基础之一 对识别系统的性能也有重要的影响。研究者对所需的样本库有两种选择:一是自 己根据需要建立专门的样本库,二是选用其它机构做好的现成的样本库。前者的 优点是帖近自己的应用,缺点也是明显的:要费相当的精力且代表性很难保证与 5 中山大学硕士论文基于特征提取和神经网络的手写数字识别 其它人的结果不好比较。因此,现在的趋势是使用有权威性的通用样本库。目前, 比较有代表性的、样本数量较大的手写数字样本库有:( 1 ) n i s t 数据库,由美国 国家标准与技术局收集;( 2 ) c e d a r 数据库,是由纽约州立大学b u f f a l o 分校计算 机科学系文本分析与识别中完成的邮政编码的样本库;( 3 ) e t l 数据库,由日本 电工技术研究所收集;( 4 ) i t p t 数据库,由日本邮电通信政策研究所收集。本文 对手写数字的识别选择了基于n i s t 字库进行。 1 2 4 识别系统性能的评价 作为一个识别系统,我们最终要用某些参数来评价其性能的高低,手写数字识 别也不例外。评价的指标除了借用一般文字识别里的通常做法外,还要根据数字 识别的特点进行修改和补充。 对一个手写数字识别系统,可以用三方面的指标表征系统的性能: 正确识别率a = 正确识别样本数全部样本数* 1 0 0 替代率( 误识率) s = 误识样本数鹰! 部样本数* 1 0 0 拒识率r = 拒识样本数,全部样本数* 1 0 0 三者的关系是:a + s + r = 1 0 0 数字识别的应用中,人们往往很关心的一个指标是“识别精度”,即:在所有 识别的字符中,除去拒识字符,正确识别的比例有多大,我们定义: 识别精度p = a ( a + s ) * 1 0 0 。 个理想的系统应是r ,s 尽量小,而p , a 尽可能大。而在一个实际系统中, s ,r 是相互制约的,拒识率r 的提高总伴随着误识率s 的下降,与此同时识别率 a 和识别精度p 的提高。因此,在评价手写数字识别系统系统时,我们必须综合 考虑这几个指标。另外,由于手写数字的书写风格、工整程度可以有相当大的差 别,因此必须弄清一个指标在怎样的样本集合下获得的。 以上多种因素使得不同系统的性能很难做绝对比较,有学者提出【3 2 ,手写 数字识别研究的较高水平是:对自由书写的数字,在不拒识时达到9 6 以上的识 别率;在拒识少于1 5 的样本时,误识率能降到o 1 以下。 6 中山大学硕上论文 基于特征提取和神经网络的手写数字识别 1 2 5 手写数字的识别方法 手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年 中,人们想出了很多办法获取手写字符的关键特征。这些手段分两大类:全局分 析和结构分析。对前者,我们可以使用模板匹配、象素密度、矩、特征点、数学 变换等技术。这类的特征常常和统计分类方法一起使用。对后者,多半需要从字 符的轮廓或骨架上提取字符形状的基本特征,包括:圈、端点、节点、弧、突起、 凹陷、笔画等等。与这些结构特征配合使用的往往是句法的分类方法。 多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有 一种简单的方案能达到很高的识别率和识别精度。因此,最近这方面的努力向着 更为成熟、复杂、综合的方向发展。一方面,研究工作者努力把新的知识运用到 预处理,特征提取,分类当中,如:神经网络、数学形态学等。作者认为,在手 写数字识别的研究中,神经网络技术和多种方法的综合是值得重视的方向。 1 2 6 基于手写数字识别的典型应用 手写数字识别有着极为广泛的应用前景,这也正是它受到世界各国的研究工 作者重视的一个主要原因。下面我们将介绍以手写数字识别技术为基础的典型应 用。 1 、手写数字识别在大规模数据统计中的应用: 在大规模的数据统计( 如:行业年检、人口普查等) 中,需要输入大量的数据, 以前完全要手工输入,则需要耗费大量的人力和物力。近年来在这类工作中采用 o c r 技术已成为一种趋势。 因为在这种应用中,数据的录入是集中组织的,所以往往可以通过专门设计 表格和对书写施加限制以便于机器的自动识别。目前国内的大多数实用系统都要 求用户按指定规范在方格内填写。另外,这些系统往往采用合适的用户界面对识 别结果做全面的检查,最终保证结果正确无误。可以看出,这是一类相对容易的 应用,对识别核心算法的要求比较低,是目前国内很多单位应用开发的热点。 2 、手写数字识别在财务、税务、金融领域中的应用: 财务、税务、金融是手写数字识别大有可为的又一领域。随着我国经济的迅 速发展,每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把 7 中山人学硕士论文 基于特征提取和神经网络的手写数字识别 它们用计算机自动处理,无疑可以节约大量的时间、金钱和劳力。与上面提到的 统计报表处理相比,在这个领域的应用难度更大,原因有:1 对识别的精度要求 更高;2 处理的表格往往不止一种,一个系统应能智能地同时处理若干种表格;3 由于处理贯穿于整个日常工作之中,书写应尽量按一般习惯( 如:不对书写者的 写法做限定,书写时允许写连续的字串,而不是在固定的方格内书写) ,这样对 识别及预处理的核心算法要求也提高了。 3 、手写数字识别在邮件分拣中的应用: 随着人们生活水平的提高,经济活动的发展,通信联系的需求使信函的互换量 大幅度增加,我国函件业务量也在不断增长,预计到2 0 0 0 年,一些大城市的中 心邮局每天处理量将高达几百万件,业务量的急剧上升使得邮件的分拣自动化成 为大势所趋。在邮件的自动分拣中,手写数字识别往往与光学条码识别,人工辅 助识别等手段相结合,完成邮政编码的阅读。目前使用量最大的o v c s 分拣机的 性能指标:o c r 拒分率3 0 ,o c r 分拣差错率1 1 。 1 2 7 手写数字识别技术展望 随着国家信息化进程的加速,手写数字识别的应用需求将越来越广泛,因此 应当加强这方面的研究工作。作者认为,应用系统的性能的关键与瓶颈仍然在于 手写数字识别核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别 算法。此外,尽早建立反映中国人书写习惯的、具有国家标准性质的手写数字样 本库也是当务之急。 1 3 本文的讨论内容和重点 脱机手写数字的识别在很多场合都有着实际的应用,目前仍然是一个值得重 点研究的方向。本文通过分析手写数字的特点,重点研究了脱机手写数字基于骨 架和基于外轮廓的不变特征,提取了数字的网格特征,笔划密度特征,外轮廓特 征,象素百分比特征,傅理埃特征等几个特征,采用神经网络中的b p 算法,并 结合使用m a t l a b 平台开发出数字训练和识别的程序模块,从而设计了一种手写 数字识别的新方法。 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 2 1 概述 第2 章人工神经网络与b p 算法 应用神经网络进行字符识别方面的研究是模式识别发展应用的一个热点。手 写数字识别在邮政编码自动识别,银行业务等方面有广泛应用,由于字体变化大, 识别率要求高,有一定困难,近年来人们发展了多种方法研究它。其中包括了神 经网络b p 算法,基于支持向量机算法和基于骨架特征顺序编码等识别方法。本 章将介绍人工神经网络b p 算法及其改进措施,第4 章将给出设计实例和实验结 果。 2 2 人工神经网络的构成 神经元是人工神经网络的基本处理单元,它一般是一个多输入输出的非线 性元件。神经元输出除受输入信号的影响之外,同时也受到神经元内部其他因素 的影响,所以在人工神经元的建模中,常常还加入一个额外输入信号即偏差,有 时也称为阀值或门限值。神经元模型是由w s m c c o l l o c h 和w h t t s 于1 9 4 3 年提 出的,数学上可表达如下: s ;x o ) j x i 一目 舒 y = 盯岱) :权值 日:阀值 盯( s ) :作用函数 作用函数的基本作用: 1 控制输入对输出的激活作用 2 对输入,输出进行函数转换 3 将可能无限域的输入变换成指定的范围内的输出 人工神经网络的基本模型如下: 9 公式( 2 - - 1 ) 中山大学硕士论文基于特征提取和神经网络的手写数字识别 图( 2 1 ) 人工神经网络的基本模型 f r o s e n b l a t t 基于神经元模型提出了感知器模型,它是一个两层网络,输入 到中间层的权固定,只有中间层到输出层的权值可调,由于只有一层计算单元, 要使感知器解决非线性可分问题很难做到,解决问题的办法是使输入层到中间层 的权也是可调的,这就有了两层计算单元,从学习角度看,中间层成为隐层,从 而成为多层前馈网络。一个带隐层的前馈网络就是一个通用的函数逼近器,多层 网络可以解决非线性可分问题有了定论。另一方面,由于有隐层后使得学习比较 困难,所以限制了多层网络的发展,反向传播( b p ) 算法的出现解决了这一困 难,促进了多层网络的发展。 2 3b p 算法介绍 2 3 1b p 网络模型 b p 神经网络模型如下图: 图( 2 - - 2 ) b p 神经网络模型 可以看出,b p 网络一般情况下有一个输入层,一个隐层( 也可以是两个或 更多) ,一个输出层。设输入为p 一( p l ,p :,n ) 7 ,r 为输入神经元的个数,第一 层的权矩阵形1 = ( h ) 。,s l 为隐含层神经元个数,激活函数为f l , 1 0 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 w 2 = ( w 乙) 。n ,s 2 为输出层神经元个数,对应的激活函数f 2 ,目标矢量为 丁= ( t i , t :,。t :) 7 ,隐含层神经元的输出矢量爿1 = ( a l l ,4 1 2 ,a l 。) 7 ,输出层神经元 的输出矢量爿2 = ( a 2 ,a 2 :,a 2 。:) 7 ,隐含层神经元的偏差b 1 = p 1 1 ,b l :,b l s ,) 7 , 输出层神经元的偏差b 2 = p 2 l ,b 2 。,b 2 s 。) 7 ,我们列出输入输出关系和学习训练 过程。 2 3 2 输入输出关系: 输入层 隐层: n i ,1 ( 善叽p j + 帆) ( f = 1 ,2 ,柚1 ;,;聃,r ) 隐层 输出层: 乙_ ,2 ( 善w 气吐+ 6 乏) , = 1 ,2 ,2 ;= 1 ,2 ,1 ) 2 3 3 输入输出关系: 公式( 2 2 ) 公式( 2 3 ) 定义误差函数为 e ( 缈,占) 一三薹瓴一口2 k ) 2 其中= 毗w 2 】;曰一降1 6 2 】公式( 2 4 ) 权值的变化和误差如下: 1 输出层的权值变化 从第i 个输入到第k 个输出的权值改变有 蛳2 “叫器叫嚣籍吲忡2 k ) f 2 吐 同理可得: 曲毛2 叫嚣。叫嚣瓮毗叫2 k ) f z 1 1 公式( 2 5 ) 公式( 2 6 ) 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 2 隐含层权值变化 毗一叩旦o w l o 一叩最o a 2 酱堕o w l o = 叼薹以卅驯2 。w p ,公式( 2 刊 ” 4 。施i。白”一。一。 同理可得 曲b 叫薏叫嚣普o a l 薏= 叩薹瓴卅舭w w r 公式( 2 删 ” 。a 妇4,a 鸲白” “。 学习速率r l 为指定的常数。 2 3 4b p 网络的设计 1 网络的层数 从2 2 节的讨论我们已提及到,理论上已经证明:具有偏差和至少一个s 型 隐含层加上一个线性输入层的网络,能够逼近任何有理函数。增加层数可以进一 步的降低误差,提高精度,但同时也使网络复杂化。另外不能用仅有非线性激活 函数的单层网络来解决问题。因为能用单层网络完美解决的问题,用自适应线性 网络也一定能解决而且自适应线性网络的运算速度还要快。而对于只能用非线性 函数解决的问题,单层精度又不够高,也只有增加层才能达到期望的结果。 2 隐含层神经元数 网络训练精度的提高,可以通过采用一个隐层,而增加其神经元数的方法来 获得。一般而言,网络隐含层神经元的个数越多,功能越强大,在能够解决问题 的前提下,再加上一个到两个神经元以加快误差的下降速度即可。 3 初始权值的选取 一般取初始权值在( 一1 ,1 ) 之间的随机数。 另外,韦德罗等人在分析两层网络是如何对一个函数进行训练后,提出一种 选定初始权值的策略:选择权值的量级为五,其中s l 为第一层神经元数,。为 输入个数。 中山大学硕士论文基于特征提取和神经网络的手写数字识别 4 学习速率 学习速率决定每次循环训练过程中所产生的权值变化量。大的学习速率可能 导致系统的不稳定;小的学习速率导致较长的训练时间,可能收敛很慢,不过能 保证网络的误差值不跳出误差表面的低谷而最终趋于误差最小值。所以一般情况 下倾向于选取较小的学习速率以保证系统的稳定性。学习速率的选取范围是 0 0 l o 8 。 对于较复杂的网络,在误差曲面的不同部位可能需要不同的学习速率。为了 减少寻找学习速率的训练次数以及训练时间,比较适合的方法是采用变化的自适 应学习速率,使网络的训练在不同的阶段设置不同大小的学习速率。 5 误差的选取 在设计网络训练过程中,期望误差值也应当通过对比训练后确定一个合适的 值,这个所谓的“合适“,是相对于所需要的隐含层的节点数来确定的。一般情 况下,作为对比,可以同时对两个不同的网络进行训练,最后通过综合因素的考 虑来确定采用其中一个网络。 2 4b p 算法的改进 b p 算法改进的主要目标是为了加快训练速度,避免陷入局部极小值和改善 其能力。本文使用的改进方法主要是: 1 带动量因子算法 该方法是在反向传播法的基础上在每一个权值的变化上加上一项正比于前 次权值变化的值,并根据反向传播法来产生新的权值变化。带有附加动量因子的 权值调节公式为: a ( 七+ 1 ) ;0 一m c ) t 1 6 p j + m c a w o ( k ) 6 f ( 七+ 1 ) 一0 一m c ) q 3 i + m c a b i ( ) 公式( 2 - 9 ) 其中4 为局部梯度,d j 为本层输出,i n c 为动量因子,一般取0 9 5 左右 附加动量法的实质是将最后一次权值变化的影响,通过一个动量因子来传 递。以此方式,当增加动量项后,促使权值的调节向着误差曲面的平均方向变化 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 当网络权值进入误差曲面底部的平坦区时,a 将变得很小,于是 a , + 1 ) 一m , )公式( 2 - - 1 0 ) 从而防止了a w , j ( k ) 一0 的出现,有助于使网络从误差曲面的局部极小值中跳出。 2 自适应学习速率 对于一个特定的问题,要选择适当的学习速率并不是一件容易的事情。对训 练开始初期功效很好的学习速率,不见得对后来的训练合适。因此,考虑在训练 过程中自动调整学习速率,调整公式如下: 叩( - i - 1 ) = 1 0 5 叩 )s s e + 1 ) 1 0 4 s s e ( k )公式( 2 1 1 ) 叩 ) o t h e r s 其中,7 为学习速率,7 ( o ) 为初始学习速率。 1 4 中山人学硕士论文 基于特征提取和神经网络的手写数字识别 第3 章数字识别中的特征提取 3 1 特征提取的作用 为什么要进行特征选择和提取呢? 一个显然的理由是在很多情况下,测量空 间的维数很高( 一个2 5 6 2 5 6 灰度阵列图像相当于2 5 6 2 5 6 维测量空间中的一 个点) ,不能直接在测量空间中进行分类器设计,更重要的是这样一种描述并不 能直接反映对象的本质,因此需要把图像从测量空间变换到维数大大减少的特征 空间,被研究的图像或现象在这个特征空间中就由一个特征向量来表示。以脱机 数字识别来说,直接把预处理后的数据作为神经网络的输入,数据量大:同时由 于手写字体的多样化以及图像本身和预处理过程中附带了某些干扰的影响,因而 不仅网络训练时间长,而且由于图像数据随机分布,训练出的网络也不够强壮。 而特征提取的目的就是从分析数字的拓扑结构入手,把它们的某些结构特征提取 出来,使数字的位移、大小变化、字形畸变等干扰相对减小,而把那些反映数字 特征的关键信息提供给神经网络,这样就等于间接地增加了网络的容错能力,降 低误识率和拒识率;而且通过特征提取, 也减小了,有利于减少运算时间。可见, 必要的。 3 2 特征提取的研究综述 数据量也大大减少,相应地,网络规模 为了有效地进行数字识别,特征提取是 特征提取方法的选择是影响识别率的一个至关重要的因素。什么是特征提 取? d e v i j v e r 和k i t f l e r 定义特征提取问题是“在一个模式分类问题中,为了实现 模式类别最少化和类间距离最大化而对原始数据信息的提炼。”。必须指出的是, 对于不同的识别问题和不同的样本数据,使用不同的特征提取方法的适应性差别 很大,也就是说,一种特征提取方法对一个问题和数据很奏效对另一个问题或数 据可能失效。一个解决的办法是寻找不同的数据的共同特征,或称不变量。另一 方面,对于一个有限的训练数据集,如果使用的是统计分类器,特征集必须保持 在一个合理小的数量内。文献 1 5 建议对于每个特征向量的维数,训练集相应 的训练样本数量在5 到1 0 倍内。就数字识别来说,在实际过程中,如何选择若 中山大学硕士论文基于特征提取和神经网络的手写数字识别 干种特征提取的方法取决于识别的用途。我们必须考虑到待识别的数字是否有固 定的方向和大小,是印刷体还是手写体,是否存在不同的书写风格,是否有缺损, 程度如何。这些将有利于缩小特征提取选择的难度和提高识别率。 正如上面讨论说,特征提取是一个好的字符识别系统的重要组成部分。然而, 对于一个识别系统,为了达到较佳的结果,其他的步骤,如第一章所论述的,二 值化,归一化等也需要优化处理,并且这些处理不是前后相互独立的。特征提取 的选择取决于这些预处理的结果。例如,模板匹配可适用于灰色数字图像、二进 制图像,而样条曲线只适用于二进制字符,傅里埃变换适用于向量或骨架等。另 一方面,提取出来的特征的数据格式取决于选定的分类器。基于图像描述或语法 描述的字符适用于结构或句法分析分类器。非连续特征,二分化或三分化的,决 策树是一个理想的选择。实值向量特征适用于统计分类器。本文重点研究了基于 骨架和基于数字外轮廓的特征提取,这部分在第3 节详细讨论。 为了提高识别效果和速度,多分类器也是一个常用的办法,即包括多级分类 器,或者采用并行处理,每个分类器处理一个特征的识别,然后将单项识别结果 按照一定的策略进行综合评估得出识别结果,在这种情况下,不同的特征数据格 式可能会使用,本文就采用了数字骨架和外轮廓曲线的数据分别提取特征。下面 一节讨论了经实验检验对手写数字识别几种简单有效的特征提取方法。 3 3 数字识别的特征提取 3 3 1 数字骨架特征的提取 提取数字骨架的目的就是一方面要减少识别网络的输入信息,减少运算时 间,提高识别速度;另一方面,提取骨架有利于使数字的位移、大小变化、字形 畸变,污损等干扰相对减小,突出那些反映数字特征的关键信息,这样就间接地 增加了网络的容错能力,降低误识率和拒识率。下面讨论的粗网格特征提取,笔 划密度特征提取,外轮廓特征提取,象素百分比特征提取均基于数字的骨架结构 进行。由于细化环节在数据压缩,字符识别中的重要性,细化或者说骨架化算法 是模式识别中的热门研究领域。细化在字符识别中的广泛应用于文献2 ,1 7 介绍, 而文献 1 8 ,1 9 对各种细化算法进行了比较研究。按处理方法来分,细化算法大致 1 6 中山大学硕士论文 基于特征提取和神经网络的手写数字识别 分为串行算法和并行算法两种。串行算法的原理是通过轮廓跟踪算法,依照一定 的顺序检查每一个轮廓点,对待删除的点进行标记,检查结束后一次删除。串行 算法见文献a r c e l l i 2 0 ,h i l d t i c h 2 2 等。在并行算法中,图象的点被分成几个 子过程进行检查,常见的是2 一过程和4 一过程,在每个子过程中,对可删除的 点进行删除后,对图象点进行一次更新排列,作为下一个过程的检查对象。并行 算法见文献d e u t s c h 2 1 等。下表是作者对数字“5 ”使用几种细化算法的细化效 果比较: 表( 3 1 ) 几种细化算法的细化效果比较 原图a r c e l l i 细化d e u t s c h 细化h i l d t i c h 细化 f 一| 。 f ,。 _ l - 严一 3 3 2 粗网格特征提取 一般来说,数字笔划的分布是有一定的规律的。本文的粗网格特征提取方法 的思想是,把数字图片分成几个局部小区域,并把每个小区域上的点阵密度作为 描述特征,即统计每个小区域中图像象素所占百分比作为特征数据。由于粗网格 特征反映的是图像的局部统计特征,是个百分比相对值,而图像局部的形变或噪 声对应数字矩阵就是局部元素的o 和1 的值互换,所以如果图像带有局部 的形变或噪声,与没有形变和噪声的原图像相比,计算出来的百分比相对值变化 不大。换句话说,这个相对值对于数字图片局部笔划的形变或孤立噪声点带来的 影响不敏感。因此,以粗网格为特征进行数字识别,具有较好的抗噪声能力和较 好的识别率。下面是一组手写数字0 9 共1 0 个训练样本分成1 6 个7 x 7 的区域 的粗网格特征及提取程序代码: 1 7 中山大学硕士论文基于特征提取和神经网络的手写数字识别 表( 3 2 ) 手写数字0 9 及其粗网格特征 oiz 3 誓6 - 白17 呵 0123456789 1o 1 500 2 1o 2 10 0 2o 2 9o0 1 30 2 10 2 1 2o 2 1o 1 70 1 5o 1 30 3 8o 1 3o 2 l0 1 3o 1 5o 1 5 30 1 500 1 90 1 9o0 1 300 1 90 1 4 5 80 1 3 40 1 30 0 1 90 1 9 o0 1 300 3 5 o 2 10 2 1 50 2 1o000 1 90 3 10 3 300 3 lo 2 5 6 0o 1 70o 0 60 1 70 1 30 1 500 1 50 7000 0 20 1 900 1 30 1 30 2 1o 2 30 80 2 100 2 70 1 5o0 1 7o 0 20o 1 90 3 l 90 2 10000 1 300 2 7o0 2 30 0 6 1 0o0 1 70 1 50 0 20 2 70oo 2 l0 0 80 1 5 n00o 1 90 1 50 1 3000 0 20 n0 1 3 1 20 2 3o00 2 90 1 30 1 70 2 500 2 10 - 3 5 1 3o ”oo 3 3o 2 1oo 2 1o 1 7o0 2 3o 1 5 1 40 1 5o 1 70 1 70 1 7o 1 70 1 9o 1 90 1 90 1 50 1 5 1 50 1 900 1 30 1 5o0 1 5o 1 700 1 50 1 7 1 60 1 300 1 30 2 10o 3 3o 1 9o0 2 50 0 6 l a t t i c e f e a t u r e m - 一一一提取网格特征 f u n c t i o n c o f ,c o l _ r o w ,c o f _ l i n e :1 a t t i c e f e a t u r e ( m a t r i x ) 计算矩阵的网格特征,返回网格特征矩阵4 * 4 m a t r i x _ r o w ,m a t r i x 1 i n e = s i z e ( m a t r i x ) : c o f _ r o w = 4 : c o f 一1 i n e = 4 : d i v r o w = f i x ( m a t r i x _ r o w c o l _ r o w ) : d i v 1 i n e = f i x ( m a t r i xl i n e c o f _ l i n e ) : d i v i d e r = d i vr o w * d i v _ l i n e : l e nr o w = c o lr o w ; 1 8 中山大学硕士论文 基于特征提取和神经网络的于写数字识别 1 e nl i n e = c o fl i n e : c o f = z e r o s ( 1 e nr o w ,l e n _ 1i n e ) : r o wa d d = o : 1 i n ea d d = o : r a t e = o : f o ri = l :f e nr o w : f o rj = l :l e n _ l i n e : f o rk = l :d i vr o w : f o r1 = 1 :d i v1 i n e : c o f ( i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论