(计算机软件与理论专业论文)手写体数字及英文字符的识别研究.pdf_第1页
(计算机软件与理论专业论文)手写体数字及英文字符的识别研究.pdf_第2页
(计算机软件与理论专业论文)手写体数字及英文字符的识别研究.pdf_第3页
(计算机软件与理论专业论文)手写体数字及英文字符的识别研究.pdf_第4页
(计算机软件与理论专业论文)手写体数字及英文字符的识别研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,: + , 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取 得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文 中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:赵必 日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编本学位 论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:幽 日 期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日期: 电话: 邮编: ll_ i _ 摘要 近些年出现的网上阅卷模式,改进了传统阅卷模式易出错、工作强度大等缺点,并 且这种先进的阅卷模式已经应用到了我国各类标准考试之中。其中最具有代表性的就是 基于o m g 技术( 光标阅读机) 的网上阅卷系统。基于o m g 技术的网上阅卷系统最主要的 弊端就是所使用的硬件成本太高,不利于推广使用。所以随后出现了基于图像处理技术 的网上阅卷模式。 本文的主题就是研究基于图像处理技术的网上阅卷系统中手写数字及字符的识别 方法。研究者通常将数字识别和英文字符识别放到一起研究,是因为这两者是没有本质 区别的。从识别方法的角度来看,只是样本不同而已,对识别方法的研究和构建是没有 任何影响的。本文为了方便,在语言叙述上将手写体数字及字符的识别简便称为手写数 字识别。 为了提高手写数字的识别率,研究者在预处理阶段、特征提取和分类识别阶段都提 出了很多方法。纵观各类方法,有自身的优势同时,也有自身无法克服的缺陷。目前研 究最热的识别率最高的当属神经网络方法和支持向量机方法。神经网络法识别精度较 高,但是训练时间长,容易陷入局部最小,而且依赖于研究者的经验知识。另外,支持 向量机法识别精度也比较高,但它更善于两类分类问题。 根据神经网络法和支持向量机法各自的优势和缺陷,本文提出利用神经网络法和支 持向量机法构建多级分类模型。一级分类器使用网络结构简单的r b f 神经网络法构造, 允许它输出最后结果也允许它输出拒识样本和模糊结果,如果输出的是拒识样本和模糊 结果,将启动s v m 二级分类器,利用二级分类器再次进行判定识别,然后输出最后结果。 由于s v m 分类器是对模糊结果和拒识样本继续分类,所以多级分类器的联合系统,应该 能大大提高系统的识别率。 关键词:r b f 神经网络、支持向量机、数字识别、网上阅卷 a b s t r a c t i b 一 1 f d 目录 摘要i a b s t r a c t i 目录i i i 第一章绪论1 1 1 研究背景和意义1 1 1 1 研究背景1 1 1 2 研究意义2 1 2 国内外研究现状3 1 2 1 国外研究现状3 1 2 2 国内研究现状3 1 3 目前研究存在的不足4 1 4 本文的创新点和研究内容6 第二章字符识别技术理论基础:7 2 1 字符识别流程7 2 2 图像预处理7 2 3 特征提取8 2 4 分类和输出9 第三章脱机手写字符识别系统模型1 2 3 1 几种主要字符识别方法的比较1 2 3 1 1b p 神经网络方法1 2 3 1 2r b f 神经网络方法1 3 3 1 3s v m 方法1 4 3 2 一种整合神经网络和s v m 识别模型的识别方法的核心思想1 7 3 3 一种整合神经网络和s v m 的识别模型的识别方法1 8 第四章脱机手写字符识别系统关键技术2 0 4 1 预处理与特征提取2 0 4 2r b f 神经网络分类器设计2 1 4 3s v m 分类器设计2 3 第五章脱机手写字符识别系统实现2 5 5 1 系统描述2 5 5 2 系统展示与说明2 6 5 3 系统结果分析3 0 总结与展望3 4 n i 参考文献3 5 致谢3 8 1 0 东北师范大学硕士学位论文 1 1 研究背景和意义 第一章绪论 1 1 1 研究背景 近些年科学技术和教育技术的发展,也带动了我国的教学水平和考试方法的发展, 目前我国各等级考试基本已经标准化,并且向着国际标准化考试方式发展。传统的阅卷 方式工作强度大,需要大量劳动力,长时间的判卷疲劳容易增加误判几率。因此发展一 种新型的阅卷模式,能够有效的提高教师的阅卷工作效率,缩短教师的阅卷工作时间, 并且使得教学授课质量及时得到反馈,能够分析测试试卷质量,这是现代化教育一项紧 迫的要求。 2 0 0 0 年后,一种新型的阅卷方式日益发展兴盛起来,这就是网上阅卷模式。目前这 种阅卷模式在我国的各类国家考试中已经成功得以应用。例如自学考试、成人自考、普 通高考等大型考试领域。需要注意的是,目前这些大型考试中采用的网上阅卷模式,主 要是在客观题方面使用机器阅卷,即基于o m g 技术( 光标阅读机) 的网上阅卷模式。 这种基于o m g 技术( 光标阅读机) 的机器阅卷速度快、效率高。【l j 当然,任何新事物 的出现有着传统事物无法比拟的优势,也有自身不可解决的劣势。这种阅卷方式可以从 根本上减少传统的人工阅卷劳动强度大、工作成本高以及容易出错的弊端。但它也存在 着明显的不足,主要表现在以下几个方面: a 基于o m g 技术( 光标阅读机) 的机器阅卷系统所需硬件价格高昂,从而限制了 这种系统的推广。 b 基于o m g 技术( 光标阅读机) 的机器阅卷系统对答题卡的质量要求很高,需要 专门印制有着固定布局格式要求的答题卡,这就造成组织考试成本远要于传统考试形 式,从而使得这种系统的灵活性与通用性受到一定程度的限制。 c 基于o m g 技术( 光标阅读机) 的机器阅卷系统在阅读答题卡过程中,如果答题 卡严重倾斜,则机器不会智能处理,以至于造成误判情况的发生。 d 如果在阅卷过程中发现错误,则必须停止当前机器阅卷活动,人工手动挑捡出误 识的答题卡重新填涂,再重新进行识别,才能使误判情况得以纠正。 c 基于o m g 技术( 光标阅读机) 的机器阅卷系统识别过的答题卡图像不能够备份 保存下来,如果需要重新校验比对则必须人工手动从答题卡堆中分拣出需要比对的答题 卡,费时费力。 正是由于基于传统的o m g 技术( 光标阅读机) 的网上阅卷模式存在的这些缺陷, 近几年出现了基于图像处理技术的网上阅卷模式。基于图像处理技术的网上阅卷模式是 东北师范大学硕士学位论文 将图像识别技术用于网上阅卷系统,这种系统对答题卡没有过高要求,一般纸张一般印 刷质量就可正确识别,不但在识别精度上可以达到要求,更重要的是节约了考试成本利于 普遍使用。 本研究课题来自理想信息技术研究院实验室项目网上阅卷系统,该系统是利用 高速图像信息采集设备、图像处理技术、智能识别技术、网络技术并结合传统阅卷经验 进行设计开发的信息管理系统。其中评卷子系统采用基于j 2 e e 平台的三层模式设计, 利用多线程及数据库连接共享机制实现大批量用户的并行访问控制,阅卷客户端采用基 于浏览器的w e b 页面及a p p l e t 程序为阅卷教师提供人机交互界面,具有良好的扩展性 和维护性。它与传统手工阅卷相比具有降低评阅误差、试卷随机分配、提高试卷的保密 性、减少纸质试卷的人工管理环节、试卷电子化、便于存档及管理、实时统计和监控、 便于控制阅卷进程和减少登分环节等优势。 本文的研究工作主要是在网上阅卷系统中的图像处理与智能识别环节。在图像处理 部分,涉及到图像定位、图像分割以及图像预处理等问题的研究。在智能识别部分,相 对于基于0 m g 技术的网上阅卷系统,理想信息技术研究院的网上阅卷系统最大的改进是 将客观题答题时的填涂方式和考号的填涂方式都改为手写方式。考号在一张试卷中占有 举足轻重的地位,如果考号填涂错误,将导致阅卷系统找错学生或者找不到学生,那么 即使学生再优秀试卷答的再好也无用,这样的后果是不堪设想的。另外,填涂答题卡选 项时很容易发生串位或涂卡颜色不够深或其他错误等,比如将2 0 题的答案填涂到2 1 题 的选项的位置上,造成学生因为技术问题失分,而不是智力问题失分。将答题卡的填涂 方式改进为手写方式,符合常人习惯,使得阅卷系统更加人性化,不但为学生考试省去 了填涂的时间,而且减少了学生并非因智力而失分的几率。通过对网上阅卷系统的分析, 我们发现其中的图像的识别就涉及到手写考号的识别和手写答案选项的识别,进一步 说,也就是关于脱机手写体数字识别和脱机手写大写a 、b 、c 、d 识别。 1 1 2 研究意义 1 学术价值 首先,手写体数字识别作为模式识别领域的一个重要问题,有着重要的理论价值: ( 1 ) 阿拉伯数字是唯一的被世界各国通用的符号,对手写体数字识别的研究基本上与 文化背景无关,这样就为各国、各地区的研究工作者提供了一个施展才智的平台。【蚓 在这一领域大家可以探讨,比较各种研究方法。( 2 ) 数字识别的类别数小,有助于做深 入分析及验证一些新理论。( 3 ) 尽管人们对手写体数字的识别已从事了很长时间的研究, 并已取得很多成果,但是机器的识别本领还无法与人的认知能力相比,这仍是一个有难 度的开放问题。【5 6 j ( 4 ) 手写体数字的识别方法很容易推广到其它一些相关问题,一个 直接的应用是对英文这样的拼音文字的识别。1 2 】实际上,很多学者就是把数字和英文字 母的识别放到一起研究的。 2 应用价值 数字识别是一种很实用的研究,有着非常实际的应用前景,对我国国民经济信息网 2 东北师范大学硕士学位论文 络有着非常大的促进作用。目前国内有很多的信息资料需要导入到计算机网络中去,这 些信息分为文字信息和数据资料两类。【1 5 】文字信息中主要是国家民族的文字书写资料或 印刷资料,当前印刷体文字识别和联机手写识别技术已经成熟并且推出了很多应用软 件。数据资料主要由阿拉伯数字和特殊符号构成,如邮政编码、银行数据、财务报表、 统计报表等。近年来,中国已经开始大力推进三金工程,这在很大程度上取决于输入数 据,如果能研制出实用的手写体数字识别软件,无疑将推进这一事业的进步。 1 2 国内外研究现状 字符识别包括联机字符识别和光学字符识别( o c r ) 。也有人将光学字符识别称为离 线字符识别。联机手写字符识别能够通过与计算机相连的手写输入设备获取输入字符的 笔划信息。【1 0 】脱机手写字符识别需要通过计算机将纸质图像电子化,然后对字符图像分 析才能获取字符的笔划属性,而抽取笔划特征的过程是一件很有难度的事情,所以说联 机手写字符识别较脱机手写字符识别容易些。 1 2 1 国外研究现状 1 9 2 9 年德国科学家t a u s h e k 利用光学模板匹配识别文字,开创了用机器识别文字符 号的先河。【4 3 】欧美国家为了大量的资料信息输入计算机中处理,所以从5 0 年代就开始 了o c r 研究。 最早的o c r 系统出现于2 0 世纪6 0 年代初,它们只能识别有限字型的字符。j 其 中最具代表性的是o c r 4 2 0 ,它能识别特定字体的字符。另一个具有代表性的o c r 系 统是f a r r i n g t o n 3 0 1 0 ,同n c r 4 2 0 一样,它也只能识别一些特定字体的字符。 七十年代初,p a r k s 等介绍了一种抽取拓扑特征的特征抽取法以及多级结构链接的 识别方法。1 5 7 1 随后,日本对汉字识别进行了研究,并于1 9 8 0 年进行了印刷体汉字识别 的公开表演。这个时期的o c r 系统的主要特点是能够识别比较工整的手写体字符。一 个著名系统是i b m l 2 8 7 ,它利用了数字技术和模拟技术实现了这一功能。第一台邮政编 码自动分拣机有日本的t o s h i b a 公司研制成功,后来n e c 也推出了自己的邮政编码自动 分拣机。 八十年代以后,随着个人计算机的出现,c c d 平板式扫描仪的商品化,字符识别 技术得到了蓬勃发展。许多研究者将人工神经网络、小波变换、分形、模糊理论、支持 向量机( s v m ) 等新技术及研究手段引入到o c r 技术的研究中,并取得了不错的成果。 【5 8 】此时的o c r 系统的目标是使计算机能处理更复杂的一般情况,经过多年的研究和发 展,目前,印刷体字符识别和能够借助笔画顺序特征的联机手写体字符识别已经进入到 广泛的应用阶段,已经出现了非常多的识别效果很好的商业产品。 1 2 2 国内研究现状 中国在o c r 技术方面的研究工作相对起步较晚,在2 0 世纪7 0 年代才开始对数字、 英文字母及符号的识别技术进行研究,2 0 世纪7 0 年代末开始进行汉字识别的研究。 3 东北师范大学硕士学位论文 1 9 8 6 年,国家8 6 3 计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自 动化所三家单位联合进行中文o c r 软件的开发工作。嘶1 至1 9 8 9 年,清华大学率先推出 了国内第一套中文o c r 软件一清华文通,至此中国的o c r 技术正式从实验室走向了市场。 上个世纪9 0 年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究, 使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写体数 字符号识别等领域全面地取得了重要成果。删具有代表性的成果是t h o c r9 7 综合集成 汉字识别系统,它可以完成多文种( 汉、英、日) 印刷文本、联机手写汉字、脱机手写汉 字和手写体数字的识别输入。几年来,除清华文通t h - o c r 外,其它如尚书s h o c r 等各 具风格的o c r 软件也相继问世,中文和数字识别市场稳步扩大,用户遍布世界各地。 近几年来国内对数字识别的研究还是相当深入的,也取得了很大成绩,使系统的识 别率不断上升。目前,印刷体数字的识别率已达到9 9 以上,联机手写体数字的识别率 已达到9 9 0 5 ,但是脱机自由手写体数字的识别率只有9 0 ,这显然不能满足社会的迫切 需要,因为在很多应用系统中,一个数字的识别错误可能导致巨大的损失。因此对于脱 机手写体汉字的识别仍有待于进一步提高。 总而言之,手写体数字识别技术的研究是一项复杂的系统工程,虽已走过了2 0 多 年的研究历程,但是在识别率和识别速度上仍然很难达到社会的需求,仍需相关学科的 研究工作者共同努力,可谓任重道远。而随着计算机科学、心理学、人工智能等交叉 学科的融合发展,以及市场需求的驱动,手写体汉字识别技术将会取得更大的进展。 1 3 目前研究存在的不足 对于初学者而言,通常会认为脱机手写体数字识别比较简单,这是因为数字笔画简 单并且总的类别只有十种( 0 9 ) ,事实上通过一些理论研究及实践测试发现,脱机手写 体数字的识别正确率是低于印刷体汉字识别正确率的,甚至也低于联机手写体汉字识别 的正确率,而仅仅比脱机手写体汉字识别的识别率高一些。 造成这种结果的主要原因在于:第一,正是因为数字笔画简单,所以各个数字之间 字形及笔画差别很微小,而这恰恰增加了数字间的区分难度;第二,同一数字由于受地 域的影响,其写法千差万别,所以很难做到兼容世界各地写法的脱机手写体数字识别系 统( 不同的事物之间差别越大越容易区分,差别越小越难区分) ; 2 7 1 第三,由于数字间 缺乏上下文联系属性,同样给脱机手写体数字识别带来了一定的难度。第四,目前数字 识别系统面对的往往是大批量数据处理,这对脱机手写体数字识别的速度提出了很高的 要求,很多在理论上看似完美的方法却未必能适应系统对速度的要求。 目前,字符识别方法主要有统计模式法,统计决策法,句法结构法,逻辑推理法, 神经网络法,以及s v m 方法。 统计模式法是模式识别中一种基本的常用的方法。如果训练样本的模式特征结构相 对固定和简单宜采用此种方法,例如可以应用在印刷体符号识别上,可以应用在印刷体 文字识别上。1 3 2 j 脱机手写体的字符中同一字符不同人书写都会造成很大差异,所以脱机 4 东北师范大学硕士学位论文 手写体字符的特征结构相对来说算是复杂的一类,因此模式匹配的方法不适用于脱机手 写体字符识别。 统计决策法有着严格的数学基础,因此发展得较为成熟,同时它也是模式识别中能 用严格的数学计算来识别字符的方法之一。【叫统计决策的优点是抗干扰能力强,但是较 难抽取到好的特征且难以反映模式的精细结构特征。 句法结构法的优点是能够承受一定程度的结构特征变换。句法结构法的基础是字符 的结构特征,提取字符的结构特征就需要抽取字符的基元,比如笔画笔段信息,所以这 种方法比较适用于联机识别而不是特别适用于脱机手写字符识别,因为脱机手写字符识 别中抽取字符基元不是一件容易的事情,而联机识别可以从输入设备中获取字符的笔画 信息。同时这一方法的理论基础不可靠,当存在干扰及噪声时,不容易抽取到正确的基 元。 逻辑推理法源于是人工智能领域,这种方法当样品有缺损,背景不清晰,难以得到 待识字符的事实。而规则不明确甚至有歧义时,也在很大程度上影响着识别精度与效率。 模糊模式方法能反映整体的、主要的特性,模糊模式有相当程度的抗干扰与畸变, 从而允许样品有相当程度的干扰与畸变。但是这种方法中准确合理的隶属度函数往往难 以建立。目前有学者在研究,并将其引入神经网络方法形成模糊神经网络识别系统。 神经网络方法可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的 问题,允许样品有较大的缺损、畸变,其运行速度快,自适应性性能好,具有较高的分 辨率。但是,神经网络仍然存在一些缺陷:【1 5 】 a 网络结构需要事先指定或应用启发式算法在训练过程中修正,这些启发式算法难 以保证网络结构的最优化。 b 网络权系数的调整方法存在局限性。 。+ c 神经网络容易陷入局部最优,有些训练算法甚至无法得到最优解。 d 过分依赖学习样本。 e 目前尚无一种理论能定量地分析神经网络的训练过程的收敛速度,以及收敛速度 的决定条件,并对其加以控制。 f 神经网络方法回避了经验风险能否收敛于实际风险以及收敛条件等重要问题。 s v m 方法是建立在统计学习理论的v c 维理论和结构风险最小原理基础上的,该 算法最终将转化成为一个二次型寻优问题。1 7 】从理论上说,所求出的解是全局最优解, 解决了在神经网络方法中无法避免的局部极值问题。但是s v m 方法更适用于两类分类 问题。 对目前存在的各种识别方法比对分析,发现每种方法都有自身的优点也有自身无法 克服的缺陷。因此,研究高速度高正确率的脱机手写体数字识别算法仍是一项相当有挑 战性的工作。 5 东北师范大学硕士学位论文 1 4 本文的创新点和研究内容 1 创新点 在众多字符识别方法之中,神经网络方法和支持向量机方法有着比较高的识别率。 神经网络法自适应性能较好但是它对研究者的先验知识依赖较大,不同的研究者用同一 种神经构造的系统,在识别率上可能会有很大的差距。s v m 方法有着严格的理论基础, 也能输出最优解,但是它更擅长于两类分类问题,而本文研究的脱机手写体数字识别是 属于十类分类问题。 所以作者提出将目前对字符识别精度比较高的两种识别方法,即将神经网络方法和 s v m 方法结合起来,取两者的优势,去两者的劣势,共同构造一个两级分类系统。一 级分类器使用结构简单的r b f 神经网络构造,二级分类器采用s v m 方法构造。允许一 级分类器输出最后结果也允许它输出模糊结果和拒识样本,如果输出的是模糊结果和拒 识样本,将启动二级分类器,利用二级分类器再次进行判定识别,然后输出最后结果。 允许一级分类器输出的结果有一定的模糊性是因为神经网络方法没有严格的理论 基础,所以一级分类器起到一个粗分类的效果。使用二级分类器并输出最终结果是因为 s v m 建立在在统计学习理论的v c 维理论和结构风险最小原理基础上,有着严格的理 论基础,其输出的结果一定是全局最优解,二级分类器起到一个细分类的效果。 由于二级分类器是对一级分类器输出的模糊结果和拒识样本继续进行识别分类,而 且此两级分类识别系统采用的是两种识别率比较高的方法共同构造,所以从理论上来 讲,这样构造出来的多级分类器联合系统应该会有更高的识别精度。 2 研究内容 本文的研究内容包括:( 1 ) 图像预处理方法和特征提取方法;( 2 ) r b f 分类器构造: ( 3 ) s v m 分类器构造;( 4 ) 寻找r b f 神经网络与s v m 之间适当的结合点;( 5 ) 如何 选取能给系统带来高识别率的字符特征;( 6 ) 脱机手写字符识别的v c # 系统实现; 6 东北师范大学硕士学位论文 2 1 字符识别流程 第二章字符识别技术理论基础 不同的字符识别系统,在具体处理一幅待识别图像字符时,其处理过程不尽相同。 但就一般的处理情况来看,一个完整的字符识别系统基本分为原始字符图像获取、预处 理、特征提取、分类识别与输出五个模块,如图2 - 1 字符识别过程模型所示。 图 预 特分 输 像 处 , 征 入 类 获 。 提 识 理 出 取取别 图2 - 1 字符识别过程模型 图像获取就是通过高速扫描仪将考生答卷转换成电子图像形式,也就是生成图像文 档。 对图像进行预处理的目的,是为了能够得到更好的分类精度,它包括图像倾斜校正、 图像分割、图像增强、二值化、平滑去噪、规范化、细化等步骤。针对不同的图像识别 系统,采用的不同的特征提取方法和分类识别方法,选择适当的图像预处理步骤。 2 2 图像预处理 1 二值化 对脱机手写字符识别来说,图像字符的笔顺、笔划方向等字形信息是必要的,而图 像的颜色是不必要的累赘信息,所以我们需要对扫描得到的图像进行二值化处理,简化 掉不必要的信息,提高识别的速度,为以后的图像特征提取打下一个良好的基础。 我们认为无论扫描的图像是灰度图还是彩色图像,都是有颜色的。1 1 2 j 比如灰度级图 像,一般是2 5 6 级灰度图,也就是说,图像颜色值是用0 2 5 5 范围的数字表示的。对于 彩色图像,图像颜色值的是由r ( 红色值) 、g ( 绿色值) 、b ( 蓝色值) 三维向量表示。 图像二值化处理,就是利用阈值把图像转换为只包含黑、白两个灰度级的二值图像,也 就是将图像变为只有前景色和背景色的二值图像。 2 平滑去噪 通过扫描仪扫描获取的原始图像,会在一定程度上带来各类噪声。同时由于手写体 字符书写的随机性,所以断笔连笔飞白状况时常发生。f 8 】这些噪声会降低图像质量,使 得手写体字符的特征模糊化,所以在对图像进行特征提取之前应该先对图像进行平滑去 噪操作。经过平滑去噪操作后,可以去掉图像中孤立的噪声,平滑笔画边缘。 7 东北师范大学硕士学位论文 平滑滤波器的原理就是减弱或消除傅里叶空间的高频分量,但是不影响低频分量。 6 2 j 傅里叶空间里的高频分量对应于图像边缘处灰度值有较大较快变化的部分,平滑滤波 器将这些分量滤去后就可以使得图像平滑。 3 归一化 本文的研究对象是网上阅卷系统中手写体数字及英文字符,这些字符是不同人手写 的,所以我们在试卷上获取的字符图像在大小、尺寸和形状上存在很大的差异。故在图 像经过了二值化和平滑处理后,为了便于提取字符特征,经常需要进行归一化处理。所 谓归一化,顾名思义就是将图像进行规格化处理。其中包括位置归一化和大小归一化, 而归一化方法又分为线性归一化和非线性归一化两种方法。 位置归一化是为了消除字符点阵位置上的偏差,而把整个字符点阵移动到要求的位 置上的过程。【2 1 l 位置归一化常用的方法有重心归一化和外框归一化两种。第一种方法首 先计算出字符图像的重心,然后将重心移动到字符图像点阵规定位置比如中心点,即可。 外框归一化,顾名思义就是将字符的外框移动到字符图像点阵的规定位置。两种方法中, 因为重心是对字符进行全局性的计算,所以这种方法的抗干扰能力相对来说比较强。但 是如果字符图像的质量很好,那么外框归一化方法计算简单。外框归一化方法不适用噪 声很大的字符图像识别,因为这种方法需要搜索边框,抗干扰能力较差。所以,我们可 以根据字符图像的具体情况选择合适的方法,也可以将两者结合到一起使用。 大小归一化方法是为了消除不同字符之间尺寸的不同,而将其转换成同一尺寸的字 符的过程。i 叫大小归一化方法中比较常用的有基于外框线性归一化方法和基于点密度的 非线性归一化。 4 细化 细化,也有人将其形象的称为骨架化,顾名思义,就是将二值化后的图像细化成宽 度只有一个像素的骨架图像。【1 6 j 在对字符图像进行细化的过程中,有几个原则是需要遵 循的:不能因为细化造成字符图像笔画断开,要保持笔画的连续性;要将字符图像细化 到笔画宽度只有一个像素的单线;应将原来字符图像笔画的中心线作为细化后的骨架; 尽量保留原有字符的特征,不添加,不丢失。 2 3 特征提取 由于字符图像中含有大量与字符特征无关的背景信息,所以要对图像进行特征提取 以压缩信息储存空间,如果直接对字符图像进行识别,计算大速度很慢。 通过近些年的研究,研究者提出了许多种特征提取方法,但一般来讲,这些方法可 大体分为:结构特征和统计特征。结构特征提取方法是基于字符图像的笔画结构,是利 用笔画的空间结构来描述字符的特征。统计特征提取方法是基于字符图像的点阵集合, 是利用字符图像的点阵信息,然后进行各种变换后进行特征提取。 1 结构特征 结构特征是直接从图像字符的轮廓上或骨架上来提取字符像素的分布特征。结构特 征包括特征点、笔段、笔划、部件四种类型。【1 8 】特征点是最低级的特征,比如可以统计 8 东北师范大学硕士学位论文 端点个数、折点个数、交点个数,通过统计这些关键点的个数,可以作为特征来区分不 同的字符。笔段包括横竖撇捺这种结构信息,它比特征点高一个层次,可以利用起点坐 标、笔段倾斜度和长度来描述其特征。笔划高于笔段,可以将其分为基本笔划和复合笔 划两类,需要注意的是,抽取笔划的过程比较困难。可以直接从图像字符的点阵集合中 直接抽取,也可以逐步抽取,比如先抽取字符图像的点特征、笔段特征,再根据一定的 规则将其连接成笔划。部件处于四种结构特征的最高层次,由笔段构成。 常用的结构特征有笔道密度函数、空洞和缺口数、结点数、笔划及笔段特征等。笔 道密度函数反映的是将直线沿横向或纵向切割字符时遇到的交点的次数。比如标准数字 0 ,用直线与字符横向切割,结果可以简化的表示为( 1 ,2 ,1 ) 。比如标准数字8 ,用直 线与字符横向切割,结果可以简化的表示为( 1 ,2 ,1 ,2 ,1 ) 。空洞和缺口特征,比如 0 和6 都有1 个明显的空洞特征,2 和3 都有1 个明显的缺口特征。结点数包括字符的 端点数、字符的拐点数、字符的三结点数、字符的四结点数和字符的折点数等。 2 统计特征 统计特征通常是将字符图像点阵作为一个整体进行分析统计来抽取特征。统计特征 又分为全局统计特征和局部统计特征,前者是从整体上抽取特征,后者是将字符图像点 阵分割成几个区域,然后分别在不同的区域抽取特征。 ? 全局统计特征主要包括全局变换特征、不变矩特征、笔划分布特征、笔划穿透数目 特征等。全局变换特征是对汉字图像进行各种变换,利用变换系数作为特征,常用的变 换有f o u r i e r 变换、h a d a m a r d 变换、d c t 变换、w a l s h 变换、r a p i d 变换、k - l 变换、 小波变换等。1 4 】不变矩特征是一种线性特征,因其在尺度、平移和旋转等条件下的稳定 性而被广泛用于模式识别领域。笔划分布特征大体可分为笔划密度特征和笔划方向特 征。这两种特征依据其作用的区域又可分为全局特征和局部特征。 : 局部统计特征是通过提取局部图像的信息来组成描述汉字的特征,或者将汉字点阵 图像分割成不同区域或网格,在各个小区域内分别抽取统计特征,主要包括:背景特征、 网格特征、g a b o r 特征、方向线素特征、细胞特征、相补特征、四角特征等。 为了能提炼出能更好的代表字符特征的信息,我们经常会把字符图像的统计特征和 结构特征结合在一起使用,使得分类器能够具有更好的识别精度。 2 4 分类和输出 特征提取以后,便是根据特征对被识别字符的分类了。一般是通过某种分类算法判 别出待识别字符的所属类别,再将判别结果输出。常用的分类算法有很多种,最早的字 符识别是利用模板匹配算法实现的,后来,人们用几何矩、特征变换、直方图、f i s h e r 线性判别、非线性判别函数、神经网络以及支持向量机等方法进行字符识别。【冽神经网 络方法中最著名的要属b p 网络,这也是神经网络方法中发展最成熟的方法之一。下面 就主要的分类算法分别加以介绍。 9 东北师范大学硕士学位论文 1 统计模式法 统计模式法是模式识别中一种基本的常用的方法,它通过计算与各个模式之间的最 小距离来判定结果。首先分别为每一种模式提炼出与其对应的一个标准模式( 这个标准 模式就代表着这种模式的特征) ,将准备识别样本的特征值与每一个标准模式求取距离 值,得出该样板与哪个模式的标准模式有着最小距离,就将此样本归入到哪个模式类中 去。【1 4 j 这是以同类模式具有相同属性为基础的识别方法。必须注意的是:在选择特征时, 用于代表各类模式的特征应该把同类模式的各个样本聚集在一起,而使不同类模式的样 本尽量分开,以保证识别系统能具有足够高的识别率。 2 统计决策法 在概率论和数理统计的基础上产生了模式识别中的一个经典方法,即统计决策法。 这一方法由于有着严格的数学基础,因此发展得较为成熟,同时它也是模式识别中能用 严格的数学计算来识别字符的方法之一。这种分类方法的一个重要代表是基于b a r e s 法 则的分类法。 3 句法结构方法 句法结构法的发展源于形式语言和自动机方法。句法结构方法是以同类模式具有相 似结构为基础的识别方法。所谓结构是指组成一个模式的基本单元( 即基元) 之间的关 系。例如,拼音文字的基元是字母,若干个字母按一定规律组成一个单字,在识别某一 个单字时,如果能判别组成这个字的各个字母以及它们的结构关系,就可以识别这个 字。基于这种原理,拼音文字的识别系统中的“字典应包括字母,以及由字母组成单 字的规律。在对某一个单字进行识别时,则应先提取构成这个单字的字母并分析它的结 构,然后将它跟字典中所有已知单字的基元及其结构关系逐个加以比较,就可以确定待 识单字和哪一个己知单字属于同类别。 4 逻辑特征法 逻辑推理法源于是人工智能领域,其基本原理是:用知识描述每个模式类,从事实 出发运用知识库中的一系列规则进行推理以得到不同的结果,而每个结果都是相应的模 式类。懈l 在这里,所谓的知识就是待识字符的构成规则,事实就是待识字符的构成实例。 5 模糊模式方法 这一方法的理论基础是模糊数学,就是在模式识别过程中引入了模糊集的概念。其 基本原理就是:用模糊集合表示模式类,用隶属度将模糊集合a 划分为若干子集,子集 总数与模式类别总数相同,然后根据择近原则来分类。陋j 由于隶属度函数度量了未知样 本与标准模式之间的相似程度,因此这种方法可以反映出字符模式的整体特征。 6 神经网络方法 在神经网络理论的基础上形成了神经网络法,其基本原理就是利用神经网络的学习 和记忆功能,先让神经网络学习各个模式类别中的大量学习样本,以记住各模式类别中 的样本特征,然后在识别待识样本时,神经网络回忆起之前记住的各模式类别的特征并 将他们逐个与样本特征相比较,从而确定样本所属的模式类别。p l 为尽可能全面描述数 字图像的特征,从很多不同的角度抽取相应的特征,如结构特征、统计特征。 1 0 东北师范大学硕士学位论文 神经网络没有严格的理论基础,但是它在原有框架内仍然取得了很多成功应用。其 原因就在于这些应用的设计者,在设计神经网络过程中,有效利用了自己的经验和先验 知识。因此,神经网络系统的优劣是因人而异的。而支持向量机具有严格的理论和数学 基础,可以有效克服这个问题。 7 支持向量机法 支持向量机方法( s v m - - s u p p o r tv e c t o rm a c h i n e ) 是v a p n i k 等人在统计学习理论的 基础上提出的新一代机器学习算法,在解决小样本、非线性及高维模式识别问题中表现 出了许多特有的优势,已经在手写数据库分类、人脸及3 d 图像识别、语音识别和机械 故障诊断等领域取得了不错的效果。 1 3 1 s v m 方法是建立在统计学习理论的v c 维理论 和结构风险最小原理基础上的,该算法最终将转化成为一个二次型寻优问题,从理论上 说,所求出的解事全局最优解,解决了在神经网络方法中无法避免的局部极值问题。 s v m 方法在模式识别方面最突出的应用研究是贝尔实验室对美国邮政手写体数字 库所进行的实验,这是一个可识别性较差的数据库,人工识别平均错误率是2 5 ,用 决策树方法识别错误率是1 6 2 ,两层神经网络中错误率最小的是5 9 ,专门针对该特 定问题设计的五层神经网络错误率为5 1 ( 其中利用了大量先验知识) ,而用三种s v m 方法得到的错误率分别为4 0 、4 1 和4 2 。这个实验说明了s v m 方法较传统方法 有明显的优势。i 刈 东北师范大学硕士学位论文 第三章脱机手写字符识别系统模型 3 1 几种主要字符识别方法的比较 在字符识别领域中,相对于目前存在的各种识别方法,神经网络方法和s v m 方法 都有着比较高的识别精度。神经网络方法有效的利用先验知识,在原有的框架内取得了 很成功的应用。s v m 作为最新出现的一种方法,在识别率上和神经网络方法相当。所 以本节选取了几种主要的字符识别方法进行比较研究。 3 1 1b p 神经网络方法 前向多层神经网络的学习算法最成熟的要算反传学习理论( b a c k p r o p a g a t i o n n e t w o r k ,简称b p ) 。采用b p 算法的网络称为b p 网络,b p 网络是一个具有一个输入 层、一个隐含层和一个输出层的神经网络模型结构,是对非线性可微分数进行权值训练 的多层网络。l 删它的激活函数必须是处处可微的,所以b p 网络经常使用的是s i g m o i d 函数和线性函数。由于激活函数是连续可微的,它可以严格利用梯度法进行推算,它的 权值修正的解析式十分明确。而在字符识别领域,为了提高字符识别精度,所以b p 网 络隐含层和输出层的激活函数都采用s i g m o i d 函数,那么b p 网络输入层到隐含层是进 行非线性变换,隐含层到输出层也是进行非线性变换。 从大的方面来说,学习算法可分为两类:有监督的学习算法和无监督的学习算法。 h s i b p 算法属于一种有监督的学习算法。其主要思想是:对一个学习样本,已知其目标 输出结果。学习的目的是利用网络的实际输出与其目标输出结果之间的误差来修正其权 值,使实际输出与目标结果尽可能地接近:即:使网络输出层的误差平方和达到最小。 它是通过连续不断地在相对于误差函数斜率下降的方向上计算网络权值和偏差的变化 而逐渐逼近目标的。 b p 算法由两部分组成:信息的正向传递与误差的反向传播。在正向传递过程中, 输入信息从输入层经隐含层逐层计算传向输出层,每一层神经元的状态只影响下一层神 经元的状态。如果在输出层没有得到期望的输出,则计算输出层的误差变化值,然后反 向传播,通过网络将误差信号沿原来的连接通路反传回来,修改各层神经元的权值直至 达到期望目标。 b p 算法是基于最优化的梯度下降算法,存在明显的不足之处。b p 算法是按照均方 误差的梯度下降方向收敛的,但均方误差的梯度曲线存在不少局部最小点,这就使得神 经网络易陷入局部最小。另外b p 学习算法的收敛速度较慢,可能会耗费大量时间。 基于b p 算法的这些缺陷,学者们也提出了几种改进的b p 算法,主要有权值调整、 自适应学习速率调整、网络结构调整等。常用的网络训练改进方法有:加入动量项、自 1 2 东北师范大学硕士学位论文 适应学习速率调整、卜m 算法。 6 6 l 但是需要注意的是,这些方法都是在保证了b p 网 络原有结构和原有算法的基础上稍稍改进,也就是说并没有从根本上或者说从本质上消 除b p 算法的这些缺陷。 3 1 2r b f 神经网络方法 1 9 8 8 年,b r o o m h e a d 和l o w c 以及m o o d y 和d a r k e n 最早将径向基函数( r b f ) 用于 神经网络设计,这种网络被称为r b f 神经网络。 5 5 1 r b f 网络是一种三层前馈神经网络, 输入层由一些源点( 感知单元) 组成,将网络与外界环境连接起来;隐层是非线性的,在 输入空间到隐层空间之间进行非线性变换;输出层是线性的,对输入层的训练数据做出 响应。如下图是r b f 网络的拓扑结构。 ( i ix c hi i ) 隐层 图3 - 1r b f 神经网络拓扑结构图 y 1 y m 这是一个具有n 个输入结点、h 个隐层结点、m 个输出结点的r b f 神经网络拓扑结 构图。其中x 1 ,x 2 ,x n 为网络输入向量x ( x 1 ,x 2 ,鳓) 的分量。w h m 代表隐层第 h 个结点与输出层第m 个结点之间的权值。( i lx c hi i ) 是隐层第h 个结点的激活函数。 y m 是输出层第m 个结点的输出值。r b f 神经网络采用径向基函数作为激活函数,径向 基函数使得隐层结点具有局部激活特性。 通过以上我们对r b f 神经网络拓扑结构图的分析,可以发现,r b f 神经网络拓扑 结构图中有三种参数:隐层每个结点所用激活函数的中心c i ( 也称之为质心) 、隐层每 个结点所用激活函数的半径6i 、隐层到输出层的权值矩阵w 。如果r b f 神经网络中的 这三种参数确定了,那么我们就可以利用这个网络对样本数据进行分类识别了。 如何对这三种参数进行训练,很容易想到,有两种方法,一种就是对三种参数同时 训练得出网络最优输出,一种是对三种参数分开训练确定。 4 9 1 像梯度下降法就是同时训 练三个参数,但是这种方法训练速度慢而且容易陷入局部最优,因为它是一个不断迭代 的过程。分阶段训练方法相比于梯度训练算法来说,训练时间短,计算量也较小,所以 1 3 东北师范大学硕士学位论文 是很高效方法。 现在出现一个问题,b p 网络和r b f 网络同属于三层神经网络结构,为什么之间讲 b p 网络训练时间长,收敛速度慢,而r b f 网络训练时间短呢,这是什么原因呢? 分析 b p 网络的拓扑结构,在字符识别领域,隐含层和输出层采用的激活函数一般都是 s i g m o i d 函数,导致b p 网络输入层到隐含层是非线性变换,隐含层到输出层也是非线 性变换。而b p 网络学习算法采用的是基于全参数调整的梯度下降法。从而导致b p 算 法训练时间很长。而r b f 网络结构相对简单很多,输入层到隐含层是非线性变换,隐 含层到输出层是线性变换,而且参数训练可以采用分阶段训练方法,所以r b f 网络学 习时间短,效率高。 r b f 网络结构如此简单,会不会影响其识别精度呢? 这是肯定的,r b f 网络是不如 b p 网络识别精度那么高,但是r b f 网络采用其它策略提高自身识别精度。例如,r b f 网络隐含层每一个节点均采用不同中心的激活函数,使得激活函数的中心点位置尽量位 于输入空间的重要区域的中线附近,最大化的表现利用输入向量的不同类别,以此来提 高r b f 网络的识别精度。 3 1 3s 方法 统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论,它在理论 上较系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的 关系以及如何利用这些理论找到新的学习原则和方法等问题。【2 0 1 支持向量机方法( s v m s u p p o r tv e c t o rm a c h i n e ) 是建立在统计学习理论的v c 维理 论和结构风险最小化原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之 间寻求最佳折衷,以期获得最好的推广能力。【3 8 l 在上述概念中,模型的复杂性指的是对 特定训练样本的学习精度,学习能力指的是能够无错误的识别任意样本的能力,推广能 力指的是系统的泛化能力。 v c 维是描述函数复杂性的指标。假如存在一个由h 个样本的样本集能够被一个函 数集中的函数按照所有可能的2 h 种形式分为两类,则称函数集能够把样本数为h 的样本 集打散。函数集的v c 维就是这个函数集中的函数所能够打散的最大样本集的样本数目。 6 7 1 v c 维,简而言之,它描述了组成学习模型的函数集合的容量,也就是说刻画了此函 数集合的学习能力。v c 维越大,函数集合越大,其相应的学习能力就越强。 传统的机器学习都是将经验风险最小化作为系统逼近的目标,但是后来发现,很多 系统虽然能够在样本数据上达到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论