(计算机应用技术专业论文)手写英文字符识别系统.pdf_第1页
(计算机应用技术专业论文)手写英文字符识别系统.pdf_第2页
(计算机应用技术专业论文)手写英文字符识别系统.pdf_第3页
(计算机应用技术专业论文)手写英文字符识别系统.pdf_第4页
(计算机应用技术专业论文)手写英文字符识别系统.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(计算机应用技术专业论文)手写英文字符识别系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

唁 】j111 一厂川u一 、,o1j _ 学科、专业: 所在单位 : 论文提交日期: 论文答辩日期: 学位授予单位: 计算机应用技术 沈阳理工大学 2 0 0 8 年5 月 2 0 0 9 年6 月 沈阳理工大学 一 口茸观华杂刨 口晕群延船骂千斟 户 茸识千渔 口茸识千斟:瑶椠茸识 :到轴不右 :珥黝环南 :目鳍莓识 , 。唑碑朝茸砚擎髯鞠聱砚蕃翠禺哿y 牢期刨( 翕群 7 1 斜粝豳冒马、l 警鹭、嘴琢壬刮业可辨昌) 影智日日7 髫身器箕犁 群骠茸弓茸观再杀国审f l 歪誊劲茸识码杀y 章徘鲻孽地园7 兽半群 嘉性国中砰群砸茸珏毋哿非椠茸观码杀y 章豫剁,¥群明甘珊 唑朝目飘蕈髯妊窜群磉茸弓茸识码杀国中趔上弓毕y 章 i 嬖兽髫码责狴劲茸观四杀朝犁歌髦国罾骅衅暂召日瞠延船冒7 粤 ,辑性羽,寻物明髫耳蜾辑性髦国吾鲻琶抱冒7 身半辑杀性国中 童 斗斟戮明萃双珥毒 岭一二 二麓毋 : 么匆 群碑 7 y 日 霸 厶 沽 一目i 劾 彤,_ l瓢帮拥q黔,絮曩,睁, 。擎00, 1i簿强o,膏一、咄“q蚤p寥擎擎翳,。,i ;o;t*氍rwp“艘; 。乱 1零增;孳 自。#+ i=|p,。影0;lj麓i、 :。; 。,。;,r盯-;f;, ,o一 虹嗥 一 , 嚣, 一, c l a s s i f i c a t i o ni n d e x :t p 391 1 u d c :0 0 4 at h e s i sf o r t h ed e g r e eo f m e n g h a n d w r i t t e n e n g l i s hc h a r a c t e rr e c o g n i t i o ns y s t e m c a n d i d a t e :t a n gw e i c h e n g s u p e r v i s o r :p r o f s o n gk a i a c a d e m i c d e g r e ea p p l i e df o r :m a s t e ro f e n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y d a t eo fs u b m i s s i o n :m a y ,2 0 0 8 d a t eo fe x a m i n a t i o n :j u n e ,2 0 0 9 u n i v e r s i t y :s h e n y a n gl i g o n gu n i v e r s i t y 7 , 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本 人独立完成的。有关观点、方法、数据和文献的引用已在文中指出, 并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任 何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要 贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 售者芽字) ;黝珍自 日期 :x 彬年厂月珍。日 l 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文 的规定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学 位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工 大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位签磊嗡、, 1 - 4 币签翥渤 日 期:。砷二、妇期:研多以 ? i , p 沈阳理工大学硕士学位论文 摘要 字符是人类信息交流的主要载体之一。随着计算机、信息技术的高速发展, 使用计算机处理并识别人们的文字信息也就成为了一个非常重要的研究领域。目 前,手写体字符识别是一个非常重要和活跃的研究领域,它涉及到模式识别、图 像处理、人工智能、模糊数学、信息论、计算机等学科,是- f - i 综合性技术,有 广阔的应用背景与巨大的市场需求。因此,对字符识别的研究具有理论与应用的 双重意义。 由于在脱机手写字识别中,存在手写字符变形随机性很大等问题,目前脱机 手写字符识别技术还很不成熟,仍处于研究阶段。因此提出将神经网络与模式识 别技术相结合,利用神经网络具有的良好的容错能力、分类能力强、并行处理和 自学习能力等优点,提出行之有效的手写体字符识别的方法。文章依次进行手写 字符图象预处理与归一化,通过上述操作后进行手写字符图像特征提取,将提取 到的特征向量作为神经网络识别输入向量,在b p 神经网络进行添加动量与改变学 习率,结合模拟退火算法,达到神经网络算法的优化与改进,从而实现神经网络 的训练与识别。在手写体字符识别中能对大量信息进行快速准确处理,并达到良 好的识别效果。 文章最后在v i s u a lc 抖平台上实现了一个b p 神经网络手写体字符识别系统试 验系统,该b p 神经网络系统具有优化的结构、具有鲁棒性与泛化能力,能够实现 较高识别准确率。 关键字:b p 网络;字符识别;模拟退火;特征提取 , 沈阳理工大学硕士学位论文 a b s t r a c t c h a r a c t e r sa l ei m p o r t a n tc a r r i e r sf o rh u m a ni n f o r m a t i o nc o m m u n i c a t i o n w i t h t h ed e v e l o p m e n to ft h ec o m p u t e ra n di n f o r m a t i o nt e c h n o l o g i e s ,t h ep r o c e s s i n ga n d r e c o g n i t i o no fc h a r a c t e ri n f o r m a t i o ni nc o m p u t e rh a sb e c o m ev e r yi m p o r t a n t n o w h a n d w r i t t e nc h a r a c t e rr e c o g n i t i o ni sav e r yi m p o r t a n ta n da c t i v er e s e a r c hf i e l di n p a t t e mr e c o g n i t i o n i ti n v o l v e sp a t t e r nr e c o g n i t i o n ,d i g i t a li m a g ep r o c e s s i n g ,d i g i t a l i m a g ep r o c e s s i n g ,a r t i f i c i a li n t e l l i g e n c ea n ds oo n i ti sac o m p r e h e n s i v et e c h n o l o g y a n dh a sav e r yb r o a da p p l i c a t i o nb a c k g r o u n da n dg i a n tm a r k e td e m a n d t h u si ti so f b o t ht h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c e t h e r ea r em a n yp r o b l e m sw h i c hi n v o l v eh a n d w r i t t e nc h a r a c t e rd e f o r m a t i o n r a n d o m n e s si no f f - l i n eh a n d w r i t i n gc h a r a c t e rr e c o g n i t i o n a tp r e s e n t ,t h eo f f - l i n e h a n d w r i t t e nc h a r a c t e rr e c o g n i t i o nt e c h n o l o g yi si m m a t u r ea n ds t i l ln e e dr e s e a r c h i n t h i sp a p e r , w et r yt oc o m b i n et h en e u r a ln e t w o r kw i t hp a t t e r nr e c o g n i t i o nt e c h n o l o g y w i t ht h eh e l po fa d v a n t a g e s ,w h i c hi n v o l v eg o o dt o l e r a n c ef o re r r o r , s t r o n gs o r t i n g a b i l i t y , s t r o n gp a r a l l e lh a n d i n ga b i l i t ya n ds t r o n gs e l f - l e a r n i n ga b i l i t yo fn e u r a l n e t w o r k ,w ed e v e l o pam e t h o df o ro f f - l i n eh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n i m a g e p r e 。p r o c e s s i n ga n dn o r m a l i z a t i o na r ec a r r i e do u ti nt h ep a p e r a f t e rt h eo p e r a t i o n ,w e s t a r tt oe x t r a c ti m a g ef e a t u r eo fh a n d w r i t t e nc h a r a c t e r sa n dt a k et h ef e a t u r ev e c t o r w h i c hh a sj u s tb e e ne x t r a c t e da st h ei n p u tv e c t o ro fn e u r a ln e t w o r kr e c o g n i t i o ni n p u t v e c t o r w ea d dm o m e n t u ma n dc h a n g el e a r n i n gr a t ei nb pn e u r a ln e t w o r ka n d 、析t l l t h eh e l po fs i m u l a t e da n n e a l i n g ,w ea c h i e v et h eo p t i m i z a t i o na n di m p r o v e m e n to fb p n e u r a ln e t w o r k t h e nt r a i n i n ga n dr e c o g n i t i o no fn e u r a ln e t w o r ka r e f u l f i l l e d o u r a l g o r i t h mc a np r o c e s sv a s td a t aq u i c k l ya n dp r e c i s e l y , a n dt h er e c o g n i t i o ne f f e c ti s f a i r l yg o o d t h ep a p e rf i n a l l yb u i l dan e u r a ln e t w o r kh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n s y s t e mi nv i s u a lc + + p l a t f o r m t h es y s t e mh a so p t i m i z e dt h es t r u c t u r e ,r o b u s ta n d g e n e r a l i z a t i o na b i l i t y i ta c h i e v e sh i g ha c c u r a c yo fr e c o g n i t i o n k e yw r o r d s :b pn e t w o r k ;c h a r a c t e r r e c o g n i t i o n ;s i m u l a t e d 锄叽e m i n g ;f e a _ t l l r ee x 衄圯t i 。n ,1吖o,i;j。耖_釉髟,产、i矗_q,0,“fq。,l、分,。j_,。、;一jj,i:一,h 目录 目录 第1 章绪论1 1 1 课题的目的以及意义1 1 2 手写字符国内外研究现状l 1 3 神经网络应用于手写字符技术研究现状3 1 4 论文的主要内容安排小5 第2 章手写英文字符的预处理7 2 1 字符图像进行平滑与降噪8 2 2 手写字符图像二值化9 2 3 手写字符二值图像细化1 l 2 4 手写字符图像分割。1 3 2 5 手写字符的倾斜调整与归一化1 5 2 6 本章小结1 7 第3 章手写英文字符的特征提取与选择研究1 8 3 1 特征提取方法1 9 3 1 1 模板匹配法1 9 3 1 。2 区j 或法2 0 3 1 3 几何距法2 0 3 1 4 投影法2 1 3 1 5 傅立叶描述子2 1 3 2 字符的几何特征2 4 3 3 基于字符链码编码的结构特征2 6 3 4 手写字符特征提取2 9 3 5 手写字符特征选择3l 3 6 本章小结3 2 r-,一fli旷f 沈阳理工大学硕士学位论文 第4 章手写英文字符b p 神经网络的分析与设计3 3 4 1b p 神经网络结构数学模型。3 3 4 2b p 神经网络分析3 4 4 2 1b p 神经网络缺点3 7 4 2 2b p 神经网络缺点原因分析3 8 4 3b p 神经网络改进4 0 4 3 1 模拟退火算法4 0 4 3 2b p 神经网络算法改进。4 2 4 4b p 神经网络设计4 5 4 4 1 手写字符b p 网络建立4 5 4 4 2 手写字符b p 网络训练4 9 4 4 3 手写字符b p 神经网络识别5 2 4 5 本章小结5 3 第5 章手写英文字符识别系统设计与实现5 5 5 1 手写英文字符图像预处理5 6 5 2 手写英文字符图像特征提取与选择5 8 5 3 手写英文字符b p 神经网络训练5 8 5 4 手写英文字符b p 神经网络识别6 l 5 5 试验结果6 3 结论:6 3 参考文献6 6 攻读学位期间发表的论文以及所取得的研究成果6 9 致 谢7 0 第l 章绪论 第1 章绪论 1 1 课题的目的以及意义 字符识别系统是模式识别学科的重要研究领域。许多研究者在该领域开展了 广泛的探索,促进了模式识别的发展。近十几年来,随着大规模集成电路和微电 子技术的快速发展、计算机与其相关设备价格的迅速下降及性能的快速提升,我 们所生活的社会进入了信息技术不断发展的时代,越来越多的人能够接触并利用 计算机辅助完成他们的工作。人们对它的要求也日益提高,希望它能够代替人类 快速高效的完成一些劳动,比如对各种文献的阅读、翻译、查找、整理等。如果 通过o c r 系统实现机械化、自动化,不仅可以提高工作效率,节省大量的人力资 源,同时可以避免人们在进行这些大量重复性的劳动时可能出现的失误,提高正 确率。 字符识别系统是近来逐渐发展起来的一门自动化技术,是图像处理领域的一 个重要的研究方向,o c r 技术涉及到模式识别、图像处理、模糊数学、组合论、信 息论、计算机科学等多个学科,同时也涉及到语言文字学、心理学等学科,是一 门综合的技术,广泛应用于排版、印刷、文件处理、表格阅读等办公自动化领域, 对它的研究主要是在最近十年。随着全球经济一体化和计算机网络的发展,需要 处理的英文资料也不断增多,英文字母的识别技术得到了突飞猛进的发展,许多 基于手写字符识别技术的商品在社会上得以应用。o c r 系统的研究不仅具有很强的 应用价值,同时具有深远的理论意义。 1 2 手写字符国内外研究现状 o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 即光学字符识别技术,是通过扫描仪把印刷 瑟。 莲、磐 沈阳理工大学硕士学位论文 体或手写体文稿扫描成图像,然后识别相应的计算机可以直接处理的字符。o c r 是模式识别的一个分支,对o c r 技术的研究已有几十年的历史。国内外早期的研 究主要集中在对印刷体的识别,随着技术的进步由识别单一字体、单一字号印刷 体的识别到识别多种字体、多种字号的印刷体文稿。目前国外在印刷体字符识别 技术方面已经比较成熟,有许多种商品化的印刷体识别软件,因此对o c r 技术的 研究主要集中在对手写体字符的识别上。 针对不同的识别对象和不同的目的,可以采用不同的模式识别理论方法,以 达到不同的要求。目前主流的技术扭,是:统计模式识别、句法模式识别、统计识别 和结构识别结合的方法以及神经网络法,它们之间又存在一定的联系和借鉴。 ( 1 ) 统计模式识别 这种识别技术理论是模式识别中最完整的理论体系,具有很多有效的方法。 其要点是提取待识别模式的一组统计特征,按照一定的决策函数进行分类判决。 常用的统计特征有字符二维平面的位置特征、字符在水平或者垂直方向投影的直 方图特征、距特征和字符经过频域变换或其他形式变换后的特征等。识别方法首 先将大量的字符特征经过提取、学习、分类形成模板信息,存储在识别系统中。 待识别图像在识别时首先利用相同的方法提取统计特征,然后与识别系统存储的 字符模板进匹配比较,根据比较结果确定字符的分类。其中匹配程度的衡量指标 采用各种向量间的距离,比如欧氏距离等。基于统计特征的字符识别技术对于形 近字符区分能力弱,因此,通常应用于字符的粗分类。对于字符集比较小、输入 图像质量比较高的图片也可以担当主要的识别任务。 ( 2 ) 句法识别模式 句法识别也称结构模式识别。在很多情况下,对于复杂的对象仅用一些数值 特征已不能教充分的进行描述,这时可以采用句法识别技术。这种技术同样也包 括特征的提取、识别过程。首先要提取字符的结构特征,比如笔画的走向、孤立 的点、以及是否含有闭合笔画的结构特征等。识别过程在提取基元的基础上利用 形式语言和自动机理论,采用词法分析、树匹配、图匹配和知识推理方法分析字 符结构特征。 这种方法的优点在于对字体变化适应性强,区分相似字的能力强;但是在实 际的应用中,面临着抗干扰能力差的问题。由于在实际中存在各种干扰,如倾斜、 第1 章绪论 扭曲、断裂、粘连、对比度等,这些因素直接影响基元的提取,例如结构基元不 能准确的得到,后面的识别就无法进行。此外结构模式识别的描述比较复杂,因 而匹配过程中复杂度比较高。所以纯结构识别技术已经逐渐衰弱,句法识别的方 法正日益受到挑战。 ( 3 ) 统计识别和结构识别的结合 统计识别和结构识别的结合各有各的优缺点,随着我们对于这两种方法的认 识深入。这两种方法正在进行融合。网格化特征就是这两种结合的产物。字符图 像被均匀或非均匀的划分为各个区域,称之为网格,然后在每一个网格内寻找各 种特征,如图像前景点和背景点的比例、交叉点、笔画点的个数、细化后的长度、 网格部分笔画的密度等等。特征的统计以网格为单位,即使个别点的统计有误差 也不会造成很大的影响,增强了的特征抗干扰。这种方法正得到日益广泛的应用。 ( 4 ) 人工神经网络法 人工神经网络n ,是由大量简单的基本单元神经元相互连接而成的非线性 动态系统,每个神经元的结构比较简单,而由其组成的系统却可以非常复杂,具 有人脑的某些特性,在自学习、自组织、联想及容错方面具有较强的能力,能用 于联想、识别和自学习。在o c r 方面,它主要做系统的分类器,输入字符的特征 向量,输出字符的分类结果。神经网络通过反复的学习,可以智能化的将特征向 量优化,强化类间的差异;其次,神经网络采用分布式的网络结构,本身具有并 行的条件,可以加大规模问题的求解速度。目前在字符识别中,应用最多的主要 是多层感知机网络,它是一个多层的前馈网络。神经网络具有很强的学习能力, 使其非常适合于解决字符识别问题。 1 3 神经网络应用于手写字符技术研究现状 神经网络模型n ,用于模拟人脑神经元活动的过程,其中包括信息的加工、处理、 存储和搜索等过程,它具有分布式存储信息的特点、对信息处理与推理具有的并 行特点、对信息的处理具有自组织、自学习的等特点。在神经网络研究n ,的历史进 程中,它在模式识别方面的应用一直是最活跃和最成功的领域。目前,随着计算 机的迅速发展,模式识别已经从理论发展到大量的实际应用,人们将更多的注意 力开始转向用于图像、机器人以及人工智能等模式识别实际问题。解决这些问题 沈阳理工大学硕士学位论文 的关键需要进行复杂而庞大的实时数据处理,而现在计算机的存储能量及计算复 杂性的局限,使得真正实时化应用受阻。这种面向实时应用的模式识别技术又将 模式识别实时应用推进了一大步,手写字符识别就是这种应用的一个很重要的领 域。 手写字符识别是一项极具研究价值的课题,随着神经网络与模糊逻辑技术的 发展,人们对这一问题的研究由采用了许多新的方法与手段,也使得这一问题的 研究焕发新的生命力。目前许多学者在研究这一课题。它包括了模式识别领域中 所有典型的问题:数据的采集、处理及选择、输入样本的表达的选择、模式分类 器的选择以及用样本集对识别器进行有指导的训练。人工神经网络为手写字符识 别提供了新的手段。正是神经网络所具有的自组织自学习能力、推广能力、非线 性和运算高度并行的能力使得模式识别成为目前神经网络最为成功的应用领域。 手写字体识别属大模式集,其图像的特征空间分布十分复杂,目前还没有找到完 全可分的特征映射及相应曲面,因而数量众多的手写字符识别系统都有误识和为 降低误识而引入的拒识,人工神经网络( a r t i f i c i a ln e u t a ln e t w o r k ,a l 州) 是仿生学 的产物,它通过网络节点之间的连接来存储信息并完成分类的计算。目前用作分 类器的神经网络主要有以下的几类: ( 1 ) 多层感知器( m l p ) 应用最广泛的前向神经网络模型,理论上,m l p 可以拟合连续分类曲面,在 学习阶段由b p 算法完成网络参数的确定。m l p 节点大多使用s i g m o i d 输出函数, 是一种非线性拟合方法。如果训练样本远小于真实样本数,训练往往不能达到全 局最优,当训练集足够大且有代表性时,m l p 有很好的识别效果。 ( 2 ) k o h o n e n 神经网络 一般由输入层、输出层组成。k o h o n e n 网通过无教师训练方法,收敛时不同的 模式在输出层形成不同的兴奋群。图像识别应用中输出层多采用二维排列。 k o h o n c n 网的自组织学习方法适合完成大模式集的一次性分类。但是由于它部包括 隐层,因而分类面相对简单,从而对于噪声比较敏感。 ( 3 ) 支持向量机( s ) s v m 的主要思想是建立一个超平面作为决策面,使得正例与反例之间的隔离边 缘被最大化,在模式分类问题上能提供好的泛化能力。s v m 针对有限样本情况, 笙! 皇笙堡 得到的是全局最优解,解决了局部性最值问题。目前通常采用的办法是通过组合 多个二值分类器来实现多类分类器的构造。 ( 4 ) c l i f f o r d 网络 由于c l i f f o r d 代数能够捕获多维数据中相互间的依赖性,文献( r a h m a ne t a l 2 0 0 1 ) 应用c l i f f o r d 代数获得m l p 中的权重参数的值,提出了一种新的神经网络训 练方法,该方法能精确的表达数据之间的依赖性,还有很多神经网络模型,如概 率神经网络、模糊神经网络等。多年来的研究结果表明,基于单个的识别器原理, 仅靠选择不同的神经网络以期从根本上提高系统的性能是不大现实的。由于不同 的分类器的错误分布的不同,各个识别子系统选用不同的分类器带入更多的信息, 采用多分类器的系统集成方法,综合后可能得到更佳的结果。 1 4 论文的主要内容安排 本文是一个典型的手写字符识别系统,该系统是由预处理、特征处理和分类 器的设计等部份构成。其中预处理是必须存在的过程,由于手写字符存在输入时 候存在噪声影响以及手写字符大小、粗细、倾斜的不同,因此,在手写字符的预 处理中需要对上述环节进行有效的处理,特征选取的好坏有利于系统性能的提高, 此环节设计的好,有利于系统更好的进行特征选取,有利于识别器的学习过程; 分类器的好坏直接关系到系统识别率的正确性。本文在广泛和深入的参考大量的 有关文献的基础上,针对手写卯神经网络字在手写英文字符识别中过程中进行有 效的改进,并将它应用于手写字符识别。该文主要的章节安排概括如下: 第一章绪论概述课题的背景、研究意义和国内外研究现状,同时简单介绍 字符图像识别的技术以及神经网络的发展状况和神经网络在手写字符识别中运用 现状。 第二章手写英文字符的预处理技术实现手写字符图像处理前的预处理步 骤,在过程进行中对图像二值化、梯度锐化、去除离散噪声、整体倾斜调整、字 符分割和尺寸标准归一化等过程。通过上述处理结果后,将方便以后对字符特征 进行有效提取。 第三章手写英文字符的特征提取与选择研究介绍手写字符的字符的特征提 取,包括字符的摸板匹配法、几何距法、区域法、傅立叶描述子等,然后根据字 沈阳理工大学硕士学位论文 符特征进行链码编码,最后在此基础上实现神经网络实现对手写字符特征进行提 取与选择的方法。 第四章b p 神经网络字符识别系统分析与设计详细介绍神经网络中的存在的 优点,并且分析神经网络本身的缺点以及造成该缺点的原因;接着,在分析缺点 的基础上,进行神经网络实现改进;最后,在实现神经网络设计中,具体实现神 经网络的初始化、神经网络结构选定、权值的调节、隐含层节点的确定、神经网 络训练过程以及神经网络识别各个环节。 第五章手写字符识别系统设计与实现描述系统的整体设计和试验环境,然 后详细叙述实现手写字符识别过程中各个试验步骤以及达到的试验结果。 结论总结和展望对课题工作的总结,数字图像处理和模式识别技术在当前 和未来应用的展望。 一 处理,以去除噪声,压缩冗余信息。由于一般都是在预处理后的图像进行的图像 提取特征,因此如果这个步骤结果不理想,往往会给后面的的提取阶段带来无法 纠正的错误。所以预处理的优劣直接关系到识别结果的正确与否,关系到识别算 法的性能。 预处理必须在手写字符识别应用系统得到重视“,。预处理是手写英文字符识 别的重要一环,它可以把原始的图像转化为识别器所能接受的形式( 二值化) 消 除一些与类别无关的因素( 位置和尺寸的归定化) 。由于一般都是在预处理后的图 像中进行提取特征,因此,如果这个步骤处理的结果不理想,往往会给后面的识 别环节带来无法纠正的错误,因此在处理的对象在实际中可能出现各种风格和书 写条件下的手写字符,所以必须在预处理中进行手写的倾斜的矫正、笔画粗细的 调整、消除干扰、字符的归一化等方面进行处理。所以对字符的数值图像进行预 处理并提取其中的特征向量成为字符势识别中不可避免的流程。字符图像预处理 过程主要包括二值化、去噪、分割、锐化、细化、逼近、归一化等过程,见图2 1 。 图2 1 字符图像预处理流程图 沈阳理工大学硕士学位论文 2 1 字符图像进行平滑与降噪 有灰度的,我们设法使它变成二值图像再处理( 即灰度图像的二值化) 。因为在实 用的图像处理系统中,要求处理的速度高、成本低、信息量大的图像不容易处理。 二值图像处理目前已成为图像处理中一个独立的、重要的分支得到广泛应用。 二值化是指将灰度图转化为二值数字图像的过程,即在数字图像中区分字符 与背景。在扫描的过程中,图像每一象素点的灰度值定义为在光照下以该点为中 心的区域上平均光照亮度。二值化过程可看作是对原扫描图像的映射转换过程, 当象素值小于某一阈值被映射为黑点。 删啦0 矧筹 浯1 , 式中:f ( x ,y ) 为( x ,y ) 处图像的灰度等级。 二值化的最终结果为:原始图像中反映图像结构的灰度值差别经映射后被保 留使得特征更为集中,而不反映图像结果的灰度值抖动被消除,从而最终得到的 只是构成字符图像的关键技术。 二值化的关键在于阈值丁的选取,阈值选取主要分为整体阈值法、局部阈值法 和动态阈值法。三类阈值的选择是一个比较复杂的问题,有的可以由计算机自动 选择,有的需人工干预。基于字符识别扫描得到的图像目标与背景的灰度级有明 显的差别,字符图像的二值化可采用整体阈值法中的双峰法,该方法简单易行, 针对目标与背景的灰度级有明显差别的图像,尤其是灰度图等级有明显差别的图 沈阳理工大学硕士学位论文 像,其灰度直方图分布呈双峰状,两个波峰分别与图像中的目标与背景相对应, 波谷与图像边缘相对应,应当在分割阈值位于谷底时,图像的分割可取得最好的 效果。 为了有效地分割物体与背景,人们发展了各种各样的阈值处理技术,包括极 小值点阈值、最优阈值、迭代阈值等。 设一幅混有噪声的图像的混合概率密度是: 北m 州卅胁= 击e x p _ 等 + 喜2 唧l l 锱。2 叫 式中:。和2 分别是背景和目标区域的平均灰度值; o 1 和o 2 分别是关于均值的均方差; 只和只分别是背景和目标区域灰度值的先验概率。 参见图2 4 ,假设。 8 且= 2 七) 链码也是可能的,称做一般链 码。 图3 5 给出实际经常遇到的可能。在这种方法中建立的链码 喀】,其中吐是连 接边界象素【毛,乃) 与【毛巾y j + ,) 线段的方向编码数,以顺时针方向扫描。这种描述的 缺点是得到的链码通常很长,并对噪声很敏感,这种链码随噪声变化。对于边 于图【所示的可能的方向编码,得到的链码显示在图( c ) 。与形状相关的特征由数 字序列组成的中心带构造。从曲线的起点开始,与其相连的象素点有8 种可能的方 向:后拳4 5 。( 后= o ,1 ,2 ,7 ) 。如果两个象素点间的连线方向为七宰4 5 u ,就用后作为这条 连线的代码,并称它为环。一条曲线,结果形成了刀个环,最终此曲线可近似地用 下式表示: 彳2 口l ,刀一。q 0 ,1 ,2 ,7 ) f = 1 2 ”甩 ( 3 3 0 ) 上式表示的a 称为曲线的链码。而形成此链码的过程称为曲线的链码编码过 程。一条曲线由起点坐标( 而,) 和链码彳完全决定。由( 而,y 。) 和彳能够重建该曲线。 ( 1 ) 原始采样 ( 2 ) 粗糙网格采样 ( 3 ) 结果链码 图3 6 对字符图像的链码进行编码 在链码编码前要首先获取在字符中出现的交叉点类型以及其位置在字符细化 沈阳理工大学硕士学位论文 后是很容易得到笔画的起点、终点和交叉点的。图像上某点的交叉点计算公式如下: 根据计算公式( 3 - 3 1 ) 如下: 工+ 疆y + l c = ( f ( i ,j ) ) - i i = x - l j 5 y i ( 3 3 1 ) 根据c 的取值不同,可以得到不同类型的交叉点。 ( 1 ) 起点、终点:起点、终点是指在起笔处和落笔处的位置( 不封闭字符) ( c = 1 ) 。 ( 2 ) 三交叉点:指该点周围有三条与之相连( c = 3 ) 。 ( 3 ) 四交叉点:指该点周围有四条线与之相连( c = 4 ) 。 找到交叉点后,就可以由图像的起始点逐点进行链码编码。在链码的编码过程 中,为了防止编码搜索方向的错误,采用了链码预测搜索方法,在均方意义下,使 得搜索误差达到最小。根据区域边界或骨架的近邻点之间存在一定程度的连续性这 一性质,在第f 个象素点曲线点预测方向为q ( f ) ,根据下一个象素点位置,实际编 码方向为d ,( f ) 。设: 口p ( f ) = d p ( f ) 一d ,( i 一1 ) ( 3 3 2 ) a r ( 七) - - a ,( 七) + y ( 七) 式中:l y j ( j = 1 ,2 ,3 ,三) 为加权系数; 是预测所需的以前实际角度增量的个数; ,( 七) 表示角度增量的预测值与实际值的误差。 ( 3 - 3 4 ) 算法的目的是求取加权系数形u = 1 ,2 ,3 ,三) 从而使口po ) 与q ( f ) 的误差达到最 小。将公式( 3 3 3 ) 代入( 3 3 4 ) ,令k 由f 一1 代入f m 变化,得: 口,( 七) = 口,( 七一,) + v ( 后) ,k = i l ,i - m m 三) ( 3 3 4 ) 式转化为向量形式为: y = 丑矽+ y ( 3 3 5 ) ( 3 3 6 ) )2 j2 j 一 1 - l,l 、- , 一 ,l r 口 同 = 、,- p 口 第3 章手写英文字符的特征提取研究 式中:y = 【口,i j f 一1 ) ,口,o 一2 ) ,4 ,g m ) 】r ; w = 【m ,w 2 ,屹r y = 【“f 一1 ) ,v ( i 一2 ) ,v ( i m ) 】r h 端 q r o 一2 )口,1 1 - 3 )a , o l 一工) a , ( - 殄 a , ( j - 霹) 口,( i - 2 - ) 口,( 亨一m 1 ) a , ( i - m 一2 ) - 口,a m 一五) ( 3 - 4 0 ) 形的最d x - - 乘估计形的计算式为: 形= ( 日r 日) 一1 日7 y ( 3 4 1 ) 得到加权系数的估计值后,在曲线的第f 个象素点做预测搜索,其相对f l 点的 角度增量是: 瓦o ) :圭丽( f d = 1 ( 3 - 4 2 ) 得到的角度增量后,可以得到预测的搜索方向为: d p ( f ) = 4 0 一1 ) + 口p ( f ) ( 3 4 3 ) 若预测角与实际不符,以预测方向为基准,加上增量后( 露= o ,l ,2 ,3 ) ,继续搜 索,直到遇到下一组相邻的象素点。若找不到相邻点,则说明该点是终点或断点。 实际应用中,为减少运算量,设= m = 3 ,所取得的效果较好。 3 4 手写字符特征提取 对字符进行链码编码后,可以获得字符的一些结构特征,如:将字符的轮廓划 分片段:凸弧、凹弧、直线段、段点、洞,并由特征片段得到特征基元,从而构成 对字符结构的完整描述。另外,还可以根据字符链码,进行字符的畸形校正。研究 了一种快速有效的骨架链码形成和特征提取算法。基于二值图像理论,同时考虑到 根据链码容易提取字符轮廓中包含的孔洞及其位置、端点数、角点数等特征,将字 符特征分类如下: ( 1 ) 单孔类:这类字符的主轮廓由一个孔洞组成。包括do 等字符; m 啦 娜 f c ( 3 沈阳理工大学硕士学位论文 ( 2 ) 双孔类:这类字符的主轮廓由两个孔洞组成。包括b 等字符; ( 3 ) 上孔类:这类字符的主轮廓由一个孔和其它部分组成。孔洞的位置位于 字符的上部,包括p ,q a r 等字符; ( 4 ) 下孔类:这类字符的主轮廓由一个孔洞和其他部分构成。孔洞的位置位 于字符的下部。 ( 5 ) 双端点类:这类字符包括两个端点,包括i 等字符。由于这类字符的数目 较大,所以需要进一步细分。角点是字符骨架曲线上的转折点,是曲线上角度变化 大于或者等于9 0 度的点。根据字符中包含角点数,将双端角点进一步分类如下: 双端无角点类:此类字符的骨架曲线是连续变化的,不存在角点。包括c 、j , g 等字符。 双端单角点类:此类字符的骨架曲线中存在一个上的角点。包括l 、u ,v 、等 字符。 双端点多角点类:此类字符中存在两个或者两个以上的角点。包括s 、z 、w 、 m 等字符。 三端点类:此类字符包括三个端点,且有两条或两条以上的骨架线。 包括e 、f 、t 、y 、j 等字符。 四端点类:这类字符包含四个或者四个以上的端点,且有两条或两条以上的 骨架线。包括x 、k 、h 等字符。 分类方法说明: 分类的顺序依次是倥侗及位置、端点数和角点数。 孔洞的确认:在字符骨架线的链码的形成过程中,若搜索到的下一点就是该骨 架线的搜索起始点,同时已形成的骨架链码码码长超过了一定的阈值,则认为搜索 到一个孔洞。 孔洞位置的确认:通过将孔洞中心的垂直坐标与整个字符中心的垂直坐标进行 比较,可以判断出孔洞位于字符的上部还是下部。 端点的确认:利用端点的连接数为一作为判断的依据。 角点的确认:角点处骨架角度的变化将大于或等于9 0 度。从链码的定义可知 两点的链码值之间的差的绝对值为k ,则代表着两点之间的角度变化为k x 4 5 度。 因此,利用链码可以很方便地找到角点。 第3 章手写英文字符的特征提取研究 链码编码的算法流程如图3 7 : 3 5 手写字符特征选择 图3 7 字符链码编码算法流程图 本节进行神经网络1 7 1 的实现特征选择。一种解决方法是自相关网络。网络中m 个输入点、m 个输出点与一个隐层,隐层有,个节点并具有线性激活作用。在训练 中,理想的输入与输出相同,即 占( f ) = 艺( 丽一黾( f ) r k = l ( 3 4 4 ) 这样的网络具有唯一最小值,并且隐层的输出组成m 维输入空间向量f 维子空 间的投影。输入相关矩阵的,个主本征向量在子空间上的投影是基础,该方法的扩 展已经应用到三层隐层中。这个网络完成非线性主成分分析,这一体系的主要缺点 沈阳理工大学硕士学位论文 是训练必须用非线性优化技术。除了计算负担外,还有陷于局部最小值的危险。 另一种选择是用神经网络或任何其他线性( 非线性) 结构来开发船代价函数 的特性。如果已经训练的权值能使输出与类标签匹配,那么后验概率逼近网络输出。 除了这一特性外,另一个非常有意义的特性也是很有用的。考虑线性输出节点的多 层感知器,训练网络使实际与期望输出之间的平方误差最小,可以证明最小化平方 误差与最大化准则 ,= 猡。- i 咒) ( 3 4 5 ) 等价。其中,最是向量的混合散布矩阵,它由最后隐层节点的输出形成;岛是 相应的加权形成的类间散布矩阵。如果o m 的逆不存在,由它的伪逆来代替。换言之, 这样一个网络可以作为从m 维的输入向量到,维输出向量的,优化非线性变换器。 其中,是最后隐层节点的数量。 在 l e e 9 3 ,l e e 9 7 中,提出另一种技术,提出具有决策信息的特征向量有一个成 分,它是决策面上的法线,且在决策面上至少有一点。也就是说,含少量信息的向 量与决策面的每个点的向量的法线正交。这是自然的,因为如果向量不包含决策面 法线的成分,就不能保证无论它们取什么值都与决策面相交( 从而改变类) 。基于 这个观察结果,使用梯度逼近技术估计决策边界的法向量,这种技术用于阐述变形 矩阵计算本征值一本征向量的逼近问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论