




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)基于svmga的小字符集脱机手写汉字识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
严 , y 1 75 帆0 呲3 眦7 4 帆 西华大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:封篡 日期:切j 。辱1 5 月) 3 日 指导教师签名: e t 期劢仉6 t | 之 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。( 保密的论文在解 密后遵守此规定) 学位论文毒者签名:烈饕指导教师签名:耋乙霸妙 日期:f 叫1 3 日期 少勿厂夕 l 一 西华大学硕士学位论文 摘要 汉字是历史悠久的中华民族文化的结晶,闪烁着中国人民智慧的光芒。汉字识别是 一种难度非常大的模式识别。其中脱机手写汉字识别是目前最为困难也最具挑战性的研 究课题。在办公自动化,机器翻译等方面,脱机手写体汉字识别也有着广泛的应用前景。 因此对于脱机手写体汉字识别的研究不仅拥有深刻的理论意义,更包含着巨大的实用价 值。 # 本文探讨的主要内容是基于小字符集的限制性脱机手写体汉字识别,实验选取国标 g b 2 3 1 2 8 0 一级字库中的1 0 0 类汉字,每类汉字采集1 0 8 个样本,共1 0 8 0 0 个汉字样本。 涉及的内容如下: 首先,本文用专门设计的表格对年龄分布在1 8 , - - 6 0 岁的不同职业、学历和性别的人 群的手写体进行样本采集。专用表格使得在满足识别需要的前提下,简化了预处理步骤, 提高预处理效率。 特征提取是汉字识别过程中的关键环节。本文采用基于弹性网格划分的四方向线索 分解特征。其中分别用基于笔画方向法和模糊子笔画提取法来对汉字笔画进行四方向分 解j 可在一定程度上避免基于轮廓的方法敏感于不同手写汉字笔画宽度与书写变形不足, 又能改善基于细化的方法中所导致的模糊笔画以及低分辨率手写汉字笔画信息的丢失。 支持向量机是在统计学习理论基础上发展出的一种性能优良的学习机器,其根据有 限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以求获得最好的推广能 力。支持向量机始终存在的一个问题是它的执行效果依赖于参数的设置,其中包括惩罚 因子和核函数,但却没有一个合适的理论来指导如何寻找适应于具体的样本数据的参 数。本文将改进的自适应遗传算法跟支持向量机相结合,设计了一种自动优选支持向量 机模型参数的方法。该方法根据适应度值自动调整交叉概率和变异概率,减少了遗传算 法的收敛时间并且提高了遗传算法的精度。将该方法应用于脱机手写汉字的识别,结果 表明由该方法所得的s v m 具有较好的泛化能力。 关键词;汉字识别;特征提取;支持向量机;遗传算法 基于s v m - g a 的小字符集脱机手写汉字识别 a b s t r a c t c h i n e s ec h a r a c t e r sa r et 1 1 er e s u l t so fc b i n e s ec i i l t u r a la c c u m u l a t i o n ,w h i c hh a sal o n g h i s t o r y , a n dt h e yr e p r e s e n tc h i n e s ep e o p l e sw i s d o m c h i n e s ec h a r a c t e rr e c o g n i t i o n i sak i n d o fp a t t e r nr e c o g n i t i o n 丽mg r e a td i f f i c u l t y a d d i t i o n a l l y , c o n c c m i n go f f i c ea u t o m a t i o na n d m a c h i n et r a n s l a t i o n ,o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nh a sah u g ep o t e n t i a l i na p p l i c a t i o n ,w h i c hh a sc a u g h ta t t e n t i o n so v e rt h ew o r l d t od r a wac o n c l u s i o n , t h er e s e a r c h o no f f - l i n eh a n d w r i t t e nc h i n 嚣ec h a r a c t e rr e c o g n i t i o nn o to n l yi so fg r e a ti m p o r t a n c ei n t h e o r e t i c a lv a l u e ,b u ta l s oc o n t a i n ss i g n i f i c a n tv a l u ei nu s e t h i st h e s i sm a i n l yf o c u s e so no f f - l i n eu n c o n s t r a i n e dh a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o no fl i t t l ec l a s ss e t t h i se x p e r i m e n ts e l e c t e d10 0f o n tt y p e so fc h i n e s ec h a r a c t e r s w h i c ha r ec o m m o n l yu s e df r o mg b 2 3l2 8 0d a t a b a s e c o l l e c t i n g10 8s a m p l e sf o re a c ht y p e , a n dt h et o t a ln u m b e ro fs a m p l e si s10 8 0 0 历口m a i np a r t so ft h i sp a p e ra r ea sf o l l o w s : f i r s t l y , s p e c i a lf o r m sa l ed e s i g n e dt oc o l l e c ts a m p l e sf r o mp e o p l ew h oa r ef r o md i f f e r e n t k i n d so f j o b ,s e xa n dd e g r e e ,a n dt h e i ra g e sa r cb e t w e e n18a n d6 0 u s i n gt h ef o r mc a nn o t o n l ym e e tt h er e q u i r e m e n to fr e c o g n i t i o nb u ta l s os i m p l i f ys o m eo fp r c p r o c e s s i n gs t e p sa n d i m p r o v et h ee f f i c i e n c yo f t h ep r c p r o c c s s i n g f e a t u r ee x t r a c t i o ni sav e r yi m p o r t a n ts t e pf o rc h i n e s ec h a r a c t e rr e c o g n i t i o n a c c o r d i n g t ot h ef e a t u r ee x t r a c t i o no ft h eo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n , f o u r d i r e c t i o n a ll i n ee l e m e n td e c o m p o s i t i o nf e a t u r ew a se x t r a c t e do nt h eb a s i s o fe l a s t i cm e s h e s p a r t i t i o nm e t h o d b o t hs t r o k e - b a s e dd i r e c t i o n a ld e c o m p o s i t i o na p p r o a c ha n d af u z z y s u b s t r o k ee x t r a c t i o nm e t h o da r eu s e dt oe x t r a c tt h ef o u rs u b s t r o k e so fh a n d - w r i t t e nc h i n e s e c h a r a c t e r n e yc a nn o to n l ya v o i dt h ed i s a d v a n t a g eo fc o n t o u rb a s e dm e t h o db e i n gs e n s i t i v e t od i f f e r e n tw i d t h sa n dd i s t o r t i o n so ft h es t r o k e ,b u ta l s oi m p r o v et h eb l m a d m gs t r o k e sa n dt h e l o s i n go f t h ei m p o r t a n ti n f o r m a t i o no f t h es t r o k ec a u s e db ys k e l e t o nb a s e dm e t h o d s s u p p o r tv e c t o rm a c h i n ei sah i g h - p e r f o r m a n c el e a r n i n gm a c h i n eo nt h eb a s i so ft h e s t a t i s t i c a lt h e o r y s v mb a s e d0 nt h ei n f o r m a t i o no fl i m i t e ds a m p l e st os e a r c hf o rt h eb e s t c o m p r o m i s eb e t w e e nt h ec o m p l e x i t yo ft h em o d a la n dt h el e a r n i n ga b i l i t y , w i t hav i e wt o o b t a i nt h eb e s tg e n e r a l i z a t i o na b i l i t y t h e r ei sap r o b l e mi nt h es v m 也a ti td e p e n d so nt h e p e r f o r m a n c eo ft h ep a r a m e t e rs e t t i n g s ,i n c l u d i n gp e n a l t i e sa n dk e r n e lp a r a m e t e r s ,b u tn o s u i t a b l et h e o r yc 锄g u i d et of i n da d a p t e dp a r a m e t e r s c o m b i n e da d a p t i v eg e n e t i ca l g o r i t h m 谢也s v m ,d e s i g na na u t o m a t i cp a r a m e t e rs e l e c t i o nm e t h o df o rs v m 1 1 1 i sm e t h o ds e l e c t s c r o s s o v e rp r o b a b i l i t y a n dm u t a t i o np r o b a b i l i t ya c c o r d i n gt ot h ef i t n e s sv a l u e so ft h e0 b j e c t f u n c t i o n , t h e r e f o r er e d u c e st h ec o n v e r g e n c et i m ea n di m p r o v e st h ep r e c i s i o no fg a n i s i i 一一 西华大学硕士学位论文 。二二一= - m e t h o dw a sa p p l i e dt oo f f - l i n eh a n d w r i t i n gc h i n e s ec h a r a c t e rr e c o g n i t i o n e x p e r i m e n t a l r e s u l t sd e m o n s t r a t ea ni m p r o v e m e n to ft h eg e n e r a l i z a t i o np e r f o r m a n c ef o rs v m k e yw o r d s :c h i n e s ec h a r a c t e rr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;s v m ;g a i r 3 特征提取:。18 3 1 手写体汉字的结构特征:1 9 3 2 手写体汉字的统计特征。2 0 3 2 1 全局特征方法2 0 3 2 2 局部特征方法2 1 3 3 本文采用的特征提取方法2 2 3 3 1 网格划分一2 3 3 3 2 四方向分解2 6 i v 西华大学硕士学位论文 3 3 3 弹性网格方向分解特征的提取3 0 4 分类识别3 2 4 1机器学习与统计学习理论3 2 4 1 1 机器学习3 2 4 1 2 统计学习理论3 3 4 2 支持向量机概述:3 5 4 2 1 支持向量机理论3 5 4 2 2 支持向量机分类3 5 4 2 3 核函数。3 7 4 2 4 参数对分类的影响3 9 4 3 改进的自适应g a s v m 参数选择4 0 4 3 1 遗传算法概述。4 0 4 3 2 改进的自适应遗传算法:。4 4 4 3 3脱机手写汉字分类器识别的软件实现流程。4 6 4 4 实验结果与分析4 8 5 总结与展望6 2 参考文献“ 攻读硕士学位期间发表学术论文情况。6 7 致谢。6 8 v 西华大学硕士学位论文 1 绪论 1 1 脱机手写汉字识别的研究背景及意义 汉字至今已有数千年的历史,同时也是世界上使用人数最多的文字,对于中华民族 灿烂文化的形成和发展有着不可磨灭的功勋,并将继续发挥着重要的、其他文字形式难 以取代的作用。然而,汉字是一种非字母化,非拼音化的文字,在当今这个高度信息化 的社会里,怎样快递高效地将汉字输入计算机,已经成为影响人机接口效率的一个重要 瓶颈,同时也关系到计算机能否真正在我国得到普及应用n 1 。目前,汉字输入主要分 为人工键盘输入和机器自动识别输入两种。人工键盘输入是指用手工击键方式按一定规 律把汉字输入到计算机中,虽然目前已经有数百种键入方案,但这与拼音文字的打字机 不同,人们需要经过一定时间的学习训练才能掌握某种键入方法,更为糟糕的是:对于 大量已有的文档资料,采用人工键入方法将需要花费大量的人力和时间,并且难以输入 签名、书法字形等手写汉字。随着劳动力价格的提高,利用人工方法进行汉字输入也将 面临着经济效益的挑战t 2 l 。为此,机器自动识别输入就成为了必须研究的课题。 汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及 模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、 中文信息处理等学科,手写体汉字识别研究的意义是多方面的3 1 : ( 1 ) 传统的模式识别理论和方法在手写体汉字识别中有很大的局限性,手写体汉 字识别的研究有助于发展新的模式识别理论。 ( 2 ) 汉字识别技术的研究是实现人工智能的良好平台和环境。模式识别能力在人 类智能行为中属于较低层,相对独立,对其研究需要的背景知识较少。而汉字由于其独 特的复杂结构,考察人认识汉字的过程成为研究人类认识能力的一个良好手段。因为人 在对具有丰富结构特征的汉字进行辨识时,不仅要应用模式识别能力,还要应用推理判 断能力。 ( 3 ) 人类的习字和识字过程是一个典型的学习训练过程,对于机器学习算法的研 究很有意义。 一 ( 4 ) 由于手写体汉字识别是一个涉及多学科的复杂问题,各个学科从自身角度探 索手写体汉字识别问题,出现了大量新思想和新方法,促进了相关学科的深入发展。 ( 5 ) 由于汉字在我国的特殊重要性j 手写体识别在文献检索、办公自动化、邮政 书信分拣、银行票据处理、报表的自动处理、试卷的自动阅读等方面有着广阔的应用前 景。 基于s v m - g a 的小字符集脱机手写汉字识别 1 2 手写体汉字识别简介 1 9 2 9 年陶舍克( t a u s h e c k ) 利用光学模板匹配识别,开创了用机器识别文字符号的 先河;欧美国家为了将浩如烟海的材料输入计算机进行信息处理,从5 0 年代就开始了 西文光学字符识别( o c r ) 的研究。 汉字识别的研究工作一直是公认的难题,被视为字符识别研究的最终目标h 1 。对 汉字识别研究最早的是美国m m 公司的c a s e y 和n a g y ,1 9 6 6 年他们发表了第一篇关于 汉字识别的文章,用模板匹配识别1 0 0 0 个印刷体汉字,从此在世界范围拉开了汉字识 别研究的序幕。印刷体汉字识别的研究最早始于2 0 世纪7 0 年代中期的日本,饭岛、中 野等人在1 9 7 3 年前后发表了一批汉字识别的论文,到1 9 7 9 年完成了日本通产省制定的 “图像信息处理系统”中的印刷体汉字识别装置,并于1 9 8 0 年1 0 月进行了公开表演。 该装置可识别2 0 0 0 个汉字,识别速度为1 0 0 字秒,识别率达9 8 4 。1 9 8 4 年由日本武 藏野电气通信研究所研制的多体印刷体汉字识别系统也取得了成功,识别率高达 9 9 8 8 ,识别速度大于1 0 0 字秒,该装置可识别3 2 0 0 个日本汉字,1 5 种字体,代表了 当时印刷体汉字识别的最高水平。目前进行手写体汉字识别研究的国家和地区主要集中 在中国、日本、中国台湾、美国和加拿大,实际应用水平最高的首推日本。 国内的汉字识别研究始于七十年代末,在印刷体识别和联机手写汉字识别方面取得 了令人瞩目的进展5 1 。从七十年代末到八十年代初,国内一些大学与研究单位( 如清 华大学、南开大学、沈阳自动化所等) 开始进行算法和方案的探索。他们开始采用日本 的方法,但由于国内常用汉字数量远远大于日本,所以日本所用的方法有一定的缺陷。 为了适应国情,国内研究的趋势是更多地考虑汉字结构的特点,采用一些结合汉字结构 比较稳定的特征。在此基础上出现了一些成功的系统:沈阳自动化所的印刷体汉字识别 系统、清华大学电子工程系的多体印刷体汉字识别系统和北京信息工程学院的印刷体汉 字识别系统等。 手写体输入装置出现得更晚,国外在8 0 年代末已有产品问世,国内的脱机手写体 汉字识别仍处于研究中。虽然有几种联机笔输入系统,如巨人集团的联机手写体识别系 统,但因为识别率不高或对用户有特殊要求导致推广面十分有限。对于手写楷体汉字联 机识别达到实用水平的突出代表是中科院自动化所研制的汉王笔,该设备可以识别 1 2 0 0 0 个手写正楷汉字、无笔顺限制,少数常用字可以连笔书写。有关脱机手写体识别 的产品更少,如武汉工业大学于1 9 9 3 年研制成功的手写印刷体汉字识别系统,用于国 标一级汉字的识别,识别率仅为8 0 左右,速度为1 字秒。 2 西华大学硕士学位论文 总的来说,现有的印刷体o c r 识别率可达9 5 ,而有些专用的小字库o c r 系统识 别率更是能够高达9 8 以上;而手写体o c r 系统的平均正识率还不到8 0 ,这显然不 能满足社会的迫切需要,是一门待发展的技术同时也是国内外研究的热点。 1 2 1脱机手写体汉字识别的研究难点 汉字识别系统的分类:通常可分为印刷体汉字识别系统和手写体汉字识别系统两大 类。印刷体汉字实际上相当于一种固定书写格式的汉字,与手写体汉字相比其限制性更 高,即更容易识别。而根据采用的输入设备不同,手写体汉字识别系统又分为联机识别 和脱机识别两种。图1 1 示意了字符识别的分类情况: 图1 1 汉字识别分类 f i g1 1t h ec a t e g o r yo fc h i n e s ec h a r a c t e rr e c o g n i t i o n 手写体汉字识别的主要性能指标为正识率、识别速度。随着计算机硬件设备的不断 发展,识别速度已经不是汉字识别的主要难点,而在提高汉字识别的正确率上却存在相 当大的困难,主要归结为以下几方面: ( 1 ) 字量大 仅康熙字典中就包含了4 9 0 0 0 多个汉字,而常用的汉字也有4 0 0 0 多个,国标 g b 2 31 2 8 0 的两级汉字共计6 7 6 3 个。识别系统一般应能正确识别这些常用韵汉字才能 满足实际应用的需要。显然,汉字类别越多,分类识别就越困难。 ( 2 ) 字形结构复杂 我国手写体主要有楷书、行书和草书三大类。汉字不同字体的同一个字虽然拓扑结 构基本相同,但在笔画的长短、粗细、位置上都有一定差别,各个部件的大小比例与位 置也有所差异。对于手写汉字,这种差别就更大。因此计算机自动识别时,很难把非特 定人手写的同一个字用一个标准印刷体来比较判定。 ( 3 ) 笔画结构复杂、字形相似 与西文相比,汉字笔画多,结构复杂。据统计,笔画最多的汉字有3 6 划,平均每 个汉字笔画为1 1 划嵋1 。由于笔画多,有些汉字结构十分复杂,有些汉字虽然笔画少但 图1 2 脱机汉字识别一般过程 f i g1 2t h eg e n e r a lp r o c e s so fo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n t o n 1 3 1 图像的获取 获取图像是字符识别的第一步,就是将需要处理的文字图像录入到计算机中,也就 是实现图像的数字化,现在用的比较普遍的设备是数字化扫描仪、数码相机等。数字化 图像的重要参数是分辨率,分辨率包括空间( 二维平面) 分辨率和灰度分辨率两种。空 间分辨率反映了像素描述在空间上的精细程度,而灰度分辨率则反映了像素描述在灰度 4 西华大学硕士学位论文 ( 色彩) 空间的精细程度。由于空间分辨率的高低对字符识别影响较大,所以要认真选 择。 1 3 2 图像的预处理 由于用数码相机或者扫描仪作为输入设备得到的数据不可避免地存在着各种外在 干扰,图像质量也有偏差,对识别效果势必会有一定影响。因此,在对原始汉字图像进 行识别处理之前,尽可能降低干扰因素的影响是很必要的。一般而言,预处理包括去噪、 二值化、归一化和细化等步骤 9 , 1 0 1 。去噪是预处理中极重要的一个环节。系统面对的是 从实际环境中切分出的汉字图像,可能有粘连边框,随机的墨点,断线等背景增加的噪 声,目前适应各种环境的通用去噪算法还不成熟。 1 3 3 图像的特征提取 如何快速地抽取能充分描述汉字模式的特征是汉字识别的关键问题之一。与其他模 式识别问题不同的是,根据先验知识,能预先知道哪些特征能将汉字区别开来6 1 。因 此就要研究那些特征比较具有分类价值同时又比较容易通过程序计算得到。在寻找汉字 特征时,还要考虑特征对不同字体、不同大小以及噪声等因素的不敏感性。 良好的特征应具有以下几个特点: ( 1 )同类汉字的特征值接近,而不同种类汉字的特征值应具有明显差异; ( 2 ) 所使用的各个特征之间彼此不相关,具有独立性; ( 3 )由于汉字识别系统的复杂程度会随着特征个数的增长而迅速增大,因此要求 提取的特征值数量越少越好。 而在实际应用中,寻找满足这几点要求的特征抽取方法是一项富有挑战性的工作。 从各国开始研究汉字识别至今,学者们针对汉字这一特殊的模式识别问题提出了多种识 别特征,如边缘特征、变化特征、穿越特征、网格特征、特征点特征和方向线索特征等 n 3 锄1 。这些方法大致上可以分为三类:统计特征法、结构特征法以及将两者结合起来 提出的算法。如表1 1 所示 表1 1 汉字特征比较 t a b1 1f e a t u r ec o m p a r i s o no fc h i n e s ec h a r a c t e r 全局特征局部特征结构特征 主要内容两维的变换域特征、汉网格特征、线段的梯基于汉字几何拓扑上的特 字各方向的投影密度、度、线段方向长度、征,如特征点、笔画特征、 周边面积、轮廓笔画长笔画密度特征等笔画序列等 度、方向链码 基于s v m - g a 的小字符集脱机手写汉字识别 实现方法周边特征法、外形态特笔画密度特征法、网汉字特征点法、汉字结构 - - - , 征法、投影法格特征法、脱壳透视元法、微结构法 分类法 主要特点对局部变化不敏感,抗受局部变化影响大,抗干扰,受字的整体和局 干扰能力强,但无法区无法适应书写风格部变化影响小,把二维信 分相似字的变化,区分相似字息转化为一维信息便于分 能力较强类计算,但特征抽取困难 由上述可见,统计和结构特征各有优缺点。采用单一的特征提取方法利用的汉字信 息量有限,因此不可避免地会存在一些识别的“死角 ,也就是利用单一特征很难区分 的汉字。现在人们通常运用数据融合的理论,由不同的原始特征向量进行融合,融合后 的特征向量将有利于增强特征向量的分类能力。 1 3 4 图像的分类识别 分类识别作为字符识别的关键步骤之一,是指分类器依据特征提取阶段提取的特 征,用事先得到的文法规则或决策函数判别对待识字符的类别做出判断r 乃。汉字识别 可分为两个阶段:学习( 训练) 阶段和识别阶段。获取文法规则或决策函数的阶段称为 学习或训练,这个过程既可以由机器自动完成也可以用手工方法进行,或两者结合。识 别阶段,首先按学习过程中的特征提取方法提取输入模式的特征,然后再与标准特征库 中的特征进行匹配,匹配结果最为相似的汉字即为识别结果。现有的分类器主要有模板 匹配分类器、统计决策分类器、句法结构分类器、模糊判决分类器、神经网络分类器和 逻辑推理( 或人工智能) 分类器六种1 5 , 6 1 。 模板匹配法是最简单的方法,其原理是:定义每类汉字的标准模板,和待识汉字点 阵图像距离最小的模板对应的类别判定为待识汉字所属类别。由于手写体汉字字形的多 样性,用模板匹配法识别的效果不是很理想。 句法结构法分为训练过程和识别过程。训练过程用已知结构信息的模式作为训练样 本,先识别基元以及他们之间的关系,并用字母符号表示,然后用构造句子的方法来描 述生成这些场景的过程,并由此来推断出生成该场景的一种文法规则。识别过程对未知 结构的模式进行基元识别及其相互关系分析,然后用训练过程中获得的文法对其作句法 分析,如果它能被已知结构信息的文法分析出来,则该模式具有与该文法相同的结构, 否则就判定不是这种结构。 模糊判决法2 鲫在模式识别过程中引入了模糊数学的思想。由于模糊模式有相当程 度的抗干扰与畸变能力,适于存在较大噪声的手写体汉字识别,但准备合理的隶属度函 6 西华大学硕士学位论文 数往往难以建立。神经网络法是人工神经网络方法在模式识别领域的应用,可以处理一 些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。 统计决策方法的理论支柱是概率论和数理统计3 卯,它的训练过程对已知类别的模 式样本进行各种特征的提取和分析,选取对分类有利的特征,并对其统计均值等按已知 类别进行学习,按贝叶斯最小错误准则,根据以上统计特征设计一个分类误差最小的决 策超平面;识别过程对未知模式进行相同的特征提取和分类,由决策超平面决定该特征 相应的模式所属的类别。 1 3 5 后处理 有些时候,为了提高识别率还要对分类器的输出结果进行后处理。后处理就是利用 词义、词频、语法规则等语言先验知识对识别结果进行校正以进一步提高系统的识别率。 它可看作是对分类器的补充,但不是字符识别系统所必须的。 1 4 本文主要研究内容及章节安排 由于汉字字符集数量庞大,本文考虑到实验成本以及实验用途仅为实验室研究,根 据我国常用汉字字符集标准g b 2 3 1 2 8 0 ,同时结合汉字的字形结构、笔画复杂程度和使 用频率在其一级字库中选取了1 0 0 个汉字作为实验数据进行探索性研究。本文设计了一 套脱机手写体汉字识别系统方案,对收集的小字符集实验汉字进行特征提取,最后用改 进的自适应遗传算法优化参数后的支持向量机作为分类器进行分类识别,整个系统构成 如图1 3 所示: 基于s v m - g a 的小字符集脱机手写汉字识别 采多一 手写体原稿 2 4 b i t 彩乍图像 u ( 预处理b 灰 ,- 切 归 样 : 。 度值 本 化化分 化库 v 廷征提哆b 笔画方向分解模糊子笔画分解 l 弹性网格划分 对应特征库 1 v _ 1 交叉验证优选参数卜_ 训练 一 s v m 设哆嚼 r b f 核的 l l 得到 s v m i 杯准o a 优选参数l s v m l 1 改进a g a 优选参数r 分类器 - 输出识别结果 二一一- - 一- 一- - - - - 一- - 一- - - 一一一- 一 图1 3 汉字识别系统框图 f i g1 3t h ef r a m e w o r ko fc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e m 本文组织结构安排如下: 第一章:绪论,首先引出课题研究的背景和意义,然后对脱机汉字识别的研究历史, 现状和难点做了阐述,最后介绍本课题的主要研究内容和章节安排。 第二章:汉字图像的收集及预处理,阐述了汉字样本的收集方案以及在对汉字识别 之前必须进行的灰度化、二值化、去噪、切分、归一化等的预处理操作。 第三章:特征提取,分析研究了手写汉字的字型结构和笔画复杂度等特点,给出了 分类的提取方法。 8 西华大学硕士学位论文 第四章:分类识别及实验结果分析,提出了一种基于s v m g a 的参数优化方法。 首先介绍统计学习理论和支持向量机( s ) 相关理论,包括最优分类面和s v m 的核 函数等。然后对遗传算法( g a ) 的基本思想和一般方法做了概述,同时用改进的自适 应遗传算法优化支持向量机的参数。用本文提出的参数优选方法与交叉验证网格技术选 取的参数以及简单遗传算法优化后的参数实验结果对比,结果表明本文采用的基于 s v m g a 参数优选后的支持向量机在解决小字符集脱机手写汉字分类识别问题上,有较 好的效果。 第五章:最后,对本文所做的工作进行总结,并对脱机手写体汉字识别的研究进行 了思考与展望。 9 生模拟电 字样张经 的深浅、 汉字图像 图像灰度 有这类的 模收集同 感,卡上 块和印好 的方框共同组成了一个只有黑与白的图像,其原理与二进制的“0 1 ”近似,机读卡 扫描后与预先存储的答案生产的图像进行比较,相符的部分就得分,不符的就是错误答 案。具体设计方案:表格上方和左侧为黑色矩形定位标记( 以下简称为水平标记和垂直 标记) , 其余部 行列之 每个汉 西华大学硕士学位论文 l 圃口口口口口口口口口口口 _ 口口口口口口口口口口口口 i 口口口口口口口口口口口口 - 口口口口口口口口口口口口 _ 口口口口口口口口口口口口 _ 口口口口口口口口口口口口 f i g2 一p a r to fc o l l e c t i n gf o r m 考虑现阶段实验室经费、人力有限且样本仅作为实验室研究之用,依据国标 g b 2 3 1 2 8 0 一级字库和汉字字型结构、笔画复杂程度选取了1 0 0 个汉字,在a 4 纸上打 印出专用方格,分别由年龄分布在1 8 6 0 岁的不同性别、职业和文化程度的人群书写。 要求书写者在方格中按工整度依次递减的顺序书写,共采集1 0 8 0 0 个实验样本。为实验 方便,给每个汉字字模编号,每个汉字旁边的数字即为其编号,如表2 1 所示 表2 1 汉字字模列表 _ t a b2 1t h el i s to fc h i n e s ec h a r a c t e rm o d l e s 一 啊1阿2哎3唉4爱5按6安7俺8暗9岸1 0 案1 1昂1 2肮1 3盎1 4凹1 5 奥1 6澳1 7熬1 8傲1 9袄2 0 敖2 1翱2 2懊2 3 吧2 4把2 5八2 6 巴2 7爸2 8拔2 9罢3 0 霸3 1扒3 2坝3 3疤3 4芭3 5靶3 6叭3 7捌3 8笆3 9白4 0 百4 1拜4 2 摆4 3败4 4柏4 5佰4 6掰4 7 呗4 8稗4 9搬5 0 办5 1 半5 2 班5 3板5 4版5 5般5 6伴5 7帮5 8磅5 9棒6 0 邦6 1 困6 2绑6 3傍6 4矮6 5报6 6包6 7堡6 8宝6 9抱7 0 保7 1暴7 2薄7 3伯7 4博7 5波7 6播7 7剥7 8本7 9笨8 0 奔8 1 被8 2背8 3 贝8 4北8 5只8 6之8 7你8 8 比8 9必9 0 过9 1 国9 2并9 3病9 4中9 5 因9 6共9 7产9 8长9 91 厂1 0 0 实验室所用扫描仪扫描汉字样张可直接得到二值图像、灰度图像和彩色图像三种, 经对比发现采用分辨率为l o o d p i 并保存为2 4 位彩色图像的样张效果最好,笔画较粗且 很少出现断笔,如图2 3 所示。 统转换矩阵: 塞0 2 7 4 1 0 斟3 2 2g尺 泡105 2 303 1 2b , 一 一 1 ( 2 ) 一 j 薹国国囤囤 l 围困茵因 _ 因因因因i 茵茵茵茵 l 困困因因l 困因因囚 i 因因困因i 因困困因 9 6 1 9 9 1 2 5 2 0 o o ,一 = 一、,y ,q ,。一 西华大学硕士学位论文 2 2 2 二值化。 由于脱机手写体汉字识别只需要处理图像中的字形信息,对颜色等信息不做处理, 所以如果输入的是灰度图则需要将其再转换为二值图,以去掉不必要信息,提高识别速 度并为汉字特征的提取打下基础。对于汉字字符图像的二值化,要求二值化后的图像能 忠实地再现原汉字。 用于识别的汉字图像通常是2 5 6 级灰度图,二值化就是将灰度值大于等于某一阈值 的像素点转换成白色( 灰度值为2 5 5 ) ,而将小于该阈值的像素点转换成黑色( 灰度值为 0 ) ,从而形成高对比黑白图像的过程。 假设一幅图像的像素值为f 【x ,y ) ,f ( x ,y ) ( ,吃,) ,阈值t = ,1 i m ( m 为最 高灰度级数) ,则如式( 2 2 ) : 。 m 川= 0 麓搿 汜2 , 二值化的方法很多,但却没有一种普遍适用的方法,必须依据具体的处理对象而定。 汉字图像的二值化算法关键在于选择合适的二值化阈值,其选取方法很多,目前就处理 范围而言,主要可分为三类: ( 1 ) 整体阈值法; 誓 ( 2 ) 局部阈值法; ( 3 ) 动态阈值法。 一、整体阈值法 , 常用的整体阈值法有: 1 、人工设定 根据实验或人的先验经验,预先给定一个固定阈值五。当f ( i j ) t ,( i j ) 为汉字笔画上 的点,否则为背景点。这是一种最简单且快速的二值化方法。但它不能根据每个文字确 定最佳阈值,而且确定阂值后当外界条件改变时,不能使阈值随之改变。 2 、由灰度直方图确定 这是一种根据图像和背景的灰度值自动确定整体阈值法。灰度直方图给出了一张图 像灰度级的概貌描述,字符点阵图像的直方图一般有两个峰值,一个峰值对应汉字笔画 部分,另一个峰值对应字符的背景部分。阈值应取在两个峰值的波谷处,波谷越深越陡 说明二值化的效果越好。 二、局部阈值法 由像素的灰度值和该像素周围像素点局部灰度特征来确定该像素的局部阈值即局 部闽值选择。识别书写或者印刷质量差,干扰较为严重的字符文稿时,整体阈值法很难 基于s v m - g a 的小字符集脱机手写汉字识别 二值化,此时采用该法是一个很好的选择。但这种方法实现速度慢、不能保证 通性以及容易出现伪影现象等。 动态阈值法 选择不仅仅取决于该像素及其周围的灰度值,还和该像素坐标位置有关。它可 质量甚至单峰值直方图图像。对于汉字点阵图像而言,其笔画和背景的区分是 的,而且动态阈值法计算时间长,因此在汉字识别中很少采用。 实验室收集的汉字图像质量较好,汉字笔画和背景有比较明显的区分,因此选 为2 0 0 2 2 02 _ l h - ,二值化效果如图2 5 : _ 困因因因困团因因因因因因 - 困因因因困团因因因困困因 i 因困因因因因因因因因囚因 图2 5 二值化效果图 丢孙州 1 4 西华大学硕士学位论文 2 2 4 切分 专用表格的水平标记和垂直标记用来确定样本所在区域,利用每个水平和垂直标记 分别标记出起止列坐标和行坐标,从而定位出汉字样本所在区域的范围。若直接定位的 样本区域效果不好,可根据实际需要对水平或垂直标记部分采取腐蚀或膨胀算法,去除 某些噪声点。这种方法也保证了在特征提取中充分利用原始汉字样本的笔画特征,减少 信息丢失。 切分是汉字识别系统极为重要的一个环节,切分正确率的高低往往会影响到整个识 别系统的有效性。通过专业表格标记定位后只能找到汉字样本所在的大矩形框区域。再 找到汉字图像的外接矩形即可确定汉字图像本身所占用的区域,同时这样也为后续的汉 字识别节省存储空间并提高了处理速度。定位汉字外接矩形的算法思想为:从标记定位 找出的大矩形框的上、下、左、右边界开始分别向方框内进行由上而下、由左至右的扫 描,分别找出离四个边界距离最近的点,即上端点、下端点、左端点和右端点,最后以 这四个端点作对应边界的平行线,即画出了单个汉字样本的外接矩形框。 戛 切分后的效果图如图2 6 所示: _ - 国圆圆固回团固园园国园固 回国固 回园固 图2 6 汉字切分效果图 f i g2 6c h a r a c t e rs e g m e n t a t i o nr e s u l t 2 2 5 归一化 在手写体汉字中,存在着诸如位置、尺寸和字形畸变等种类繁多的变化。研究者们 提出了多种方法,试图直接从汉字点阵图像上矫正手写变形,减少类间方差。这些方法 统称为归一化处理,处理后将使手写体汉字具有相同的大小,以利于特征提取和识别的 进行。在统计识别中,基于各种特征的相关匹配,要求特征向量和模板向量具有相同的 维数,各个分量一一对应,否则距离或相似度的计算便难以进行;在结构识别中,虽然 更注重汉字结构和笔画间的关系,但笔画长度也常常作为一个很重要的属性被加以利 用。若汉字大小不做归一化处理,这一属性将很难发挥作用。 园固固固固园团国固固固固回回国回固园 基于s v m - g a 的小字符集脱机手写汉字识别 为减少不同手写体汉字变化程度,归一化要求不改变图像的各重要特征,避免特征 空间较大的差异。通过采用汉字图像归一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村委会垃圾分类合同协议
- 社区购房合同的签订协议
- 银行担保抵押合同协议书
- 物流仓储仓管员合同范本
- 村级鱼虾池承包合同协议
- 电商合伙人签约合同协议
- 电动客运车销售合同范本
- 终止设计合同的协议范本
- 门窗的安装施工合同范本
- 社区生鲜店合伙合同协议
- 信息化规划咨询服务协议
- 华为门禁出入管理办法
- 2025年贵州省中考英语真题
- 2024年温州平阳县第二人民医院招聘真题
- 流行病学的试题及答案
- 幼儿游泳活动方案
- 基于机器学习构建减重代谢手术效果的预测模型
- 显微外科术后护理
- 2025至2030中国热成型钢(PHS)市场销售模式及未来投资风险评估报告
- oracle考试试题及答案
- 2025年浙江省中考数学试卷真题(含官方标准答案)
评论
0/150
提交评论