(检测技术与自动化装置专业论文)基于反馈结构的手写体汉字识别系统研究.pdf_第1页
(检测技术与自动化装置专业论文)基于反馈结构的手写体汉字识别系统研究.pdf_第2页
(检测技术与自动化装置专业论文)基于反馈结构的手写体汉字识别系统研究.pdf_第3页
(检测技术与自动化装置专业论文)基于反馈结构的手写体汉字识别系统研究.pdf_第4页
(检测技术与自动化装置专业论文)基于反馈结构的手写体汉字识别系统研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(检测技术与自动化装置专业论文)基于反馈结构的手写体汉字识别系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于反馈结构的手写体汉字识别系统研究 摘要 传统的手写体汉字的机器识别方法是前向开环信息流方式,其开环的特点 决定了识别系统性能存在着显著的识别正确率与拒识率之间的矛盾。目前机器 识字过程的无反馈开环识别方法,其功能和结构的局限性难以实现人工智能控 制的过程。 本文利用闭环反馈的理论思想,尝试着提出一种新的基于识字广义差的反 馈识字方法,构建基于反馈结构的手写体汉字识别系统,用以提高系统的鲁棒 性,改善手写体汉字识别的正确率和拒识率这一对矛盾指数。 文章主要进行了以下几点研究: ( 1 ) 依据对识字结果信息的误差分析,定义了三种广义识字误差,并给出了 这三种广义识字误差的定性与定量相结合的识字误差分析方法,构建了一个定 性与定量相结合的反馈结构的手写体汉字识别系统。 ( 2 ) 建立由密集的产生式规则生成规则库决策机,根据三种广义识字误 差分析方法,对识别字的正确与否进行评判,并可进一步对识别方法进行反馈 校正,以最终达到对识别结果进行校正的目的。 ( 3 ) 根据广义识字误差提取方法对汉字图像的要求,给出了对汉字图像进行 相关的预处理算法。 选取s c u t - i r a c 手写体汉字库中的手写体汉字图像,对文章研究的基于反 馈结构的手写体汉字识别系统进行了验证实验。实验结果说明,该方法在提高 汉字识别的正确率的同时降低了拒识率,改善了传统识别方法中手写体汉字识 别的正确率和拒识率这一对矛盾指数。 关键字:手写体汉字识别,广义识字误差,反馈结构,决策机。 r e s e a r c ho nh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o n s y s t e mb a s e d o nf e e d b a c ks t r u c t u r e a b s t r a c t t h ec o n v e n t i o n a lm e t h o do fh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o ni s u s u a l l yao p e n 1 0 0 ps y s t e m a n dt h ef u r t h e ri m p r o v e m e n t o ft h ep e r f o r m a n c es e e m s d i f f i c u l t o n eo ft h ed i m c u r i e sl i e si nt h e 仃a d e - o f fb e t w e e nt h er e c o g n i t i o nr a t ea n d t h er e j e c t i o nr a t e i na n o t h e rw o r d s ,r e j e c t i o nm e t h o d sa r ea p p l i e dt oi n c r e a s et h e s y s t e m sa c c u r a c y , b u td e c r e a s et h es y s t e m so v e r a l lr e c o g n i t i o n r a t ea n dp e r f o r m a n c e a tt h em e a n t i m e i nt h i sp a p e r , an e ws y s t e mo fh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o ni s p r o p o s e dt oi n c r e a s et h es y s t e m sa c c u r a c yw i t h o u td e c r e a s i n gt h er e c o g n i t i o nr a t e , w h i c hi sb a s e do nf e e d b a c ks t r u c t u r e ( 1 ) as y s t e mo fh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o nb a s e do nf e e d b a c k s t r u c t u r ei sc o n s t r u c t e d t b r k i n d so fg e n e r a lc h a r a c t e r sr e c o g n i t i o ne r r o ra r e d e f i n e d q u a l i t a t i v ea n a l y s i s o ft h e i rt y p e sa n dq u a n t i t a t i v ea n a l y s i so ft h e i r n u m b e d c a lv a l u e sa r em a d e ( 2 ) d e c i s i o n - m a k i n ga n de v a l u a t i o nm e c h a n i s mi se s t a b l i s h e do nt h ec o n d i t i o no f t h e l r e ck i n d so fg e n e r a lc h a r a c t e r sr e c o g n i t i o ne r r o r t h ed e c i s i o nm a c h i n ec a n j u d g ew h e t h e rt h er e c o g n i z e dc h a r a c t e r sa r ec o r r e c t ,a n di tc a nc a r r y o u tt h ef e e d b a c k c o r r e c t i o no fr e c o g n i t i o nm e t h o d t h ec o r r e c t i o no fr e c o g n i t i o nr e s u l tc a l lb eg a i n e d t h i ss y s t e mc a ni m p r o v et h er e c o g n i t i o nr a t ea n dr e d u c et h er e j e c t i o nr a t ea tt h e s a m et i m e ,w h i c ha r eac o u p l eo fi n c o m p a t i b l ep a r a m e t e r s ( 3 ) t h ep r e t r e a t m e n to fc h i n e s ec h a r a c t e r si m a g ei sg i v e nt oa d a p tt h e a b s t r a c t i n go f t h eg e n e r a lc h a r a c t e r sr e c o g n i t i o ne r r o r h a n d w r i t t e nc h i n e s ec h a r a c t e r si ns c u t - i r a ca r et e s t e d t h ee x p e r i m e n t r e s u l t sh a v es h o w nt h a tt h i sm e t h o di se f f e c t i v e i tc a ni m p r o v et h er e c o g n i t i o nr a t e a n dr e d u c et h er e j e c t i o nr a t ea tt h es a m et i m e k e y w o r d s :f e e d b a c ks t r u c t u r e ,h a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o n ,g e n e r a l c h a r a c t e r sr e c o g n i t i o ne r r o r , d e c i s i o nm a c h i n e 插图清单 图1 1 脱机手写体汉字识别系统简图5 图1 。2 单字识别( 模式识别) 示意图5 图2 1 开环控制的结构框图9 图2 2 闭环控制的结构框图1 0 图2 3 传统的手写体汉字识别的系统结构图1 0 图2 4 带反馈的手写体汉字识别的系统结构图1 1 图2 5 手写体汉字反馈识别系统的结构和信号流图1 2 图3 1 中值滤波对一维信号的滤波效果图1 3 图3 2 中值滤波对二维信号的滤波效果图1 3 图3 3 中值滤波对带椒盐状噪声的汉字图像滤波效果图1 4 图3 4 对一均匀网格图进行可变形变换的效果1 5 图3 5 余弦变形变换的6 种整形效果1 6 图3 62 4 种不同整形效果1 6 图3 7 字像重心归一化效果图1 7 图4 1 手写体汉字反馈识别系统的结构和信号流图1 8 图4 2 二维图像的一级小波变换1 9 图4 。3 汉字图像的网格划分1 9 图5 1 无“j ,) 的获得过程演示图2 1 图5 2 正y ) 细部图2 2 图5 3 模板1 2 2 图5 4 比对字像像素实差的提取2 4 图5 5 小波网格特征向量表示意图2 4 图5 6 图2 中丘( 石,y ) 的水平方向和垂直方向的二值化投影图2 9 图5 7 比对字像差特征的提取31 图6 1 决策机功能流程图3 2 图7 1 “王”字的识别3 6 图7 2 “犬”字的识别。3 7 图7 3 图7 2 ( d ) 的水平和垂直二值化投影3 8 图7 4 “顾”字的识别3 9 图7 5 图7 4 ( d ) 的水平和垂直二值化投影4 0 图7 6 “蛾”字的识别4 0 图7 7 图7 6 ( d ) 的水平和垂直二值化投影4 1 图7 8 “阜”字的识别4 1 图7 9 图7 8 ( d ) 的水平和垂直二值化投影4 2 图7 1 0 “沸”字的识别4 3 i i i 表格清单 表5 1 识别“沸”字的向量差1 死2 5 表5 2 识别“幅”字的向量差1 死2 6 表5 3 识别“挨”字的向量差1 瓦2 6 表5 4 识别“饱”字的向量差1 死2 6 表5 5 识别“辫”字的向量差1 死2 7 表5 6 识别“蛾”字的向量差1 死2 7 表5 7 识别“阜”字的向量差1 五。2 7 表5 8 识别“姑”字的向量差1 死2 7 表5 9 识别“唉”字的向量差1 瓦2 8 表5 1 0 识别“顾”字的向量差1 死2 8 表6 1 由向量差1 死创建的4 个方阵e a 、e h 、e v 和e d 3 3 表7 1 “王”字识别的向量差1z l 的4 个方阵e a 、e h 、e d 和e v 3 7 表7 2 “犬”字识别的向量差1 死的4 个方阵e a 、e h 、e d 和e v 3 8 表7 3 “顾”字识别的向量差1t - 的4 个方阵e a 、e h 、e d 和e v 3 9 表7 4 “蛾”字识别的向量差1 乃l 的4 个方阵e a 、e h 、e d 和e v 4 0 表7 5 “阜”字识别的向量差1r e l 的4 个方阵e a 、e h 、e d 和e v 4 2 表7 6 反馈系统对原系统的指标改善情况4 3 i v 独创性声明 本人声明所置交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得合肥工业大学 或其他教育机构的学位或证i l 而使川过的材料。与我一同:作的同j 恙对本研究 所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:t 孚。、 签字日期:岬年尼月订日 学位论文版权使用授权书 本学位论文作者完全了解合肥j j 业人学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅和借阅。本人授权金月巴:l 些厶堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位 论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:1 吾弓、 签字日期:_ 1 年l 。月巧日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字日期:硝年为月 日 电话: 邮编: 致谢 衷心感谢我尊敬的导师王建平教授在研究生期间对我的指导、关心和帮助。 在王老师的不倦教诲和悉心指导下,我才顺利完成了研究生期间的课题研究和 论文的撰写。王老师以渊博的知识、严谨的治学态度、敏锐的思维和非凡的敬 业精神给予了我专业的指导,为我树立了为人处事的楷模。同时,王老师还以 真诚热心的关怀给予了我生活上的帮助,使我受益良多。在此向王老师表示最 诚挚的谢意! 感谢朱程辉、徐晓冰、钱自拓、秦剑和赵丽欣老师,谢谢你们在学习和生 活上对我的帮助。 感谢电气学院的全体老师,他们的教诲为本文的研究提供了理论基础,并 创造了许多必要条件和学习机会。 在实验室期间,得到了张丽萍、徐其林、张茂林、程羽、王晓雪、张凯、 张涛和沈周晖同学在学习和生活上热情关心和无私帮助,在此向他们表示衷心 感谢;感谢李帷韬、孙伟、戴莹、王熹徽、马宾、刘伟、穆举胜、杨金付和朱 克忠师兄师姐的在学习和生活上的指导和帮助;感谢同实验室其他各位同学的 关心和帮助。 感谢我的父母及家人。他们用辛勤的劳动和无私的关怀给了我学习和生活 的物质精神支持,感爱之心,无以言表,他们永远健康快乐是我最大的心愿! 感谢所有关心和帮助过我的同学和朋友! 作者:潘乐 2 0 0 7 年1 2 月 第一章汉字识别概述 汉字作为中华民族文明发展的信息载体 1 】1 2 1 3 1 【4 】,记录了璀璨的民族文化, 展示了东方民族独特的思维和认知方式。随着信息时代的到来,如何用计算机 对汉字信息进行处理已逐步发展成为一门综合性的交叉学科一中文信息处理 1 5 。汉字的机器自动识别则是中文信息处理的“瓶颈”问题。汉字的机器自动 识别是指用计算机自动识别写在纸( 或介质) 上的汉字,它是智能计算机接口 的一个重要组成部分,也是汉字高速、自动输入计算机的重要手段,它在文献 检索、办公自动化、笔记本电脑、邮政、银行票据处理、表格录入、机器翻译、 出版及盲人阅读机等方面都有广阔的应用前景。汉字识别在学科上属于模式识 别中文字识别的一个分支,涉及人工智能、图像识别、计算机科学、心理学、 语言学等领域。就识别对象而言,汉字识别可分为印刷体汉字识别和手写体汉 字识别;手写体汉字识别,又可根据识别的实时性分为联机手写体汉字识别和 脱机手写体汉字识别。目前印刷体汉字识别和联机手写体汉字识别已逐步实用 化,而脱机手写体汉字识别( 以下简称手写体汉字识别) 因其自身的复杂性被视 为汉字识别领域中“最难征服的领域”,成为国内外研究的热点。 1 1 字符识别及手写体汉字识别的发展历程和研究现状1 5 i 1 6 1 1 9 2 9 年陶舍克利用光学模板匹配识别,开创了用机器识别文字符号的先河。 欧美国家为了将浩如烟海的材料输入计算机进行信息处理,从5 0 年代就开始了 西文o c r 的研究。汉字识别的研究工作一直是公认的难题,被视为字符识别研 究的最终目标。1 9 4 6 年m m 公司的c a s e y 和n a g y 首次提出了一个识别1 0 0 0 汉字的识别方案。日本在七十年代首先开始研究联机汉字和印刷体汉字的识别 技术,1 9 8 4 年多体印刷体汉字识别系统由日本武藏野电气通信研究所研制成功, 识别率达9 9 9 8 ,识别速度大于1 0 0 字秒,识别字数最多可达3 2 0 0 个,代表 了当时印刷体汉字识别的最高水平。 我国在7 0 年代开始进行邮政信函分检的数字识别研究,7 0 年代末一些大学 和研究所开始从事印刷体汉字识别的研究工作,8 0 年代初才开始进行手写体汉 字识别的研究,1 9 8 5 年以后,有关手写体汉字识别研究的文章不断出现在期刊 上。1 9 8 9 年1 2 月清华大学计算机系首次在我国鉴定了交互式手写体汉字识别系 统,识别字域为3 7 5 5 个,对工整书写的楷书前十位累计识别率为5 2 ,在3 8 6 微机上识别速度为2 秒字,1 9 9 0 年7 月北京大学研制出了国内第一个手写体汉 字识别系统,识别字域为3 7 5 5 ,对工整书写的楷书前十位累计识别率为6 0 , 在3 8 6 微机上识别速度为1 4 秒字。1 9 9 5 年国家8 6 3 高技术3 0 6 课题组组织了 第四次汉字识别系统性能测试,脱机手写体文本汉字识别系统识别率为 6 8 0 5 8 9 9 1 ,识别速度为2 0 字秒。1 9 9 6 年8 月清华大学计算机系“脱机手 写体文本汉字识别系统”通过鉴定,识别字域为3 7 5 5 ,对工整书写的识别率为 7 4 0 3 9 6 5 。1 9 9 7 年3 月清华大学电子工程系研制的t h o c r - 9 7 综合集成汉字 识别系统通过鉴定,其中的非特定人脱机手写汉字文本识别子系统,对书写较 为工整的手写汉字文本的正确识别率达9 5 8 。目前,己有十多套系统通过鉴 定。从纵向发展水平来看,我国手写体汉字识别研究一直处于平稳上升阶段, 并逐步向实用化目标迈进。 1 2 脱机手写汉字识别方法分析1 1 1 2 1 1 7 1 1 8 1 1 9 j 【l o i l l l l l l 2 i1 1 3 1 1 1 4 1 0 s l l l 6 1 1 7 i 自从i b m 公司的c a s e y 和n a g y 于1 9 6 6 年首次发表关于汉字识别的文章以 来,汉字识别取得了很大的进展,提出了很多理论和方法。 通常,原始文稿通过光电扫描仪等输入设备转换成原始的二维图像信号, 可以是灰度图像( g r a ys c a l ei m a g e ) 或二值图像( b i n a r yi m a g e ) 。行字切分是 将整页版面的原始图像先按书写行分割开,然后再从每行中切分出单个汉字图 像。预处理通常包括大小归一化、平滑、细化或轮廓化等处理过程。特征抽取 与分类器的设计是整个系统中最为重要的环节,稳定特征的抽取与良好性能的 分类器的设计是整个识别系统的核心,它们直接决定了识别系统的性能。文本 识别后处理是指对单字识别的结果,利用词义、语义等上下文先验信息进行识 别结果的确认或纠错。 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择 不同的特征或基元( p r i m i t i v e ) ,每种特征或基元又有不同的抽取方法,这就使 得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各别的汉 字识别方法。总的来说,不同的特征抽取和分类器的设计方法决定了识别系统 采用不同的处理方法,通常可以分为结构模式识别方法、统计模式识别方法、 统计与结构相结合的识别方法以及人工神经网络方法等。 1 结构模式识别方法 结构模式识别方法是人们最初用来进行手写汉字识别研究的方法,一般需 要先抽取笔段或基本笔画作为基元,由这些基元再构成部件( 子模式) ,由部件 的组合来描述汉字( 模式) ,最后再利用形式语言及自动机理论进行文法推断, 即识别。然而,人们美好的初衷并未能如愿以偿,这是因为从汉字图像中抽取 笔画等基元比较困难。通常,为了抽取笔画需要将原始点阵图像进行细化处理, 但是细化算法不仅速度慢,而且容易产生伪笔画段,如将一个四叉点变成了二 个三叉点,给准确抽取基元造成了困难。为了解决这个问题,有些学者试图不 经过细化直接从汉字点阵图像中抽取笔画等基元,但效果仍不尽如人意。因此, 有些研究人员放弃了抽取笔画或笔段作为基元然后进行文法推断的思路,采用 汉字轮廓结构信息作为特征,这一方案的识别结果优于基于基元抽取的方法, 但识别方法需要进行松弛迭代匹配,耗时严重,而且对于笔画较模糊的汉字图 2 像,抽取内轮廓会遇到极大困难,外轮廓的抽取也不太稳定。也有些学者采用 抽取汉字图像中关键特征点来描述汉字,汉字的关键特征点包括端点、折点、 交点、歧点、背景特征点、局部曲率最大点等,但是特征点的抽取易受噪声点、 笔画的粘连与断裂等影响。 总之,早期的脱机手写汉字识别研究者将精力主要集中在如何准确地抽取 基元、轮廓、特征点等能够反映汉字结构信息的特征上,并且在假设这些特征 已经比较准确地抽取完毕的前提下,研究文法匹配、属性图匹配、松弛迭代匹 配等。然而,单纯采用结构模式识别方法的脱机手写汉字识别系统,识别率较 低,这就促使人们将目光转向了统计模式识别方法。 2 统计模式识别方法 与结构法相比,统计法具有良好的抗噪声、抗干扰的性能,其鲁棒性主要 体现在统计特征的抽取和模式匹配方法上。 用于脱机手写汉字识别的统计特征,根据特征抽取区域的不同可粗略地分 为全局统计特征和局部统计特征两大类。 ( 1 ) 全局统计特征 全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要 包括: 全局变换特征t 对汉字图像进行各种变换,利用变换系数作为特征,常用 的变换有f o u r i e r 变换、h a d a m a r d 变换、d c t 变换、w a l s h 变换、r a p i d 变换、 k 1 变换等; 不变矩( m o m e n t ) 特征; 笔画穿透数目特征; 全局笔画方向特征:这种特征反映了在整个汉字点阵中笔画的复杂度、方 向及连接关系; 背景特征:汉字图像的空白部分( 即背景) 和周围笔画的关系也含有一定 的结构信息,提取背景点在各个方向的笔画密度作为背景特征,通常可选取位 于汉字图像两对角线上的背景点。 ( 2 ) 局部统计特征 局部统计特征是将汉字点阵图像分割成不同区域或网格,在各个小区域内 分别抽取统计特征,主要包括:局部笔画方向特征、细胞特征、相补特征、方 向线素特征、g a b o r 特征和四角特征。 根据抽取特征的不同,可以选用不同的匹配方法,常用的统计匹配方法有 模板匹配、相关匹配、树分类器等。常用的距离度量有欧氏距离、城市块距离、 马氏距离等。 3 统计与结构相结合的识别方法 由上述可见,统计与结构方法各有优缺点。统计方法具有良好的鲁棒性, 3 较好的抗干扰抗噪声的能力,它一般按一定的距离度量匹配准则,采用多维特 征值累加的办法,把局部噪声和微小畸变淹没在最后的累加和里,但是,可以 用来区分“敏感部位”的差异也随之消失,因此区分相似字的能力较差;而结 构方法对结构特征较敏感,区分相似字的能力较强,但是结构特征难以抽取, 不稳定。因此,人们已注意到将两种方法结合起来使用,这种结合包括两个方 面: ( 1 ) 特征的结合:在特征抽取过程中,注意抽取能反映手写汉字结构信息 的统计特征,如:方向线素特征、四平面笔画穿透数目特征等。 ( 2 ) 识别方法的结合:可以先用统计方法进行粗分类,再用结构方法进行 细分类来区分相似字,即两种方法的串联;也可以将两种方法并联使用,然后 进行综合集成,这是近年来文字识别领域的一个重要研究方向。 4 人工神经网络方法 基于串行符号处理的数字电子计算机在人工智能等研究领域遇到了一定的 困难,促使人们以更大的兴趣去研究以并行处理模式为特征的神经计算机。八 十年代初,在美国、日本和欧洲都掀起了一股研究神经网络理论和神经计算机 的热潮,各个先进国家相继投入巨额资金,制订出强化研究计划,并开展了对 脑功能和新型智能计算机的研究。人工神经网络的主要特征是:大规模的并行 处理和分布式信息存储,良好的自适应性、自组织性,以及很强的学习功能、 联想功能和容错功能。目前的研究重点是将人工神经网络原理应用于图像处理、 模式识别、语音综合及智能机器人控制等领域。 人工神经网络方法用于文字识别的研究主要包括以下几个方面: ( 1 ) 神经网络用于特征抽取与选择:通常直接将字符点阵信息送入网络进 行学习训练,由网络抽取得到的特征不具有明显的物理含义。 ( 2 ) 神经网络用于学习训练及分类器的设计:这是目前人工神经网络在文 字识别领域的主要研究方向,也是最为成功的应用。 ( 3 ) 神经网络用于单字识别后处理。 通常,用于文字识别的人工神经网络模型有:h o p f i e l d 神经网络、前向多 层神经网络( 如:b p 算法、r b f 网络等) 、a r t 网络、自组织特征映射网络、 认知器模型等等。目前,常用的做法是将神经网络方法和传统的识别方法结合 起来使用,互相取长补短,如:先用传统的方法抽取较为稳定的特征,然后再 用神经网络进行自组织聚类学习并设计性能良好的分类器等。人们正以期盼的 目光注视着人脑功能的揭示和神经网络的进一步发展。 1 3 手写体汉字识别原理和技术难点 1 3 1 手写体汉字识别的原理和一般步骤 一个典型的手写体汉字识别系统由前端数字化输入装置、预处理系统、识 4 别系统和后处理系统四大部分组成【2 0 】,如图1 1 所示18 1 。 输 文卒翻纛 翠 吸半赢炸 单 扳字 后 亭魅 入 釜 识理 董嬲 图1 1 脱机手写体汉字识别系统简图 输入装置将写在纸或其它介质上的原始文稿通过光电扫描仪等输入设备转 换成二维图像信号( 可以是灰度图像或二值图像) ,再进行行、字切分,将整页 版面的原始图像先按书写行分割开,然后从每行中切分出单个汉字图像,送入 单字识别部分进行处理。 传统的单字识别按先后处理顺序包括预处理、特征提取和匹配识别,见图 1 2 。由输入装置得到的数据不可避免地存在着各种外在的干扰,使得图像质量 产生偏差,会对识别效果产生影响。因此在对原始汉字图像进行识别处理之前, 尽可能降低干扰因素是非常有必要的,也就是要先对原始采样信号进行预处理。 预处理包含二值化、平滑化( 去噪) 、归一化、字符分割等方面。 图1 2 单字识别( 模式识别) 不意图 特征提取是从预处理后的位图像中按一定的方式获取代表汉字特征的一组 向量。在相当长的文字识别研究过程中,人们经历了边缘特征、变换特征、穿 透特征、网格特征、特征点特征、方向线索特征等许多特征的提取。采用单一 的特征提取方法利用的汉字信息量有限,导致存在利用该特征难以区分的汉字。 因此运用数据融合的理论,对不同的原始特征向量进行多特征融合,合成新的 特征向量保留了参与融合的单个特征对各个类别的有效鉴别信息,有利于增强 特征向量的分类能力,可以实现最优识别特征的自动提取,滤除对类别识别无 效的特征和干扰。 匹配识别算法是整个识别过程的核心部分。将汉字特征向量与模板特征向 量按一定的原则进行匹配判决,以确定待识汉字的类别。现有的分类器主要有 两类:基于距离的分类器【2 l 】 2 2 】 2 3 1 和神经网络分类器【2 4 】【2 5 】。由于每种分类方法都 有自己的优、缺点和不同的适用范围,现在人们通常采用多分类器集成方法( 包 括串行、并行以及串并行混合三种集成方式) 来提高识别率。 最后对识别结果进行后处理,即对单字识别的结果利用语言知识等中文上 下文联想构词法进行确认或纠错。 1 3 2 手写汉字识别中存在的问题及困难1 2 6 1 1 2 7 l 【冽 与所有模式识别系统一样,汉字识别的主要性能指标是正确识别率和识别 速度:从实用角度看,还应考虑系统的复杂性、可靠性和价格等等。对识别系 统识别率和识别速度的要求,很难有一种统一的、严格的标准,主要根据实际 应用的需要来确定。但是作为一种输入手段,汉字识别系统的性能应该可以和 其它的输入手段( 如人工键入) 相比拟。目前由专业人员操作的汉字键入的错 误率约为1 ,键入速度最高达2 0 0 字m i n ,平均速度也在5 0 字m i n 以上。以 此为参考指标,这些指标应该是汉字识别系统必须达到的最低要求,在某些需 要大量输入的场合( 如数据库的建立) 对识别系统性能的要求还应更高。 要达到上述要求是相当困难的。这是因为:从客观上说,汉字是一种特殊 的模式集合。这种集合的模式种类( 汉字字数) 很多,结构复杂,有些模式十 分相似,加上印刷质量与干扰的影响,以及人们在书写时的随意性使字形不够 规范等原因,都使正确识别( 特别是要求具有高识别率) 十分困难。从技术上 说,人们关于模式识别的研究虽已有较长的历史,但迄今仍没有能够全面地适 用于分析或描述各种模式的严谨的理论。在研究某一种模式识别问题时,有的 方法比较巧妙,或者说,某种识别方法较符合被识别的模式集合的情况,因而 得到较好的效果。但是即使这是一种好的方法,由于不容易顾及所有各方面的 问题,所得结果往往也不是全局最佳的。例如,某一种方法可能得到较高的正 确识别率,但算法可能过于复杂,开销较大。 汉字集合识别的特点i ( 1 ) 字量大 目前我国常用汉字约3 0 0 0 4 0 0 0 个,国标g b 2 3 1 2 8 0 二级汉字共计6 7 6 3 个。 识别系统一般应能正确识别这些常用的字,才能满足实际应用的需要。显然, 汉字集合的字量越大,识别速度越低。为了提高识别速度,常采用树分类,即 多级识别方法。采用这种方法以后,识别速度虽然可以提高,但也可能使识别 率下降。汉字集合字数愈多,正确识别率与识别速度的矛盾愈大。这是汉字识 别的主要困难之一。 ( 2 ) 字体多 我国印刷字体主要有宋体、仿来体、黑体和楷体四种,手写体则有楷书、 行书和草书三大类。印刷体汉字不同字体的同一个字虽然拓扑结构基本相同, 但笔划的粗细、长短、位置及姿态,都有一定的差别,各个部件( 如偏旁、部 首与主体) 的大小比例与位置,也都有所变异。换句话说,不同字体的同一个 字的字形点阵并不相同。对于手写汉字,这种差别就更大。因此,计算机自动 识别时,很难把不同字体的同一个字,用一个参考汉字来比较、判定。这种情 况将使多体汉字识别系统所需的参考模板数成倍增加,或者要求所选用的识别 特征能适应不同字体的字形变化,否则将难以获得足够高的识别率。 ( 3 ) 结构复杂、字形相似 和拼音文字相比,汉字笔划多,结构复杂。笔划最多的汉字有3 6 划,平均 6 每个汉字笔划为1 1 划。由于笔划多,有的汉字结构十分复杂,有的字虽然笔划 较少,但往往字形十分相似,如“人、入 ;“巳、已、己”;“戊、戍、戎 ;“王、 主、玉;“大、犬、太”等。这些字有的只有一点之差,或者某一笔划长短略 有差别,其意义就迥然不同。识别时必须能正确判定这些微小差异,否则就会 发生错误。我国工作者已经在这方面进行了大量研究并取得了一定的成果。 ( 4 ) 手写体风格众多,随意性大,无规律可循。不同的书写风格导致的汉 字的变形差别很大,主要表现在以下方面:基本笔划变化。横不平,竖不直, 直笔变弯,折笔的拐角变成圆弧,短横、短竖交点,点变捺,该连的不连,不 该连的却相连等等。笔划与笔划之间的相对位置不确定,部件与部件之间的 位置发生变化。笔划的倾斜角度、笔划的相对长度、部件的相对大小发生变 化。脱机书写的其它因素,如纸张,用笔的好坏,笔划的粗细,字形的大小, 扫描仪性能的好坏等等,都会导致识别的困难。 其中,手写体汉字字形的变化和相似字是最难以解决的问题。目前,识别 率较高的研究都是在工整和规范书写的前提下实现的。 如何确定表达待识别汉字模式的最佳特征,如何进行特征匹配,如何解决 识别正确率与拒识率之间的矛盾,从而进行高效、快速的识别,是汉字识别技 术的关键所在。 1 4 本课题研究的意义及论文的内容 手写体汉字识别的研究因其广泛的应用前景,在人工智能与模式识别领域 中已成为一个十分活跃的研究方向。手写体汉字是一个复杂的多模式识别问题。 由于手写体汉字书写风格因人而异等因素,使提高脱机手写体汉字识别的识别 正确率存在相当的困难,尚未达到令人满意的效果。 分析传统的汉字识别系统结构可以发现,当前发表和使用的系统基本上都 是前向信号处理结构,即各部分之间信息是前向流动的,各部分之间的信息没 有反向传输,系统都是开环的。这些系统开环的特点决定系统性能存在着显著 的识别正确率与拒识率之间的矛盾。人们认识到信息单向传输的不足,提出了将 识别结果反馈送到输入端、重新切分和识别的系统方案,得到了很好的效果【3 0 1 。 关于字符识别,已有研究人员提出将识别结果信息反馈给系统中规则库的闭环 字符识别方法【3 4 1 ,更有学者提出将人工神经网络结构及学习算法运用到字符识 别的系统反馈机制中【3 3 】【3 6 1 ,都进行了有效的尝试。 文献 2 7 】中指出“在文字识别领域需要发现一些关键的计算方法,至少现在 还没有完全掌握这些方法;另一方面,文字识别必须充分地运用人识字的知识”。 这揭示了在文字识别方面,仿人识字重要性:仅仅靠算法的改进是不够的,抽 取并模仿人识字的机理,将成为文字识别的突破点。 本文将就基于反馈的识字机理,尝试着提出一种新的基于识字广义差的反馈 7 识字方法。依据对识字结果信息的误差分析,构建一个定性与定量相结合的反 馈结构的手写体汉字识别系统;根据识字误差分析,建立评判决策机制对识别 方法进行反馈校正,以最终达到对识别结果进行校正的目的;选取手写体汉字 库中的手写体汉字图像,对基于反馈结构的手写体汉字识别系统进行了验证实 验。 论文共分七章: 第一章:系统阐述汉字识别技术的发展历程、目前汉字识别技术的研究现 状,以及汉字识别原理和技术难点,最后介绍了本文课题研究的意义和论文的 章节内容安排。 第二章:系统的设计。介绍了闭环相对于开环的优越性以及反馈结构对于 系统的意义,总体介绍了基于反馈结构的手写体汉字识别系统的模型设计。 第三章:本章主要介绍系统预处理中消噪方法及字体融合归一化。 第四章:介绍系统的识别器模块。本文的识别器模块由四种汉字识别方法 生成,互相之间具有互补效应。 第五章:依据对识字结果信息进行反馈,定义了三种广义识字误差。给出 了这三种广义误差的定性与定量相结合的识字误差分析方法。从宏观到微观角 度上对识字误差进行了较为全面的抽取。 第六章:介绍由密集的产生式规则生成规则库决策机。根据三种广义 识字误差分析方法,对识别字的正确与否进行评判,并进一步对识别方法进行 反馈校正,以最终达到对识别结果进行校正的目的。 第七章:选取对应s c u t - i r a c 手写体汉字库中的手写体汉字图像对所定义 的方法进行验证实验,给出了手写体汉字的识别结果,并分析了实验结果。 第八章:对本文的研究工作进行总结以及对进一步工作的展望。 第二章反馈结构的手写体汉字识别系统设计 2 1 系统结构分析 3 0 1 1 3 1 i 从结构上来分,系统一般分为开环系统和闭环系统。先介绍开环控制方式, 并利用开环控制和闭环反馈控制的对比,看出他们的应用和工作特点。 2 1 1 开环控制系统 在由控制器和受控对象所组成的控制系统中,如果系统的输入通过控制器 的作用可以控制受控对象的输出,而输出对输入、控制器却没有任何影响,即 控制信息只能从输入单方向传递到输出的控制方式称为开环控制。 图2 1 开环控制的结构框图 一般把扰动也看作是系统的一种输入,故可称为扰动输入,但在不引起误 会的情况下,通常简称给定输入为输入,而称扰动输入为扰动。从方框图2 1 可再次看出开环控制的特点,输入通过控制器控制输出,而输出对控制器不起 作用。因此在给定输入一定,输出受扰动影响而变化时,控制器不能起控制作 用。 开环控制具有结构简单、成本低、工作易稳定等优点。然而,由于这种控 制系统既不要对它的被控量进行检测,又没有将被控量反馈到系统的输入端和 参考输入相比较,所以当系统受到干扰作用后,被控制量一旦偏离了原有的平 衡状态,系统就没有消除或减小误差的功能,这是开环系统的一个“致命 缺 点。正是这种缺点,大大限制了这种系统的应用范围。 2 1 2 闭环反馈控制系统 如果改进开环控制,设法把输出受扰动影响而变化的信息传递到控制装置 中去,使控制器根据这个信息进行控制以消防扰动的影响,那么号能更好地完 成自动控制的任务。这种仅存在着给定输入经控制器对输出进行控制,还有输 出也参预控制作用的系统,就是闭环控制。将输出信息传递到输入方面的作用 称为反馈。因此,闭环控制就是除了输入控制外,还有输出量经反馈到输入端 的控制作用。一般闭环控制都采用负反馈,即输出反馈量与输入反馈量的极性 是相反的,见图2 2 。故实际加到控制器上的是输入与输出反馈量的差值,这个 差值称力偏差。因而闭环控制也称为反馈控制或偏差控制。 9 图2 2 闭环控制的结构框图 闭环控制的基本思想就在于:当系统给定输入后,利用输出反馈量来得出 偏差,而偏差通过控制器起控制作用,力图减小偏差而使输出接近、等于或跟 随输入,以实现自动控制的目的。概括起来,自动控制系统就是进行检测偏差、 纠正偏差的工作。 2 1 3 反馈结构对于系统的意义 反馈是现代控制理论中的一个基本概念。现代控制理论将系统建模为受控 对象和控制器。控制器接受外界输入并输出一组控制信号到受控对象,受控对 象在内部固有特性和控制信号共同作用下得到输出。一个控制系统如果把受控 对象的输出也作为控制器输入的一部分输入,则称它为一个基于反馈的控制器, 整个系统称为闭环系统,否则称为开环系统。 当采用负反馈时,闭环控制系统比开环控制系统有更高的稳态控制精度。 不仅如此,负反馈还在减小系统参数变化和非线性对系统性能的影响,改进系 统过渡过程的性能等方面起着很大的作用。因此,负反馈闭环控制方式是自动 控制技术中的重要形式。 2 2 手写体汉字识别的系统结构 2 2 1 传统的手写体汉字识别的系统结构矧 分析传统的汉字识别系统结构可以发现,他们基本上都是前向信号处理结 构,即各部分之间信息是前向流动的,各部分之间的信息没有反向传输,系统 都是开环的,如图2 3 。 图2 3 传统的手写体汉字识别的系统结构图 这些“开环系统,即从获得输入数据到给出识别结果,识别系统只需完 成一个单向的从输入数据空间到识别结果空间的映射过程;虽然这种假定可以 简化问题,但却忽视了识别结果中包含的重要信息。其实,无论识别结果正确 与否,其中都具有重要的利用和再利用价值。开环的特点决定着系统性能存在 1 0 正确识别率与拒识率的矛盾:为了得到足够高的精度,避免误识,就必须对稍 有疑惑的样本进行拒识。这样虽然精度提高了,但总体识别率降低了。 2 2 2 基于反馈的手写体汉字识别的系统结构1 3 3 j 生理学和心理学研究都表明人脑是一个强健的反馈系统。若想用开环的系 统来逼近人脑,进行复杂的汉字识别,显然是不可企及的。反馈概念的引入可 以很好的解决手写体汉字识别的系统中识别正确率与拒识率之间的矛盾。带反 馈的识字系统可以在提高识别正确率的同时降低拒识率,其该方面的优点是不 带反馈的开环识字系统所远远不能达到的。 在此将反馈的概念引入到手写体汉字识别的系统:把输入的图像、字典信 息、环境等作为控制器的外部信号,而将基于不同方法的特征抽取器和分类器 作为受控对象,把选择什么样识别方法的模块作为控制器,建立闭环系统。这 样的划分其好处在于强调了现存系统大多是多识别器的集成,子识别模块各有 擅长,如何在其固有特性的基础上扬长避短是提高识别系统最终性能的关键。 同时,根据输出识别结果的反馈信号,可以对输入样本及环境的信号处理 方式进行调整,提高系统性能。反馈本身具有对输出的监控功能,从而使得系 统结构本身具有误差减小的可能。同时反馈的引入使系统性能稳定,降低系统 对于初始参数,噪声和非线性失真的灵敏度,提供了保持系统性能最优的手段。 系统原理框图见图2 4 。 图2 4 带反馈的手写体汉字识别的系统结构图 2 2 3 基于反馈结构的手写体汉字识别系统的设计 将反馈的概念引入到手写体汉字识别的系统的关键问题就是以何种信息量 为反馈信息以及基于反馈运用何种控制。 手写体汉字的机器识别难于印刷体汉字的原因在于它的非标准性。分析人 脑辨认汉字过程,存在一个将被识别字的字像与头脑中初步认定的字的字像模 式进行比对的过程;若比对后认为不可靠,则根据对比而产生的广义“差”换 一个角度再识别次,并再次将两字像进行比对;如此反复,斟酌推敲。这体 现了人脑辨识汉字时的反馈行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论