




已阅读5页,还剩58页未读, 继续免费阅读
(检测技术与自动化装置专业论文)基于字型特征的脱机手写体汉字多分类识别的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于字型特征的脱机手写体汉字多分类识别的研究 摘要 脱机手写体汉字字符集具有数量大、结构复杂、相似字多和无规则变形严 重等特点,使得脱机手写体汉字识别成为字符识别领域中最大的难题和最终的 目标之一。而人类视觉感知是一个鲁棒性很强的、能抵御实际中各种变形和噪 声干扰的具有良好容错性的文字识别系统。近年来,围绕仿人脱机手写体汉字 图像识别的研究在很多方面已取得了重要进展,但在特征使用和识别方法上如 何提高机器仿人识别手写体汉字图像的灵活性仍是值得研究的方法之一。 本文在对目前广泛采用的一些识别方法与前人工作进行了认真的学习和总 结的基础上,做了一定的研究和实验工作,得出了一些有用的结论。 论文的主要工作如下: 1 手写体汉字图像的多模态识别。提出了一种图像汉字字型结构和部件 繁简度的分类方法,给出了字型结构度类型的编码、汉字字型结构分解算法以 及汉字部件繁简分类特征算法,实现了手写体汉字的字型结构度和部件繁简度 的分类和提取,实验结果表明是可行的。 2 基于字型结构特征的仿人汉字识别系统设计。该系统采用决策控制级和 模式识别级二级并行式结构,决策控制级根据辨识出的汉字模态选择最佳的识 别策略和参数,模式识别级依据识别策略进行多分类匹配识别,有效地提高大 类别汉字的识别率,提高汉字识别系统的实用性。 3 手写体汉字细分类识别法的原理介绍和特点分析。从统计和结构模式识 别法出发,对实验室前期的研究成果一一小波网格法、基于双权值椭圆神经元 的仿生模式识别法、八形编码法和基于过程神经元笔段提取法的原理进行了分 析,根据每种特征各自特点,选择最佳的识别策略和参数,实现多分类匹配识 别。 4 二层三段式识别系统的应用。选取s c u t i r a c 手写体汉字库中的手写 体汉字图像,以v c + + 和m a t l a b 6 5 编程语言为实现手段,对多种类型手写体 汉字图像( 简单单部件、复杂单部件、左中右结构、左上下结构等) 进行了验 证实验。 本文研究表明:基于手写体汉字字型分解的多模式识别系统能够有效的对 待识别汉字图像进行粗分类判断、最佳识别方案决策及多分类匹配识别。实验 结果表明,该方法能够模仿人类对手写体汉字的繁简度和结构度的整体性和可 分解性识别过程。 关键词:大字符集,粗分类,细分类,字型结构度,部件繁简度,多模式识别 r e s e a r c ho fh a n d w r i t t e nc h i n e s ec h a r a c t e r s m u l t i c l a s s i f i c a t i o nr e c o g n i t i o nb a s e do i ls t r u c t u r e f e a t u r e so fc h a r a c t e r s a b s t r a c t o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rs e th a sf e a t u r e so f l a r g eq u a n t i t y 、 c o m p l e xs t r u c t u r e 、m a n ys i m i l a rc h a r a c t e r sa n ds e v e r e l yr u l e l e s sd i s t o r t i o n ,w h i c h m a k e st h a to f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nb e c o m e st h el a r g e s t p r o b l e ma n do n eo ft h ef i n a lg o a l si nt h ed o m a i no fc h a r a c t e rr e c o g n i t i o n b u tt h a t h u m a no c u l a ra p p e r c e i v ei st r u l yar o b u s tc h a r a c t e rr e c o g n i t i o ns y s t e mw i t ht h e a b i l i t yo fm u c hf a u l t t o l e r a n c ew h i c hc a na d a p t st oa l lk i n d so fn o i s e s r e c e n ty e a r s , m u c hr e s e a r c ho nh u m a n o i dr e c o g n i t i o no fo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r s h a sb e e nm a d e ,b u ti ti ss t i l las i g n i f i c a t i v er e s e a r c ho nh o wt oi m p r o v et h ea g i l i t y o fc o m p u t e rh u m a n o i dr e c o g n i t i o no no f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e ri n f e a t u r e su s ea n dr e c o g n i t i o nm e t h o d s i nt h i sp a p e r , s o m er e s e a r c ha n ds o m eu s e f u lc o n c l u s i o n sa r em a d eb a s e do n s e r i o u s l ys t u d y i n ga n ds u m m a r i z i n gp r e s e n ta b r o a da d o p t e dr e c o g n i t i o nm e t h o d s a n df o r m e r sw o r k t h ef o l l o w i n ga r et h em a jo rc o n t e n t si nt h et h e s i s : 1 、t h em u l t i m o d e q u a l i t a t i v er e c o g n i t i o n o fh a n d w r i t t e nc h i n e s e c h a r a c t e r i m a g e ac l a s s i f i e d m e t h o do fc h i n e s ec h a r a c t e r ss t r u c t u r ea n d c o m p o n e n t sc o m p l e x i t ya r ep r e s e n t e d t h et y p ec o d ea n dd e c o m p o s i n ga r i t h m e t i c o fc h i n e s ec h a r a c t e r ss t r u c t u r ea r eg i v e n ,a n dt h ee x t r a c t i n ga r i t h m e t i co fc h i n e s e c h a r a c t e r sc o m p l e x i t yc l a s s i f i c a t i o ni sg i v e n t h ec l a s s i f i c a t i o na n de x t r a c t i o no f h a n d w r i t t e nc h i n e s ec h a r a c t e r ss t r u c t u r ea n dc o m p o n e n tc o m p l e xd e g r e ea r e r e a l i z e d t h er e s u l to fe x p e r i m e n ts h o w si ti sd o a b l e 2 、t h es y s t e md e s i g no fh u m a n o i dc h i n e s ec h a r a c t e rr e c o g n i t i o nb a s e do n t h ec h a r a c t e r i s t i co ft h ec h i n e s ec h a r a c t e rs t r u c t u r e t h i ss y s t e ma d o p t sat w o l e v e l p a r a l l e l i n g s t r u c t u r eo fd e c i s i o n - m a k i n gl e v e la n dp a t t e r nr e c o g n i t i o nl e v e l d e c i s i o n m a k i n gl e v e lc h o o s e st h eb e s tr e c o g n i z i n gs t r a t e g ya n dp a r a m e t e rb yt h e r e c o g n i z e dc h i n e s em o d e l ,p a t t e r nr e c o g n i t i o nl e v e lu s e sr e c o g n i z i n gs t r a t e g yt od o m u l t i - c l a s s i f i e rm a t c h i n gr e c o g n i t i o n ,t h e nt h er e c o g n i t i o ne f f i c i e n c yo fl a r g es o r t c h i n e s ec h a r a c t e r sa n dt h ep r a c t i c a b i l i t yo fc h i n e s ec h a r a c t e rr e c o g n i t i o ns y s t e m a r ei m p r o v e d 3 、t h et h e o r yi n t r o d u c t i o na n dc h a r a c t e r i s t i c a n a l y s i s o fh a n d w r i t t e n c h i n e s ec h a r a c t e rm e t i c u l o u sc l a s s i f i c a t i o nm e t h o d s f r o mt h e b e g i n n i n go f s t a t i s t i ca n ds t r u c t u r ep a t t e r nr e c o g n i t i o nm e t h o d s ,t h ef o r m e rr e s e a r c hr e s u l t so f m yl a ba r ea n a l y z e ds u c ha st h ew a v e l e tg r i d d i n gm e t h o d 、t h eb i o m i m e t i cp a t t e r n r e c o g n i t i o nb a s e do nd o u b l e w e i g h t se l l i p t i c a ln e u r a lv e c t o r 、e i g h tc o d em e t h o d a n dt h es t r o k es e g m e n te x t r a c t i n gm e t h o db a s e do np r o c e d u r en e u r o n b a s e do n t h e i rr e c o g n i t i o nc h a r a c t e r i s t i c s ,t h eb e s tr e c o g n i z i n gs t r a t e g ya n dp a r a m e t e ra r e c h o o s e dt or e a l i z em u l t i - c l a s s i f i e rm a t c h i n gr e c o g n i t i o n 4 、 a p p l i c a t i o n o fm u l t i l e v e l a n d m u l t i s t a g er e c o g n i t i o n s y s t e m h a n d w r i t t e nc h i n e s ec h a r a c t e r si ns c u t - i r a ca r es e l e c t e da n dt h ev c + + a n d t h e m a t l a b 6 5a r eu s e da st h er e a l i z a t i o nm e t h o d si nt h i st h e s i s t h er e c o g n i t i o n so f h a n d w r i t t e nc h i n e s ec h a r a c t e r i m a g e s w i t hv a r i o u s t y p e s a r ea c e o m p l i s h e d s u c c e s s f u l l y t h er e s e a r c hi n t h i st h e s i ss h o w st h a t :t h em u l t i m o d er e c o g n i t i o ns v s t e m b a s e do nd e c o m p o s i t i o no fc h a r a c t e r s s t r u c t u r ec a nm a k ec o a r s ec l a s s i f i c a t i o n t h e b e s tr e c o g n i t i o n s t r a t e g i e sd e c i s i o n m a k i n ga n dm u l t i - c l a s s i f i e rr e s u l t sm a t c h i n g r e c o g n i t i o n t h ee x p e r i m e n ts h o w st h a tt h ep r o c e s so fh u m a nr e c o g n i t i o nb a s e do n t h ew h o l ea n dr e s o l v a b i l i t yo fh a n d w r i t t e nc h i n e s e c h a r a c t e rc o m p l e x i t va n d s t r u c t u r ec a nb ei m i t a t e db yt h i sm e t h o d k e yw o r d s :l a r g ec h a r a c t e rs e t ,c o a r s ec l a s s i f i c a t i o n ,m e t i c u l o u sc l a s s i f i c a t i o n , c h i n e s ec h a r a c t e r s t r u c t u r e ,c o m p o n e n tc o m p l e x i t y ,m u l t i m o d e r e c o g n i t i o n 插图清单 图1 1 脱机手写体汉字识别系统框图3 图1 2 二值点阵图“十”字3 图2 1 ( a ) 像素安排,( b ) 中心像素的8 邻接像素( 虚线所示) ,( c ) m 邻接1 5 图2 2 “荔”、“樊”和“儡”手写体汉字的字型分解过程1 7 图2 3 笔划密度特征提取示意图1 8 图2 4 手写体和标准体“橱”的部件子图1 9 图3 1 两层三段式仿人汉字识别系统结构- 2 0 图3 2 复杂汉字字符分解成理想化的部件2 6 图4 1 三层多分辨分析树结构图2 8 图4 2 图像小波分解示意图2 9 图4 3 汉字“津”的小波分解示意图3 0 图4 4 双权值椭圆型神经元序列3 1 图4 5 过程神经元模型3 6 图5 1 汉字图像“辨”、“辩”和“辫”的大小归一化4 1 图5 2 字符图像“辨”、“辩”、“辫”的部件分解4 l 图5 3 字符图像“辨”、“辩”和“辫”部件的归一化4 2 图5 4 汉字图像“白”和“日”的大小归一化。4 3 图5 5 汉字图像“白”和“日”部件的细化4 3 图5 6 汉字图像“白”和“日”部件的归一化4 3 图5 7 印刷体汉字“白”的实验结果4 4 图5 8 手写体汉字“白”的实验结果4 4 图5 9 汉字图像“鹰”和“膺”的大小归一化4 5 图5 1 0 汉字图像“鹰”和“膺”的部件细化4 5 图5 1 1 汉字图像“鹰”和“膺”的部件归一化4 6 图5 1 2 汉字图像“栏”和“拦”的大小归一化4 6 图5 1 3 汉字图像“栏”和“拦”各部件的分解4 6 图5 1 4 汉字图像“栏”和“拦”各部件的归一化4 7 图5 1 5 汉字图像“栏”和“拦”各部件的笔段提取4 7 表格清单 表2 1 汉字字型结构类型一1 2 表2 2 汉字字型编码1 2 表2 3 “橱”a 部件水平和垂直方向笔划密度特征向量1 9 表2 4 “橱”a 部件水平和垂直方向笔划密度特征向量1 9 表2 5 “橱”b 部件水平和垂直方向笔划密度特征向量1 9 表2 6 “橱”b 部件水平和垂直方向笔划密度特征向量1 9 表3 1 字符1 4 4 维小波网格特征向量表2 7 表4 。1 笔划的笔段合成及其容错形状3 2 表4 2 笔划相合相交结构类型及其容错形状3 3 表4 3 手写体汉字的特征知识数据结构表3 4 表4 5 形态字元表3 5 表4 6 形式字元表3 6 表4 7 八形编码规则表3 6 表5 1 “辩”、“辫”和“辨”的部件繁简特征4 2 表5 2 “白”、“日”的部件繁简特征4 3 表5 3 印刷体和手写体汉字“白的特征知识数据结构表4 4 表5 4 “鹰”“膺”的部件繁简特征4 5 表5 6 “栏”b 、“拦”b 、“栏”a 的部件多维结构特征表4 8 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得 合肥工业大学 或其他教育机构的学位或证l5 而使川过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:王觑雪签字日期:卫0 0 7 年胆月心日 学位论文版权使用授权书 本学位论文作者完全了解合肥工业大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅和借阅。本人授权佥g 墨些盘堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位 论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:王j 睫雷 签字日期:妒7 年j 2 月心日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字日期:川年为月 日 电话: 邮编: 致谢 本文的主要工作是在我的导师王建平教授的悉心指导下完成的。从课题的 选题到研究都倾注了王老师大量的心血,我的每一点进步都离不开王老师的精 心指导和帮助。王老师精湛的专业知识,严谨的治学态度,求实的科学精神、 敏锐的学术思维以及对学生的殷殷教诲与激励,使我受益匪浅,终身难忘。在 此对王老师三年来的辛勤培养致以诚挚的感谢! 感谢我的任课老师和合肥工业大学电气与自动化工程学院的全体老师,他 们的教诲为本文的研究提供了理论与技术基础,并创造了许多必要条件和学习 机会。 感谢钱自拓、秦剑和赵丽欣老师,谢谢你们在学习和生活上对我的帮助。 在实验室期间,得到了李帏韬、王熹徽、穆举胜、刘伟、杨金付、马宾、 孙伟、朱克忠等同学在学习上热情关心和无私帮助,在此向他们表示衷心感谢; 感谢同实验室的潘乐、张丽萍、张涛、张凯、张茂林、徐其林和程羽等同学的 关心和帮助,这段与你们一起度过的学习和生活时光将是我人生的美好回忆! 感谢我的父母和亲人,他们用辛勤的劳动和无私的关怀给了我学习和生活 的物质精神支持,感爱之心,无以言表,你们永远健康、快乐是我最大的心愿! 感谢所有关心和帮助过我的同学和朋友们! 作者:王晓雪 2 0 0 7 年1 2 月 第一章绪论 汉字已经有数千年的历史,也是世界上使用人数最多的文字,对于中华民 族灿烂文化的形成和发展有着不可磨灭的功勋,并将继续发挥重要的、其他文 字形式难以取代的作用。然而,汉字是非字母化、非拼音化的文字,在当今高 度信息化的社会里,如何快速高效地将汉字输入计算机,已经成为影响人机接 口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用。 汉字识别【1 】【2 】【3 】【4 1 ,即运用计算机系统自动识别印刷体或手写体汉字,进 而转换为计算机可以处理的编码技术。汉字识别是汉字高速、自动输入到计算 机的重要手段,是智能计算机接口的一个重要组成部分,在文献检索、办公自 动化、邮政系统、银行票据处理等方面都有着广阔的应用前景【5 】。 1 1 汉字识别研究的发展历程【6 】【7 1 【8 】【9 】 使计算机具有人类的感知能力,能够识图认字、听话和说话,能与人类自 然进行信息交互,这些是人们长期以来的梦想。早在1 9 2 9 年,t a u s h c k 就在德国 获得了一项关于o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 的专利。欧美国家为了将浩 如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算 机进行信息处理,从5 0 年代就开始了西文o c r 技术的研究,以便替代人工键盘 输入。到了6 0 年代,字符识别在模式识别领域中已成为一个十分活跃的研究课 题。 手写体汉字识别是属于文字识别的一个具体问题。对汉字识别研究最早的 是美国i b m 公司的c a s e y 和n a g y 。1 9 6 6 年他们发表了第一篇关于汉字识别的文 章,用模板适配法识别10 0 0 个印刷体汉字。手写体汉字识别的研究最早始于7 0 年代中期的日本,我国则在8 0 年代初期开始进行手写体汉字识别的研究。目前 进行手写体汉字识别研究的国家和地区主要集中在中国、日本、中国台湾、美 国和加拿大,中国在该方面具有最高水平的实际应用研究。 日本早在7 0 年代中期就开始进行手写体汉字识别的研究,1 9 8 1 年f u j i 等人 集成笔划密度、笔划方向和背景特征实现了一个实验系统,它对10 0 0 个字的识 别达到了8 5 的正确率,从而打破了手写体汉字识别很难的心理障碍。日本的 东芝、n t t 、三洋电机i 富士通等公司先后推出了一批汉字识别装置和系统, 具有代表性的是1 9 8 4 年东芝制造的手写印刷体汉字识别实验装置o c r v 5 9 5 ,可 识别2 2 0 0 个汉字及其它符号,识别率为9 9 ,1 9 8 6 年n t t 综合通信实验室推出 了手写体汉字识别实验装置【l ,可识别j i s 第一级汉字、英文字母、数字、平 假名、片假名等3 2 0 0 个字符,识别率为9 8 。 我国对汉字识别研究工作始于七十年代末,其研究工作大致可以分为三大 阶段: 第一阶段从7 0 年代末期到8 0 年代末期。这一阶段主要研究的是汉字识别 的算法和方案,研究人员提出了用于汉字识别的各种方法和特征,如特征点方 法、汉字周边特征、汉字的结构元特征等,并在此基础上研究成功一批汉字识 别系统,其中比较突出的有清华大学电子工程系研制成功的清华多字体印刷汉 字识别系统,沈阳自动化所研制的沈阳印刷汉字识别系统和北京信息工程学院 研制成功的北信单体印刷汉字识别系统。这一阶段是印刷汉字识别成果倍出的 时期。 第二阶段是九十年代初期开始,汉字o c r 技术进入了一个重要、蓬勃发 展的时期即将实验室的研究成果推向市场,推向实用,在实际的汉字识别输入 应用条件下,检验和考查这些研究成果。而一个汉字识别能否通过这一严峻的 考验,并进一步发展,取决于两个重要因素: 识别方案本身是否具有足够的抗干扰能力,以适应实际应用环境中各种 干扰噪声的影响,保持较高的识别正确率,满足实际应用的要求。 识别系统是否可以根据用户的要求、市场的需要,不断及时地改进系统 的性能指标和使用环境,从而在激烈的市场竞争中取得一席之地。 迄今为止,国内已陆续有几个实验室系统通过了鉴定。如:国家8 6 3 高技 术3 0 6 课题组组织的第四次汉字识别系统性能测试,脱机手写体文本汉字识别 系统识别率为6 8 0 5 8 9 9 1 ;清华大学计算机系“脱机手写体文本汉字识别系 统”通过鉴定,标识符域为3 7 5 5 ,对工整书写的汉字识别率为7 4 0 3 9 6 5 ;清 华大学电子工程系研制的t h o c r 9 7 综合集成汉字识别系统通过鉴定,其中的 非特定人脱机手写汉字文本识别子系统,对书写较为工整的手写汉字文本的识 别率达9 5 8 。另外,清华大学计算机系的“四库全书录入系统”,汉王公司的 “邮政地址识别系统 和北京邮电大学的“银行票据识别系统 都己成功转向 应用【1 0 】。 1 2 脱机手写体汉字识别的原理 脱机手写体汉字识别的基本过程如下:书写在纸张上的手写体文稿通过前 端数字化输入装置( 如扫描仪) 转化为一个二维点阵图像,由预处理阶段对所得 图像作相应处理,识别阶段首先提取汉字图像的特征,然后根据特征对待识别 汉字进行分类判别,后处理阶段利用相关信息和语言知识,对识别的文字进行 校正或对拒识文字进行推测,以得到最终的识别结果。其识别过程如下图所示: 2 手 写 i 预处理ii 特征提取h 分类识别ii 后处理 卜+别 体 _ 输 汉 入 字 装 必、。 。lji 出 文 置 ,。,、稿 亚 字归 l 特征库ll 知识库l 值滑符 化去切化 嗓分 图1 1 脱机手写体汉孚识别系统框图 0 00100 0 0 00100 0 1 1 1 1 1 1 1 0 00100 0 000100 0 图1 2 二值点阵图“十”字 如图1 1 所示,由数字化仪器扫描的手写体文字,经模数转换成具有一定灰 度值的数字采样信号送入计算机,预处理环节一般包括消除噪声,二值化,行 字切分、平滑、归一化,进行线性或非线性变换等。经过预处理的文字成为规 范化的二值点阵信息( 如图1 2 ) ,其中“1 ”表示笔划部分,“0 ”表示背景部分。 对于二值化点阵,按照识别方法的要求,抽取代表该字的特征,并与存贮在计 算机中己知标准文字的特征进行匹配判别,找出字典特征集中与输入文字特征 最接近的一个文字,这个字被认为是该字的识别结果。 1 ) 预处理 图像在扫描过程中会带来噪声,同时手写汉字载体,例如文档,历史资料 等,也会因为各种原因受到磨损,从而使汉字的质量下降,影响后面的识别。 其次,汉字形式多,不同时间,不同书写工具写出的汉字都不一样,有时差别 甚至很大。预处理的目前是去除噪声,加强有用的信息,并对图像进行一定程 度的还原,同时对汉字进行规范化处理。预处理一般包括平滑,归一化,细化 l 1 1 】等步骤。 2 ) 特征提取 对于一幅原始图片,其数据量相当大,例如一幅6 4 * 6 4 的b m p 图片,其相当 于4 0 9 6 维空间的一个点,当训练样本达到一定规模时,这样规模的运算是相当 耗时的。同时,图片中并不是所有的信息对我们的识别都是有贡献的其中有相 当一部分是冗余信息,这些信息不但对我们的识别没有帮助,有时还会带来负 面影响,降低识别率。特征提取的目的是为了找出图像最本质,最能反映同一 类事物的相同或相似点,同时又反映不同类事物不同点的特征。一个具有代表 性的,稳定的特征,是一个识别算法的核心。 3 ) 识别 识别即是在特征空间将待识别对象归为某一类别。汉字的识别方法最早是 模板匹配法,其中包括对比匹配法,结构匹配法和松弛匹配。随着统计模式识 别的发展和广泛的应用,研究人员开始将统计识别方法,例如b a y e s 分类器 【12 1 ,s v m 1 3 1 ,h m m 1 4 】等,用到汉字识别中。 4 ) 后处理 从手写体汉字识别系统的研究情况看来,书写工整的单个字符或孤立字符 的识别目前己经达到了较高水平。而从当前的技术水平来看,单字正确识别率 实际上有一定的极限,不可能无限制的提高,要求识别系统的单字识别率达到 1 0 0 是不切合实际的。要进一步提高识别率,必须改变原有的识别方法,建立 文本的词法、句法和文法模型,充分利用上下文相关信息,研究汉语的文本识 别后处理算法,作为识别手段的补充利用上下文关系来检测、纠正脱机汉字识 别中的错误是必要的。后处理就是利用实际汉字文本的相关信息,对分类器识 别结果进一步处理,提高整个系统的识别率。目前主要采用的方法有三种:( 1 ) 词典法。即把经常使用的词目有条理地组织起来,以便与候选结果匹配。( 2 ) 统计法。即统计汉语中字与字的相关概率,然后在候选结果中加以利用。( 3 ) 词典法与统计法的结合。汉字识别后处理技术在整个汉字识别系统中的位置将 显得越来越重要。 1 3 手写体汉字识别的技术难点【1 5 】【1 6 1 【1 7 】 手写体汉字识别的主要性能指标是正确识别率、识别速度。随着计算机硬 件的不断发展,机器处理速度越来越快,识别速度已不是汉字识别的主要难题 但由于汉字识别研究中的几个因素,使提高汉字识别的识别正确率存在相当的 困难: 1 字量大 目前我国常用汉字约3 0 0 0 4 0 0 0 个,国标g b 2 31 2 8 0 二级汉字共计6 7 6 3 个。识别系统一般应能正确识别这些常用的字,才能满足实际应用的需要。显 然,汉字集合的字量越大,识别速度越低。为了提高识别速度,常采用树分类, 即多级识别方法。采用这种方法以后,识别速度虽然可以提高,但也可能使识 别率下降。汉字集合字数愈多,正确识别率与识别速度的矛盾愈大。这是汉字 识别的主要困难之一。 2 字体多 我国印刷字体主要有宋体、仿宋体、黑体和楷体四种,手写体则有楷书、 行书和草书三大类。印刷体汉字不同字体的同一个字虽然拓扑结构基本相同, 但笔划的粗细、长短、位置及姿态,都有一定的差别,各个部件( 如偏旁、部首 与主体) 的大小比例与位置,也都有所变异。换句话说,不同字体的同一个字的 4 字形点阵并不相同。对于手写汉字,这种差别就更大。因此,计算机自动识别 时,很难把不同字体的同一个字,用一个参考汉字来比较、判定。这种情况将 使多体汉字识别系统所需的参考模板数成倍增加,或者要求所选用的识别特征 能适应不同字体的字形变化,否则将难以获得足够高的识别率。 3 结构复杂、字形相似 和拼音文字相比,汉字笔划多,结构复杂。笔划最多的汉字有3 6 划,平均 每个汉字笔划为1 1 划。由于笔划多,有的汉字结构十分复杂,有的字虽然笔划 较少,但往往字形十分相似,如“人、入”;“巳、已、己;“戊、戍、戎 ;“王、 主、玉 ;“大、犬、太”等。这些字有的只有一点之差,或者某一笔划长短略 有差别,其意义就迥然不同。识别时必须能正确判定这些微小差异,否则就会 发生错误。我国工作者已经在这方面进行了大量研究并取得了一定的成果。 4 手写体风格众多,随意性大,无规律可循。不同的书写风格导致的汉字 的变形差别很大,主要表现在以下方面:基本笔划变化。横不平,竖不直, 直笔变弯,折笔的拐角变成圆弧,短横、短竖变点,点变捺,该连的不连,不 该连的却相连等等。笔划与笔划之间的相对位置不确定,部件与部件之间的 位置发生变化。笔划的倾斜角度、笔划的相对长度、部件的相对大小发生变 化。脱机书写的其它因素,如纸张,用笔的好坏,笔划的粗细,字形的大小, 扫描仪性能的好坏等等,都会导致识别的困难。 其中,手写汉字字形的变化和相似字是最难以解决的问题。目前,识别率 较高的研究都是在工整和规范书写的前提下实现的。 从理论和技术上来看,字符识别的研究被认为是模式识别中十分典型的应 用研究课题,其中包含了模式识别的许多典型技术和基本理论的应用。模式识 别迄今为止仍然缺乏能够全面适用于分析或者描述各种模式的严谨理论,目前 的模式识别科学在处理许多问题时使用的针对性很强或者技巧性很强的方法, 这些方法在某一方面或者某些特定场合下能取得良好的效果,然而却不可能顾 及各个方面的所有问题。目前手写体字符识别也采用了许多技巧性或者工程技 术性很强的方法,缺乏统一严谨的理论去指导研究。给手写体汉字识别的理论 研究带来了很大的困难。另外,手写体汉字识别是涉及多学科的综合技术,各 个学科交叉领域的研究还存在许多技术障碍,特别是在心理学和生理学中人们 对大脑认字的原理还缺乏系统的研究,是手写体汉字的机器识别的研究缺乏相 关的理论指导,具有很大的盲目性。 1 4 手写体汉字识别方法的现状 1 4 1 手写体汉字识别的方法分析1 8 】【1 9 】 2 0 】【2 1 】【2 2 】 2 3 】 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择 不同的特征或基元( p r i m i t i v e ) ,每种特征或基元又有不同的抽取方法,这就使 得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各别的汉 字识别方法。通常可以分为结构模式识别方法、统计模式识别方法、统计与结 构相结合的识别方法以及人工神经网络方法等。 1 结构模式识别方法 汉字是一种特殊的模式,其结构虽然比较复杂,但其字符图形含有丰富的 结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别的 依据,这就是结构模式识别法。结构模式识别是早期印刷体汉字识别研究的主 要方法。其主要出发点是印刷体汉字的组成结构。从构成上讲,汉字是由笔划 或更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对印 刷体文字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成 一样。所以这种方法也叫句法模式识别。识别时,利用上述结构信息及句法分 析的方法进行识别,类似一个逻辑推理器。在实际应用中,此方法面临的主要 问题是抗干扰能力差,因为在实际得到的文本图像中存在着各种干扰,如倾斜, 扭曲,断裂,粘连,纸张上的污点,对比度差等。要想将这种方法发扬光大, 首先要寻求有效的预处理算法,待识字符的结构在经历预处理后能够清晰、完 整、标准化地再现:其次,在特征提取方法上也还有很多工作可做,只有得到 可靠、稳定、独立且数量较小的特征,结构识别方法的优势才能够最大限度地 发挥出来。如果上述两点问题得到较好的解决的话,结构识别方法将显示出其 巨大的优势,匹配方法直观、形象;识别稳定性好,算法的泛化能力强。 2 统计模式识别方法 统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的一组统 计特征,然后按照一定准则所确定的决策函数进行分类判决。汉字的统计模式 识别是将字符点阵看作一个整体,其所用的特征是从这个整体经过大量的统计 而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实 现。不足之处在于细分能力较弱,区分相似字的能力差一些。另外,与结构法 相比,特征无直观性的物理意义。 3 统计与结构相结合模式识别方法 统计模式识别方法将重点放在模式信息处理的数学规范上,以数值特征向 量的方式表达模式,便于找到合适的模式学习和匹配算法,但难于描述模式内 部复杂的几何及拓扑结构特性。结构模式识别方法则以形式语言为基础,侧重 于句法结构分析,但文法复杂。结构模式识别与统计模式识别各有优缺点,随 着我们对于两种方法认识的深入,这两种方法正在逐渐融合,使得识别技术可 处理更多类型、更加复杂的模式。同时,也在模式特征的提取和学习,模式的 匹配与分类,以及模式样本的低层处理方法,如消除噪声、模式图像分割、特 征的抽取等方面都取得很多成果。从而大大扩展了模式识别技术的应用领域。 网格化特征就是这种结合的产物。字符图像被均匀地或非均匀地划分为若干区 6 域,称之为“网格”。在每一个网格内寻找各种特征,如笔划点与背景点的比 例,交叉点、笔划端点的个数,细化后的笔划的长度、网格部分的笔划密度 等。特征的统计以网格为单位,即使个别点的统计有误差也不会造成大的影 响。另外,由于将不同含义的统计特征与结构特征有效地进行了组合,增强 了特征的抗干扰性,整个识别系统的稳定性与泛化能力都大大地增强了。目前, 这种方法正得到日益广泛的应用。 4 神经网络方法 h o p f i e l d 神经网络、a r t 网络、认知器模型等神经网络模型可用于文字识别。 这些方法主要应用于特征抽取与选择、学习训练及分类器的设计、单字识别后 处理等几个方面。与统计方法相比,神经网络与模型无关,具有能够通过调整 使得输出在特征空间中逼近任意目标的优点。但关于神经网络的数学解释很复 杂,实验工作量很大。 1 4 2 当前的研究热点【1 9 】【2 2 】【2 4 】 2 5 】【2 6 】【2 7 】 2 8 】【2 9 】 手写体汉字识别有广阔的应用前景,并且囊括了模式领域中的所有典型的 问题,如特征选择、分类器的选择以及样本集的选择,因此对于脱机手写体汉 字识别的研究具有深刻的理论意义和实用价值,其中主要的研究热点有: 1 预处理技术 手写汉字变形问题是非特定人脱机手写汉字识别中的关键问题,所谓脱机 手写汉字识别的预处理,就是探讨直接从汉字点阵图像上补偿手写变形、减小 属于同一类别的不同模式之间的差异的理论和方法。通常,直接从汉字点阵图 像上消除手写变形的方法有两种,即非线性归一化方法和变换函数法。非线性 归一化是预处理方法的主流和核心,其目的主要是将不同大小的汉字点阵归一 化成相同大小并直接在汉字点阵图像上矫正手写变形。变换函数法是近年来图 象识别及文字识别的一个研究方向,常用的变换函数法有基于几何模型的变换 函数法、余弦整形变换函数法、基于笔划倾斜角度的变换函数法等。 2 特征抽取与分析 特征抽取是模式识别的一个重要环节,抽取稳定且有效的特征是识别系统 成功的关键。一般认为,汉字笔划及其相对位置关系是手写汉字中最为稳定的 特征,然而,直接从汉字点阵图像上准确地抽取汉字的每一个笔划并找出其相 对位置关系则十分困难。统计特征具有良好的抗噪声、抗笔划的粘连与断裂等 特性,但是,方块汉字具有二维结构,单纯利用统计特征还不能很好的反映出 汉字的结构信息,所以,一种有效的手写汉字特征应该将汉字的统计特性与结 构信息结合起来,将汉字笔划的特性与汉字背景空白处的特性结合起来。 3 识别字典的生成 在手写汉字识别中,由于不同人书写风格的差异造成的手写变形很大,使 7 得属于同一汉字类别的不同样本之间的差异较大,产生一个具有代表性的识别 字典是补偿手写变形、提高手写汉字识别率的有效途径,通常,识别字典可以 分成单模板字典和多模板字典两大类,前者指每个类别仅有一个参考模板( 也 可称为代表元) 存放在识别字典中,而后者指每类有一个或一个以上的参考模 板。显然,由于手写变形的存在,单模板字典显得不足,因此有必要生成多模 板字典,问题的关键在于如何生成多模板字典。 4 多方案集成 多方案集成是近年来文字识别领域的一个主要研究方向,任何一种特征、 任何一种识别方法都有其优点和局限性,借鉴印刷体汉字识别的成功经验,走 多特征组合、多方案集成的道路,也许是脱机手写汉字识别系统走向实用化的 有效途径。 5 单字识别后处理 通常,在识别实际文本时,需要对单字识别的结果进行基于上下文关系的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年清洁能源行业全球市场分析与前景预测研究报告
- 固本延龄丸课件
- 2025年电子产品行业可穿戴设备市场前景报告
- 巴彦淖尔市2025内蒙古巴彦淖尔市统计局所属事业单位高层次急需紧缺人才引进测评笔试历年参考题库附带答案详解
- 2025年工业互联网技术在制造业中的发展前景研究报告
- 宜宾市2025上半年四川宜宾市屏山县事业单位考核招聘28人笔试历年参考题库附带答案详解
- 临夏市2025甘肃省临夏市教育系统引进人才28人笔试历年参考题库附带答案详解
- 2025福建移动春季校园招聘若干人笔试参考题库附带答案详解
- 2025江苏南通中国移动全资子公司中移铁通南通公司如东分公司招聘笔试参考题库附带答案详解
- 2025年燕舞集团有限公司公开招聘9人笔试参考题库附带答案详解
- 咖啡基础培训课件
- 人才服务合同书
- 2025年工会财务大赛理论题库(附答案)
- 2025-2026学年统编版八年级上册道德与法治教学计划含教学进度表
- 矿井顶板事故防治课件
- 2025年中国电力投资集团校园招聘笔试题型分析及备考策略
- 抗生素课件教学课件
- 销售法律知识培训
- 中国慢性胃炎诊治指南(2022年)解读
- 糖尿病低血糖症诊疗指南
- 直升机发动机油封课件
评论
0/150
提交评论