(检测技术与自动化装置专业论文)仿人识别手写体汉字的容错编码方法研究.pdf_第1页
(检测技术与自动化装置专业论文)仿人识别手写体汉字的容错编码方法研究.pdf_第2页
(检测技术与自动化装置专业论文)仿人识别手写体汉字的容错编码方法研究.pdf_第3页
(检测技术与自动化装置专业论文)仿人识别手写体汉字的容错编码方法研究.pdf_第4页
(检测技术与自动化装置专业论文)仿人识别手写体汉字的容错编码方法研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(检测技术与自动化装置专业论文)仿人识别手写体汉字的容错编码方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

仿人识别手写体汉字的容错编码方法研究 摘要 人类视觉感知是一个鲁棒性很强的、能抵御实际中各种变形和噪声干扰的 具有良好容错性的文字识别系统。近年来,围绕手写体汉字图像识别的研究在 很多方面已取得了重要进展。但如何提取与汉字结构类别密切相关的特征制定 冗余容错的编码方法,提高机器仿人识别手写体汉字图像的灵活和容错性是值 得研究的方法之一。 论文的主要工作如下: 1 ) 图像汉字的字型分类及提取。提出了一种图像汉字字型两级划分法。采 用基于水平和垂直投影直方图与连通域相结合的方法,提取图像汉字的字型结 构分类特征,并给出了字型分类编码。该算法能有效的对手写体汉字字型进行 分类。 2 ) 图像汉字的窑错编码方法。提出了一种用于机器识字的汉字容错编码方 法。定义了仿人拆字的笔划字元集,给出易混淆笔划字元的多归类容错编码; 归结了3 6 类简单常用的子结构及笔划字元的顺序判断规则,并给出冗余的容错 编码;建立了仿人构字的汉字编码规则和具有容错性的多模板字典。该方法能 降低手写体汉字变形等因素的影响。 3 ) 基于容错编码的汉字识别。给出了基于容错编码的图像汉字识别方法。 制定汉字统计特征码、字型特征码和笔划字元特征码的比对规则,给出了一种 基于汉字图形轮廓特征的误差估计方法,并利用误差估计建立了一套带有反馈 的汉字容错识别方法。 4 ) 可分类性和重码率分析。给出了标准样本汉字编码重码率和重码汉字的 类型分析,并对重码汉字进行处理。 5 ) 容错性分析。对整个编码的容错性进行理论分析,给出手写体汉字的识 别结果,并对拒识和误识汉字类型进行分析。 本文研究表明:基于容错编码的汉字识别算法能够有效地表征和区分出手 写体汉字集,对笔划和字体的变形都有很好的容错性,能够有效提高识别系统 的抗干扰性和识别率。 关键词:脱机手写体汉字识别;容错编码;字型分类和提取:字元集;子结构。 r e s e a r c ho nc h i n e s ec h a r a c t e r sc o d eo fb e a r a b l em i s t a k e s m e t h o df o ro i f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r s r e c o g n i t i o n a b s t r a e t h u m a no c u l a ra p p e r c e i v ei st r u l yar o b u s tc h a r a c t e rr e c o g n i t i o ns y s t e mw i t h f i n eb e a r a b l em i s t a k ea b i l i t yw h i c hc a r la d a p t st oa l lk i n d so fn o i s e s r e c e n t l y , m u c h a b o u th a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o nh a sb e e nm a d e i ti sas i g n i f i c a t i v e r e s e a r c ho nh o wt h ec l a s s i 匆一r e l a t e di m a g ef e a t u r ei se x t r a c t e da n dh o wt h eb e a r a b l e m i s t a k e sc o d ei sm a d et oi m p r o v et h eb e a r a b l em i s t a k ea b i l i t yo f t h ec o m p u t e r t h ef o l l o w i n ga r et h em a j o rc o n t e n t si nt h et h e s i s : 1 、t h ec l a s s i f i c a t i o na n dr e c o g n i t i o no fc h i n e s ec h a r a c t e r sf o r m at w ol e v e l c o m p a r t m e n t a l i z a t i o nm e t h o di sp r e s e n t e d t h em e t h o db a s e do nt h ec o m b i n a t i o no f h o r i z o n t a la n dv e r t i c a lp r o j e c t i o nw i t l lc o n n e c t e dc o m p o n e n ti sa d o p t e dt or e c o g n i z e t h ef o r mc l a s s i f i c a t i o no ft h ec h i n e s ec h a r a c t e r si m a g e f o r mc l a s s i f i c a t i o nc o d ei s g i v e n t h ef o r mo fh a n d w r i t t e nc h i n e s ec h a r a c t e r sc a l lb ea c c u r a t e l yc l a s s i f i e dw i t h t h i sa r i t h m e t i c 2 、t h eb e a r a b l em i s t a k e sc o d em e t h o df o rc h i n e s ec h a r a c t e r s ak i n do f c h i n e s e c h a r a c t e r sc o d e sw h i c ha g r e ew i t ht h em e c h a n i s mo fa p e r yi m i t a t i o nf o rc o m p u t e r c o g n i t i o ni sp r e s e n t e di nt h i sp a p e ne l e m e n t sg r o u p so fc h i n e s ec h a r a c t e r sa r em a d e f o rm a c h i n ec o g n i t i o n b e a r a b l em i s t a k e sc o d e so fv a r i o u sc a t e g o r i e sa r eg i v e nf o r t h ee l e m e n t sw h i c ha r ee a s i l yc o n f u s e d r u l e sf o rj u d g i n gs t r o k es e q u e n c ea r eg i v e n 3 6k i n d so fs u b s i d i a r yc o n f i g u r a t i o n sc o d e sa n db e a r a b l em i s t a k e sc o d e sa r e c o n s t r u c t e d t h ec o d ep r i n c i p l e sa n dm u l t i - t e m p l a t ed i c t i o n a r yo fc h i n e s ec h a r a c t e r s w h i c ha g r e ew i t ha p e r yi m i t a t i o na r ee s t a b l i s h e dt oa p p l yt ot h ed e f o r m a t i o nf a c t o r s o f h a n d w r i r e nc h i n e s ec h a r a c t e r s 3 、c h i n e s ec h a r a c t e r sr e c o g n i t i o nb a s e do nt h ec o d e t h em e t h o da b o u tc h i n e s e c h a r a c t e r sr e c o g n i t i o nb a s e do nt h eb e a r a b l em i s t a k e sc o d ei sp r o p o s e dh e r e c o m p a r i s o nr u l e sa b o u tt h et h r e ec h a r a c t e r i s t i ca r ec o n s t r u c t e d as e to fc h i n e s e c h a r a c t e r sb e a r a b l em i s t a k e sr e c o g n i t i o nm e t h o dw i t hr e a c t i o na r ec o n s t r u c t e d ,b a s e d o na n du s i n gt h ee r r o re s t i m a t i o na p p r o a c ho fc h i n e s ec h a r a c t e r so u t l i n e sf e a t u r e 4 、c l a s s i f i c a t i o nc a p a b i l i t ya n dt h ea n a l y s i sa b o u tt h er a t eo fr e p e a t e dc o d e s n l er a t eo fs t a n d a r dc h i n e s ec h a r a c t e r sr e p e a t e dc o d e sa n dt h et y p eo fr e p e a t e dc o d e c h i n e s ec h a r a c t e r sa r eg i v e n , 5 、t h ea n a l y s i sa b o u tt h ec a p a b i l i t yo f b e a r a b l em i s t a k e s t h e o r e t i c sa n a l y s i si s g i v e nf o rt h ec a p a b i l i t yo fb e a r a b l em i s t a k e so ft h ew h o l ec o d e s 。1 1 1 er e c o g n i t i o n r e s u l ta b o u th a n d w r i t t e nc h i n e s ec h a r a c t e r si sg i v e n n l es t y l e so ft h er c j e c t i v ea n d w r o n gr e c o g n i t i o nc h i n e s ec h a r a c t e r sa r ea n a l y z e d t h er e s e a r c hi nt h i sa r t i c l es h o w st h a t :t h eb e a r a b l em i s t a k e sc o d em e t h o dc a r l w e l lt o k e na n dd i f f e r e n t i a t et h ec h i n e s ec h a r a c t e r s h a n d w r i t t e nc h i n e s ec h a r a c t e r s r e c o g n i t i o nb a s e do nt h eb e a r a b l em i s t a k e sc o d ec a na p p l yt ot h ed e f o r m a t i o nf a c t o r s o fh a n d w r i t t e nc h i n e s ec h a r a c t e r sa n de f f e c t i v e l yi m p r o v et h en o i s ei m m u n i t ya n d c o r r e c tr a t eo f t h es y s t e m , k e yw o r d s :o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o n ;b e a r a b l em i s t a k e s c o d e ;c l a s s i f i c a t i o na n dr e c o g n i t i o no fc h i n e s ec h a r a c t e r sf o r m ; e l e m e n t sg r o u p s ; s u b s i d i a r yc o n f i g u r a t i o n s 插图清单 图i 1 汉字识别的类型l 图1 2 脱机手写体汉字识别系统简图3 图2 1 ( a ) 像素安排,( b ) 中心像素的8 邻接像素( 虚线所示) ,( c ) m 邻接1 l 图2 2 汉字“肋”直方图1 2 图2 3 汉字“皇”直方图1 3 图2 4 “肋”分型结果1 3 图2 5 “皇”分型结果1 3 图4 1 图像汉字编码识别算法流程图3 1 图4 2 汉字轮廓特征提取示意图3 2 图4 3 仿人容错汉字识别流程图3 3 图5 1 “皇”手写体汉字图像3 6 图5 2 “法”手写体汉字图像3 7 图5 3 “肋”手写体汉字图像3 8 表格清单 表2 1 汉字字型代码表一9 表3 1 笔划字元代码表1 8 表3 2 子结构的特征判断和字元构成表2 0 表3 3 汉字统计特征分类编码规则表2 3 表3 4 汉字字型特征分类编码规则表2 4 表3 5 汉字编码规则表2 5 表3 6 汉字容错编码举例2 6 表5 1 重码率3 5 表5 2 重码汉字列表3 5 表5 3 “皇”字上部分特征3 6 表5 4 “皇”字下部分特征3 6 表5 5 “法”字左部分特征3 7 表5 6 “法”字右部分特征3 8 表5 7 “肋”字左部分特征3 8 表5 8 “肋”字右部分特征3 9 表5 9 识别率4 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得 金胆王些太堂或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名:扣7 红 签字日期:汐衫年j 1 韧妇 学位论文版权使用授权书 本学位论文作者完全了解金胆王些太堂有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权金 日b 王些太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:矗圣莉无鲤 签字日期:汤彩年j - 月7 , 1 7 e 导师签名 签字日期:c 彩年f 月日 学位论文作者毕业后去向:合肥工业大学 工作单位:合肥工业大学电气与自动化工程学院 通讯地址:合肥工业大学电气与自动化工程学院 电话:0 5 5 1 2 9 0 1 4 2 1 邮编:2 3 0 0 0 9 致谢 本文的主要工作是在我的导师王建平教授的悉心指导下完成的。王建平老 师以渊博的知识、严谨的治学态度、敏锐的思维和非凡的敬业精神给予了我专 业的指导,为我树立了为人处事的楷模。同时,王老师还以真诚热心的关怀给 予了我生活上的帮助,使我受益良多。在此向王老师表示最诚挚的谢意l 感谢钱自拓、秦剑和徐晓冰老师,谢谢你们在学习和生活上对我的帮助。 感谢合肥工业大学智能控制研究所的王金玲老师、穆道明老师、罗国军老 师、郑洁老师在课题研究过程中给予的无私帮助。 感谢电气学院的全体老师,他们的教诲为本文的研究提供了理论基础,并 创造了许多必要条件和学习机会。 感谢同窗好友赵涛、周峰、邓娜、和任好同学,和你们起度过的时光将 是我人生的美好回忆;在实验室期间,得到了郭之辉、黄冉、蔺菲、丘志刚、 季学峰、赵丽和陈军同学在学习和生活上热情关心和无私帮助,在此向他们表 示衷心感谢;感谢同实验室的王熹徽、刘伟、李帷涛等同学的关心和帮助。 感谢我的父母及家人。他们用辛勤的劳动和无私的关怀给了我学习和生活 的物质精神支持,感爱之心,无以言表,他们永远健康快乐是我最大的心愿! 感谢所有关心和帮助过我的同学和朋友! 作者:赵丽欣 2 0 0 6 年5 月1 4 日 第一章汉字识别概述 文字是人类思想的载体,是交流的工具。进入信息时代后,原来依靠图形 记载在纸上的文字有了电子化的以序号为代表的记载方式。这就产生了图形文 字与编码序号之间的转换问题。由编码序号到文字图形是计算机输出,而由文 字图形到编码序号就是文字识别i l 】1 2 】【3 】。汉字识另u ( c h i n e s ec h a r a c t e rr e c o g n i t i o n , 简称c c r ) ,就是利用一定的光电设备将记在纸或者其它介质上的汉字转化成图 像输入到计算机中并对其进行自动辨测钔。随着计算机的广泛应用以及在全球 范围内的联网通信的迅猛发展,文字信息处理成为计算机应用最为普遍的范畴。 大量的信息处理工作需要把文字记载的信息送入计算机,其中包括大量的汉字 印刷资料、文献和手写稿件、票据。因此,汉字识别在文献检索、办公自动化、 邮政书信分检、车牌识别、银行票据处理、表格录入、机器翻译等方面有着广 阔的应用前景。 就识别对象而言,汉字识别【1 4 1 【3 4 】可分为印刷体汉字识 t j ( p r i n t e dc h i n e s e c h a r a c t e rr e c o g n i t i o n ,简称p c c r ) 和手写体汉字识别( h a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o n ,简称h c c r ) 。根据字体的不同,印刷体汉字识别又可以分 为单字体汉字识别( s i n g l e - f o n tp r i n t e dc c r ) 和多字体汉字识别( m u l t i f o n t p r i n t e dc c r ) 。手写体汉字识别,又可根据识别的实时性分为联机手写体汉字 识鼎j ( o n l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ) 和脱机手写体汉字识别 ( o i f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ) 。联机手写体汉字识别,是 使用者在一块特定的书写板上书写,在写的过程中同时将所写汉字识别,并输 入计算机。脱机手写体汉字识别,是通过扫描等技术以及自动认字的方法,将 书写在纸或者其它介质上的汉字方便、快速地输入计算机。 汉字识别的类型大致概括如图1 1 。 汉掌 图1 ,1 汉字识别的类型 酉 协 嗲 1 1 字符识别及手写体汉字识别的历史回顾和研究现状 字符识别,也称光电字符识;( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,简称o c r ) 。 随着电子计算机的诞生和大规模集成电路的飞速发展,字符识别的研究因其广 泛的应用前景,越来越受到广泛的注意。到了6 0 年代,字符识别在模式识别领 域中已成为一个十分活跃的研究课题。 手写体汉字识别是属于文字识别的一个具体问题。对汉字识别研究最早的 是美国i b m 公司的c a s e y 和n a g y 【5 1 。1 9 6 6 年他们发表了第一篇关于汉字识别的文 章,用模板适配法识别1 0 0 0 个印刷体汉字。手写体汉字识别的研究最早始于7 0 年代中期的日本,我国则在8 0 年代初期开始进行手写体汉字识别的研究。目前 进行手写体汉字识别研究的国家和地区主要集中在中国、日本、中国台湾、美 国和加拿大,实际应用水平最高的首推日本1 4 j 。 日本早在7 0 年代中期就开始进行手写体汉字识别的研究,1 9 8 1 年f u j i 等展示 了一个手写体日文汉字识别器模型。日本的东芝、n t t 、三洋电机、富士通等 公司先后推出了一批汉字识别装置和系统,具有代表性的是1 9 8 4 年东芝制造的 手写印刷体汉字识别实验装置o c r - v 5 9 5 t 6 1 ,可识别2 2 0 0 个汉字及其它符号,识别 率为9 9 ,1 9 8 6 年n t t 综合通信实验室推出了手写体汉字识别实验装置_ j ,可识 另u j i s 第一级汉字、英文字母、数字、平假名、片假名等3 2 0 0 个字符,识别率为 9 8 ,识别速度为0 0 6 0 0 8 秒,字。 我国在7 0 年代开始进行邮政信函分检的数字识别研究,7 0 年代末,一些大 学和研究所开始从事印刷体汉字识别的工作,8 0 年代初才开始进行手写体汉字 识别的研究,1 9 8 5 年以后,有关手写体汉字识别研究的文章不断出现在期刊上。 1 9 8 9 年1 2 月清华大学计算机首次在我国鉴定了交互式手写体汉字识别系统i ”, 标识符域为3 7 5 5 个,对工整书写的楷书前十位累计识别率为5 2 ,在3 8 6 微机上 识别速度为1 4 秒字。1 9 9 5 年国家8 6 3 高技术3 0 6 课题组组织了第四次汉字识别系 统性能测试,脱机手写体文本汉字识别系统识别为6 8 0 5 - 8 9 9 1 ,识别速度为2 0 字秒。1 9 9 6 年8 月清华大学计算机系“脱机手写体文本汉字识别系统”通过鉴 定,标识符域为3 7 5 5 ,对工整书写的汉字识别率为7 4 0 3 9 6 5 1 9 9 7 年3 月清华 大学电子工程系研制的t h o c r 9 7 综合集成汉字识别系统通过鉴定,其中的非特 定人脱机手写汉字文本识别子系统,对书写较为工整的手写汉字文本的正确识 别率达9 5 8 。目前已有十多套系统通过鉴定。1 9 9 9 年北京邮电大学建立了一个 新的大规模的脱机手写汉字数据库系h c l 2 0 0 0 ,包含了3 7 5 5x1 3 0 0 个手写汉字 样本,该数据库的建立为开发手写汉字识别算法提供了公共的训练和测试样本, 是各家的实验结果具有可比性。 对比印刷体汉字识别,脱机手写体汉字识别的应用一直是一个问题,对手 写规范要求较严,单字切分不能完全自动化,识别率偏低等都使软件推广和用 户认同存在很大的困难。从应用上来看,向专用的识别系统的方向发展可能是 2 一种较好的选择,如清华大学的“四库全书录入系统”。从纵向发展水平来看, 我国手写体汉字识别研究一直处于平稳上升的势头,并逐步向实用化目标迈进。 目前国内手写体汉字识别主要是进行识别方法的研究,而且把研究重点集中在 方法实验和软件研制上,由于识别率仍未达到令人满意的效果,在实用硬件专 用设备方面的研制较少,这是国内手写体汉字识别研究的主要特点。 1 2 手写体汉字识别的一般步骤 一个典型的手写体汉字识别系统由前端数字化输入装置、预处理系统、识 别系统和后处理系统四大部分组成,如图1 2 所示【9 】。 图1 2 脱机手写体汉字识别系统简图 输入装置将写在纸或其它介质上的原始文稿通过光电扫描仪等输入设备转 换成二维图像信号( 可以是灰度图像或二值图像) ,再进行行、字切分,将整页版 面的原始图像先按书写行分割开,然后从每行中切分出单个汉字图像,送入单 字识别部分进行处理。单字识别按先后处理顺序包括预处理、特征提取、匹配 识别。预处理通常有大小归化、平滑、细化【3 5 等:特征提取是从预处理后的 位图像中按一定的方式获取代表汉字特征的一组向量。将汉字特征向量与模板 特征向量按一定的原则进行匹配判决,以确定待识汉字的类别。最后对识别结 果进行后处理,即对单字识别的结果利用语言知识等上下文先验信息进行确认 或纠错。特征提取与匹配识别是整个系统中最为重要的环节,稳定的、具有代 表性的特征提取和良好性能的分类器的设计是整个识别系统的核心,直接决定 了识别系统的性能。 1 3 手写体汉字识别的方法分析与技术难点 1 3 1 手写体汉字识别的方法分析f 9 1 【1 0 1 i n i l l 2 1 1 1 3 1 1 2 l 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择 不同的特征或基元( p r i m i t i v e ) ,每种特征或基元又有不同的抽取方法,这就使 得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各别的汉 字识别方法。通常可以分为结构模式识别方法、统计模式识别方法、统计与结 构相结合的识别方法以及人工神经网络方法等。 1 结构模式识别方法 结构模式识别理论在2 0 世纪7 0 年代初形成,是早期汉字识别研究的主要方 法。通常,提取笔段或基本笔划作为基元,由基元组合及其相互关系完全可以 精确地对汉字加以描述,最后利用形式语言及自动机理论进行识别。结构模式 识别方法的主要优点在于对字体变化的适应性强,区分相似字的能力强,缺点 是抗干扰能力差。 2 统计模式识别方法 统计模式识别方法是用概率统计模型提取待识别汉字的特征向量,然后根 据决策函数进行分类,识别就是判别待识别汉字的特征向量属于哪类。常用 的判别准则是距离准则和类似度准则,典型的统计模式识别方法有最小距离分 类、最邻近分类等。 3 神经网络方法 h o p f i e l d 神经网络、a r t 网络、认知器模型等神经网络模型可用于文字识别。 这些方法主要应用于特征抽取与选择、学习训练及分类器的设计、单字识别后 处理等几个方面。与统计方法相比,神经网络与模型无关,具有能够通过调整 使得输出在特征空间中逼近任意目标的优点。但关于神经网络的数学解释很复 杂,实验工作量很大。 4 统计与结构相结合模式识别方法 统计模式识别方法具有较好的抗干扰抗噪声的能力,但对汉字结构的差异 区分能力较弱,而结构模式识别方法对结构特征较敏感,区分相似字的能力较 强。在实际应用中,统计模式识别方法与结构模式识别方法通常结合使用。在 特征抽取过程中,抽取能反映汉字结构信息的统计特征。在识别过程中,先用 统计方法进行粗分类。再用结构方法进行细分类来区分相似字,这是近年来文 字识别领域的一个重要研究方向。 1 3 2 手写体汉字识别的技术难点 手写体汉字识别的主要性能指标是正确识别率、识别速度。随着计算机硬 件的不断发展,机器处理速度越来越快,识别速度已不是汉字识别的主要难题 但由于汉字识别研究中的几个因素,使提高汉字识别的识别正确率存在相当的 困难: 1 汉字字量大。国标g b 2 3 1 2 8 0 规定的一级字库3 7 5 5 个汉字,二级字库6 7 6 3 个,三级字库上万个。而常用的汉字就有4 0 0 0 多个,因而汉字识别问题属于大 类别( 或者称为超多类) 模式识别问题,在模式识别理论和方法研究方面有重 大意义。 2 汉字字形结构复杂。每个汉字由若干笔划组成,笔划最多的汉字有三十多 划,平均每个汉字的笔划数约为1 1 ,笔戈n 间的拓扑关系也很复杂。笔划多的汉 字会给书写带来一定的麻烦,使得手写体汉字不可避免的会带来一些噪音,如 连笔、笔划不清、畸变等等。 3 汉字相似性大。汉字集合中相似字较多,如“人、入”、“天、大、天”、 “己、已、巳”等一些相似的汉字,只有一点或一个笔划之差,加上手写变形 的存在,使得手写体中相似字的区分比印刷体要困难得多。 4 ,手写体风格众多,随意性太,无规律可循。不同的书写风格导致的汉字 的变形差别很大,主要表现在以下方面:( 1 ) 笔划模糊,不规范。如直笔划变弯, 折笔划变圆弧,短横、短竖变点,点交捺,横不平,竖不直,该连的不连,不 该连的却相连,等等。( 2 ) 笔划与笔划之间的相对位置不确定,部件与部件之间 的位置发生变化。( 3 ) 笔划的倾斜角度、笔划的相对长度、部件的相对大小不稳 定。( 4 ) 脱机书写的其它因素,如纸张、用笔的好坏,字形的大小,扫描仪性能 的好坏等等,都会导致识别的困难。 从理论和技术上来看,字符识别的研究被认为是模式识别中十分典型的应 用研究课题,其中包含了模式识别的许多典型技术和基本理论的应用。模式识 别迄今为止仍然缺乏能够全面适用于分析或者描述各种模式的严谨理论,目前 的模式识别科学在处理许多问题时使用的针对性很强或者技巧性很强的方法, 这些方法在某一方面或者某些特定场合下能取得良好的效果,然而却不可能顾 及各个方面的所有问题。目前手写体字符识别也采用了许多技巧性或者工程技 术性很强的方法,缺乏统一严谨的理论去指导研究。给手写体汉字识别的理论 研究带来了很大的困难。另外,手写体汉字识别是涉及多学科的综合技术,各 个学科交叉领域的研究还存在许多技术障碍,特别是在心理学和生理学中人们 对大脑认字的原理还缺乏系统的研究,是手写体汉字的机器识别的研究缺乏相 关的理论指导,具有很大的盲目性。 1 4 当前的研究热点1 1 5 1 1 预处理技术 手写汉字变形问题是非特定人脱机手写汉字识别中的关键问题,所谓脱机 手写汉字识别的预处理,就是探讨直接从汉字点阵图像上补偿手写变形、减小 属于同一类别的不同模式之间的差异的理论和方法。通常,直接从汉字点阵图 像上消除手写变形的方法有两种,即非线性归一化方法和变换函数法。非线性 归一化是预处理方法的主流和核心,其目的主要是将不同大小的汉字点阵归一 化成相同大小并直接在汉字点阵图像上矫正手写变形。变换函数法是近年来图 象识别及文字识别的一个研究方向,常用的变换函数法有基于几何模型的变换 函数法、余弦整形变换函数法、基于笔划倾斜角度的变换函数法等。 2 特征抽取与分析 特征抽取是模式识别的一个重要环节,抽取稳定且有效的特征是识别系统 成功的关键。一般认为,汉字笔划及其相对位置关系是手写汉字中最为稳定的 特征,然而,直接从汉字点阵图像上准确地抽取汉字的每一个笔划并找出其相 对位置关系则十分困难。统计特征具有良好的抗噪声、抗笔划的粘连与断裂等 特性,但是,方块汉字具有二维结构,单纯利用统计特征还不能很好的反映出 汉字的结构信息,所以,一种有效的手写汉字特征应该将汉字的统计特性与结 构信息结合起来,将汉字笔划的特性与汉字背景空白处的特性结合起来。 3 识别字典的生成 在手写汉字识别中,由于不同人书写风格的差异造成的手写变形很大,使 得属于同一汉字类别的不同样本之间的差异较大,产生一个具有代表性的识别 字典是补偿手写变形、提高手写汉字识别率的有效途径,通常,识别字典可以 分成单模板字典和多模板字典两大类,前者指每个类别仅有一个参考模板( 也 可称为代表元) 存放在识别字典中,而后者指每类有一个或一个阻上的参考模 板。显然,由于手写变形的存在,单模板字典显得不足,因此有必要生成多模 板字典,问题的关键在于如何生成多模板字典。 4 多方案集成 多方案集成是近年来文字识别领域的一个主要研究方向,任何一种特征、 任何一种识别方法都有其优点和局限性,借鉴印刷体汉字识别的成功经验,走 多特征组合、多方案集成的道路,也许是脱机手写汉字识别系统走向实用化的 有效途径。 5 单子识别后处理 通常,在识别实际文本时,需要对单字识别的结果进行基于上下文关系的 识别后处理。利用后处理技术,应该能够实现对单字识别结果的确认或纠错, 并进一步区分相似字。 1 5 本课题研究的意义及论文的内容 手写体汉字是一个非常复杂的多模式识别问题,在发展人工智能和模式识 别的研究上有着重要的意义。本论文通过对手写汉字识别的关键问题一特征提 取和分类方法的研究,力图探索一些新的具有代表意义的应用于字符识别的特 征提取方法和分类方法,不仅提高手写体汉字识别的识别率,以增加其实用性, 而且对模式识别的理论研究提供了实例上的参考。 手写体汉字识别不仅具有重要的理论研究价值,而且具有广阔的应用前景。 理论研究是为了认识高难度模式识别的一般规律,发展机器自动识别技术。传 统的模式识别理论和技术在手写体汉字识别中有很大的局限性,手写体汉字识 别的研究有助于发展新的模式识别理论,而且由于手写体汉字识别是个涉及 多学科的复杂性问题,各个学科从自身的角度探索手写体汉字识别问题,出现 了大量新思想和新方法,促进了相关学科的深入发展,因此手写体汉字识别在 相关学科研究中,具有很高的理论探索价值和启发创造作用。手写体汉字识别 技术的应用是多方面的,它能使习惯汉语的计算机用户保持传统的书写方式, 又享受到计算机给人们带来的快捷和便利,该技术的应用和发展将改变人机界 面的传统模式,加速计算机在使用汉语国家和地区的普及。 论文共分六章。 第一章:汉字识别概述。系统阐述目前汉字识别技术的研究现状、发展趋 势和当前的汉字识别方面急待解决的问题。最后介绍了本文研究的意义和各章 6 的内容安排; 第二章:手写体汉字图像的字型特征分类和提取。本章提出了一种图像汉 字字型的两级划分方法,绘出字型分类代码和提取算法。实验结果表明分型效 果令人满意。 第三章:图像汉字的容错编码方法。模仿人认识汉字的容错机理,提出了 一种用于机器识字的汉字容错编码方法。对横竖撇捺笔划形态给出模糊化表示, 定义了仿入拆字的容错字元集,给出笔划字元的顺序判断规则,归结3 6 类简单 常用的部首为子结构和编码,并给出冗余的容错编码:建立了仿人构字的汉字 编码规则和具有容错性的多模板字典。 第四章:容错识别码的提取算法。在对汉字笔划分解的基础上,根据运用 的字符特征给出了图像汉字容错识别码的提取算法。并对识别结果进行置信度 评价,构成识别结果对识别输入的反馈,保证识别结果的可信度。 第五章:实验结果和分析。给出了样本汉字编码结果和重码汉字的类型分 析;给出手写体汉字的识别结果,并对拒识和误识汉字类型进行分析。 第六章:总结与展望。 第二章手写体汉字图像字型特征的分类和提取 汉字字型的划分是基于对汉字整体结构的认识,是指整个汉字中有着明显 界线,彼此可间隔一定距离的几个部分之间的相互位置关系1 1 6 】。字型特征是汉 字的一项重要特征,且无论对手写体或印刷体汉字,字型都是一项稳定的特征。 本章根据人认识汉字的习惯,考虑机器识别汉字的特点,对汉字字型进行 划分,并提出了一种采用水平和垂直投影直方图与连通域相结合提取字型的方 法。实验结果表明,该方法对提取字型取得了比较满意的效果。 2 1 汉字字型特征的分类 为了更明细地划分汉字字型,采用了两级划分法。 汉字字型分为:13 t r :右型、2 上下型和3 杂合型三类。从1 到3 排列顺序是按照 各种字型拥有汉字的多少。 杂和型叫做独体字,左右型和上下型称为合体字。两部分合在一起的汉字 叫双合字,三部分合在一起的叫三合字,四部分合在一起的叫四合字。本文合 体字最多分到四合字一级,符合人对汉字的字型认识的习惯。 两级划分法为:首先看整体汉字字型,若为杂和型则不再区分:若为合体字, 再分别判断左、右( 或上、下) 每一部分的字型信息,这两部分又按三种类型划分。 具体划分为如下几种: 一型:左右型汉字 包括三种情况: ( 1 ) 双合字中,两个部分分列左右,两部分间有一定的距离,如:杜、明、现 等。 ( 2 ) 三合字中,整个字的三个部分从左至右排列( 一级字型划分时最左部分为 左边,其余两部分为右边) ;或者单独占据边的部分与另两部分呈左右排列。 如:侧、别等。 ( 3 ) 四合字中,两部分与另外两部分呈左右排列,如:翻等。 二型:上下型汉字 上下型汉字也包括三种情况: ( 1 ) 双合字中,两个部分分列上下,其间有一定距离。如:恋、晋等。 ( 2 ) 三合字中,三个部分分上下排列( 一级字型划分时最上部分为上边,其余 两部分为下边) ;或者单独占一层的部分与另两部分作上下排列,如:意、想等。 ( 3 ) 四合字中,两部分与另外两部分呈上下排列,如:翡等。 三型:杂合( 单体、内外、包围) 型 三型汉字是指组成汉字的各个部分之间没有简单明确的左右或上下型关 系。如:困、秉等。 2 2 汉字字型代码表的建立 根据2 1 节对汉字字型的划分,建立汉字字型代码如表2 1 所示。 表2 1 汉字字型代码表 字型特征名一级字型划二级字型划分 称分 左部分字型右部分字型 字型特征代码 杂和型杂和型 1 3 3 杂和型 左右型 1 3 1 杂和型上下型 1 3 2 整体左右型左右型 上下型杂和型 1 2 3 上下型左右型 1 2 1 上下型上下型 1 2 2 二级字型划分 上部分字型下部分字型 字型特征代码 杂和型杂和型 2 3 3 整体上下型上下型 杂和型左右型 2 3 l 杂和型上下型 2 3 2 左右型杂和型 2 1 3 左右型左右型 2 1 1 左右型上下型 2 1 2 一奶字型蜘l 翁 字型特征代码 整体杂和型杂和型 不可分 3 0 0 例如:“神”的字型代码记为“1 3 3 ”;“侧”字型代码记为“1 3 1 ”。“意”字 型代码记为“2 3 2 ”:“想”字型代码记为“2 1 3 ”。“困”、“秉”等杂合型汉字代 码记为“3 0 0 ”。 2 3 汉字字型特征的提取 本文采用水平和垂直投影直方图与连通域相结合的方法提取汉字字型。 2 3 1 汉字水平和垂直投影直方图 汉字水平和垂直密度的直方图可以较好的反应汉字的结构及笔划特征,如 直方图的波谷点( 如图2 3 ( a ) ) ,选择两峰之间的谷底值作为特征点,确定 谷点的基本思路是在直方图曲线中搜索两个高峰及其间的山谷,搜索出的山峰 的峰值多数情况下是不相等的。直方图中最高峰可以简单的利用搜索最大值方 法找到,至于其他的峰值点可以在主峰( 最高峰) 两侧分别搜索,然后比较各 自得到的结果,选择更高者作为真正的次峰。在这个过程中可能遇到一种情况: 主峰不是一个理想的单峰,在其最高点附近存在突出的、无法完全平滑的毛刺, 或者拌生有一个副峰,此时如果简单的使用搜索局部峰值的方法来寻找次峰, 找到的可能是毛刺或副峰。为避免这种问题可以使单侧搜索的起点不紧邻主峰 而是离开一段距离,这样能在一定程度上饶过潜在的毛刺或副峰。 9 谷点数可以反映汉字的结构特征,水平直方图中单体字的谷点数为0 ,上下 结构的汉字的谷点数为1 ,上中下结构的汉字的谷点数为2 。同样垂直直方图中 的谷点数反映汉字的左右结构特征。 2 3 2 像素间的邻接性、连通性 1 相邻像素 位于坐标( x ,y ) 的个像素p 有4 个水平和垂直的相邻像素,其坐标由下 式给出: ( x + l ,y ) ,( x 一1 ,y ) ,( x ,y + 1 ) ,( x ,y 1 ) 这个像素集称为p 的4 邻域,用n 4 ( p ) 表示。每个像素距( x ,y ) 一个单位距 离,如果( x ,y ) 位于图像的边界,则p 的某一邻像素位于数字图像外部。 p 的4 个对角邻像素有如下坐标: ( x + 1 , y + 1 ) ,( x + 1 ,y 1 ) ,( x 一1 ,y + 1 ) ,( x 一1 ,y 一1 ) 并用n d ( p ) 表示。与4 个邻域点一起把这些点叫做p 的8 邻域,用n g ( p ) 表示。与前边一样,如果( x ,y ) 位于图像的边界,则n d ( p ) 和n 8 ( p ) 中的 某些点落入图像的外边。 2 邻接性、连通性、区域和边界 像素间的连通性是一个基本概念,为了确定两个像素是否连通,必须确定 它们是否相邻及它们的灰度值是否满足特定的相似性准则( 或者说,它们的灰度 值是否相等) 。例如,在具有0 ,1 值的二值化图像中,两个像素可能是4 邻接 的,但是,仅仅当它们具有同一灰度值时才能说是连通的。 令v 是定义邻接性的灰度值集合。在二值图像中。如果把具有1 值的像素 归入邻接的,则v = 1 ) 。在灰度图像中,概念是一样的,但是集合v 一般包含 更多的元素。例如,对于具有可能的灰度值且在0 到2 5 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论