(微电子学与固体电子学专业论文)一种联机手写汉字识别方法及其实现.pdf_第1页
(微电子学与固体电子学专业论文)一种联机手写汉字识别方法及其实现.pdf_第2页
(微电子学与固体电子学专业论文)一种联机手写汉字识别方法及其实现.pdf_第3页
(微电子学与固体电子学专业论文)一种联机手写汉字识别方法及其实现.pdf_第4页
(微电子学与固体电子学专业论文)一种联机手写汉字识别方法及其实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(微电子学与固体电子学专业论文)一种联机手写汉字识别方法及其实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南人学颀j :论文 摘要 随着信息技术的发展,电子产品得到了广泛的应用。在使用这些电子产品过程中,汉字 输入给使h j 者造成很多不便。传统的键盘输入方式已经不能满足人们对汉字输入方便、快捷 的要求。这种情况下,联机手写汉字输入以其简单、方便而成为一种越来越重要的汉字输入 方式,手写汉字识别技术也成为信息技术领域的一个研究熟点。 本文首先介绍了模式识别、汉字统计形态分析等和手写汉字识别相关的技术,随后分析了 一种统计识别方法的原理接着研究了这种统计识别方法的实现算法,最后说明了实现这个 统计识别算法的手写识别系统。并提出了优化识别速度的几个方法。 在这种统计识别方法中,识别过程包括预处理、归一化、特征形成、特征提取、分类和索 引汉字内码等过程。归一化过程把手写轨迹归化为归一化汉字,特征形成统计归一化汉字 边、角特点这些特点组成特征向鼍:特征提取把特征向量从高维映射到低维,特征提取方 法采h j 按欧氏距离度堵的特征提取方法;分类过程把特征向量和汉字典型模式进行匹配找 到和特征向鼙最相似的汉字典型模式,分类方法采h j 最小距离分类器。 在统计识别算法实现过程中,为了提高分类速度,分类过程被分成粗分类和二次分类两个 过科。 在硬件上,本手写识别系统由处理器s p t 6 6 0 8 a ,触摸屏和模,数转换器a d 7 8 4 3 组成;软 件上,识别引擎采用前面的统计识别算法。触摸屏和模擞转换器组成手写输入装置,实现 对手写轨迹的采样在手写轨迹采样和处理时,要进行坐标定位和飞点处理。 经过测试,当这个手写识别系统识别4 0 9 6 个常用汉字时。一个汉字的平均时问为1 3 s 。 识别率大予9 0 。这些性能达到了使用者对识别速度和识别率要求该识别算法已经被应 _ h j 在p d a 、短信话机等电子产品中 关锢! 词;联机手写汉字识别,统计识别方法,特征形成,特征提取,分类器 第1 i 页 东南人学碗j 二论文 a b s t r a c t w i mt h ed e v e l o p m e n to f t h ei n f o r m a t i o nt e c h n o l o g y , e | e c t r o n i c sp r o d u c t sa r ea p p l i e di n v i d e a r e a s c h i n e s ec h a r a c t e ri n p u tb r i n g si n c o n v e n i e n c et ou s e sw h e nt h e yu s et h o s ee l e c t r o n i c s p r o d u c t s ,k e y b o a r di n p u t t h et r a d i t i o n a li n p u tm o d ec a n n o ts a t i s f yt h er e q u i r e m e n t so f c o n v e n i e n c ea n dc e l e r i t y u n d e rs u c hc i r c u m s t a n c e s ,t h eo n - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r i n p u tt e c h n o l o g yh a sb e c o m eo n eo f t h em o s ti n p o r t a n ti n p u tm o d e sb e c a u s eo f i t ss i m p l i c i t ya n d c o n v e n i e n c e t h e r e f o r e ,c h i n e s eh a n d w r i t i n gr e c o g n i t i o nt e c h n o l o g yh a sa l s om i n e dt ob eo n eo f t h eh o t s p o t so f r e s e a r e hi nt h ei n f o r m a t i o nt e c h n o l o g yf i e l d t h ef i r s tp a r to ft h i si s s u ei st h ei n t r o d u c t i o no ft h et e c h n o l o g yo fh a n d w r i t i n gr e c o g n i t i o n , n e x t w ed e s c r i b et h ep r i n t i p l e so fas t a t i s t i c a lr e c o g n i t i o na l g o r i t h m n d e t a i l so f t h ea l g o r i t h m a r eg i v e na f t e r w a r d w ei l l u s t r a t et h es y s t e mb a s e do nt h i ss t a t i s t i c a lr e c o g n i t i o na l g o r i t h ma tl a s t i nt h i s s t a t i s t i c a lr e c o g n i t i o na l g o r i t h m ,t h er e c o g n i t i o np r o c e d u r ei n c l u d e sp r e t r c a t m e n t , g e n e r a l i z a t i o n ,c h a r a c t e r i s t i cg e n e r a t i o n ,c h a r a c t e r i s t i ce x t r a c t i o n ,c l a s s i f i c a t i o na n dc h i n e s e c h a r a c t e ri n n e rc o d ei n d e x i n ge t c i nt h eg e n e r a l i z a t i o np r o c e d u r e ,t h et r a c eo f t h eh a n d w r i t i n gi s g e n e r a l i z e dt o , g e n e r a l i z e dc h i n e s ec h a r a c t e ra n dt h ec h a r a c t e r i s t i c sc o n s t i t u t et b eb o r d e r , c o l n e t e t c t h a ta i ct h ei d e n t i t i e so f ag e n e r a l i z e dc h i n e s ec h a r a c t e r 1 1 l ei d e n t i t i e sf o r mt h ee i g e n v e c t o r t h ec h a r a c t e r i s t i ce x t r a c t i o np r o c e d u r em a p st h ee i g e n v e e t o rf r o mh i g hd i m e n s i o n st ol o w d i m e n s i o n s ,c h a r a e t e r i s t i ce x s t r a c t i o nt a m e so nb yt h ee u l e rd i s t a n c em e a s u r e m e n t ,w h i c hm a k e s t h ea v e r a g ed i s t a n c e sb e t w e e na n ys a m p l e si na n yc l a s st ob em a x i m a l c l a s s i f i c a t i o np r o c e d u r ei s u s e dt om a t c ht h ee i g e n v e c t o ra n dt h et y p i c a lm o d e lo fc h i n e s ec h a r a c t a r sa n dt of i n dt h em o s t s i m i l a rt y p i c a lm o d e l 1 1 c l a s s i f i c a t i o na l g o r i t h mu s e st h em i n i m a ld i s l a n c ec l a s s i f i e r i nt h er e a l i z a t i o no ft h es t a t i s t i c a lr e c o g n i t i o na l g o r i t h m ,c l a s s i f i c a t i o np r o c e d u r ei sd i v i d e d i n t or o u g hc l a s s i f i c a t i o na n d e o n d - t i m ec l a s s i f i c a t i o np r o c e d u r e s t h eh a r dw a r c o ft h es y s t e mi sm a d eu po fp r o c e s s o rs p t 6 6 0 8 a t o u c hp a n e la n da d c o n v e r t e ra d 7 8 4 3 i nt h es o f t w a r ep a r to ft h es y s t e m , r e c o g n i t i o ne n g i n ei st h es t a t i s t i c a l r e c o g n i t i o na l g o r i t h md e s c r i b e da b o v e t o u c hp a n e la n dt h ea dc o n v e r t e rc o n s t i t u t et h ei n p u t d e v i c eo fh a n d w r i t i n g ,w h i c hp r o c e s st h eh a n d w r i t i n gs a m p l i n g o r i e n t a t i o no fc o o r d i n a t e sa n d f l y - p o i n tp r o c e s s i n ga r ed o n ew h e ns a m p l i n gt h eh a n d w r i t i n g 眦o n - l i n eh a n d w r i t i n gr e c o g n i t i o ns y s t e mh a sah i g hh i tr a t ea n dw o r k sw i t hh i g l ls p e e d 1 i l co n - l i n eh a n d w r i t i n gr e c o g n i t i o na l g o r i t h mh a sb e e na p p l i e dt o m ee l e c t r o n i cm a n u f a c t u r e s u c h 雒p d a k e y w o r d s o n - l i n ec h i n e s e h a n d w r i t i n gr e c o g n i t i o n ,s t a t i s t i c a lr e c o g n i t i o na l g o r i t h m , c h a r a c t e r i s t i c s g e n e r a to n ,c h a r a c t e r i s t i c se x t r a c t i o n ,c l a s s i f i e r 第1 i i 攻 东南人学硕:e 论文 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 近叁日期:型三垒! 彤 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名: i 车叁 导师签名: 筇1 负 鞋趔止日灿。哆 东南大学硕士论文 1 研究背景 绪论 随着计算机技术的发展和大众化的趋势。人们对计算机汉字输入的智能化提出了越来越 高的要求。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种,自动识别输入 又分为语音识别和汉字字形识别两种。汉字字形识别技术可分为印刷体汉字识别和手写体汉 字识别两大类,后者又可分为联机手写汉字识别和脱机手写汉字识别。 联机手写汉字识别是指汉字被 写在输入装置( 如手写板、触摸屏等) 上时,要求实时 采样手写轨迹,识别算法对手写轨迹进行识别并输出识别结果,整个过程中,要求识别算法 能够快速、准确地识别手写汉字。 目前,联机手写汉字识别技术被广泛应用在需要汉字输入的系统中,使手写汉字输入成 为一种重要的汉字输入方式。 联机手弓汉字识别,作为模式识别的一个分支它所识别的对象也即识别系统的输入, 是表示成一系列坐标点的手写汉字。这些坐标点是对书写时笔尖运动的轨迹进行时域采样得 剑的。与脱机手写汉字识别相比,联机手写汉字识别的对象不是二维| 墨i 象点阵,而是一维的 坐标序列,因此,更加容易从中获得对于汉字识别十分重要的结构信息这也是目前联机手 写汉字识别比较接近实用的原因之一 联机手写汉字识别主要有两种方法,一是统计识别方法,一是结构识别方法。统计识别 方法是把整个汉字当成一个整体,统计汉字的各种特点,把这些特征作为识别对象,运用模 式识别的有关方法进行识别。所谓结构识别方法,其基本思路是把复杂的汉字模式分解为简 单的子模式直至基本模式元聚字根、笔划、笔段等。通过对子模式的判定( 用相对简单的方 法) 。以及基于符号运算的匹配算法达到对复杂模式的识别。 对于工整书写的汉字,目前的统计识别方法和结构识别方法均已经能够达到很高的识别 率。但是,要联机手写汉字识别技术真正达到实用水平,必须能够对人们自然书写的汉字具 有相当的识别率。这也正是联机手写汉字技术的难点所在。具体地说这些问题是: 1 ) 笔顺问题: 2 ) 连笔问题: 3 ) 相似字分; 4 ) 对抗干扰能力的要求。 统计识别方法对汉字的形态进行统计。这使统计识别方法能够从原理上很好地解决笔顺 问题和连笔问题。 一般米说,统计识别方法的识别率均低于结构识别方法。但是,统计识别方法一般比结 构识别方法简单,从而在实现时,统计识别方法对实现系统的性能要求比较低,能够在中低 端嵌入式系统中得剑实现这是统计识别方法的一个优势。 基于以上原因。我们选择统计识别方法作为研究对象,通过对统计识别方法的原理和实 现的研究力求为发展联机手写识别技术提供一个有黼的参考。 而且,我hj 运川统计手写汉字识别算法,采用中低端处理器,设计并实现了一个手写识 别系统,这个系统具有较高的识别率和较快的识别速度,具有一定的应h i 价值。 2 课题的主要工作 当我们决定采j j 统计识别方法来设计一个联机手写汉字识别系统时,我们遇到的第一 个难题是如何提取手写汉字的特征尽可能使某个汉字的这种特征能够只代表这个汉字而不 第l 页 东南人学颈l :论文 会同时代表其它汉字。由于汉字字数非常多。汉字结构复杂,要想找到这样的特征是比较困 难的,它只能从人量的经验中产生。 当我们找到这样的特征后联机手写识别问题就变成一个模式识别问题,这时,我们 需要运川模式识别的有关理论米设计一个分类器。使分类器能够自动找到特征所对应的汉 字。 本课题没有去研究汉字统计特征。而是关注汉字统计特征的模式识别和整个识别系统 的实现。汉字统计特征根据一种已知的方法得到。具体地,课题的主要工作为: 一设计和实现一个统计识别算法,主要是设计、实现特征提取和分类器: 二构建联机手写汉字识别系统; 三优化识别算法,提高识别速度。 模式识别中,特征提取是按照某个准则,把高维向量映射到低维向鼍。由于汉字字数多 且结丰勾复杂,由统计特征所形成的特征向鼙的维数往往很高,如果直接对这样的特征向姑进 行分类将会影响识别速度,因此我们要对统计特征进行特征提取。把特征提取得到的特 征称为二次特征。 分类器的作用是找到特征平手写轨迹二次特征相似的汉字,这个或这些汉字就是识别结 果。分类器是整个识别过程的关键,它是决定整个识别系统识别率和识别速度的重要因素。 在实现识别算法时,优化分类器是提高识别速度的重要力法。 实现系统主要包括处理器和手写输入装置。手写输入装置的作用是采样汉字书写时笔尖 的移动轨迹,它由触摸屏和榭数转换器组成 3 论文结构 本文第一章介绍了联机手写汉字识别技术的相关内容;在第二章,论述了一种统计识别 方法,着重推导了所埘的特征提取方法和分类器;第三章详细阐述了联机手写汉字识别算法 包括从预处理到索引汉字内码的整个识别过程:第四章说明了手写识别系统的硬件年i l 软件, 提出了提高算法识别速度的几个方面,并给出了这个手写识别系统的性能;第五章对整个工 作进行了总结归纳,并指出了现在r :作中的缺憾之处对今后联机手写识别技术的研究做了 展望。 第2 页 东南大学硕士论文 第一章联机手写汉字识别技术概述 随着信息技术的发展,电子产品得到了广泛的应用。这些电子产品,如手机、p d a 等, 给人们的i :作、生活带米了很多便利。但在使用这些电子产品过程中,汉字输入给使用者造 成很多不便。传统的键盘输入方式已经不能满足人们对汉字输入方便,快捷的要求,这种情 况下,联机手写汉字输入以其简单、方便而成为一种越来越重要的汉字输入方式。手写汉字 识别技术受到了广泛的关注。成为信息技术领域的一个研究热点。 手写汉字的机器识别,在学科上可以看作是模式识别领域中文字识别地研究范围,其 中汉字识别是文字识别中最困难的部分,而手写汉字识别又是汉字识别中最困难的部分。 要研究汉字识别技术。就必须研究汉字的结构特点和形态特点。而统计识别方法以研究 汉字的形态特点为主,因此本文只介绍汉字形态特点的研究方法。 1 1 联机手写汉字识别技术的发展及现状 联机手写字符识别的发展历史可以追溯到本世纪再十年代。伴随着手写板硬件( - - 种捕 捉笔尖轨迹的数字化仪) 的出现人们开始研究联机手写字符识别技术。随着半导体和计算 机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到八十年代后期,联机 手写字符识别技术的研究已经朝着实用的方向努力。特别是英文,已经开始研究完全无限制 的整句识别技术。 联机手写汉字识别技术相对起步较晚1 9 8 t 年,m m 公司e f y h a r 等推出了第一套较 为成熟的联机手写汉字识别系统。该系统是基于对汉字进行笔划、字根编码的思想进行识别 的。系统中每个汉字用7 2 种字根拼成,而每个字根又可分解为4 2 种笔划的组合,通过对 笔划和字根的判定识别所输入的汉字。而对字根进行的编码树表示又使得系统对通常的笔顺 变化具有一定容忍能力当时对9 2 0 个汉字的实验结果时正确率9 1 1 对2 2 6 0 个测试。 识别率为7 9 9 ( 第一次使用) 。书写者要求使用工整楷书。 1 9 8 8 年我国刘迎建等人提出利用笔段为基元的联机手写汉字识别技术。该方法把汉字 分为笔段、笔划、字根、单字和词组五个层次,分别用模糊属性文法进行描述,以启发式模 扳引导匹配。该系统采用了对笔段进行基于位置关系的排序方法,摆脱了对笔顺的依赖。识 别字典可达剑6 7 6 3 1 2 0 0 0 字。对于手写j e 楷汉字,熟练用户的识别率可达9 5 以上,已经 具有了一定的实用性。目前,汉王手写识别技术已经从最初的1 0 版做到了现在的1 0 0 版, 彻底解决了手写输入设备、核心算法、高效运算等技术难题。特别是2 0 0 1 年7 月推出的手 写识别系统第1 0 0 版。包含了具有革命性意义的“行草王”技术及“大字符集”技术,这 些技术的推出,使得汉于手写识别产品能完全识别手写行草体汉字,并且能识别国家 g b l 0 8 3 0 汉字标准字库中的所有汉字。2 0 0 2 年,汉王科技有限公司的联机手写识别技术荣获 了国家科技进步一等奖。 台湾也止在进行联机手写汉字识别方法的研究。由于采用不同的思路,台湾的产品在连 笔处理方面具有一定的优势而对于笔顺的限制相对比较严格。从有限的一些资料来看,它 f j 人致是基1 :笔段串的动态规划方法的。目前人陆市场上的“博士笔”、“精晶识挣j 系统”等 其技术都来自台湾的公司。 值得注意的是国外一些人公司也开始注意联机手写汉字识别这一领域。m o t o r a l a 、 m i c r o s o f t 、a p p l e 等人公司均已经投资丁:该方向的研究。由于资金雄厚,并且具有很强的软、 硬仆优势,其势头不可小视。国内研究人员庶该奋起努力,把这一具有浓厚文化特色的研究 课题的土流带握在中国人臼己手中。 第3 页 东南人学硕士论文 1 2 模式识别 我们在生活中时时刻刻都在进行模式识别。过去的心理学家也没有注意到模式识别的能 力是个值得研究的问题就像苹果落地一样见惯不惊。只有在计算机出现之后,当人们企图 川计算机米实现人或动物所具备的模式识别的能力时。它的难度才逐步为人们所认识。本文 讨论的模式识别是指州计算机实现人的模式识别能力。 什么是模式昵? 广义地说存在于时间和空问中可观察的事物,如果我们可以区别它 们是否相同或是否相似,都可以称之为模式。但模式所指的不是事物本身而是我们从事物 获得的信息。因此,模式往往表现为具有时间或空间分布的信息。由于本文主要讨论的是用 计算机进行模式识别,信息进入计算机之前通常要经过取样和量化,在计算机中具有时空分 布的信息表现为向域即数组。数组中元素的序号可以对应时间与空间,也可以对应其他的标 识。闪此,对丁上面所说的时间与空间麻作更广4 义、更抽象的理解。 人们为了掌握客观事物。按事物相似的程度组成类别。模式识别的作用和目的就在于 面对某一具体事物时将其上e 确地门入某一类别。例如,数字4 可以有各种不同的字体或 写法,但它们都属丁,同一类即使我们看到从未见过的某种写法的4 ,也能正确地将其分 到4 这一类别中去。如果给每个类命名并且_ l j 特定的符号来表达这个名字,那么模式 识别可以看成是从只有时间和空间分布的信息向着符号所作的映射。 通常,我们把通过对具体的个捌事物进行观测所得到的具有时间和空间分布的信息称 为模式,而把模式所属的类别或同一类中模式的总体称为模式类( 或简称为类) 。也有人习惯 于把模式类称为模式,而把个别具体的模式称为样本。 有两种基本的模式识别方法,即统计模式识别方法和结构( 句法) 模式识别方法,与此相 应的模式识别系统都由两个过程所组成,即设计和实现。设计是指用一定数量的样本( 叫作 训练集或学习集) 进行分类器的设计。实现是指用所设计的分类器对待识别的样本进行分类 决策。本文只讨论统计模式识别方法。基于统计方法的模式识别系统主要由4 个部分经组成: 数据获取,预处理,特征提取和选择,分类决策,如图1 一l 所示 1 i l i 练过程 幽l l 模式识别系统的基本构成 卜面我们简单地对这几个部分作些说明。 1 数据获取 为了使计算机能够对各种现象进行分类识别,要用计算机可以运算的符号来表示所研 究的对象。通常输入对象的信息有r 列3 种类型,即 ( 1 ) - 二维幽像如文字、指纹、地i 璺i 、照片这类对象。 ( 2 ) 一维波形如脑i 乜图、心电图、机械震动波形等。 ( 3 ) 物理参域和j 逻辑值前者如在疾病诊断中病人的体温及务种化验数据等;j 1 斤者如 对某参蕈止常与否的判断或对症状有无的描述,如终与不终可h j 逻辑值即0 剃i 表示。在 引入模糊逻辑的系统中,这些值还可以包括模糊逻辑值,比如很人、人、比较人等。 通过测昔、采样和域化。可以h j 矩阵或向域表示- 二维幽像或一维波形。这就是数据获 第4 贞 东南火学硕士论文 取的过程。 2 预处理 预处理的目的是去除噪声加强有用的信息,并对输入测量仪器或其他因素所造成的 遂化现象进行复原。 3 特征提取和选择 由幽像或波形所获得的数据量是相当大的。例如,一个文字图像可以有几千个数据 一个心电幽波形也可能有几千个数据,一个卫星遥感图像的数据量就更大。为了有效她实现 分类识;i | 。就要对原始数据进行变换,得剑晟能反映分类本质的特征。这就是特征提取和选 择的过样。一般我们把原始数据组成的空间叫测鹫空问,把分类识别赖以进行的空间叫特征 空间,通过变换,可把在维数较高的测精空问中表示的模式变为在维数较低的特征空间中表 示的模式。在特征空间中的一个模式通常也叫做一个样本,它往往可以表示为一个向量,即 特征空间中的一个点。 4 分类决策 分类决策就是在特征空问中用统计方法把被识别对象归为某一类别。基本作法是在样 本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误 识别率最小或引起的损失最小 5 分类器 分类器按已确定的分类判别规则对待识模式进行分类判别,输出分类结果。 在一些阽籍和文献中。在不完全相同的意义上使用“特征提取”,“特征选择”等名词。 例如,“特征提取”这一词在有的文献中专指特征的形成过程,有的则指从形成、经选择或 变换直到得出有效特征这一全过程。为了方便起见,下面对本文中几个常用的有关名词作些 说明。 特征形成根据被识别的对象产生出一组基本特征,它可以是计算出来的,也可以是 用仪表或传感器测颦出来的,这样产生出来的特征n q 做原始特征。 特征提取原始特征的数量可能很大,或者说样本是处于一个高维空问中,通过映射 或变换的方法可以刚低维空间来表示样本,这个过程叫特征提取。映射后的特征叫二次特征, 它们是原始特征的某种组合。所谓特征提取在广义上就是指一种交挟。若y 是铡量空间,x 是特征空间,则变换a :y x 就叫做特征提取器。 特征选择从一纽特征中挑选出一些最有效的特征以达到降低特征空间维数的目的, 这个过挫叫特征选择。 1 3 汉字的统计形态分析2 1 一般刻划汉字字形的方法有_ 二类。一类是结构分析之后的字形形态分析,这种分析主 要被川在手写汉字结构识别方法中;另一类则是直接对整个汉字进行统计分析的字形形态分 析这种分析土要被_ i j 在手弓汉字统计识别方法中。 统计分析方法是通过对字形统计特征的刻划和描述来完成对整个字形的形态分析。统 计特征可以分为整体的和局部的两类,总的包括有像素取值、线元梯度、笔划域、方向段强 度、方向笔划数、方向映象、方向密度、周边形状、一维投影和二维变换等等。 像素敬值是最简单的一种局部描述,这种方法将整幅图像的全部像素点作为对字形本 第5 且 东南大学硕士论文 身的刻划描述,通过二值分布来反映形态显然,这也是一种最无效的描述方法,不但容变 性筹而且根本没有任何数据的压缩,所以极少采州此方法来描述字形的形态,而是通常对 每个像素点,进行某些局部参数的统计刻划来体现汉字形状的字形规律。 图l 一2 给出的便是各种基丁局部像素的特征统计方法的图示。其中方向段强度是对每 个黑像素位置在八个方向上分别计算每个方向最妖1 f 空距离:而线元梯度则是方向段梯度 的一种- 二值化结果,仅记录每个方向上有否相邻点的情况。方向笔划数计算的是从每个白像 素位置剑图像边界在每个方向上穿越的笔划数:而笔划域则是方向笔划数的二值化结果,仅 记录上下或左右四个方向上是否存在笔划而已,笔划域的一种改进形式便是周围笔划域特 征。 母- 苷 ( )方向段强厦 b ) 方向笔翊救 ( e ) 周边笔划域 图l 一2 基于像素点的请种局部特征描述 如果我们对给定的方向( 水平、垂直、左斜和右斜) 和黑像素位置,对汉字图像进行 缺象变换,只保留形体中给定方向的所有黑像素,如图1 3 所示,那么这样的结果我们称 为该黑像素的方向映象。而将得到的每幅映象的黑像索个数累计起来,就是该黑像素在给定 方向上的方向密度特征值。 木 圈1 3 基于像素点的方向映象 有时考虑剑个汉字i 玺i 像的像素个数太多,川上述方法往往导致描述数据过 :庞大, 所以通常将整幅i 鳘l 像划分为一定区域比如1 6 1 6 个区域,然后对每个区域中的像素描述 特征,取其均值作为糕个区域的描述特征,如图l 一4 所示其中采埘动态划分要比采川i 耐 定划分更能避免手写汉字形变的不稳定冈素。 另一种局部特征描述方法是采埘多边形或者著分等来对汉字周边形状进行描述,如图l 一5 所示。这一方法的缺点是描述的特征所包含的信息远1 f 是字形周有的信息,所以容变性 较筹。为了弥补这一缺点,也可以采h 更复杂的曲线逼近方法等。 第6 叛 东南人学硕| :论文 作为对汉字字形更为整体的描述,在字形形态的统计分析中,也常常使用投影和变换 的方法。 所谓投影,就是将二维汉字图像投影到给定方向的一维轴上,来计算某种形状性质的 像素分布规律,以达到描述形态的目的。常用的投影方法主要有像素密度投影、方向笔划密 度投影萃笔划背景投影。如图1 - - 6 所示,像素密度投影是在给定方向轴的垂直方向去计点 黑像素的累积个数作为方向轴处的像素密度;方向笔划密度则仅计数与投影方向轴垂直笔段 上的像素点数;而笔划背景投影是对文字背景部分进行垂直和水平投影,累计白像素的点数。 投影的间隔应该选择恰当,以避免描述数据的过于庞大。当然可以借助于某种一维变换来 归纳所获得的投影结果以达到压缩数据的目的 u n j f o r m a a m p l i n g u n i f a r m h m p i i l v 图l 一4 分划区域的固定和动态方法 图l 一5 周边形状描述方法 对于二二维变换,往往可以采用比较成熟的f o u r i e r ,w a l s h ,h o u g h 和k a r h a r e n - - l o c v e 变换来完成。获得一纽变换系数作为对汉字辂体形态的描述。不过,这种整体的统计方法往 往很雄反映处手弓汉字形态的真止面貌,所有很少用于手写汉字形状的描述中。 当然,对丁投影和变换,我f f j 也可采川划分r 域的方法,分区域统计米获得一组描述 数据以改进这些方法的效果比如将| 鳘| 像分割为8 8 个区域,然后分别对每一区域进行投 影或变换统计,获得结果后再综合起米。川以对整个字形形态的刻划。 第7 页 朗豳址 圈圈k 东南人学硕士论文 8 警 画州 承平翱嚣三芒:f 童耄 “像摩寄生投髟”毫对方向矗移c ) 支字霄景投影 图l 一6 请种投影描述方法 统计分析方法的主要思想是要通过局部或整体的特征统计来反映具体字形的形态规 律。但由丁其没有考虑到汉字形体更为内在的结构性质,所以往往不及结构分析方法更能反 映汉字的形体规律。所以。通常在手写汉字识别中仅作为粗分类中的形态粗略描述来运用而 己。 总之。在字形的形态分析中,我们可以综合运用结构( 基元) 分析方法和统计分析方 法。以达到对汉字形态规律的更好把握。 1 4 手写汉字识别方法 手写汉字按书写时问与识别时间的关系,可分为实时识别和非实时识别,实时识别称 为联机识别,非实时识别称为脱机识别。 脱机手弓体汉字识别的识别对象,是已经写好的方块汉字。也就是说。被识别的模式 是一种特殊形式的二维幽形或图像。联机手写汉字识别系统的识刈对象虽然也是方块汉字, 但是构成汉字的笔划住1 5 写时按照l i 写顺序依次送入计算机+ 因而事实上已经把一个二维图 形分解为一维的笔划序列。 虽然联机手写汉字识别和脱机手写汉字识别在方法上有所不同但它们都是对手写汉 字进行机器识别的技术,有很多相似的地方。本将概述手写汉字识别面临的l 封雄和识别方 法。 1 4 1 手写汉字识别的问题与困难 汉字识别的主要性能指标楚正确识别率和识别速度。从实用角度看,还要考虑系统的 复杂性、可靠性雨i 价格等等。 第8 页 1 纱 东南大学硕士论文 要达到上述性能指标是相当困难的。这是因为:从客观上说,汉字是一种特殊的模式 集合。这种集合的模式种类非常多,结构复杂,有的模式十分相似,以及人们在书写时的随 意性使字形不够规范等原因,都使正确识别十分困难,要求高识别率时更是如此。从技术上 说,关于模式识别的研究虽已有较长的历史但迄今为止它仍然没有能够全面地适用于分析 或描述各种模式的严谨的理论。目前的模式识别。与其说是- - f l 科学,还不如说它是一种技 术,有人甚至认为它是一种艺术。在研究某一种模式识别问题时,有的方法比较巧妙,或者 说,某种识别方法较符合被识别的模式集合的情况,因而得到较好的效果。但是即使这是一 种好的方法但由于不容易顾及所有各方面的问题,所得结果往往也不是全局最佳。例如, 某一种方法可能得剑较高的正确识别率,但算法可能过于复杂,开销较大。等等。 为了明确手写汉字识别的问题和困难,下面介绍汉字集合的一些特点。 1 字鼍_ 人 目前我国常用汉字约3 0 0 0 - - 4 0 0 0 个,国标g b 2 3 1 2 - - 8 0 两级汉字共6 7 6 3 个。识别系统 一般应能正确识别这些常用的字,才能满足实际应用的需要。但是,当前计算机的“智能” 不高,识别方法还比较“笨拙”。对某一待识字进行识别时,一般必须将该字按一定准则和 存储在机内的每一个已知汉字逐一比较,找出其中最相似的字。显然,汉字集合的字量越大。 识别速度越低。为了提高识别速度常采用树分类。即多级识别方法采用这种方法以后,识 别速度虽然可以提高,但也可能使识别率下降。汉字集合字数愈多,正确识别率与识别速度 的矛盾愈火。这是汉字识别的主要困难之一 2 字体多 手写汉字的字体主要有楷书、行书和草书三大类。手写体汉字不同字体的同一个字宜然 拓扑结构基本相同,但笔划的租细、长短、位置及姿态,都有一定的差别:各个部件( 如偏 旁、部首与主体) 的大小比例与位置,也都有所变异。换句话说,不同字体的同一个字的字 形点阵并不相同。对于手写汉字这种差别就更火。冈此,计算机自动识别时,很难把不同 字体的同一个字t 用一个参考汉字来比较、判定、这种情况将使多体汉字识别系统所需的参 考模板数成倍增加。或者要求所选用的识别特征能适应不同字体的字形变化,否则将难以获 得足够高的识别率。 3 结构复杂、字形相似 和拼音文字相比,汉字笔划多,结构复杂笔划最多的汉字有3 6 划,平均每个汉字为 1 1 划。由丁:笔划多,有的汉字结构十分复杂,有的字虽然笔划较少,但往往字形十分相似, 如“人,入”、“巳、已、己”等。这些字有的只有一点之差,或者某一笔划长短略有差别。 其意义就迎然不同。识别时必须能正确判定这些微小差异,否则就会影响识别率 , 1 4 2 手写汉字识别系统构成1 3 i 幽l 一7 是汉字识别系统的框图它包含汉字图形输入装置,预处理、识别和后处理等 儿个主要环竹。 罴母巨 目卧匡哥匮乎 一一型! 坚l 一 图l 一7 汉字识别系统框图 汉字图形输入装置的作用是把手写汉字转换成数字信息。对于联机手写汉字识别,输 入装置一般是触摸屏。在触摸屏上书写汉字或字符时,触摸屏把笔划轨迹转换为数字信息 第9 | 贝 东南大学硕士论文 送入识别系统:对于脱机手写识别,输入装置可以是传真机或扫描仪等设备,使用这些设备。 手写汉字被转换为一种二维点阵图形。 预处理的作用包括:文件页面理解,字分割、归一化和去除干扰等。所谓“页面理解” 是指对在同一页面上的文章、表格和图表等进行辨识并将它们逐一分开,以便分别进行处 理。有时还要求把文章的标题、作者,摘要与正文等加以分解,以便把识剐后的输出按不同 项目加以编排、打印。由现有的识圳系统都是以单字识别为基础,因此对于脱机识别时输 入的页面资料,必须把所有文字、数码录l 标点符号一分割开这是“字分割”的任务。分 割厉的字符还必须归一化为一定人小的点阵酗形,同时移至特定的位簧,以便进一步处理、 识别。 特祉形成是整个识剐系统中非常重要的一个过程。这一过程的任务是从笔划轨迹( 联 机手写识别) 或二维点阵图形( 脱机手写识别) 中抽象出能比较完整地描述手写轨迹的数学 语言。目前,手写汉字轨迹特祉的形成有很多方法,但是这些方法都不能比较完整地擒述手 写轨迹。 识别器是整个系统的主要环节。由于汉字集合字量大为了提高识别速度常采用多级 分类。待识汉字输入识别器时,首先根据某些准则判定它属于整个汉字集合的某一子集,然 后再和该子集中的标准汉字模扳逐一匹配,识别。前一级作用叫做预分类或粗分类。其中子 集可以是在识别器设计阶段就把整个汉字集合分成若干子集而得到,也可以是在识别过程中 根据汉字轨迹得剑的汉字的集合。两者的区别在于前一种子集的元素是同定的,而后种子 集的元素和手写轨迹捅关。由于每个子集字敷较少函而逐字比较、匹配时伺可以缩短,识 别速度得以提高。后一级识别器叫做单字识别,它在子集中找到和手写汉字轨迹最匹配的汉 字作为识嬲结果。 系统的最后一级是后处理。后处理一般运用自然语肓的有关原理,利用手写内容的上 下文关系,从语言的语法或语义角度来检测或纠正识9 4 结果,提高蹙个系统的正确识别率。 但是,自然语言本身是- - f - j 不成熟的学科,计算机还不能非常完善而正确地处理自然语言, 因此后处理对于识别率的提高是非常有限的。然而,要形成很高识别率的手写识别系统后 处理是不可缺少的 1 4 3 手写汉字识别方法 识别方法是整个系统的核心模式识别中的两类主要方法即统计模式识别和结构模式 识别在手写汉字识别均得到了应用 统计决策法发展较早,理论也较成熟。其要点是提取待识模式的一组统计特征,然后 按照一定准则所确定的决策函数进行分类判决在汉字识别中,国外学者大多采用这种方法, 如变换系数法等。这种方法着龈r 数笥特征,便丁特征提取和分析计算,但它往往把汉字图 形君作趋一种随机的二维点阵没有充分考虑剑汉字结构的特点,利_ l j 它所具有的结构信息。 汉字是种幸专殊的模式,其结构虽然比较复杂,但具有相当严格的规律性。换言之, 汉字图形含有丰富的结车勾信息可以设法提取含有这种信息的结构特征及其组字规律,作为 识j ;i j 汉字的依据。这就是结构模式识别,也叫做句法模式识别。结构模式识州把被识剐的模 式石作是由若干较简单子模式构成的集合,后者义可继续分解为若干个更简单的子模式a 最 简单的子模式叫做基元。这样,任何模式都可以用一组基元及一定的组合芙系来描述,就像 一篇文章由单字、词、短语希i 句子按语法规律所组成棒。所以这种方法也叫句法模式识剐 方法。川这种方法米描述汉字字形结构在理论上是比较恰当的,在手写汉字识别方面也己褥 剑初步应用。但是汉字结构毕竟是十分复杂的,再加上各种干扰和非理想因素的影响( 如手 写汉字字形的随意性等) ,因而用这种方法来识别汉字仍有一定困难。 第1 0 页 东南大学硕士论文 无论是统计识别方法还是结构识别方法都要面临以下几个问题: ( 1 ) 笔顺问题 由于不同人具有不同的书写习惯,笔划的书写顺序经常发生变化,因此,单纯通过串匹 配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,必须利 用一些_ 二维方法米描述,从而义极大地增加了匹配的难度。 ( 2 ) 近笔问题 一般人写字时都不会一笔一划的书写,为了节省时间连笔字是白然而然的事情,一些 行f 5 连笔甚至完全脱离了楷1 的框架。从实片j 角度讲,连笔问题比笔顾问题具有更重要的意 义。对于结构识别而言。连笔一方面使笔划种类大大增加,甚至达到难以归纳的程度;另一 方面,连笔又使得笔段抽取难度大增,因为连笔会增加一些冗余笔段,连笔造成的畸变又会 使笔段方向严重离散。总之连笔不论对于基于哪种基元的结构识别都是严峻的挑战。 ( 3 ) 相似字区分 汉字种类繁多很多汉字彼此之间非常相似,例如“己已、已”三个字相差只在些微之 间。手写汉字的变形十分严重,怎样能使识别系统透过大幅度的变化,抓住微小的差别,还 是一个非常值得研究的问题。 ( 4 ) 对抗干扰能力的要求 抗干扰能力也称为鲁棒性对于联机手写识别系统的性能是非常重要的书写时候, 笔划的畸变、丢失,多余笔段( 如笔锋) 的插入。字的倾斜,部件问相对位置、大小的变化, 这些都是经常发生的现象对于结构识别来说,会造成基元提取和识别的错误。传统的结构 识别方法恰好在鲁捧性上是薄弱环苗。因此,要想取得好的性能,必须对传统识别方法进行 改进,增强其鲁棒性,从而增加实用性。 一般米说,统计识别方法的识别率均低于结构识别方法但是,统计识别方法一般比 结构识别方法简单,从而在实现上,统计识别方法对实现系统的性能要求比较低,能够在中 低端嵌入式系统中得到实现这是统计识别方法的一个优势。基于这些原因,我们选择统计 识别方法作为研究对象。 第l l 负 东南人学硕士论文 第二章手写汉字统计识别方法分析 手弓汉字统计识别方法是手写汉字识别的一种重要方法。特征形成时。这种统计整个 待识汉字的形态特点:分类决策时这种方法远刚模式识别中统计识别的有关理论来设计分 类器。 本章首先说明了手

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论