(通信与信息系统专业论文)手写体汉字识别方法研究.pdf_第1页
(通信与信息系统专业论文)手写体汉字识别方法研究.pdf_第2页
(通信与信息系统专业论文)手写体汉字识别方法研究.pdf_第3页
(通信与信息系统专业论文)手写体汉字识别方法研究.pdf_第4页
(通信与信息系统专业论文)手写体汉字识别方法研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 汉字识别涉及到模式识别,图像处理,数字信号处理等学科,是一门综合性 很强的技术,在中文信息处理,办公自动化,人工智能等领域,都有着重要的应 用价值和理论意义。汉字的手写体识别技术在二十世纪九十年代得到了快速发 展,手写体汉字识别系统的产品化、成熟化得到了进一步完善。但是由于自由书 写的手写体汉字样本的不规范性,以及手写汉字样本的低质量和低分辨率特点, 使得其识别率较低,距离实用化阶段的要求还有很大差距。 特征提取是汉字识别过程中最重要的环节,快速地提取稳定、可靠并能充分 描述汉字模式的特征,是手写体汉字识别的关键。数学形态学是分析几何形状和 结构的数学方法,是建立在集合代数基础上,用集合论方法定量描述集合结构的 科学。应用图像处理技术和数学形态学的方法进行汉字识别是当前备受关注的一 个重要研究领域。 本文利用数学形态学的基本运算,研究汉字特征提取的方法。在对原始字符 图像进行预处理,细化等操作的基础上,利用形态学的基本运算,改进了一种以 数学形态学为基础的汉字特征提取新方法,对手写体汉字原始图像进行处理,从 中提取出稳定有效的笔划方向特征。在运算速度等方面相较于其它特征提取算法 具有一定的优势。 关键词:数字图像处理;手写体汉字识别:数学形态学;四方向笔段: a bs t r a c t c h i n c s ec h a r a c t e rr e c o g l l i t i o ni sa ni n t e g 豫t e dt e c h n o i o g y ,i ti i l v o i v e sp a 谯e m c o g l i i t i o n , i m a g ep r o c e s s i n g ,d i g i t a ls i g n a ip m c e s s i n g ,a n do t h e rd i s c i p i i n e s , i ta l s oh a sas i g n i f i c a n t 印p l i c a t i o nv a l u e 蛐di i i l p l i c a t j o n so fp e 晌m 锄c ct i i e o 巧f o rc h i r i e s ei i l f b 硼a t i o np m c 懿s m 舀 o 币c ea u t o m a t i o n ,a r t i f i c i a ls m a r t ,a n do t t i e rf i e j d s h a n d w r i n e nc h i i l e s ec h a 豫c t c r 他c o g n i t i o n h a sm a i n t a i l l e dam p i da n ds o u n dd e v e l o p m e n td u r i i l gt i l el9 9 0 s ,a n di tm a k e st l i ep r o d u c i b i i i t y 锄dm a t u r a t i o no fh 锄d w r i n e nc h i n e s ec h 椭c t e rr e c o g n i t i o ns y s t e mp e r f e c t i o n 如n h e 硼o m b e c a 吣eo ft i l en 伽- s t a n d a r d a b i i 时o ft t l eh a n d w “仳e nc h i f l e s ec h a m c t e rw “t t 钮a r b i t r a r i j y 锄dt h e l o wq u a l i 钞a n d 心s o i u t i o no fh a n d w r i n e nc h i l l e s ec h a 豫c t e rs p e c i n l e n ,t h e 心c o g n i t i o n 伯t eo ft l l e s y s t e mi ss t i l i 他i a t i v e i yi o w ,ag 陀a tg a pt i l e 聆b e t v v e e np d u c t i o np h 淞ea n dc m 托n ts t a t e f e a t u me x t m c t i o ni s t l l em o s ti m p o r t a n ts e c t i o no ft l l ec h i n e s ec h m c t e r 他c o g n i t i o np m c e s s t oq u i c k l ye x t r a c ts t a b l ea n d 鹏l i a b l ea n dc a nf u i i yd e s c r i b et t i ec h a 忍c t e r i s t i c so fc h i f l e s ec h a 膪c t e r p a t t e m s ,a n di t i st t l ek c yt oh a n d w r i t t e nc h i l l e s ec h a 阳c t e r c o g n i t i o n m a t i l e m a t i c a lm o r p h o l o g ) r b a s c d o nt l l ec o l l e c t i o no nt i l eb a s i so fa i g e b mi st t l ea n a i y s i so fg e o m e t r i cs h a p e 狮ds 缸u c t i l 他o f t l l em a t h e m a t i c a im e t h o d ,锄dt l l es e tt h e o o rd e s c r i b e st i i ec o i i e c “o no fq u 肌t i t a t i v em e t l l o d so f s c i e n c e 1 n h i sa r t i c l e 代s e a r c h e so nt i i ef o 吼d a t i c h i l l e s ec h a m c t e rf e a t u 伸e x t m c t i o nm e t l i o d 憾i i i g t l l em a t l l e m a t i c a lm o 叩h o l o g y 邪t i l e 如n d a m e n 协io p e 门t i o n i ti m p m v e san e wc h i n e s ec h a 瞄c t e r f e 叭u 他e x t r 们t i o nm e t h o db 雏e d o nm a t h e m a t i c a im o 巾h o i o 斟; u s i n gt l i e t h em a t h e m a t i c a i m o 巾h o l o g y 懿t l i ef u n d 跚e n 协io p e 豫t i o n ,m a k i l l gp m p r o c e s s i i l g 蛐dt t i i | u l i l l g t ot l i eo r i g i n a l c h a 胎c t e 娼i r i l a g et l l a tp e o m 鸺p 化p m c e s s m gt ot t l eo r i g i n ah a n d w r i t t e nc h i i i e s ec h a 协c t e r 蚰a g e , a n dc a 吖i n go nt i l es t a b i ea n da v a n a b i ee x t r a c t i o nt ot i i ef e a t u r co fc h i n e s ec h a m c t e rs 仃o k c t h c f e a t u 他e x t 豫c t i o nm e t h o db a s e d - o nt h i sa r t i c l eh 鹊锄a d v 锄t a g eo fo v e rt i i eo t h e 璐i l i o p e r a t i o n a ls p e e d ,a n ds oo n k e y w o r d s :d i g i t a ii m a g ep r o c e s s i n g ;h a n d w r i n e nc h i n e s ec h a 豫c t e r 心c o g n i t i o n ; m a t h e m a t i c sm o 叩h o l o g y ;f o u rd i r e c t i o n st op e ns e c t i o n ; 第一章绪论 1 1 引言 第章绪论 模式识别技术是人工智能的基础技术,在智能化、信息化、计算化和网络化 的年代,作为人工智能技术基础学科的模式识别技术,具有广阔的发展空间。由 于在客观世界中,通过视觉获得的信息量可以达到人类获得的总信息量的7 5 以上,而模式识别技术主要是基于视觉图像的处理技术,所以模式识别技术在图 像处理中的作用是非常重要的。图像识别技术,也称图像再认技术,是人们通过 某利感觉器官辨识某一图形的过程。在近二十年里这项技术得到了广泛的应用, 已经渗透到了人们日常生活中的多个方面。尽管图像识别技术在国防、公安、交 通、工业、农业、医学、生物、金融、体育等方面的用途十分广泛,但仍有许多 在应用中经常遇到的实际问题未被解决,因而从总的发展水平来看,图像识别技 术还很不成熟。要想使图像识别技术的实用化得到进一步发展,就必须解决这些 实际问题,这也是人工智能技术长期持久发展的保证。 文字作为人类文明社会进步的主要标志之一,同时也是人与人之间进行交流 和沟通的主要媒介和途径。对于现代计算机科学技术而言,人与计算机之间的交 互性要求计算机具有识别和理解人类文字的功能,这也是“计算机智能化”发展 的要求。计算机字符识别( c o m p u t e rc h a m c t c rr e c o g n i t i o n ,简称c c r ) ,也称 光学字符识别( o p t i c a ic h a m c t e rr e c o g n i t i o n ,简称o c r ) ,其主要过程是首先对文 本资料进行扫描,然后埘扫描得到的图像文件进行分析和处理,以获取文字及版 面信息的过程。光学字符识别( 0 p t i c a ic h a 豫c t e rr e c o g n i t i o n ,o c r ) 、图像字符识 别( i m a g ec h a 忸政e r 他c o g n i t i o n ,i c r ) 和智能字符识别( i n t e l i i g e n tc h a 豫c t e r 他c o g n i t i o n ,i c r ) 都属于自动识别技术,基本原理人致相同。经过3 0 多年的发 展,已经成为机器智能实现的关键技术,其主要的应用涉及到与自动获取文本过 程相关的所有领域,以及办公自动化和邮件自动处理等方面内容。在人们的生产, 生活等活动中,每天都要进行大量的文档处理工作,计算机字符识别和文档处理 等技术的应用,大大减轻了人们在文字处理方面工作的繁重性。目前图像识别领 域中研究者比较关注的同时也是研究氛围最活跃的课题领域之一就是计算机文 字识别研究,计算机文字识别研究作为典型的图像识别应用研究领域,是一项综 合性很强的、复杂的应用型技术,主要包括模式识别、人工智能化等相关的基本 理论知识和典型应用技术1 1 1 众所周知,世界上使用人数最多的文字就是汉字,已有数千年的历史,产生 第一章绪论 于人类的生产劳动实践中,对于中华民族灿烂文化的形成和发展起着重要的作 用。汉字记录了中华民族璀璨的民族文化,是人类文明社会发展的信息载体,汉 字的产生和发展代表了中华民族独特的思维方式和对事物特别的认知方法。当前 正是信息社会高速发展的时代,我国信息事业的发展也迫切的需要具有自主知识 产权的、能够应用于实际产品中的计算机汉字自动识别与处理技术。随着现代社 会信息技术及计算机技术的日益普及,要想真正的使计算机在我国的应用得到推 广就必须尽快的实现人与计算机之间能够以文字特别是汉字为媒体的沟通与交 流1 2 1 。目前,对于汉字输入方式的主要分类情况如图1 1 所示,其中人工键入速 度相对较慢而且劳动强度大。不同的汉字输入方式所对应的识别技术的难易程度 相差也是很大的,其中印刷体汉字识别相对较容易,手写体汉字识别的难度较大 根据是否联机,手写体汉字识别又可分为联机( o n l i n e ) 识别和脱机( o f n i n e ) 识别, 在脱机方式下,很难得到手写汉字笔画顺序、点的坐标、书写压力等动态信息。 所以其难度又远远超过了连机手写体。脱机手写体的识别率远未达到人类的需 求,目前脱机手写体汉字识别技术主要还是处于实验阶段,符合市场需求的通用 性能高、稳定性能好的脱机手写体汉字识别实用系统还未成型,这就需要该领域 研究人员的长期不懈的坚持研究。 图卜l 汉字输入分类情况 1 2 手写体汉字识别现状分析 现代信息交流的进一步强化和计算机应用的不断普及,使得每天需要处理和 认知的汉字都是数以亿计的,这种需求随着人类需求的增加还在刁 断增长。信息 交流与通信、新闻媒介、办公自动化等多方面的日常工作,都需要计算机能够自 动的识别汉字,既计算机能够自动的转变输入汉字的格式,将其转化为计算机内 部可以识别并保存的形式。人与计算机之间的交流工作单靠人工手动输入的方法 2 第一章绪论 是远远不够的,这种低速的工作效率,远远不能适应汉字信息处理的高速度、高 质量自动化的需求。只有尽快的实现计算机的汉字自动识别功能才能够更方便的 进行信息变换和信息的输入与输出。才能够真正的实现现实意义上的人机交互, 加快人与计算机之间的语言信息交流“1 。所以,从信息化社会要求方面来看,汉 字的机器识别研究,具有广泛的实用价值和应用前景。 汉字识别技术可以根据应用情况的不同来分类,如图l - 2 所示。汉字识别技 术包括印刷体汉字识别技术和手写体汉字识别技术两方面的内容。其中,根据是 否联机,手写体汉字识别技术又包括联机手写体汉字识别( o n 一1 i n ec h i n e s e h a n d w r i t i n gr e c o g n i t i o n ,简称o n l i n ec h r ) 和脱机手写体汉字识别( o 雕i i n e c h i n e s eh a n d w r i t i n gr e c o g n i t i o n ,简称o f f - 1 i n ec h r ) 两种。 f 印刷体汉字识别 汉字识别1 手写体汉字识别 爰辜嚣袋茎茎集誊翥 图1 2 汉字识别的分类 脱机手写体汉字识别是当前模式识别研究领域中最具有挑战性的工作之一 脱机手写体汉字识别和联机手写体汉字识别的主要处理对象及其转化方式如图 卜3 所示。联机手写体汉字识别主要是将实时采集到笔迹序列转化成含有丰富书 写信息的图像,这些信息主要包括写字的力度、速度、笔划顺序等信息,为手写 体汉字识别的准确性提供保证。脱机手写体汉字识别不需要专用的输入设备,对 输入汉字的实时性也没有任何要求,但由于每个人的习惯和特点不同。同一个手 写体汉字最终的表现形式往往差别很大,如字体变形,汉字结构不规范等问题。 同时对于提前写在纸上的汉字,无法得到写字的力度、速度、笔划顺序、动态点 坐标等信息,所以从识别技术的难度上来讲,脱机手写体字符的识别难度肯定会 远远大于联机手写体字符的识别n 1 。 扫描仪和摄 ( a ) 脱机手写体汉字识别的简单过程 专_ i i i 的数字 ( b ) 联机手写体汉字识别的简单过程 图卜3 脱机手写体汉字识别和联机手写体汉字识别的主要处理对象 第一章绪论 在西文字符识别和数字字符识别的基础上发展起来的手写体汉字字符识别 从产生到发展至今仅仅不到6 0 年的时间。字符识别技术最早起源于二十世纪五 十年代初期的欧美。1 9 5 5 年出现了光学字符识别( o p t i c a ic h a r a c t e rr e c o g n i t i o n 简称o c 鼬技术产品,它主要是针对印刷体数字对象的识别。随后,出现了针对 英文字符识别和数字识别的技术。手写汉字识别的发展历程可概括为以下几个阶 段。 1 2 0 世纪6 0 年代起步阶段 在英文和数字识别的基础上发展而来的汉字识别技术最早可以追溯到二十 世纪六十年代中期。美国的b i m 公司作为最早从事汉字识别技术研究的公司,其 代表人物是r c a s y e 和g n a g y 两人。1 9 6 6 年,两人共同发表了一篇关于汉字识 别最新研究成果的论文,这篇论文作为汉字识别的基础最先提出了基于模板匹配 的方法,通过该方法可以完成1 0 0 0 个印刷体汉字字符的识别,这一标志性事件 代表了世界范围内汉字字符识别研究工作的起步阶段“1 。 2 2 0 世纪7 0 年代中期一发展初期 直到七十年代中期,手写体汉字字符识别研究工作才真正开展起来。当时开 展这一研究的主要是日本。日本的文字与中国汉字的渊源很深,部分文字与汉字 有很大的相似性,所以日本文字字符识别要解决的主要问题和面临的主要困难与 中国汉字字符识别情况基本相似,主要是字体结构复杂,细节变化较多等。 3 2 0 世纪8 0 年代一发展中期 进入八十年代,中国、日本、中国台湾、美国和加拿大等使用或与汉字接触 密切的国家相继开始了手写体汉字字符识别的研究,但从实际应用方面来看,水 平最高的仍是日本。这一阶段可以称为手写汉字字符识别技术的发展阶段,几个 代表性事件如表1 1 所示。 表l - l手写汉字字符识别技术的发展阶段标志性事件 时同 代表事件标志性成果 ib m 公司的e f y h a p 等推h 第一 1 9 8 1 年 套较为成熟的联机手写汉字识 该系统基于对汉字进行笔划、字根编码的思 别系统 想进行识别可以识别2 2 0 0 个汉字 1 9 8 1 年 富士公司等展示了一个手写体 手写体汉字机器的实现标志着手写体汉字 i 只别研究热潮在u 本、中国等全世界范围内 日文汉字识别器模型 的兴起 东芝制造的手写印刷体汉字识 i 识别2 2 0 0 个汉字及其它符号,识别率为99 i9 8 4 年 ,识别速度为5o 字秒 别实验装置o c r v 59 5 ib m 公司的e f y h a p 等推出第一 可i j 别一级汉字、英文字母、敷字、平假名 l9 8 6 年 套较为成熟的联机手写汉字识、j 1 假名等3 2 0 0 个字符,识别率为90 识翻 别磊绽谏摩为0 o6 0 08 秘宰 4 第一章绪论 4 2 0 世纪9 0 年代一快速发展阶段 进入二十世纪九十年代,计算机电子信息产业技术的快速发展进一步促进了 手写体汉字识别技术的发展,这一时期是手写体汉字识别技术的快速发展阶段, 也是识别系统产品化、成熟化阶段。其代表性事件如表1 2 所示。 表l - 2 手写体汉字识别技术的快速发展阶段标志性事件 时同代表事件 标志性成果 1 9 9 2 年 夏普公司推出笔输入屯子笔 可识搠5 0 0 0 多个汉字,识别率达9 j ,使用者可 按常规笔顺书写,但对连笔限制较严。该产品代 5 月记奉 表了日本当时联机手写汉字识别技术的最高水平 美国摩托罗拉公司开发出“ 1 9 8 1 年 支持手写连笔汉字输入方式 l 笔”汉字识别软件 苹果公司开发出兼有语音 可以同时支持语音和手写两种方式进行 i9 8 4 年 输入和手写输入两种方式 文字输入 的中文输入软件 我国的手写体汉字字符识别的技术研究工作相对日本来说起步较晚,开始于 七十年代末期,发展于八十年代中期。最早的数字字符识别研究主要应用于七十 年代的邮政业中,其主要作用是根据来往信件中的数字符号实现邮件信件的自动 分检和分类。汉字字符识别的研究工作开始受到国内的一些大学和科研机构的重 视是在七十年代末期,由于当时现有技术水平的制约以及配套技术条件的落后等 原因,其主要工作主要集中在印刷体的汉字字符识别上。我国手写汉字字符识别 的研究工作是直到八十年代才真正开始的。首先是印刷体汉字字符识别系统在八 十年代后期取得重要突破,其功能达到了国际先进水平,这一事件标志着我国的 汉字识别研究工作的蓬勃开展。我国手写体汉字字符识别技术发展的代表性事件 如表1 3 所示。 第一章 绪论 表1 3 我国手写体汉字字符识别技术发展的代表性事件 时阔代表事件代表单位或个人标志性成果 中文信息学会第二哈工大、江西冶金大会上宣读了有关联机手写汉 1 9 8 3 年 届全国学术会议在 工程学院、上海仪 字识别的论文,开创了我幽汉 武汉召开器仪表研究所等字识别研究的先河 联机手写汉字识别 我国的第一套联机汉字识别系 l9 8 4 年实验系统在高科技 哈工大和总参6 l 所 成果展览会上展 i j 统 “联机手写体汉字识别 联机手写体汉字识别技术得到国家高 i9 8 7 年 拄术”被列入国家“七 哈工大和总参6 l 所 五”重点攻关项目 度重悦 用笔段作为基元的 笔段是汉字字形中近似于直线 i9 88 年 联机手写汉字技术 刘迎建等人 的线段 的提出 交互式手写汉字识 识别字域为3 7 5 5 个,对工整书 l9 8 9 年 清华大学计算机系 写楷书的前十位累计识别率为5 别系统得到鉴定 2 国内第一个手写体 识别字域为3 7 5 5 ,对工整书写 1 9 9 0 年 汉字识别系统研制 北京大学 成功 楷书的识别率为6o 改进的手写体汉字识别字域为3 0 5 0 ,对工整书写 l9 9 1 年 中科院自动化所 识别系统推出楷书的识别率为76 78 手写印刷体汉字识用于国标一级汉字的识别,识 1 9 9 3 年武汉工业大学 别系统研制成功别率为8o 左右,速度为l 字秒 “脱机手写体文本 识别字域为3 7 5 5 ,对工整书写 1 9 9 6 年汉字识别系统”通 清华大学计算机系 过鉴定 的文本识别率为71 o3 纠6 5 t h o c r 一 非特定脱机手写汉字文本识别 1 9 9 7 年 97 综合集成汉字识 清华大学电子系 子系统,对书写工整的手写汉 别系统通过鉴定字文本的正确识别率达到95 8 t h o c r 一 对书写较为工整的手写汉字文 97 综合集成汉字识别系 i9 9 8 年 统- i 的脱机手写汉字文 清华大学电子系 本的识别率达95 8 ,对于自由 本识别子秉统 手写体汉宁的识别率在8o 左右 新一代手写体汉字 工整字识别率在9j 以上,自由 1 9 9 9 年 北京汉王科技公司 识别系统书写字识别率在8o 以上 进入2 l 世纪,手写体汉字识别技术得到越来越多的大学和研究机构的重视。 已有多个脱机手写汉字识别系统通过权威机构的鉴定。目前脱机手写体汉字字符 识别系统对书写较规范的手写体汉字字符识别率可以达到9 9 ,而对于那些随意 性较强、书写相对自由的手写体汉字样本的识别率则较低,仪为9 2 左右,这主 要是由于自由书写的手写体汉字字符,以及低质量、低分辨率的手写汉字样本书 6 第一章绪论 写笔划不规范,得到的文字文本图像不清晰等原因造成的,9 2 的识别率距离实 用化阶段的要求差距还是很大的。 随着印刷体汉字字符识别和联机手写体汉字字符识别技术的快速发展,其产 品化越来越高,随着市场上更多产品的投入,整个市场越来越成熟并进一步向实 用化发展。当今数字化产品市场上比较流行的个人数字助理( p e r s o n a id i g i t a i a s s i s t a n t ,简称p d a ) 的标准配制就包括手写汉字识别软件。据调查,目前国内 外市场上比较有实力的手写体汉字识别软件的提供商主要有:北京清华紫光文通 信息技术有限公司、台湾蒙恬科技股份有限公司、深圳的中自汉王科技有限公司 和天津摩托罗拉等公司,这些公司所生产的汉字识别系统一般都能够支持5 4 0 1 个繁体字( 台湾地区) 和国标g b 2 3 1 2 8 0 所规定的6 7 6 3 个简体字3 | 。目前联机 手写体汉字识别技术已经基本可以实现产品化,而脱机手写体汉字识别技术目前 仍处于实验室研究阶段,这主要是由于其自身的复杂性造成的。作为汉字识别领 域中的研究热点,尽管被国内外多家公司和科研院所进行重点研究,但其识别正 确率和识别速度仍远远刁能达到实用性要求,距离市场产品化仍有较大差距。 1 3 手写体汉字识别技术中所要解决的主要问题分析 当前公认的评价手写体汉字识别系统性能的主要评价指标包括正确的汉字 识别率和识别速度,在此基础之上还要综合考虑识别系统的整体复杂度,系统可 靠性和市场价格等凼素。例如,有些识别方法尽管识别率比较高,但算法的实现 过于复杂、系统开销过大:有些识别方法可能算法上比较简单,而且运行速度比 较快,但主要指标的识别率却比较低。综上分析,目前汉字识别系统研究过程中 所面临的问题和困难主要包括以下几个方面: ( 1 ) 汉字数量巨多 我国的汉字总量到底有多少,一直以来并没有一个统一的说法,1 9 9 4 年出版 的中华字海中收录的汉字是8 7 0 1 9 个,另一个有一定权威性的北京国安咨询 设备公司的通过专家鉴定的的汉字字库中收录的有出处的汉字9 1 2 5 1 个,这也是 目前全国最全的字库。即使是1 9 8 8 年公布的现代汉语常用字表中选收了2 5 0 0 个常用字、1 0 0 0 个次常用字,总共也有3 5 0 0 字;另外据调查统计,在公文书写需 求中,常用汉字约有4 0 0 0 至7 0 0 0 字左右。因而,满足实际应用需要的汉字识别系 统至少要能够正确识别这些常用的汉字才可以满足市场需求9 1 。早期计算机识 别汉字的方法是分组比对法,既将被识别的汉字按照一定准则和方法与一组汉字 进行对照,找出与其中最相似的汉字。显然,这种方法对于数量巨大的汉字集合 来说,识别速度足很难得到提高的。后来又提出了多级识别方法,即树状分类法, 7 第一章绪论 这种方法是以降低识别率为代价来提高识别速度的,显然这种方法也是不可取 的。所以当前汉字识别技术所要面临的主要困难之一就是正确识别率与识别速度 之间的权衡问题。 ( 2 ) 众多的中文汉字中,相似字难以区分 中文汉字不仅数量巨多,而且很多汉字又非常形似,如常用汉字中的“车”、 “东”和“本”,“未 和“末”,“土”和“士 , “已 和“己 , “明“ 和“朋 ,这些字虽然笔划不多,但字形非常相似,字与字之间相差的仅仅是笔 划上的细微区别,如长短或增减一划的区别。有时人眼都很难区分这些细微的差 别,而计算机在识别汉字时又必须要求能够正确判别这些微小差异,否则就会很 难保证正确的汉字识别率。因而抓住汉字的微小差异提高识别率是汉字识别系统 中的一个非常重要的问题。 ( 3 ) 中文汉字的字体繁多 不同的人写字的习惯不同,写出的字在表现形式上也是千差万别的。即使是 符合一定规范要求的汉字,比如说相对较简单的印刷体汉字也有许多不同的字 体,如宋体、黑体、楷体、隶书、行书、草书、华文行楷等。在这些汉字中,虽 然同一个汉字的不同字体的基本拓扑结构相同,常见的包括上下结构或左右结构 等,但汉字笔划在长短粗细和位置姿态等方面都有着一定的差别,汉字结构的不 同部件,如部首和偏旁,与汉字主体结构之间也存在长短、位置、粗细等的变化 换句话说,不同字体的同一汉字的字行点阵并不相同。针对这种多体汉字识别系 统,早期的方法是增加所需的参考模板,很显然这种方法也必然会影响汉字的识 别速度。因而当前所考虑的方法是能够根据不同字体字形上的变化,自适应的选 择适当的汉字特征并正确识别,在保证一定识别速度的前提下获得获得足够高的 识别率。 ( 4 ) 汉字识别系统的稳定性要求 汉字识别系统的稳定性要求就是要求识别系统具有一定的抗干扰能力。这也 是汉字识别系统的一个非常重要的性能要求。前文提到,由于手写体汉字的随意 性较大,因而经常会发生汉字笔划的畸变、甚至笔划缺失的现象,同时字体倾斜 汉字结构部件间相对位置和大小发生变化等都是小可避免的情况。这些问题很容 易造成汉字特征提取和识别过程中发生错误,从而影响最终的识别结果。脱机的 手写体汉字识别系统通常足先使用数码相机或扫描仪等输入设备将手写体汉字 转换为相应的汉字图像,然后再进行识别的,在这一转换过程中不可避免地会引 入各种外部干扰,如纸张的纹理、笔划的印记等,这些混在汉字图像信号中的干 扰必然会影响真实的图像信息。如果对转换成的汉字图像不加任何处理就直接识 第一章绪论 别的话,必然会影响识别的正确率,所以,在对转换的原始汉字图像进行识别前 要先对汉字图像进行预处理,尽量降低干扰信号的影响。早期使用的结构识别方 法不符合鲁棒性的要求,因此,一定要改进传统的图像预处理方法,增强识别系 统的鲁棒性能,这样才能使系统在稳定性的基础上增强实用性。 1 4 字符识别的重要参数指标 前文分析,衡量手写体汉字识别系统性能的主要的评价指标是识别率,识别 率也是最简单、最直接的量化指标。手写体汉字识别系统的识别率定义为如下公 式: 识别率= 嚣1 0 。 ”1 ) 衡量手写体汉字字符识别系统中辨别字数的指标是拒识率,影响拒识率的主 要凶素包括:汉字字库的标准范围( 如系统内有无该字) ,手写体汉字书写是否 足够规范、手写体汉字的变形程度等。拒识率作为识别系统的量化指标,可以定 义为如下公式: 拒识率= 蔫1 0 。 ”2 ) 将某一汉宅辨识为其它汉字的识别结果称为误识, 可以定义为如下公式: 误识率= 嚣燃。 一个好的识别系统应该将误识率减至为零1 。 1 5 论文的组织结构 其测验指标称为误识率, ( 卜3 ) 论文分为五章展开论述,具体组织如下: 第一章,手写体汉字识别的背景分析,主要包括手写体汉字识别研究的国内 外发展现状,研究的理论意义和实际应用价值。 第二章,介绍了手写体汉字字符图像的一般预处理步骤,主要包括汉字图像 的二值化过程,以及平滑、细化和归一化的主要理论和方法。 第三章,主要讨论了特征提取算法的主要概念,包括数学形态学的一些基本 9 第一章绪论 知识,以及基于数学形态学的结构特征、统计特征的提取方法等。 第四章,介绍了手写体汉字的一般识别方法研究,首先介绍了二维小波的基 础理论,接下来说明了利用小波特征分析的方法进行手写体汉字识别的技术。 第五章,对全文的研究工作进行总结,分析了本文研究所做的主要工作,提 出了目前手写体汉字识别技术研究工作中面临的主要问题,以及本文研究中的不 足和需要进一步改进及完善的地方。 1 0 第二章手写体汉字图像预处理 2 1 概述 第二章手写体汉字图像预处理 图像处理系统主要是对数码相机或扫描获取的原始图像进行处理,典型的图 像处理系统通常包括四个主要处理阶段,第一是图像的预处理阶段、第二是图像 的特征提取阶段、第三是对所提取的特征进行识别与分析阶段,第四是图像的后 处理阶段n 。对于手写体汉字来说,通过图像捕获设备( 如扫描仪、摄像机或 数码相机) 将手写体的汉字变成汉字图像,这种图像的质量往往是很低的,在计 算机进行处理之前,必须对这种人眼看不清楚的、模糊的汉字图像进行预处理, 这是所有识别系统首先需要解决的问题。图像预处理的一般过程如图2 1 所示, 这一过程在汉字识别技术中占有非常重要的地位。 图2 1图像预处理的一般过程 图像预处理阶段作为图像处理系统的第一项工作,其主要目的是对由图像输 入设备得到的视觉图像进行处理,将其转换为计算机能够识别的二值图像,这主 要是通过电耦合器件( c h a r g ec o u p l e dd e v i c e ,简称c c d ) 输入,以完成光电转换 的作用。c c d 摄像机和传真机等输入输出设备是8 0 年代前常用的图像输入设备。 到了9 0 年代,光电技术的发展使得光电扫描仪的性能得到进一步提高,而价格合 理,其应用迅速发展起来,逐步成为文字识别技术的主要输入设备。目前常用的 方法是先通过光电扫描仪输入字符图像,然后再进行处理。 由于图像输入过程中或图像本身是有噪声的这些噪声在图像中常表现为分 布杂乱的黑点或白点,所以转换后生成的二值图像是不能直接被使用的,必须通 过某些过程将噪声去掉。 为了获取文字的骨架通常需要经过细化的过程,文字细化的主要目的是通过 追踪文字骨架来获得文字笔划的细节描述。在目前的研究领域中有许多关于细化 或快速细化的数学算法其中比较常用的是“脱壳算法 ,大多数情况下的细化 算法都是从文字的边界处开始处理,逐层删除黑色点,直到发现某一集合与其边 第二章手写体汉字图像预处理 界相重合幻。 对字符进行规范化处理( c h a r a c t e 卜o r i e n t e dn o r m a t i v ea p p r o a c h ) 的主要目的 是更好的对任意字符进行特征提取。这里所说的规范化通常包括两方面的内容, 一方面是指对字符的位置进行规范化处理,既通过平移、旋转等方式对字符的位 置进行校正,又称为倾斜校验:另一方面是指对字符的尺寸进行规范化处理,既 把字符的尺寸变换成统一大小的过程,这一过程有时又简称为归一化。 综上所述,可以总结出汉字图像预处理的一般过程,如图2 2 所示。针对不 同的具体问题,实际采用的具体算法可以是不同的,在图2 2 的基础之上既可以 增加一些处理过程也可以减少一些处理过程。 t 八 汉字广 叫: 二敖 置理 平膏 蹙曩 图2 2汉字图像预处理的一般过程 2 2 手写体汉字识别系统的典型构成 单个字符ll 各字符罔像 图像的标h 笔商粗细的 l 化il自一化 一个典型时脱机手写体汉字识别系统如图2 3 所示,首先通过数字化输入设 备输入图像,对预处理后的图像进行特征提取和特征识别,最后通过后期图像处 理阶段,得到所需的结果并输出。 图2 - 3 典型的脱机手写体汉字识别系统 手写体的汉字文稿通常是写在纸张上的,这就需要通过扫描仪或摄像机等数 字化的前端输入装置将其转化为一个二维点阵图像( 2 一dd o tm a t r i xi m a g e ) , 接下来通过图像预处理阶段对二维点阵图像作处理,特征提取与识别阶段,这些 都是正式识别阶段的准备工作。文字识别完成后进入后处理阶段,其主要目的是 1 2 二值同像r 二值弹 灰度图像r 銮讲 第二章手写体汉字图像预处理 利用中文汉字语言文字的相关知识以及上下文等文字所在的背景环境等相关信 息,对被识别出来的汉字进行验证和检查或对未被识别山来的汉字进行推测和估 计的处理过程。在这一典型的脱机手写体汉字识别系统中图像预处理、特征提取 和特征识别是最重要的三个阶段。 输入图像主要是通过扫描的方式得来的,在扫描或书写的过程中,预处理文 本行或文本对象有时会产生倾斜现象,所以通常需要通过版面旋转等方式对这利 倾斜进行校正。在图像预处理阶段首先将扫描输入的灰度值汉字图像进行二值化 处理,然后再将前文提到的由于倾斜等原因而产生的干扰进行过滤或平滑。接下 来需要从输入图像数据中分离山一个个独立的汉字,也就是所谓的切分过程,这 是为了接下来的细化处理做准备。单字平滑也属于图像预处理范围,主要作用是 去掉汉字笔划边缘的噪声,如毛刺等。同时图像预处理阶段还要完成汉字的规范 化处理,如将大小不一的汉字转换为大小相同的汉字,其主要目的是消除手写汉 字的不规范性,如字体变形、结构失真及笔划模糊等情况。图像预处理的最后是 细化处理,写在纸张上的手写体汉字字符都是有一定宽度的线条,通过细化将这 种有宽度的汉字笔划线条转换为仅通过一个点联结的宽度仅为一个像素的线条, 前提条件是一定要保持汉字原有的拓扑结构和几何性质。 特性提取和特征识别又可以合称为识别阶段,它是手写体汉字识别系统最核 心的部分。首先从手写体汉字中选择那些能够被保持的拓扑结构或几何特性等稳 定的文字性质,然后采用适当的方式从等待识别的汉字数据库中提取必要特征 根据已知的训练样本数据得到判别函数,利用得到的判别函数来辨识未知数据, 或者将等待辨识的数据与已知的标准模板中的数据按照某种定义的规则进行比 对,根据结果判定被识别汉字的类别,这就是分类判别过程。相对发展较成熟的 手写体汉字识别的方法主要有两种:一是直接将汉字样本视为数字图像,用图像 处理的一般方法进行处理,如在空间域或频率域中提取图像特征的方式,这称为 统计决策法( s t a t i s t i cd e c i s i 咖m e t h o d ) i 另一种方式是将汉字看成是某种 基元与位置关系的集合,基元是指从汉字中抽取最简单的书写轨迹,由书写轨迹 分析出相应的笔划,再根据笔划组成偏旁部首,直到得到最终的识别结果,这种 方法称为结构分析法( s t r u c t u r e da n a l y s i sm e t h o d ) 。统计决策法易于汉字特 征的提取,训练时间也较快,但对特征进行选取则较难,而且为了保证结果的正 确性通常需要较多的训练样本。结构分析法则易于选择汉字特征,但特征提取较 难,同时训练时间相对也较长。总的来说,这两种方法各有特色,但也都有其不 足的地方。目前,使用较多的是综合统计决策法和结构分析法各自优势和特性的 混合方法。 第二章手写体汉字图像预处理 2 3 图像处理中的归一化过程 图像预处理过程中归一化是非常重要的一个阶段。手写体汉字字符之所以难 以识别,主要是因为不同书写人写出的字体在位置、大小、方向( 旋转度) 、倾 斜度以及字形变化等方面存在着很火的不同,在这些不同中,由于书写的不规范 性而造成的字形变化畸形等不规则性和书写习惯不同而造成的字体位置结构的 多变性足最困难的问题“驰。这些问题具体表现如表2 1 所示。 ” 表2 1 手写体汉字不规则性的主要表现形式 字形不规则性主要表现形式更羹一 横划不平、竖划不直、直笔变弯、拐笔 基本笔划发生变化 弯角或变成圆弧等情况 如该有连接的笔划不连、不该有连接的 笔划模糊不清 笔划却相连等情况;或由于书写笔原因 造成的笔划断续现象 如书写不规范等原因造成的笔划与笔划 字体结构或位置发生变化之间或汉字各不同组成部件之问的位置 结构发生变化 笔划粗细发生变化书写笔的不同造成笔划的粗细变化 对手写体汉字的大小进行归一化处理的主要目的是将多个不同大小的手写 体汉字的二维点阵图像变成相同大小的图像,方法主要是通过图像拉伸和图像缩 放的方式。具体来说,即根据某种规则定义汉字图像的外边框,将外边框按 某一比例进行缩放,通过这种方式就可以对汉字的大小进行调整,或者调节手写 体汉字的各个不同方向,主要是指水平和垂直两个方向,通过这两种方式都能够 使二维点阵图像中的像素大小达到归一化的结果“。 2 4图像处理中的二值化处理阶段 对汉字图像进行二值化处理的方法主要是通过设定阀值,将灰度图像变换为 只有前景和背景颜色的黑白图像。对灰度图像进行二值化的主要目的是减少数据 存储量的大小,从而降低图像处理的整体复杂程度。假设原始的汉字灰度图像为 ( ) ,二值化处理阀值为丁,定义灰度值火于阀值,的象素点值为l ,灰度值 1 4 第二章手写体汉字图像预处理 小于阀值,的像素点值为o ,则可得灰度图像的定义公式: 以伽矗嬲三; , 对汉字图像进行二值化处理的结果至少应满足两方面要求:第一,笔划中饱 满,像素点完整,即笔划中没有空白点;第二,笔划应基本保持原始手写体汉字 的基本结构特征1 e 盯1 。 通过以上分析可知,对图像进行二值化处理就是通过去掉原始汉字扫描图像 中不必要的信息,减少图像数据存储量的大小,从而提高汉字的识别速度,这一 处理阶段的效果如何直接影响到后面汉字特征提取阶段能否顺利进行。将灰度图 的二值化功能增加到汉字图像的预处理过程中的方法可以大大提高图像二值化 的质量,其最直接的效果就是减少被压缩图像的数据量。手写体汉字识别技术中 的汉字图像通常是2 5 6 级的灰度图像,在图像二值化处理的过程中最重要的步骤 之一就是选择合理的二值化阀值,。 2 5 全局阀值的二值化过程 利用图像灰度频率的分布情况将图像( 五力分割成互不相交的非空子集, 同时被分割的每个图像子集内的像素灰度级应分布在一个连续的灰度段内,这一 过程就是图像阈值分割过程。前文提到的图像二值化处理过程就是最简单的图像 阈值分割,表示为如下式: 如西式 如蚺口 l o以引牝, ( 2 2 ) 图像闽值分割实际上有很多不同的算法,根据阈值的不同定义方法又可以分 为局部阈值法、全局阈值法和自适应闽值法。其中,局部阈值法是指先将完整的 原始图像按照某种方式进行划分,划分为几个较小的子图像,然后对每个子图像 分别采用全局阈值法进行处理,即分别求出每个子图像的最优分割阈值;全局闽 值法是指根据全局信息对完整的一幅图像求出最优的分割闽值,这利一最优分割阅 值既可以是单阈值的,也可以是多闽值的n 。 闽值化算法一般公式可表现为如下形式: 厂= 【五另以五力,仄五力】 ( 2 3 ) 公式左边足所选取的阈值厂,公式的右边( 五力表示在像素点力处的灰 l s j 第二章手写体汉字图像预处理 乃专舷力 ( 2 - 6 ) 矿篓帅,姜缈 和初+ 南2 艺制2 训 1 6 第二章手写体汉字图像预处理 公式2 7 中乃代表图像的灰度直方图; 阈值不再发生变化,此时停止迭代过程, 3 最大类问方差法定义图像分割阈值 当乃= 。时,认为2 类区域的计算 同时可以认为,就是最佳阈值。 这种最佳阈值求导方法是在判决分析最小二乘法原理的基础上推导得出的 定义一幅肜图像,该图像的灰度级为z ,该幅图像1 1 1 灰度值为,的像素个数 定义为乃,则利用概率分布的算法可将直方图表示为如下式: 兰= i 办= 乃肌必易= l ,刃l 加,+ 1 ( 2 8 ) 同时假设图像阈值为,则可以以,为标准将图像划分为目标图像和背景图 像两类区域,两类区域分别定义为g = 0 ,) ,q = ,+ i ,z 1 ) ,两类区域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论