(计算机应用技术专业论文)基于特征融合的脱机手写体汉字识别.pdf_第1页
(计算机应用技术专业论文)基于特征融合的脱机手写体汉字识别.pdf_第2页
(计算机应用技术专业论文)基于特征融合的脱机手写体汉字识别.pdf_第3页
(计算机应用技术专业论文)基于特征融合的脱机手写体汉字识别.pdf_第4页
(计算机应用技术专业论文)基于特征融合的脱机手写体汉字识别.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于特征融合的脱机手写体汉字识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 脱机手写体汉字识别是模式识别领域一个极具挑战性的课题,它将在信函 分拣、银行票据识别、统计报表处理以及手写文稿的自动输入等诸多方面发 挥巨大的作用。如果能使用计算机准确的识别汉字的图像,无疑会大大有利 于解决传统人工处理方式中存在的工作量大、成本高、效率低、时效性差等 问题。因此,手写体汉字的识别研究有着重大的现实意义和十分广阔的应用 前景,一旦研究成功并投入应用将产生巨大的社会和经济效益。 本文针对脱机手写体汉字中的预处理、特征提取、特征融合等进行了研究, 完成了手写体汉字识别研究领域中的以下几个方面的工作: 1 、预处理在手写体汉字识别中占有重要地位。它包括二值化、平滑、细 化、规范化等。对手写体汉字进行非线性规范化,能有效地减少同类字符之 间的差异。本文讨论了手写体汉字的预处理方法,实现了几种非线性规范化 方法,并进行了实验比较。 2 、在特征提取方面:本文首先介绍了两种常用的方向分解方法:o r 方 向分解和a n d 方向分解,并基于弹性网格技术进行特征提取。另外本文实现 了一种简单加权方法和两种考虑周边邻域网格的加权方法:高斯加权和线性 加权。本文首次将k i t s c h 边缘梯度方向分解应用到汉字识别上。 3 、在特征融合方面:汉字的结构特征能够反映出其全局特性,而统计特 征又能反映出其局部特性。因此本文选取了几种具有互补性质的汉字特征, 并基于主成分分析的特征融合方法进行了融合实验。 4 、最后,本文还对网格方向特征、模糊网格特征和融合后的特征进行了 整票识别的仿真实验比较。其中融合后的特征的整票识别率达到了9 4 5 3 。 关键词:手写体汉字识别,特征提取,k i r s c h ,主成分分析,特征融合 a b s t r a c t o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o ni sac h a l l e n g ei nt h ef i e l d o fp a t t e r nr e c o g n i t i o n i tw i l lt a k ea l li m p o r t a n tp a r ti nm a n yf i e l d so fo u rl i f e ,s u c h 邪l e t t e rs e l e c t i n g ,c h e c kr e c o g n i t i o n , r e p o r tf o r md i s p o s i n ga n dh a n d w r i t t e n m a n u s c r i p ta u t o i n p u t i fw ec a l lr e c o g n i s et h ec h i n e s ec h a r a c t e ri m a g ee x a c t l yb y c o m p u t e r , w i l lb ep r o p i t i o u st os c a l et h ep r o b l e ms u c h 私b i g - l o a d , h i 曲- c o s t , l o w - e f f i c i e n c y , b a d e f f e c te x i s t si nt h et r a d i t i o n a lm a n u a lm o d eg r e a t l yw i t h o u t d o u b t t h e r e f o r e ,t h ei n v e s t i g a t i o n a b o u th a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o nh a sg r e a t l yp r a c t i c a lm e a n i n ga n de x p a n s i v ea p p l i c a t i o nf u t u r e ,o n c e m a k eah i ta n dp u ti ti n t oa p p l i c a t i o nw i l lb r i n gh u g es o c i a lb e n e f i ta n de c o n o m i c a l b e n e f i t t h i sp a p e rd o e sr e s e a r c ha i ma tp r e p r o c e s s i n g ,f e a t u r ee x t r a c t i o n , f e a t u r e f u s i o no fo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r , h a v ec o m p l e t e ds e v e r a la s p e c t so f t h ew o r ki nt h ef i e l do ft h eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n 嬲f o l l o w s : 1 ,t h ep r e p r o c e s s i n gp l a y sa ni m p o r t a n tr o l ei nh a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o n i ti n c l u d e sb i n a r y , s m o o t h ,r e f i n e da n ds t a n d a r d i z e d ,a n ds oo n t h e n o n l i n e a rn o r m a l i z a t i o no nh a n d w r i t t e nc h i n e s ec h a r a c t e r sc a nr e d u c et h e d i f f e r e n c e sb e t w e e ns i m i l a rc h a r a c t e r se f f e c t i v e t h i sp a p e rd i s c u s s e dt h em e t h o d o ft h ep r e p r o c e s s i n gi nh a n d w r i t t e nc h i n e s ec h a r a c t e r sa n da c h i e v e ds e v e r a l n o n l i n e a rn o r m a l i z a t i o nm e t h o d s ,a n dg a v et h ee x p e r i m e n t a lc o m p a r i s o n 2 ,i nt h ef e a t u r ee x t r a c t i o n :f i r s to fa l l ,t h i sp a p e ri n t r o d u c e dt w oc o m m o n l y m e t h o d so fd i r e c t i o n a ld e c o m p o s i t i o n :o rd i r e c t i o n a ld e c o m p o s i t i o na n da n d d i r e c t i o n a ld e c o m p o s i t i o n , a n de x t r a c t e dt h ef e a t u r eb a s e do nt h ee l a s t i cm e s h i n g i na d d i t i o n , t h i sp a p e ra c h i e v e das i m p l ew e i g h i n gm e t h o da n da c h i e v e dt w o m e t h o d sw h i c hc o n s i d e rt h e4 - n e i g h b o r h o o dg r i da b o u tt h ew e i g h i n g :g a u s s i a n w e i g h i n ga n dl i n e a rw e i g h i n g t h i sp a p e ra p p l i c a t i o n st h ek i r s c he d g eg r a d i e n t d i r e c t i o n a ld e c o m p o s i t i o nt ot h ec h i n e s ec h a r a c t e rr e c o g n i t i o nf o rt h ef i r s tt i m e 3 i nt h ef e a t u r ef u s i o n :t h es t r u c t u r a lf e a t u r eo ft h ec h i n e s ec h a r a c t e r sc a n 2 r e ,f l e c t i t s g l o b a lc h a r a c t e r i s t i c s ,a n dt h es t a t i s t i c a lf e a t u r ec a l l r e n e c ti t s1 0 c a l , c h 冀? p s t i n e r e 缅e ,t h i sp a p e r s e l e c t e ds e v e r a lc o m p l e m e n t a r yf e a t u r e so f t 1 1 ec l l i n e s ec h a r a c t e r s ,a i l dg a v et i l e 觚i 。ne x p e r i m e n t a t i 。nb a s e d 0 nt l l em s i 。n m e t l l o do fp r i n c i p a lc o m p o n e n t a n a l y s i s k q 啊。r d s :h a n d w r i t t e nc h i n e s ec h a 髓c t e rr e c 。g n i t i 。n ,t e a t l i r e e x t r a c t i o n , i g r s c h ,p r i n c i p a lc o m p o n e n ta n a l y s i s ,f e a t u r ef u s i o n - l ,r 盯 陀 盯 郐 d 翱 c n h帆胁 d w ,| u 臼毗咖 蚰先 a l ,i e u n m眦慨 n a g i邮雠溉脚砌雌 叩嘲洲善骜啷 砷 嘣 慧一 西南财经大学 学位论文原创性及知识产权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。因本学位论文引起的法律结果完全由本人承担。 本学位论文成果归西南财经大学所有。 特此声明 学位申请人:习锄钒罕 e ;月,胡 1 绪论 1 绪论 o c r 技术是光学字符识别的缩写( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) ,是通过 扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转 化为图像信息,再利用文字识别技术将图像信息转化为可以使用信息的计算 机输入技术。 文字识别技术是指用计算机自动、高速地辨识写在纸上的数字、英文符号 或汉字等字符。脱机手写体汉字识别是文字识别技术的最高峰,是模式识别 的一个重要分支,是新一代智能接口的一个重要组成部分【l 】。汉字识别技术, 涉及到模式识别、图像处理、数字信号处理、人工智能、统计决策理论、模 糊数学、信息论、计算机等学科,也涉及到语言文字学、心理学、生物学等, 是一门综合性技术。 1 1 研究的目的和意义 当今社会是一个资源高度共享、信息传播迅速的信息社会。随着经济的发 展,金融市场化进程日益加快,票据业务快速增大,票据数量与日俱增。其 中支票,发票,进账单等票据均需要处理大量的信息。而目前,票据录入仍 然依赖人工处理方式,因而使得票据管理工作也相对落后。如果能通过手写 体汉字识别技术来实现信息的自动录入,无疑会大大有利于解决传统人工处 理方式中存在的工作量大、成本高、效率低、时效性差等问题【2 】。因此,手 写体汉字的识别研究有着重大的现实意义和十分广阔的应用前景,一旦研究 成功并投入应用将产生巨大的社会和经济效益。汉字识别是一门多学科综合 的研究课题,是模式识别的热点和难点。它不仅与人工智能的研究有关,而 且与数字信号处理、图像处理、信息论、计算机科学、统计学、数学等都有 着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具,另一方面, 基于特征融合的脱机手写体汉字识别 它的研究与开发也必将促进各学科的发展。因而,汉字识别有着重要的理论 意义。 1 2 国内外研究状况和发展趋势 早在本世纪六十年代,人们就开始了对印刷体汉字识别的研究工作 3 】。 最早对印刷体汉字识别进行研究的是i b m 公司的c a s e y 和n a g y 4 】。1 9 6 6 年 他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1 0 0 0 个印刷汉字。 1 9 7 7 年,日本东芝综合研究所研制出能识别2 0 0 0 个印刷体汉字的实验装置; 1 9 8 3 年东芝研究中心又进行了对限制性手写体与印刷体汉字识别兼容的研究 工作。七十年代末,我国开始了对汉字识别的研究。1 9 8 5 年,南通电子所研 究出能识别两种字体1 8 0 0 个单字的识别方法;1 9 8 6 年,清华大学计算机系 和沈阳自动化所先后研究出能识别3 7 5 5 个印刷体汉字的实验系统:1 9 8 6 年 1 1 月,清华大学的朱夏宁等研究的能识别6 7 6 3 个印刷体汉字的汉字识别试 验系统通过了技术鉴定;1 9 9 2 年清华大学的许宁在博士学位论文中,提出了 一种基于人工神经网络方法的印刷体汉字识别方法【5 】。目前对于印刷体汉字 识别的研究工作己经趋于成熟,己有一些实用系统在市场销售。如清华文通、 曙光o c r 、汉王o c r 等。进入9 0 年代,国家教委基础研究与高科技司和 国家“八六三 高科技计划智能计算机主题专家组为了了解我国汉字识别的 水平,于1 9 9 1 年、1 9 9 2 年和1 9 9 4 年先后召开了三次汉字识别和汉语语音识 别评比研讨会。1 9 9 0 年以来,在“八六三 资金的支持下,通过检查、评测 以及在市场的激烈竞争中,我国的印刷体汉字识别系统的主要性能指标有了 新的突破,在商品市场中逐渐完善,识别系统进入大发展的阶段。而金融汉 字识别作为汉字识别的一个重要部分,在支票、发票等方面有着重要的应用 前景。 1 3 汉字识别理论和技术现状 目前我国汉字识别技术的研究正在逐步深入。印刷体汉字识别和联机手 写汉字识别技术正在实用中不断改进。而脱机手写汉字识别由于问题本身的 2 1 绪论 复杂性,目前基本上处于理论研究时期。目前国内外汉字o c r 技术发展的动 向主要在以下三个方面: 1 、版面分析与理解技术 对页面内图形,图像信息和它们结构关系的分析,识别和理解。采用自 底向上分析为主,结合自顶向下分析方法是当前版面分析技术的主流。 2 、单字识别器 ( 1 ) 用非线性整形变化方法对汉字字形进行规范化处理,减少汉字变形 程度,提高系统的识别率。 ( 2 ) 在统计决策,结构分析,人工神经网络等方法基础上,引入模糊理 论,采用模糊决策方法和模拟人认字的知识是有益的研究工作。 ( 3 ) 引入更多的新算法。自适应的改变识别策略,遗传算法优化特征等。 3 、识别结果后处理 利用人工智能技术,把单字识别和汉语文字方面的知识两者有机的结合 进行识别后处理。 1 4 汉字识别的问题和困难 和所有模式识别系统一样,汉字识别的主要性能指标是正确识别率、识 别速度。从实用角度看,还应考虑系统的复杂性、可靠性和价格对识别系统 识别率和识别速度的要求,很难有一种统一的、严格的标准,主要是根据实 际应用的需要来确定。但是,作为种输入手段,汉字识别系统的性能应该 和其它输入手段( 如人工键盘输入) 相比拟,在某些特殊的应用场合,对识 别系统的要求还应更高。 要达到上述要求是相当困难的,这是因为,从技术上讲,人们关于模式 识别的研究虽然已经有较长的历史,但迄今仍没有能够全面地适用于分析或 描述各种模式的严谨的理论。在研究某一种模式识别问题时,有的方法比较 巧妙,或者说,某种识别方法较符合被识别的模式集合的情况,因而得到较 好的结果,但是该方法应用于另一种模式集合却可能获得很不理想的结果, 因此,所研究的某一种方法往往因其只适合于某些限定的情况,而呈现出某 种局部最佳性而非全局最佳。从客观上说,汉字是一种特殊的模式集合,这 基于特征融合的脱机手写体汉字识别 种集合的模式种类( 汉字字数) 很多、结构复杂,而且有的模式十分相似, 加上印刷质量以及其它干扰因素的影响,人们在书写时的随意性、字形不够 规范等,都使正确识别十分困难。汉字识别的问题和困难,更大程度上体现 在汉字集合本身所固有的一些特点上【3 】。 第一,汉字字符集数量大。我们常用的汉字有3 0 0 0 - - - , 4 0 0 0 个,国标 g b 2 3 1 2 8 0 字库共有汉字6 7 6 3 个,但是受到识别方法的局限,对某一待识字 进行识别时,一般必须将该字和字典模式库中的字进行比较,找出其中最相 似的字。这样,对于大字符集的识别速度就必然较低。为提高速度,常采用 树分类,即多级识别方法,但相应地就会使识别率下降。这是正确识别率和 识别速度的矛盾,同时也是汉字识别的主要困难。 第二,汉字的字体多。印刷体有宋体、仿宋体、黑体、楷体等字体,手 写体则有楷书、行书和草书等三大类。对印刷体汉字,不同字体的同一个字 的字形点阵亦不相同;对于手写体汉字,这种差别就更大。因此,计算机进 行自动识别时,很难将不同字体的同一个字,用一个参考汉字来比较、判定, 这样,为适应对各种字体的识别就必然会使得汉字识别的字典模式库的规模 变得十分庞大。 第三,汉字结构复杂、字形相似。汉字笔划最多的有3 6 划,平均每个汉 字笔划为1 1 划。由于笔划多,所以有的汉字结构十分复杂,有的字虽然笔划 较少,但字形却十分相似,如“人、入 、“土、士 、“鸟、乌 、“己、已、 巳、乙 、“太、大、犬”等。这些字只有一点之差,或者某一笔划长短略有 差别,其意义就迥然不同。这些都是汉字识别方法的研究中必须考虑的。 第四,因不同人书写风格的差异造成手写汉字的变形很大,具体表现在 以下几个方面:( 1 ) 基本笔画变化。横不平,竖不直,直笔变弯,折笔的拐 角变成圆弧等。( 2 ) 笔画模糊,不规范,该连的不连,不该连的却相连。( 3 ) 笔画与笔画之间、部件与部件之间的位置发生变化。( 4 ) 笔画的倾斜角、笔 画的长短、部件的大小发生变化。对于脱机手写体汉字,不同人使用不同的 书写笔可能造成笔画的粗细变化。其中,手写汉字字形的变化是最难以解决 的问题。 4 1 绪论 1 5 手写体汉字识别的原理过程 不同的字符识别系统,在具体处理一幅待识别图像时,处理的步骤可能并 不完全相同。但是就一般情况看,一个完整的o c r 系统可分为原始图像获取、 图像预处理、特征提取、分类识别和后处理等模块 1 】【2 】 6 】如图1 1 所示: 1 5 1 原始图像获取阶段 i 原始图像获取 上 图像预处理 j 特征提取 i 分类识别 上 后处理 上 识别结果 图1 1 :o c r 识别的一般步骤 获取原始的字符图像是识别的第一步。通常采用光学的办法( 照相机,光 学扫描仪等) ,得到的图像是字符的像素描述。像素描述的重要参数是分辨率, 它包括空间( 二维平面) 分辨率和灰度分辨率,前者反映了像素描述在空间 上的精细程度,而后者则反映了像素描述在灰度( 色彩) 空间的精细程度。 由于空间分辨率的高低对字符识别影响较大,因此要认真选择。 1 5 2 图像预处理阶段 预处理阶段在实用系统中是一个很重要的阶段。预处理效果的好坏会直接 影响到整个字符识别系统的性能,其包含的内容非常广泛。一般而言,预处 基于特征融合的脱机手写体汉字识别 理包括二值化、去噪、形变反变换和尺寸规范化等步骤。预处理与特征提取 紧密相连,针对所取特征不能容忍的形变作相应的形变反变换。去噪是预处 理中极重要的一个环节。系统面对的是从实际环境中切分出的字符图像,可 能有粘连的边框、随机的墨点、切分不正确引入的其它字符笔画等使得前景 点增加的噪声,还可能有断线等使背景增加的噪声,目前适应各种环境的通 用去噪算法还不成熟。总而言之,预处理的目的是为了滤除噪声增强有用信 息、对退化的信息进行复原、二值化、从字符行与段中分割字符、对字符细 化以得到骨架、对字符规范化减少同类字符的差异等等。 1 5 3 特征提取阶段 特征提取是为了去除图像信息中对分类没有帮助的部分,将图像信息集 中到有代表性的几个特征上来的过程。选择稳定的、有代表性的特征往往是 一个识别系统成功的关键。按照统计的观点,好的特征提取方法必须满足三 个条件:一是提取的特征组相互独立或者互不相关;二是特征具有较小的类 内差异,而具有较大的类间差异;三是特征向量的维数尽量小。而在实际应 用中,寻找满足这三点要求的特征提取方法是一项富有挑战性的工作,也是 人们梦寐以求的。 大体而言,特征可以分成结构特征和统计特征两类。基于结构特征识别方 法的基本思想是把字符图像分割简化为若干基元,如笔画、拓扑点、结构突 变点等,与模板比较,检查必要的基元是否存在,不可有的基元是否出现, 从而判断所属的类别。而基于统计特征的识别是从原始数据中提取与分类最 相关的信息,使得类内差距极小化,类间差距极大化。特征应对同一类字符 的形变尽量保持不变。 1 5 4 分类识别阶段 分类识别作为字符识别的关键步骤之一,是指分类器依据特征提取阶段抽 取的特征,用事先得到的文法规则或决策函数对待识字符的类别做出判断。 获取文法规则或决策函数的过程称为训练或学习。训练或学习的过程既可以 6 1 绪论 由机器自动完成,也可以用手工方法进行,或两者结合。一般分类器可分为 模板匹配分类器、统计决策分类器( 含几何分类器) 、句法结构分类器、模糊 判决分类器、神经网络分类器和逻辑推理( 或人工智能) 分类器六种。另外, 人们在研究过程中已经发现,大多数情况下,单一分类器往往难以获得好的 分类结果,因此,构建一套多分类器系统的方法在实际应用中常被采用,用 来克服单独分类器中的某些限制和不足。一个多分类器系统依赖于参与分类 器的互补性和组合方法两个方面的因素。因此,这个领域的研究集中两个方 向上:如何设计多个互补的分类器;如何设计现有分类器的融合方式。 1 5 5 后处理阶段 有些时候,为了提高识别率,还要对分类器的输出结果进行后处理。后处 理阶段可能不是o c r 系统所必须的,但如果系统能利用上下文信息、语法及 逻辑,对识别的结果进行修正,往往能改善和提高系统的整体性能。后处理 可看作是分类器的补充。 1 6 本文的主要工作 本文针对脱机手写体汉字中的预处理、特征提取、分类识别等进行了研究, 完成了手写体汉字识别研究领域中的以下几个方面的工作: 1 、预处理在手写体汉字识别中占有重要地位。它包括二值化、平滑、细 化、规范化等。对手写体汉字进行非线性规范化,能有效地减少同类字符之 间的差异。本文讨论了手写体汉字的预处理方法,重点研究实现了几种非线 性规范化方法,并进行了实验比较。实验结果表明,非线性规范化方法比线 性规范化更能有效地减小同类字符之间的差异,更有效地提高了手写体汉字 的识别率。 2 、在特征提取方面:网格方向特征在手写体汉字识别系统中得到广泛应 用,被认为是目前较成熟的手写体汉字特征之一。网格技术和方向分解技术 是网格方向特征的两个关键技术。本文首先介绍了两种常用的方向分解方法: o r 方向分解和a n d 方向分解,并分别针对轮廓图像和细化图像应用这两种 7 基于特征融合的脱机手写体汉字识别 方向分解,最后使用弹性网格技术进行特征提取。 模糊网格技术在汉字识别系统中取得了很好的效果,本文实现了一种简单 加权方法和两种考虑周边邻域网格的加权方法:高斯加权和线性加权。实验 表明不同的加权在应用条件( 分类器,特征集等) 不同时,会表现出不同的 效果。 本文首次将k i r s c h 边缘梯度方向分解应用到汉字识别上,实验表明: k i r s c h 边缘梯度方向分解后的特征能更好的表达汉字的特性。比起传统的方 向分解技术,在识别率方面也得到一定的提高。 3 、在特征融合方面:网格方向特征及模糊网格特征都属于统计特征,不 能很好的反映汉字的结构信息。因此本文提取了几种与统计特征具有互补性 质的结构特征,并基于主成分分析的特征融合方法进行了融合实验,实验结 果表明:本文提取的几种特征融合后有更好的分类效果。 4 、最后,本文还对网格方向特征、模糊网格特征和融合后的特征进行了 整票识别的仿真实验比较。实验结果表明:融合后的特征具有更好的识别效 果。 1 7 本文的组织 本文分五章展开: 第一章为绪论部分,介绍了汉字识别的研究目的和意义、国内外研究现状 和发展趋势、识别理论和技术现状、问题与困难、识别的与原理过程等。 第二章介绍了汉字图像的预处理,包括:二值化、平滑、细化、规范化等。 重点介绍了几种常用的非线性规范化方法并进行了实验比较。 第三章为手写体汉字图像的特征提取与识别,包括:统计模式识别的基本 方法和识别技术、汉字的结构特征提取、汉字的网格方向特征提取、模糊网 格特征提取、k i t s c h 边缘梯度方向分解等。并给出了对应的仿真实验。 第四章为基于特征融合的识别,介绍了特征融合基本思想、主成分分析、 特征归一化等,并给出了仿真实验。 第五章为结论和展望。介绍了本文的主要结论和下一步的工作展望。 8 2 手写体汉字的预处理 2 手写体汉字的预处理 图像在扫描过程中会带来噪声,且不同的扫描分辨率所产生的图像质量 也各不相同,此外还需要处理整篇文档图像中字符的正确分割,并且由于分 割后字符的大小、字体都各不相同,因此还要对字符进行规范化。由此可见, 扫描图像预处理工作的好坏将会直接影响到识别的效果。在预处理过程中需 要解决的问题主要有图像二值化、平滑、细化、规范化等,不同的识别方法 对预处理的项目和要求有所差别。 2 1 图像二值化 在很多情况下图像是由具有不同灰度的两类区域组成的 2 】。例如,文字 扫描图像中的文字笔画和纸张在灰度图上就表现出两种不同范围的灰度。所 谓图像的二值化就是指通过设定阈值( t h r e s h o l d ) ,把它变为仅用二值分别表 示前景和背景颜色的图像。图像的二值化可以根据下面的阈值来处理:假设 一幅原始图像的像素值p ( i ,j ) 的取值范围为 o ,m 】,那么设有一阈值为t = t , o t m ,则映射成新的二值图的像素值p ( i ,j ) 为: p u = l ,雾粥乏; 所以可以说二值化就是一个带阈值t 的二值映射过程,其效果的关键在 于阈值t 的选取。有的应用可以由计算机自动选取,有的则需要人工干预, 所以阈值t 的选取视应用范围而有所不同。比如,对于表格检测和校正来说, 关键是保留各种兴趣线框的二值信息;而对于字符识别来说,则只需保留文 字特征的二值信息即可。目前,众多学者已经对此进行了比较详细的研究, 并提出了许多阈值选取算法,这些算法大体上可以划分为三类,即整体阈值 法,局部阈值法和动态阈值法。 9 基于特征融合的脱机手写体汉字识别 2 2 1 整体阈值法 整体阈值法,又称全局阈值法。仅由像素点( i ,j ) 的灰度值p ( i ,j ) 确定阈值 的方法称为整体阈值选择法。阈值t 表示为:t = t p ( i ,j ) 】。典型的阈值选取 算法有直方图法【9 】 1 0 】,o s t u 法( 大津法) 【1 1 ,以及熵阈值法 1 2 1 3 1 等等。 一般地,如果图像的灰度直方图呈现双峰,或者图像中背景灰度与目标灰度 呈明显分离状,整体阈值法分割图像效果良好且速度快。 2 2 2 局部阈值法 由像素( i ,j ) 的灰度值p ( i ,j ) 和像素周围点的局部灰度特性确定阈值的方法 称为局部阈值法。阈值t 可表示为:t = t p ( i ,j ) ,n ( i ,j ) 】,不同的局部阈值法 源于n ( i ,j ) 的不同选择。对于书写质量差,干扰较严重的字符,采用整体阈值 法二值化,效果不太理想时,局部阈值法有可能得到较为满意的二值化结果。 2 2 3 动态阈值法 当阈值选取不仅取决于该像素阈值以及其周围各像素的灰度值,而且还和 该像素坐标位置有关时,称之为动态阈值法。阈值t 可表示为:t = t p c i ,j ) ,n ( i , j ) ,p ( i ,j ) 。这种方法可以处理低质量甚至单峰直方图图像。对文字图像而言, 由于笔画和背景的区分比较明显,并且动态阈值法计算时间长,因此,在文 字识别中很少采用。 2 2 图像的平滑 平滑处理,就是将一个n x n 的像素窗口,依次在二值化字符图像的每个 像素点上移动,利用逻辑表达式来消除孤立像素的一种技术 2 】。汉字字符图 像经过平滑处理,能去掉孤立的噪声、干扰,平滑笔画边缘。 进行图像平滑处理的是一种空域滤波器( 或空间滤波器) ,它用来减弱或 消除傅立叶空间的高频分量,而不影响低频分量,所以又称低通滤波器。高 1 0 2 手写体汉字的预处理 频分量对应图像中的区域边缘等灰度值既有较大较快变化的部分,滤波器将 这些分量滤去可以使图像平滑。空域滤波器一般可分为线性滤波和非线性滤 波两类 1 4 】。线性滤波的设计常基于对线性变换的分析,如均值滤波;非线性 滤波则一般直接对邻域进行操作,如中值滤波。 为了便于计算机处理,空域滤波器基本上都利用了模板卷积运算,主要 步骤是:( 1 ) 定义一块n x m 大小的模板:( 2 ) 将模板在点阵图像中平移, 并将模板中心与图像中某个像素位置重合;( 3 ) 将模板中对应位置上的像素 按照某种变换( 线性或非线性) 规则求得的结果;( 4 ) 将此结果赋给模板中 心位置对应的像素上。 字符图像经过平滑处理,能去掉孤立噪声和一些干扰,平滑笔划的边缘。 常用的在字符识别系统中的平滑方法有:( 1 ) 均值滤波方法;( 2 ) 中值滤波 方法;( 3 ) u n g e r 平滑【1 5 】算法。一般在较小的字符图像平滑操作时选用3x 3 的平滑模板。 ( 1 ) 均值滤波是一种典型的线性滤波方式。它将图像上的一点p ( i ,j ) 按 照式( 2 2 ) 计算设定区域( 如3x3 维平滑模板) 中的代数和f ( i ,j ) 。 f ( i ,) = 。p ( i + m ,_ ,+ 阼) ,( 小,n = - i ,0 ,1 ) 最后,像素点( i ,j ) 的值由p ( i ,j ) = f ( i ,j ) n 得到,其中n 是平滑模板的维数。 一般经过均值滤波后,根据后续处理的需要,可以重新将新的像素值映射成 灰度值或二值。 ( 2 ) 中值滤波是一种典型的非线性滤波方式。所谓中值滤波就是对当前 像素点对应的设定区域中的像素值按大小排序,取中间值作为当前像素点的 值。例如,设定一个3x3 的中值平滑模板,那么当前像素点p ( i ,j ) 的新值p ( i , j ) 则可以按n ( 2 - 3 ) 式来计算: x = p ( f + m ,j + 1 1 ) im ,刀= - 1 ,0 ,1 ) p ( f ,j ) = r n e d i a n ( x ) 其中,m e d i a n ( x ) 表示对集合x 取中值。 ( 3 ) u n g e r 平滑:u n g e r 于1 9 5 9 年提出了一种对二值图像的平滑算法【1 5 】。 假设3 3 窗口矩阵如下, 基于特征融合的脱机手写体汉字识别 i 玛 他 碍i 匕三:jl 传 心 坞j 其中p 为当前点,甩o 玎7 为其八个邻接点,平滑准则为: , ( 1 ) 当p 为白时,1 1 4 、7 1 2 、n o 和r t 6 中至少3 个像素为黑,则将p 改成黑, 否则p 不变。这时p 可用逻辑值表示为: p = n - 2 n 6 ( n o + n 4 ) + n o n 4 ( t h + ) ( 2 ) 当p 为黑时,若1 1 4 、1 1 3 、r 1 2 中至少有一个为黑,且i 1 6 、刀7 、r t o 中至 少也有一个为黑,则p 不变,否则改为白点。这时p 可用逻辑值表示为: p = ( ,z 2 + 传+ n 4 ) ( n o + n 64 - 伤) + ( + + ,z 2 ) ( - i - 愧十) 2 3 图像的细化 许多汉字识别方法在预处理中都很重视对二值化图像的细化处理 【3 】 1 6 】【1 7 】。直观讲,细化就是将二值化图像点阵逐层剥去轮廓边缘上的点, 变成笔划宽度只有一个像素的汉字骨架图形。在二值化点阵图像中,对识别 有价值的汉字特征信息主要集中在汉字骨架上,细化后的汉字骨架即保留了 原汉字绝大部分特征,有利于特征提取。细化后骨架的存储量比原汉字二值 化点阵要少得多,降低了处理工作量。遗憾的是细化往往会造成新的畸变, 增加了对识别的干扰和困难,细化本身也要花费不少时间。 汉字细化的基本要求如下: ( 1 ) 要保持原有笔划的连续性,不能由于细化造成笔划断开; ( 2 ) 要细化为单线,即笔划宽度只有一个像素; ( 3 ) 细化后的骨架应尽量是原来笔划的中心线; ( 4 ) 要保持汉字原有特征,即不要增加,也不要丢失。对汉字细化,要 求保持笔划特征,而笔锋等最好细化掉; 细化的算法很多,大体可以分类如下: 按细化后图像的连续性分,有4 邻连接算法、8 邻连接算法和混合连接算 法。4 邻连接指的是水平垂直四个方向上的连接,8 邻连接则再加上正反4 5 度方向。共八个方向上的连接。 1 2 2 手写体汉字的预处理 按细化处理过程分,有串行、并行和串并行处理。用m 1 1 ( 一般为3 3 ) 窗口对某一像素进行检测时,如该点为可删除点,立即删除,则为串行细化 处理。它的删除要影响到后续点的检测;如对边缘点全部检测完毕后,在同 时改变所有可删除点的值,则为并行细化处理;串、并行处理是两者的混合。 按处理方式分,有单方向,双方向和四方向( 即一次完成轮廓剥离) 。越 是方向多的细化处理方式,细化的速度愈快。 无论采用哪种算法,汉字点阵细化后都会对笔划结构产生不良影响。主要 影响有:交叉笔划畸变、转折处出现分叉笔划、失去短笔道、笔划合并等。 2 4 图像的规范化 规范化处理是手写体汉字的预处理中的重要环节 6 】 1 8 】【1 9 】。从大的方面 来讲,手写体汉字的规范化处理可以分为线性规范化和非线性规范化。线性 规范化的目的是通过统一字符图像尺寸、纠正字符字形、对文字笔画粗细归 一化等方法来消除由于人手写汉字带来的字体变形、笔划失真等因素,为进 一步的特征提取奠定良好的基础。 2 4 1 线性规范化 线性规范化将文字图像按比例线性放大或缩小为要求的统一尺寸,算法简 单,可以保持原有手写汉字的形状和特征,失真较小,但是无法调整手写汉 字的重心位置、笔划密度。其规范化公式可表示为: 防暖 其中,g ,j ,) 为原图像上某点的坐标, 对应的坐标。 2 4 2 非线性规范化 + 经线性规范化后,在新图像上 与线性规范化不同,非线性规范化强调按照手写汉字的特征分布来处理, )为 x y 卜 y 一、 , 1 2 x,们蛇g 基于特征融合的脱机手写体汉字识别 调整汉字的重心位置,削弱那些较长、较粗的笔划段,增强一些较短、较细 的笔划,或者是突出汉字笔划密集的区域,压缩笔划分散的区域等。具体可分 为:基于点密度均衡的非线性规范化方法、基于笔画穿透数目均衡的非线性 规范化方法、基于笔画间隔均衡的非线性规范化方法、基于线密度均衡的非 线性规范化方法。 假设手写汉字的二值图像为f ( x ,y ) ,z = 1 , 2 ,x ,y = 1 , 2 ,y ,规范化后 的图像为g ( x ,y ) ,m = 1 , 2 ,m ,刀= 1 , 2 ,n 。由于各种非线性规范化的共同点 在于它们都是基于密度均衡来进行规范化处理的,为了对比方便,我们设 日( x ) ,x = 1 , 2 ,x ,和y ( y ) ,y = 1 , 2 ,y ,分别为沿水平方向和垂直方向上 的特征投影函数。 2 4 2 1 基于点密度均衡的非线性规范化方法 该方法是利用汉字的水平、垂直方向的投影信息,特征投影函数选取的就 是汉字( 假设汉字图像中0 表示背景点,1 表示笔划点) 的水平、垂直投影, 通过对投影特征的均衡处理,使得原本分布不均匀的投影密度函数均匀化, 实质上是将手写汉字的重心位置调整到汉字点阵的中心。 y 日( x ) = f ( x ,y ) + 口 j ,= l z y ( y ) = f ( x ,y ) + 口矿 x = l 式中,口,铆分别表示在两个方向上的调整参数,一般情况下,它们的 取值为0 。 规范化后图像的位置为: j m = h ( i ) x m 日( f ) t = lt = l vy 以= v u ) x m y ( _ ,) 1 4 2 手写体汉字的预处理 2 4 2 2 基于笔画穿透数目均衡的非线性规范化方法 该方法是对汉字图像进行水平和垂直扫描,并统计扫描线上的笔画穿透数 目。定义汉字中某一点在水平方向上,从前向后扫描过程中出现0 1 的个数为 该点在水平方向上的笔画穿透数目h ( x ) ,同样地,该点在垂直方向上从上向 下遍历,累计出现0 1 的次数就得到垂直方向的笔画穿透数目v ( y ) ,特征密度 均衡函数表达式如下: 日( x ) = 7 丽f ( x ,y ) + 口日 y = l y ( y ) = 7 i 而厂( z ,y ) + 口矿 x = l 式中,口圩,铆的含义和上述方法相同,是用来调整分布函数的参数,一 般也取零。在图像的上边界外和左边界外的超界像素值定义为0 ,f ( x ,y ) 表 示对( x ,y ) 的值取逻辑反。 规范化后的图像点的位置( m ,n ) 为: xx 朋= h ( i ) x m 日( f ) j = li = l yy 刀= v ( y ) x m 矿( ,) 2 4 2 3 基于笔画间隔均衡的非线性规范化方法 t s u k u m o 和t a n a k a 2 0 提出了基于笔画间隔均衡的非线性规范化方法。该 方法同时考虑笔画像素点及背景空白点,并区别对待,给予不同的密度值。 每一像素点具有水平密度乃( f ,_ ) 和垂直密度毋( f ,- ,) 两种,即: 基于特征融合的脱机手写体汉字识别 啪,护j 志州,舻。 【s h f ( i ,歹) = 1 删,= 黟毙篙 其中,s h ,s v 为很小的常数,手写汉字图像中任意一点处的水平、竖 直方向上的线间隔办( f ,j f ) ,v ( f ,_ ,) 分别为背景空白点( f ,j f ) 处进行水平和垂直扫 描所得的空白扫描段的最大长度。特征密度均衡函数表示为: y 日( x ) = 乃( x ,y ) + y = l x y ( y ) = 昂( x ,y ) + c t 矿 2 4 2 4 基于线密度均衡的非线性规范化方法 该方法是一种结合汉字局部信息和二维属性的处理方法,原理是使汉字点 阵中笔划复杂的部分相对于笔划简单的部分被放大,例如,写得过长或孤立 的长笔划被压缩变短,从而使笔划的形状和分布更加均匀合理 2 1 】。基本思路 就是将汉字点阵分成形状与大小各异的网格,对区域内的点重新采样。这一 方法的关键就是定义汉字图像中任意一点处的线密度。 对点( x ,y ) ,该点处的密度函数d ( x ,y ) 定义如下:假设从点( x ,y ) 出发,沿 水平轴方向向两侧遍历时相遇笔划的右边界为厶和厶,左边界为厶和厶,其 中厶和厶在点( x ,y ) 的左边,而厶和厶在点( x ,y ) 的右边( 厶厶中可能出现 不存在的情况) : 厶= m a x y i y y ,f ( x ,y ) 厂( x ,y + 1 ) = 1 ) 、 厶= m i n y i y y ,f ( x ,y ) f ( x ,y + 1 ) = 1 ) 上3 = m a x y i y y ,f ( x ,y 一1 ) 厂( x ,y ) = 1 ) 厶= m i n y i y y ,f ( x ,y - 1 ) f ( x ,y - ) = 1 ) 根据厶厶的存在情况和它们的值可以计算在点( x ,y ) 处沿水平方向的 1 6 2 手写体汉字的预处理 线间距l n : l n = 4 w 2 形 2 形 2 厶一厶 三2 一1 ( l 2 - l 1 + l 4 - l 3 ) 2 ( c )厶厶均无定义 ( 6 ) 仅厶和厶无定义 ( b )仅岛和厶无定义 ( 门仅厶和厶无定义 ( p )仅厶无定义 ( p )仅厶无定义 ( 口) ( d )其他 同理可定义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论