




已阅读5页,还剩52页未读, 继续免费阅读
(检测技术与自动化装置专业论文)汉字图像识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汉字图像识别研究 摘要 汉字图像识别是计算机视觉与模式识别技术的重要应用领域。近 年来,围绕汉字图像识别的研究已取得很多重要进展。但如何提取弓 类别密切相关的汉字图像特征,获得尽可能高的互信息熵仍是汉字识 别的重点和难点,因此特征的准确提取与识别是汉字识别研究首先关 注的问题。 论文涉及以下几个方面工作: 1 、汉字识别特征的提取。研究了如何从汉字图像中提取横、竖、 撇、捺等笔划特征信息,提出了汉字笔划的两种提取方法:1 ) 提出了 一种基于数学形态学的图像汉字笔划细化和提取方法。根据汉字的结 构特点,研究制定了一组新的图像汉字笔划细化的结构元素序列,不 仅有效地抑制样本汉字细化后笔划的扭曲和歪斜,而且保持了原样本 图像汉字的连通性和拓扑性的骨架。在此细化的结果基础上,定义了 一种基于边缘检测的新的汉字笔划提取算法。2 ) 提出了基于g a b o r 滤 波器的笔划提取算法。针对g a b o r 滤波器在纹理图像的识别方面能起 到仿人视觉识别的特性,利用g a b o r 滤波器在时域中的方向性,分别 在0 、4 5 、9 0 、13 5 度方向进行滤波得到四幅灰度子图像,再对四幅灰 度子图像采用自适应算法和最优阈值算法进行二值化。两种方法均能 提取出横、竖、撇、捺四个方向笔划的形状、形态、形式等结构和统 计信息,效果良好。 2 、汉字特征模型的建立和汉字图像的编码。在基于汉字特征的可 识别性和可提取性基础之上,提出了选用笔划作为基元,采用先结构 特征后统计特征的识别方法,运用模糊数学定义了汉字图形的笔划形 态、形式、位置、长度等特征信息,并以此为基础构建一套新的汉字 图形的特征模型和编码方法。 3 、汉字图像的识别算法。围绕该汉字结构模型和编码方法,采用 冒泡算法对提取出的待识别的汉字特征进行隶属度排序,建立了一套 有效的识别算法。最后,给出了一种基于汉字图形轮廓特征的误差估 计方法,并利用误差估计初步建立了套带有反馈的汉字识别系统。 关键词:汉字识别,特征提取,数学形态学,g a b o r 滤波器,模糊数 学,冒泡排序法 r e s e a r c ho nc h i n e s ec h a r a c t e r i m a g er e c o g n i t i o n a b s t r a c t t h er e c o g n i t i o no fc h i n e s ec h a r a c t e r si sa ne s s e n t i a la p p l i e df i e l do f c o m p u t e rv i s i o n a n dp a t t e r n r e c o g n i t i o nt e c h n o l o g y r e c e n t l y ,m u c ha s t h ep r o g r e s so fc h i n e s ec h a r a c t e r sr e c o g n i t i o nh a sb e e nm a d e ,t h e r es t i l l e x i s td i f f i c u l t p o i n t s o i lh o wt h e c l a s s i f y r e l a t e di m a g e f e a t u r ei s e x t r a c t e da n dm u t u a l - i n f o r m a t i o n e n t r o p y o b t a i n e d t h ea c c u r a t e e x t r a c t i o na n dr e c o g n i t i o no ff e a t u r ei ss t i l lt h em o s ti m p o r t a n tt h i n g si n t h er e c o g n i t i o no fc h i n e s ec h a r a c t e r s t h ef o l l o w i n ga r et h em a j o rc o n t e n t si nt h et h e s i s : l 、t h ee x t r a c t i o no fc h i n e s ec h a r a c t e r sr e c o g n i t i o nf e a t u r e s t u d i e s o nh o wt h es t r o k ef e a t u r ei n f o r m a t i o no f h o r i z o n t a l ,r i g h t d i a g o n a l , v e r t i c a la n dl e f t d i a g o n a li se x t r a c t e df r o mc h i n e s ec h a r a c t e r si m a g et w o a p p r o a c h e sa r ep r o p o s e dh e r e :1 ) c h i n e s ec h a r a c t e r ss t r o k et h i n n i n ga n d e x t r a c t i o nb a s eo nm a t h e m a t i c a l m o r p h o l o g y 2 ) s t r o k e e x t r a c t i o n a l g o r i t h ma p p r o a c hb a s e d o ng a b o r f i l t e r i n g t h es t r u c t u r ei n f o r m a t i o no f h o r i z o n t a l ,r i g h t - d i a g o n a l ,v e r t i c a l a n d l e f t - d i a g o n a lc a nb ea c c u r a t e l y e x t r a c t e df r o mt h eo r i g i n a lc h i n e s ec h a r a c t e r sb yt w oa p p r o a c h e s 2 、t h ec o n s t r u c t i o no ff e a t u r em o d e la n dt h ec o d e a p p r o a c h f o r c h i n e s ec h a r a c t e r s an o v e ls e to fc h a r a c t e r sf e a t u r ea n dc o d ea p p r o a c hi s c o n s t r u c t e d ,w h i c hi s b a s e do nt h e r e c o g n i z a b l y a n de x t r a c t a b l eo f c h i n e s ec h a r a c t e r sf e a t u r e ,b ys t r o k ew h i c hi ss e l e c t e da sb a s i cu n i ta n d t h es u c c e s s i v e l ys t r u c t u r a la n ds t a t i s t i c a le x t r a c t i o na p p r o a c h ,i n c l u d i n g t h ef e a t u r ei n f o r m a t i o no fs t r o k ew h i c hi sd e f i n e db yf u z z ym a t h e m a t i cs 3 、c h i n e s ec h a r a c t e r s r e c o g n i t i o na l g o r i t h m a c c o r d i n g t ot h e s t r u c t u r em o d e la n dc o d e a p p r o a c h ,a s e to fe f f e c t i v e r e c o g n i t i o n a l g o r i t h mi sc o n s t r u c t e db yt h eb u l ba l g o r i t h mt os u b o r d i n a t e l yp e r m u t e t h ec h a r a c t e r sf e a t u r e a tl a s t ,as e to fc h i n e s ec h a r a c t e r s r e c o g n i t i o n s y s t e m w i t hr e a c t i o na r e c o n s t r u c t e d ,b a s e d o na n d u s i n g t h ee r r o r e s t i m a t i o na p p r o a c ho fc h i n e s ec h a r a c t e r so u t l i n e sf e a t u r e k e y w o r d s :c h i n e s ec h a r a c t e r s r e c o g n i t i o n ,t h e f e a t u r e e x t r a c t i o n , m a t h e m a t i c a lm o r p h o l o g y ,g a b o rf i l t e r ,f u z z ym a t h e m a t i c s , b u l ba l g o r i t h m 合肥工业大学 本论文经答辩委员会全体委员审查,确认符合合肥工 业大学硕士学位论文质量要求。 答辩委员会签名:( 工作单位、职称) 捧幽劬蹴碡撒 委员:、 侮7 协。七、 滕趁 磅 敛 噶说雹 劬灰7 峄d - 、f 教守交 f , 、, 到弘技 聊:穗季缸彬靠勰 独创性声明 本人声明所争变的学位论文是本人在导师指导f 进行的研究工作及取得 朗研究成果。据我所知,踪了文巾特别加蹦标注和致谢的地方讣,论文中不色 肯其他人已经发表或撰写过的研究成果,电不包含为款得 佥胆王些友堂 或其他教育机构的学位或证5 而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中什了明确的说明并表示谢意。 j 月讶日 学位论文作者虢俄坼签字日期瓣 学位论文版权使用授权书 本学位论文作者完全了解垒妲王些厶堂有关保留、使用学位论文的规 定,有权保留井向国家有关部门或机构送变论文的复印件和磁盘,允许论文被 查阅和借阅。木人授权盒筵些盘堂:可以将学位论文的全部或部分内容编入 有关数据库进行榆索可以采用影印、编印或扫描等复制手段保存、汇编学位 论义。 ( 保密的学位论文在解密后适用本授权书) 学位论文作名签名 凇孵 签字日期:沁年了月研日 日 学位论文作者毕业后去向 工作单位; 通讯地址: 导师签名 捷 j 签字口期:瓣r 月巧咎 屯话 邮编 致谢 本文的主要工作是征我的导师王建平教授的悉心指导下完成 的。王老师严谨的治学态度,求实的科学精神、敏锐的学术思维, 以及对学牛的殷殷教诲勺激励,使我受益匪浅终身难忘。在此 对王老师三年来的辛勤培养致以诚挚的感谢! 同时,也要感谢王 老师在生活上对我的关心、理解和帮助! 衷心感谢合肥t 业大学智能控制研究所的王金玲老师、罗国 军老师、穆道明老师、郑洁老师给我的学爿和生活上的无私帮助。 感谢同窗女r 友赵锐、吴杰、马有花、张建、麻芳义和袁潜同 学,和你们一起度过的时光将是我人生的美好回忆;在实验帘期 间,得到了秦剑、王竹林、杨静同学存学习和生活上热情关心和 无私帮助,在此向他们表示衷心感谢:感谢同实验室的赵莉、赵 丽欣、蔺菲、郭之辉、陈军、丘志刚、黄冉、季学锋等同学的关 心和帮助。 感谢我的父母和爷爷、奶奶。焉得谖草,言树之背,养育之 恩,无以回报。你们永远健康、快乐是我最大的心愿。 最后,我要感谢我的妻了郭营在事业和生活上始终给予的支 持和无微不至的关怀! 作者:钱自拓 2 0 0 5 年5 月 第一章绪论 汉字识别技术是种高速、自动的信息录入手段,成为未来计算 机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等 领域的理想输入方式,有着广泛的应用前景。 由于汉字的数量浩大,使用汉字达到万余字( 国家标准g b l8 0 3 0 中共有2 7 4 8 4 个汉字) ;结构繁杂、变化多端、使得解决汉字的自动输 入问题要比西方的少量字符拼音文字的自动输入问题要艰巨的多。印 刷文字有不同字体,不同大小之分;手写汉字的书写更是因人而异, 因时而变,形态变化十分巨大,如何解决好这样一种完全有别于西方 文字的超多类的,变化多端的模式识别问题需要从理论和方法上加以 研究。 1 1 汉字图像识别研究的发展历程1 1 1 2 】【3 1 1 4 文字识别很早就是人们的梦想,早在l9 2 9 年,t a u s h c k 就在德国 获得了一项有关o c r ( 0 p t i c a lc h a r a c t e i - r e c o g n i t io i l ) 的专利。欧美 国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报 表等文字乖j 料输入计算机进行信息处理,从5 0 年代就开始了西文o c r 技术的研究,以便代替人工键盘输入。汉字的识别最早可以追溯到6 0 年代,1 9 6 6 年,i b m 公司的c a s e y 和n a g y 利用简单的模板匹配法识别 了1 0 0 0 个印刷体汉字。7 0 年代以来,日本学者做了许多工作,其中 有代表性的系统有1 9 7 7 年东芝综合研究所研制的可以识别2 0 0 0 汉字 的单体印刷汉字识别系统;8 0 年代初期,日本武藏野电气研究所研制 的可以识别2 3 0 0 个多体汉字的印刷体汉字识别系统,代表了当时汉字 识别的最高水平。此外,日本的太平洋、松下、理光和富士等公司也 有其研制的汉字识别系统。这些系统在方法上,大都采用基于k l 数 字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机 甚至大型机,价格极其昂贵,没有得到广泛应用。我国对汉字识别研 究工作始于七十年代末,其研究工作大致可以分为三大阶段: 第一阶段从7 0 年代末期到8 0 年代末期。这一阶段主要研究的是 汉字识别的算法和方案,研究人员提出了用于汉字识别的各种方法和 特征,如特征点方法、汉字周边特征、汉字的结构元特征等,并在此 基础上研究成功一批汉字识别系统,其中比较突出的有清华大学电子 工程系研制成功的清华多字体印刷汉字识别系统,沈阳自动化所研制 的沈阳印刷汉字识别系统和北京信息工程学院研制成功的北信单体印 刷汉字识别系统。这一阶段是印刷汉字识别成果倍出的时期。但是, 这些成果还仪仅处于实验室阶段,没有转化为产品来实际解决印刷汉 字的自动输入问题。 第二阶段是九十年代初期开始,汉字o c r 技术进入了一个重要、 蓬勃发展的时期即将实验室的研究成果推向市场,推向实用,在实际 的汉字识别输入应用条件下,检验和考查这些研究成果。而个汉字 识别能否通过这一严峻的考验,并进一步发展,取决于两个重要因素: 1 ) 识别方案本身是否具有足够的抗干扰能力,以适应实际应用环 境中各种干扰噪声的影响,保持较高的识别正确率,满足实际 应用的要求。 2 ) 识别系统是否可以根据用户的要求、市场的需要,不断及时地 改进系统的性能指标和使用环境,从而在激烈的市场竞争中取 得一席之地。 印刷体汉字识别系统的研究还要解决好实用汉字识别系统所必须 解决的一些问题,如版面的自动分析、行字切分、人机界面和良好的 应用环境等等。这一阶段,形成了一些初步实用的印刷体汉字识别系 统开始进入市场。典型的系统有:清华大学电子工程系完成的清华 o c r ( t h o c r ) ,北京信息工程学院完成的北信o c r ( b i o c r ) 和沈阳自动 化所完成的沈阳o c r ( s y - o c r ) 。其中清华o c r 以其较高的性能和良好 的使用环境,颇受用户欢迎。 九十年代计算机硬件资源发生了巨大的变化,为手写体汉字识别 提供了相对充分的研究环境。更为重要的是,从8 0 年代开始,汉字 o c r 的研究开发就一直受到国家“8 6 3 计划”的很大资助,人而促进了 许多o c r 重大成果的获得。特别是在手写体识别方面。大量有关手写 体o c r 方面的论文和系统开始出现。到了1 9 9 2 年后,一些手写体汉字 识别系统逐渐向实用化发展。 1 2 汉字图像识别方法分析【5 l 6 1 1 7 1 1 8 1 1 9 1 1 1 2 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又 可以选择不同的特征,每种特征又有不同的抽取方法,这使得判别方 法和准则以及所用的数学工具不同,形成了种类繁多,形式特别的文 字识别方法。用于汉字识别的模式识别可以大致分为4 类:第1 类是 基于汉字结构的方法,第2 类是基于统计的方法,包括传统的海量样 本搜集法、多特征集成法和非线性规一化法等;第3 类是基于人工神 经网络的识别方法;第4 类是结构与统计相结合的识别方法;此外一 些基于仿人视觉的识别方法也逐渐兴起。 12 1 结构模式识别方法 结构模式识别理论在2 0 世纪7 0 年代初形成,是早期汉字识别研 究的主要方法。其思想是直接从字符的轮廓或骨架上提取的字符像素 分布特征,如:笔画、圈、端点、节点、弧、突起、凹陷等多个基元 组合,再用结构方法描述基元组合所代表的结构和关系。通常,提取 笔段或基本笔划作为基元,由基元组合及其相互关系完全可以精确地 对汉字加以描述,最后利用形式语言及自动机理论进行文法推断,即 识别。结构模式识别方法的主要优点在于对字体变化的适应性强,区 分相似字的能力强;缺点是抗干扰能力差,从汉字图像中精确的抽取基 元、轮廓、特征点比较困难,匹配过程复杂。因此,有人采用汉字轮 廓结构信息作为特征,但这一方案需要进行松弛迭代匹配,耗时太长, 而且对于笔画较模糊的汉字图像,抽取轮廓会遇到极大困难。也有些 学者采用抽取汉字图像中关键特征点来描述汉字,但是特征点的抽取 易受噪声点、笔画的粘连与断裂等影响。总之单纯采用结构模式识别 方法的脱机手写汉字识别系统,识别率较低。 1 2 2 统计模式识别方法 统计模式识别方法是用概率统计模型提取待识别汉字的特征向 量,然后根据决策函数进行分类,识别就是判别待识别汉字的特征向 量属于哪一类。常用的判别准则是距离准则和类似度准则,典型的统 计模式识别方法有最小距离分类、最邻近分类等。 1 2 3 神经网络方法 h o p f i e l d 神经网络、a r t 网络、认知器模型等神经网络模型可用 于文字识别。这些方法主要应用于特征抽取与选择、学习训练及分类 器的设计、单字识别后处理等几个方面。与统计方法相比,神经网络 与模型无关,具有能够通过调整使得输出在特征空间中逼近任意目标 的优点。但关于神经网络的数学解释很复杂,试验工作量很大。将神 经网络方法和传统的识别方法结合起来使用,可以互相取长补短。 1 2 4 结构与统计相结合模式识别方法 统计模式识别方法具有较好的抗干扰抗噪声的能力,但对汉字结 构的差异区分能力较弱,而结构模式识别方法对结构特征较敏感,区 分相似字的能力较强。在实际应用中。统计模式识别方法与结构模式 识别方法通常结合使用。在特征抽取过程中,抽取能反映汉字结构信 息的统计特征。在识别过程中 方法进行细分类来区分相似字 研究方向。 1 ,2 5 仿人视觉的识别方法 先用统计方法进行粗分类,再用结构 这是近年来文字识别领域的一个重要 除此之外,利用人的视觉特性,对原始图像进行一定处理后进行 特征提取,也是有效的特征提取方法。人类的视觉感知始终是计算机 视觉研究追踪的目标,模仿人类视觉特性对原始图像的处理无疑是十 分吸引人的。如有的研究已经证明,人类在抽取低层次视觉特征时, 其视皮层简单细胞对图像信号的响应与二维g a b o r 滤波器及其相似。 利用g a b o r 变换可达到空域和频域的最佳联合清晰度,和对噪声,小 位移,旋转和尺度变化的不敏感性,对原始文字图像进行了g a b o r 变 换处理进行的特征提取的研究和实验结果说明,在对扶度图像上汉字 的识别,包括对于手写汉字的识别,都获得了极高的抗干扰和鲁棒性。 1 3 汉字图像识别原理分析1 6 1 1 7 1 1 8 l f 9 1 1 1 0 1 1 “ 汉字识别属于模式识别的研究范畴。汉字识别技术涉及数字图像处 理、模式识别、人工智能、模糊数学、组合数学、心理学等多个学科, 是一门综合的技术。其实质是解决文字的分类问题,一般通过特征辨 别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可 以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体 上可分为单体印刷体汉字识别( p r i n t e d c h a r a c t e rr e c o g n i t i o n ) 与多体印 刷体汉字识别( m u l t i f o n tp r i n t e d c h a r a c t e rr e c o g n i t i o n ) ;手写体汉字识 别根据实时性又可以分为联机手写体识别( o n 1 i n eh a n d w r i t t e n c h a r a c t e rr e c o g n i t i o n ) 和脱机手写体识别( o f f - l i n eh a n d w r i t t e nc h a r a c t e r r e c o g n i t i o n ) 。印刷体汉字识别的原理如图1 所示。印刷在纸张上的汉 字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入后得到灰度 图像( g r a y s c a l ei m a g e ) 或者二值图像( b i n a r yi m a g e ) ,然后利用各种 模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进 行匹配判别,从而达到识别汉字的目的。印刷体汉字识别技术包括预 处理、特征提取、识别和后处理四个步骤。 1 3 ,1 预处理 由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存 在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。 因此,在对原始图像进行识别处理之前,尽可能将干扰因素影响降低, 4 是非常有必要的,也就是要先对原始采样信号进行预处理。预处理通 常包括图像二值化、字符切分、平滑化( 去噪) 、归一化等方面。 1 3 2特征提取 汉字识别中的关键问题之一就在于怎样快速地抽取能充分描述汉 字模式地稳定可靠地特征,良好的特征应该使一种汉字的不同书写样 本之间的差异性尽可能小,而在不同汉字之间的差异性尽可能大。与 其他模式识别问题不同的是,我们能准确地知道哪些特征能够将不同 的汉字区别开来。但是,由于在汉字图像处理过程中的困难,使得我 们无法得到所需的所有特征。因此就要研究哪些特征比较具有分类价 值,同时又比较容易通过程序计算得到。在寻找汉字特征时,还要考 虑特征对字体的不同、汉字大小的不同及噪声的影响等因素的不敏感 性。 在相当长的文字识别的研究过程中,是利用人们的经验知识,指 导文字特征的提取:人们经历了许多特征的提取。例如边缘特征、变 换特征、穿透特征、网格特征、特征点特征、方向线索特征等等,视 其在汉字识别过程中的实际效果决定其取舍。经过长期和大量的实验 研究,才选取得到的良好的识别特征。这些特征在汉字识别的研究发 展中发挥了重要作用。 当然,采用单一的特征提取方法利用的汉字信息量有限,因此不 可避免地会存在一些识别的“死角”,也就是存在利用该特征很难区分 的汉字。现在人们通常运用数据融合的理论,由不同的原始特征向量 合成新的特征向量将有利于增强特征向量的分类能力,新特征保留了 参与融合的单个特征对各个类别的有效鉴别信息,在一定程度上消除 了多个特征之间的信息冗余,实现了信息压缩,可以实现最优识别特 征的自动提取,滤除对类别识别无效的特征和干扰,有利于信息的实 时处理。 1 3 3 分类识别 识别算法是整个识别过程的核心部分。原始图像经过预处理后, 得到一个较为理想的二值图像,然后就可以对这个处理后的二值图像 进行识别。识别的过程包括根据识别算法选择和提取汉字的特征、与 标准文字的特征进行匹配判别。 现有的分类器主要有两类:基于距离的分类器和神经网络分类器, 二者原理不同,性能各有所长,但总的来说每个单独的分类器无法达 到很高的识别率和可靠度。由于每种分类方法都有自己的优、缺点和 不同的适用范围,现在人们通常采用多分类器集成方法( 包括串行、 并行以及串并行混合三种集成方式) 来提高识别率。 1 3 4 后处理 由于汉字形状变化各异,单字识别率的提高就受到一定的限制。 为了提高识别率,人们往往在分类识别后进行识别后处理。后处理就 是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进 行校正,进一步提高识别率和适应性,降低系统的误识率。目前,常 见的后处理方法有:基于统计概率的后处理,基于隐形马尔可夫模型 的后处理等。 1 4 汉字图像识别技术的发展趋势1 5 1 1 8 我国近2 0 年汉字识别研究取得的令人瞩目突出进展覆盖了所有 的汉字识别领域。我们不仅在理论和算法上,而且在软件开发上成功 开发出一系列具有自主知识产权的国际领先水平的文字识别商用软件 产品。 但到目前为止,适应各种书写体,性能稳定、抗干扰能力强的高 效实用系统仍处于研究阶段,因此对于手写体汉字识别还有许多工作 要做。 在汉字识别特征提取阶段目前应注意的主要问题有: 1 ) 汉字的行、列切分正确率仍有待于提高; 2 ) 在特征提取阶段,目前尚未找到一组适用于各种字体、笔迹的 特征向量: 3 ) 无法将自然语言理解知识应用于后处理; 4 ) 由于汉字的特征向量维数较高,将待识别汉字的特征向量同样 本库中的海量模板匹配会占用很多识别时间,因此如何提高识 别速度也是一个需要深入研究的课题; 5 ) 另外,我国尚未建立标准的手写体汉字测试数据库和测试机 制,对汉字识别效果缺乏标准的鉴定和评价依据,这使得目前 的研究成果无法进行比较和评判。 因此,建立统一标准的手写体汉字字库,制定标准且完善的测试、 评价及鉴定体系对于脱机手写体汉字识别的发展不仅是重要而且也是 必要的。 1 5 本文工作及内容安排 1 5 1 论文研究的主要内容 本文在总结相关文献资料的研究成果的基础上,采用数学形态学 和g a b o r 变换为数学工具以汉字图像识别为对象,以c + + 和 m a t l a b 6 2 编程语言为实现手段,对文本汉字图像的识别的机理和过 程进行了深入的研究。针对存在变形、扭曲、粘连等噪声干扰情况的 汉字图像,研究汉字特征的可识别性和可提取性,构建汉字识别特征 模型,通过特征编码与模糊判别,以提高汉字识别适应性和识别正 确率。笔者主要完成了一下几个方面的有意义工作: l 、汉字识别特征的提取。研究了如何从汉字图像中提取横、竖、 撇、捺等笔划特征信息,并提出了两种提取方法。 方法一:提出了一种基于数学形态学的图像汉字笔划细化和提取 方法。根据汉字的结构特点,研究制定了一组新的图像汉字笔划细化 的结构元素序列,不仅有效地抑制样本汉字细化后笔划的扭曲和歪斜, 而且保持了原样本图像汉字的连通性和拓扑性的骨架。在此细化的结 果基础上,定义了一种基于边缘检测的新的汉字笔划提取算法,准确 提取出原汉字的横竖撇捺笔划的形状、形态、形式结构信息,取得了 理想的效果。 方法二:提出了基于g a b o r 滤波器的笔划提取算法。针对g a b o r 滤波器在纹理图像的识别方面能起到仿人视觉识别的特性,利用g a b o r 滤波器在时域中的方向性,分别在0 、4 5 、9 0 、1 3 5 度方向进行滤波得 到四幅灰度子图像,再对四幅灰度子图像采用自适应算法和最优阈值 算法进行二值化,分别提取出横、竖、撇、捺四个方向笔划的形状、 形态、形式等结构和统计信息,效果良好。 2 、汉字特征模型的建立和汉字图像的编码识别。在基于汉字特征 的可识别性和可提取性基础之上,提出了选用笔划作为基元,采用先 结构特征后统计特征的识别方法,运用模糊数学定义了汉字图像的笔 划形态、形式、位置、长度等特征信息,并以此为基础构建一套新的 汉字图像的特征模型和编码方法。 3 、汉字识别算法。围绕该汉字结构模型和编码方法,采用冒泡算 法对提取的待识别的汉字特征进行隶属度排序,建立了一套有效的识 别算法。并给出了一种基于汉字图像轮廓特征的误差估计方法,并利 用误差估计初步建立了一套带有反馈的汉字识别系统。 1 5 2 本文各章内容安排 论文共分四章。 第一章:绪论。系统阐述目前汉字识别技术的研究现状、发展趋 势和当前的汉字识别方面急待解决的问题。最后介绍了本文主要工作 和各章的内容安排; 第二章:汉字图像的特征提取。本章介绍了采用数学形态学和 g a b o r 滤波两种不同的方法对汉字图像进行笔划提取,给出了算法和 实验结果。效果令人满意。 第三章:汉字图像的编码和识别。本章介绍了以汉字笔划为基元的 汉字识别特征提取方法。并从整体特征和笔划特征两个方面,采用模糊 数学的方法定义和建立了用于识别的汉字特征模型,并利用该模型进行 编码和识别。最后建立一套误差反馈系统对识别的结果进行校验,以减 少汉字识别过程中的拒识和误识。 第四章:总结与展望。 第二章汉字图像识别特征的提取 随着计算机技术和人工智能的迅速发展以及人机接口的需要,文 本汉字识别的研究取得了长足进展。文本汉字识别的关键在于快速准 确的提取能充分描述汉字结构信息的特征。良好的特征应能使一种汉 字的不同书写样本之间的差异性尽可能小,而不同汉字之间的差异性 尽可能大。由于汉字本身的结构特点,即每个汉字都是由“横”、“竖”、 “撇”和“捺”四种基本笔划组成,采用此四个方向上的模式特征能 够有效地表达一个汉字的信息,因此,基于结构的方向分解特征成为 种有效的文本汉字识别特征。 本文分别采用数学形态学和g a b o r 变换为数学工具,从图像学的 角度出发,分别采用先细化后提取和直接提取笔划两种方法,把图像 汉字转化为由横、竖、撇、捺等基本笔划在不同位置组成的图像。通 过提取汉字的笔划,再根据汉字笔划数量、形状、位置和长度信息来 描述汉字特征。这样方式定义汉字特征,可大大地化解汉字结构的多 样性和复杂性与机器表征的单一性和局限性的矛盾,突显机器自身具 有认识的简单笔划图像和笔划组合的能力来识别图像汉字结构规律, 为进一步识别打下坚实的基础。 2 1 基于数学形态学的汉字图像笔划细化和提取 根据汉字的结构特点,研究制定了一组新的结构元素序列,保持 了原样本图像汉字的连通性和拓扑性的骨架,有效地抑制样本细化后 汉字笔划的扭曲和歪斜。在此细化的结果基础上,定义了一种新的汉 字笔划提取算法,准确提取出原汉字的横竖撇捺笔划的形状、形态、 形式结构信息,取得了理想的效果。 2 1 1 数学形态学的汉字细化算法 采用汉字细化算法获取汉字图像的骨架是汉字方向特征提取中一 个重要的步骤。因为骨架包含了文字图像特征的最有效数字化信息,能 对汉字图像进行有效的描述。 1 数学形态学基本理论1 1 3 1 1 l 数学形态学( m a t h e m a t i c a lm o r p h o l o g y ) 是一种应用于图像处理和 模式识别领域的新方法,是生物学的一个分支,常用来处理动物和植物 的形状和结构。随着其逻辑基础的不断发展,其应用范围已不再局限在 传统的微生物和材料科学的领域,开始向边缘学科和工业技术方面发 展。作为一门综合了多学科的交叉学科的科学,数学形态学的理论基础 颇为艰深,但是其理论概念却比较简单。其核心运算是膨胀和腐蚀,其 余各种形态学运算( d i l a t i o n ) ( e r o s i o n ) 都是基于这两个运算而来的。在形 态学运算中,模板的选取是非常重要的,其形状、尺寸的选择是能否有 效提取信息的关键。数学形态学的主要内容是设计一套变换( 运算) 概 念和算法,用以描述图像的基本特征。这些数学工具不同于常用的频域 方法,而是建立在积分几何以及随机集论的基础上的。这是由于、积分 几何能够得到各种几何参数的间接测量,以及反映图像的体现性质,而 随机集论则适合于描述图像的随机性质。 1 )结构元素 为了确定一幅图像的结构,必须逐个地试探图像各部分之间关系。 为此,我们设计一种收集信息地“探针”,称为结构元素。其定义如下: 设n 维欧氏空间e ( ) ,则结构元素b 可以定义为是e ( n ) 或其予空间 e ( 疗) 上的一个集合,具有一定的几何形状( 如圆、球,有向线段、有向 点对等) 。结构元素常包含原点,其尺寸相对远小于所考察的物体。 8 ( x l x e ( 盯) 称为结构元素族,点x 为其“中心”。 2 )腐蚀和膨胀 膨胀和腐蚀是两种最基本和最重要的变换或运算,使其他变换或运 算的基础。 设b 是a 的一个结构元素,则a 被b 膨胀的结果可定义为 爿o b = u a m b i b( 2 一1 ) 其中符号u 是集合论中的“并”记号。a 。为a 对口中6 f 点的平移。 a o b 又称为爿与b 的明可夫斯基( m i n k o w s k i ) 和。 a 被b 腐蚀的结果定义为 a o b = ( a 。a o b 厂= n 爿 , b i b( 2 - 2 ) 其中符号n 是集合论中的“交”记号,b 为b 对原点的反射。a 。表 示爿的补或余集。ao b 又称为a 与b 的m i n k o w s k i 差。 由腐蚀、膨胀这两种最基本的数学形态学运算出发,还可以定义诸 如:开、闭、击中、薄化、细化等其它运算。 2 数学形态学图像细化算法1 1 3 1 1 1 4 l 数学形态学的细化过程中,图像集合a 使用结构元素b 进行细化用 a o b 表示。可用表示为: a o b = a 一( a o b ) = a n ( a e s ) 。f2 - 3 、 其中:a o b 表示在图像集合a 中对结构元素b 进行匹配操作。( a o b ) 。为 ( 爿 占) 的补集。 对图像集合a 的细化是采用结构元素序列 口 进行的,细化过程可 表示为: 4 0 b ) = ( ( - 怕。b 1 ) 口2 ) - ) 圆b ”) ( 2 - 4 ) 其中:结构元素序列扭 _ 忸1 ,b 2 ,b 3 ,b ” 。 细化处理过程为,通过使用曰1 经一遍处理对一进行细化,然后使 用占2 对经b 1 处理一细化得到的结果再进行细化处理,如此进行下去, 直到对a 使用b ”进行细化。整个过程不断重复直到得到结果不发变化。 设定汉字的笔划的灰度值为1 ,背景的灰度值为0 ,常用于图像细化的 结构元素序列如图1 所示。 基于上述的数学形态学细化算法应用于图像汉字细化时,常发生 图像汉字扭曲,歪斜和畸变,结果不理想,其主要原因是:上述数学 形态学细化算法应用于图像汉字时仅考虑了细化后的图像的连通性, 并没有考虑到图像汉字细化的横平竖直等特殊要求,在细化过程中各 像素点( 特别是笔划相交处的像素点) 剥落速度不一致。通过对( 2 - 4 ) 式细化过程的分析发现,其主要因素是:结构元素b 。,占3 ,口5 ,b 7 的设计 对汉字细化不尽合理,造成了各像素点剥落速度不一致导致图像扭曲, 歪斜和畸变。 00o 木 1 士 11l f 可盯雨 盛1 1 0 避5 - b 2 筛需阵 b 5 b 6b 7 图2 1数学形态学细化过程结构元素序列 3 数学形态学汉字细化算法1 1 5 1 1 1 6 1 1 1 7 1 1 1 8 j l1 士 11o 半 0o b 4 00 士 011 木 11 汉字细化有助于突出汉字的形状结构特征,减少冗余的信息量。目 前针对图像的细化算法很多:如迭代算法,跟踪算法,极值算法等。经 实验和分析,这些算法对汉字细化存在以下不足: 1 1 不考虑原始汉字的中心轴,细化届将有较大的畸变产生: 2 1 用于复杂度较大的汉字或笔划交叉点较多的汉字,细化后将有 较多的扭曲,歪斜和畸变点产生,效果不好; 3 1 算法复杂,耗时较长。 近年来,基于图像集合运算的数学形态学细化算法【5 1 1 2 在图像细 化中得到广泛应用。采用数学形态学的汉字细化方法应达到以下要求: 1 ) 骨架应尽量接近笔划的中心; 2 ) 保持原有的汉字笔划的连续性,不能使原来连续的笔划断丌; 3 ) 保持原有字符的拓扑结构,几何特征,不应产生严重的畸变。 为满足图像汉字细化的要求,依据数学形态学方法,重新规定细 化过程步骤和结构元素模板序列,数学形态学图像汉字细化算法定义 如下: 定义1 :在对图像汉字a 的细化过程中,用结构元素序列 d 进行, 细化过程可定义为: a n d = 一m 。詹1 ) 。c 1 ) 。日2 ) ) 。b 7 ) 。c 4 ) 。b 8 ) ( 2 _ 5 ) 其中:结构元素序列 d = 忙。,c ,b2 ,b3 , c2 ,8 4 , b 5 , c 3 ,b 6 ,b 7 ,c 4 ,b 8 ; 符号。定义为:在细化过程中,如图像中出现了与结构元素模板 c 1 ,c 2 ,c 3 ,c 4 匹配的模式,则把匹配模式的中心0 元素变为1 ,否则不 作处理:整个过程不断重复直到得到结果不发生变化为止。 藤障肝簿 c 1c 2c 3c 4 图2 2结构元素序列c 1 ,c 2 ,c 3 ,c 4 根据图像汉字细化的横平竖直等特定性,通过定义结构元素序列 f c 的处理,改善了结构元素b 1 ,b 3 ,曰5 ,b 7 的对汉字细化过程中各像素点 ( 特别是笔划相交处的像素点) 剥落速度一致性。减小了各像素点剥 落速度不一致导致图像扭曲,歪斜和畸变现象。 2 1 2 基于梯度算法细化汉字笔划提取 1 4 1 1 1 9 1 1 2 0 汉字笔划提取的方法和算法研究已有少量报道。文献 1 9 提出的汉 1 2 字笔划提取方法抗噪声能力较强,采用并行算法速度较快;但要求笔 划宽度在2 7 个像素之间,所有笔划尽可能接近水平,对角,垂直方 向且正负偏差不超过15 度。文献【2 0 提出汉字笔划提取方法没有很好 处理子笔划相交问题,使抽取的子笔划不够稳定。 1 梯度算法 一幅数字图像的一阶导数是基于各种二维梯度的近似值。图像 f ( x ,y ) 在位置( 置y ) 的梯度的定义为下列向量: r g 。 班引2 。, a x a f 砂 ( 2 6 ) 从式( 2 - 6 ) 向量分析中我们知道,梯度向量指向坐标g ,y ) 的图像 ,g ,y ) 的最大变化率方向。在边缘检测中一个重要的量是这个向量的大 小,用可表示,这里, v = 埘昭阿) = 睡+ g ;弘 ( 2 7 ) 这个量给出了在w 方向上每增加单位距离后厂0 ,y ) 值增大的最大 变化率。一般来讲也将w 称为梯度。梯度向量的方向也是一个重要的 量。令: 删船 ( 2 8 ) 这里,角度是以石轴为基准度量的。边缘在0 ,y ) 处的方向与此点 的梯度向量的方向垂直。计算图像的梯度要基于在每个像素位置都得 到了偏导数矿a x 和可砂。 对于数字图像,一般来说,在m n 的图像上,用研”大小的 滤波器模板进行线性滤波由下式给出: db g ( x ,y ) = 砸,矿g 怕y + t ) ( 2 - 9 ) 一a t = 一b 其中:盯= 似一1 ) 2 ,b = 0 1 ) 2 ,w g ,r ) 为滤波器模板的权值系数。 由于本文的兴趣在于对图像任一点g ,y ) 进行研h 模板处理得到的 响应r ,而不是模板卷积机理,因此可采用如下形式简化表达为: r = w l z i + w 2 = 2 + ,+ w k z 女= w f 二j ( 2 - 1 0 ) i = 1 其中:w 为模板的权值系数,z 为该系数对应的灰度值,女= mx ” 为模板中包含的像素点的总数。在数字图像处理的梯度计算中, r o b e r t s ,p r e w i t t 和s o b e l 模板算子是实践中最常用的。 2 细化汉字笔划提取算法 本文认为,对于有效的汉字笔划提取应达到如下要求: 1 ) 保持汉字中原有笔划形态信息不变:不能使原来连续的笔划断 开,也不能使原来断开的笔划相连。 2 ) 保持汉字中原有笔划形状信息不变:在水平和垂直方向上,汉 字笔划应做到横平竖直。在斜向方向应保持撇、撩、点等笔划 的完整。 3 ) 保持汉字中原有笔划形式结构信息不变:保持笔划的相对位置 和相对长度不变。 二值细化汉字的笔划与背景之间存在明显的灰度级变化,把细化 汉字的笔划看作图像的边缘,可采用图像边缘检测算法提取细化汉字 的笔划。目前常用的p r e w i t t 、s o b e l 5 等图像边缘检测算法,具有对图 像的边缘敏感,对噪声抑制力较强的特点,但直接用于细化图像汉字 笔划提取中,常常会出现提取的汉字笔划的断裂,多余或丢失。 为实现图像汉字笔划提取的要求,依据边缘检测梯度算法方法思 想,重新规定梯度算法步骤和修正汉字笔划提取过程,定义细化汉字 笔划提取算法如下: 1 )图像汉字水平笔划提取算法 定义2 :在对细化图像汉字f 的水平笔划的提取过程中,采用水平 结构元素序列 t 进行,提取过程可定义为: f 。 日) = ( ( f 晶) u c n ) n 鸠 ( 2 1 1 ) 其中:符号。定义为从视频图像汉字中提取汉字笔划,符号+ 定义 为图像与模板的卷积,符号u 定义为将图像中处于同一行的断裂笔划 相连,符号n 定义为滤波( 线段像素值小于m 时被滤除) 。尸,为水平 方向的梯度模板,c 。为水平连接门限,m ,为滤波门限( 图像汉字为 左右结构时取i = 0 ,其他取i = 1 ) o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽合肥市长丰县下塘镇招聘村(社区)后备干部12名考前自测高频考点模拟试题及答案详解(网校专用)
- 2025年江西职业技术大学高层次人才招聘51人考前自测高频考点模拟试题及答案详解(易错题)
- 2025年福建省泉州市德化县文学艺术界联合会招聘劳1人考前自测高频考点模拟试题及答案详解(易错题)
- 2025年城市河道整治工程社会稳定风险评估与社区参与度提升路径报告
- 2025年甘肃省平凉市泾川县丰台镇考聘大学生村文书模拟试卷及答案详解(全优)
- 2025-2030工业软件行业市场现状及投资机会分析报告
- 2025-2030工业软件市场现状与技术发展路径研究报告
- 垃圾填埋气发电技术创新在2025年碳减排中的节能减排技术应用前景与挑战报告
- 2025-2030工业软件云化转型过程中的客户迁移策略与定价模型报告
- 2025昆明市公有房屋管理中心劳务派遣人员(2人)模拟试卷及答案详解(全优)
- 2024年人教版四年级语文上册《第3单元9.古诗三首》教学课件
- 讲好中国故事英语演讲2-3分钟
- 介绍莫兰迪的课件
- DB32/T+4860-2024+电镀园区环境管理技术规范
- 室内安装标识标牌施工方案
- GB/T 17775-2024旅游景区质量等级划分
- 小学数学情境教学设计案例分析
- 《福建省整体装配式卫浴间标准设计图集》
- 中药冷敷技术操作方法及常见疾病的中药冷敷技术
- 地方政府的组织结构课件
- 【公开课教案】《蹲踞式起跑》教案
评论
0/150
提交评论