(计算机应用技术专业论文)汉字离线识别技术中笔画提取模型研究.pdf_第1页
(计算机应用技术专业论文)汉字离线识别技术中笔画提取模型研究.pdf_第2页
(计算机应用技术专业论文)汉字离线识别技术中笔画提取模型研究.pdf_第3页
(计算机应用技术专业论文)汉字离线识别技术中笔画提取模型研究.pdf_第4页
(计算机应用技术专业论文)汉字离线识别技术中笔画提取模型研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)汉字离线识别技术中笔画提取模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉字离线识别技术中笔画提取模型研究中文摘要 i i i 汉字离线识别技术中笔画提取模型研究 学科专业:计算机应用 指导老师:唐雁 内容摘要 研究方向:模式识别 作者:陈睿( 2 0 0 1 3 7 9 ) 随着汉字识别的应用越来越普遍,应用系统中对汉字识别的速度和正确率的 要求也越来越高。目前,汉字识别技术主要分为两种,即在线识别和离线识别。 汉字在线识别的技术己日趋成熟,很多能够进行汉字在线输入的系统都能够使用 该技术。由于汉字在线识别的对象是在线输入的汉字,所以它能够利用笔画顺序、 书写轻重等重要信息。而汉字离线识别的应用范围更为广泛,只要能够采集到汉 字图像的场合都能够使用该技术。由于汉字离线识别不能利用笔画顺序、书写轻 重等重要信息,所以难度相对要大一些。加上汉字数量浩大,使用汉字达到万余 字:汉字结构复杂,变化多端:印刷体文字有不同字体、不同:赶小之分:手写汉 字的书写更是因人而异、因时而变,形态变化巨大。如何解决这些问题已成为研 究的热点。 汉字离线识别的技术主要分为两类,它们是基于整体信息的识别技术和基于 局部信息的识别技术。前者将汉字作为一个整体来进行特征提取,如各种不变矩、 各种整体图像变换、各个方向上的投影等等。这类方法对印刷体汉字识别十分有 效,而对形变较大的手写体汉字的识别效果并不能令人满意。相对于整体的较大 形变,汉字的局部信息,如笔画、字根等的形变较小。基于局部信息的识别技术 对这类问题具有更好的效果。笔画提取是这类技术中的重点和难点。 论文主要研究了现有的各种笔画提取技术,并提出了两种新型的笔画提取模 型。与同类模型相比,这两种模型分别在笔画提取的速度和效果上有了一定程度 的提高。其中,基于笔画段分割与组合的笔画提取模型的对象是二值图,它对印 刷体和限定手写体汉字的效果很好,且时间上较同类模型有较二k 提高。而基于可 旋转滤波器的笔画提取模型的对象是骨架图,它的应用范围更广。而且对部分手 写体汉字笔画多余连接问题的解决效果明显。 汉字离线识别技术中笔画提取模型研究中文摘要 l v 最后,在m a t l a b 平台上对两种模型做了实验,对大量汉字进行了笔画提取, 并在速度和效果上和同类模型做了对比,通过实验说明了这两种笔画提取方法的 有效性。 关键词:o c r 、汉字离线识别、特征提取、笔画段、可旋转滤波器、卷积、 象索区域分解、二值图、灰度图、骨架图、不变矩、整体图像变换 汉字离线识别中笔画提取研究英文摘要 v t h e s t u d y o fs t r o k ee x t r a c t i o nm o d e l sf o r o f f - l i n ec h i n e s ec h a r a c t e r r e c o g n i t i o n m a j o r :c o m p u t e ra p p l i c a t i o n d i r e c t i o n :p a t t e r nr e c o g n i t i o n s u p e r v i s o r :t a n g y a na u t h o r :c h e n r u i ( 2 0 0 13 7 9 ) a b s t r a c t c h i n e s ec h a r a c t e rr e c o g n i t i o np l a y sav e r yi m p o r t a n tr o l ei nt h ea u t o m a t i o no f d o c u m e n ta n a l y s i s f o rn o w , t h e r ea r em a i n l yt w ok i n d so fc h i n e s ec h a r a c t e r r e c o g n i t i o ne n t i t l e do l l - l i n ea n do f f - l i n e t h eo n - l i n ec h i n e s ec h a r a c t e rr e c o g n i t i o n s y s t e m ,w h i c ha c c e p t so n l i n ei n p u t s ,u t i l i z e sag r e a ta m o u n to fi n f o r m a t i o ns u c ha s t h es t r o k eo r d e r ;w r i t e p r e s s u r ea n do t h e ri n f o r m a t i o n ,w h i l et h eo f f - l i n ec h i n e s e c h a r a c t e rr e c o g n i t i o n ,w h i c hl o s e si n f o r m a t i o ns u c ha ss t r o k eo r d e i 。a n dw r i t ep r e s s u r e , c a r lb ea p p l i e di nm o r eo c c a s i o n sa sl o n ga st h ec h a r a c t e ri m a g ec a nb eo b t a i n e d i t f a c e sm a n y p r o b l e m s :t h eh u g e s i z eo f c h a r a c t e rs e ta n dt h ec o m p l i c a t e da n dv a r i a b l e c h a r a c t e rs t r u c t u r e s p r i n t e dc h a r a c t e r s v a r yi n f o n ta n ds i z e ,w h i l eh a n d w r i t t e n c h a r a c t e r sv a r yn o t o n l yi nf o n ta n ds i z e ,b u ta l s oi nw r i t e ra n d t i m e t h ei s s u e sr a i s e d t h e r eh a v ea s s u m e db o t hs c i e n t i f i ca n dc o m m e r c i a l i m p o r t a n c e o f f - l i n ec h i n e s ec h a r a c t e rr e c o g n i t i o ni s m a i n l ys t u d i e dt h r o u g ht w ok i n d so f t e c h n i q u e s ,w h i c ha r eb a s e do ng l o b a li n f o r m a t i o na n dl o c a li n f o r m a t i o ne a c h t h e f o r m e re x t r a c t sf e a t u r e sf r o mc h i n e s ec h a r a c t e r 髂aw h o l e s u c ha sm o m e m i n v a r i a n t s ,g l o b a li m a g et r a n s f o r m a t i o n sa n d a l lk i n d s o f p r o j e c t i o n se t c t h i sk i n d so f t e c h n i q u e s a r ee f f e c t i v et o p r i n t e d c h i n e s ec h a r a c t e rm c o g n i t j i o nw h i l ea l en o t s a t i s f a c t o r yt oh a n d w r i t t e nc h i n e s ec h a r a c t e r s r e l a t i v et ot h ef a i z 。l yb i gv a r i a t i o no f g l o b a ls h a p e t h el o c a li n f o r m a t i o ns u c h 淞s t r o k ea n dr a d i c a la r em o r ec o n s i s t e n t a t t h i sp o i n t ,t h et e c h n i q u e sb a s e do nl o c a li n f o r m a t i o na r em o r e b 惜t t h es t r o k e e x t r a c t i o ni st h ek e y s t e po f t h i sk i n do f t e c h n i q u e s t h em a i nw o r k so ft h i s p a p e ra r e t h e s t u d y o fe x i s t i n gs t r o k e e x t r a c t i o n 第一章绪论第1 页 第一章绪论弟一早珀。l = 匕 1 1汉字识别概述 1 1 1 汉字识另1 j 回顾 汉字已有数千年的历史也是世界上使用人数最多的文字对于中:毕民族灿烂文化的形 成和发展有着不可磨灭的功勋,并将继续发挥重要的、其它文字形式难以取代的作用。然而, 汉字是非字母化、非拼音化的文字在当今高度信息化的社会里。如何快速高效地将汉字输 入计算机已成为影响人机接口效率的一个重要瓶颈也关系到计算机】能否真正在我国得到 普及应用。 围绕这一问题,人们提出了各种解决方案。目前。汉字输入主要分为人工键盘输入和机 器自动识别输入两种。人工键盘输入是指用手工击键方式按照一定的规律把汉字输入到计算 机,目前已有数百种键入方案。但是与拼音文字的打字机不同,人们需要经过一定时间的 学习训练才能掌握某种键入方法,更为严重的是:对于大量已有的文档资料,采用人工键八 方法将要花费大量的人力和时间。为此机器自动识别输入就成为了必须研究的课题。 自动识别输入分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支。也 是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理 解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是- i 1 综合性技术,在 中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域都:阿着重要的实用价值 和理论意义。 汉字识别技术识别对象上可分为印刷体汉字识别和手写体汉字识别两大类从识别方式 上可分为汉字在线识别和汉字离线识别两大类。 从识别的角度来看,多体印刷体汉字识别难于单体印刷体汉字识别手写体识别难于印 刷体识别,而汉字离线识别又难于汉字在线识别。可喜的是,经过科研人员的努力我国已 有印刷体汉字识别和在线手写汉字识别的商品出售。目前已形成百家争鸣、百花齐放的局面。 但是离线手写汉字识别还处于实验室研究阶段。在离线手写汉字识别领域,非特定人离线手 写汉字识别又难于特定人手写汉字识别 第一章绪论第2 页 1 1 2 汉字离线识另i j 汉字离线识别( o f f - l i n ec h i n e s ec h a r a c t e rr e c o g n i t i o n ) 是一种能让机器通过一个光学 装置自动识别汉字的技术 1 】。对于汉字离线识别,不同的特征抽取和分类器的设计方法决 定了识别系统采用不同的处理方法,通常可以分为结构模式识别方法、统计模式识别方法、 统计与结构相结合的识别方法以及人工神经网络方法等。 1 结构模式识别方法 结构模式识别方法是人们最初用来进行手写汉字识别研究的方法,一般需要先抽取笔画 段或基本笔画作为基元,由这些基元再构成部件( 子模式) 由部件的组合来描述汉字( 模 式) ,最后再利用形式语言及自动机理论进行文法推断,即识别。 2 统计模式识别方法 与结构法相比统计法具有良好的抗噪声、抗干扰的性能。用于离线手写汉字识别的统 计特征根据特征抽取区域的不同可租略地分为全局统计特征和局部统计特征两大类。 3 统计与结构相结合的识别方法 由上述可见,统计与结构方法各有优缺点。统计方法具有良好的抗干扰抗噪声的能力, 它一般按一定的距离度量匹配准则,采用多维特征值累加的办法把局部噪声和微小畸变淹 没在最后的累加和里,但是,可以用来区分“敏感部位”的差异也随之消:是,因此区分相似字 的能力较差;而结构方法对结构特征较敏感区分相似字的能力较强,但是结构特征难以抽 取,不稳定。因此,人们已注意到将两种方法结合起来使用,这种结合包括两个方面,即特 征的结合和识别方法的结合。 4 人工神经网络方法 基于串行符号处理的数字电子计算机在人工智能等研究领域遇到了一定的困难,促使人 们以更大的兴趣去研究以并行处理模式为特征的神经计算机。八十年代;田,在美国、日本和 欧洲都掀起了一股研究神经网络理论和神经计算机的热潮,各个先进国家相继投入巨额资 金,制订出强化研究计划并开展了对脑功能和新型智能计算机的研究。人工神经网络的主 要特征是:大规模的并行处理和分布式信息存储良好的自适应性、自组织性,以及很强的 学习功能、联想功能和容错功能。目前的研究重点是将人工神经网络原:哩应用于图像处理、 模式识别、语音综合及智能机器人控制等领域。 第一章绪论 第3 页 1 2汉字笔画提取技术概述 汉字笔画提取是结构模式识别方法中晟重要的步骤。具有重大的研究意义。由于汉字笔 画提取领域中存在的种种困难 3 】,使它成为一个极富挑战性的课题。对于手写体汉字而言, 困难具体表现在以下几个方面: 基本笔画形变。 笔画断裂和多余连接。 笔画与笔画之间、部件与部件之间的位置发生变化, 笔画的倾斜角、笔画的长短、部件的大小发生变化。 笔画的粗细变化。 其中。手写汉字字形的变化是最难以解决的问题。经过几十年的研究,学术界已经提出 了大量的汉字笔画提取技术。这些技术的笔画提取对象,包括了灰度图、二值图、骨架图和 轮廓图等各种图像;它们的方法包括了各种规则、变换和滤波等。但汉字笔画提取这个问题 至今仍有待深入研究。 1 3 研究意义与研究内容 汉字笔画提取具有重大的研究意义,一旦汉字笔画提取在正确率和速度上取得突破,汉 字离线识别将随之取得突破。以笔画和部件作为特征向量来描述汉字。对于整体形变较大的 手写体具有更好的稳定性。由于汉字笔画提取在汉字离线识别中有着非常重要的地位,所以 人们提出了各种各样的笔画提取技术。从算法的对象上可分为灰度图、二值图、骨架图和轮 廓圈,其中,从骨架圈中提取笔画的技术占了绝大多数,因为这种方法简单、高效,更能应 用于实际系统。 汉字笔画提取的正确性和速度是人们一直追求的两个目标,现有的笔画提取技术很难同 时在这两个方面上取得令人满意的效果。从= 值图中提取笔画能够利用更多的笔画信息,从 而达到相对好的提取效果。但时间耗费较高。从骨架图中提取笔画时间耗费较低但骨架化 带来的形变很容易影响提取效果。 论文主要研究了现有的各种笔画提取技术,并提出了两种新型的笔画提取模型与同类 模型相比,这两种模型分别在笔画提取的速度和效果上有了一定程度的提高。其中基于笔 画段分割与组合的笔画提取模型的对象是二值图。它对印刷体和限定手写体汉字的效果很 第一章绪论第4 页 好,且时间上较同类模型有较大提高。而基于可旋转滤波器的笔画提取模型的对象是骨架图 它的应用范围更广,而且对部分手写体汉字笔画多余连接问题的解决效果明显。 1 4 主要工作与创新点 本文的主要工作与创新点体现在: 1 对现有各种汉字笔画提取技术的研究; 2 提出了基于笔画段分割与组合的汉字笔画提取模型; 3 提出了基于可旋转滤波器的汉字笔画提取模型: 4 两种模型与同类模型的对比: 5 在m a t a b 平台上对两种模型进行了实现并讨论了关键参数对提取效果的影响 6 对大量汉字进行了笔画提取并对后续工作进行了讨论。 1 5 内容安排 论文的内容安排如下:第二章,简单的论述本文所需要的相关支撑理论:第三章,介绍 符类典型的已有汉字笔画提取模型:第四章,介绍作者提出的两种笔画提取模型;第五章 比较和分析模型中的参数对提取效果的影响和相关实验:最后对未来的工作给出了展望。 第二章相关理论 第5 页 2 1o c r 理论 2 1 1o c r 的定义 第二章相关理论 弟一早个日大瑾f 匕 光学字符识别( o c r ,o p t i c a lc h a r a c t e r r e c o g n i t i o n ) 是一种能让机器通过一个光学装置 自动识别字符的技术【2 1 。汉字离线识别是o c r 中的一个重要分支。o c r 的历史可以追溯到 二战中对印刷体字符的自动识别,到了5 0 年代初产生了商业化的o c r 产品。虽然从那时 其它就是一个非常活跃的研究领域,但直到现在市面上的o c r 系统还主要只能识别印刷体 和书写规范的手写体。随意的手写体、多字体印刷体和退化污染的字符的识别已成为热点。 殴计一个o c r 系统面临许多问题,如对不同语言的字符和单词的识别、对形近字符的识别 ( 如字母“o ”和数字“0 ”) 、对对比度很低的图像中的字符的识别,等等。o c r 的应用非 常广泛,商业、军事、日常生活中都有很多例子,甚至包括对视频中动态字符的识别。一个 成熟的o c r 系统能极大的简化文字的输入和处理,甚至改变人们的工作和生活方式,具有 极大的经济效益和社会效益,所以o c r 是一个非常值得研究的领域。 2 1 2o c r 的总体流程 一个o c r 系统一般包括以下几个处理步骤: 1 在一定分辨率( 3 0 0 1 0 0 0 d p i ) 下的光学灰度扫描得到一灰度图。 2 ( 可选) 通过整体和局部适应方法进行二值化,得到一二值图。 3 分割成独立的单个字符,得到单个字符图像。 4 ( 可选) 转化成其它的字符表示方法,如骨架图或轮廓曲线。 5 特征提取得到一特征向量,如一个数组或矩阵,它代表原字符。 6 通过一个或多个分类器进行识别。 7 上下文验证或结束处理。 2 1 3o c r 中的特征提取 “特征提取”是o c r 系统中一个非常重要的步骤,因为它提取的特征是分类的依据, 第二章相关理论 第6 页 而字符识别实际上就是一个分类的过程。d e v i j v e r 和k i t t l e r 提出了一个关于特征提取的定义 即“从原数据中提取一些信息,此信息与分类的目的具有最大相关性,它能够最小化类内模 式的差异同时增强类间模式的差异”【2 】。这里的“信息”指的就是特征,在识别过程中它 取代了原字符。特征具有不变性。因为同一字符可以有不同的表现形式,而它们的正确识别 结果只能有一个,所以表示这些不同形式的特征必须相同或非常相似这就是特征的不变性。 它主要体现在大小、旋转角度、倾斜度和拉伸程度等方面。有些特征提取方法可以重建原字 符这些方法一般都包含很多特征,它们可以方便的用来检查程序执行正确与否。 特征提取技术的处理对象从图像的角度来说可分为从灰度图、二值圈、骨架图和轮廓图, 从识别内容的角度可分为字母、数字、汉字和其它字符。虽然特征提取技术的研究有大量成 果却没有一种特征提取技术是通用的,每种技术都有它的适用范围和忧缺点。比如基于灰 度图的特征提取技术一般要比基于二值图的技术识别率高,但前者的运算量般也更大。而 针对数字或字母的特征提取技术一般来说对手写体汉字的识别就不适用。目前,各类文献中 提出了大量的关于字符的特征提取技术,总体来说,可分为基于模板匹配、变换、矩、投影 和笔画等的特征提取技术。 1 基于模板匹配的特征提取技术 基于模板匹配的特征提取技术【2 】 1 0 】 2 3 【2 9 】 3 0 】把字符图像本身用作一个“特征向量”。 在识别阶段,计算每个模扳t ,和字符图像z 的相似程度或相异程度,找出其中相似程度最 高的模扳t k 。如果它的相似程度高于了某个阈值,那么这个字符就被归为第k 类。否则, 这个字符保留未归类状态。同理可用相异程度进行归类。这里计算相似程度的方法主要包括 欧拉距离、海明距离和h a u s d o f f 距离等方法。这些方法的优点就是原理简单但它们的缺 点也很明显。一个模板只能识别和它相同大小和旋转角度的字符,而且它对对比度、灰度均 值、噪声和同类变形字符敏感。虽然可以把多个模板用于每个字符但由于每个字符要和每 个模板进行比较这样计算时间的耗费就很大。另外,如果字符图像和模板大小不一致,可 将其大小调整为一致后再进行比较。这样识别就具有了尺寸不变性。 一个普通的计算相异程度的方法是均方距离d , f d j = ( 弛m ) 一“,) ) 2 ( 1 ) 其中_ 和只代表第i 个点的坐标d j 代表样本与第j 个模板的均方距离。 这种方法的原理较简单但识别率较低。下面介绍一种识别率较高的方法,即h a u s d o r f f 第二章相关理论 第7 页 距离。设有两个有限点集a = a 一”,a p ) 和b = b l ,b q ,h a u s d o r f f : ,( 4 ,d ) = t n t u ( i ( 4 ,口) 、 ( d _ 4 ) ) ( 2 ) 其中 ( 4 ,d ) = a “e a1 6 蝤e b n i i “一b l l ( 3 ) ( 3 ) 中,i l a - b l b p 为a 和b 两点间的欧拉距离。函数h ( a b ) 称为a 和b 间的直接h a u s d o r f f 距离。它找出了点a e a 且a 与b 中任何一点的距离最远其返回值为a 与b 中距离最近的 邻点的距离。h a u s d o r f f 距离h ( a ,b ) 给出了点集a 和b 问的相异程度。 在神经网络h a v n e t 中对h a u s d o r f f 距离进行了修改,首先提出了针对点的h a u s d o r f f 距离,即: t f ( 玑b ) 2 m e i h n i i “一 ( 4 ) 然后计算山修剪、翻转后的针对点的h a u s d o r f f 距离,即: 一= :、一“。o i 7 t h e “r “w b i s 。e 三6 ( 5 ) 最后,计算山点集a 的平均距离,即: 丽= k ( 嵋d ) 肪 ( 6 ) “6 a 其中p 为点集a 中的点数。 下面比较几种常用的相似程度计算方法,它们是欧拉距离、点乘和海明距离。设有两个 向量x = x l ,x 2 。,x n ) ,y = y l y 2 ,y n ) ,这三种距离的值被规范到0 和1 之间。 方法一:规范化欧拉距离 j ( y 1 ) = 1 一 方法二:规范化点乘 、i r t ( x ,】) = 1 一;y ;m 苦i 其中m - q n a x x 中值为一的点数,y 中值为一的点数1 方法三:规范化海明距离 r j ( y ,) = 1 一旧一虮1 2 m i fx y = 0o ri _ 1 方法四:规范化点式h a u s d o r f f 距离 ( 7 ) ( 8 ) ( 9 ) 阿 翌三兰塑茎里堡 苎! 垦 啊= 学 邪丽= 学0 。( 一口) = m i n ( 瓦t i 面瓦i i :确 ( 1 0 ) ( 1 1 ) ( 1 2 ) 图1 代表5 个数字0 和1 个数字1 的样本,第一个样本被认为是模板。表1 列出 了由以上四种方法计算出的相似程度的值。其中,每个字符图像的大小为3 7 4 0 ,方法四 中6 取值为0 3 图像对角线长度。 1 口 2 0 3 0 图l5 个数字“0 ”和1 个数字“l ”的样本 方法 方法一 方法二 方法三方法四 n o 11 0 0 0 01 0 0 0 01 0 0 0 01 0 0 0 0 n 。20 6 1 8 00 9 0 8 60 8 5 4 l0 8 7 8 7 n o 30 6 9 4 60 9 4 1 90 9 0 6 80 9 3 5 0 n o 40 6 5 4 20 9 2 4 50 8 8 0 40 7 7 5 6 n o 50 7 1 7 60 9 4 5 50 9 2 0 30 7 9 8 7 n o 60 5 8 6 50 8 8 7 50 8 2 9 l0 8 4 5 2 表1不同方法下样本与模板的相似度 对比图1 和表1 可以看出,对二值数字字符图像,规范化点式h a u s d o r f f 距离比前三种 方法具有更好的区分度。 2 基于整体图像变换的特征提取技术 在模板匹配中,灰度字符图像中的所有象素都被用作了特征。对字符图像进行整体变换。 可在减少特征数目的同时保留字符形状的大部分信息。在变换空间内,象素按其方差排序, 方差最高的一部分象素被用作特征。整体变换必须通过应用于一个训练集来对变换空间内象 素的方差进行评价。整体图像变换主要包括k l 变换、傅立叶变换、正弦变换、余弦变换和 小波变换等 1 7 1 【1 8 1 【1 9 】 2 3 1 【5 0 1 。其中,k l 变换在最小化均方误差的意义下具有最好的信息 压缩效果。它能完全去掉信号的相关性。用较少的特征值最大程度的保留原图像信息又被 称为晟佳变换。它的缺点是计算量太大,而且没有快速算法另外余弦变换在所有非最佳 第二章相关理论第9 页 变换的整体变抉中具有最好的信息压缩能力。1 0 时它存在和快远傅立叶燹挟类似的快速算 法,因此它被公认为图像数据压缩的实用方法。最后,小波变换也具有其独特的特点。傅立 叶变换在表示和分析瞬态信号时会出现混乱的频谱,小波变换的出现克暇了这一缺陷。它由 有限宽度基函数组成这些基函数不仅在频率上而且在位置上也是变化的,它们是有限宽度 的波并被称为小波。 设矩阵a 的大小为m x n ,则二维离散余弦变换定义为 。= “一一( 巫等屿州巫鬟地,:i :掌警:, 2 蠕然肛。一 i 厮4 帝, q = 0 缈, , 其中b m 称为矩阵c 的d c t 系数,其逆变换为 ,。= n 一口,。,s ! 学w w 学,7 n ,。= 。u 。, i 。- - ? :c , 图2 是圈l 中第一个字符图像经余弦变换后,仅保留变换矩阵中左上角的1 5 1 5 个系 数其余系数赋值为0 ,由它们经过反余弦变换恢复d i 的图像, 图2 数据压缩后的字符图像 从图2 可以看出,数据压缩后的字符图像保留了原字符形状的大部:守信息,而特征数目 由原来的3 7 4 0 减少为1 5 x 1 5 。 设x ( t ) 是平方可积函数,即h ,) = l 2 ( r ) ,职,) 是被称为基本小波或母小波的函数定义 如下: ”枷一,= 去蛾,( 字) 拈 圳川一忪 , 为x ( t ) 的小波变换,式中a ,o 是尺度因子,代表位移。符号( x ,y ) 代表内积,它的 定义为: 。( 2 ) y 。( ) 小 ( 1 7 ) 上标+ 代表共轭,n t ,= 知,( 字) 是基本小波的位移和尺度伸缩,其中。 q ,t 都是连续变量,因此称上述定义是连续小波变换( c 耵) 。 连续小波变换有明确的物理意义尺度因子。越大则妒( ;) 越宽,该函数时间分 第二章相关理论 第1 0 页 辨率越低。,( t ) 前增加因子i 0 i 是为了使不同的a 下的们r ( ) 能量相同。 离散小波变换是对连续小波变换的尺度和位移按照2 的幂次进行离散化得到的,又称二 进f j j d , 波变换。离散小波变换可以表示为: h 卜砉仁”冷( 等) m “s , 其中1 l r ( t ) 是小波母函数。小波变换将信号分解为对应不同尺度的近似分量和细节分量 其意义就在于能够在不同尺度上对信号进行分析,而且对不同尺度的选择可以根据不同的目 的来确定。信号的近似分量一般为信号的低频分量,细节分量一般为高频分量。 二维离散小波变换是一维离散小波变换的推广,分解结果为近似分量c a 、水平细节分 量c h 、垂真细节分量c v 以及对角细节分量c d 。 图3 代表圈1 中的第一个字符,图4 代表对该字符进行一次小波分解得到的近似分量和 三个方向上的细节分量。图5 代表对图4 中的近似分量进行二次分解得到的近似分量和三个 方向上的细节分量。 图4图5 3 基于不变矩的特征提取技术 不变矩的基础是字符的统计特征中的矩【8 【2 0 1 【2 l 】 2 4 】【4 4 】。它们是传统的并且广泛应用 的字符识别工具。经典的不变矩由h u ( 1 9 6 2 ) 提出并己在字符识别和其他领域广泛应用。 h u 的不变矩对位移、旋转和尺度具有不变性。m a i t r a ( 1 9 7 9 ) 拓展了h u 的不变矩使其列- i g l 像对比度具有不变性。f l u s s e r 和s u k ( 1 9 9 2 ) 发现了另一种不变矩,它对整体仿真变换具有不 变性。另外,z e m i k e 矩具有旋转不变性而且能够重建原字符。由于不变矩的计算过程中 用到了字符的几何特征和统计特征,所以它对字符的轻微形变不敏感。但在某些不变矩方法 中要计算阶数较高的矩,如z e m i k e 矩在重建字符的过程中要用到8 - 11 阶次的矩,计算量 较高。 给定一个包含待识别字符的灰度图z ,其p + q 阶常规矩( r e g u l a rm o m e n t s ) 定义为: 。若z ( 日m m 饱 ( 1 9 ) 第二章相关理论 第1 1 页 该式对图中所有m 个象素求和。具有位移不变性的( p + q ) 阶中心矩通过把原点移到重心处 得到,定义为: 其中 z = i 1 1 1 0 7 0 0 ) ( 。f 一司p ( _ i u - ) 4 一t i t 0 1 ,2 t r * o o ( 2 0 ) ( 2 1 ) h u 指出: p 一2 考蓊卅+ a 22 ( 2 2 ) 当u2u 。3m o o 时具有大小不变性,从这些v p q 中可以构造出具有旋转不变性的特征e 2 鹦 c ,l 。l 味+ f 岫 e = ( 出。一,扁= ) + ,7 i ( 2 4 ) 图像的整体线性变换定义如下: = 引 其中 蚴f z t - t 卜 ( 2 5 ) ( 2 6 ) h u 和r e i s s 给出了对于图像的整体线性变换具有不变性的矩,它们是建立在中一1 5 矩的 二阶和三阶函数的基础上的。 i i = u2 0u0 2 一u l l 2 = ( u3 0u0 3 一u2 1u 1 2 ) - 4 ( u3 0 u 1 2 - u2 1 ) ( u2 1 1 10 3 。u i2 ) 1 3 = u2 0 ( u2 1u0 3 - u 12 ) - u 1 i ( u3 01 - t0 3 - u2 1u 1 2 ) + u0 2 ( u3 0u 1 2 - u2 1 ) 1 4 = u3 0 u0 2 6u3 0u2 1p l lh0 2 + 6 u3 0 u 1 2u0 2 ( 2 u i i - u2 0 u0 2 ) +u 3 0u0 3 ( 6 u2 0 “i iu0 2 - 8u i l 卜9p2 1u2 0u0 2 1 8u2 iu 1 2 uz ou i iu0 2 + 6 u2 1u0 3u2 0 ( 2 1 1 l 】u2 0 u 位) + 9u 1 2u2 0 u0 2 - 6u 1 2u0 3u i iu2 0 + u0 3u2 0 z e m i k e 矩是输入图像在正交v 函数的跨度空间上的投影。 ,( j ) = r ,( 上) 扩州- 一 其中j = :- n 0 ,i m l s i l i l 一旧i 是偶数。并且 加戛糍若箨等 对一幅数字图像n 阶m 次重复的z e m c e 矩定义为: ( 2 7 ) ( 2 8 ) ( 2 9 ) ( 3 0 ) ( 3 1 ) ( 3 2 ) 卫z 窑 第二章相关理论第1 2 页 * 半m 川如_ ) 】 ( 3 3 ) 其中x + y 三1 ,符号复数共轭运算符。注意到图像坐标必须映射到单位圆范围内,x + y 曼1 。 原图像在单位圆内的部分可以通过任意的精度重建。即 m 、9 ) = n 1 + h n 。 。( j = ! ,) ( 3 4 ) 其中第二个求和是对于所有的i m i n ,所以n - i m i 是偶数。振幅i a “n i 具有旋转不变性 函数 小驯= 障一v ) 其中x + y 1 ,i m l 一 n 且n q m i 是偶数,可以对圆形区域内的字符进行重建。 4 基于投影的特征提取技术 基于投影的特征提取技术【8 】 2 7 】【5 l 】【5 5 】通过一定的规则在字符图像的某些方向或区域 内获得结构信息的分布曲线,以此作为特征向量。一般来说运算量较低,能够反映出字符的 某些结构特征。缺点是提取的信息不够充分,一般要与其它的特征提取技术和分类识别技术 相结合。以达到较高的识别率。不同的技术由于规则的不同,提取的特征的性能有很大差异。 如投影真方图,在水平方向和垂直方向上得到两个直方图,分别对水平和垂直方向上的拉伸 具有不变性,而对字符的旋转很敏感。相反,中心投影曲线就具有旋转不变性。 投影直方圈早【2 】在1 9 5 6 年就应用于o c r 系统了。现在,该技术主要应用于字符、单 词和整句的分割,或者判断输入字符页是否旋转过。其中,水平投影m 0 是确的象素的数 目。欲使该特征具有大小不变性,可以通过规定图像两轴上的条数为固定值( 通过合并邻近 的条) ,再除以图像中的总点数来实现。然而,投影直方图对字符旋转和形变敏感。垂直投 影缸功具有倾斜不变性,而水平投影没有。当测量两个直方图的相异程度时,一种方法是 d = t i ) 一( 蚓l ( 3 6 ) 其中n 是条数。虮、蛐是两个进行比较的直方图。事实上。用累计直方图h x t ) 进行 比较效果更好,即前n 个条的和。 :圭小。) d :妻训一吲圳( 3 7 ) 其中n ,b 是两个进行比较的累计直方图。新的相异程度d 并不象d 那样对原直方 图中主要尖峰的轻微位移敏感 第二章相关理论 第1 3 页 图6 代表图一中第一个字符的水平和垂直投影直方图。 lo “1 图6 水平和垂直投影直方图 中心投影变换【1 5 首先对模式中的所有象素按从模式外部到内部的:f 同光线进行投影。 这样就可以得到一个连续的、凸面的多边形图案。同时也得到一个轮廓链。若将该技术应 用于汉字识别,则那些具有多个轮廓模式的汉字就变换为只有一个外部轮廓。例如,一个具 有多轮廓的模式,汉字“北”,经过中心投影变换得到了它的唯一的外部轮廓,同时得到它 的轮廓链。 在一个二维笛卡尔系统中处理一个二值模式,假设该模式是第k 个字符,即一个大小为 m x n 的位图。f k ( x ,y ) 能在第k 个字符的( x ,y ) 坐标处被二值化,即; f o - 如果该象素为白色t ( 3 8 ) f k ( x ,y ) = 0 1 如果该象素为黑色。 当第k 个字符输入系统时,首先校正模式在位移上的偏差将其重心放在平面坐标的原 点( 0 ,0 ) 处。然后定义: l2 * 豁l n ( 。,) 一7 “( 蛳) l ( 3 9 ) 其中i n 血) 一( z i ) i 如) l 代表平面上两点n 和m 的欧拉距离。字符的大小就可以通过 l 的值来规范化,然后,将原笛卡尔坐标转化为极坐标,通过: tz = 蚺 、= i ,由 ( 4 0 ) 所以, ( t 、) 2 ( 坩, i n o ) ,其中, i j ,) ,0 队2 i 】。 对于任何固定的t e l 0 ,l 】,计算下面的积分: ,l ( 毋) 互上i ( 脚文“国) , 1 7 ( 4 1 ) 其中o e 0 2 砌,f k ( e ) 等于该光线方向上的总的质量分布,该光线指向重心m ( x o ,y o ) ,光 线长度为t tt e ( o ,l ) 。因此,f k ( e ) 也称为平面质量分布中心投影。f k ( e ) 只包含一个变量。 因此也可看作一个一维模式。实际运行中,因为是离散信号,所以丘( e ) 改为: 第二章相关理论 第1 4 页 t , ( 日) = ( 1 f ”胡, i ,t 日) 1 = l i ( 4 2 ) 图7 代表字符“北”和它经过中心投影变换后的轮廓曲线( 左) ,轮廓链( 右) 。从中可 以看出“北”的两个分离的轮廓变成了一个连续的、凸面的轮廓,得到了字符质量分布和形 状的主要信息。 。北 图7 中心投影变换 虽然特征提取技术众多,却没有一种特征提取技术是通用的,在进:| 厅选择的时候,不仅 要考虑到所研究字符本身的特性和特征提取技术的特性,还要考虑o c r 系统中各个环节的 关系和可行性。成功的特征提取技术能大大提高o c r 系统的性能,也会影响到整个系统的 设计和实现形式。所以,特征提取技术的选择和优化是设计o c r 系统的关键一环。 笔画,作为汉字的一个重要特征是本文研究的重点。一旦汉字笔画正确的提取出来 就可以建立以笔画为基础的特征向量,完成汉字特征提取的过程。汉字笔画提取技术在后续 章节中将有详细论述。 2 2 汉字离线识别技术 2 2 1 汉字离线识别及应用 汉字离线识别( o f f - l i n ec h i n e s ec h a r a c t e rr e c o g n i t i o n ) 作为o c r 的一个重要分支, 是种能让机器通过一个光学装置自动识别汉字的技术【i 】。自从i b m 公司的c a s e y 和n a g y 于1 9 6 6 年首次发表关于汉字识别的文章以来,汉字离线识别取得了很j 的进展,提出了很 多理论和方法。 通常原始文稿通过光电扫描仪等输入设备转换成原始的二维图像信号可以是灰度图 像( g r a ys c a l ei m a g e ) 或二值图像( b i n a r yi m a g e ) 。行字切分是将整j i 版面的原始图像先 按书写行分割开,然后再从每行中切分出单个汉字图像。预处理通常包括大小归一化、平滑、 细化或轮廓化等处理过程。特征抽取与分类器的设计是整个系统中最为重要的环节,稳定特 第二章相关理论 第1 5 页 征的抽取与良好性能的分类器的设计是整个识别系统的核心,它们直接决定了识别系统的性 能。文本识别后处理是指对单字识别的结果,利用词义、语义等上下文先验信息进行识别结 果的确认或纠错。 2 2 2 目前研究中所采用的理论方法 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征或 基元( p r i m i t i v e ) ,每种特征或基元又有不同的抽取方法这就使得判别方法和准则以及所 用的数学工具不同形成了种类繁多、形式各别的汉字识别方法1 1 5 2 7 1 1 3 1 1 1 4 9 】。总的来说, 不同的特征抽取和分类器的设计方法决定了识别系统采用不同的处理) 7 法,通常可以分为结 构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经网络方法 等。汉字笔画提取作为结构模式识别方法中的重点和难点是本文研究的重点。 1 结构模式识别方法 结构模式识别方法是人们最初用来进行手写汉字识别研究的方法,一般需要先抽取笔段 或基本笔画作为基元,由这些基元再构成部件( 予模式) ,由部件的组合来描述汉字( 模式) , 最后再利用形式语言及自动机理论进行文法推断即识别。然而,人们美好的初衷并未能如 愿以偿,这是因为从汉字图像中抽取笔画等基元比较困难。通常,为了抽取笔画需要将原始 点阵图像进行细化处理,但是细化算法不仅速度慢。而且容易产生伪笔画段,如将一个四叉 点变成了:二个三叉点,给准确抽取基元造成了困难。为了解决这个问题有些学者试图不经 过细化直接从汉字点阵图像中抽取笔画等基元,但效果仍不尽如人意。因此,有些研究人员 放弃了抽取笔画或笔段作为基元然后进行文法推断的思路,采用汉字轮廓结构信息作为特 征这一方案的识别结果优于基于基元抽取的方法但识别方法需要进行松弛迭代匹配,耗 时严重,而且对于笔画较模糊的汉字图像,抽取内轮廓会遇到极大困难外轮廓的抽取也不 太稳定。也有些学者采用抽取汉字图像中关键特征点来描述汉字汉字的关键特征点包括端 点、折点、交点、歧点、背景特征点、局部曲率最大点等,但是特征点的抽取易受噪声点、 笔画的粘连与断裂等影响。 总之,早期的离线手写汉字识别研究者将精力主要集中在如何准确地抽取基元、轮廓、 特征点等能够反映汉字结构信息的特征上,并且在假设这些特征已经比较准确地抽取完毕的 前提下研究文法匹配、属性图匹配、松弛迭代匹配等。然而,单纯采用结构模式识别方法 的离线手写汉字识别系统,识别率较低这就促使人们将目光转向了统计模式识别方法。 第二章相关理论 第1 6 页 2 统计模式识别方法 与结构法相比,统计法具有良好的抗噪声、抗干扰的性能,主要体现在统计特征的抽取 和模式匹配方法上。用于离线手写汉字识别的统计特征,根据特征抽取区域的不同可粗略地 分为全局统计特征和局部统计特征两大类。 ( 1 ) 全局统计特征 全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要包括: 全局变换特征:对汉字图像进行各种变换,利用变换系数作为特征,常用的变换有f o u r i e r 变换、h a d a m a r d 变换、d c t 变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论