已阅读5页,还剩53页未读, 继续免费阅读
(信号与信息处理专业论文)基于模板匹配的手写体字符识别算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:人类文明的发展离不开信息的传递。文字一直是人们传递信息的一个重要 媒介,承载着记录人类文明的重要使命。随着科技的发展,积累的文字信息日益 增多,有效的存储和利用这些文字信息成为一个亟待解决的问题。光学字符识别 的出现为这一问题提供了解决方法。手写体数字识别是光学字符识别的重要分支, 因其在金融、邮政、医疗、交通、教育等领域中广泛的应用而日益被重视。目前, 已有多种手写体数字识别算法,但都很难满足手写体数字识别应用时对识别率近 乎百分之百的要求,所以,几乎没有能够实际应用的识别算法。 本文针对手写体数字识别对正确识别率及识别精度要求高的问题,在图像模 式识别的理论基础上提出了一种基于数字字符几何轮廓特征的模板匹配改进算 法,并利用该识别算法实现了针对医院信息统计表和医院处方笺的手写体字符识 别信息录入系统。具体工作内容如下: ( 1 ) 提出基于模板匹配的手写体字符识别算法。该算法考虑数字字符笔画简 单的特点,以字符的质心为参考中心,利用字符的整体几何轮廓特征作为分类的 依据,提取距离向量作为特征,使用改进的模板匹配算法设计分类器来进行字符 识别。引入缩放因子和变异系数进行分类判别,增加了分类的准确性和可靠性。 在样本库的设计上有所改进,采用多种标准字体书写的数字字符作为模板,减小 了样本库的规模。 ( 2 ) 利用v c + + 6 0 编程软件实现了手写体字符识别信息录入系统。在系统中 设计了针对医院信息统计表和校医院处方笺中手写体字符的定位提取算法、多字 符分割算法,可自动完成字符的提取、识别、结果输出和自动存储等多种功能。 ( 3 ) 采集不同人群的手写体字符作为样本对算法进行验证。实验结果表明, 本文提出的算法获得了较高的识别率,识别速度快,具有一定的抗噪能力,对待 测字符的大小和位置的具有良好的鲁棒性,且具有较高的可行性和有效性,在本 文所设计的信息录入系统中应用良好。 关键词:字符识别;模板匹配;几何轮廓特征;缩放因子;信息录入系统 分类号:【t p 3 图3 4 幅,表2 个,参考文献4 1 篇。 a b s t r a c t a b s t r a c l : t h ed e v e l o p m e n to fh u m a nc i v i l i z a t i o nc a n tb es e p a r a t e df r o mt h et r a n s m i s s i o no f m e s s a g e s t e x tm e s s a g eh a s b e e na ni m p o r t a n tm e d i u mf o rp e o p l et o t r a n s m i t i n f o r m a t i o nw h i c hi sc h a r g e dw i t ht h ei m p o r t a n tr e s p o n s i b i l i t yo fr e c o r d i n gh u m a n c i v i l i z a t i o n w i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , t h ea c c u m u l a t i o no ft e x t m e s s a g ei si n c r e a s i n g h o wt oe f f i c i e n t l ys t o r e a n dm a k eu s eo ft h e s et e x tm e s s a g e s b e c o m e si sn e c e s s a r yq u e s t i o nt ob eh a n d 1e d o p t i c a lc h a r a c t e rr e c o g n i t i o np r o v i d e sa s o l u t i o nt ot h i sp r o b l e m a sa ni m p o r t a n tb r a n c ho fo p t i c a lc h a r a c t e rr e c o g n i t i o n , h a n d w d t t e nn u m e r a lr e c o g n i t i o nh a sb e e nw i d e l yu s e di nt h ef i e l d so ff i n a n c e ,p o s t a l , m e d i c a l ,t r a n s p o r t a t i o n ,e d u c a t i o n a la n dh a sg o tm o r ea n dm o r ea t t e n t i o n a tp r e s e n t , t h e r ea r em a n yh a n d w r i t t e nn u m e r a lr e c o g n i t i o nm e t h o d ,b u tv e r yf e w c a nb ea c t u a l l y u s e dp r a c t i c el i f ef o rh a n d w r i t t e nn u m e r a lr e c o g n i t i o nr e q u i r e sa l m o s t10 0 r e c o g n i t i o n r a t e o nt h eb a s i so ft h et h e o r yo fi m a g ep a t t e r nr e c o g n i t i o n ,a ne n h a n c e dt e m p l a t e m a t c h i n ga l g o r i t h mb a s e do nc h a r a c t e r sg e o m e t r i co u t l i n ef e a t u r ei sp r o p o s e di n t h i s p a p e rt om e e tt h er e q u i r e m e n t so fh i g hc o r r e c tr e c o g n i t i o n r a t ea n dr e c o g n i t i o na c c u r a c y a ni n f o r m a t i o ni n p u ts y s t e mw h i c hr e c o g n i z e sh a n d w r i t t e nc h a r a c t e r s o fh o s p i t a l i n f o m l a t i o nt a b l e sa n dc a m p u sh o s p i t a lp r e s c r i p t i o n si sa l s oc r e a t e d t h em a i nw o r ko f t h i sp a p e ri sa sf o l l o w s : ( 1 ) t h e 百o b a lg e o m e t r i co u t l i n ef e a t u r ei su s e da sa c r u c i a lb a s i sf o rc l a s s i f y i n ga c h a m c t e la s i m p l ea n de a s yo p e r a t i n ge n h a n c e dt e m p l a t em a t c h i n g m e t h o di se x p l o i t e d t od e s i g 皿t h ec l a s s i f i e r t h ei n t r o d u c t i o no fs c a l i n gf a c t o ra n dc o e f f i c i e n to fv a r i a t i o n i n c r e a s et h ec l a s s i f i c a t i o na c c u r a c ya n dr e l i a b i l i t y t oa c c e l e r a t et h ep r o c e s s m gs p e e d , t h ed e s i g no ft h et e m p l a t eb a s ei si m p r o v e d am u c hs m a l l e rt e m p l a t eb a s eu s i n g s t a n d a r df o n tn u m e r a l si n s t e a do fh a n d w r i t t e nn u m e r a l si sc r e a t e d ( 2 】a ni n f o r m a t i o ni n p u ts y s t e mi sc r e a t e db yu s eo fv c + + 6 0p r o g r a m m i n g s o f l w a r e i nt h i ss y s t e m ,s p e c i a lc h a r a c t e rl o c a t i o na l g o r i t h mb a s e do ni m a g em a t c h i n g 剐 1 dm u l t i p l ec h a r a c t e r ss e g m e n t a t i o na l g o r i t h mb a s e d o nc h e c k b o xo rb l a n kp i x e l c o h h n na r ed e s i g n e dd i r e c ta th a n d w r i t t e nn u m e r a l si nh o s p i t a li n f o r m a t i o nt a b l e sa n d c a m p u sh o s p i t a lp r e s c r i p t i o n s t h i s i n f o r m a t i o n i n p u ts y s t e m c a na u t o m a t i c a l l y 舢阻l i z ec h a r a c t e r s ,d i s p l a ya n ds t o r et h ed a t aw h i c hs i g n i f i c a n t l yi m p r o v e s t h e e f f i c i e n c y ( 3 ) e x p e r i m e n tr e s u l t si n d i c a t et h a ta l g o r i t h me f f e c t i v e l yi n c r e a s e st h ec o r r e c t r e c o g n i t i o nr a t e ,a c c e l e r a t e st h es p e e do fr e c o g n i t i o na n dr e n d e r sg o o dr o b u s t n e s sf o r t h es i z ea n dl o c a t i o no ft h ec h a r a c t e r si nt h e i m a g e t h ei m p l e m e n t a t i o no ft h e i n f o r m a t i o ni n p u ts y s t e mv a l i d a t e st h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h ea l g o r i t h m k e y w o r d s :c h a r a c t e rr e c o g n i t i o n ;t e m p l a t em a t c h i n g ;g e o m e t r i co u t l i n ef e a t u r e ; s c a l i n gf a c t o r ;d a t ai n p u ts y s t e m c l a s s n o :【t p 3 v 致谢 本论文的工作是在我的导师刘杰教授的悉心指导下完成的,刘杰教授严谨的 治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来刘杰 教授对我的关心和指导。 刘杰教授悉心指导我完成了实验室的科研工作,在学习上和生活上都给予了 我很大的关心和帮助,在此向刘杰教授表示衷心的谢意。 刘杰教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心 的感谢。 在实验室工作及撰写论文期间,安羽、张芳萍、李晨、高立宁等同学对我论 文中的手写体数字识别研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人、朋友、舍友和实验室的师弟、师妹,他们的理解和支持使 我能够在学校专心完成我的学业。 1 引言 1 1 课题研究的背景和意义 信息是人类生活交流必不可少的工具,语言文字是其最主要的表现形式。信 息随着人类文明的发展而逐渐积累,文明越发达,产生的信息量就越大,所积累 下来的语言文字信息也越多。这些文字信息与人们日常生活息息相关,如银行账 户、病例记录、通信往来、教育招考等。另外,从古至今也积累下来的大量文字、 图形等史料文献。若保管存储不当,很可能造成信息的流失或泄露,因此,如何 完善的存储、检索和处理这些语言文字信息成为一个亟待解决的问题。 电子计算机的出现为这一问题提供了解决的方法。计算机是快速处理和存储 大量信息的有效工具,利用计算机进行文字信息处理,首先要将所需处理的文字 信息转化成计算机能够识别的形式,即文字信息的识别量化。古今文献资料、银 行支票、统计报表、邮政信件等存储在纸质媒体上的信息,虽然可以通过扫描设 备将其以图像的形式存储到计算机中,但计算机仍无法对其中所含有的文字信息 进行检索、修改等直接处理。能否有效地将文字信息转化为计算机能够直接处理 的形式,是影响信息处理效率的一个重要因素。光学字符识别技术( o p t i c a l c h a r a c t e rr e c o g n i t i o n ,o c r ) 正是为了解决这一问题而出现l lj 。光学字符识别是 指采用电子设备,如扫描仪、摄像机、数码相机等,获取纸质媒介中的字符信息, 通过检测暗、亮显示模式确定字符的形状表征形式,然后采用字符识别算法将形 状表征形式转换成计算机能够识别的符号表征形式的过程,即将文字信息由图形 表征转换成其符号表征。 光学字符识别是模式识别学科理论的一个传统应用领域,识别技术还运用到 图像处理、统计决策理论、模糊数学、信息论、人工智能、计算机科学等多门学 科知识,是一门综合性的信息处理技术。此外,字符识别是一种具有不确定性的 技术,正确识别率只能趋近于1 0 0 却无法达到,其原因在于影响识别结果的不确 定性因素太多,例如:书写习惯、印刷品质量、获取扫描图像的质量、识别方法、 训练及测试样本等等,这些因素或多或少都会影响识别的正确率,造成识别结果 的差异,相同文字的不同扫描版本的识别结果也可能不同。因此,以光学字符识 别技术为基础的识别系统,除了应该有高效的识别算法外,识别系统的稳定性、 便捷性及容错性亦是决定系统好坏的重要因素。 手写体字符识别是光学字符识别的一个分支,它分为联机手写体字符识别和 脱机手写体字符识别。二者的区别是联机手写字符体识别过程是实时的,可以利 用字符在书写时所捕获的笔画顺序信息辅助识别;脱机手写体识别过程则是非实 时的,是对已经完成书写的字符进行识别,不能获得字符书写时的笔画顺序信息。 所以,脱机手写体字符识别的难度要大于联机手写体字符识别。 本文主要研究的是脱机手写体数字( 阿拉伯数字) 识别。脱机手写体数字识别具 有重要的理论价值,主要体现在以下几个方面: ( 1 ) 脱机手写数字识别技术在日常生活的各个领域应用广泛,如财务报表系 统、银行支票处理系统、邮政分拣系统、教育招考系统、医疗信息统计系统等。 在手写体数字识别技术出现以前,这些领域的信息处理工作都采用手动录入的形 式,需要投入大量的人力物力,工作量大且效率不高。手写数字识别技术的出现 满足了信息自动化办公的需求,能大大提高工作效率; ( 2 ) 手写体数字识别为各国学者提供了共同研究的平台。阿拉伯数字字符是 世界各国通用的语言符号,对其进行识别研究基本上与文化背景无关,世界各地 的科研工作者可以在统一的平台上比较和探讨各自的研究; ( 3 ) 数字字符笔画简单、数量少、易操作,这些特点使其适合作为新理论的 分析和验证的工具。模式识别领域和人工智能领域的很多新理论和算法都是先以 数字字符为基础进行分析研究,检验理论的有效性和可行性,然后再应用到更加 复杂的领域当中去的,最典型的例子是人工神经网络的研究 2 1 。 与数目繁多的汉字相比,阿拉伯数字只有“0 ”“9 ”十个字符,其识别过程 似乎非常简单,难度要小于手写体汉字识别,但事实并非如此。目前,已经出现 了一些手写体汉字识别工具并被应用到实际中去,但是专门的手写体数字识别工 具极少。实验测试结果显示,脱机手写体数字识别的正确率仅仅高于脱机手写体 汉字识别的正确率,并没有印刷体汉字和联机手写体汉字识别的正确率高。脱机 手写体数字识别如此困难的原因主要体现在以下几点: ( 1 ) 书写习惯的不同造成了不同的人对同一个数字的书写方式千差万别,每 个数字的手写体书写都有无数多种形式,但训练样本库、测试样本库和模板库的 数量的却是有限的,因此,很难实现具有通用性的手写体字符识别系统; ( 2 ) “0 ”一“9 ”十个字符虽然简单,但这十个字符却可以有无数种组合,对 精确的多字符识别研究是一个挑战。 ( 3 ) 数字字符所含有的能够用于分类识别的特征信息很少,要找出能够区分 各个数字字符的规律特征较为困难; ( 4 ) 数字字符识别的正确率要求远大于文字识别,一个数字的错误识别可能 会造成识别结果的千差万别,且于大多数数字字符的出现没有上下文环境,人们 也无法像识别汉字一样通过相邻字符推断当前字符应该是什么字符。 此外,由于信息处理通常会有巨大的工作量,所以要求识别算法应具有较高 的处理速度。因此,研究正确率高和处理速度快的脱机手写体数字识别算法是一 项具有很大挑战性的工作,且有重大的理论价值和实际应用意义。 1 2 手写体字符识别的研究现状 字符识别技术从出现至今,已有近百年的历史。字符识别技术研究的发展具 体可分为以下三个阶段: ( 1 ) 早期阶段 字符识别研究的历史可以追溯到1 9 0 0 年,当时俄罗斯科学家t y u r i n g 试图利 用字符识别给视觉上有残疾的人提供帮助。1 9 2 9 年,德国科学家t a u s h e c k 最先提 出光学字符识别的概念并申请了专利;后来,美国科学家h a n d e l 也提出了利用字 符识别技术进行文字识别的想法;第一个字符识别工具出现在1 9 4 5 年左右。字符 识别的早期工作专注于单个的印刷体字符的识别和规范的手写体数字字符的识别 方面,那时的印刷体字符识别一般采用模板匹配的识别方法,将单个字符图像和 图像库里所有的字符图像进行比较。另一方面,在中国、日本、希腊和阿拉伯等 国家,印刷体和手写体字符的数字识别技术也正处于启蒙阶段。5 0 年代,有效的 字符识别设备开始商用,第一次引入了采用电子输入板获取书写时笔尖在x y 坐 标系数据的技术,这是联机手写体字符识别研究工作的开端。直至1 9 6 5 至1 9 7 0 年之间,才开始有一些简单的字符识别产品,例如采用基于印刷体数字的邮政编 码识别系统识别邮件上的邮政编码,按照识别结果帮助邮局进行邮件的分拣工作。 参考文献【3 提出了一个很好的联机字符识别算法【3 l 。 ( 2 ) 发展阶段 1 9 8 0 年以前,字符识别技术研究遇到的最大的问题是没有强大的计算机硬件 和数据获取设备。随着信息技术的迅猛发展和计算机硬件水平的提高,字符识别 技术也呈现出快速发展的势头,出现了多种字符识别方澍4 矧。f u k u n a g a 提出了基 于统计模式识别的字符识别方澍7 1 ,但是该方法没有被实际应用。与f u k u n a g a 提 出的方法相对的是基于结构模式识别的字符识别方法,该方法用字符和图像进行 匹配,被成功地应用到字符图像的识别分析中。至此,基于统计学的字符识别方 法和基于结构的字符识别方法开始在众多字符识别系统中得以应用。但字符识别 研究主要集中在依据字符形状进行识别的技术方面,没有利用任何的语义信息。 一个典型字符识别系统是i b m l 2 8 7 ,它利用数字技术和模拟技术的结合实现了对较 为工整的手写体字符的识别。 ( 3 ) 提高阶段 在9 0 年代早期,采用人工智能的方法将图像处理技术和模式识别技术有效地 结合在一起,设计出更加复杂、精确的字符识别算法。在算法实现阶段,需要有 较高分辨率的输入数据,且采用了全面广泛的数字集群技术。除了有强大的计算 能力和精确的电子设备,例如更高分辨率的扫描仪、摄像机以及更精确输入板, 还出现了更高级、更有效的方法理论来支撑字符识别算法的研究,例如人工神经 网络理论、模糊集合理论、隐式马可夫模型,自然语言处理技术以及支持向量机 理论等。目前,有限制手写体字符识别设备在一些特点的应用领域已经取得了令 人较为满意的结果,出现了很多字符识别软件产品,例如识别英文的o m n i p a g e , 识别中文的清华紫光o c r ,汉王o c r 、中晶尚书o c r 等。然而,要实现完全无 限制的联机或脱机手写体字符识别,达到“机器模拟人类流利阅读”的最终目标, 手写体字符识别技术还有很长的路要走。 1 3手写体字符识别方法概述 1 3 1识别流程 对同一幅含有手写体字符的图像进行识别时,不同的识别系统的识别流程不 尽相同。一般而言,字符识别过程都会涉及到以下几个主要处理阶段:( 1 ) 图像 获取;( 2 ) 预处理;( 3 ) 特征提取;( 4 ) 分类识别;( 5 ) 数据输出。常用字符识 别流程图如图1 所示。 l图像获取 上 l预处理 上 i特征提取 i 1 分类识别 上 i 数据输出 图1 常用字符识别流程图 f i g u r e1g e n e r a lf l o wc h a r to fc h a r a c t e rr e c o g n i t i o n 各处理阶段的具体工作内容如下: 4 ( 1 ) 图像获取 图像获取是从纸张或其他媒介通过摄像机、扫描仪和照相机等设备获得手写 体字符的图像的像素信息的过程。该阶段应尽量保证所获得的图像具有较高的分 辨率和较少的噪声干扰,以便后续识别工作的进行。 ( 2 ) 预处理 数字字符识别的准确性与图像的质量有密切的关系,噪声干扰和失真会大大 降低图片质量。图像预处理的主要目的是消除图像中的无关信息,恢复有用的真 实信息,增强相关信息的可检测性,最大程度地简化数据,从而提高特征抽取、 匹配和识别的可靠性【8 】。常用的预处理方法有二值化、去噪、图像增强、细化、字 符去粘连、倾斜校正、断笔补偿等。 ( 3 ) 特征提取 特征提取是手写体字符识别的一个重要处理阶段,影响分类器的设计及性能。 特征提取把字符图像从高维灰度空间映射到反映字符本质区别的低维特征空间, 以便在低维空间中更好的进行分类。高质量的特征是正确分类的保证,因此选择 稳定、有代表性的、便于分类的特征十分必要。特征提取的目的是“从原始数据 中提取与分类最相关的特征,使得类内距离最小,类间距离最大”【9 】。对于所选择 的特征,既要易于获取,又要能够保证分类的准确性。常用的特征提取方法有基 于结构特征的提取方法和基于统计特征的提取方法。 ( 4 ) 分类识别 字符分类识别通过设计分类器完成。分类器设计是由事先学习或训练获得的 决策判别函数或文法规则,根据已经提取到的字符特征,对待识别的手写体字符 进行类别划分的过程。判别决策函数学习或训练的过程可以手动完成或由计算机 自动完成,也可以两种方法相结合。常用的分类器有模板匹配分类器,统计特征 分类器,逻辑特征分类器,句法结构分类器,模糊判别分类器,神经网络分类器 竺【l o 】 寸0 ( 5 ) 数据输出 数据输出是将经分类器分类后获得的字符识别结果输出到显示界面或其他接 收设备。为了提高识别率,输出之前通常会进行相应的后处理,如利用语法逻辑 及文件上下文信息等对识别结果进行一定的修正,改进识别的整体结果。 1 3 2识别方法 从手写体字符识别技术研究至今,经过长期不懈的研究实践,已经提出了多 种能够实现手写体字符的分类识别方法。根据识别时采用的特征提取和分类方法 的不同,可将手写体字符识别方法大致分为以下五种: ( 1 ) 基于统计特征的方法 基于统计特征的方法常选取同一类字符所共有的、相对稳定的统计特征作为 字符分类识别时的特征向量。这种识别方法的理论基础是同类字符具有相同属性。 常用的统计特征有字符在水平或垂直方向投影的直方图特征、字符在二维平面的 位置特征、矩特征和字符经频域变换或其它变换后所得到的特征等。基于统计特 征的识别方法中最常用的是基于字符像素点分布的方法,该方法把字符图形分为 若干小块,统计每一小块中的黑色像素点的分布或黑色像素点的个数与该小块中 总像素点个数的比例,将字符图像归一化为统一维数的特征矢量作为字符的特征。 然后根据特征矢量进行匹配,求出待测字符和模板库中字符的某种距离特征,以 此作为分类的依据。基于统计特征的字符识别方法对于形似字符区分能力较弱, 通常用于对字符进行粗分类。 ( 2 ) 基于结构特征的方法 基于结构特征的方法以同类特征具有相似结构为基础。结构又叫句法,是组 成字符的基元之间的关系。该方法的实质是将字符映射到基元所组成的结构空间 进行识别【l l 1 2 j 。识别过程是首先提取字符的基元,然后利用形式语言和自动机理论, 采用树匹配、图匹配、词法分析和知识推理等方法对字符的结构进行分析。每一 类字符都用一个结构表示,对一个待识别的字符,抽取该字符的基元来构造该字 符样本结构,然后分析此字符的样本结构与哪类字符结构相匹配,从而推断出该 字符属于哪个类。基于结构特征的方法比基于统计特征的方法更适合于识别字型 相近的字符。但是结构特征的描述和比较需占用大量的计算资源和存储空间,因 此算法在实现上相对复杂、识别速度慢【l 3 1 。 ( 3 ) 基于模糊模式的方法 模糊模式方法的基础是1 9 6 5 年z a d e h 提出的模糊集理论。该理论根据一定的 模糊化规则,把原有的一个或几个特征变量分成多个模糊变量,使每个模糊变量 仅表达原来特征的某一局部特性,用这些新的模糊特征的集合来代替原来的特征 进行分类判别。新的模糊特征可以将原有特征与分类结果之间的非线性关系转化 为模糊特征与分类结果之间的线性关系,更准确的反映问题的本质,便于分类识 别。得到模糊特征后,根据每个模糊特征定义隶属度函数,构造模糊集,计算待 分类模式与已知模式之间的模糊程度,以模糊程度为依据完成分类。该方法能反 映字符的整体特性,且表现出良好的抗干扰和抗畸变特性,但是建立准备合理的 隶属度函数较为困难【l4 1 。 ( 4 ) 基于逻辑特征的方法 基于逻辑特征方法利用逻辑表达“是”或“非”来对匹配状态进行质的判别【l 5 1 。 6 该方法所选择的特征应该是除本模式之外其他模式不可能具有的唯一特性。基于 逻辑特征的方法建立了关于信息的组织表现、目标搜索以及匹配的完整理论体系, 具有一对一的分类特性,分类速度快,但对有噪音、畸变及缺损的字符,识别效 果不好。 ( 5 ) 基于人工神经网络的方法 人工神经网络是由大量处理单元通过不同形式连接而成的网络,具有与人脑 工作原理十分相似的高度并行性、良好的自适应性、联想记忆功能及自学习功能 等特点,被广泛应用于手写体字符识别研究。该方法可以处理许多非线性的、环 境信息复杂、背景知识模糊、推理不明确的问题。人工神经网络通过对人脑进行 抽象、简化和模拟来反映人脑的基本特性【i6 1 。人工神经网络理论用于字符识别时, 具有较好的自适应性和较高的分辨力,允许字符有较大的畸变、倾斜或是缺损。 但算法在收敛性、学习效率及分类识别速度等方面还存在一些问题亟需解决。 以上几种识别方法都能实现手写体字符的识别,它们各自特点不同,所解决 问题的侧重点也不同。应针对待识别字符的特点及不同的识别需求,选择合适的 识别方法,从而达到最大的识别效率。 1 4 本文研究内容 本文主要从以下几个方面开展研究工作: ( 1 ) 了解手写体字符识别技术研究在实际应用中的重要意义,广泛查阅相关 书籍与最新文献,深入研究国内外学者在此课题上取得的成果,充分了解手写体 字符识别技术的原理及方法; ( 2 ) 研究在字符识别中起决定性作用的特征提取算法和分类识别算法,根据 手写体数字字符的特点,基于字符整体几何轮廓特征,提出使用模板匹配分类器 的改进手写体字符识别算法,并用v c + + 6 o 进行编程实现。 ( 3 ) 完成手写体字符信息录入系统的设计和编程实现。在系统中具体实现了 手写体字符提取、预处理、特征提取、字符分类识别及结果输出等功能。针对医 院信息统计表、处方笺的中的手写体字符特点,设计手写体字符定位提取、去除 边框、多字符分割等算法。 ( 4 ) 采集测试样本,对算法及系统性能进行验证分析。 本文共分为五章,组织结构如下: 第一章介绍手写体字符识别技术的研究背景、意义,分析国内外手写体字符 识别的研究现状及存在的问题,阐述手写体字符识别技术的常用的分析流程和方 法,并给出本文的主要研究内容和整体结构; 第二章介绍手写体数字识别中的预处理技术,分析预处理技术的必要性,结 合手写体字符图像和识别方法特点选取本文所用的预处理算法。详细阐述二值化、 去噪、细化及倾斜校正等预处理技术的原理、实现步骤,并演示处理效果。 第三章深入分析常用的几种模板匹配算法原理及实现步骤,根据手写体数字 字符的特点,提出基于模板匹配的手写体字符改进算法。算法以手写体数字字符 的质心作为参考点,根据字符的几何轮廓特征计算距离向量特征作为分类的依据, 引入缩放因子的概念辅助分类判别,使用变异系数计算特征向量间的离散程度, 并以此为判别标准进行模板匹配分类识别。 第四章编程实现本文所提出的算法及其它三种模板匹配算法,采集丰富的测 试样本,利用字符识别算法的性能评判标准对算法进行验证。实现手写体字符信 息录入系统,可实现对单个、多个手写体数字字符的识别,以及对医院信息表及 处方笺中手写体数字字符的定位提取、分割、识别和存储等操作。 第五章总结本文工作,提出本文算法的进一步改进方案。 2 手写体字符识别中的预处理技术 预处理是手写体字符识别技术的基本要求,是手写体字符处理与分析的基础。 预处理技术对脱机手写体字符识别的作用远大于联机手写体字符识别,其原因在 于脱机手写体字符在识别之前要进行一系列的图像获取操作。首先要将写在纸质 或其他媒介上的手写体字符经扫描或摄像转换为模拟信号,然后,经模数转换电 路转换成计算机能够识别的具有灰度值的数字信号。这些操作会引入噪声或干扰, 影响手写体字符识别过程或结果,因此需要采取一定的方法消除这些干扰。脱机 手写体字符识别中的干扰包括:纸张或扫描质量不佳及模数转换所产生的孤立噪 声点,笔迹粗细不同所造成的非特征性干扰,书写不规则而产生的字符倾斜、粘 连,间断等。这些噪声或干扰不可避免的会影响图像的清晰程度,降低图像的质 量。轻者表现为图像不干净,细节难以看清;重者表现为图像模糊不清,字符特 征被淹没,给分类识别带来极大的困难。 为了便于进行手写体字符识别的后续操作,提高正确识别的概率,必须对字 符图像进行相应的预处理操作。图像的预处理技术主要包括图像复原和图像增强 两种。图像复原是通过使用退化现象的先验知识重建或恢复一幅退化图像,图像 增强则是将图像中使人感兴趣的特征有选择的突出,设法改善图像的视觉效果, 提高图像的可读性【l7 | 。常用的手写体字符预处理技术有二值化、平滑、去噪、图 像增强、细化、倾斜校正、大小归一化、字符去粘连等。 本文所研究的主要识别算法基于字符的整体几何轮廓特征,对畸变及干扰有 一定的适应性。预处理阶段仅需进行二值化、去噪、细化和倾斜校正工作。 2 1二值化 二值化是把数字灰度图像转换灰度值为0 和1 的二值图像的过程。二值化的 作用是图像分成目标和背景两个部分,消除处理过程中不需要的灰度信息,加快 处理速度。 最常用的二值化方法是设定阈值t ,根据像素点的灰度信息用t 将图像分成 大于t 的像素群和小于t 的像素群。阈值是由用户指定或通过特定算法生成的, 如果图像中某像素点的灰度值小于阈值t ,将像素的灰度值置为0 或2 5 5 ,否则设 置为2 5 5 或0 t 1 8 】。 二值化的表达式如式( 1 ) 所示: f ( x ) _ 1 2 0 5 或5 或2 5 言雾 根据阈值t 的选择方法,可以将二值化分为以下几种: ( 1 ) 整体阈值二值化 整体阈值二值化的阈值t 仅由像素点的灰度值确定。该方法中阈值t 是根据 实验数据或先验知识设定,或根据图像的灰度直方图确定。 ( 2 ) 局部阈值二值化 局部阈值二值化方法的阈值t 由像素的灰度值及周围像素点局部灰度特性确 定。对干扰严重、书写质量差的字符,采用局部阈值二值化能够获得较为满意的 处理结果。周围像素点局部灰度特性不同可产生不同的局部阈值二值化方法【1 9 】。 ( 3 ) 动态阈值二值化 动态阈值二值化方法中阈值t 的选择不仅与像素点的灰度值及其周围像素点 的灰度值有关,还与像素点的相对位置有关。低质量图像或是单峰直方图图像可 以采用该方法进行二值化。 除了上述几种选择单一阈值的二值化方法,还可以选择双阈值和多阈值方法 进行二值化。 局部阈值二值化和动态阈值二值化能处理质量较差的图像,但是由于算法的 复杂性,处理时间较长。此外,采用这两种方法进行阈值选择时,可能会出现整 体阈值选择所没有的失真。因此,通常采用整体阈值二值化方法进行二值化处理。 本文采用整体阈值二值化方法进行二值化,二值化的效果如图2 所示,图2 ( a ) 是二值化处理前的图像,图2 ( b ) 是二值化处理后的图像。 匦正团圃圃 图2 ( a ) 二值化处理前 f i g u r e 2 ( a ) i m a g eb e f o r eb i n a r i z a t i o n 皿固呵 图2 ( b ) 二值化处理后 f i g u r e 2 ( b ) i m a g ea f t e rb i n a r i z a t i o n 图2 图像二值化效果 f i g u r e 2r e s u l to fi m a g eb i n a r i z a t i o n 1 0 2 2 去噪 二值化处理后的字符图像通常在背景中有黑色孤立点噪声或是在字符中有白 色孤立点噪声,这些孤立点噪声又称为椒盐噪声。椒盐噪声会干扰字符识别的过 程,改变图像轮廓,影响特征提取精度以及干扰分类识别,因此,在识别之前需 要采用相应的算法将其去除。本文采用) t , - 令l l 域滤波的方法去除图像中的椒盐噪声。 八邻域滤波是在3 3 的像素点阵中,如果当前处理像素点f ( i ,j ) 的灰度值为1 , 而其相邻的8 个像素点,砸j + 1 ) ,f ( i , j - 1 ) ,f ( i 一1 d ) ,f ( i + l j ) ,f ( i 1 j 1 ) ,f ( i + l , j - 1 ) ,f ( i - 1 j + 1 ) , f f i + l , j + 1 ) 均为0 时,则将当前像素点f ( i ,j ) 的灰度值设置为o ,如图3 所示;反之, 如果当前处理像素点f ( i ,j ) 为0 ,而其相邻的8 个像素点f ( i j + 1 ) ,f ( i j 一1 ) ,f 【i l j ) , f ( i + 1 j ) ,f ( i - 1 j - 1 ) ,f ( i + l , j - 1 ) ,r ( i 1 j + 1 ) ,f f i + l , j + 1 ) 均为1 时,则将当前像素点f ( i ,j ) 的 灰度值设置为1 。 图3j r , e l l 域滤波示例 f i g u r e 3d e m o n s t r a t i o no f8 - n e i g h b o r h o o df i l t e r 由于字符书写具有连贯性,如果中心像素点f 0 ,j ) 的八个邻域都是黑色象素, 中心像素点f 0 ,j ) 也应该是黑色象素点,如果f ( i ,j ) 是白色像素点,很可能是在图像 采集过程中出现了噪声或干扰使得原有的黑色象素点的变成了白色像素点,所以 将f ( i ,j ) 改为黑色像素点具有合理性;反之亦然。因此,八邻域滤波可有效去除椒 盐噪声。图4 为含有椒盐噪声的字符图片,图5 为采用八邻域滤波后的效果。 2 3细化 厂 。 i 图4 椒盐噪声 f i g u r e 4s a l ta n dp e p p e rn o i s e 厂 i 图5 八邻域滤波效果 f i g u r e 5r e s u l to f8 - n e i g h b o r h o o df i l t e r 由于书写时所用的笔不同,手写体字符在笔画宽度上存在一定的非特征性差 异,所以大多数的字符识别算法都需要进行细化处理,消除这些非特征性差异对 字符识别的影响。细化是采用搜索算法逐步去除字符笔画上的轮廓点,得到笔画 是单位像素宽度的字符骨架的过程。通过细化处理可以去除字符笔画宽度差异, 减少图像的冗余信息量,保留描述字符几何及拓扑性质的骨架特征,提高识别精 度。 常用细化算法需要满足以下几个基本条件: ( 1 ) 将所有超过一个像素宽度的非均匀笔画处理成均匀的具有像素宽度的骨 架轮廓线。 ( 2 ) 细化不能破坏原笔画的连续性和拓扑性。 ( 3 ) 细化后的笔画应尽可能平滑,几何失真小。 细化后的字符骨架的所占用的信息存储量比原字符的占用的信息存储量要少 得多,降低了数据处理的工作量。但是细化往往会造成新的畸变,为识别算法的 实现带来干扰和困难,且细化算法本身也要产生处理时间。因此,必须采用性能 良好的细化算法。比较经典的细化算法有h i l d i t c h 细化算法【2 0 1 、p a v l i d i s 细化算法 【2 l 】和r o s e n f e l d 细化算法【埘。上述几种算法都是在程序中直接对像素点进行运算, 根据运算结果判定该像素点是否可删除,其差别在于不同算法的判定条件不同。 本文采用h i l d i t c h 细化算法,具体实现步骤如下: ( 1 ) 将字符图像中的每个像素点从左向右、从上向下迭代,称为一个迭代周 期。在每个迭代周期中,标记同时满足以下6 个条件像素点目i ,j ) 。 ( 2 ) 在当前迭代周期结束时,把所有被标记的像素点的值设为背景值。如果 某个迭代周期中没有出现标记点,则细化算法结束。 假设背景值为0 ,前景值为1 ,标记像素点需要满足的6 个条件为【2 3 】: ( 1 ) f ( i ,j ) 为1 ,即f ( i ,j ) 不是背景: ( 2 ) f ( i + 1 j ) ,f ( i , j 一1 ) ,f ( i - 1 j ) ,砸j + 1 ) 不全部为1 ( 否则把f ( i ,j ) 标记删除,图像 会变成空心) ; ( 3 ) 8 个邻域点中,至少有2 个为1 ( 若只有1 个为1 ,则是线段的端点。若 没有为1 的,则为孤立点) ; ( 4 ) f ( i ,j ) 的8 连通联结数为1 ; ( 5 ) 假设f ( i , j - 1 ) 已经标记删除,那么当f ( i , j 一1 ) 为0 时,p 的8 联通联结数为1 ; ( 6 ) 假设球1 j ) 已经标记删除,那么当f ( i 一1 j ) 为0 时,p 的8 联通联结数为1 。 其中,联结数就是八邻域中互相分离的联结成分的个数。 细化前后效果如图6 所示,其中,图6 ( a ) 是细化之前的字符图像,图6 ( b ) 是细 化之后的图像。 i j 2 4 倾斜校正 图6 ( b ) 细化处理后 f i g u r e6 ( b ) i m a g ea f t e rt h i n n i n g 图6 细化效果 f i g u r e6r e s u l to ft h i n n i n g 在实际识别过程中,由于扫描或拍摄角度的不确定性、光学失真及机械偏差 等因素,获得的手写体字符图像通常会存在一定角度的倾斜,不可避免的影响手 写体字符的识别。因此,在字符识别之前,需要对字符进行倾斜校正处理。 基于h o u g h 变换的方法和基于旋转投影的方法是常用的两种字符倾斜校正方 法。其他的倾斜校正方法基本上都是在这两种方法的基础之上进行改进和完善而 提出的。这两种方法的基本原理如下: ( 1 ) 基于h o u g h 变换的方法 h o u g h 变换是从图像中检测目标几何形状的一种有效方法,其基本原理是利 用图像空间与参数空间中点、线之间的对偶性,即图像空间中共线的点对应在参 数空间中相交于一点的直线,反之,在参数空间中交与同一个点的所有直线对应 于图像空间中共线的点。h o u g h 变换将原始图像中的直线检测问题转化为求参数 空间中的局部最大值f - i 题,用局部特性检测代替了整体特性检测【2 4 1 。h o u g h 变换 原理如图7 所示,其中,图7 ( a ) 表示图像空间中的单点对应于参数空间中的一条直 线,图7 ( b ) 所示为图像空间中的位于同一条直线上的点对应于参数空间中相交的直 线。将h o u g h 变换用于倾斜校正,并不是要用其检测直线,而是要利用参数空间 中的局部最大值来获取字符倾斜的主要方向。该方法计算量大,且对大于1 5 。的 倾斜,校正作用不好。因此,目前出现了许多基于h o u g h 变换
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年台州市三门县中学教师公开招聘6人备考题库附答案详解(精练)
- 2026广西柳州市青少年宫招聘编外聘用人员1人考试模拟试题及答案解析
- 2026天津师范大学体育科学学院招聘部分博士层次专业技术岗位人员笔试参考题库及答案解析
- 2026贵州贵阳产控安居投资运营有限公司第一批社会招聘8人备考题库及答案详解(有一套)
- 2026湖北武汉中心城区区属国有企业招聘4人笔试模拟试题及答案解析
- 2026年山东省枣庄市部分重点高中高三调研试题(一)化学试题含解析
- 赣州市赣县区文化旅游投资集团有限公司第三批劳务派遣人员招聘考试备考试题及答案解析
- 2026年微波炉手套行业分析报告及未来发展趋势报告
- 2026年锡酸钠行业分析报告及未来发展趋势报告
- 2026广东广州市白云区12所公办中小学招聘各科临聘教师及工作人员备考题库及答案详解(各地真题)
- 《鱼蛋白类肥料 第2部分:产品要求》
- 年满70岁老年人三力测试题库能力考试题及答案
- 营养专科护理考试题及答案
- 2025年西藏自治区事业单位招聘考试卫生类药学专业知识试卷
- 告别假努力主题班会课件《拒绝假努力学会真自律》
- 心脏康复标准化流程
- 口腔诊所污水知识培训
- 《2+N糖尿病逆转治疗行业规范与操作流程》
- 文字录入技能竞赛组织方案范文
- JJF 1221-2025汽车排气污染物检测用底盘测功机校准规范
- FSSC22000 V6食品安全管理体系程序文件一整套
评论
0/150
提交评论