(模式识别与智能系统专业论文)印刷体光学字符识别的研究.pdf_第1页
(模式识别与智能系统专业论文)印刷体光学字符识别的研究.pdf_第2页
(模式识别与智能系统专业论文)印刷体光学字符识别的研究.pdf_第3页
(模式识别与智能系统专业论文)印刷体光学字符识别的研究.pdf_第4页
(模式识别与智能系统专业论文)印刷体光学字符识别的研究.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(模式识别与智能系统专业论文)印刷体光学字符识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文主要对印刷体字符自动识别技术进行讨论和研究。根据已有的研究基础, 实现了集成电路上印刷体字符自动识别算法。对其中的一些关键问题进行了深入 的研究,并提出了改进的方法。 本文第一部分是根据印刷体字符识别过程对其相应技术进行整理和总结。对 预处理、分割、特征提取、分类等技术环节目前的方法和进展进行详细的介绍。 同时,对一些关键技术还提出了自己的见解或改进方法。 本文的第二部分是对集成电路印刷体字符自动识别算法的实现。包括结构识 别和统计识别两种方法。 在图像的滤波和增强上,根据集成电路印刷体字符的图像特征,提出针对性 的横向滤除大噪声的方法,得到了较好的图像增强效果。 在结构识别方法的线条检测过程中,不使用二值化的图像,而是直接在灰度 图像上提取线条。对线条也不再进行传统的细化方法,而是利用其宏观位置参数 进行细化,保证了线条提取的成功。为分割和识别奠定良好的基础。 在匹配规则上,综合考虑了匹配线条和未匹配条、多个候选字符间的差距、 图像质量对打分的影响,以提高匹配的准确性。 在统计识别方法中,用特征压缩的方法去除冗余信息后,建立分类树,从而 大大地节省了字符识别的时间,使得系统完全达到实用化的水平。还加入了学习 的功能,以便以后识别能力的扩展。 关键词:印刷体字符识别、图像增强、字符分割、结构识别法、统计识别法、 学习向量量化,学习算法 a b s t r a c t t h i sd i s s e r t a t i o nf o c u s e so na u t o m a t i cr e c o g n i t i o no fp r i n tc h a r a c t e r b a s e do n c u r r e n tr e s e a r c hp r o d u c t i o n ,ac o m p l e t ea l g o r i t h mo f p r i n tc h a r a c t e rr e c o g n i t i o nh a s b e e n a c c o m p l i s h e d a r e n t i o n h a sb e e n g i v e n t o s o n 砖k e yp r o b l e m s f o rf u r t h e r i m p r o v e m e n t i nt h ef i r s t p a r to f t h i sd i s s e r t a t i o n ,t h ek n o w nr e c o g n i t i o nm e t h o d so ft h ep r i n t c h a r a c t e rh a v eb e e nd i s c u s s e da n d c o m p a r e d 邯d e t a i l s o f p r e p r o e e s s i n g s e g m e n t a t i o n ,f e a t u r ea b s t r a c t i n ga n d c l a s s i f i c a t i o na r ea l li n t r o d u c e d a tt h es a m et i m e , s o m en e wm e t h o d sa r e p r o p o s e df o rb e t t e r i n g t h ep r e s e n to n e s t h es e c o n dp a r ti st h ea c c o m p l i s h m e n to ft h er e c o g n i t i o na l g o r i t h m i ti n c l u d e s s t r u c t u r er e c o g n i t i o nm e t h o da n ds t a t i s t i cr e c o g n i t i o nm e t h o d i nf i l t e r i n ga n de n h a n c e m e n t ,an e wm e t h o di sp r o p o s e df o ri n t e n s eh o r i z o n t a l n o i s e i ns t r u c t u r em e t h o d ,t h es t r o k ed e t e c t i o ni sb a s e do ng r a yi m a g er a t h e rt h a nt h e b i n a r yo n e u s et h en o n t r a d i t i o nm e t h o d ,t h es t r o k ei st h i n n e da c c o r d i n gt oi t sm a c r o p o s i t i o np a r a m e t e r t h i sr e s u l t si nag o o ds e g m e n t a t i o na n dr e c o g n i t i o n i nf e a t u r e m a t c h i n g ,n e ws c o r i n g r u l e sa n d o p t i m a lm a t c h i n g b a s e do n m u l t i - c a n d i d a t e sh a v eb e e n p r o p o s e d i ns c o r i n gr u l e s ,t h ei n f l u e n c eo f m a t c h e ds t r o k e s , u n m a t c h e ds t r o k e sa n dt h e i r q u a l i t i e s a r ea l lc o n s i d e r e da saw h o l ef o rb e t t e rr e s u l t i ns t a t i s t i cm e t h o d ,r e d u n d a n ti n f o r m a t i o ni sd e l e t e da n dt h et r e ea l g o r i t h mi su s e d f o rc l a s s i f i c a t i o n a l lt h e s ec a ni m p r o v et h es p e e d g r e a t l ya n d t h es y s t e mc a nb eu s ei n r e a l i t y b e s i d e s ,t h el e a r n i n ga l g o r i t h mi nt h i ss y s t e mm a k e si tp o s s i b l et od e v e l o pi t s a b i l i t yo f r e c o g n i t i o n k e yw o r d s :p r i n tc h a r a c t e rr e c o g n i t i o n ,i m a g ee n h a n c e m e n t ,c h a r a c t e rs e g m e n t , s t r u c t u r er e c o g n i t i o nm e t h o d ,s t a t i s t i cr e c o g n i t i o nm e t h o d ,l e a r n i n gv e c t o rq u a n t i t y , l e a r n i n ga l g o r i t h m 第1 章o c r 技术综述 1 1 引言 第1 章o c r 技术综述 文字是人类文化的重要结晶。文字的种类和数量众多,在信息技术及计算机 技术日益普及的今天,如何将它方便、快速地输入到计算机中已成为关系到计算 机技术能否在各国真正普及的关键问题。 将文字输入到计算机里一般有两种方法:人工键入和自动输入。其中人工键 入速度慢而且劳动强度大。这种方法不适用于需要处理大量文字资料的办公自动 化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方 法进行文字输入也将面临经济效益的挑战。自动输入又分为图像文字识别输入及 语音识别输入。 文字识别技术可以分为印刷体识别及手写体识别技术。而手写体识别又可以 分为联机( o n l i n e ) 与脱机( o f f - l i n e ) 两种。这种划分方法可以用图1 1 来表示。 图1 1 文字识别的分类 从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识 别中,脱机手写体的难度又远远超过了联机手写体识别。 到目前为止,除了脱机手写体数字的识别已有实际应用外,其它文字的脱机 手写体识别还处在实验室阶段。 联机手写体的输入,足依靠电磁式或压电式等手写输入板来完成的。在书写 时,笔在板j 二的运动轨迹( 在板上的坐标) 被转化为一系列的电信号,电信号可以串 行地进入到汁算机中。从这些电信号我们可以比较容易地抽取笔划和笔顺的信息。 从9 0 年代以来,联机手写体的识别正逐步走向实用,方兴未艾。中国大陆及台湾 地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也丌 始进入这一市场。这一技术也迎合了p d a ( p e r s o n a ld i g i t a la s s i s t a n t ) i , j 发展潮流。 与脱机手写体和联机手写体以别相比,印刷体文字识别已经实用化,而且在 向更高的性能、更完善的用、界而的方向发展。因为它有着厂1 泛的应用前景。目 婀,办公口动化已成为信息社会不- 、j 避免的发展趋势。虽然在计算机网络飞速发 第1 负 f l a 师l j 体光学字符识别的研究 展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出 版物。但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻 社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读 印刷材料更为符合人的自然阅读习惯;问时,网络信息资源的爆炸性增长以及网 络传输容量的限制,都是方便、快速地获取这些信息的约束因素。电子化的材料 与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或 更长的时间内将不会出现一者被另一者取代的情况。 1 2 印刷体文字识别流程简介 印刷体文字识别的过程如图1 2 所示。原始图像是通过光电扫描仪,c c d 器 件或电子传真机等获得的二维图像信号,可以是灰度( g r a y s c a l e ) 或二值( b i n a r y l 图 像。为简单计,在本文以后的论述中,除非特别提及,图像输入的方式均指由扫 描仪输入。 图1 2 印刷体文字识别的简单流程图 预处理包括埘原始图像的去噪、倾斜校正或各种滤波处理,包括细化 ( t h i n n i n g ) 、归化( n o r m a l i z a t i o n ) 等步骤。版而分析完成对于文本图像的总体分析, 区分出文本段落及排版顺序,图像、表格的区域:对于文本区域将进行识别处理, 对】:表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存 储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。 特征提取是熬个环节中最重要的一环,它是从单个字符图像上提取统计特征或结 构特征的过程。提取的特征的稳定性及有效性,直接决定了识别的性能。文字识 别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。后处理 则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的 讨秤。 圳e 可见,印刷体文字以别技术1 扛要包括 叶1 陶科学院自动化所研究博。j 。后站报告毙肫兵 第1 章o c r 技术综述 f 1 ) 扫描输入文本图像。 ( 2 ) 图像的预处理,包括倾斜校正和滤除干扰噪声等。 ( 3 1 图像版面的分析和理解。 f 4 ) 图像的行切分和字切分。 ( 5 ) 基于单字图像的特征选择和提取。 f 6 ) 基于单字图像特征的模式分类。 f 7 1 将被分类的模式赋予识别结果。 f 8 ) 识别结果的编辑修改后处理。 其0 0 ( 4 ) 、( 5 ) 和( 6 ) ,也就是图1 - 2 中的阴影部分,是印刷体文字识别中最为核 心的技术。近几年来,印刷体文字识别系统的单字识别正确率已经超过9 6 ,为 了迸步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方 面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷体 文字识别系统的总体性能。 1 3 印刷体文字识别的研究历程 印刷体文字的识别可以说很早就成为人们的梦想,早在1 9 2 9 年,t a u s h e k 就 在德国获得了一项有关o c r 的专利。欧美国家为了将浩如烟海、与日俱增的大量 报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从5 0 年代 就开始了西文o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,光学字符识别) 技术的研究,以 便代替人工键盘输入。 在中国,现代印刷体文字的识别技术从五十年代开始,至今已经有近四十年 的历史 1 】。o c r 的发展历程具有如下几个特点: 语。i - i : 数字一拉丁字母一假名一汉字一各种文字 信息载体:号用o c r 纸一上等质量纸一普通质量纸 格式控制:l 直| 定格式一控制格式一自由格式一图文分离 识别层次:单字符识别一词识别 通用性: 专用一通用 叮以看h 4 ,印刷体文字的识别研究在广度和深度 都有很大发展。 1 4 印刷体文字识别研究方法简介 识别方法是整个系统的核心。用于印刷体文字识别的模式识别方法可以大致 分为结构模式u 别、统计模式识别及两者的结合。f 面分别进行介绍。 第3 驰 印刷体光学字符识剐的研究 1 4 1 结构模式识别 印刷体文字是一种特殊的模式,其结构虽然比较复杂,但具有相当严格的规 律性。换言之,其文字图形含有丰富的结构信息,可以设法提取含有这种信息的 结构特征及其组字规律,作为识别的依据,这就是结构模式识别法。 结构模式识别是早期印刷体文字识别研究的主要方法。其主要出发点是印刷 体文字的组成结构。从构成上讲,印刷体文字是由笔划或更小的结构基元构成的。 由这些结构基元及其相互关系完全可以精确地对印刷体文字加以描述,就像一篇 文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也口q 句法模 式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑 推理器。在实际应用中,此方法面临的主要问题是抗干扰能力差,因为在实际得 到的文本图像中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点, 对比度差等等。这些因素直接影响到结构基元的提取,假如结构基元不能准确地 得到,后面的推理过程就成了无源之水。此外结构模式识别的描述比较复杂,匹 配过程的复杂度因而也较高。所以在印刷体文字识别领域中,句法识别的方法正 日益受到挑战。要想将这种方法发扬光大,首先要寻求有效的预处理算法,待识 字符的结构在经历预处理后能够清晰、完整、标准化地再现;其次,在特征提取 方法上也还有很多工作可做,只有得到可靠、稳定、独立且数量较小的特征,结 构识别方法的优势才能够最大限度地发挥出来。如果上述两点问题得到较好的解 决的话,结构识别方法将显示出其巨大的优势:匹配方法直观、形象:识别稳定 性好,算法的泛化能力强。 1 4 2 统计模式识别 统汁决策论发展较早,理论也较成熟。其要点是提取待识别模式的一组统计 特征,然后按照一定准则所确定的决策函数进行分类判决。 印刷体文字的统计模式识别是将字符点阵看作个整体,其所用的特征是从 这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分 类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差一 些。另外,与结构法相比,特钲无直观性的物理意义。 常见的统计模式识别方法有 2 : ( 1 ) 模板匹配。模板匹配并不需要特征提取过程。字符的图像直接作为特征 与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行, 可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、 笔划变羊h 变细均无良好的适应能力,因此对大字符集不适用。 ( 2 ) 利用变换特0 e 的方法。对字符图像进行:进制变换陶iw a l s h ,h a r d a m a 变 换) 或迎复杂的变换( 如k a r h u n e n l o e v e ,f o u r i e r ,c o s i n e ,s l a n t 变换等) ,变换后 的特征的维数人人降低。但是这些变换不是旋转不变的,因此对于倾斜变形的守 符的识别会有鞍人的偏差。:二进制变换的汁算虽然简单,但变换后的特短没有 j 习科学院自动化所州宄膊i 后站撒嚣x 晓兵 第l 章o c r 技术综述 显的物理意义。k - l 变换虽然从最小均方误差角度来说是最佳的,但是运算量较大。 总之,变换特征的运算复杂度较高。 ( 3 ) 投影直方图法。利用字符图像在水平及垂直方向的投影作为特征。该方法 对倾斜旋转非常敏感,对图像质量要求高,细分能力差。 ( 4 ) 几何矩( g e o m e t r i cm o m e n t ) 特征。m k h u 提出利用矩不变量作为特征的想 法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不变的矩。我 们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几何矩方面的研 究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保持不变。但在实 际环境中,很难保证线性变换这一前提条件。 ( 5 ) s p l i n e 曲线近似与傅立叶描绘- 子( f o u r i e rd e s c r i p t o r ) 。两种方法都是针对字 符图像轮廓的。s p l i n e 曲线近似是在轮廓上找到曲率大的折点,利用s p l i n e 曲线来 近似相邻折点之问的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮 廓线,将傅立叶函数的各个系数作为特征的。前者对于旋转很敏感。后者对于轮 廓线不封闭的字符图像不适用,因此很难用于笔划断裂的字符的识别。 ( 6 ) 笔划密度特征。笔划密度的描述有许多种,这晕采用如下定义:字符图像 某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线 方向扫描时的穿透次数。这种特征描述了印刷体文字的各部分笔划的疏密程度, 提供了比较完整的信息。在图像质量可以保证的情况下,这种特征相当稳定。在 脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时识别的误 差会较大。 ( 7 ) 外围特征。汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连的情 况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分类的特 征,但细分的能力不强。 ( 8 ) 基于微结构特征的方法。这种方法的出发点在于,印刷体文字是由笔划组 成的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组成的。这些矩形 段则称为微结构。利用微结构及微结构之间的关系组成的特征对印刷体文字进行 识别,获得了良好的效果。其不足之处是,在内部笔划粘连时,微结构的提取会 遇到困难。 ( 9 ) 特征点特征。早在1 9 5 7 年,s o l a t r o n e l e c t r o n i c s g r o u p 公司发布了第个利 用窥栅l ( p e e p h o l e ) 方法的o c r 系统。其主要思想是利用字符点阵中一些有代表性 的黑点( 笔划) ,白点( 背景) 作为特征来区分不同的字符。后有人又将这种方法运用 到印刷体文字识别中,对其中的黑点又增加了属性的描述,如端点、折点、交叉 点等。也获得了比较好的效果。其特点是对于内部笔划粘连的字符的识别的适应 性较强,直观性好,但是不易表示为矢量形式,不适合作为粗分类的特征,匹配 难度大。 肖然还有许多种不同的统计特征,诸如图描述法、包舍配选法、脱壳透视法、 萍笔划法等,这罩就不一一介绍了。 巾闻科学院自动化川,t 斫博i :后i l l 站报告是晓睡 第5 负 印刷体光学字符识别的研究 1 4 3 统计识别与结构识别的结合 统计模式识别方法将重点放在模式信息处理的数学规范上,以数值特征向量 的方式表达模式,便于找到合适的模式学习和匹配算法,但难于描述模式内部复 杂的几何及拓扑结构特性。结构模式识别方法则以形式语言为基础,侧重于句法 结构分析,但文法复杂。 结构模式识别与统计模式识别各有优缺点,随着我们对于两种方法认识的深 入,这两种方法正在逐渐融合,使得识别技术可处理更多类型、更加复杂的模式。 同时,也在模式特征的提取和学习,模式的匹配与分类,以及模式样本的低层处 理方法,如消除噪声、模式图像分割、特征的抽取等方面都取得很多成果。从而 大大扩展了模式识别技术的应用领域。网格化特征就是这种结合的产物。字符图 像被均匀地或非均匀地划分为若干区域,称之为“网格”。在每一个网格内寻找各种 特征,如笔划点与背景点的比例,交叉点、笔划端点的个数,细化后的笔划的长 度、网格部分的笔划密度等等。特征的统计以网格为单位,即使个别点的统计有 误差也不会造成大的影响。另外,由于将不同含义的统计特征与结构特征有效地 进行了组合,增强了特征的抗干扰性,整个识别系统的稳定性与泛化能力都大大 地增强了。目前,这种方法正得到日益广泛的应用。 1 4 4 人工神经网络 人工神经网络( a r t i f i c i a l n e u r a l n e t w o r k ,以下称a n n ) 是一种模拟人脑神经元 细胞的网络结构,它是由大量简单的基本元件一神经元相互连接成的白适应非线 性动态系统。虽然目前对于人脑神经元的研究还很不完善,我们无法确定a n n 的 工作方式是否与人脑神经元的运作方式相同,但是a n n 正在吸引着越来越多的注 意力。 a n n 中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却 叮以非常复杂,我们从而可以通过调整神经元问的连接系数完成分类、识别等复 杂的功能。a n n 还具有一定的自适应的学习与组织能力,组成网络的各个“细胞” 可以并行t 作,并可以通过调整“细胞”间的连接系数完成分类、识别等复杂的功能。 a n n 可以作为单纯的分类器f 不包含特征提取,选择) ,也可以用作功能完善 的分类器。在英文字母与数字的识别等类别数目较少的分类问题巾,常常将字符 的图像j ? 、i 阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种情况 下,神经网络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各个神 经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上 来蜕,a n n 提供r 一种“字符自动识别”的可能性。此外,a n n 分类器是一种非线 性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这电为复杂分类 问题的解决提供了种可能的解决方式。 f _ _ | f 诃,存对十如汉字以别这样超多类的分娄问题,a n n 的规模会很大,结构 也很复杂,实肿1p f :较差。另外,这种方法所需要的训练样本舰模比较大,训练过 中周科学院白z 珈化所酬充博i 。后站撒卉殳唬兵 第1 章o c r 技术综述 程也比较长。对于与样本相差较大的模式的识别能力也比较差。这其中的原因很 多,主要的原冈还在于我们对人脑的工作方式以及a n n 本身的许多问题还没有找 到完美的答案。 人工神经网络模式识别与传统的统计模式识别开始是两个独立发展的分支, 但随着研究的深入,人们发现二者之间存在紧密的联系。在一些情况下,统计方 法和神经网络方法是可互相替代的,实际上神经网络的方法有时被认为是统计方 法的子集。例如,对于统计模式识别方法,如分段线性判决函数法,f i s h e r 线性判 决规则,多变量高斯线性分类器,主成分分析p c a ( p r i m a r yc o m p o n e n ta n a l y s i s ) 等,都可用神经网络的并行计算结构或迭代计算结构实现【3 ;而一些重要的神经 网络模型,其学习算法与统计方法是相通的,如在一定条件下,m l p 和r b f 分 类器的对于训练样本的输出就是该样本的后验概率的估计,这等价于b a y e s 方法。 因此,我们至少可以说,现有的神经网络方法有许多地方与统计方法在数学原理 上是相通的 4 】。但是,神经网络确实有优于传统统计方法的地方,这表现为: ( a ) 神经网络的计算结构是并行的,而且常常是通过大量简单单元的协同运算 完成诸如求矩阵特征值这样复杂的计算任务,这一点在p c a 网络中得以充分体现; ( b ) 神经网络不但能在模式空间中形成复杂的判决表面,而且还具备自适应的 能力,即网络不但具备自适应的学习能力,还能自适应地调整网络规模的大小, 适合大类别集的识别工作; ( c ) 一般的神经网络兼有模式变换和模式特征提取的作用,如前馈网络的隐层 就有非线性映射的功能,这一特点也被利用来与其他方法结合来确定一些重要的 参数; ( d ) 神经网络由于其信息的分布式的存储方式使它具备一定的容错能力,因此 神经网络分类器对于输入模式信息的缺损不是非常敏感,适合质量较差图像的识 别。 由于t 述优点,神经网络的识别方法正在越来越多地得到关注,也因而成为 近来的研究热点。但是,神经网络方法还需要在以下几方面进行深入研究:网络 的模型,以保证网络的快速收敛;训练样本集的选择,全面的学习样本是高识别 率的保证,合理的样本数量可避免网络的过训练;训练样本特征的选取,保证良 好的识别稳定性。 1 4 5 模糊和模糊神经网络 随着科学研究的不断深入,人们需要研究的关系越来越复杂,对系统的判别和 推理的精确性要求也越高。为了精确地描述复杂的现实对象,各类新的数学分支 就不断地产生和发展起来。 迄今为止,处理现实对象的数学模型可大致分为三大类:笫一类是确定性数学 模型。这类模型的背景对象具有确定性或同定性,对象间具有必然的关系:第:二 类是随机。降数学模型。这类模型的背景对象其有或然性或随机性:第三类模糊性 亡刷体光学字符识别的研究 数学模型。这类模型的背景对象极其关系均具有模糊性。 前两种模型的共同特点是所描述的事物本身的含义是确定的,是非彼即此的清 晰概念。而现实世界中的对象很多是无法精确定义的,表现出“亦彼亦此”的模 糊性,如“健康”与“刁;健康”,“稳定”与“不稳定”等等之间找不到明确的边 界,从差异的一“方到另一方经历了一个从量变到质变的连续过渡过程。模糊性的 数学模型就是为描述此类现象而设计的。 自1 9 6 5 年l a z a d e c h 提出模糊集理论以来,3 0 余年问,模糊理论及其应用的 研究得到了蓬勃的开展。目前,模糊理论已经在工业控制、医疗诊断、经济决策、 环境工程、模式识别、心理学等领域得到了极其广泛的应用,几乎包含了自然科 学、社会科学和工程技术的每一个分支。 模糊系统与神经网络有着天然的联系。它们的研究都是以模仿人脑的运行机制 为共同目标。将模糊系统与神经网络技术相结合而形成的模糊神经网络正在发展 成为一种全新的技术。模糊神经网络在本质上就是将常规的神经网络( 如前向反 馈神经网络、h o p f i e l d 神经网络) 赋予模糊输入信号和模糊权值,使其具备模糊信 息的处理能力。 1 5 印刷体文字识别技术的最新进展 印刷体文字识别最为重要的指标是识别正确率,最新技术包括两个方面:一 是使用组合优化特征的综合识别方法,从而提高正确率,增加适应性:二是英文 与数字的比例超过l 3 时的不同语种混排识别。 1 5 1 组合优化特征的综合识别方法 扪取单一利;类的特征进行印刷体文字识别,误识率较难降低,且抗干扰性不 易提高。因为这样所利用的印刷体文字信息量有限,不能全面反映印刷体文字的 特点,对任何一种特征来说,必然存在其识别的“死角”,即利用该特征很难区分的 印刷体文字。从模式识别的角度来看,若将印刷体文字的全部矢量化特征所组成 的窄问称作空问s 2 i4 ( j = 1 ,2 ,) ,那么利用整个空间q 的信息进行印刷体文字 口 别,由于提供的印刷体文字信息很充分,抗干扰性会大大增强。 但是,在实际应用中,必须考虑到识别正确率与识别速度f 运算量) 及系统资源 ! 荷的折灰。所以任何一个实用的o c r 系统只利用其中部分子空闽的信息。由于 信息的缺陷,便不可避免地遇到识别“死角”的问题。 “组合优化特征法”识别印刷体文字的基本思想是:首先,在长期印刷体文字识 别研究的基础 i ,选择结构元等多种基于结构的统计特征,这些特征具有良好的 类内聚合和类问发散的分类能力;其次,有机地将多种特征互为补充,相得益彰, 从j 叮提高识别率。 中闽科学院自动化所州究博1 :1 一川;站报告吴此兵 第1 章o c r 技术综述 “组合优化特征”的综合识别方式,是建立在对各种方法充分了解的基础之上 基于知识的识别方式,因为这样既富有针对性,充分发挥了各个方案的长处,取 得了高的识别率,又提高了系统的运行效率。 1 5 2 双语混排识别 随着信息产业的开放与发展,印刷文本材料中所包含的双语成分越来越广泛, 比例也越来越大。例如,越来越多的英文词语出现在我国的印刷文本材料中。尤 其在科技文献刊物中,更是屡见不鲜,英文、数字的比例常常超过l 3 。这种情况 下的识别工作是非常困难的。以中英文混排为例,英文字母出现在文本行中,其 大小、高度与汉字中的偏旁部首很类似,难以区分是汉字偏旁部首,还是英文字 母;英文单词中字母之间的距离不等,粘连也相当普遍;汉字是以横竖等笔划为 基本结构的,而英文则是以曲线为主。因此,汉英双语混排识别的关键在于汉字 和英文字母的正确分辨和切分。切分的传统方法是利用“高度基线位置”信息,但是 由于汉字中可左右分离的字很多,其各部分无论高度和宽度,均与英文字母很接 近,如“即”、“旧”等;而且,英文字母的粘连现象也无法解决;此外,许多英文的 双字母组合,三字母组合,是用一个字模来印刷的,如“f i ”等。因此,在“高度基 线位置”准则基础上,根据“t e t ( t r y e r r o r t r y ) 准则”,加入了“切分后再二次切分” 的手段。即对于各种可能出现的切分情况,进行预识别,从中选出误差最小,最 合乎语言逻辑习惯的组合。 对于粘连的英文字母,由于连续粘连在一起的字母可能有多个,组合的情况 较多,且粘连的种类亦有较大区别。进行“穷举式”试切分,所花费的时间代价太大。 因此采用“化整为零”的方法,根据最佳邻域搜索原则以及字母串在水平和垂直方向 上的投影信息,将字母串从最可靠的地方一分为二,分为两个子串:然后在这两 个子串内再重复上述步骤,直到子串的长度大约为三个英文字母的平均宽度;最 后进行“穷举式”试切分,从而大大缩短了切分所用的时间。从而有效地解决了汉英 双语混排文本的识别。 1 6 结论与展望 总体来说,近几年来国内外对e i j 届u 体文字识别的研究还是相当深入的,也取 得了很大成绩,使系统的识别率不断f :升。不过,这些系统还存在管一些可改进 之处: ( 1 ) 识别率足文字口 别中最重要的指标,应该达到更新的高度,从而最大程度 地减少用户校对、修改的 作量。 ( 2 ) 印刷体文宁识别的鲁棒性( r o b u s t n e s s ) 还不够强。文字识别系统的鲁棒性尤 其反应在随着印刷质量的下降,系统误识率的卜升趋势上。 ( 3 ) 坝语混排文本的切分仍不够成熟。 ( 4 ) 识别遮度还需要进一步的提高。 1 _ i 司科学院h 础l t w ! 究所博l 岳站报告* 晓兵 第9 负 印刷体光学字符识别的研究 另外,对分类器的合成是近年来印刷体汉字识别研究的热点之一。张永慧 5 对1 9 9 2 年8 6 3 智能专家组组织的汉字识别评比的结果进行统计分析,发现最好的 印刷体汉字识别方法的识别率为9 4 3 1 ,误识率为5 2 2 。但是,如果对三种方 法的识别结果进行简单的投票表决,就可以使识别率提高到9 7 0 4 ,误识率降为 o 4 0 。随后他们实现了一个高性能的集成式汉字识别系统,它的识别率为9 8 7 4 , 误识率为0 2 3 。m i y a k a r a 和y o d a 6 描述了一种基于多个神经网络的印刷体日 文失败方法。两个独立的l v q 神经网络分别处理网格特征和轮廓线方向特征,而 集成网络接受它们的输出,并把相应节点的值加权,把加权值最大的节点对应的 类别作为最终的识别结果。戴汝为、郝红卫提出了综合集成的概念 7 其区别于 一般多分类器集成的方面是把人也综合集成于系统之中,采取人机结合,以人为 主的技术路线,来解决各种系统中所面临的问题他们把综合集成的思想用于手 写汉字的识别,取得了较好的成绩 汉字识别的另一个发展方向是对识别字符类别数目的扩充。例如多种字体的识 别现今出版物上常主要出现的字体就有宋体、黑体、楷体、圆体、隶书、魏碑、 隶变、行楷、行书、宗艺等十几种。原来的中文o c r 产品一般仅包括宋、仿、楷、 黑四种字体。所以,识别字体的扩充也成为o c r 技术延伸发展的方向之一。 总而言之,随着成绩的不断获得,人类社会对o c r 的性能要求会越来越高 这也正是世界各地学者们努力的动力源泉! 旃i ( j 扪 第2 章图像预处理技术 第2 章图像预处理技术 在采集文本图像时,受文稿质量、扫描设备性能等影响,原始图像会带有一 些变形和噪声,这些因素都会影响识别的效果。预处理过程一般来说包括了特征 提取之前所有的处理过程,预处理过程应该能够在一定程度上克服上述情况带来 的影响。预处理过程是后续的分割、特征提取及识别的基础,良好的预处理过程 能充分发挥特征提取和分类器的性能,对提高识别性能起到重要作用。 预处理过程一般分为:二值化、去噪、倾斜校正、归一化、细化等步骤,下 面将一一介绍。 2 1 二值化 二值化指的是将灰度标尺归并为黑白两个等级的过程。在扫描过程中,图像每 一像素点的灰度值定义为光照下以该点为中心的区域上的平均光照亮度。二值化 过程可看作是对原扫描图像的映射变换过程,当像素灰度值小于一定闽值时,被 映射成黑点。二值化的最终目的应为:原图像中反映图像结构的灰度值差别经映 射后被保留,而不反映图像结构的灰度值抖动被消除,从而最终得到的只是构成 字符图像的关键信息。 二值化阈值的选取对二值图像的效果以及识别率有着重大影响。如果阈值太 低,图像会过于白,使得某些笔画断裂;如果阈值太高,图像会过于黑,使得字 符笔画相连,不易区分。所以自适应地调整阈值是必须的。有两种闽值选取方法。 一种是全局性闽值,用于整个图像。另1 种是局部性阈值,不同局部用不同阈值。 很明显自适应的局部性闽值会有最好的效果。但考虑到计算机的内存和速度,有 些商用系统还是采用全局性阈值。关于怎样自动选取二值化闽值已经提出了很多 算法。比如最大熵算法效果不错。w e s z k a 和r o s e n f e l d 提出了“b u s y n e s s ”的概念 来评估闽值的好坏。l i u 和s r i h a r i 提出了一种基于纹理特征的= 值化方法。实验证 明比其他算法有一定的提高。 无论如何,个合适的阂值对于识别是至关重要的。 2 1 1 一:值化的基本原理 假设灰度图像f f x ,y ) ,其灰度范闱为0 - 2 5 5 ,其中0 表示黑色,2 5 5 表示 白色。我们现在需要构造一个映射函数g : x ,y ,f ( x ,y ) 0 x ,0 y 埘 通过这个映剁函数的映射后灰度图像就转成了二值图像。 映身j 荫数最简r 社的种构造方式是事先确定一个闽值e ,对于像素p ( x ,v ) , 哲其狄度值x ,y ) 小f 。,则浚像素簧为0 否则置为l ,即: 狮i l 血 印刷体光学字符识别的研究 f 0 9 1 = 尸( w ) 2 1 1 i ff ( x ,_ y ) 0 e l s e 这种方法实现起来简便,可以在扫描的时候就确定好阈值,将映射函数固化到 扫描仪中用硬件实现,可以提高处理的速度。但是由于不同图像之间明暗有很大 差别,必须根据图像本身灰度分布的特点来决定闽值,即所谓的自适应二值化。 常用的白适应二值化方法有p 参数法、状态法、微分直方图法以及判别分析法等 等 8 。最近也有人用小波变换的方法进行图像二值化处理【9 】。这里对判别分析法 及小波变换法进行简单的介绍。 2 1 2 自适应的判别分析二值化法 在图像的狄度值的直方图中,假定把灰度值的集合用闽值t 分成两组( t 以上 的和不足t 的) 时,基于两组间的最佳分离而决定参数t 的想法,提出了阈值的选 择方法 1 0 】。实际上是根据两组的平均值的方差( 组间方差) 和各组的方差( 组内 方差) 的比为最大来确定t 的。下面说明确定t 的方法。 设给定的图像在整个l ,2 ,l 中具有l 级的灰度值,在这里设阈值为k , 把具有k 以上的灰度值的像素和具有比它小的值的像素分成两个组,并规定为组l , 组2 。把组1 的像素数设为u l ( k ) ,平均灰度值为m 1 ( k ) ,方差为6 l ( k ) ,把组2 的像素数设为u2 ( k ) ,平均灰度值为m 2 ( k ) ,方差为62 ( k ) ,若全体像素的平均灰 度值定为m t ,则组内的方差用: 来表示。而组问的方差用: j := q 砰+ 0 9 2 6 ; 占:= 】( m l m ,) 2 + 2 ( 且f 2 一m ,) 2 = l 2 ( m 】一m 2 ) 2 来表示。这罩,要选择k 值使f ( 女) = 辞罐成为最大。 2 1 : 小波变换二值化法 此方法足用小波变换零交叉点的方法来选取闽值。该方法能有效地克服噪声 的:f 扰,自动确定阂值。小波变换w 。f ( x ) 实际相应于信号f ( x ) 在尺度sr f 滑后的+ 次或一次微分。信号的某些特征点在一次或二次微分后都能有特殊的反 映。埘卜一个典,掣的具有两个波峰一个波谷的直方图模型来说,可看出其波谷点 相应二f 。阶微分的斜率为f = 的零交叉点,同时相应于二阶微分的局部极大值点。 赶方h 的波峰点相应于一阶微分的斜率为负的零交叉点,同时相应于:阶微分的 局部极小值t l 。根据这个原弹,假定一图像的直方图为h ( x ) ,从2 0 到2 ( f 为正 中| _ 4 科学院自动化所研究博| j 焉i l l 站 i 告义唬兵 第2 章图像预处理技术 整数) 尺度上对h ( x ) 进行离散二进小波变换,得到小波系数( w :,h ( x ) ) ,l j j , 和平滑分量 s2 s h ( x ) ) ,l j j ,考察每一组离散小波系数( w 2 j h ( x ) ) ,l j j , 通过零交叉和局部极值的特性找到直方图的每一个波峰点和波谷点 1 1 。 除了卜述的一些方法外,根据识别对象的不同特性,还有一些针对性强的二 值化方法: y i n gl i u 和s a r g u rn s r i h a r i 提出了一种基于图像纹理特征进行二值化的 方法:先根据0 t s u 的类间分离方法 1 2 得到不同阈值下的二值化图像;在这些二 值化图像上进行字符宽度直方图计算,得到最大字符宽度、类笔划噪声、孤立噪 声、长线噪声等纹理特征:在此基础上分析判断,得到最优的选择值e 1 3 。 2 2 滤波去噪声算法 影响文本图像质量的噪声源大体分为三种:( 1 ) 文稿原件本身带有的污损、墨 点。( 2 ) 文本的背景色造成图像二值化产生的干扰。( 3 ) 扫描设备本身产生的光电 子噪声和热噪声。其中( 2 ) 可以通过设计有效的自适应二值化算法来加以克服错 误! 未找到引用源。错误! 未找到引用源。,( 3 ) 可以通过分析并建立噪声模型, 使用图像复原的方法减小噪声的影响。在实际图像中,( 1 ) 中提到的干扰是不可避 免的。因此设计去除干扰和平滑算法的一般要求是:( 1 ) 尽量去除噪声点和噪声块, 而不影响字符图像的完整性;( 2 ) 消除字符边缘的毛刺,但不影响字符图像的拓扑 结构。 在字符图像中,噪声的存在是普遍的。信号和噪声的区分基于以下假设:高 频噪声一般产生在笔划附近,起因于笔划的扰动;低频噪声全局分布,由扫描纸 张上的污点或其它背景图像引起;信号为知识库中所包容的字符。高频噪声的处 理方法有平滑、模糊等低通滤波技术,低频噪声的处理较困难,因为在识别前很 难断定图像中某一部分是噪声,还是字符笔划。 常用的平滑方法包括邻域平均、空问域低通滤波、频率域低通滤波、中值滤 波 1 6 】。而对于已经二值化的字符图像,常用的是使用固定的平滑窗口去噪。如在 假定字符连通的前提卜, s r a y 用如下的1 4 个变化窗口去除孤立噪声f i7 。 li 1 1 1 xxx 1 x。 xx】 i i j x x x x ( 5 ) s h i l l = 1 中旧科学院l l 功化究所似l 后小站撒告艾晓兵 x “j ( j : i i 1 1x x l xxxx ( 4 ) s u m = 1 1 xxxx j 1 x11 x 1 g1 牙11 ( 6 ) s u m = l 瓣l3 负 x 1 x x l l v 4 i x x x一 x x x 印刷体光学字符识别的研究 x x lx f 。 j xxx ( 7 ) s u n i = 1 xxx i i l 吓 xxr f x 1 xxx x x x xx j x x 1 xx 1 x - r 1 露 ( 8 ) s u m = 1 1 xx j 1 1x 1 斗 xx

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论