




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科毕业设计论文题 目 数学公式识别技术研究 专业名称学生姓名指导教师毕业时间I毕业 任务书一、题目数学公式识别技术研究二、指导思想和目的要求1、 利用已有的专业知识,培养学生解决实际工程问题的能力;2、 锻炼学生的科研工作能力和培养学生的团结合作攻关能力;三、主要技术指标1. 研究数学公式识别算法;2. 完成演示程序四、进度和要求第 01周-第 02周: 英文翻译;第 03周-第 04周: 学习图像处理与模式识别算法;第 05周-第 10周: 研究公式识别算法;第 11周-第 16周: 设计演示程序;第 17周-第 18周: 撰写毕业设计论文,论文答辩;五、主要参考书及参考资料1 Markov Models for Pattern Recognition: From Theory to Applications Gernot A. Fink, Springer; 2nd ed. 20142 Pattern RecognitionSergios Theodoridis , Konstantinos Koutroumbas , Academic Press; 4 edition 20083Machine Learning in Action PaperbackPeter Harrington, Manning Publications 2012学生 指导教师 系主任 设计论文西北工业大学明德学院本科毕业设计论文II摘 要随着计算机技术的发展和信息技术与课程的整合,信息化教育越来越受到人们的关注。多媒体教学的使用,迫切需要将传统的键盘输入转化为手写输入以提高课堂的教学效率。但由于手写数学公式本身的特点,如数学符号的相似字符较多,而且一些比较复杂的数学公式存在着上/下标的定位问题,导致了手写数学公式的识别会相对困难一些。 一个手写的数学公式识别系统,总体上分为字符识别和公式的结构分析两个主要的步骤。其中,字符识别是公式识别的基础。字符识别分类器的设计直接影响到识别系统的识别率。而结构分析是公式识别的关键。 本文第一章介绍了数学公式的研究背景,国内外的研究现状以及相关的一些商业化的产品,介绍了数学公式识别的一般步骤以及本文所做的工作。 介绍了一般数学符号的预处理和特征提取,以及本文所提出的预处理方法和边界特征提取方法和变换进行高维空间的降维,和一些常用的字符识别的一些方法,提出了组合分类器的思想,以及本文所用的最小距离分类器和改进的神经网络算法对数学符号的识别,目的是在能够识别数学公式的基础上,增加了学习的功能,以便今后识别能力的扩展。然后对数学公式识别的结构分析和数学公式的输出做了阐述。主要介绍了自己如何设计并实现印刷体数学公式识别系统,提出了自己的设计思路与模块划分并编写程序实现。 本文对公式分析与识别部分做了较深入的研究,主要从以下几个方面进行了改进:在公式字符识别阶段,针对公式自身的特点,提出了一种基于连通域搜索的公式字符切分算法,并通过公式字符识别结果的反馈信息对粘连字符实行切分,以改善字符分割的质量,在实验中采用该切分算法取得了比较好的效果。在公式结构分析阶段,以公式字符的识别结果为基础,根据字符的结构布局,采用“自顶向下”和“自底向上”思想相结合的策略对数学公式进行结构西北工业大学明德学院本科毕业设计论文III分析。构建数学公式的符号关系树。关键词:公式识别,二维语法,数学公式识别,结构分析西北工业大学明德学院本科毕业设计论文IVABSTRACTWith the integration of computer technology and the development of information technology and curriculum, information technology education has been paid more and more attention. The use of multimedia teaching, the urgent need to the traditional keyboard input into the handwriting input to improve the efficiency of classroom teaching. But because the handwriting characteristics of mathematical formula itself, such as the similar characters more mathematical symbols, and some of the more complex mathematical formulas exist problems / subscript position, led to the recognition of handwritten mathematical formula will be harder. A handwritten mathematical formula recognition system, two main steps in the analysis structure is divided into character recognition and the general formula. Among them, character recognition is the basis of formula recognition. Design of character recognition classifier directly affect the recognition system. The structure analysis is the key formula recognition. In this paper, the first chapter introduces the research background of handwritten mathematical formula, the domestic and international research status and some business related to the mathematical formula recognition, introduces the general steps and the work done in this paper. The pretreatment and feature extraction, the general mathematical symbols, as well as the pretreatment methods and boundary features in high dimension space of dimension reduction method of extraction and transformation in this paper, introduces some common methods of character recognition, the classifier, and identification of neural network BP algorithm used in this paper, the minimum distance classifier and the improvement of mathematical symbols, the purpose is to recognize mathematical formula, increases the learning function, extended for future identification ability. Then the output structure analysis and mathematical formula of mathematical formula 西北工业大学明德学院本科毕业设计论文Vrecognition. Mainly introduced how to design and realize the handwritten mathematical formula recognition system, and proposes a new design and module partition their and programming.This paper makes a research on the formula analysis and recognition part, mainly from the following several aspects of the improvement:In the stage of formula character recognition, according to the characteristics of the proposed formula, a formula for character segmentation algorithm based on connected domain search, and the formula of the character recognition result feedback is applied to segment the character, in order to improve quality of character segmentation, the segmentation algorithm used in the experiment has achieved fairly good results.In the formula structure analysis, to identify the formula character based on the results, according to the structure character, the top-down and bottom-up thought of the method of combining mathematical formula structure analysis. Constructing mathematical formula for the symbol relation tree.KEYWORDS: formula recognition, two-dimensional grammar, mathematical formula recognition, structure analysis西北工业大学明德学院本科毕业设计论文VI西北工业大学明德学院本科毕业设计论文目录摘 要 .IIABSTRACT.IV第 1章 前 言 .11.1课题研究的背景和意义 .11.2国内外公式识别研究状况和进展 .21.3数学公式识别技术所要解决的问题以及采用的方法 .31.4数学公式识别技术研究取得的成果及意义 .41.4.1符号识别的方法 .41.4.2符号分割 .51.4.3分隔符的识别 .5第 2章数学公式识别系统概况 .62.1数学公式的特点 .62.1.1数学公式中的符号 .62.1.2数学公式的运算符号 .62.1.3含义的不确定性 .72.2数学公式识别系统的组成结构 .72.3数学公式识别的难点 .9第 3章 数学公式识别的相关技术 .103.1图像预处理 .103.1.1图像的二值化处理 .103.1.2图像的平滑去噪 .103.1.3图像的细化 .113.2常用的几种字符切分方法 .113.2.1基于结构分析的切分 .12西北工业大学明德学院本科毕业设计论文3.2.2以识别为基础的切分 .123.3粘连字符的切分 .143.3.1基于外部特征的粘连字符切分 .143.4数学公式识别中常见的错误 .14第 4章 公式分析与识别 .164.1公式字符识别 .164.1.1预处理 .164.1.2公式字符的切分 .174.1.3公式符号归一化 .234.1.4公式字符的识别 .234.2 公式结构分析 .254.2.1结构分析预处理 .254.2.2结构信息预处理 .264.2.3公式结构分析算法的实现 .304.2.4公式结构分析结果 .31第 5章 总结 .345.1论文总结 .345.2下一步工作 .34致 谢 .36参考文献 .37毕业设计小结 .40西北工业大学明德学院本科毕业设计论文1第 1 章 前 言1.1 课题研究的背景和意义随着人类社会信息化程度的日益提高,将印刷文档转化成相应的电子文档成为一个亟待解决的问题。利用 OCR(Optical Character Recognition,光学字符识别)技术将印刷文档输入计算机,是目前公认的信息数字化的高校手段。经过几十年的发展,OCR 技术已经进入了实用阶段,而且其速度和准确率也达到了令人满意的程度。近年来,在 OCR技术的基础上,结合字体识别、表格识别技术,已经初步实现了原文版面的重构与再现,这样就可以方便的编辑和排版。但目前这类文档识别系统(OCR 软件)对数学公式束手无策,只能按照图像进行保存这样就不能对文章的公式进行编辑也不能依据公式内容对文章进行检索。绝大多数科技文献的核心内容就是数学公式,失去了公式的文章也毫无意义。所以印刷文档中数学公式的处理在 OCR系统中占举足轻重的地位。本课题研究的是数学表达式中符号的识别,本课题研究的实际意义可以分为以下几个方面:(1)数学公式的检索,提高文献的科技性。在科技高速发展的现代,许多科技文献中包含大量的公式,它们有的和文档种的文字混杂在一起(内嵌) ,有的公式独占一行,由于目前没有一种 OCR 能够正确的识别文献中的数学公式,这些公式都是以图片的形式存在的。当人们对科技文献数字化时,其中的格式只能按照图像格式进行保存,而不能加以识别分析。这样就不能依据公式对文章进行检索,而有的文章的核心内容就是这些公式,失去了公式的文章可能毫无意义,因而降低了文章的科技性和应用性。(2)使公式的输入自动化,解决手动输入的低效率问题。随着计算机的普及,在各领域内有越来越多的人要借助于就计算机来解决科学上问题,当人们想验证或重用某些数学公式时,只能使用专门的计算机软件(如 Matlab)或数学排版软件(如公式编辑器)按照其语法规则重新输入,即西北工业大学明德学院本科毕业设计论文2使是使用可视化的数学公式软件输入速度也不可能得到太大的提高。由于数学表达式处了英文字符和阿拉伯数字外,还包括许多特殊的字符和希腊字母,使其输入过程复杂繁琐,既耗时又费力,且速度慢。长期以来计算机数据输入因其速度慢、误码率高而成为计算机应用中的“瓶颈” 。(3)节省空间,提高网络传输速度。随着互联网的广泛的使用,人们传递信息的方式有原来的邮寄信件的形式转向现在的电子邮件,省时又省力。而含有大量公式的文献在网络的传输中,由于公式的图像格式占空间极大,影响传输速率。正是这些因素引起人们的注意开始着手这一课题的研究。扫描图像 区域位置 符合识别 板式识别 结果输出 1.2 国内外公式识别研究状况和进展公式识别问题于 1968年由 Anderson在他的博士论文中首次提出,但直到九十年代才成为研究的热点。数学公式识别技术发展如此缓慢,与数学公式自身特点给公式识别所带来的困难是分不开的。首先,数学公式中所包含的符号种类特别多,如英文字母、希腊字母、运算符号等;而且根据这些符号所起作用的不同,在尺寸、位置、形态上很大差异,例如上下标的尺寸远小于一般符号,而功能符号(如)尺寸会比一般符号好很多;构成函数的字符多为正方形,而表示变量的字符多为斜体。另外公式符号笔画少、相似性高、不易区分。因此公式符号的切分与识别远比简单的一维分布的普通文本复杂的多。到目前为止,已有一些文章专门探讨数学公式处理某一方面的基本方法,如:公式含义的分析,公式的定位,符号的切分识别等。也有一些文章不但提出了基本处理方法,还构造了比较完整实验系统或针对特定情况处理的实际系统,但还没有成型的产品问世。多数论文在讨论中沿用了传统的切分和识别方法,没有考虑到公式的特殊情况。在为数不多的涉及公式符号切分和识别的方法中,切分环节多是利用投影或间隙特性,而识别方法仍采用传统的模板匹配法、结构分析法和神经网络法等。Okamoto 和 Miac2提出的系统首先运用了递归目标结构分析法来分割字母和符号,同时建立关系树,然后用传统的模板匹数学公式定位数学公式低级识别数学公式高级识别学公式结果输出西北工业大学明德学院本科毕业设计论文3配法识别符号。Lee 提出了一个识别印刷体数学公式的系统。首先运用传统的统计方法来识别单个字母和符号,然后用面向过程的方法将二维结构的公式转换为一维结构的字符串。Lee 和 Wang提出了既能识别文本又能识别数学公式的系统,在理解公式的同时应用特征提取技术和最近邻算法来识别算法来识别字符,建立符号关系树来描述表达式。此外,还提出了用于纠正识别错误的一些启发式规则。Fateman 设计了一个典型的系统,该系统能成功将的排好版的数学公式转换成 Lisp表达式。对识别部分采用了不同的方法,如计算用的Hausdorff 距离和符号灰度值的计算。对结构分析部分而言,运用了一个简单的递归降序分割法。该实验表明最初的由上而下的设计面临噪声数据时应用很有限,因此,一个更加结构化的由上至下的方法替代它获得了高水平的性能。国内对数学公式识别的研究尚处于起步阶段,目前还没有成形的印刷体公式识别的系统问世,主要研究机构有南开大学机器智能研究所,哈尔滨工程大学自动化学院,沈阳工业大学和大连理工大学等等,已有 40多篇相关的论文发表。综上所述,印刷体数学公式的识别是当前 OCR识别技术研究的难点,距离实用还有很大的距离。1.3 数学公式识别技术所要解决的问题以及采用的方法数学表达式的识别研究到今天,经过研究者们的努力,已经取得了一定的成绩。但是,随着技术的进步以及人们认识的深入,数学表达式的识别还存在许多问题,等待研究者们更进一步的研究。根据现阶段的研究情况,简要提出以下几点。模糊问题-当表达式没有被正确打印或书写时,模糊将会出现,有研究者建议用上下文信息来解决这一问题,可提供多个答案来参考,这问题的研究仍处于初期,有待更进一步的研究。在过去,一些研究者在没有任何实验结果报告的情况下,将他们所强调的纯理论性的问题公布出来。而对于那些进行了实验的人,他们的性能评估方法粗略的可分成以下三个主要类别。一是依据测试结果是正确的识别还是错误的识别来分类,二是依据被测试表达式的符号的识别速率进行分类,三是对一个或几个书写着工整写出来的典型表达式进行识别,结果所有的表达式都能够被西北工业大学明德学院本科毕业设计论文4正确的识别出来,这一实验的目的是显示这一方法至少对那些典型表达式有用。数学表达式是由可能非常大的一组字母和字符组成,并且不同学科的表达式的符号具有其专业的语言特性,这使得现有的系统不得不利用一些符号组和语法限制条件,当一个识别系统被应用于其他领域时,就需要进行语法修改,甚至有时候需要重新设计一个系统,这就对研究者们提出了一个强烈要求,设计一个通用性比较强的系统来进行数学表达式的识别。现阶段数学表达式的应用主要是在程序的编辑上,也许不久的将来,基于笔写计算机程序和智能辅助系统将被研究用于学生的数学学习。这一切都需要研究者们付出更多的努力来实现它们。伴随着基于笔写计算技术近来的高涨和光学扫描技术的发展,我们已经拥有了将数学表达式输入到计算机中的所有必备的硬件设备,关键的问题是数学表达式的自动识别,即更重要的在于软件方面了。数学表达式有两个主要阶段组成,即符号识别和结构识别。在本文中我们依据识别过程的每个阶段介绍了许多方法,在符合识别中使用了模板匹配、结构、神经网络、统计学等方法,在结构分析中大部分是采用语法规则依据上下文来分析数学表达式。显然,数学表达式识别中还有一些问题等待人们一些问题去解决,随着我们将数学表达式应用到实际中后,会有更多的应用性问题显现出来,那时就需要研究者们去解决更多复杂的难题,去完善数学表达式的识别系统。1.4 数学公式识别技术研究取得的成果及意义1.4.1 符号识别的方法公式中字符的识别,即识别系统的低级识别是要分割并识别出数学公式中的所有符号。就具体的分割方法就不做研究,在数学表达式中存在一些比较特殊的符号,在随后简单的分析一下。一般系统都采用连通体的方法来进行字符分割的。要对以下三种情况进行连通体合并: 字符在垂直方向可分为多个连通体,例如“i、j、=”等; 字符在水平方向可分为多个连通体,例如“”等; 大连通体包含小联通体,例如“” 。西北工业大学明德学院本科毕业设计论文5经过三十多年的研究,许多现存符号识别技术已经能够获得相当令人满意的结果。但是这些识别技术中大多数技术只能识别独立的符号,而在数学公式中存在复合的字符,为了正确识别数学公式首先必须将符号准确的分割出来,因此有符号的识别符号的分割两大阶段。1.4.2 符号分割符号的分割首先采用公式定位技术,确定公式的位置,然后对公式中的每一个符号根据分割技术进行分割,符号分割最基本的方法是将所有物理结构独立的部分分成一组,而像 i、j、=这样的符号有多组分构成,我们必须将相关联的部分连起来以正确的识别这类单个的字符和字母,还有如、类符号,在它们的有效区域内通常包含其他的字符,即子表达式。现存的比较突出的分割方法有以下几种:(1)两个分类模块结合法,采用数据驱动分类模块建立给定数学表达式的关系树,根据 x轴和 y轴上的对象可以决定如何将数据分类,然后用知识驱动分类模块尝试修正由数据模块建立的关系树,试着将不同的部分联系到一起。(2)通过水平和垂直结构分割,将给定数学表达式分割为各组分,对含有多个组成部分的符号要进行额外的检查。(3)用符号的 bounding boxes法将符号从数学表达式中表达出来,又陈递归 X-Y分割法,其中 X为水平分割,Y 为垂直分割。1.4.3 分隔符的识别符号被正确的分割后,我们拥有了一系列作用值得对象,但尚不知道符号在数学公式中的准确意义。理论上我们可以在他们被设计相应的数据类别时应用符号识别方法进行识别。经过多年的研究,不同的方法被用于不同的符号识别,现在被研究的主要的识别方法有模板匹配法、结构分析法、神经网络法以及其它的统计方法。西北工业大学明德学院本科毕业设计论文6第 2 章数学公式识别系统概况数学公式是绝大多数科技文献的重要组成组成部分,由于包含许多键盘无法直接输入的特殊符号,手工输入困难,因此,研究公式自动输入技术势在必行。公式自动分析与识别技术研究的主要困难来自于公式的二维嵌套结构和所包含符号含义的不确定性。2.1 数学公式的特点在文档中,数学公式在结构上区别于一般文字的主要特点是:将大小不一定完全相同的符号按一定的规则排列成一个二维层次结构。主要体现在以下几个方面:2.1.1 数学公式中的符号数学公式符号可分为基本符号和特殊符号,如绑定符号、界定符号、运算符号等,它们有自己的组织准则,如加号必须有 2个操作数等。对于基本的符号一般有以下形成规则:(1)大小相同且相邻的数字应该是一个整体,相邻但大小不同的就不能成为一个整体,如 520就不能作为一个整体。(2)几个相邻的字母有可能形成一个整体,如函数名(tan ,sin)等,但有时也代表 2个变量的乘积,如 CD,它表示 C*D。 (3)除了字母和数字的其它符号应该独自形成一个整体。对于特殊的符号一般有以下 3种:(1)绑定关系符号,如:分数线、 、 、等,它们同作用域中子表达式绑定在一起,比如:中绑定两个子表达式3、i+1。 (2)界定符号,如括号它将界定符号间的内容看作一个完整的部分,它具有更高的运算优先权。 (3)运算符号,如:+、-、 、等,它们都约束着各自的操作数。西北工业大学明德学院本科毕业设计论文72.1.2 数学公式的运算符号数学公式的运算符号包括显式运算符号和隐式运算符号。显式运算符号就是通常的运算符号,可以根据它们的运算优先权规则来确定运算关系。如果公式不是线性的。如 C+B/D,可以根据运算符号的作用域来确定它们的运算关系。隐式运算符号由相对位置来确定运算关系,而没有明显的运算符号,如上标、下标式的乘号。例如 CD表示变量 C和变量 D相乘:在 2a中 a是 2的上标,而在 b3中 3是 b的下标。2.1.3 含义的不确定性同样的符号,在不同的位置,其表示的含义可能不相同。例如,圆点可能表示乘,可能表示小数点。在一些数学公式图像还可能是噪声等。比如 dy在公式中 dy表示积分变元,而在公 cd+dy 中表示 d和 y相乘。2.2 数学公式识别系统的组成结构科技文档不仅包含普通文字、图像、图形,还包含大量的数学公式。数学公式识别系统的构建经过三个步骤:公式提取、公式分析与识别和公式的重构。印刷体数学公式识别过程如图 2.1所示。其中椭圆的部分是公式分析和识别部分,也是整个识别系统的核心部分。 191)扫描输入图像:原始图像通过光电扫描仪、数码摄像机、CCD 器件或电子传真机等获得二维图像信息。 2)图像预处理:包括对原始图像去噪、倾斜校正或各种滤波处理。3)数学公式的提取:数学公式与普通文字区别很大,在科技文献中,在很多情况都是文本和数学公式混合在一起的 21,要想真正处理数学公式,就必须从原始的图像中找出数学公式所在的区域,以便以后使用专门的方法处理,所以,识别前需要从文档中找出数学公式,即页面分割,这是公式识别的第一步。4)公式分析与识别:一般分为两个阶段:字符识别和结构识别。在字符识别阶段,主要是采用恰当的算法对提取出的数学公式进行精确的切分 4,从切分得到的单个公式字符图像上提取统计特征和结构特征,包括为此而做的细化,归一化等步骤,并从学习得到的特征库找到与待识公式字符相似度最高的字符类;在公式结构分析阶段,主要是在正确的切割并识别公式西北工业大学明德学院本科毕业设计论文8的每个符号的基础上,采用某种最佳策略分析符号之间的关系并进行公式符号组合,进而确定公式符号间空间关系、符号间逻辑关系,达到理解公式含义的目的,并将公式的分析结果用关系树或分析树的形式表现出来。公式分析与识别部分是整个印刷体公式识别系统的关键环节,它直接影响整个识别系统的性能和效率。 55)数学公式的重构:利用前面两部分的分析、识别结果,生成通用的、公式的原貌的电子文档,以便进一步排版、储存等,从而避免了手工输入的这一繁重劳动。 12图 2.1印刷体数学公式识别的简单过程公式识别模块是整个数学公式识别系统的关键环节。由于公式中包含数字、英文字母、希腊字母、运算符号等多种类型的字符和符号,大小不一,正斜体变化频繁,且在空间上呈二维嵌套分布,使得传统的、比较成熟的 OCR核心对公式符号的切分准确率和识别率都很低。因此,有必要针对公式的特点,研究专门的公式符号切分和识别算法。公式符号的识别性能直接影响结构分析和重输入资料扫描输入图像图像预处理数学公式的提取数学公式的切分公式字符特征的提取公式字符的识别数学公式的结构分析数学公式的重构反馈输出结果西北工业大学明德学院本科毕业设计论文9构等环节的正常进行,并最终影响公式识别系统的整体指标,鉴于公式符号的独特之处,研究准确性高,适应公式特点的字符切分与识别方法,是十分重要的。因此,它是数学公式识别系统的核心。2.3 数学公式识别的难点数学公式识别技术如此缓慢,是与数学公式本身的特点分不开的。在数学公式中,字符和符号是按二维嵌套结构分布的, 并且字符大小不一样,这使得公式字符定位和识别相当困难,总的来说,数学公式识别存在着以下几个难点: 公式中字符出现的位置是随机的,没有一定的规律,有时只能根据上下文来判断一个字符是否为公式字符的一部分,这给公式中字符定位带来很大的困难。 一些公式中的字符存在粘连现象,严重影响了切分和识别。 公式中一些字符有很多部件组成,宽窄不一,给切分造成了不便。本文对公式分析和识别做了较深入的研究。在公式字符识别阶段,提出了一种基于连通域搜索的公式字符切分算法,并利用基于识别的切分方法,通过公式字符识别结果的反馈信息对粘连公式字符实行再切分,进而实现了公式字符的高效切分和识别;在公式结构分析阶段,以公式字符的识别结果为基础,根据公式字符的结构布局,采用“自顶向下”与“自底向上”相结合的策略对数学公式进行结构分析,构建数学公式的识别系统,以备公式重构使用。西北工业大学明德学院本科毕业设计论文10第 3 章 数学公式识别的相关技术公式识别与分析是公式识别系统的必要环节,公式字符切分的好坏与公式结构分析的准确与否直接影响数学公式的识别效果,因此,选择一种恰当的公式字符切分算法和最佳的公式结构分析策略是正确识别数学公式的关键。本章主要介绍了图像处理和几种常用的字符切分技术和传统的公式结构分析策略。3.1 图像预处理图像处理,包括图像增强、图像复原,图像分割、边缘检测等,它的输入是图像,输出是经过处理的图像。在自动处理数学公式系统中,因现在只研究印刷体的识别,故只需要进行图像处理中的图像的分割和边缘检测即可。图像识别,它是模式识别的一个分支,输入是图像,输出是图像的分类和结构描述。图像理解,它属于人工智能领域。它的输入是图像,输出是对图像的理解和描述。3.1.1 图像的二值化处理预处理是字符识别的重要环节之一,它把原始图像转换成识别器所能接受的表达形式(二值化) ,消除一些与类别无关的因素(尺寸与位置的固定化) 。我们在电脑屏幕上看到的图像都是由许多的点构成的,这些点称之为像素,是用扫描的方法进行显示的,图像扫描后以一个二维的像素矩阵点阵形式存储在计算机内部,就称之为位图。现今大多数扫描仪在进行二值图像扫描时,都是通过一个固定的阈值将图像的灰度值做二值化处理,如公式所示:f(x,y)其中 k称为二值化阈值,当采样点(x,y)的灰度值 f(x,y)大于或等于 k值,f(x,y)取 1,小于 k时,取 0,表示背景部分。西北工业大学明德学院本科毕业设计论文113.1.2 图像的平滑去噪数字图像在生产过程中,由于数字化设备等原因经常受到噪音污染,因此对数字图像应进行去噪处理。传统的去噪音方法是基于傅里叶变换的信号去噪音方法,可以使得信号和噪音的重叠部分尽可能小,这样就可以在频域通过时,不需改变滤波方法而将信号和噪音分隔开。但如果信号和噪音的频域重合时,用这种方法进行去噪处理的效果较差。这一缺陷使得众多的学者们开始寻找更好的解决方法。小波变化的粗至精的多分辨分析能力和在时域和频域突出信号的局部特征的能力在图像处理、计算机视觉、模式识别等领域表现了巨大的前景,许多学者研究了将小波变化用于噪声的去除。去噪声的方法如下:(1) 计算离散小波变换。(2) 在小波变化域对小波系数进行阈值处理。(3) 计算逆离散小波变换。3.1.3 图像的细化在计算机模式识别中,为了方便图像特征的抽取,一般都先进行图像的细化处理。图像细化就是把二值图像中具有一定宽度的细条状区域变成一条薄线,细化处理能去除字符上不影响连通性的轮廓像素,获得单位宽度的中心骨架。图像细化大大压缩了原始图像的数据量,并能保持其形状的基本拓扑结构不变,为字符识别中的轮廓跟踪及特征抽取等后续工作奠定了基础。细化应满足以下条件:(1) 将条形区域变成一条薄线;(2) 薄线应位于原条形区域的中心;(3) 薄线应保持原图像的拓扑特性。3.2 常用的几种字符切分方法字符切分是将版面分析得到的文本块切分成单字图像,以利于 OCR的处理。字符切分近几年来一直是 OCR领域中的关键问题。较高的单子识别正确率与无限制印刷体或手写体文本的识别正确率之间的差距正说明了这一点。而且目前在文字识别领域所取得大部分进展都可归功于文字切分水平的提高。同样,数学公式的识别也受限于公式字符的切分。西北工业大学明德学院本科毕业设计论文12传统的字符切分主要有三种基本方式:其一,是基于基本结构的切分,即从图像特征中寻找字符切分规则,该方法主要是根据字符的形状和特征结构;其二,是基于整体策略的切分,即系统将字符串作为一个整体进行词识别而不是字识别,在这种方法加入了上下文关系等先验知识;其三,是以识别为基础的切分,通过识别反馈判断切分结果是否正确。3.2.1 基于结构分析的切分这类方法主要是利用了汉字是方块字的几何特性,如每个汉字的宽和高都基本相同,字与字之间的间距也大致相同等,将文本分割成多个有意义的单元。Lu等人提出了两种基于字符结构分析的垂直投影切分算法。(1)第一种切分算法主要依据字宽和零值划分的空白间隙,采用投影的方法切分字符。该算法的缺点就是,在字符粘连的情况下显得无能无力。(2)另一种切分方法是周期字间距检测法(GDP) 。首先,该方法利用多行垂直投影部分去检测待切分区域中最合适的偏移和倾斜度的大小,倾斜度的估计是基于垂直投影的平均字间距长。如果这两种方法的估计超过了经验阈值,或估计的倾斜度大小远大于平均字行高度,则字体并不是固定大小,需用其他方法,一般在具体确定切分参数时,根据汉字形状和结构特点,主观的加入一些逻辑判断。该切分方法的缺点是:(1)分析汉字形状和结构特点时工作量较大,且比较繁琐,例如从语言文字学的角度出发对汉字结构进行了分析。 (2)对汉字的形状、结构的分类没有确切的最优解,例如目前尚无“部件”概念的明确定义;(3)描述规则比较复杂,甚至需要专家系统;(4)不易扩展功能,如增加字体或汉字、数学公式、英文混排时,原规则需要较大的改变。最主要是数学公式中字符大小不一,用基于结构分析的方法对公式字符进行切分,误切率很高,比如根号表达式中的公式符号就不能正确切分,所以基于结构分析的切分方法对数学公式的适应性欠佳。3.2.2 以识别为基础的切分这类方法的基本原理是以识别信度作为切分标准,利用一个大小可变的滑动窗口来得到若干候选切分序列,每一序列作为一个整体用其识别结果进行评价。评价简单的归于各个切分块的识别情况,也可以基于词汇和语法、词义等上下文知识。在这类方法中,字符切分是字符识别的副产品,而字符识别本身西北工业大学明德学院本科毕业设计论文13可由上下文分析得到的。基于识别的切分方法主要涉及到以下技术:滑动窗口方法、闭环切分识别和多假设方式。(1)Kovalesky 对滑动窗口法做了如下描述:用一个固定窗口沿一行字符图像移动,把落入的窗口的部分送入识别器,若与原型相匹配,满足某些识别条件,则予以承认。不过 Kovalesky也指出,在实践中仍会出现一些差错,这是由于两个相邻字符的一部分落入窗口时可能会与第三个字符相似,例如相邻的字符“O”和“C”可能组成一个字符。为此 Kovalesky建议要将正行字符一起考虑。(2)Casey和 Nany提出了一个闭环切分识别方法,只有一个字行能被分割成一组,可识别字符时才接受这个句子。 7它们的方法可用图 3-1表示。字符序列图 3-1闭环切分识别方法示意图该算法以整行字符作为输入,由一个切分监督器 SS把窗口初始化为整个图像的宽度,如果图像中只有一个字符,则分类器一开始就认出该字符。如果分类器拒识,则从右侧开始缩小阅读窗口,直至分类器能够有效识别窗口内图像或者窗口变得太小。如果分类器成功识别字符序列,SS 记录该识别效果,标记窗口右侧为截舍点,复位阅读窗,左侧对应于截舍点,而右侧仍然是原图像末尾。重复上述操作直到整个切分过程结束。(3)多假设识别方法包括以下两个步骤;首先,产生若干假设切分。然后,选择最佳假设,这种最佳假设就成为最佳切分路径,从而得到切分结果。由于这种基于识别的切分技术可以容忍远大运算量及其具有上述两个特点,切分监督器 SS滑动窗口 分类器窗口参数ID/失败ID1,ID2西北工业大学明德学院本科毕业设计论文14因此它能够比其它两种切分方法更适于手写汉字的切分。(4)该方法首先用一个切分算法对整个图像进行“最大可能”的切分,不考率是否将字符切错或切碎,这样就可以将这些切分点进行组合,得到一系列的候选切分方案,然后对切分后的字符进行识别,从识别的结果中选取一个最好的切分方案作为切分结果。在文献中有一个这种方法的简单例子,它由一个切分算法得到大量的候选切分点,然后将相邻的候选切分点进行组合,并对切分后的字符进行识别,如果识别结果得到较高的可信度,就将组合后的切分点作为切分最佳切分方案。由于该算法可以通过大量的先验知识来进行切分指导和判断,所以它在具有一定先验知识的领域应用前景很广。3.3 粘连字符的切分由于印刷质量或其它问题,在包含数学公式的印刷文档中粘连的字符。为了正确识别这些字符,必须对粘连字符进行切分。粘连字符的切分技术可以别分为两类:基于外部特征的方法和基于识别的方法。3.3.1 基于外部特征的粘连字符切分这类方法是通过统计字符串图像每一列的黑像素在水平方向上的投影,查找连续字符之间的空白区域和粘连区域,确定分割点的位置。其特点是速度比较快,实现较简单,但该方法存在以下不足:(1)对粘连程度的限制比较苛刻只能适应简单粘连的情况。(2)即使对简单粘连的情况,也要求粘连区在垂直方向不宜过宽,至少应明显小于字符的笔画宽度才能定位,针对该点的不足,文献通过腐蚀粘连字符的外轮廓来减弱粘连程度,但改进算法仅适用于粘连处两侧有较强波峰情况,且只能减少一到两行像素宽度,作用有限。(3)由于字符可能存在退化现象,该方法常将一个独立字符中的细笔画误认为粘连区,如字符 U就有可能因底部被切开而误认为 11。如图 3-3所示。西北工业大学明德学院本科毕业设计论文15图 3-3 字符的退化3.4 数学公式识别中常见的错误数学公式的二维嵌套特性、所包含符号的复杂性及多样性,使得数学公式的识别出现错误,常见的错误有:(1)常规 OCR字符切分方法主要用于一维线性结构文字,而公式的结构是二维的,所以传统的字符切分方法对数学公式中包含特殊字符(如: ”等)的表达式切分错误,例如,利用传统的字符切分方法对图 3-4所示的数学公式进行切分, “”中的子表达式就不能被正确分割。(2)特征的选择和提取没有固定的标准,由于对特征选择不当,会造成一些相似字符识别不清,如o,O,D,s,S,5。如图 3-5所示。(3)数学公式符号之间的空间关系比较复杂,由于对数学公式结构分析策略选择不佳,容易
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情境中的课件
- 患者入院与出院护理课件
- 学校老师下学期体育工作方案
- 恐龙无处不在教学课件
- 动物乐园考试题及答案
- 埃克森美孚面试题及答案
- 名次复数考试题及答案
- 数学建模试题及答案
- 5招让孩子远离安全隐患
- java面试题及答案100以内素数
- 租房水电安全协议书
- vte的预防及护理课件
- 化学品MRSL培训教材
- 永久基本农田储备区划定技术方案
- GB 1886.174-2024食品安全国家标准食品添加剂食品工业用酶制剂
- T-CRHA 028-2023 成人住院患者静脉血栓栓塞症风险评估技术
- 网络安全管理规范vfd样本
- 新《安全生产法》全面解读“三管三必须”
- 部编小学语文四年级上册第一单元大单元教学设计
- 《关爱女性健康》课件
- 关于女性生殖健康知识讲座
评论
0/150
提交评论