毕业论文-印刷体汉字识别技术的研究.doc_第1页
毕业论文-印刷体汉字识别技术的研究.doc_第2页
毕业论文-印刷体汉字识别技术的研究.doc_第3页
毕业论文-印刷体汉字识别技术的研究.doc_第4页
毕业论文-印刷体汉字识别技术的研究.doc_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学校代码:10259 上海应用技术学院学士学位论文 题 目: 硬刷题汉字识别技术的研究 专 业: 电气工程及其自动化 班 级: 09103212 姓 名: 沈佳骏 学 号: 0910321220 指导教师: 陈岚 二O一三年 六月六日v印刷体汉字识别技术的研究摘要:印刷体汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理。实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先在第一章就汉字识别研究的意义和背景以及对目前存在的问题作了综述。第二章对印刷体汉字的识别过程进行基本概述。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;分析了统计模式识别方法、 结构模式识别方法以及人工神经网络模式识别方法;第四章用Matlab对系统进行了仿真;最后在第五章进行全文总结并预测了汉字识别技术研究今后的发展方向。关键词:汉字识别; 特征提取; 匹配识别; 人工神经网络; Matlab仿真The research of printed Chinese characters recognition technologyAbstract: Printed Chinese character recognition technology is a kind of automatic high-speed, information input method, become the important functions of the computer interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the computer could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. Thats what printed Chinese character recognition can do. Firstly, in chapter 1,this thesis gives what is the significance of research and background of Chinese character recognition and introduce the problems we encountered now. The chapter 2,it is a basic overview of the recognition process of printed Chinese characters. In chapter 3, we discusses the principles and printed character recognition, feature extraction and analysis, the post-processing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and Artificial neural network pattern recognition method. In chapter 4, giving an Matlab simulation concludes the whole article and forecast characters identification technology research directions of future development.KeyWords:Chinese characters recognition;feature extraction;Matching recognition;Artificial neural network;Matlab simulation目 录摘要iABSTRACT.i目录iii1 绪论11.1 印刷体汉字识别技术的研究意义11.2 印刷体汉字识别技术的研究状况11.3 印刷体汉字识别技术存在的难点22 印刷体汉字识别的概述42.1 印刷体汉字识别的原理简介42.2 印刷体汉字识别的流程简介43 印刷体汉字识别技术的研究63.1 预处理63.2 汉字特征提取83.3 汉字识别算法分类93.4 后处理113.5 印刷体汉字识别方法分析123.5.1 结构模式识别方法123.5.2 统计模式识别方法123.5.3 人工神经网络143.5.4 BP神经网络153.5.5 支持向量机173.6 本章小结184 系统的Matlab仿真194.1 系统的分析194.2 系统的实现204.2.1 特征提取204.2.2 BP神经网络的建立214.2.3 BP神经网络的训练214.2.4 系统的仿真234.2.5 系统性能的进一步验证274.2.6 仿真结果分析314.3 本章小结325 未来展望与全文总结335.1 未来展望335.2 全文总结33参考文献35致谢36参考附录37参考附录137参考附录24850印刷体汉字识别技术的研究1 绪论1.1 印刷体汉字识别技术的研究意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中华人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。在跨入信息时代后,现如今汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是呈爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,随着人们对电子化信息需求的日益增加,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的重要前提,更是能否传播与弘扬中华民族悠久历史文化的关键因素。传统的人工键入不仅速度慢而且劳动强度大,即使是专业的打字员每分钟也只能输入100-120个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。人们要求有一种能将文字信息高速、自动输入计算机的方法,于是印刷体汉字识别技术便应运而生。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对社会各方面的工作都有着相当深远的意义。目前印刷体汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)的重要组成部分。汉字识别是一门多学科综合性的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等技术都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的相互进步。因而该技术有着重要的实用价值和理论意义。同时,中国是使用汉字最久远和最广泛的国家。因此,能否在汉字识别技术的研究方面占据领先的位置也是中国科技实力的一项至关重要的体现。1.2印刷体汉字识别技术的研究状况 印刷体汉字识别是文字识别技术的一种。利用机器识别文字符号,可以说从1929年奥地利科学家陶舍克利用光学模板匹配识别开始。当时,他使用了10块模板对应10个数字,依次把待识别的数字投影到这10块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。大约在50年代末60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。据文献记载,印刷体汉字的识别最早可以追溯到60年代中期。1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。随后,日本也在70年代开始对汉字识别进行了研究。1981年5月在日本第56届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。1984年日本武藏野电气研究所研制成多体印刷汉字识别装置,可以识别2300个多体汉字的印刷体汉字识别系统, 识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平1。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统,但因这些系统价格极其昂贵,没有得到广泛应用。直到80年代中期以来,以软件为主并使用通用高档微机的产品才逐步走向市场。 同国外相比,我国的印刷体汉字识别研究起步较晚2。我国在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末仅有少数大学和研究所开始进行汉字识别的研究并发表了一些论文,研制了少量模拟识别软件或系统。但由于我国政府从80年代中期开始对汉字自动识别输人的研究给予了充分的重视和支持,汉字识别技术进入了研究的高潮。经过科研人员这些年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。进入90年代以来,印刷体汉字识别研究的主要目的是提高识别系统的品质和效率,增强系统对不同文本的适应性,扩大使用面。在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的产品广泛出现。1.3 印刷体汉字识别技术存在的难点 由于汉字具有以下几个方面的特点,使汉字字符在识别难度上远远大于字母化字符的识别。(1)类别较大目前我国常用汉字约30004000个。国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。可以说,字量大是造成汉字识别困难的主要原因之一。(2)结构复杂汉字是一种结构性很强的文字,每个汉字都具有独一无二特定分布的若干笔划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了数以千计表达不同含义的结构异常复杂的汉字字符。与世界上常用的其他民族的文字相比,汉字的结构是最为复杂的。 (3)相似字多部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“土”和“士”这两个字仅在下部笔划长短有细微的差别而已。即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易发生混淆3。识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别,因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识别率上都能满足实际需求就成为整个系统的关键。2 印刷体汉字识别的概述2.1 印刷体汉字识别的原理简介 汉字识别(CCR:Chinese Character Recognition)是用电子计算机自动辨识印刷在纸上或者人写在纸(或其他介质)上的汉字。汉字识别技术是计算机智能接口的一个重要组成部分。从学科上划分,汉字识别属于模式识别和人工智能的范畴。它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。该系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。随着汉字识别技术的深入研究,汉字的特征提取的算法越来越多,如何选择特征和如何组合优化特征已经成了研究的重要领域。汉字识别的基本思想是匹配识别,匹配识别技术涉及到分类器的设计等重要问题,这也是非常重要的一个环节。汉字的后处理是出于获得最大化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。汉字图像通过光电扫描仪,CCD器件等工具扫描成为二维图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程。2.2印刷体汉字识别的流程简介 印刷体汉字识别的过程主要过程包括预处理、版面分析理解、文本行字切分、特征提取、汉字识别、识别后处理,在本文中,将版面分析理解、文本行字切分都归为预处理。系统框图如2.2.1所示。输入材料扫描输入图像图像预处理文本的行列切割文字的特征提取文字的识别处理识别结果识别结果的改编图2.2.1 印刷体汉字识别流程图 版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序,图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、规范化(Normalization)等。提取特征的稳定性及有效性,直接决定了识别的性能。文字识别,即从学习得到的特征库中找到与待识别字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。由此可见,印刷汉字识别技术主要包括图像处理模块,图像版面的分析与理解模块,图像的行切分与字切分模块,单字图像的特征提取与匹配模块,特征库,识别结果的后处理模块。其中单字图像的特征提取与匹配模块是印刷汉字识别中最为核心的技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过98%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。3 印刷体汉字识别技术的研究3.1 预处理由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。因此,在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等34。 (1)版面分析印刷体文字识别常遇到的识别主体不是一个文字段,而是整个版面,所以版面分析是印刷体文字识别系统中的重要组成部分。它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。这一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完成所有的版面分析。 (2)二值化将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理5,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。若阈值取的过大,则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰;若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。现如今,汉字图像二值化方法多种多样,但大多都有应用限制。研究一种适合各种文字图像的二值化方法也是预处理环节的重点。 (3)倾斜校正通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。目前,倾斜角检测的方法有许多种,主要可分为5类:基于Hough变换的方法;基于交叉相关性的方法;基于投影的方法;基于Fourier变换的方法和最近邻簇方法。灵活运用倾斜角度检测算法将是倾斜校正环节的重要研究方向。 (4)行字切分汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分。行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来6。典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来。典型的算法是,在确定这一行的行上界和行下界之后,从左到右搜索一行文字的左右边界,切分出单字或标点符号。从左边开始垂直方向的行距内像素单列累加和均大于一个试验常数,则可认为是该汉字的左边界。同理,当出现连续一个汉字宽度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为该汉字的右边界。对文本汉字行来说,由于存在左右分离字,宽窄字,字间交连等,加上行间混有英文、数字、符号、和字间污点干扰,使得字切分比行切分困难得多。 (5)归一化归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。汉字图像的归一化往往会带来两个问题:一是字符图像的缩放可能会引入一些干扰;二是图像缩放本身的运算量较大。所以,必须采用恰当的归一化方法来尽可能的消除尺度变化对特征值提取的影响。 (6)平滑对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量,在实际应用中,采用WXW(一般采用3x3)的辅助矩阵对二值文字图像进行扫描。根据辅助矩阵中各像素0、1的分布,使处于矩阵中心的被平滑的像素X从“0”变成“1”或者从“1”变成“O”。常用的平滑滤波方法有中值滤波和均值滤波7。 (7)细化细化处理是在图像处理中相当重要和关键的一环,它是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。细化处理结果的好坏,直接影响到识别的效果和质量。在细化处理过程中,一方面,去除的像素太少,则不能充分有效地减少图像的信息量;另一方面,去除的像素太多,特别是某些关键像素若被去除,则改变了原始图像的主要特征。因此,高质量的细化算法程序对图像识别有很大的实用价值。针对文字图像的细化算法已有很多,它的优劣对系统的识别效果影响很大。对细化的一般要求是保持原有笔画的连续性,不能由于细化造成笔画断开;细化成为单层像素线;保持文字原有特征,既不要增加,也不要丢失,保持笔画特征,最好细化掉笔锋:细化结果是原曲线的中心线,保留曲线的端点,交叉部分中心线不畸变。针对各种不同的应用,国内外已发表了许多细化算法,如Hilditch经典细化算法、Deutsch算法等。然而,细化过程本身固有的弱点总是造成笔画骨架线的畸变,增加对识别的干扰,主要的畸变包括:交叉笔画畸变、转折处出现分叉笔画、失去短笔画和笔画合并等。可以说,这些问题依赖细化算法本身是无法克服的,需要在后续的处理中尽量消除这些畸变的干扰。3.2 汉字特征提取 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了效用8。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。但不得不提到的是,任何一个实用的。识别系统只利用其中部分子空间的信息。由于信息的缺陷,便不可避免地遇到识别“死角”的问题。如下介绍并分析一下常用的一些的可供提取的汉字特征。 (1)结构特征 抽取笔画法抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机印刷体识别中,由于笔画提取的困难,结果不是很理想。 松弛匹配法松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。其缺点是操作速度较慢,计算量大。非线性匹配法非线性匹配法是由Tsukumo等提出的,用以解决字形的位移、笔画的变形等现象。此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。 (2)统计特征 特征点法 特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。 笔段特征法汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这也是设计者需要考虑的因素。四边码(Four-side Code)四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。 当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这都需要通过具体的实验来验证。但不管使用什么样的特征,汉字特征的提取都要遵循区别性、可靠性、独立性和特征数量这四个标准9。 而本文为实现特征提取,我们将着重于对汉字的横竖撇捺四种特征的提取(汉字本身属性决定),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向数据统计特征提取法,13特征点提取方法等,本设计中将引入13点特征提取法。3.3 汉字识别算法分类识别算法是整个识别过程的核心部分。原始图像经过预处理后,得到一个较为理想的二值图像,然后就可以对这个处理后的二值图像进行识别。识别的过程包括根据识别算法选择和提取汉字的特征、与标准文字的特征进行匹配判别。 汉字的分类识别方法也是汉字识别系统的重要环节之一。诸多分类方法各自有其优缺点。 (1)相关匹配 这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间的距离进行分类判决。相关匹配是一种统计识别方法。统计方法的优点是特征提取和模板的建立都比较容易,抗干扰能力强,使局部噪声不敏感:缺点是分辨相似字的能力较弱,对书写风格的变化比较敏感。 (2)文法分析文法分析的基本思想是将输入的汉字看作是一个语句或符号串,将识别问题转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束条件,这种方法在汉字识别中也得到了应用。文法分析是典型的结构识别方法,由于其侧重点是在笔段形状、位置以及笔段之间相互关系的分析上,所以它的优点是分辨相似字的能力较强,对书写风格的变化不敏感:缺点是对局部噪声敏感,特征提取比较复杂。 (3)松弛匹配无论是相关匹配还是文法分析,都要求输入特征向量和模板特征向量的各分量之间具有确切的对应关系,然而在结构分析中,往往事先难以确定两者各分量间的对应关系,此时可以采用松弛匹配法。松弛匹配法首先通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后再根据这一对应关系进行匹配。迭代开始之前,首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板问的距离,重复上述过程。求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。松弛匹配法兼具统计方法和结构方法的特长。由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息考虑在内,这一点又很像结构方法。因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。其主要缺点是运算量较大,识别中往往需要增加预分类环节以减小运算量。另外,它吸收畸变的能力仍有不足。 (4)人工神经网络汉字识别是一个非常活跃的分支,不断有新的方法涌现出来,为汉字识别的研究注入新的活力,其中基于人工神经网络的识别方法是非常引人注目的方向。目前神经网络理论的应用己经渗透到各个领域,并在模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别,连续语音识别、声纳信号的处理、知识处理、传感技术与机器人、生物等领域都得到了日益广泛地应用。3.4 后处理后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。汉字识别的后处理方法从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。一般而言,后处理可以在相关编程过程中由计算机自动实现6。以下对各种常用的后处理方法做简单的介绍。 (1)简单的词匹配简单的词匹配就是利用文本中字的上下文匹配关系和词的使用频度,给识别后文本中的拒识字提供一个“最佳”的候选字,其关键是建立汉语词条数据库。该数据库应具印刷体汉字识别系统的特征提取和匹配识别研究有完善的词条存储、维修功能,应该能够反映不同词的使用频度,应尽可能的提高词条的检索速度,只有这样才能方便汉字后处理程序的使用。 (2)综合词匹配综合词匹配方法,就是综合利用初级识别结果和字的上下文关系及词的使用频度,来决定最后的识别结果。这种方法实际上己把识别过程和后处理过程融为一体了。综合利用初级识别结果与词条信息的纠错优于单纯利用词条的纠错。综合词匹配法可以减少搜索词条关系时的搜索空间,从而提高纠错速度。这是因为在寻找字的上下文匹配关系时,利用初级识别结果的待选集,可以大大缩小搜索范围,避免了在整个词条库中查询。在不利用待选集时,对于有可能识别出错的地方,只能采用拒识,而拒识不提供任何未知汉字与已知汉字字符集中汉字相似度的信息,所以寻找词条时的搜索空间只能是整个词条库。另外,当某一个词前后两个字都被拒识时,简单的词匹配法就无能为力,而综合词匹配法仍能利用词条信息进行纠错。 (3)词法分析语言是语音和意义的结合体。语素是最小的语言单位。无论是词还是短语,都有其构成规则,利用这些规则,将它们分类。另外,不同的应用背景,也有不同的分类结果。汉字识别后处理的词法分析方法,就是在词匹配的基础上,对仍难以确定的汉字,找出这些汉字与前后汉字所能组成的词,然后通过词法分析,确定一个能和该词的前后词组成“最佳”匹配的词,从而确定要识别的汉字。基于词法分析的汉字识别后处理的关键是构造一个完善的词条数据库。该数据库中的每一个词条项都要包括本词条的词性、词频、连接属性、语义信息等。 (4)句法、语义分析语句无论是从结构上,还是从意思上都有一种人类共同理解、共同接受和共同遵守的语言组合法则。所以利用语义句法的方法,在初级识别结果的基础上,在利用词法分析进行匹配之后或匹配的同时,再进行句法分析和语义分析,从而确定要识别的汉字。进行语义句法分析也要首先建立词条库。这时词条库中的每一个词条项,还要包括该词的句法信息和语义信息。另外,还要建立起一套句法规则和语义规则,以便指导语法分析和语义分析。 (5)人工神经元网络利用人工神经元网络的汉字识别后处理可以采取两种方式。一种是把识别过程和后处理过程分开,网络的输入是初级识别结果的短语或者句子,其中包含不确定的汉字(或拒识的汉字),通过网络的运行,最终确定这些字。另一种方法是把识别过程和后处理过程综合在一起,初级识别给出的结果是每一个待识汉字的前几个候选字和每一候选字与待识字之间的相似度。然后,把这些候选字以及与之相连的相似度输入网络,通过网络的并行作用,找到最符合汉语语法和语义组合关系的词或句子,从而确定出要识别的汉字。3.5 印刷体汉字识别方法分析3.5.1 结构模式识别方法 汉字的数量巨大,结构复杂,但其特殊的组成结构中蕴藏着相当严的规律。从笔画上讲,汉字有包括横、竖、撇、捺、点、折、勾等七种基本笔画,还有提挑、撇点、横捺等七种变形笔画。从部件上讲,部件是有特殊的笔画组合而成,故部件也是一定的。换而言之,汉字图形具有丰富的有规律可循的结构信息,可以设法提取含有这些信息的结构特征和组字规律,将它们作为汉字识别的依据。这就是结构模式识别。 结构模式识别理论在20 世纪70 年代初形成,是早期汉字识别研究的主要方法。其思想是直接从字符的轮廓或骨架上提取的字符像素分布特征,如笔画、圈、端点、节点、弧、突起、凹陷等多个基元组合,再用结构方法描述基元组合所代表的结构和关系。通常抽取笔段或基本笔画作为基元,由这些基元组合及其相互关系完全可以精确地对汉字加以描述,最后利用形式语言及自动机理论进行文法推断,即识别。结构模式识别方法的主要优点在于对字体变化的适应性强,区分相似字能力强;缺点是抗干扰能力差,从汉字图像中精确的抽取基元、轮廓、特征点比较困难,匹配过程复杂。因此,有人采用汉字轮廓结构信息作为特征,但这一方案需要进行松弛迭代匹配,耗时太长,而且对于笔画较模糊的汉字图像,抽取轮廓会遇到极大困难。也有些学者采用抽取汉字图像中关键特征点来描述汉字,但是特征点的抽取易受噪声点、笔画的粘连与断裂等影响。总之单纯采用结构模式识别方法的脱机手写汉字识别系统,识别率较低。3.5.2 统计模式识别方法统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。汉字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差一些。常用的汉字统计模式识别方法包括10:(1)模板匹配模板匹配是将汉字的图像直接作为特征,将之与特征库中的汉字图像逐一比较,相似度最高的汉字即为待选汉字。这种需要将左右汉字图像的像素点阵均存储起来,既占用大量的内存空间,特别是对嵌入式系统来说是不可容忍的,也将在寻找最相似汉字过程中耗费大量的时间,这对实时系统也是致命的。另外,其对于倾斜、笔画变粗变细均无良好的适应能力。 (2)利用变换特征的方法该方法利用各种函数变换,例如K-L变换、Fourier变换和Gabor变换等对汉字图像特征进行变换。但这些变换如果没有合适的处理,都多少存在缺陷。有的抗噪性能差,有的代码复杂度高。 (3)笔画方向特征笔画方向的统计特征总共有3种:全局笔画方向密度G-DCD,局部笔画方向密度L-DCD和周边笔画方向PDC。前两者用于预分类,后者用于单字识别。这些特征都是以笔画方向贡献(Direction Contribution)为基础。 (4)外围特征汉字的外围特征是由汉字轮廓信息获得的。汉字轮廓具有丰富的特征,即使在稍微倾斜或者笔画粘连的情况,也能提取较为完全的轮廓信息。 (5)特征点特征汉字信息的绝大部分集中在汉字骨架上,而汉字骨架信息又大多集中在若干特征点上。一旦确定这些笔画特征点,汉字笔画以及结构形状就可以确定。它们包括端点、折点、歧点和交点等。汉字特征点的提取一般是基于汉字细化后的单像素图像,而往往细化算法不能达到算法的要求,经常有断笔、非单层像素等情况,一点点变形或噪声都会影响汉字特征点的提取。也就是它的鲁棒性一般不好。当然还有许多种不同的统计特征,诸如图描述法、包含配选法、脱壳透视法、差笔划法等,这里就不一一介绍了。随着汉字识别技术的发展,已经有越来越多的统计特征出现。但几乎每种特征都不是完美的,都要在特殊条件下施加一些特殊的处理。如表3-1所示为统计方法和结构方法特征比较:表3-1 统计方法和结构方法特征比较 项目方法识别策略判别方法文字变形变体特征提取相似文字区分统计方法向量维数距离、类似度适应性差容易不易区分结构方法分而治之串行判决适应性好不容易容易区分 由上述分析可见,统计与结构方法各有优缺点。统计方法具有良好的鲁棒性,较好的抗干扰抗噪声的能力,它一般按一定的距离度量匹配准则,采用多维特征值累加的办法,把局部噪声和微小畸变淹没在最后的累加和里,但是,可以用来区分“敏感部位”的差异也随之消失,因此对汉字结构的差异区分能力较弱,区分相似字的能力较差;而结构方法对结构特征较敏感,区分相似字的能力较强,但是结构特征难以抽取,不稳定。因此,现在人们已注意到将两种方法结合起来使用,加强识别技术的稳定性与泛化能力使之可处理更多类型、更加复杂的模式。这是近年来文字识别领域的一个重要研究方向,并将得到广泛应用。3.5.3人工神经网络人工神经网络(Artificial Neural Network,以下称ANN)是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件神经元,相互连接成的自适应非线性动态系统11。虽然目前对于人脑神经元的研究还不算完善,我们无法确定ANN的工作方式是否与人脑神经元的运作方式相同,但是ANN正在吸引着越来越多的注意力。ANN中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却可以非常复杂,我们从而可以通过调整神经元间的连接系数完成分类、识别等复杂的功能。ANN还具有一定的自适应的学习与组织能力,组成网络的各个“细胞”可以并行工作,并可以通过调整“细胞”间的连接系数完成分类、识别等复杂的功能。ANN可以作为单纯的分类器(不包含特征提取、选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图像点阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种情况下,神经网络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上来说,ANN提供了一种“字符自动识别”的可能性。此外,ANN分类器是一种非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。目前,在对于像汉字识别这样超多类的分类问题,ANN的规模会很大,结构也很复杂,实用性较差。另外,这种方法所需要的训练样本规模比较大,训练过程也比较长。对于与样本相差较大的模式的识别能力也比较差。这其中的原因很多,主要的原因还在于我们对人脑的工作方式以及ANN本身的许多问题还没有找到完美的答案。人工神经网络模式识别与传统的统计模式识别开始是两个独立发展的分支,但随着研究的深入,人们发现二者之间存在紧密的联系。在一些情况下,统计方法和神经网络方法是可互相替代的,实际上神经网络的方法有时被认为是统计方法的子集。例如,对于统计模式识别方法,如分段线性判决函数法,Fisher线性判决规则,多变量高斯线性分类器,主成分分析PCA(Primary Component Analysis)等,都可用神经网络的并行计算结构或迭代计算结构实现:而一些重要的神经网络模型,其学习算法与统计方法是相通的,如在一定条件下,MLP和RBF分类器的对于训练样本的输出就是该样本的后验概率的估计,这等价于Bayes方法。因此,我们至少可以说,现有的神经网络方法有许多地方与统计方法在数学原理上是相通的。但是,神经网络确实有优于传统统计方法的地方,这表现为11:(1)神经网络的计算结构是并行的,而且常常是通过大量简单单元的协同运算完成诸如求矩阵特征值这样复杂的计算任务,这一点在PCA网络中得以充分体现。(2)神经网络不但能在模式空间中形成复杂的判决表面,而且还具备自适应的能力,即网络不但具备自适应的学习能力,还能自适应地调整网络规模的大小,适合大类别集的识别工作。(3)一般的神经网络兼有模式变换和模式特征提取的作用,如前馈网络的隐层就有非线性映射的功能,这一特点也被利用来与其他方法结合来确定一些重要的参数。(4)神经网络由于其信息的分布式的存储方式使它具备一定的容错能力,因此神经网络分类器对于输人模式信息的缺损不是非常敏感,适合质量较差图像的识别。由于上述优点,神经网络的识别方法正在越来越多地得到关注,也因而成为近来的研究热点。但是,神经网络方法还需要在以下几方面进行深人研究:网络的模型,以保证网络的快速收敛;训练样本集的选择,全面的学习样本是高识别率的保证,合理的样本数量可避免网络的过训练,训练样本特征的选取,保证良好的识别稳定性。3.5.4 BP神经网络BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论