印刷体汉字识别及其MATLAB实现_第1页
印刷体汉字识别及其MATLAB实现_第2页
印刷体汉字识别及其MATLAB实现_第3页
印刷体汉字识别及其MATLAB实现_第4页
印刷体汉字识别及其MATLAB实现_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、印刷体汉字识别及其matlab实现0.汉字识别研究意义汉字有几千年的历史,是中国文化的重要结晶,闪耀着中华民族智慧的光芒。同时,它也是世界上最常用的字符之一。如今,汉字印刷材料的数量大幅增加,一些专业单位接触的印刷材料数量庞大,信息量呈爆炸式增长。然而,汉字是非字母和非拼音字符。因此,如何快速有效地将汉字输入计算机是信息处理中的一个关键问题,是计算机技术能否在中国真正普及的一个关键问题,也是传播和弘扬中华民族悠久历史文化的一个关键问题。此外,随着劳动力价格的上涨,用手工方式输入汉字也将面临经济效益的挑战。因此,对于现有的大量文档,汉字的自动识别和输入已经成为最佳选择。因此,汉字识别技术越来越受

2、到人们的重视。汉字识别是一个多学科的研究课题,它不仅涉及到人工智能的研究,还与数字信号处理、图像处理、信息论、计算机科学、几何、统计学、语言学、生物学、模糊数学、决策论等密切相关。一方面,各种学科的发展为其研究提供了工具;另一方面,它的研究和开发必将促进各种学科的发展。因此,它具有重要的实践价值和理论意义。1.印刷体汉字识别研究1.1印刷汉字识别技术的发展计算机技术的迅速发展和普及为字符识别技术的出现提供了必要的条件。此外,人们对信息社会发展的要求越来越高,字符识别技术的快速发展可想而知。识别印刷字符一直是人们的梦想。印刷体汉字的识别可以追溯到20世纪60年代,但它们都是在西方国家研究的。中国

3、对印刷体汉字识别的研究始于20世纪70年代末80年代初。与国外相比,我国对印刷体汉字识别的研究起步较晚。自20世纪80年代以来,汉字orc的研究与开发一直受到国家的重视。经过十几年研究人员的努力,印刷体汉字识别技术的发展和应用取得了长足的进步。1.2印刷体汉字识别的原理分析及算法研究汉字识别的本质是解决字符分类问题,一般通过特征识别和特征匹配来实现。目前,根据识别的汉字不同,汉字识别技术可分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别可分为单印刷体汉字识别和多印刷体汉字识别。印刷体汉字识别流程如图1-1所示:图1-1汉字识别流程图打印在纸上的汉字通过扫描仪扫描或数码相机拍摄等光学手段输入,

4、得到灰度图像或二值图像。然后利用各种模式识别算法对汉字图像进行分析,提取汉字特征,并与标准汉字进行匹配和识别,从而达到识别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理。1.2.1预处理在原始图像识别之前,尽可能地减少干扰因素的影响是非常必要的,即对原始采样信号进行预处理。预处理通常包括噪声去除、布局分析、二值化、倾斜校正、行和列分割、平滑、归一化、细化等。(1)布局分析它指的是分析打印文档图像,提取文本、图像图形、表格和其他区域,确定它们的逻辑关系,并连接相关的通过输入设备获得的图像不可避免地会出现倾斜,这将给图像处理和分析带来困难,例如行分割和字符识别。因此,倾斜

5、校正是汉字识别系统中图像预处理的重要组成部分。倾斜校正的核心是如何检测图像的倾斜角度。(4)汉字切分汉字分割的目的是利用字与行之间的间隙将单个汉字从整个图像中分离出来。汉字切分分为行切分和词切分9。(5)标准化规格化,也称为规格化,是文本图像的规格化处理,例如将文本大小转换成统一大小、校正文本位置(翻译)、转换文本笔划粗细,以及仅投影文本图像。(6)平滑平滑数字图像的目的是消除孤立的噪声干扰和平滑笔划边缘。图像处理中平滑的本质是文本图像通过低通滤波器去除高频分量并保留低频分量。(7)细化细化过程是逐层剥离二进制字符点阵轮廓边缘上的点,并将其转换成笔划宽度只有一位的字符骨架图形。细化处理的目的是

6、搜索图像的骨架并去除图像中的冗余像素,从而在不改变图像主要特征的情况下减少图像的信息量。1.2.2汉字特征提取预处理的最终目的是更方便、更准确地提取汉字的特征,从而提高汉字的识别率。对于汉字来说,它们的特征大致可以分为两类,包括结构特征和统计特征,到目前为止不下100种。为了有针对性,有必要对现有的各种汉字进行研究,分析它们的优缺点和适用环境。汉字的一些常用结构特征和统计特征如下。1.结构要点(1)画笔画笔画提取是利用笔画的特征来识别汉字。它利用汉字的结构信息在线识别汉字。在打印和脱机手写识别中,由于笔画提取的困难,结果并不理想。(2)松弛匹配法松弛匹配法是一种基于全局特征的匹配方法。它对输入

7、的汉字进行多边逼近,提取边界线段,将这些边界线段形成一列相邻的线段,然后使用松弛匹配操作完成边对边匹配。这种方法利用弹性来吸收汉字的变形,一个词只使用一个样本。(3)非线性匹配方法非线性匹配方法是由津久茂等人提出的,用于解决字形的位移和笔画的变形。该方法试图克服从图形中正确提取笔画的困难,从而提高正确识别的能力。2.统计特征值(1)笔画复杂度指数笔画复杂度指数是指字符笔画的线段密度,定义如下:(1-1)(1-2)在公式(1-1)和(1-2)中水平和垂直笔画复杂性指数;水平和垂直文本线段的总长度;横向和纵向质心的二次矩的平方根;,分别反映了水平和垂直笔画的复杂性,具有更多的水平笔画和更多的垂直笔

8、画。笔画复杂度指数与汉字的位移无关,受字体和大小的影响较小,但易受笔画破损和粘连的影响,分类能力差,因此常与另一种粗分类方法“四边形码”一起使用。(2)四边代码四边形代码是在汉字位图周围取一条,计算汉字图的像素数,并把它分成四层,形成一个四层。由于汉字框架不仅包含丰富的结构信息,而且框架中笔画少,不易粘连,抗干扰能力强,对汉字的位移和旋转敏感,正好补充了笔画复杂度指标。(3)特征点特征点提取算法的主要思想是利用一些有代表性的黑点(笔画)和白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、拐点、发散点和交点。汉字的背景也包含了一些不同于其他汉字的信息。选择多个背景点作为特征点有利

9、于提高系统的抗干扰能力。其特点是可以大大降低特征库的容量。对于内部有笔画的字符,适应性强,直觉性好,但难以用矢量形式表达,也难以匹配,不适合粗分类。(4)笔画片段的特征汉字由笔画组成,笔画由笔画段组成,笔画段可以近似为具有一定方向、长度和宽度的矩形段。利用笔画段和笔画段之间的关系来识别汉字,受字体和大小的影响较小,在多体汉字识别中取得了良好的效果。其缺点是难以提取笔画段,难以匹配,并且其抵抗内部笔画断裂或粘连的能力差。1.2.3汉字识别和分类1.相关匹配这是一种统计识别方法,通过计算输入特征向量与特征空间中每个模板向量之间的距离来进行分类决策。(2)语法分析语法分析的基本思想是将输入的汉字视为

10、句子或符号串,将识别问题转化为判断输入的句子是否属于某一种语言,即句子是否符合某一种语言的语法约束。(3)松弛匹配无论是相关匹配还是语法分析,都要求输入特征向量和模板特征向量的分量具有精确的对应关系。然而,在结构分析中,通常很难预先确定两个部件之间的对应关系,因此可以使用松弛匹配方法。松的(4)人工神经网络汉字识别是一个非常活跃的分支,新的方法不断涌现,为汉字识别的研究注入了新的活力,其中基于人工神经网络的识别方法是一个非常引人注目的方向。目前,神经网络理论的应用已经渗透到各个领域,并已广泛应用于模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别、连续语音识别、声纳

11、信号处理、知识处理、传感技术、机器人学、生物学等领域。1.2.4后处理后处理是利用相关算法对识别出的汉字或初步识别结果进行进一步处理,纠正误识汉字,给出拒识汉字,并确定歧义汉字。汉字识别的后处理方法12,13可分为三类:手工处理、交互式处理和计算机自动处理。以下是对各种常用后处理方法的简要介绍。(1)简单词匹配简单词匹配是利用文本中词的上下文匹配关系和词的使用频率,为拒绝阅读识别出的文本提供一个“最佳”候选词。关键是要建立一个中文词条数据库。(2)综合词语匹配综合词匹配法是综合利用初级识别结果、词的上下文关系和词的使用频率来确定最终的识别结果。事实上,这种方法将识别过程与后处理过程结合在一起。

12、(3)词汇分析语言是发音和意义的结合。语素是最小的语言单位。单词和短语都有自己的规则,可以用来分类。此外,不同的应用背景有不同的分类结果。(4)句法和语义分析句子有一个人类在结构和意义上理解、接受和遵守的语言组合规则。因此,在初步识别结果的基础上,通过词法分析在匹配之后或同时进行句法分析和语义分析,以确定待识别的汉字。(5)人工神经网络使用人工神经网络对汉字识别进行后处理有两种方法。一种是将识别过程与后处理过程分开。网络的输入是初级识别结果的短语或句子,其中包含不确定的汉字(或被拒绝的汉字)。这些词最终是通过网络的运行来确定的。另一种方法是将识别过程与后处理过程结合起来。初步识别的结果是每个待

13、识别汉字的前几个候选字以及每个候选字与待读汉字之间的相似度。然后,将这些候选词及其相似度输入到网络中,通过网络的并行动作,找到最符合汉语语法和语义组合的词或句子,从而确定待识别的汉字。1.3印刷体汉字识别技术分析1.3.1结构模式识别方法汉字数量庞大,结构复杂,但其特殊的构成结构有相当严格的规则14。就笔画而言,汉字有七种基本笔画,包括横、竖、撇、压、点、折、钩,还有七种变形笔画,包括举、撇、横。就部件而言,部件由特殊的笔画组成,因此部件也是确定的。换句话说,汉字富含规则的结构信息,因此我们可以尝试提取包含这些信息的结构特征和构词规则,并将其作为汉字识别的基础。这是结构模式识别。结构模式识别理

14、论形成于20世纪70年代初,是早期汉字识别研究的主要方法。其思想是直接从字符的轮廓或骨架中提取字符的像素分布特征,如笔画、圆、端点、节点、弧、突起、凹陷等图元组合,然后用结构化方法描述图元组合所代表的结构和关系。通常,笔画段或基本笔画被提取为基元,通过这些基元的组合及其相互关系可以准确地描述汉字。最后,形式语言和自动机理论被用于语法推理,即识别。结构模式识别方法的主要优点是对字体变化的适应性强,识别相似单词的能力强;缺点是抗干扰能力差,难以从汉字图像中准确提取图元、轮廓和特征点,匹配过程复杂。因此,有些人利用汉字的轮廓结构信息作为特征,但这种方案需要进行宽松的迭代匹配,耗时太长,并且用模糊笔画

15、提取汉字轮廓非常困难。一些学者通过从汉字图像中提取关键特征点来描述汉字,但特征点的提取容易受到噪声点、笔画粘连和断裂等因素的影响。总之,脱机手写汉字识别系统仅采用结构化模式识别方法,识别率较低。1.3.2统计模式识别方法统计模式识别方法是利用概率统计模型提取待识别汉字的特征向量,然后根据决策函数进行分类。识别是区分待识别汉字的哪种特征向量。常用的是距离准则和相似准则,典型的统计模式识别方法包括最小距离分类、最近邻分类等。1.最小距离分类最小距离分类器以汉字与特征空间模型点之间的距离作为分类标准,其结构如图3-2所示。其中,输入特征向量将被分配到一个类别(),它有自己的典型模式表示。图1-2最小距离分类器系统图2.最近邻分类最近邻方法的思想是,对于每个类(),都有表示该类的样本()。公式(1-1)给出了规定的判别函数。角标记表示类别,k表示类别中的第个样本。(1-3),(1-4)如果公式(1-2)成立,则作出决定。也就是说,对于2.系统的实现和仿真2.1系统的实施预处理后,将印刷品上输入的汉字与标准汉字进行比较,修复缺陷部分,并将修复后的汉字用于学习。在形成初始特征库之后,学习大量样本来建立实用的特征库。系统可以在识别过程中自己学习。取标准汉字,计算每个汉字的面积。全部按面积从小到大排列,并建立每个汉字的指针及其国家标准代码。设定神经网络的初始权值,选择大量标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论