第七章 文字识别与合成_第1页
第七章 文字识别与合成_第2页
第七章 文字识别与合成_第3页
第七章 文字识别与合成_第4页
第七章 文字识别与合成_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第7章章 文字识别与合成文字识别与合成u模式识别:模式识别:用计算机实现人的模式识别能力。用计算机实现人的模式识别能力。u模式:模式:存在于时间和空间中可观察的事物,存在于时间和空间中可观察的事物,如果我们可以区别他们是否相同或是否相似,如果我们可以区别他们是否相同或是否相似,都可以称之为模式。模式是我们从事物获得都可以称之为模式。模式是我们从事物获得的信息。的信息。7.1 7.1 模式识别模式识别模式识别系统的基本组成u把输入模式转换成适合于机器处理的形式,就是把输入模式转换成适合于机器处理的形式,就是数数据获取据获取的过程。的过程。u预处理预处理的目的是去除噪声,加强有用的信息,并对的目

2、的是去除噪声,加强有用的信息,并对由输入设备或其他因素造成的退化现象进行复原,由输入设备或其他因素造成的退化现象进行复原,以利于特征提取的进行。以利于特征提取的进行。u把原始数据组成的空间叫做测量空间,把分类识别把原始数据组成的空间叫做测量空间,把分类识别赖以进行的空间叫做特征空间。通过变换可以把在赖以进行的空间叫做特征空间。通过变换可以把在维数较高的测量空间中表示的模式变为在维数较低维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式,这就是的特征空间中表示的模式,这就是特征的提取和选特征的提取和选择择。u分类决策分类决策是在特征空间中用所设计的是在特征空间中用所设计的分类器分

3、类器把被识把被识别对象归为某一类别。别对象归为某一类别。u利用计算机自动识别字符的技术,是模式识别应利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。用的一个重要领域。u50年代,光学字符识别器。年代,光学字符识别器。u60年代,采用磁性墨水和特殊字体的实用机器。年代,采用磁性墨水和特殊字体的实用机器。u60年代后期,多种字体和手写体文字识别机。年代后期,多种字体和手写体文字识别机。u70年代,高性能的文字识别机,着重于汉字识别的年代,高性能的文字识别机,着重于汉字识别的研究。研究。7.2 7.2 文字识别与文字识别与OCROCR文字识别的分类u根据根据识别对象识别对象的不同,文字识

4、别可分为西文识的不同,文字识别可分为西文识别、数字识别和汉字识别等。别、数字识别和汉字识别等。u字符可以是手写体和印刷体,因此文字识别又字符可以是手写体和印刷体,因此文字识别又可分为手写体文字识别和印刷体文字识别。可分为手写体文字识别和印刷体文字识别。u从对书写者的要求来分,手写体字符识别又分从对书写者的要求来分,手写体字符识别又分为限制性(为限制性(Constrainted)和非限制性()和非限制性(Unconstrained)手写体字符识别(或称自由手)手写体字符识别(或称自由手写体字符识别)。写体字符识别)。限制性识别限制性识别、非限制性识别非限制性识别目前,人类所使用的各种文字,绝大多

5、数都只目前,人类所使用的各种文字,绝大多数都只包含很包含很小的字符集小的字符集,如阿拉伯数字,手写体识如阿拉伯数字,手写体识别已经可以做到对书写者别已经可以做到对书写者不加任何限制不加任何限制。但对于但对于大类别数的字符集大类别数的字符集,如汉字,还必须对,如汉字,还必须对书写者书写者施加某些限制施加某些限制,以保证较高的识别率。,以保证较高的识别率。u根据采用的根据采用的输入设备输入设备不同,文字识别可分不同,文字识别可分为为联机识别和脱机识别联机识别和脱机识别。l联机识别是指将字符书写在与计算机相连的联机识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进书写板上,由计

6、算机根据字符的书写轨迹进行实时识别,因此联机识别主要是针对手写行实时识别,因此联机识别主要是针对手写体而言的;体而言的;l脱机识别是指将字符书写或打印在纸张上,脱机识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由机器进行识别。信号输入到计算机中,再由机器进行识别。因此,脱机识别又称为光学文字识别,即因此,脱机识别又称为光学文字识别,即OCR(Optical Character Recognition)。)。l光学字符识别(光学字符识别(Optical Character Recognition)简称)简称OC

7、R,是通过扫描仪将数字、符号和文,是通过扫描仪将数字、符号和文字以图形信息的形式输入计算机,再由相应的字以图形信息的形式输入计算机,再由相应的软件进行识别处理,将原稿上的每一个字符变软件进行识别处理,将原稿上的每一个字符变为正确的标准代码,让计算机自动完成字符的为正确的标准代码,让计算机自动完成字符的录入工作。录入工作。文字识别的应用文字识别可应用于许多领域,如阅读、翻译、文文字识别可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银和校对、大量统计报表和卡片的汇总与分析、银行支票的处理

8、、商品发票的统计汇总、商品编码行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及水、电、煤气、的识别、商品仓库的管理,以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动卡片的自动处理和办公室打字员工作的局部自动化等。化等。nOCR的基本原理:纸面上照射光以后,将的基本原理:纸面上照射光以后,将反射光由光传感器以图像的形式检出,然反射光由光传感器以图像的形式检出,然后以一个文字为单位区分,将各文字的特后以一个文字为单位区分,将各文字的特征取出,再识别是什么文字。征取出,再识别是什么文

9、字。u正读正读u非正读:误认为其他文字非正读:误认为其他文字 不能识别不能识别7.3 OCR的基本知识的基本知识大型OCR的基本结构OCROCR技术的工作原理技术的工作原理1.1.图像处理模块图像处理模块 具有文稿扫描、图像缩放、具有文稿扫描、图像缩放、图像旋转等功能。图像旋转等功能。2.2.版面划分模块版面划分模块 包括版面划分、更改划分,即包括版面划分、更改划分,即对版面的理解、字切分、归一化等,可选择自动对版面的理解、字切分、归一化等,可选择自动或手动两种版面划分方式。或手动两种版面划分方式。3.3.文字识别模块文字识别模块 OCROCR软件的核心部分,主要软件的核心部分,主要对输入的汉

10、字进行对输入的汉字进行“阅读阅读”,但不能一目多行,但不能一目多行,必须逐行切割,对于汉字通常也是一个字一个字必须逐行切割,对于汉字通常也是一个字一个字地辨认,即单字识别,再进行归一化。地辨认,即单字识别,再进行归一化。4.4.文字编辑模块文字编辑模块 对对OCROCR识别后的文字进行修识别后的文字进行修改、编辑。改、编辑。7.4 7.4 印刷体汉字识别印刷体汉字识别7.4.1 7.4.1 印刷体与手写体印刷体与手写体n汉字识别技术涉及到模式识别、图像处理、组汉字识别技术涉及到模式识别、图像处理、组合论、信息论、计算机等多个学科,也涉及到合论、信息论、计算机等多个学科,也涉及到语言文字学、心理

11、学等学科,是一门综合性的语言文字学、心理学等学科,是一门综合性的技术。技术。汉字字形识别过程汉字字形识别过程u汉字识别前处理汉字识别前处理u汉字分类和判别汉字分类和判别u汉字识别后处理汉字识别后处理汉字识别技术是利用计算机技术对汉字静态图形和动汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行态汉字信息进行特征提取特征提取,与预先存储在计算机内的,与预先存储在计算机内的标准汉字特征信息进行标准汉字特征信息进行匹配匹配,并选择,并选择符合特征符合特征的汉字的汉字作为所需识别的汉字内码。作为所需识别的汉字内码。u印刷体汉字识别:印刷体汉字识别:将纸上文字输入到计算机中,作将纸上文字输入到

12、计算机中,作为一幅图像存储在计算机的存储器中,然后根据需为一幅图像存储在计算机的存储器中,然后根据需要对这些图像做图像处理,从中提取出用于识别的要对这些图像做图像处理,从中提取出用于识别的特征。特征。u手写体汉字识别:手写体汉字识别:u联机识别:人在特殊的文字盘上用笔写字时,计算机对联机识别:人在特殊的文字盘上用笔写字时,计算机对笔的轨迹进行跟踪检出,并按时间顺序读取笔的轨迹进行跟踪检出,并按时间顺序读取x x、y y的坐标的坐标然后调查轨迹,再判断是什么文字。然后调查轨迹,再判断是什么文字。u脱机识别:将纸上所写的文字用光学方法读取进行文字脱机识别:将纸上所写的文字用光学方法读取进行文字识别

13、,识别,OCROCR就是脱机文字识别的机器。就是脱机文字识别的机器。汉字识别难度印刷体识别印刷体识别最容易最容易已经有了大量实际应用,图书馆数字化已经有了大量实际应用,图书馆数字化脱机手写体识别脱机手写体识别最难最难脱机手写体数字的识别已有实际应用外,比如邮脱机手写体数字的识别已有实际应用外,比如邮政编码的自动识别政编码的自动识别汉字等文字的脱机手写体识别还处在实验室阶段汉字等文字的脱机手写体识别还处在实验室阶段 联机手写体识别联机手写体识别相对容易,相对容易,PDAPDA等的推广,大量应用等的推广,大量应用u分类:分类:u识别字体识别字体u单体(宋体)印刷汉字识别单体(宋体)印刷汉字识别u多

14、体印刷汉字识别多体印刷汉字识别u识别文字品质识别文字品质u高品质印刷汉字识别高品质印刷汉字识别u低品质印刷汉字识别低品质印刷汉字识别u应用范围应用范围u专用印刷汉字识别专用印刷汉字识别u通用印刷汉字识别通用印刷汉字识别7.4.2 印刷体汉字识别印刷体汉字识别(1)单体与多体u字形差别体现在:字形差别体现在:u笔划装饰及方向角度不同;笔划装饰及方向角度不同;u笔划长短、位置有变化;笔划长短、位置有变化;u笔划形态变化,如黑体笔划粗而平直,宽度一致;宋笔划形态变化,如黑体笔划粗而平直,宽度一致;宋体横细竖粗,有装饰角;楷体笔划有较大曲率,其中体横细竖粗,有装饰角;楷体笔划有较大曲率,其中撇、捺弯曲

15、程度更大,各个文字大小相差较大;仿宋撇、捺弯曲程度更大,各个文字大小相差较大;仿宋体横笔划略向上倾斜;体横笔划略向上倾斜;u笔划关系变化:如左偏旁口,黑体为正方形,其他体笔划关系变化:如左偏旁口,黑体为正方形,其他体左竖笔较长;左竖笔较长;u偏旁部首占方块字的比例、位置、形态方面,不同字偏旁部首占方块字的比例、位置、形态方面,不同字体也有差异。体也有差异。(2)高品质与低品质影响印刷汉字品质的主要因素有:影响印刷汉字品质的主要因素有:文字:笔划存在断开、粘连、油墨深浅不均等;文字:笔划存在断开、粘连、油墨深浅不均等;纸张:洁白度、光洁度、薄纸反透等。纸张:洁白度、光洁度、薄纸反透等。版面:污点

16、、行高低不齐、文字旋转等。版面:污点、行高低不齐、文字旋转等。(3)专用与通用专用:文件、某种打印体。专用:文件、某种打印体。通用:书、报、文件、照排、不同版面、通用:书、报、文件、照排、不同版面、不同字体、字号。不同字体、字号。n识别字符集识别字符集n中文:常用中文:常用40004000字,字,GB2313-80 GB2313-80 一级字一级字37553755个个,使用频率,使用频率99.7%99.7%, ,二级字二级字30083008个,两级总使用个,两级总使用频率频率99.99%99.99%。n英文,数字,标点符号。英文,数字,标点符号。n识别字体:宋、仿宋、黑、楷、圆、隶书、魏识别字

17、体:宋、仿宋、黑、楷、圆、隶书、魏碑等。碑等。n识别字号识别字号:2-62-6号。号。n汉字结构复杂,相似字不易区分也是识别的难汉字结构复杂,相似字不易区分也是识别的难点。点。n扫描质量影响。扫描质量影响。7.4.3 7.4.3 印刷体汉字识别的难点印刷体汉字识别的难点文字识别系统构成OCR技术一般流程流程简介1)1)图像获取图像获取将文本转换为图象点阵将文本转换为图象点阵扫描仪扫描仪 (Scanner)(Scanner)其它光电扫描设备其它光电扫描设备如传真机,摄像机如传真机,摄像机不同获取设备的差异不同获取设备的差异扫描仪:最优扫描仪:最优摄像机:识别难度大摄像机:识别难度大流程简介2 2

18、)图像预处理)图像预处理滤除干扰噪声滤除干扰噪声倾斜校正倾斜校正各种滤波处理各种滤波处理3 3)版面分析)版面分析完成对于文本图象的总体分析完成对于文本图象的总体分析区分出文本段落及排版顺序,图象、表格的区域区分出文本段落及排版顺序,图象、表格的区域对于文本区域将进行识别处理对于文本区域将进行识别处理对于表格区域进行专用的表格分析及识别处理对于表格区域进行专用的表格分析及识别处理对于图象区域进行压缩或简单存储。对于图象区域进行压缩或简单存储。流程简介4 4)行字切分)行字切分将大幅的图象先切割为行将大幅的图象先切割为行从图象行中分离出单个字符从图象行中分离出单个字符5 5)特征提取)特征提取模

19、式表示问题模式表示问题整个环节中最重要的一环,提取的特征的稳定性及整个环节中最重要的一环,提取的特征的稳定性及有效性,直接决定了识别的性能有效性,直接决定了识别的性能从单个字符图象上提取统计特征或结构特征从单个字符图象上提取统计特征或结构特征包括细化包括细化(Thinning)(Thinning),归一化,归一化( (大小等大小等) )等步骤等步骤流程简介6 6)文字识别)文字识别模式识别研究范畴模式识别研究范畴从学习得到的特征库中找到与待识字符相似度最从学习得到的特征库中找到与待识字符相似度最高的字符类高的字符类7 7)后处理)后处理利用词义、词频、语法规则或语料库等语言先验利用词义、词频、

20、语法规则或语料库等语言先验知识对识别结果进行校正的过程知识对识别结果进行校正的过程归一化 对不同大小的文字做变换,使之成为同一尺寸大小对不同大小的文字做变换,使之成为同一尺寸大小的文字,这个过程称做的文字,这个过程称做大小归一化大小归一化。 常用的大小归一化常用的大小归一化方法有两种方法有两种。一种一种是将文字的外边框按比例线性放大或缩小成为规定是将文字的外边框按比例线性放大或缩小成为规定尺寸的文字。尺寸的文字。一种一种是根据水平和垂直两个方向文字黑像素的分布进行是根据水平和垂直两个方向文字黑像素的分布进行大小归一化。大小归一化。对于后一种归一化方法,先计算文字的对于后一种归一化方法,先计算文

21、字的: :c c( (i,j i,j ) ) 意义如下:意义如下:c c( (i,j i,j ) = 1 ) = 1 表示该像素点为文字黑像素;表示该像素点为文字黑像素;c c( (i,j i,j ) = 0 ) = 0 表示该像素点为背景。表示该像素点为背景。A A, , B B, , L L, , R R分别分别文字的上下左右边界。文字的上下左右边界。,BRIi A j LGik i j,BRJi A j LGjk i j则质心则质心G GI I和和G GJ J为为( , )( , ),BRk i jc i jc i ji A j L,BRIi A j LGik i j,BRJi A j

22、LGjk i j下面计算水平和垂直方向的下面计算水平和垂直方向的散度散度I I 和和 J J :2( , )2IRBIj Li Ak i j i G( , )( , ),BRk i jc i jc i ji A j L2( , )J2RBJj Li Ak i jj G1 1)复杂指数)复杂指数2 2)四边码)四边码3 3)粗外围特征)粗外围特征4 4)粗网格特征)粗网格特征5 5)笔划密度特征)笔划密度特征6 6)汉字特征点)汉字特征点 7.4.4 7.4.4 印刷体汉字的特征描述印刷体汉字的特征描述1) 复杂指数文字文字x x方向和方向和y y方向的复杂指数被定义为:方向的复杂指数被定义为:

23、式中,式中,c cx x和和c cy y分别为分别为x x方向和方向和y y方向的复杂指数。方向的复杂指数。L Lx x和和L Ly y分分别为别为x x方向和方向和y y方向黑像素的总数。而方向黑像素的总数。而x x和和y y分别为分别为x x方方向和向和y y方向质心二次矩的平方根:方向质心二次矩的平方根:式中,式中,G GI I和和G GJ J分别为文字质心位置的分别为文字质心位置的i i和和j j坐标值,坐标值,N N和和M M是是文字点阵的长和宽。文字点阵的长和宽。,LLyxccxyxy( , )11( , ),k i jN Mijc i jc i j 2112,INMxijk i

24、ji G2112,JNMyijk i jj G从文字四周边框开始,向内取适当宽度,以此宽度分割从文字四周边框开始,向内取适当宽度,以此宽度分割出文字四周的四个部分。根据每一个部分中含有文字黑出文字四周的四个部分。根据每一个部分中含有文字黑像素的多少分为四级编码(像素的多少分为四级编码(0 0,1 1,2 2,3 3)。)。2) 四边码一次粗外围特征反映了一次粗外围特征反映了文字轮廓文字轮廓特征,二次粗外围特征在特征,二次粗外围特征在某种程度上反映了某种程度上反映了文字内部结构文字内部结构。3)粗外围特征粗外围特征抽取的过程为:首先求出文字的外边框,再把粗外围特征抽取的过程为:首先求出文字的外边

25、框,再把p pq q点阵文字分割成点阵文字分割成n nn n份,份,n n通常取通常取8 8。再将第二次与文字线相碰的非文字部分再将第二次与文字线相碰的非文字部分面积和全部文字面积之比作为二次粗外面积和全部文字面积之比作为二次粗外围特征围特征P P2 i 2 i ( ( i i =1,4=1,4n n2 2 ) ,) ,形成形成8 8n n2 2维的特征维的特征向量向量p p。从文字四边框各向对边扫描,计算最初与文字笔划相碰的非从文字四边框各向对边扫描,计算最初与文字笔划相碰的非文字部分的面积和全部面积之比作为一次粗外围特征文字部分的面积和全部面积之比作为一次粗外围特征P P1 i 1 i (

26、 (i i=1,4=1,4n n 2 2 ),),4)粗网格特征把加框把加框p pq q点阵文字分割成点阵文字分割成n nn n份,份,n n通常取通常取8 8,取,取每份中黑像素数对整个文字黑像素数的比例,将所每份中黑像素数对整个文字黑像素数的比例,将所有有n nn n值排成一列而形成值排成一列而形成n n2 2维特征向量。维特征向量。粗网格特征体现了文字整体形状的分布,但该特征粗网格特征体现了文字整体形状的分布,但该特征抗笔划位置干扰的能力差。抗笔划位置干扰的能力差。5)笔划密度特征u在加框的在加框的p pq q点阵中,向不同的方向投影,点阵中,向不同的方向投影,对文字黑像素的个数做累加计

27、算,形成笔划密对文字黑像素的个数做累加计算,形成笔划密度直方图。度直方图。u投影能表现图像的某种特征信息。投影能表现图像的某种特征信息。u给定一条直线,用垂直该直线的一簇等间距给定一条直线,用垂直该直线的一簇等间距直线将一幅二值图像分割成若干条,每一条内直线将一幅二值图像分割成若干条,每一条内像素值为像素值为1 1的像素个数为该条二值图像在给定的像素个数为该条二值图像在给定直线上的投影。直线上的投影。 对角线投影对角线投影 设行和列的标号分别用设行和列的标号分别用i和和j表示。若图像矩表示。若图像矩阵为阵为n行行m列,则列,则i和和j的范围分别为的范围分别为0 0到到n-1和和0 0到到m-1

28、。假设对角线的标号。假设对角线的标号d用行和列的仿射变换用行和列的仿射变换(线性组合加上常数)计算,即:(线性组合加上常数)计算,即: d = ai+ bj + c 对角线投影共对应对角线投影共对应n+m-1n+m-1个条,其中仿射个条,其中仿射变换把右上角像素映射成对角线投影的第一个变换把右上角像素映射成对角线投影的第一个位置,把左下角像素映射成最后一个位置,如位置,把左下角像素映射成最后一个位置,如图所示,则当前行列对应的标号图所示,则当前行列对应的标号d d的公式为:的公式为: d = i - j + m - 1 二值图像及其对二值图像及其对角线上的投影图角线上的投影图数字字符的垂直投影

29、和上下边缘投影对比数字字符的垂直投影和上下边缘投影对比 通常取水平、垂直、通常取水平、垂直、450、和、和1350四个扫描方四个扫描方向,每个方向取向,每个方向取n(通常取通常取n=16)个值作为特征,个值作为特征,形成形成4n维特征向量。维特征向量。这种从文字四个方向抽取的笔划密度特征叫做这种从文字四个方向抽取的笔划密度特征叫做四方向笔划密度特征。它不但对印刷体汉字分四方向笔划密度特征。它不但对印刷体汉字分类有较好的效果,对手写印刷体汉字分类也具类有较好的效果,对手写印刷体汉字分类也具有价值。有价值。6)汉字特征点 一个汉字的笔划上和背景中的关键点是汉字结构的一一个汉字的笔划上和背景中的关键

30、点是汉字结构的一种本质字形特征。种本质字形特征。 在一幅二值化图像中,汉字信在一幅二值化图像中,汉字信息绝大部分集中在汉字骨架上,而息绝大部分集中在汉字骨架上,而汉字骨架信息又大多数集中在若干汉字骨架信息又大多数集中在若干特征点(称为特征点(称为笔划特征点笔划特征点)上。)上。端点端点是笔划的起(或终)点且不与别的笔划相接;是笔划的起(或终)点且不与别的笔划相接;折点折点是笔划方向出现显著变化的点;是笔划方向出现显著变化的点;歧点歧点是三叉点,要求其中两个笔段分支方向相同;是三叉点,要求其中两个笔段分支方向相同;交点交点是四叉点且有两对相等的对顶角。是四叉点且有两对相等的对顶角。端、折点端、折

31、点决定了一个汉字的笔划位置和形状;决定了一个汉字的笔划位置和形状;歧点、交点歧点、交点决定了不同笔划间的相互连接关系。决定了不同笔划间的相互连接关系。 同一汉字的特征点很少变动。其中折点、同一汉字的特征点很少变动。其中折点、交点更稳定。交点更稳定。 使用汉字特征点,原理上就能很好识别多使用汉字特征点,原理上就能很好识别多体印刷汉字,甚至可以识别手写体汉字,把印体印刷汉字,甚至可以识别手写体汉字,把印刷体汉字和手写规整的汉字识别的方法统于一刷体汉字和手写规整的汉字识别的方法统于一个系统中。个系统中。 汉字特征点反映了汉字结构特征。汉字特征点反映了汉字结构特征。 用特征点来识别汉字,可以增加抗噪声

32、能用特征点来识别汉字,可以增加抗噪声能力,提高实用性。力,提高实用性。 通常情况下,要提取笔划的特征点,首先通常情况下,要提取笔划的特征点,首先要对文字图像处理,将文字的笔划变细,这个过要对文字图像处理,将文字的笔划变细,这个过程叫做程叫做细化细化。细化细化 细化是把区域缩成线条、逼近中心线(骨细化是把区域缩成线条、逼近中心线(骨架或核线)的一种图像处理。架或核线)的一种图像处理。 要求:要求: 1 1)连通图像区域必须细化成连通线结构;连通图像区域必须细化成连通线结构; 2)细化结果最少应该是细化结果最少应该是8连通;连通; 3)保留近似终止线的位置;保留近似终止线的位置; 4)细化结果应该

33、近似于中轴线;细化结果应该近似于中轴线; 5)由细化引起的附加突刺由细化引起的附加突刺(短分支短分支)应该是最小应该是最小的。的。邻近细化迭代算法邻近细化迭代算法 1、对于每一个像素,如果、对于每一个像素,如果)没有上近邻(下近邻左近邻右)没有上近邻(下近邻左近邻右近邻);近邻); )不是孤立点或终止线;)不是孤立点或终止线;)去除该像素点不会断开区域,则去)去除该像素点不会断开区域,则去除该像素点。除该像素点。 2、重复这一步骤直到没有像素点可以去除、重复这一步骤直到没有像素点可以去除为止。为止。1 1)相似性度量方法)相似性度量方法2 2)句法模式识别方法)句法模式识别方法3 3)统计模式

34、识别方法)统计模式识别方法4 4)分类策略)分类策略7.4.5 7.4.5 汉字识别方法汉字识别方法1)相似性度量方法在选取了特征之后,需要选择或寻找适当的判别准则,从在选取了特征之后,需要选择或寻找适当的判别准则,从而判断出待识别的文字的特征与哪一个类别的特征最近。而判断出待识别的文字的特征与哪一个类别的特征最近。,1mD x Gxgiii,1,1 222().()11mx gi ix GiR x Gx Gmmxgiiii1 21,TD x Gx Gx G设设x,Gx,G表示待识别文字的特征向量和标准类别特征矢量。表示待识别文字的特征向量和标准类别特征矢量。常用的距离度量准则如下:常用的距离

35、度量准则如下:(4 4)复合相似度)复合相似度22 1/2*0( , ) ( . ) | |jjR x Gxx 其中:其中:2200122 1,2122212GGGGGGxyGG22 1/20( . ) | |jjxx12120001()|/ |,2(1)GGGGGG(5 5)混合相似度)混合相似度2.1222.0,xxjjRxGx 式中:式中:是常数,是常数,2,01222,0GGggjjjGGggjjG Gg g是和是和x x极相似的标准文字特征向量(平均值)极相似的标准文字特征向量(平均值)2 ) 句法模式识别方法早期汉字识别研究的主要方法特点:注意汉字的组成结构早期汉字识别研究的主要方

36、法特点:注意汉字的组成结构汉字图形结构复杂,但规律性强,含丰富的结构信息汉字图形结构复杂,但规律性强,含丰富的结构信息从汉字的构成上分析。从汉字的构成上分析。笔划笔划( (横竖撇点折横竖撇点折) )偏旁部首偏旁部首字。字。由这些基元及其相互关系完全可以精确地对汉字加以由这些基元及其相互关系完全可以精确地对汉字加以描述。描述。类比类比类比文章结构类比文章结构单字单字词词短语短语句子句子篇章,篇章,按语法规律组成。按语法规律组成。识别过程:编译理论中的句法分析。识别过程:编译理论中的句法分析。训练过程训练过程建立所有汉字的解析图描述建立所有汉字的解析图描述基本单元基本单元基本单元之间的拓扑结构基本

37、单元之间的拓扑结构汉字的解析图表示示例识别过程识别过程图像获取,预处理,二值化,图像获取,预处理,二值化,基元提取基元提取基本笔画提取基本笔画提取偏旁部首提取偏旁部首提取解析图表示解析图表示句法分析过程句法分析过程Top-downTop-down相似度计算方法相似度计算方法拓扑相似性拓扑相似性节点相似性节点相似性句法模式识别方法优点优点理论上是比较恰当的,对字体变化的适应性理论上是比较恰当的,对字体变化的适应性强,区分相似字能力强。强,区分相似字能力强。缺点缺点描述复杂,匹配过程复杂度也高。描述复杂,匹配过程复杂度也高。抗干扰能力差,结构基元提取困难,导致推抗干扰能力差,结构基元提取困难,导致

38、推理过程难以进行。理过程难以进行。实用中文本图象中存在着各种干扰,如倾实用中文本图象中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,斜,扭曲,断裂,粘连,纸张上的污点,对比度差等等对比度差等等纯结构模式识别方法已经逐渐衰落。纯结构模式识别方法已经逐渐衰落。3)统计模式识别方法基本思路基本思路将字符点阵看作一个整体,其所用的特征是从这将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。个整体上经过大量的统计而得到的。缺点缺点细分能力较弱,区分相似字的能力差一些。细分能力较弱,区分相似字的能力差一些。优点优点抗干扰性强,尤其适用于有污染的数据。抗干扰性强,尤其适用于

39、有污染的数据。匹配与分类的算法简单,易于实现。匹配与分类的算法简单,易于实现。3)统计模式识别方法n直接图像特征直接图像特征n变换特征变换特征 投影直方图投影直方图矩特征矩特征 几何描绘子几何描绘子 笔划密度特征笔划密度特征 外围特征外围特征 直接图像特征字符的图像直接作为特征与字典中的模板相比,相字符的图像直接作为特征与字典中的模板相比,相似度最高的模板类即为识别结果。似度最高的模板类即为识别结果。优点优点简单易行,可以并行处理简单易行,可以并行处理缺点缺点不同大小、不同字体需要大量模板不同大小、不同字体需要大量模板对于倾斜、笔划变粗变细均无良好的适应能力对于倾斜、笔划变粗变细均无良好的适应

40、能力变换特征字符图像进行某种数学变换字符图像进行某种数学变换二值类变换,如二值类变换,如Walsh, Hardama变换变换更复杂的变换,如更复杂的变换,如KL, Fourier变换变换, 余弦变换余弦变换(DCT)优点优点变换后的特征的维数通常会降低,更紧凑,利于分类变换后的特征的维数通常会降低,更紧凑,利于分类缺点缺点多数变换不是旋转不变的,因此对于倾斜变形字符的多数变换不是旋转不变的,因此对于倾斜变形字符的识别会有较大的偏差识别会有较大的偏差有些最优变换特征的运算复杂度较高,如:有些最优变换特征的运算复杂度较高,如:K-L变换,变换,在最小均方误差意义下是最优的变换,但是运算量大在最小均

41、方误差意义下是最优的变换,但是运算量大变换特征:矩特征在线性变换下保持不变的矩:不变矩在线性变换下保持不变的矩:不变矩但往往很难保证线性变换这一前提条件但往往很难保证线性变换这一前提条件( , )( , ),p i jc i jc i ji j记记注:灰度概率分布注:灰度概率分布,( )(1),kIIi jB kiAp i j,( )(1),kJJi jB kjAp i j中心矩中心矩,( ),kIi jA ki p i j则质心坐标为则质心坐标为,( ),kJi jA kj p i j原点矩原点矩(1),(1)IjAA变换特征: 投影直方图利用字符图象在特定方向的投影作为特征利用字符图象在特

42、定方向的投影作为特征通常使用水平及垂直方向通常使用水平及垂直方向垂直垂直方向投影方向投影水平水平方向投影方向投影好好jio( ),Ijp ip i j第第i条线上黑像素的个数条线上黑像素的个数占总笔画点数的百分比占总笔画点数的百分比( ),Jipjp i j第第j条线上黑像素的个数条线上黑像素的个数占总笔画点数的百分比占总笔画点数的百分比,01c i jor字符黑白图像字符黑白图像变换特征: 投影直方图变换特征:几何描绘子几何描绘子几何描绘子样条曲线近似样条曲线近似在轮廓上找到曲率大的折点,利用在轮廓上找到曲率大的折点,利用SplineSpline曲线来近曲线来近似相邻折点之间的轮廓线,并用似

43、相邻折点之间的轮廓线,并用SplineSpline曲线参数作曲线参数作为特征。为特征。傅立叶描绘子傅立叶描绘子 利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征。的各个系数作为特征。对于轮廓线不封闭的字符图象不适用,难用于笔划对于轮廓线不封闭的字符图象不适用,难用于笔划断裂的字断裂的字 汉字识别通常都采用汉字识别通常都采用层次化的分类层次化的分类结构,即结构,即对汉字字库做多级分类,然后再细分判别,从而对汉字字库做多级分类,然后再细分判别,从而大大提高识别效率。大大提高识别效率。 一般把最后一级分类称为一般把最后一级分类称为细分类细分类

44、,而前面的,而前面的分类称为分类称为粗分类粗分类。4)分类策略:多级分类对汉字的粗分类的要求。对汉字的粗分类的要求。(1 1)粗分类的正确分类率和分类稳定性要高。)粗分类的正确分类率和分类稳定性要高。(2 2)粗分类的速度要快。)粗分类的速度要快。(3 3)粗分类的特征要简单,分类字典小,节约存储空间。)粗分类的特征要简单,分类字典小,节约存储空间。(4 4)粗分类方法要和细分类方法相协调。)粗分类方法要和细分类方法相协调。树分类:效率高、分类树结构庞大,错分率累加,分类树分类:效率高、分类树结构庞大,错分率累加,分类不够稳定。不够稳定。图中图中“3”3”所代表的文字不仅在类别所代表的文字不仅

45、在类别 A A 中,在噪声情况中,在噪声情况下,也可能出现在下,也可能出现在 C C 中。因此这是一种考虑了噪声干中。因此这是一种考虑了噪声干扰等因素的特殊的分类方法。扰等因素的特殊的分类方法。所以要求细分判别所以要求细分判别 C C 类中的文字时考虑到类中的文字时考虑到“3”3”所代表所代表的文字的存在。的文字的存在。粗分类方法:包含配选法 分类用的摸板是汉字偏旁部首的骨架图形。分类时,分类用的摸板是汉字偏旁部首的骨架图形。分类时,将输入文字和各标准模板做将输入文字和各标准模板做“与与”运算运算。 部首相同的标准模板相部首相同的标准模板相“与与”的结果和标准模板本身的结果和标准模板本身的图形

46、一致。所以,根据未知输入文字图像和分类用标准的图形一致。所以,根据未知输入文字图像和分类用标准模板图像模板图像“与与”的结果是否相同于该标准图像,可以判别的结果是否相同于该标准图像,可以判别出未知文字属于哪一类。出未知文字属于哪一类。 在没有和标准图像相在没有和标准图像相“与与”匹配前,先把未知文字图匹配前,先把未知文字图像横线加粗成大于等于像横线加粗成大于等于3 3个像素宽,以利于包含相匹配的个像素宽,以利于包含相匹配的模板。模板。 为避免文字笔划绝对位置移动带来的干扰,需要把图为避免文字笔划绝对位置移动带来的干扰,需要把图像沿上下左右四个方向平移一个像素,然后分别与标准模像沿上下左右四个方

47、向平移一个像素,然后分别与标准模板相匹配。只要有一次匹配成功,就判断该文字属于标准板相匹配。只要有一次匹配成功,就判断该文字属于标准模板图像的类别。由此可见,包含匹配法实际上就是模板图像的类别。由此可见,包含匹配法实际上就是模板模板匹配法匹配法。 当识别字数增多时,由于偏旁部首的标准模板增加很当识别字数增多时,由于偏旁部首的标准模板增加很少,其分类速度比粗外围和粗网络法容易提高,而存储量少,其分类速度比粗外围和粗网络法容易提高,而存储量要求较少。要求较少。细分类方法:基于小笔段特征的层次结构若干小笔段首尾相连构成了若干小笔段首尾相连构成了汉字笔划,如右图所示。用汉字笔划,如右图所示。用小笔段作

48、为基元一方面易于小笔段作为基元一方面易于提取;另一方面它又保留了提取;另一方面它又保留了汉字基本的笔划结构信息,汉字基本的笔划结构信息,且在字体变化或噪声干扰条且在字体变化或噪声干扰条件下,仍能保持笔划结构的件下,仍能保持笔划结构的绝大部分信息。绝大部分信息。 汉字字体改变和干扰影响会使得小笔段特征向量有汉字字体改变和干扰影响会使得小笔段特征向量有变化。因此,用层次结构法对未知汉字匹配判别时,采变化。因此,用层次结构法对未知汉字匹配判别时,采用用精确匹配方法往往不能奏效精确匹配方法往往不能奏效。 较好的办法是采用由汉字小笔段相关系数(相关系较好的办法是采用由汉字小笔段相关系数(相关系数反映了相

49、互约束关系)约束的数反映了相互约束关系)约束的松弛匹配算法松弛匹配算法。这种算。这种算法能有效地吸收同一汉字不同字体的变化,而所能容许法能有效地吸收同一汉字不同字体的变化,而所能容许的变化范围由小笔段间的相关系数所制约。的变化范围由小笔段间的相关系数所制约。细分类方法:差笔划粗分类后,通常每类中含有许多形状相似的文字,采用差粗分类后,通常每类中含有许多形状相似的文字,采用差笔划方法,可以较好地区分这些形状相似的文字。差笔划笔划方法,可以较好地区分这些形状相似的文字。差笔划细分的算法如下:设粗分类后,细分的算法如下:设粗分类后,类中只有两个文字类中只有两个文字A A和和B B。(1 1)预先根据文字)预先根据文字A A、B B特征点特征点(如端点、折点等)坐标作成(如端点、折点等)坐标作成A A、B B的骨架图形的骨架图形S SA A,S SB B,如下图。,如下图。(3 3)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论