第11讲印刷体汉字的分类和识别ppt课件_第1页
第11讲印刷体汉字的分类和识别ppt课件_第2页
第11讲印刷体汉字的分类和识别ppt课件_第3页
第11讲印刷体汉字的分类和识别ppt课件_第4页
第11讲印刷体汉字的分类和识别ppt课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第8讲 印刷体汉字的分类和识别.要点:印刷体汉字的分类印刷体汉字的识别课堂练习课后练习.印刷体汉字的分类印刷体汉字分类的必要性印刷体汉字分类的根本要求印刷体汉字分类举例印刷体汉字分类的方法前往.印刷体汉字分类的必要性由于汉字数量大,假设不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。前往.印刷体汉字分类的根本要求粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平

2、均,从而提高分类的效率。 前往.印刷体汉字分类举例在以下图中,“3所代表的文字不仅在类别A中,也能够同时在类别C中。在细分判别A和C类中的文字时应同时思索“3所代表的文字。前往.印刷体汉字分类的方法采用复合特征的分类多级分类前往.采用复合特征的分类选用N种具有互补特征作为类特征在学习阶段,对训练样本进展N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。分类时,根据待分字的特征进展N次分类,组合分类结果求得子类。前往.多级分类学习阶段,对训练样本进展多级分类,每一级分类是在上级分类根底上进展的;分类时反复上述多级分类过程。树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会

3、呵斥分类树构造庞大,使得分类不够稳定。前往.印刷体汉字的识别在选取特征之后,需求选择或寻觅适当的判别准那么来判别待识字的特征与哪一个类别的特征最近。常用准那么有两类:1基于间隔的识别准那么2基于类似度的识别准那么前往.基于间隔的识别准那么间隔的数学定义常用间隔间隔计算举例:例1,例2 前往.间隔的数学定义间隔是满足如下三条公理的二元函数:1非负性:d(x,y)0, 当且仅当y=x时,等号成立;2对称性:d(x,y)= d(y ,x);3三角不等式: d(x,y)d(x,z)+d(z,y) 前往.常用间隔曼哈顿街区间隔, 欧氏间隔切比雪夫(Chebychev)间隔s阶闵可夫斯基Minkowski

4、间隔马氏(Mahalanobis)间隔, Camberra间隔编辑间隔和演化间隔前往.曼哈顿街区间隔又称为分量绝对值求和间隔。 前往.欧氏间隔前往.切比雪夫(Chebychev)间隔又称为分量绝对值最大间隔。前往.s阶闵可夫斯基间隔Minkowski间隔。前往.马氏(Mahalanobis)间隔是一个正定矩阵。前往.Camberra间隔前往.编辑间隔和演化间隔经过“交换、“删除和“插入三种操作,把字符串a=a1a2am变成b=b1b2bn所需的最小操作次数,称为a和b的编辑间隔。由于“交换 、“删除和“插入可以解释为基因序列的三种演化操作,因此编辑间隔又称为演化间隔。前往.编辑间隔Ed的计算方

5、法a=a1a2am, b=b1b2bn 前往xi=a1a2ai, yj =b1b2bj“-表示删除或插入, Ed(a, b)=Ed(xm, yn).间隔计算举例计算下面“汉和“字点阵之间的几种间隔.间隔计算结果曼哈顿街区间隔=70欧氏间隔= 8.3666切比雪夫间隔=1s阶闵可夫斯基间隔=Camberra间隔=70前往.间隔计算举例计算下面序列之间的编辑间隔:ab和acacb和abac和abcabcc和cbaa.间隔计算结果ab和ac的编辑间隔=1acb和ab的编辑间隔=1ac和abc的编辑间隔=1abcc和cbaa的编辑间隔=3前往.基于类似度的识别准那么类似度的数学定义常用类似度类似度计算

6、举例前往.类似度的数学定义类似度是满足如下三个条件的二元函数:1. 非负性:2.自大性:3. 对称性:前往 .常用类似度间隔类似度,角度类似系数相关系数,指数类似系数非负特征类似度,二值特征类似度前往.间隔类似度f是单调减函数。前往.角度类似系数前往.相关系数前往.指数类似系数前往.非负特征类似度前往.二值特征类似度二值特征向量的分量只能取值0或1。二值特征分量有四种根本匹配二值特征向量有四种匹配特征数二值特征向量有五种常用类似度前往.四种根本匹配设二值特征向量x和y的第i个分量为xi和yi,假设xi =1且yi=1,那么称xi和yi (1-1)匹配;假设xi =1且yi=0,那么称xi和yi

7、 (1-0)匹配;假设xi =0且yi=1,那么称xi和yi (0-1)匹配;假设xi =0且yi=0,那么称xi和yi (0-0)匹配;前往.四种匹配特征数(1-1)匹配特征数:(0-1)匹配特征数:(1-0)匹配特征数:(0-0)匹配特征数:所选特征总数n=a+b+c+e前往.五种常用类似度Tanimoto系数Rao系数简单匹配系数Dice系数Kulzinsky系数前往.Tanimoto系数表示二值特征向量x和y共同具有的特征总数和分别具有的特征种类总数之比。前往.Rao系数表示二值特征向量x和y共同具有的特征总数和所选特征总数之比。前往.简单匹配系数表示二值特征向量x和y同时具有或不具有

8、的特征总数和所选特征总数之比。前往.Dice系数前往.Kulzinsky系数表示二值特征向量x和y共同具有的特征总数和单独具有的特征总数之比。前往.类似度计算举例计算“汉和“字点阵向量的角度类似性以及5种二值特征类似度。.类似度计算结果角度类似系数= 0.327165Tanimoto系数=0.195402Rao系数=0.066406简单匹配系数= 0.726563Dice系数= 0.326923Kulzinsky系数=0.242857前往.课堂练习1.计算abc和cacbc之间的编辑间隔;2.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之间的曼哈顿街区间隔、切比雪夫间隔和3阶闵可夫斯基间隔;3.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度类似系数。前往.编辑间隔的计算前往Ed(0,0)=0Ed(1,0)=1Ed(2,0)=2Ed(3,0)=3Ed(4,0)=4Ed(5,0)=5Ed(0,1)=1Ed(1,1)=1Ed(2,1)=1Ed(3,1)=2Ed(4,1)=3Ed(5,1)=4Ed(0,2)=2Ed(1,2)=2Ed(2,2)=2Ed(3,2)=2Ed(4,2)=2Ed(5,2)=3Ed(0,3)=3Ed(1,3)=2Ed(2,3)=3Ed(3,3)=2Ed(4,3)=3Ed(5,3)=2cacbccba.课

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论