印刷体汉字的分类和识别.ppt_第1页
印刷体汉字的分类和识别.ppt_第2页
印刷体汉字的分类和识别.ppt_第3页
印刷体汉字的分类和识别.ppt_第4页
印刷体汉字的分类和识别.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8讲 印刷体汉字 的分类和识别,要点:,印刷体汉字的分类 印刷体汉字的识别 课堂练习 课后练习,印刷体汉字的分类,印刷体汉字分类的必要性 印刷体汉字分类的基本要求 印刷体汉字分类举例 印刷体汉字分类的方法 返回,印刷体汉字分类的必要性,由于汉字数量大,如果不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。 汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。 返回,印刷体汉字分类的基本要求,粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。 粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。,返回,印刷体汉字分类举例,在下图中,“3”所代表的文字不仅在类别A中,也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回,印刷体汉字分类的方法,采用复合特征的分类 多级分类 返回,采用复合特征的分类,选用N种具有互补特征作为类特征 在学习阶段,对训练样本进行N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。 分类时,根据待分字的特征进行N次分类,组合分类结果求得子类。 返回,多级分类,学习阶段,对训练样本进行多级分类,每一级分类是在上级分类基础上进行的;分类时重复上述多级分类过程。 树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会造成分类树结构庞大,使得分类不够稳定。 返回,印刷体汉字的识别,在选取特征之后,需要选择或寻找适当的判别准则来判断待识字的特征与哪一个类别的特征最近。常用准则有两类: (1)基于距离的识别准则 (2)基于相似度的识别准则 返回,基于距离的识别准则,距离的数学定义 常用距离 距离计算举例:例1,例2 返回,距离的数学定义,距离是满足如下三条公理的二元函数: (1)非负性:d(x,y)0, 当且仅当y=x时,等号成立; (2)对称性:d(x,y)= d(y ,x); (3)三角不等式: d(x,y)d(x,z)+d(z,y) 返回,常用距离,曼哈顿街区距离, 欧氏距离 切比雪夫(Chebychev)距离 s阶闵可夫斯基(Minkowski)距离 马氏(Mahalanobis)距离, Camberra距离 编辑距离和演化距离 返回,曼哈顿街区距离,又称为分量绝对值求和距离。 返回,欧氏距离,返回,切比雪夫(Chebychev)距离,又称为分量绝对值最大距离。返回,s阶闵可夫斯基距离,(Minkowski)距离。返回,马氏(Mahalanobis)距离,是一个正定矩阵。返回,Camberra距离,返回,编辑距离和演化距离,通过“替换”、“删除”和“插入”三种操作,把字符串a=a1a2am变成b=b1b2bn所需的最小操作次数,称为a和b的编辑距离。 由于“替换” 、“删除”和“插入”可以解释为基因序列的三种演化操作,因此编辑距离又称为演化距离。 返回,编辑距离Ed的计算方法,a=a1a2am, b=b1b2bn 返回 xi=a1a2ai, yj =b1b2bj “-”表示删除或插入, Ed(a, b)=Ed(xm, yn),距离计算举例,计算下面“汉”和“字”点阵之间的几种距离,距离计算结果,曼哈顿街区距离=70 欧氏距离= 8.3666 切比雪夫距离=1 s阶闵可夫斯基距离= Camberra距离=70 返回,距离计算举例,计算下面序列之间的编辑距离: ab和ac acb和ab ac和abc abcc和cbaa,距离计算结果,ab和ac的编辑距离=1 acb和ab的编辑距离=1 ac和abc的编辑距离=1 abcc和cbaa的编辑距离=3 返回,基于相似度的识别准则,相似度的数学定义 常用相似度 相似度计算举例 返回,相似度的数学定义,相似度是满足如下三个条件的二元函数: 1. 非负性: 2.自大性: 3. 对称性: 返回,常用相似度,距离相似度,角度相似系数 相关系数,指数相似系数 非负特征相似度,二值特征相似度 返回,距离相似度,f是单调减函数。返回,角度相似系数,返回,相关系数,返回,指数相似系数,返回,非负特征相似度,返回,二值特征相似度,二值特征向量的分量只能取值0或1。 二值特征分量有四种基本匹配 二值特征向量有四种匹配特征数 二值特征向量有五种常用相似度 返回,四种基本匹配,设二值特征向量x和y的第i个分量为xi和yi, 如果xi =1且yi=1,则称xi和yi (1-1)匹配; 如果xi =1且yi=0,则称xi和yi (1-0)匹配; 如果xi =0且yi=1,则称xi和yi (0-1)匹配; 如果xi =0且yi=0,则称xi和yi (0-0)匹配; 返回,四种匹配特征数,(1-1)匹配特征数: (0-1)匹配特征数: (1-0)匹配特征数: (0-0)匹配特征数: 所选特征总数n=a+b+c+e 返回,五种常用相似度,Tanimoto系数 Rao系数 简单匹配系数 Dice系数 Kulzinsky系数 返回,Tanimoto系数,表示二值特征向量x和y共同具有的特征总数和分别具有的特征种类总数之比。返回,Rao系数,表示二值特征向量x和y共同具有的特征总数和所选特征总数之比。返回,简单匹配系数,表示二值特征向量x和y同时具有或不具有的特征总数和所选特征总数之比。返回,Dice系数,返回,Kulzinsky系数,表示二值特征向量x和y共同具有的特征总数和单独具有的特征总数之比。返回,相似度计算举例,计算“汉”和“字”点阵向量的角度相似性以及5种二值特征相似度。,相似度计算结果,角度相似系数= 0.327165 Tanimoto系数=0.195402 Rao系数=0.066406 简单匹配系数= 0.726563 Dice系数= 0.326923 Kulzinsky系数=0.242857 返回,课堂练习,1.计算abc和cacbc之间的编辑距离; 2.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之间的曼哈顿街区距离、切比雪夫距离和3阶闵可夫斯基距离; 3.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度相似系数。 返回,编辑距离的计算,返回,c,a,c,b,c,c,b,a,课后练习,编程计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论