




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/9/14,1,联机藏文手写识别概述,吴健孙嫣 中国科学院软件研究所 基础软件国家工程研究中心,2,2020/9/14,摘要,准备工作 手写识别过程 联机藏文手写识别的预处理 联机藏文手写识别特征提取 聚类 实验方法和结果,3,2020/9/14,准备工作,藏文文字的组成 藏文的字符集编码标准 GB/T 16959-1997信息技术 藏文编码字符集 基本集 GB/T 20542-2006信息技术 藏文编码字符集 扩充集A,字母字丁(字符)音节词句子,4,2020/9/14,藏文字丁的书写特点 基本处理单元的选择 藏文文字的结构特点 相关国家标准 识别编码范围 基本集和扩充集A在内的91
2、0多个字丁,剔出掉了不常用的梵文字符,准备工作,5,2020/9/14,准备工作,联机藏文手写识别的研究基础 参考结构文字的联机特征提取方案还是拼音文字的联机特征提取方案? 藏文识别相对于汉字识别的特点 宽高比1:2 笔画方向性 圈、弧状结构,6,2020/9/14,准备工作,藏文手写识别难点 易混淆字过多 印刷体相似字 手写体相似字,7,2020/9/14,联机藏文手写识别流程,识别基本流程 预处理了 对手写输入的字符在字形上进行修正,减少同类字符输入样本间字形上的变异。是保证特征提取和识别算法的有效性的前提。 特征提取 根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具
3、有不变形的模式特征。,预处理,特征提取,分割,分类,后处理,语料库,word,8,2020/9/14,联机藏文手写识别的预处理,预处理主要操作 线性归一化,减少字符大小的变异。 加入虚拟点,使字的每个笔画的点密度相同。 非线性归一化,减少笔划形状的变异(笔画太长、太短,笔画太集中等)。 重采样,减少点的间距的变异以及笔划上点的数目的变异。 点的平滑,去除笔画上的噪点。,9,2020/9/14,线性归一化操作的选取 公式及宽高比确定 进一步改进,联机藏文手写识别的预处理,10,2020/9/14,非线性归一化方案的选取 基于线密度 基于交叉距离 基于点密度,联机藏文手写识别的预处理,方案1:“初
4、始方案”,使用基于点密度的非线性归一化操作; 方案2:基于线密度的非线性归一化操作。 方案3:基于基交叉距离的线密度非线性归一化操作。 方案4:改进后的基于点密度的非线性归一化操作。,11,2020/9/14,联机藏文手写识别的预处理,对基于点密度的非线性归一化方案的改进 笔画断裂、笔画间不连续的原因 直方图投影变化剧烈 解决方案,12,2020/9/14,联机藏文手写识别的预处理,笔画等距离采样和平滑 基本作用都是为了消除噪音。 应用在非线性归一化操作之后,除了能消除手写字符本身由于抖动带来的噪音以外,还可以消除由于预处理阶段中前续处理带来的附加噪音。 等距离采样 平滑,New,Old,W和
5、H是经过重采样操作处理后的手写样本的宽和高。,13,2020/9/14,联机藏文手写识别的特征提取,特征提取 根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具有不变形的模式特征。 选用了网格方向信息特征提取方案,使最终提取出来的样本特征尽可能的突出表现这个样本的笔画方向信息特征。 网格方向特征 一种模板相关的特征提取方法,不针对手写字符具体的结构。 先将预处理操作后联机手写字符分成nm的格子,再在每个方格中提取与空间位置相关的方向特征。 使联机手写的笔画上的点的方向特征与空间相关,而不是与时间相关。,14,2020/9/14,联机藏文手写识别的特征提取,方向的确定 八方向
6、还是四方向拆分?,15,2020/9/14,联机藏文手写识别的特征提取,滤波器的选择 网格方向特征提取方法需要对分割后的小网格计算特征值; 特征值的取得依赖于小网格内点的分布以及一个权值空间; 权值空间的分配一般都使用某种低通滤波器来计算。 使用Gaussian滤波器来计算权值 Gaussian函数是单值函数,因为边缘是一种图像局部特征,靠近切分后小网格的边缘部分的点一般认为是噪音。 二维Gaussian函数具有旋转对称性,即滤波器在各个方向上的平滑程度是相同的。 Gaussian滤波器看以看做是Gabor滤波器的简化,它的参数较少,便于设计和实验。,16,2020/9/14,联机藏文手写识别
7、的特征提取,Gaussian滤波器 是尺度,它决定了滤波器的分布宽度。 优点 滤波器宽度(决定着平滑程度)是由决定,和平滑程度的关系是非常简单的。 设计 越大对噪声的抑制效果越好。 过大的会造成图像模糊、变暗,造成图像轮廓界限的消失。 r是切分后的小网格边长。,17,2020/9/14,联机藏文手写识别的特征提取,图像分割的粒度 弹性网格 根据直方图投影对图像进行切分 弹性网格设计中的困难 Gaussian滤波器 切分后采样中心的确定 二值投影到灰度投影 联机手写样本中的交点信息,18,2020/9/14,联机藏文手写识别的特征提取,原始特征值缺陷 特征值在0200多不等,导致在进行聚类的距离
8、计算时,大数占据了绝对的地位。 个别特征值的巨大差异会削弱其他特征值的影响。 改进 实验结果 根据不同字型可实验不同的方法,本文采取第二种方法,识别率提高到96.146%,比原始的特征值计方法提高了1个百分点。,19,2020/9/14,聚类,聚类距离:传统的欧氏距离 分析 比较距离时,不必计算平方根,减少计算量。 曼哈顿距离、city-block距离:计算相对应的属性差值绝对值之和,即指数为1。 指数 2时:增加了大差异的影响力而削弱了小差异的影响力。 实验结果 欧氏距离:96.0646%。 不计算平方根:96.0992%,有微小提高。 指数 = 1:90.3861%,识别率迅速下降,说明减小大差异的影响不利于识别效果。 指数 = 3:96.8843%,比欧氏距离提高了0.8个百分点。,20,2020/9/14,聚类,Hard Clustering 每个模式只能属于一个类 Fuzzy Clustering 每个模式可以属于多个类 由Hard Clustering改为Fuzzy Clustering,识别率由97.146%提高到97.2151%。,21,2020/9/14,实验方法和结果,实验数据 使用自建的藏文手写字库。 用的样本集是编码在0 xF3000 xF3FF之间的256个字符,每个字符平均包含80套样本,共20259个联机藏文手写样本数据。 分类学习方法 聚类:模糊的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽代纪年墓葬、塔基出土陶瓷器研究-以分布和行销为中心
- 物业服务公司安全保障义务研究
- 十年教育发展历程
- 高效销售团队建设与运营体系设计
- 店长管理培训总结
- 颈椎影像检查技术课件
- 预防腮腺炎的课件
- 老年人健康宣讲
- 体育培训机构市场调查报告
- 肝胆疾病的早期诊断与治疗方法
- 2023深圳工务署品牌名单
- 成人高级心血管生命支持
- 房缺术后患者护理查房课件
- 大乐透旋转矩阵表
- 23式观音拳拳谱及动作分解
- PDCA循环管理培训PPT课件:降低采集血标本不合格率
- 南瑞继保PCS9700综自监控和远动系统维护操作手册.
- 市政道路雨季施工方案
- 保健食品良好生产规范GB 17405—1998
- 2006年东风雪铁龙c2原厂维修手册al4变速箱
- 板框压滤机吊装方案
评论
0/150
提交评论