




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多特征提取的中文识别算法 姓 名:刘平净 学 号:20031711 指导教师:何光辉老师 专 业:信息与计算科学 基于多特征提取的中文识别算法 课题研究意义 基于多特征提取的识别算法原理 算法实现流程 结果分析 课题研究的意义 随着计算机技术的发展和普及,传统的汉字编码输入 方案已经不能满足大众化的需求,汉字输入成为我国 计算机科学发展的瓶颈问题,而手写汉字识别技术是 解决这一问题的关键. 现在生产的电子产品已经日趋智能化,如手机、PDA 等,手写汉字识别技术在这些产品中的应用越来越多 ,由于硬件资源的限制,电子厂商迫切需要一个简单 易行而效果也能满足要求的识别算法。 基于多特征提取的识别算法原理 算法原理综述 汉字是一种结构文字,所以在进行手写汉字识别时,笔 划信息一定要充分利用起来,同时我们知道,单纯的笔划特 征不足以区分所有汉字,现在我们考虑将输入汉字图象分别 从笔划和相素角度做两次分类识别,以下分别称为粗分类和 细分类。 在粗分类阶段,我们先根据基于笔划的识别算法把范围 缩小,即根据笔划数和笔划顺序从字库选出几个可能的汉字 ,至于怎样从这几个汉字中找出正确的对应字符就由细分类 部分完成。 基于多特征提取的识别算法原理(续) 在细分类阶段,可以根据网格划分的算法对粗分类后的 若干汉字进行识别,由于范围已经很小,所以该步骤不需要 划分太细,通常情况下做3*3分区即可取得理想结果。注意 ,用该方法要对汉字图象做规范化处理,我们可以稍做改进 ,把每区的黑色相素点数改为此数与汉字总相素点数的比值 ,这样就可以排除汉字大小不一的干扰。 基于多特征提取的识别算法原理(续) 预处理 由于下一步进行的粗分类要以笔划为特征,所以在预处 理阶段要完成消除噪声点以便判断笔划的工作,具体来讲主 要完成以下工作: (1)从输入图像得到点序列。 (2)为了消除起笔和落笔抖动,删除点序列两端的若干 点,消除点序列中间的异常点。 (3)记录图像的最大、最小x,y坐标,以便在细分类时 使用。 基于多特征提取的识别算法原理(续) 粗分类 在介绍粗分类要完成的工作前,先要了解该算法对笔划的 分类和笔划相似度的定义。下图是二维平面上方向笔划的义 。 笔划的划分: 横,用数字1标识,方向为1; 竖,用数字2标识,方向为3; 撇,用数字3标识,方向为4; 捺,用数字4标识,方向为2; 折,用数字5标识,有至少两个方向; 基于多特征提取的识别算法原理(续) 为了知道输入的一笔是哪种笔划,还要从点序列入手求 每一点的方向码,然后消除噪声方向得到笔划码。下面这 组式子用来求的方向数。 若pointa+2.y=pointa.y且pointa+2.xpointa.x,方向1。 若pointa+2.y=pointa.y且pointa+2.xpointa.y,方向3。 若pointa+2.x=pointa.x且pointa+2.ypointa.x且pointa+2.ypointa.y,方向2。 若pointa+2.xpointa.x且pointa+2.ypointa.y,方向4。 若pointa+2.xpointa.x且pointa+2.ypointa.y,方向6。 基于多特征提取的识别算法原理(续) 从上一部长得到每点方向后,消除一些异常的方向(即和附近 点方向都不一样的点),然后可根据多数点的方向判断该笔划 数,粗分类时距离定义如下: 距离 d= 其中 是定义的笔划相似度, 如下表。 基于多特征提取的识别算法原理(续) 粗分类后,要对汉字图像进行细分类进行匹配识别,该过程 采用划分网格的方法,由于粗分类阶段已经将范围缩小,所以 该阶段只需采用3*3网格即可. 细分类 该阶段首先对汉字图像进行划分,统计各区相素点数,为了 归一化,还要计算出各区相素点与图像总相素点数的比值,如 下图: 00 00 106 23111494 82 00 00 0.169 0.150.3680.18 0.13 基于多特征提取的识别算法原理(续) 现在把上图的统计特征表示为一个数组记为test.p9, 若字库中第i组特征为tezi.p9,则待识别汉字图象与字库里 第个字的距离为: 为了便于识别,需要定义阈值dis,若ddis,即可认为输 入汉字为字库中第i个字符。 算法实现流程 输入终端 输入图像预处理 获得笔划特征 获得相素特征 进行识别 识别结果 字库 识别部分 学习部分 结果分析 下图是用Visual C+程序设计语言实现该算法的程序界面, 其中的”学习”命令按钮主要用于向字库添加汉字特征,以便在 以后的使用中识别. “学习”过程 “学习”进行后,下次再写入该汉字时,系统就可以进行识 别. 结果分析(续) 下图是能够识别的汉字图像示例 结果分析(续) 算法对书写不规范的字识别效果不好,如下面几个书 写不够规范的字系统无法识别 结果分析(续) 下表为对规范度不同的汉字图像的识别率表. 结果分析(续) 该算法结合了笔划和统计特征,能使识别率达到90%以上 ,也能够识别笔划特征相同的汉字如”六”和”文”,但也存在一些 问题和不足,表现在以下两个方面: (1) 算法对书写的规范性要求很高,对于书写不规范的汉 字图像将无法识别或得到错误结果,其主要原因是系统无法从 书写不规范的汉字图像中获取正确的笔划特征. (2) 算法对笔划顺序特征要求严格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年佛山市南海区丹灶镇教育发展中心招聘考试试题(含答案)
- 临床护理技术操作常见并发症的预防与处理理论试题(有答案)
- 树立正确政绩观课件
- 余热发电属地及没备卫生检查培训试题及答案
- 医院感染暴发的报告流程和处置的试题和答案
- 护士急救药品、知识考试题(附答案)
- 2025年诊断学基础试题及答案
- 2025年山东初级保育员知识培训试题和答案
- 2024年设备监理师考试题库含答案
- 北京市公共知识培训倍速课件
- 2022年重庆市汽车运输(集团)有限责任公司招聘考试真题
- 2023年山东威海乳山市事业单位招聘带编入伍高校毕业生12人笔试备考题库及答案解析
- 结构方案论证会汇报模板参考83P
- 《企业人力资源管理专业实践报告2500字》
- 移植患者健康宣教 - 副本课件
- 魏家庄村道路实施方案
- 【外科学】心脏疾病
- 医养结合五大模式和八大服务内容
- GFL-V型防雷分线柜.说明书(弹簧式接线9、10、13个)20131213版教学内容
- 企业标准化管理手册(完整版)
- 铁路工程质量关键环节和控制要点
评论
0/150
提交评论