




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汉字识别技术概述,汉字已有数千年的历史,对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋。而在当今,各种字的写法乍然出现。主要体现在以下问题上:为什么有的人写出来,我们虽然不知道那是什么体,不过我们至少知道那是什么字;而有的人呢,我们一看,只感觉那是甲骨文,却不知道它是什么字呢?,由于字写法的千变万化,要让计算机来识别,对计算机来说更是一个很大的挑战,何况是连我们都识别不出来的字呢?而怎么让计算器来识别我们的汉字呢?因此,在目前,对于汉字识别的研究已成为了当今科学研究的重要一部分,是模式识别领域的一个重要分支。,由汉字识别技术引入。,汉字识别技术的分类,汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机手写汉字识别和脱机手写汉字识别。联机手写汉字识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别;脱机手写汉字识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由机器进行识别。从识别的角度来看,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。,基于模板匹配法-联机手写数字识别,模式识别系统的基本构成:,信息获取,预处理,特征提取和选择,分类器设计,分类决策,信息获取:,我们主要采用一个模拟的手写板,通过用户书写数字,动态地获取该数字从起始点到终止点的所有点的信息及其所有我们需要的关于该数字的信息。,难点及特征选取:,图中,三个2的写法各不相同,但是我们都能一下子识别出来为2,其原因在于这3个数字都依次包括了向右、向左下、向右的书写习惯。,同理,这3个4也都依次包括了向下、向右、最后向下的书写习惯。,因此,需要提取一个重要的基本特征就是书写顺序。,首先,我们来看几组图片:,难点及特征选取:,我们再来看看这组图片:,虽然第二个2写得有点不伦不类,但是我们还是能看出来是2,原因就在于首点和末点的距离相距明显较大。,第四组的两个数字4和9很容易混淆,但是可以看出4的尾巴会比9的短得多。,从上,我们可以看出首点到末点的距离以及末点到交点的距离也是一个重要特征。,难点及特征选取:,同时,我们可以发现数字4,5书写时,都是存在断点的,数字0和8的终点和起点是连接在一起的,还有每个数字的节点的分支数,首点到交点的距离,尾点到交点的距离,首尾的距离.在每个数字之间都是存在差异的,这些都可以作为选取的特征。,预处理及模板建立:,在方向上,为了量化特征,于是我们规定了如下四个方向:,向上,向下,向左,向右,预处理及模板建立:,之所以每个方向包三个范围,是为了避免一些小的扰动改变方向。但是,从上面的四个图中,我们可以看到,在斜线上的4个方向,每一个都包含在两个方向中,那么怎么来确定方向呢?于是,我们定义如下的规则:(1)考虑到我们书写数字的习惯,对于每一个起点,选择方向的顺序依次是向右,向下,向左,向上(2)如果已经处在一个方向,那么对于紧接着的一个方向,应尽量保持和原来的方向一致,这样方向在一个小的范围内就不会受到影响,除非已经跳离了这个方向所在的范围。,然而,我们会遇到如下的问题。,预处理及模板建立:,如果满足以上条件,则剔除点,红色线条为笔迹经过的点,本来途中画黑点的位置都应该在路径里,但考虑到为了不使方向变来变去,对于该图处在这种拐角上的点,我们都给剔除,剔除的条件是:,如图:,特征选取:,经过讨论,我们选取了几个比较典型的特征(1)数字的书写顺序(2)第一个笔画的长度(3)最后一个方向的长度(4)是否存在断点(5)起点到交点的距离(6)尾点到交点的距离,而在程序中,用一个结构体来描述特征:typedefstructtezhengsignedcharvalue;/数字值signedcharVHDerection15;/水平垂直特征/向右-1向下-2向左-3向上-4signedcharlenth1;/第一个笔划长度signedcharlenth;/最后一个方向的长度signedchardecon;/有无断点等于1有断点signedcharlenfirst;/起点到交点的距离signedcharlenend;/尾点到交点的距离TEZHENG;,学习和判别过程:,学习过程:我们可以输入很多的训练样本,保存这些样本的特征成一个个的模板,同时对于模板中存在的样本模板,我们将给出提示而不再存储,从而减少了存储空间。判别过程:采用模板匹配法。当输入一个测试样本时,我们先提取它的特征,然后从模板中查询相同的特征,如果有,给出判断结果;如果没有,则提示无法判断。从而我们可以得到较高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物技术在农业生产中的应用与前景研究报告
- 2025年机械行业工业机器人应用前景研究报告
- 压力灭菌器培训课件
- 压力气体安全培训总结课件
- 2025年环保行业绿色产品市场前景研究报告
- 2025年机器人产业行业智能机器人应用前景分析报告
- 2025年机器人产业发展趋势与市场前景研究报告
- 商场化妆品安全培训课件
- 2025年环保行业可再生能源发展策略及市场前景研究报告
- 商场儿童乐园安全培训课件
- 2025湖南益阳安化县事业单位招聘工作人员61人考试参考试题及答案解析
- 7 呼风唤雨的世纪 课件
- 新增临时排水管方案
- GB/T 5796.3-2022梯形螺纹第3部分:基本尺寸
- 第七章-辐射防护分析课件
- 研究生英语阅读综合教程reading more
- 比较思想政治教育学-课件
- 眼科学教学课件:眼睑病
- ZXONE8700技术规范书
- 微观经济学生产与成本理论
- 环境监测第2章(2)——水和废水监测ppt课件
评论
0/150
提交评论