版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于朴素贝叶斯分类器的 简单手写体数字识别,By shenye,手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术( Optical Character Recognition,简称OCR)的一个分支。它研究的对象是:,如何利用电子计算机自动辨认 人手写在纸张上的阿拉伯数字。,研究的实际背景,在整个OCR领域中,最为困难的就是脱机手写字符的识别。,手写数字识别的应用范围广泛,阿拉伯数字组成的各种编号和统计数据如:邮政编码、统计报表、财务报表、银行票据等等。,研究的理论意义,阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景
2、无关。,目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题。,手写数字的识别方法扩展范围广。,研究的难度,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机手写体汉字识别率高 。主要原因是: 1.不同数字之间字形相差不大,使得准确区分 某些数字相当困难; 2.数字虽然只有十种,笔划简单,但同一数字 写法千差万别,全世界各个国家各个地区的 人都用,其书写上带有明显的区域特性,很 难完全做到兼顾世界各种写法的极高识别率 的通用性数字识别系统。,算法的理论基础,贝叶斯定理 设D1,D2,Dn为样本空间S的一个划分,如果以P(Di)表示事件Di发生的
3、概率,且P(Di)0(i=1,2,n)。对于任一事件x,P(x)0,则有: P(Dj/x)=p(x/Dj)P(Dj)/P(X/Di)P(Di),其中P(x) = P(X/Di)P(Di) P ( Dj)为先验概率, P ( x | Dj)为联合概率(条件概率) , P ( Dj | x)后验概率。,算法的理论基础,朴素贝叶斯分类器 朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的a1a2 am 的概率正好是对每个单独属性的概率乘积。 设x = ,则P ( x | Dj) = P ( a1 , a2am | Dj)。
4、 对未知样本X分类时,对每个类Di计算p (X/Di) p (Di) 。样本X被指派到类Di,当且仅当p (X/Di) P (Di) P (X/Dj) P (Dj) ji,也就是X被指派到其p (X/Di) p (Di)最大的类Di中。,方法介绍,从手写体数字提取5个特征向量,记X=(cntH, cntS, cntB, cntP,cntN),方法介绍训练,通过处理板得到手写数字与横竖撇捺线的交点个数及笔画数 即: H, S, B, P,N 和从输入框中得到的输入值V 插入到数据库,通过处理板得到手写数字与横竖撇捺线的交点个数及笔画数 即: cntH, cntS, cntB, cntP,cntN
5、,方法介绍识别,表1:训练集部分数据,由公式: P ( x | Dj) = P ( a1 , a2am | Dj),得到,x= (cntA,cntH,cntS,cntP,cntN), Dj,0,1,2,3,4,5,6,7,8,9 , m = 5, a1= cntB,a2=cntH,a3=cntS,a4=cntP,a5=cntN,计算方法通过代码来解析:,while (read.Read()/从数据库中读取训练集 countpV+; /当前数字PV 出现的总个数 datHpH, pV+; /在V=PV条件下H=pH的个数 datSpS, pV+; datPpP, pV+; datNpN, pV+
6、; datApA, pV+; i+;/数据总数 ,max = 0; for (i = 0; i max)/取最大的ansPi max = ansPi; ans = i;/ans即识别出来的值 if (max = 0) MessageBox.Show(无法识别);,这样做的优点是: 用户可按照自己的书写习惯自行创造数据集,这使得工具变得有灵性,不同的用户将创造不同的数据集,工具因此有了不同的记忆,训练得越多,工具的识别能力越强,识别率越高。,总结,左表所示:字符2,3,8的误识率较高,这是由于他们标准特征向量距离较小。通过增加特征向量的方法可以减少误识率。,由实验结果表明,基于朴素贝叶斯分类器的手写数字识别是可行的。,%,在特征向量的提取上,我还有如下几种想法: 将方向设为8个(避免2和3的错误识别)。 与边框的交点(避免8和3的错误识别)。 每一笔的走势(避免1和7的错误识别)。 数字字体的长宽比。 边框内红色像素与非红色像素之比。,一些想法:,一些想法:,另外,通过这个小实验,使我对汉字的识别也有了一些思路: 用上述方法识别输入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 常州市溧阳中学高三地理一轮复习流域学案
- 2025年中职播音与主持艺术(播音与主持艺术概论)试题及答案
- 2025-2026年三年级地理(地理信息技术)上学期期中试题及答案
- 2025-2026年高三生物(专项训练)上学期期中测试卷
- 2026年内科护理(疾病护理)考题及答案
- 2026年空少(客舱保障)考题及答案
- 大学(管理学基础)人力资源管理概论2026年综合测试题及答案
- 2025年高职焊接技术与自动化(焊接技术自动化应用)试题及答案
- 2025年中职(机电一体化技术)机械制图阶段测试题及答案
- 2025年高职水文与水资源工程技术(水资源评价)试题及答案
- 2025四川资阳现代农业发展集团有限公司招聘1人笔试历年参考题库附带答案详解
- 2025河北廊坊燕京职业技术学院选聘专任教师20名(公共基础知识)测试题附答案解析
- 0901 溶液颜色检查法:2020年版 VS 2025年版对比表
- 2025吐鲁番市高昌区招聘第二批警务辅助人员备考题库(165人)含答案详解(b卷)
- 2025辽宁丹东市融媒体中心下半年面向普通高校招聘急需紧缺人才5人笔试考试参考试题及答案解析
- 医疗旅游认证专业人才培养方案
- 2025公安部保安员考试题库(含答案)
- 2025年10月自考04184线性代数经管类试题及答案含评分参考
- 国开2025年秋《心理学》形成性考核练习1-6答案
- GA 1812.1-2024银行系统反恐怖防范要求第1部分:人民币发行库
- 267条表情猜成语【动画版】
评论
0/150
提交评论