




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于朴素贝叶斯分类器的简单手写体数字识别 Byshenye 手写数字识别 HandwrittenNumeralRecognition 是光学字符识别技术 OpticalCharacterRecognition 简称OCR 的一个分支 它研究的对象是 如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字 研究的实际背景 在整个OCR领域中 最为困难的就是脱机手写字符的识别 手写数字识别的应用范围广泛 阿拉伯数字组成的各种编号和统计数据如 邮政编码 统计报表 财务报表 银行票据等等 研究的理论意义 阿拉伯数字是唯一的被世界各国通用的符号 对手写数字识别的研究基本上与文化背景无关 目前为止机器的识别本领还无法与人的认知能力相比 这仍是一个有难度的开放问题 手写数字的识别方法扩展范围广 研究的难度 一些测试结果表明 数字的正确识别率并不如印刷体汉字识别正确率高 甚至也不如联机手写体汉字识别率高 主要原因是 1 不同数字之间字形相差不大 使得准确区分某些数字相当困难 2 数字虽然只有十种 笔划简单 但同一数字写法千差万别 全世界各个国家各个地区的人都用 其书写上带有明显的区域特性 很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统 算法的理论基础 贝叶斯定理设D1 D2 Dn为样本空间S的一个划分 如果以P Di 表示事件Di发生的概率 且P Di 0 i 1 2 n 对于任一事件x P x 0 则有 P Dj x p x Dj P Dj P X Di P Di 其中P x P X Di P Di P Dj 为先验概率 P x Dj 为联合概率 条件概率 P Dj x 后验概率 算法的理论基础 朴素贝叶斯分类器朴素贝叶斯分类器基于一个简单的假定 在给定目标值时属性值之间相互条件独立 换言之 该假定说明给定实例的目标值情况下 观察到联合的a1a2 am的概率正好是对每个单独属性的概率乘积 设x 则P x Dj P a1 a2 am Dj 对未知样本X分类时 对每个类Di计算p X Di p Di 样本X被指派到类Di 当且仅当p X Di P Di P X Dj P Dj j i 也就是X被指派到其p X Di p Di 最大的类Di中 方法介绍 从手写体数字提取5个特征向量 记X cntH cntS cntB cntP cntN 方法介绍 训练 通过处理板得到手写数字与横竖撇捺线的交点个数及笔画数即 H S B P N和从输入框中得到的输入值V插入到数据库 通过处理板得到手写数字与横竖撇捺线的交点个数及笔画数即 cntH cntS cntB cntP cntN 方法介绍 识别 表1 训练集部分数据 由公式 P x Dj P a1 a2 am Dj 得到 x cntA cntH cntS cntP cntN Dj 0 1 2 3 4 5 6 7 8 9 m 5 a1 cntB a2 cntH a3 cntS a4 cntP a5 cntN 计算方法通过代码来解析 while read Read 从数据库中读取训练集 count pV 当前数字PV出现的总个数datH pH pV 在V PV条件下H pH的个数datS pS pV datP pP pV datN pN pV datA pA pV i 数据总数 max 0 for i 0 imax 取最大的ansP i max ansP i ans i ans即识别出来的值 if max 0 MessageBox Show 无法识别 这样做的优点是 用户可按照自己的书写习惯自行创造数据集 这使得工具变得有 灵性 不同的用户将创造不同的数据集 工具因此有了不同的记忆 训练得越多 工具的识别能力越强 识别率越高 总结 左表所示 字符2 3 8的误识率较高 这是由于他们标准特征向量距离较小 通过增加特征向量的方法可以减少误识率 由实验结果表明 基于朴素贝叶斯分类器的手写数字识别是可行的 在特征向量的提取上 我还有如下几种想法 将方向设为8个 避免2和3的错误识别 与边框的交点 避免8和3的错误识别 每一笔的走势 避免1和7的错误识别 数字字体的长宽比 边框内红色像素与非红色像素之比 一些想法 一些想法 另外 通过这个小实验 使我对汉字的识别也有了一些思路 用上述方法识别输入的每
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年加油站人员面试题及答案
- 2025云南机场集团有限责任公司航行管制员公开招聘笔试历年参考题库及答案
- 汽车驾驶维修考工试题及答案
- 外加工合同4篇
- 高空施工终身劳动合同(3篇)
- 安徽二建市政考试题真题及答案
- 2025国考试题及答案
- 现代农业企业设立与农业科技合作合同
- 钢铁企业职工工伤事故赔偿及保险协议
- 水工专业笔试试题及答案
- 0.4mm隔潮膜报告及首页20230605
- 维修成本优化研究
- 八大员-标准员考试模拟题(含答案)
- 2024-2030年中国企业研究院建设行业管理模式及未来发展规划预测报告
- 2024年度吉林省高校教师资格证之高等教育心理学考试题库
- 员工大会制度
- GB/T 44311-2024适老环境评估导则
- 教科版五年级科学上册全册同步课时练习【含答案全册】
- JTS-204-2008水运工程爆破技术规范-PDF解密
- NBT 10643-2021 风电场用静止无功发生器技术要求与试验方法-PDF解密
- 初中英语单词表(For-Junior)2182个 带音标
评论
0/150
提交评论