【精编汇总版】自由手写体数字识别系统的大纲与实现合集_第1页
【精编汇总版】自由手写体数字识别系统的大纲与实现合集_第2页
【精编汇总版】自由手写体数字识别系统的大纲与实现合集_第3页
【精编汇总版】自由手写体数字识别系统的大纲与实现合集_第4页
【精编汇总版】自由手写体数字识别系统的大纲与实现合集_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】1/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】1/12【精编汇总版】自由手写体数字识别系统的大纲与实现合集精品文档合集精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】2/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】2/12自由手写体数字识别系统的大纲与实现戴建輝信息科学与工程学院.电子信息工程系指导老师:吴谨摘要:本文论述并大纲实现了一个脱机自由手写休数字识别系统。文中首先对待识别数字的预处理方案进行了 介绍,包括二值化、平滑滤波、规范化、细化等图像

2、处理方案方法;其次,探讨了如何提取数字字符的结构特 征和笔划特征,并详细地描述了理论知识库的构造方法;最后釆用了以理论知识库为基础的模板匹配识别方法,并以 MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。实验结果表格模板明,本方法 具有较高的识别率.并具有较好的抗嘆性能。关键词:手写体数字;预处理方案;模式识别:特征提取Abstrct: This paper describes and designs a free handwritten number recognition system. Firstly, the pretreatment of the cha

3、racter to be recognized is intreduced, including binarization, smoothing, norma 1 ization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally, we use the method of template matching, based on repositor

4、y, to recognize the digital number. Mat lab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system is high, and the proposed method is robust to noise.Keywords

5、: handwritten number; pretreatment; pattern recognition: feature extraction精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】2/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】2/121引言OCR ( Optical CharacterRecognition)即光学字符识别技术, 是通过扫描仪把印刷体或手写体文爲 扫描成图像,然后识别成相应的计算 机町直接处理方案的字符。OCR是模式识别 的一个分支,按字体分类主要分为印 刷体识别和手写体识别两大类。对于 印刷体识别又可以分成单

6、一字体单一 字号和多种字体多种字号儿类。而手 写体识别又可分为受限手写体和不受 限手写体两类;按识别方式可分为在 线识别和脱机识别两类。字符识别处理方案的信息可分为两大 类:一类是文字信息,处理方案的主要是 用各国家、各民族的文字(如:汉字, 英文等)书写或印刷的文本信息,目 前在印刷体和联机手写方面技术12趋 向成熟,并推岀了很多.应用系统;l/j 类是数据信息,主要是由阿拉伯数 字及少量特殊符号组成的各种编号和 统计数据,如:邮政编码、统计报表格模板、 财务报表格模板、银行票据等等,处理方案这类精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】3/12精品文档合集:【精编

7、汇总版】自由手写体数字识别系统的大纲与实现合集】3/12信息的核心技术是手写数字识别。因 此,手写数字的识别研究有着重大的 现实意义,一旦研究成功并投入应用, 将产生巨大的社会和经济效益。在整个OCR领域中,最为困难的 就是脱机自由手写字符的识别。到目 前为止,.尽管人们在.脱机手淄英文、 汉字识别的研究中已取得很多可喜成 就,但距离实用还有一定距离。而在 手写数字识别这个方向上,经辻多年 研究,研究工作者已经开始把它向各 种实际应用推广,为手写数据的高速 自动输入提供了一种解决规划方案.本文首先介绍了I由手写体数字 识别的基本原理,包括数字图像预处 理、特征提取和模式识别的基本原理 和方法;

8、H次介绍了;最后通过基于 MATLAB的实验结果,对本系统的性能 进行了分析。2手写体数字识别的基本原理本系统上要由手”体数字俱別的 训练过程和识别过程组成,训练过程 和识别过程均包括预处理方案、特征提取 和模式识别三部分。系统构成如图2. 1 所E精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】3/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】3/12图2.】系统流程图精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】3/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】3/12下面分别介绍各部分工作的基本

9、原 理.2. 1预处理方案预处理方案主要由一:偵化,平滑去噪, 规范化,细化等组成.本文采用了基于阚值的二值化算 法,通过最大类间方并法即OTSU方法, 统计图像的灰度直方图选取全局阈 值,然后进行二值化处理方案,其次,在二值化后利用均值滤波 的方法消除孤立点、线的噪戸,这样 图中就只剩下手写体数字。在滤波中 本文采用的是3*3大小的模板,平滑去噪后,对图像进行规范化 处理方案。找出图像中数字的边界,然后 提取出数字把它居中放置在正方形方 框中,再对此正方形图像进行线性插 偵缩放,使它放为统规格大小的图 像,本精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】4/12精品文档

10、合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】4/12文中归化图像的大小是 36*3 飢在提取特征之前,要对手写体数 字进行细化。本文是采用的基于数学 形态学的细化算法。细化可用两步腐 蚀来实现:第一步是正常的腐蚀,但 它是有条件的,也就是说,那些被标 为可除去的像素点并不立即消去;在 第二步中,只将那些消除后并不破坏 连通性的点消除,否则保留。以上每 一步都是一个3*3邻域运算。细化是 将一个曲线性数字细化为一条单像素 宽的线,从而图形化地显示出其拓扑 性质.数字图像预处理方案前后效果比较如 下图所小图2. 2为数字“5”的原始 图像,图2 3为对图2.2預处理方案后的 结果图

11、。类似地,图24为数字“6” 的原始图像,图2.5为对图2.4预处 理后的结果图。/*. - : .-. - .图2. 2原始图像图2. 3预处理方案后图像图2-4原始图像图2一5预处理方案后图像2.2特征提取特征提取的目的是从原始数据中 抽取出用于区分不同类型的本质特 征。无论是识别过程还是学习过程, 都要对研究对象固有的、木质的重要 特征或属性进行量测并将结果数值 化,形成特征.矢通常能描述对象的元素很多,为 了节约资源,节省计算机存储空间、 姓理时间、特征提取的费用,仃时吏 是为了可行性,在保证满足分类识别 正确率要求的条件下,按某种准则尽 量选用对正确分类识别作用较大的特 征,使得用较

12、少的特征就能完成分类 识别任务。这项工作表格模板现为减少特征 矢量的维数或符号字符数。在本系统 中釆用对待识别数字图像谜行行列扫 描与数字起点结合的方法提取特征。2. 2.1结构特征的提取首先对经预处理方案后的图像进行分 割,精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】5/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】5/12如图工6所小。图图像分割对图像分割后,结陶特征提取的 算法如下:对细化后的数字图像取眼直的三 条直线,分别取在 5/12, 1/2, 7/12处,记F这三条 竖直直线与数字笔段的交点数.再取水平三条直线,分别取在 1/3,

13、 1/2, 2/3处,分别记下这二 条水平直线与数字笔段的交点 数,再取对角两条直线,分别记下这 两条对角直线与数字笔段的交点 数.2. 2.2笔划特征的提取经细化后的数字图像其特征较为 稳定,旦笔划简単,因此对其抽取的基 本结构组件能反映数字的本质特征, 从而可快速有效地识别数字符,并达 到较好的分类效果。数字端点如图2.7 所示,提取笔划特征的算法如下:(1)按从上到下,从左到右的顺序扫 描预处理方案后图像并选择黑像素点 P:计算像素F的8邻域之利*若N=l,则像素P为端点,端点计 数器加-;重或步骤-,直到遍历整个2.2.3数字的特征向量说明依掘上述特征提取由法,本系统中 的特征矢量山9

14、个分量组成,其排列如 卜所示;D.ATA=.竖仃屮线交成数, .竖直5/12处, 竖直12处, 水平屮线交点数, 水平1/3姓交点数, 水平2/3处交点数, 左对角线交点数, 右对角线交点数,精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/122.3理论知识库的建立由于本文采岀的是基于模式理论知识库的识别方法,所以对字符的结构特征的分析以及字符模型的构造是个 十分重要的环节,图2.8就是对识别 数字的标准形态进行具体分析而构造 的模板.精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实

15、现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/120/235678?图2M规范手写体数字形态精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12DAT啊=2, 2, 2, 2, 2, 2, 2, 2, 0: DATAL = 1, 0, 0, 1, 1, 1, 1, 1, 2: DATA2i=3, 3, 3,1,1,1,1,1,3; DATA3, = 3, 2, 3, 1, 1, 1,2, 2, 3: 1)ATA41= 1, 1, 1,2, 2, 1,3,

16、 2, 4; DATA5i = 3, 3, 3, 1, 1, 1, 2, 2, 4: DATA6, = 3, 3, 2,1,1,2, 3, 2,1;DATA7 =2r2r2r 1, 1, 1, 1, 1,2: 丄幻 2,0:DATA9i= 3. 3. 3. 1, 2, 1. 3. 1. 1。由于本系统是对自由手写体进行 识别,因而要考虑数字书写体的多变 性。通过对图2.9所示数字变体的分 析来对知讥犀进仃补充。精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12。員3次為9图2.9手写体数字变体

17、精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12lh2h2L1, 1, 1.3,2;I. 1,上3:3, 1.2. 2. 2:1. ;2, 2, 2:DATA0: = 11, 1. 2h 2DATA2: = 3,2DATA3,= 3, 1DATA4:=1.2DATA5: 3.3)ATAfla= 3, 1DATA8: = 4, 4, 4, 2, 1,2, 1,2,2;DATA9l= 3,匕&幻 1, 1, 3, 1, 3.最后得到理论知识库由上述两套模板一 * 邛土d = |勤_*|公式(2.

18、1)但在本次大纲中我们计算距离时 对上述公式进行了改进,对于可靠性 较高的端点数即最后一维特征值加大 了权重,改进后的距离计算公式如下:精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12.所组成,2.4本系统的模式识别方法在本次大纲过程中,我们选择了模板匹 配的识别方法。通过计算欧氏距离来衡量匹 配程度.本系统中的特征矢量有9个分量, 精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】6/12卩;计算

19、距浦公式如E精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】8/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】8/12d= |耳 f+3小_-I_公式(2. 2)在识别过程,分别计算待识别图 像的特征值与理论知识库中两个模板的距 离,与10个数字逐个比较,距离最小 的対应的数字就是最后识别结果,该精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】9/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】9/12图3.2选择对图像的各种操作.算法:H冇特征提取和模板建*.都比较 直观,时间复杂度低,易于实现等优 点

20、。其缺点是在建立理论知识库时需要进 行大量的训练,当理论知识库中的模板増 多时,特征矢量间的距离会减小。3 MATLAB程序大纲图3. 3图像取反本次大纲使用MATLAB语言实现 该系统,其用户界面分别介绍如下。读入图像,图3. 1读入图像读入图像的用厂界而如图3. 1 所小。图3.4平滑去噪对图像进行各种处理方案:图3”5二值化选择对图像的各种操作的用户 界面如图3.2所示,对图像取反的用 户界面如图3.3所示,对图像平滑去 噪的用戸界面如图3.4所示,对图像 进仃偵化操作的用户界面如图3.5 所示,对图像进行规范化处理方案的用户 界面如图3.6所示,对图像进行细化 操作的用户界面如图3.

21、7所示,精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】10/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】10/12图3.6规范化图3,7细化数字图像的识别:对手写体数字 进行识别的结果显示界面如图 3. 8所示,图3. 8识别结果显示在上述界面中,系统可根据用户 对识别结果正误的选择,自动计算识 别率,识别率结果显示在图像界面上 方:4实验结果及分析在实验过程中我们以两组样本作 为训练样本对理论知识库的参数进行调 整,这两组训练样本分别为100个规 范手写体样本和100个自II手写体样 本,规范手写体样本训练结果如表格模板4. 1 所示,自由手

22、写体样本训练结果如表格模板 4,2所示。表格模板4.1规范手写体训练结果数字类别正识祥本数误识样本数识别率0100100璃1100100%29190%3990%49190%59190%61007100100璃8100100%99190%合计95595%表格模板4. 2自由手写体训练结果数宇正识样误识识别率类别本数样本数0100100%1100100%28280%39190%49190%58280%6100100%精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】11/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】11/127100100%810010

23、0%99190%93793%在測试实验屮,我们以200个规 范手写体和200个自由手写体共两组 样本作为测试样本,识别实验结果分别 如表格模板4, 3, 4, 4所示。表格模板4. 3规范手写体识别实验结果数字类别正识样本数误讥样本数溟別率0200100%1200100%217385%31829鵬418290%517385%618290%7200100%819195%918290%合计1851592. 5%由上表格模板可以看出,本系统对规范的 手伸仃较好的识别效果,沮别率达 到 92.5%:表格模板4. 4自由手写体识别结果数字类别正识样本数误识样本数识别率019195%1200100%216

24、480%318290%418290%517385%618290%7200100%819195%917385%合计1821891山丨:表格模板所小,字符2和5的误识 率较高,常误识别为对方数字,对待 识别数字要求严格,这是由于它们的 标准特征向量距离较小,需要通过増 添标准库或参数调整对此情况进行改 进。5结论本文对自由手写体数字识别的基 本原理及方法作了介绍,并用 MATLAB工具实现了自由手写体数字 识别系统实验结果表格模板明,基于所用 结构模型和理论知识库的识别方法对规范 手写体数字是可行的,具有较高的识 别率及较好的抗噪性能,也可以识别 一定条件下的自由手写体数字。为了 提高识别率和町靠性,除了要增强对 噪声的滤除能力外,还要增大理论知识库, 以解决细化中出现的结构畸变问题, 这些都有待我们进步的研究。参考文献1张平等-matlab基础与应用简明精品文档合集:【精编汇总版】自由手写体数字识别系统的大纲与实现合集】12/12精品文档合集:【精编汇总版】自由手写体数字识别系统的大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论