已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)脱机手写体汉字识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 脱机手写体汉字识别研究对汉字信息处理自 动化, 对开拓新一代计算机的智 能输入有重要意义。 本文对脱机手写体汉字识别在专用领域中的应用, 即银行支 票大写金额汉字的手写体识别进行了探讨研究。 良 好的手写体汉字样本库, 是进行手写体汉字识别研究的必要条件。 字库包 含货币金额手写大写十九个汉字的样本, 它的建立为进行专用领域手写体汉字识 别系统的设计提供了可能。汉字集由 “ 零、壹、贰、叁、肆、伍、陆、柒、捌、 玖、拾、 佰、仟、万、亿、元、角、分、整”等字组成,与传统意义上的大数量 集的汉字识别有所区别,这为该课题的成功实施提供了可能性。 本文的主要研究内容为: 脱机手写体汉字识别的原理与方法, 汉字图像预处 理, 手写体汉字的分类识别, 神经网络在汉字识别中的应用, 常用脱机手写体汉 字识别系统方案设计。 文字识别的原理和方法介绍了文字识别领域采用的一般方法和策略基 于数学特征的统计决策法和基于结构特征的句法分析法。 汉字图像的预处理介绍 汉字识别之前必须进行的二值化、 平滑去噪、 细化、归一化等过程及方法。 汉字 识别的分类算法包括对汉字进行粗分类和细分类, 并相应地在识别上采用不同的 策略。 神经网络在汉字识别中的应用介绍神经网络算法, 设计了手写体汉字识别 所需要的b p 神经网络,并对所设计方案进行了 仿真和验证。 本文在汉字识别领域最新成果的基础上设计并开发了三级识别策略的汉字 识别系统。第一级,使用传统的投影一 变换系数法将待选字进行粗分。第二级, 使用笔画密度特征行细分。第三级,结合当前最流行的b p 神经网络算法对结果 进行最后的确认,最终输出结果。 关键词: 手写体汉字识别, 模式识别,统计决策法,结构分析法, 神经网络 ab s t r a c t t h e r e a e e a r c h o n o ff - l i n e h a n d w r i tt e n c h i n e s e c h a r a c t e r r e c o g n i t i o n i s q u i t e s i g n i fi c a n t f o r t h e a u t o m a t i c c h i n e s e c h a r a c t e r i n f o r m a t i o n p r o c e s s in g a n d i n t e l l i g e n t i n p u t o f t h e n e w g e n e r a t i o n c o m p u t e r . i n t h i s t h e s i s w e e n g a g e o n a f u r th e r s t u d y o n t h e a p p l ic a t i o n o f t h e o ff - l i n e h a n d w r i tt e n c h i n e s e c h a r a c t e r r e c o g n i t i o n i n t o a s p e c i a l f i e l d , i . e . t h e h a n d w r i tt e n r e c o g n i t i o n o f t h e f o r m a l c h a r a c t e r s o f c h i n e s e n u m b e r s i n t h e b a n k c h e q u e . a w e l l - e q u ip p e d s a m p l e c o l le c t i o n f o r w r i tt e n c h i n e s e c h a r a c t e r s i s o n e o f t h e e s s e n t i a l f a c t o r s o f c o m m e n c i n g t h e r e s e a r c h o n h a n d w r itt e n c h i n e s e c h a r a c t e r r e c o g n it i o n . t h e e s t a b l i s h m e n t o f c o l l e c t i o n w h ic h c o n t a in s t h e s a m p l e s f o r t h e 1 9 f o r m a l c h a r a c t e r s o f c h i n e s e n u m b e r s , m a k e s i t p o s s i b l e t o d e s i g n t h e h a n d w r i tt e n c h i n e s e c h a r a c t e r r e c o gni t i o n s y s t e m f o r s o m e s p e c i a l f i e l d s . t h i s c h a r a c t e r c o l l e c t i o n c o n s i s t s o f “ 零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、佰、仟、万、亿、 元、角、分、整, , w h i c h i s , t o s o m e e x t e n t , d i ff e r e n t fr o m t h e c h i n e s e c h a r a c t e r r e c o g n i t i o n in l a r g e a m o u n t in t h e t r a d i t i o n a l s e n s e . a l l t h e s e p r o v i d e f e a s i b i l i t i e s t o t h e s u c c e s s f u l i m p l e m e n t o f t h i s p r o j e c t . t h e m a j o r c o n t e n t o f t h i s t h e s i s i n c l u d e s : t h e b a s i c t h e o r y a n d m e t h o d s o f t h e o ff - l i n e h a n d w r i tt e n c h i n e s e c h a r a c t e r r e c o gni t i o n , t h e p r e - w o r k o f t h e c h i n e s e c h a r a c t e r i m a g e s , t h e c l a s s i f i c a t i o n a n d r e c o g n i t i o n o f h a n d w r i tt e n c h i n e s e c h a r a c t e r , t h e a p p l i c a t i o n o f n e u r a l n e t w o r k ( n n ) i n t o t h e o ff - l i n e h a n d w r it t e n c h i n e s e c h a r a c t e r r e c o gni t i o n , t h e d e s i gn f o r t h e u s u a l p l a n c o n c e rni n g o n t h e o ff - l i n e h a n d w r i tt e n c h i n e s e c h a r a c t e r r e c o g n i t i o n s y s t e m . a s f o r t h e b a s i c t h e o r y a n d m e t h o d s o f t h e c h a r a c t e r r e c o gni t i o n , t h e t h e s i s i n t r o d u c e s t h e g e n e r a l m e t h o d s a n d s t r a t e g i e s i n t h i s f i e l d o f o p t i c c h a r a c t e r r e c o g n it i o n ( o c r ) - - - - s t a t i s t i c a l - d e c i s i o n a l g o r i t h m b a s e d o n m a t h e m a t i c a l c h a r a c t e r i s t i c s o f c h a r a c t e r a n d s t r u c t u r e - d e c o m p o s i t i o n a l g o r i t h m b a s e d o n c h a r a c t e r i s t i c s t r u c t u r e o f c h a r a c t e r . f o r t h e p r e - w o r k o f t h e c h i n e s e c h a r a c t e r i m a g e s , t h e p r o c e s s e s a n d m e t h o d s o f i m a g e b i n a r y , r e m o v i n g t h e n o i s e s , i m a g e t h i n n i n g a n d 1 1 i m a g e s t a n d a r d i z a t i o n , w h i c h a l l a r e n e e d e d b e f o r e t h e c h a r a c t e r r e c o g n i t i o n , a r e i n t r o d u c e d . t h e c l a s s i f i e d a l g o r i t h m o f t h e c h a r a c t e r r e c o g n i t i o n i n c lu d e s t h e r u d e c l a s s i f i c a t i o n a n d p a r ti c u l a r c l as s i f i c a t i o n , w h i c h b o t h d e m a n d d i ff e r e n t s t r a t e g i e s i n t h e r e c o g n i t io n c o r r e s p o n d i n g l y . f o r t h e a p p l i c a t i o n o f n n i n t h e c h i n e s e c h a r a c t e r r e c o g n i t i o n , t h e n e u r a l n e t w o r k a l g o r i t h m i s a l s o i n t r o d u c e d . me a n w h i l e t h e b p n e u r a l n e t w o r k , r e q u i r e d b y t h e h a n d w r i tt e n c h i n e s e d e s i g n e d . b y i t t h e d e s i g n e d p l a n i s e m u l a t e d a n d t e s t i f i e d . r e c o g n i t i o n , i s on t h e b a s i s o f t h e l a t e s t i n t h e f i e l d o f ch i n e s e r e c o g n i t i o n , r e c o g n i t i o n a ch i n e s e c h a r a c t e r d e v e l o p m e n t r e c o g n i t i o ns y s t e m r e l y i n g o n t h e t h r e e - l e v e l e d s t r a t e g y i s d e v e l o p e d . o n t h e f ir s t l e v e l , t h e c h a r a c t e r s a r e r u d e l y c l as s i f i e d b y t h e t r a d i t i o n a l m e t h o d o f s h a d o w - c a s t in g -c o e f f i c i e n t t r a n s f o r m a t i o n . o n t h e s e c o n d l e v e l , t h e y a re p a r t i c u l a r l y c l a s s i fi e d a c c o r d i n g t o t h e c h a r a c t e r i s t i c s o f t h e s t r o k e s d e n s i t y . o n t h e t h i r d l e v e l , a ft e r i n t e g r a t i n g t h e m o s t p o p u l a r b p n e u r a l n e t w o r k a l g o r it h m , t h e r e c o g n i t i o n r e s u lt i s i d e n t i f i e d a n d o n 印 u t f i n a l l y . k e y w o r d s : h a n d w r it t e n c h in e s e c h a r a c t e r r e c o g n it i o n , p a tt e rn s t a t i s t i c a l - d e c i s i o n a l g o r i t h m , s t r u c t u r e - d e c o m p o s i t i o n ne u t r a l ne t wo r k r e c o g n i t i o n , a l g o r i t h m , i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:j 镶 日 期 : os6 一i 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、 使用学位论文的规定, 即; 东北师范大学有权保留 并向国 家有关部门 或机构送交学位论文的复印 件和磁盘, 允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内 容编入有关数据库进行检索, 可以 采用影印、缩印 或其它复制手段保存、 汇编学 位沦文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 日期: j 玄东 0了、 . i 指导教师签名: 日期: 学位论文作者毕业后去向: 工作单位; 通讯地址 : 电话: 邮编: 脱机手写体汉字识别研究 第一章、绪论 1 . 1 研究脱机手写体汉字识别的目的及意义 问题的提出 汉字识别的研究工作,一直被看作是十分困难的模式识别问题,并被视为字符识别 的最终目的。早在 1 9 2 9年,t a u s h e k 就在德国获得了一项有关 o c r的专利。欧美国 家为了将浩如烟海、与日 俱增的大量报刊杂志、 文件资料和单据报表等文字材料输入计 算 机进 行 信息处 理, 从5 0 年 代就 开始了 西文o c r ( o p t ic a l c h a r a c t e r r e c o g n it io n , 光 学字符识别) 技术的 研究, 以 便代替人工键盘输入。 汉字的识别最早可以 追溯到6 0 年代。 1 9 6 6 年, 旧 m公司的c a s e y 和n a g y 发 表了 第一篇关于印 刷体汉字识 别的 论文, 在这 篇论文中他们利用简单的模板匹配法识别了 , ,0 0 0个印刷体汉字。7 0年代以 来,日 本 学者做了许多工作,其中有代表性的系统有 , 9 7 7年东芝综合研究所研制的可以识别 2 0 0 0 汉字的单体印刷汉字识别系统;8 0 年代初期,日 本武藏野电气研究所研制的可以 识别2 3 0 0 个多体汉字的印刷体汉字识别系统, 代表了当时汉字识别的最高水平。 此外, 日 本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。 这些系统在方 法上,大都采用基于 k - l 数字变换的匹配方案, 使用了大量专用硬件, 其设备有的相当 于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。 我国对汉字识别的研究始于7 0 年代末、8 0 年代初,大致可以分为三大阶段: 第一阶段从7 0 年代末期到8 0 年代末期, 主要是算法和方案探索。 研究人员提出了 用于汉字识别的各种方法和特征,如特征点法、汉字周边特征、汉字的结构元特征等, 并在此基础上研究成功一批汉字识别系统。这一阶段是印刷体汉字识别成果倍出的时 期。 但是, 这些成果还仅仅停留在实验室阶段, 没有转化为产品来实际解决印刷体汉字 的自 动输入问题。 第二阶段是9 0 年代初期,中文o c r由实验室走向市场,初步实用,在实际的汉 字识别输入应用条件下, 检验和考查这些研究成果。 这一阶段形成了一些初步实用的印 刷汉字识别系统开始进入市场。 第三阶段也就是目 前, 主要是印刷汉字识别技术和系统性能的提高, 包括汉英双语 混排识别率的提高和稳健性的增强。 1 十年代后期, 计算机硬件资源发生了巨大的变化,为手写体汉字识别提供了相对 充分的研究环境。更为重要的是,从8 0 年代开始,汉字o c r 的研究开发就一直受到国 家 “ 8 6 3 计划”的很大资助,从而促进了许多o c r 重大成果的获得。物别是在手写体识 别方面,大量有关手写体o c r 方面的论文和系统见诸于世。到了1 9 9 2 年后,一些手写 体汉字识别系统逐渐向实用化发展。 脱机手写体汉字识别研究 由于汉字数量众多, 汉字识别问题属于超多类模式集合的分类问题。 汉字识别技术 可以 分为印刷体识别及手写体识别技术。 而手写体识别又可以 分为联机( o n - lin e ) 与脱机 ( o ff - l in e ) 两种。 从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中, 脱机手写体的难度又远远超过了联机手写体识别。 到目 前为止, 除了脱机手写体数字的识别己有实际应用外, 汉字等文字的脱机手写 体识别还处在实验室阶段。 手写体汉字识别一直是模式识别领域的难题,其原因是: 汉字数量巨大; 相似汉字 较多且有些相似字差别很小; 不同人书写风格不同, 且存在很多不规则书写。 手写体汉 字识别又分为联机识别和脱机识别两种,因脱机手写体汉字识别缺少书写时的信息, 例 如笔划、笔顺、压感等,其识别难度又远远大于联机识别。因此,人们把一 些方法应用 到小字符集手写体汉字识别中, 例如针对银行票据手写汉字的识别, 再扩展到整个汉字 集合的识别, 用以寻找识别率更高的方法。 本文即主要介绍目 前针对银行票据大写金额 ( 如图1 - 1 )的脱机手写体汉字识别的主要方法。 壹式若 匆子 孟 瓜体荞例水协零裕竹万么九角分整 伍肠束测砍希方佰什万朴怕角分垫 汰袖菜捌夜作方婚介为仍丙角材兔 如角分蟹 壹贰妻肆很陆桨翔从抢雷柏什币扣为角分笙 业贰渗肆在础装栩汰拾零泊计万忆元角分壑 左贰叁肆伍陆裂例玖拾容伯竹巧柑创角分整 壹式参肆住队笨翔双检零桶许万亿范角分秘 囊贰参碑任枯案刷砍洽容佰什万伪.几角分整 宜武叁肆伍队系捌议艘零杨抖万栖儿角分整 图1 - 1 脱机手写体银行票据大写金额汉字样本 2 脱机手写体汉字识别研究 1 .2研究目 的及意义 ( l ) 应用方面 汉字己有数千年的历史, 也是世界上使用人数最多的文字, 对于中华民族灿烂文化 的形成和发展有着不可磨灭的贡献, 并将继续发挥重要的、 其它文字形式难以取代的作 用。然而,汉字是非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速 高效地将汉字输入计算机,己成为影响人机交流信息效率的一个重要瓶颈。目前,汉字 输入主要分为人工键盘输入和机器自 动识别输入两种。 其中人工键入速度慢且劳动强度 大,这种方法不适用于需要处理大量文字资料的办公自 动化、文档管理、图书情报管理 等场合。自 动识别输入分为语音识别和汉字识别两种。汉字识别,也称光学字符识别, 即o c r 技术 ( o p t i c a l c h a r a c t e r r e c o g n i t i o n ),其基木原理就是通过输入装置 ( 如 扫描仪、光电藕合器件c c d 等) 将汉字点阵图形转换成电信号,然后输入给计算机进行 处理,计算机依据一定的分类算法在汉字字符集合中识别出与之相匹配的汉字。因此, 研究计算机识别汉字的目的就是解决汉字信息高速、自 动输入计算机的问题, 使计算机 能更方便快速地进行信息加工处理。 在以 下领域中i 具有广泛的 前途: 在 信 息 处 理 领域中 使 用 手 写 体 汉 字 识 别技 术可以 大大 提高 计 算 机的 使 用效 率。 随着计算机的发展,计算机进行信息处理的速度越来越高。与 此相适应的输出装置 的速度也大幅度提高。 然而, 作为计算机的输入手段特别是汉字字符的输入却没有多大 的改观,仍然停留在依靠人用手指敲击键盘,使计算机在大部分时间里处于闲置状态。 计算机的性能越好,人与机器矛盾就越突出,因此, 输入的低速度已成为计算机系统提 高使用效率的瓶颈,解决这一问题的出路就在于计算机自 动识别文字。 汉 字自 动 识 别是 计算 机 智能 接口 的 重 要组 成部 分。 汉 字自 动 识别 是 办 公自 动 化、 新闻出 版等 最理 想的 输 入方 法。 很 大 部分电 子文 献 是以 点 阵图 像 存 储 在计 算 机中 的 , 经过 汉 字识 别 后以 字 符 存 储,会大大节省存储空间,并提高网络等传输速度。 ( 2 )理论方面 汉字识别不但在实际应用方面十分重要, 在理论研究方面也有重大志义。 汉字字量 大,即模式类别很多,是大类别( 或者称为超多类) 模式识别问 题, 涉及到模式识别、图 像处理、数字信号处理、自 然语言理解、人工智能、模糊数学、信息论、中文信息处理 等多个学科,是一门综合性技术,在中文信息、办公自 动化、机器翻译、人工智能等高 技术领域,都有着重要的价值和意义。 二、 脱机手写体汉字识别的问题和困难 脱机手写体汉字识别研究 和所有模式识别系统一样, 脱机手写体汉字识别的主要性能指标是正确识别率和识 别速度,从实用角度看,还应考虑系统的复杂性、可靠性和价格等等。 对识别系统识别率和识别速度的要求,很难有一种统一的、 严格的标准, 主要根据 实际应用的需要来确定。 但是作为一种输入手段, 汉字识别系统的性能至少应该可以和 其它输入手段( 如人工输入) 相比 拟。 目 前由 专业人员操作的汉字输入的错误 率约为1 0 2 一1 0 -3 的量级, 输入速度最高达2 0 0 字 / m i n , 平均速度也在5 0 字/ m i n 以 上。 作为参考, 这些指标应该是汉字识别系统必须达到的最低要求, 在某些需要大量输入的场合 ( 如数 据库的建立)对识别系统性能的要求还应更高。 要达到上述要求困难较大,原因是由手写体汉字的特殊性决定的。 手写体汉字识别 的特殊性可归纳为如下几条: 字 量 大 目 前我国常用汉字约 3 0 0 0 - 4 0 0 0 个,国标 g b 2 3 1 2 - 8 0 两级汉字共 6 7 6 3 个汉字。也 就是说,汉字识别是种超大类别模式识别问题,而类别数越大,分类识别就越困难。 字体多 汉字的手写字体分楷书、行书和草书三大类,虽然不同字体的拓朴结构基本相同, 但笔画的长短、 位置及姿态却有一定的差别, 尤其是草书, 可能与楷书和行书根本就不 相似。 换句话说, 同一汉字的不同字体的字形点阵并不相同, 这给分类识别增加了难度。 结 构 复 杂 汉字笔画多,结构复杂,笔画最多的汉字有三十六画, 每个汉字平均有十一画, 这 对分类器的性能提出了较高的要求。 字 形 相 似 虽然有些汉字结构简单、 笔画较少, 但是字形十分相似, 如“ 人、入” 和“ 己、巳、 己”等,这就要求分类器能够区分非常精细的结构差别。 书 写 变 化 大 手写体汉字识别的最大难点在于由书写不同引起的模式结构的变形, 这种变形因人 而异,而且变形可能十分严重,主要有以下三点: ( 1 )笔画不规范,六种基本笔画横、竖、撇、捺、点和折在书写时出 现变形, 如横笔不平,竖笔不直,直笔画变弯,折笔画变弧,点和捺互变等等,笔 画粗细不匀也是不规范的现象之一。 ( 2 )笔画之间、偏旁部首之间相对位置不固定,如 “ 土”字的两横距离不定, 一竖则可能偏左或偏右,又如 “ 仟”字的单人旁和 “ 千”字边左右距离不 固定等等。 ( 3 )连笔书写或笔画粘连,这是手写汉字中常见的现象,连笔或粘连将导致汉 脱机手写体汉字识别研究 字的结构出现质的变化,是手写汉字识别研究中最难解决的问题之一。 以上三点使得手写体汉字识别成为 o c r研究课题中的难中之难,一些基本的方法 如模板匹配法在手写汉字面前根本无用武之地,一些统计特征变得很不稳定。总之,书 写变化大是脱机手写汉字识别系统至今不能达到实用的根本原因。 字 与 字 之间 相互 粘 连 这也是手写体汉字中常见的现象,字与字之间的粘连使得汉字分割成为o c r研究 中的一项富有挑战性课题。由于分割是o c r中非常关键的一步, 如果分割结果不正确, 识别就无从谈起。 正因为手写体汉字存在以上六个特殊之处, 手写体汉字识别被一些学者看成是模式 识别的最终目 标。 如果手写汉字识别系统能够达到实用阶段, 将标志着模式识别研究领 域达到了一个前所未有的新高度。 三、 脱机汉字识别技术研究现状及发展趋势 脱机手写汉字是汉字识别中最困难的问题之一, 如果对书写过程限制较多, 则不实 用;限制较少,则识别率较低。目前研究的重点有字形整形变换、多特征融合、多分类 器集成以及用于文本后处理的语言模型等。 也有人开始研究汉语词语的识别, 试图绕开 手写汉字单字识别的难点,但目 前看来只是一种探索。 脱机手写识别研究的一个趋势是转向应用研究, 应用于特定场合的脱机手写体汉字 识别系统陆续被研究开发,如邮政地址识别、 银行票据识别和古籍识别等。 但到目前为 止, 还没有一个性能稳定、抗干扰能力强、适应各种书写体情况的高效实用系统,因此 对于手写体汉字识别还有许多工作要做。目 前存在的主要问题有:手写体汉字的行、列 切分正确率仍有待于提高;在特征提取阶段,目前尚未找到一组适用于各种字体、笔迹 的特征向量;无法将自 然语言理解知识应用于后处理。由于汉字的特征向量维数较高, 将待识别汉字的特征向量同样本库中的海量模板匹配会占用很多识别时间, 因此如何提 高识别速度也是一个需要深入研究的课题。 另外, 我国对汉字识别成果缺乏标准的鉴定和评价依据, 而且尚未建立标准的手写 体汉字测试数据库和测试机制, 这使得目 前的研究成果无法进行比较和评判。因此建立 统一的手写体汉字字库,制定标准且完善的测试、 评价及鉴定体系对于脱机手写体汉字 识别的发展不仅是重要而且也是必要的。 针对脱机手写体汉字识别研究现状,以 下几个方面2 1 值得进一步的思考和研究, 也 为未来脱机手写体汉字识别研究提供了方向。 ( 一)加强手写体汉字切分的切分的研究。 目 前脱机手写体单字识别的识别率已有很大进展, 而汉字字符的分割越来越成 为走向实用的一大障碍。手写体汉字具有随意性,其字符大小、字间 ( 4 ) 以 词为单位的 切分法。 这些方法对自 由 手写体汉字的 重叠、 粘 连等情况的切分以及解决中英文、 数字夹杂的字符切分的效果均不是十分理想。因 此,如何有效地利用汉字的结构特征, 在汉字分割过程中融入部件识别、单字识别 和语义理解,以获得更好的分割性能是应该进一步深入研究的。 ( 二)构建小类别手写体汉字识别系统 根据现有条件, 先以小类别汉字识别为出发点,以实现专用的识别系统为短期 目 标。在小类别数汉字识别系统中,需识别的手写汉字类别数较少,如银行票据、 支票、账单等单字的大写金额自 动识别;“ 人名”中姓氏的自动识别等等。目 前许 多研究者试图以一些专用系统为突破口, 力争尽早地将脱机手写汉字识别技术推向 实用。 ( 三)改进特征选择与提取的方法以及单分类器设计方法 手写体汉字识别的关键之一在于怎样快速地抽取能充分描述汉字模式的稳定 可靠的特征,良好的特征应该使同一种汉字的不同书写样本之间的差异性尽可能 小,而在不同汉字之间的差异性尽可能大。目 前大部分的特征提取方法是基于经验 之上, 缺乏严密合理的理论指导。 特征提取实际是一种将汉字图像转换到高维特征 空间的变换,从而使不同类别的汉字更加具有可分性,以便于模式分类和识别,寻 找更好的变换仍然是研究中需要探索的问题。 另外, 如何挖掘脱机手写汉字中残留 的联机信息,以增加可用信息来源, 这也是值得深入研究的。实践表明要取得好的 识别效率,很重要的一点在于特征与分类器的匹配。 分类器通过其拓扑结构和内置参数定义了特征空间上的一族曲面, 由这族曲面 将特征空间划分为不同的类, 从而达到分类的目的。 手写体汉字图像的特征空间分 布十分复杂, 目 前还没有找到完全可分的特征映射及相应曲面。 在单分类器设计时, 期望能提出一种评价样本空间分布复杂性的度量, 而且能随样本空间分布不同调t j 自 身结构的分类器。 ( 四)利用信息融合技术实现多特征的组合与多分类器的集成 手写体汉字识别是一个非常复杂的多模式识别问题, 多年研究实践表明, 单一 方法的效果是有限的, 采用多方法的有机组合, 应用信息融合技术, 使其优势互补, 走多特征组合、多方案集成的道路,是手写体汉字识别的一个发展趋势。由不同的 原始特征向量合成新的特征向量将有利于增强特征向量的分类能力, 新特征保留了 参与融合的单个特征对各个类别的有效鉴别信息, 在一定程度上消除了多个特征之 间的信息冗余,实现了可观的信息压缩,有利于信息的实时处理。 基于单个识别器 原理不能从根本上提高系统性能,应依靠多个识别器的识别结果的集成来解决问 题。各种方法有其自 身的特点和优点,亦有其局限性,能否将不同的方法有机地结 合在一起, 以及如何解决好集成的策略问题和层次问题, 是有待进一步深入研究的。 ( 五)以反馈的思想重新架构识别系统 脱机手写体汉字识别研究 单向的汉字识别流程不完全符合人类心理认知过程, 虽然在心理学和生理学方 面对人脑认字的原理还缺乏系统的研究, 但很显然人们在辨认一个模糊不清的字符 时,常会反复地琢磨, 这意味着人类心理认知应是一个含有反馈的过程。所以有人 提出了一种基于反馈的手写体字符识别方法, 虽然应用面还不是很大, 但该方法为 手写体汉字识别指出了一条可尝试的新途径。 ( 六)基于知识和语言模型的汉字识别 目 前在手写汉字识别中, 知识的利用都是局部和不连贯的, 如何综合有效地利 用多种知识, 注意其间的互补, 将其全面而连贯地应用于手写体汉字识别中,是值 得深入研究的。 透彻研究自 然语言理解的过程, 建立恰当的语言模型,用它进行后 处理,是对模式识别的有力补充, 也是进一步提高识别性能的关键。 单个字的机器 识别能力是有限的, 近年来基于语言知识的集群识别是手写体汉字识别的 一 个发展 趋势。 以上都是解决脱机汉字识别系统问题的方法, 也是汉字识别技术今后发展应该注重 的方向。 四 、 4 . 1 、j、j飞 11,白今j 厂了t、产 、,、1 月峪行j 护f、 ( 6 ) 4. 2 论文研究的主要内容和取得的成果 论文研究的主要内容其组织结构 绪论,介绍脱机手写体汉字识别的研究背景,论文研究的目的和意义, 脱机手写体汉字识别的问题及困难,以及其发展趋势等。 脱机手写体汉字识别的原理与方法, 讲述该领域使用的一般方法与策略。 汉字图像预处理,介绍汉字识别之前必须进行的二值化、平滑去噪、细 化、归一化等过程及方法。 手写体汉字的分类识别,讨论了汉字识别的粗分类和细分类方法,以及 特征提取算法、模式识别策略。 神经网络在汉字识别中的应用, 介绍神经网络算法, 并利用b p 神经网络 对汉字识别进行了仿真实验。 常用脱机手写体汉字识别系统方案设计,介绍笔者所设计的识别系统方 案,并对各功能模块进行详细的说明。 取得的成果 针对神经网络在小类别模式识别中的成功应用, 我们提出了一个基于多算法 集成及神经网络的汉字识别系统的设计方案,并用v c + + 完成了系统集成。 对识别系统预处理模块中的一些功能如二值化、 平滑去噪、细化、图像归一 化进行了编程实现。 对粗分类器和神经网络分类器所需的汉字特征进行了编程以实现其各自 特 征值的提取。 介绍了b p 神经网络算法,并编程实现了b p网络训练过程。 7 、.2 ,.2 j了j了、 、.护 ,j4 厂jf 脱机手写体汉字识别研究 ( 5 )对所设计的识别系统进行了汉字识别仿真实验,并对实验结果进行了分析。 在此基础上,提出了此系统的一些不足及改进措施。 脱机手写体汉字识别研究 第二章、脱机手写体汉字识别的原理与方法 一、脱机手写体汉字识别的原理 脱机手写体汉字识别的基本过程如下: 书写在纸张上的手写体文稿通过前端数字化 输入装置( 如扫描仪) 转化为一个二维点阵图像, 由预处理阶段对所得图像作相应处理, 识 别阶段首先提取汉字图像的特征, 然后根据特征对待识别汉字进行分类判别, 后处理阶段 利用相关信息和语言 知识, 对识别的文字进行校正或对拒识文字进行推w q , 以得到最终的 识别结果。其识别过程如下图所示: 图2 - 1 脱机手写体汉字识别系统框图 nu,10cu on,上00 0八ulun 畜皿口.卜口.二,皿1皿 on丫,止00 n介010八11 00).ln甘八u 图2 - 2 二值点阵图“ 十”字 如图2 - 1 所示,由数字化仪器扫描的手写体文字,经模数转换成具有一定灰度值的 数字采样信号送入计算机,预处理环节一般包括消除噪声,二值化,行字切分、平滑、 归一化,进行线性或非线性变换等。经过预处理的文字成为规范化的二值点阵信息( 如 图2 - 2 ) , 其中“ 1 ” 表示笔划部分, 0 ” 表示背景部分。 对于二值化点阵, 按照识别方法的要求, 抽取代表该字的特征,并与存贮在计算机 中己知标准文字的特征进行匹配判别, 找出字典特征集中与输入文字特征最接近的一个 文字,这个字被认为是该字的识别结果。 脱机手写体汉字识别研究 二、汉字识别方法概述 上文提到, 汉字识别是模式识别的一个分支, 而模式识别方法基本上分为统计决策 法和结构识别法两大类。 结构识别法是以同类模式具有相似结构为基础的识别方法。 所谓结构是指组成一个 模式的基本单元( 简称基元) 之间的关系。 例如, 拼音文字的基元是字母,若干个字母按 一定规律组成一个单字。 在识别某一个单字时, 如果能判别组成这个字的各个字母以及 它们的 ( 结构) 关系, 就可以 识别这个字。 基于这种原理, 拼音文字的识别系统中的“ 字 典” 应包括字母,以及由字母组成单字的规律。 在对某一个单字进行识别时,则应先提 取构成这个单字的字母并分析它的结构, 然后将它跟字典中所有己知单字的基元及其结 构关系逐个加以比较, 就可以确定待识单字和哪一个己知单字属于同一类别。 这种识别 方法跟英语句子的语法分析相似,因而有时也称之为 “ 句法识别法” 。 模式识别的另 一 种方法是统计决策法。 这是以同类模式具有相同属性为基础的识别 方法。 用来描述事物属性的参量叫做特征, 它可以通过对模式的多个样本的测量值进行 统计分折后按一定准则来提取。 例如:在汉字识别系统中,我们可以把每个汉字的图形 分为若千小方块 ( 图2 - 3 ) ,然后统计每一小方块中的黑像素,构成一个多维特征矢量, 作为该汉字的特征。 必须注意的是: 在选择特征时, 用于代表各类模式的特征应该把同 类模式的各个样本聚集在一起,而使不同类模式的样本尽量分开,以保证识别系统能具 有足够高的识别率。 图2 - 3 用统计法提取方块汉字的统计特征示意 上述两种识别方法各有特点。结构法比较直观,能较好反映事物的结构特性;问题 是基元的提取很不容易, 各基元的关系也比较复杂, 抗千扰性能也较差。汉字的结构复 杂、字数又多,采用结构法很难得到很好的效果。统计法利用计算机来抽取特征,比较 方便,抗干扰性能较好;缺点是没有充分利用模式的结构特性。近 1 0多年来我们把这 两种识别方法结合起来,派生出各种行之有效的结构法同统计法相结合的模式识别算 法,取得了很好的效果。 近 加 多年来,人工神经网络的研究取得了很大的进展。理论和实践都表明,人工 神经网络特别适用于模式识别。由于人工神经网络的工作机理与冯 诺依曼计算机有所 不同,因此有的学者把人工神经网络作为模式识别的第三种方法。除此之外, 有的学者 还成功地把模糊集合的概念和知识推理方法引入到模式识别技术中。 各种方法的结合己 脱机手写体汉字识别研究 成为模式识别今后发展的一个重要方向。 脱机手写体汉字识别有其特殊性, 预计把多种方法结合使用将是脱机手写体汉字识 别的有效方法。 2 . 1统计决策方法 一般来说,可以从输入的文字中,测得 n个特征,这 n个特征中,每个集合可以 考虑成 一 个向量, 称为特征向量。 所谓分类问题就是将特征空间中每个可能的向量指定 到一个模式类中去。 2 . 1 . 1定点采样方法 用( i , l ) 表示文 字点阵的 坐标, 用f ( i i j ) 表 示该点的 灰 度值, 如果字的笔 道通过f i i) 点 则f (i l p - 1 ; 如果 字的 笔 道不 通 过(i l 帕 , 则f ( i i j ) - o 这 样, f (1 , 卿 值 就 可以 用 来 区分k , k 两个字。 2 . 1 . 2相关法 上面所说的定点采样方法过于理想化了,只要输入文字稍有变形或移动,即使该点 附近存在正确的特征点,判断仅仅依据一点来进行, 会产生误判,甚至印刷质量好的文 字,也会出现较多的误识。如果我们不是仅仅根据某几个采样点,而是将一个 n x n的 正规化文字点阵 作为字典 特征, 也就是说, 如果把字 种k 的 笔 划点阵 集合。 k ( 1 , j ) 作 为 特 征向 量的 一个集合, 输入字的点 阵为f l i j ) , 计算 艺f ( i j) x w k (ii j) 这个值越大,说明一致性越好。 将上述分类思想予以抽象,从数学上 来说,分类问题可以借助于 “ 判别函数”来进 行,设用。, ,6 3 2 ,,(.) m ,表示需要加以识别的m个模式类,并且令 ( 2 - 1 ) 表 示 特征向 量, 其中xi 作 为 第i 个 特征的 度量, 用马 (- a示 与 模 式 类。 j ( j = 1 , 2 , m)相联系的判别函数,那么如果特征向量x所表示的输入模式在。 : 中,记为x w ,; 则d ; ( x )的值必须最大,即对于所有的x 脱机手写体汉字识别研究 d ; ( x ) d i ( x ) i = 1 , 2 ,, m , i # j ( 2 - 2 ) 与 类。 , ,曰 相 联 系 的 区 域 之间 的 边 界 , 称为 判 决 边 界 由 下 述 方 程 表 示: d ; ( x)一 d i ( x ) = 0 ( 2 - 3 ) d ; ( x ) 可以 选择满足式( 2 - 2 ) 的各种不同形式的判别函数, 在文字识别中 经常用到 下节将要讲到的几种重要的判别函数。 2 . 1 . 3最小距离分类器 最小距离分类器是线性分类器。 它以输入文字与一些参考向量或者特征空间中一些 模型点之间的距离作为分类准则。 假定给出二 个参考向量: g g 2 ,, g m ,关于g g 2 ,., g r , 最小距离分类方 案是当 ix - g ;l= m i n 时, x - w ; 。 设x表示输入未知 文字的 特征向 量x = ( x i ,x 2 , . . . ,x m ) , g 表示 字典中 某一 标 准文 字的向 量g = ( 9 1 , 9 2 , . ,g m ) 。 在模式 识别中 经常 使用下 述距离: ( 1 )明考夫斯基距离 d ( x , g ) 一 艺ix , 一 g i r “ “ ( 2 - 4 ) 当q
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年建筑项目拆迁施工合同
- 小学数学七巧板教学活动方案
- 物业公司客户关系管理方案
- 公路建设项目管理方案汇编
- 幼儿园新春节日活动组织方案
- 档期定金合同范本
- 透水混凝土劳务合同范本
- 长期供货采购合同范本
- 铝氧化合同范本
- 2025年工业设备互联安全审计实施指南报告
- 幼儿园洋葱讲解
- 口腔诊所宣传简介
- 2025年人工智能2.0时代的人才培养和通识教育课程建设报告
- 商场多经管理办法
- 石油化工行业:全球油气公司资本开支和发展战略240920东吴证券1183mb
- 会议管理课件创新实操
- 企业合同法实务课件
- 2025年初中英语教师课程标准考试模拟试卷及参考答案
- DB37∕T 5302-2024 既有城市桥梁现场检测及承载能力评估技术标准
- 4输变电工程施工质量验收统一表式(电缆工程电气专业)-2024年版
- 公司运维项目管理制度
评论
0/150
提交评论