(计算机应用技术专业论文)基于动态粗外围方向线素特征的脱机手写汉字识别.pdf_第1页
(计算机应用技术专业论文)基于动态粗外围方向线素特征的脱机手写汉字识别.pdf_第2页
(计算机应用技术专业论文)基于动态粗外围方向线素特征的脱机手写汉字识别.pdf_第3页
(计算机应用技术专业论文)基于动态粗外围方向线素特征的脱机手写汉字识别.pdf_第4页
(计算机应用技术专业论文)基于动态粗外围方向线素特征的脱机手写汉字识别.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 汉字数目庞大、结构复杂,手写汉字的形状千差万别、风格各异,这使得手写汉字 识别成为当前一个研究难点。目前,脱机手写汉字识别还处于发展阶段,现有的o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,光学字符识别) 技术对其进行处理的可靠性和准确性都 难以满足实际需求。因此,加强脱机手写汉字识别的研究显得尤为必要。 本文提出了一种动态提取粗外围方向线素特征进行脱机手写汉字识别的方法。针对 汉字字符集庞大的情况,采用粗分类细识别的两级分类策略。提取汉字的四边笔画密 度特征,采用r b f ( r a d i a lb a s i s 如n c t i o n ) 神经网络对手写汉字进行粗分类。对手写汉字 图像进行动态划分,在划分的水平和垂直区域内从图像的上、下、左、右四个边界向汉 字内部延伸,在笔划边缘处提取粗外围方向线素特征和加权次外围方向线素特征,形成 用于识别的粗外围方向线素特征,利用基于城区距离的最小距离分类器进行细识别。通 过对各种手写汉字样本进行实验验证了该方法的有效性。 关键词脱机手写汉字识别动态划分粗外围方向线素粗分类 a b s t r a c t a b s t r a c t d u et oe n o r m o u sn u m b e r s ,c o m p l e xs t r u c t u r eo fc h i n e s ec h a r a c t e ra n dv a r i o u ss t y l e so f h a n d w r i t t e nc h a r a c t e r , t h er e c o g n i t i o no fh a n d w r i t t e nc h i n e s ec h a r a c t e rb e c o m e sad if f i c u l t y i nr e s e a r c h a tp r e s e n t ,t h er e c o g n i t i o no fo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e ri ss t i l li n d e v e l o p m e n ts t a g e ,a n dt h er e l i a b i l i t ya n da c c u r a c yo ft h ee x i s t i n go c r ( o p t i c a lc h a r a c t e r r e c o g n i t i o n ) t e c h n o l o g ya r ed i f f i c u l tt om e e tt h ea c t u a ld e m a n d t h e r e f o r e ,i ti sp a r t i c u l a r l y n e c e s s a r y t oe n h a n c et h er e s e a r c ho fo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n i nt h i sp a p e r , w ed e s i g nan e wm e t h o db a s e do nd y n a m i cg r o s sp e r i p h e r yd i r e c t i o n a ll i n e e l e m e n tf e a t u r ef o ro f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o n t w o - s t a g e c l a s s i f i c a t i o ns t r a t e g yi se m p l o y e di nt h er e c o g n i t i o ns y s t e mf o rh u g ec h i n e s ec h a r a c t e rs e t e x t r a c tf o u r - s i d es t r o k ed e n s i t yf e a t u r ef r o mt h ec h a r a c t e ri m a g ea n du s er b f ( r a d i a lb a s i s f u n c t i o n ) n e u r a ln e t w o r ka st h ec l a s s i f i e ri nc o a r s ec l a s s i f i c a t i o n t h eh a n d w r i t t e nc h i n e s e c h a r a c t e ri m a g ei ss e g m e n t e dd y n a m i c a l l y , a n dg r o s sp e r i p h e r yd i r e c t i o n a ll i n ee l e m e n t f e a t u r ea n dh y p o - g r o s sp e r i p h e r yd i r e c t i o n a ll i n ee l e m e n tf e a t u r ea r ee x t r a c t e d w eu s e m i n i m u md i s t a n c ec l a s s i f i e rb a s e do nu r b a nd i s t a n c ei nf i n er e c o g n i t i o np r o c e s s t h e e x p e r i m e n t so nd i f f e r e n ts a m p l e ss h o wt h a tt h em e t h o dp r o p o s e di nt h i sp a p e ri sf e a s i b l e k e yw o r d s o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n d y n a m i cp a r t i t i o ng r o s s p e r i p h e r y d i r e c t i o n a ll i n ee l e m e n tf e a t u r ec o a r s ec l a s s i f i c a t i o n n 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了致谢。 作者签名: 鉴i 量盎日期:近年厶月三日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密矿 ( 请在以上相应方格内打靠”) 保护知识产权声明 本人为申请河北大学学位所提交的题目为缚渊劲咖秣狠劝懈砘;踢7 的学位论文,是我个人在导师( 罚磋系) 指导并与导师合作下取得的研究成果, 研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费 资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定 的各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人: 鸯 l 唔 日期:堡! 年上月二日 作者签名:垄! 兰鲞 导师签名:塑受鱼! 日期:竺兰! 年月上日 日期:至12 年月l 日 第1 审引言 1 1 研究背景及意义 第1 章引言 随着信息技术的高速发展,尤其是网络的同益普及,电子信息的交流与共享变得越 来越频繁,因此,各类纸质文档的数字化成为信息化社会的迫切要求。文字识别技术是 模式识别领域的一个重要分支,近年来,印刷体汉字识别和联机手写体汉字识别的研究 取得了重要的研究成果,而脱机手写汉字识别技术虽然取得了一些进展,但离实用尚有 一段距离。 报表、办公文档、信件、证件以及银行票据中往往含有大量手写信息,如何将这些 手写信息高速有效地输入计算机,成为一项亟待解决的难题。我国汉字字符集庞大、结 构复杂、相似字多,加上手写体汉字书写不规范、随意性大,普遍存在笔i 画变形等情况, 这些特点给手写汉字识别带来了巨大的困难。相对于联机手写汉字识别,脱机手写汉字 识别缺乏汉字的笔画和笔顺等实时信息,这在一定程度上加大了手写汉字识别的难度。 因此,脱机手写汉字识别的研究是汉字识别领域的一个重要课题。 综上所述,脱机手写汉字识别的研究可以拓宽o c r 技术应用领域,对汉字信息处 理自动化及开拓计算机智能输入接口具有重要的理论意义和实用价值。 1 2 国内外研究现状 自从i b m 公司的c a s e y 和n a g y 于1 9 6 6 年首次发表关于汉字识别的文章以来,汉 字识别取得了很大的进展【i 】,经过国内外很多研究工作者的努力,提出了很多理论和研 究方法。然而,脱机手写汉字识别方面的研究尽管已经开展了许多年,产生了很多有价 值的思想和方法,但还无法满足实用的要求,是一项待研究、待发展的技术。 国外对手写字符识别的研究相对较早,在特征提取以及分类器选择方面产生了很多 有意义的研究成果。嘶一2 1 和l e u n g 等人【3 1 对脱机手写汉字识别的特征提取进行了深入 研究,针对不同文字类型详细说明了特征提取方法,为以后进行汉字识别方面的研究打 下了基础。k a t o 等人凹对手写汉字变形样本进行部分倾斜矫正,并提出将方向线素特征 1 河北人0 乏i :学硕l j 学何沦文 应用到手写汉字识别中,实验取得了良好的效果。l o u d o n 等人【5 】将像素密度与隐马尔 科夫模型结合来识别手写汉字。s u 和、a n g 围提出了一种基于方向滤波的笔画特征提取 方法,利用滤波器组将汉字分解成不同方向的特征,采用优化处理除去笔画中的冗余的 信息,得到稳定的笔画信息。h u o 和h a m a m o t o 等人【7 8 】将g a b o r 特征应用到脱机手写 汉字识别中,实验表明其效果优于传统的统计特征。l i u 9 】等人利用汉字的结构特性, 提取笔划进行匹配的方法得到了较好的结果。 国内对脱机手写汉字识别也取得一定的进展。通常脱机手写体汉字识别系统分为四 个阶段:预处理、特征提取、分类识别及后处理。高彦宇和杨扬【io 】简要介绍了识别系统 各个阶段主要采用的方法,并阐述了各种方法的优缺点,同时提出了一种将支持向量机 有效地用于解决多分类问题的策略。何志国和曹玉东【j 分析了影响脱机手写汉字识别性 能的主要方面,包括规范化方法、特征提取方法及分类方法,并给出了每种方法的适用 条件。此外,许多文献将模糊理论引入到手写汉字特征提取算法中,取得了较好的效果。 比如:对手写汉字图像提取模糊方向线素【1 2 - 1 4 1 或模糊方向特征1 5 , 1 6 】,较好的解决了手写 体汉字识别中的变形问题。许多文献【1 7 , 1 8 1 将隐马尔可夫模型和支持向量机引入脱机手写 汉字识别。利用数学变换,比如:g a b o r 变换【1 9 2 0 1 和小波变换【1 2 1 】提取手写汉字特征也 都取得了令人满意的效果。由于抽取单一种类的特征进行识别,抗干扰性较差,文献 【1 5 ,2 0 2 3 采用了特征融合技术,将多种互补的特征提取方法结合以获取优化特征。弹 性网格特征【2 4 之7 】也被广泛应用到手写体汉字识别,不对汉字进行非线性归一化处理,直 接进行特征提取,识别率稳定。同时,利用提取手写汉字图像的基本笔段【2 8 2 9 】来进行识 别同样取得了较好的效果。支持向量机( s v m ) 是近年来发展起来并成功的用于模式分类 的新型机器学习方法【3 0 3 1 1 ,实验表明利用支持向量机识别脱机手写体汉字问题上有较高 的分类精度和速度。 总之,经过多年来国内外研究工作者的努力,在脱机手写汉字识别领域产生了许多 有价值的理论及研究方法,但由于脱机手写汉字的复杂性,仍然有很多实质性的问题亟 待解决。 1 3 本文工作与组织结构 本文针对脱机手写汉字识别进行研究,提出了一种动态提取粗外围方向线素特征进 2 第1 章引言 行脱机手写汉字识别的方法。由于汉字字符集庞大,本文采用粗分类细识别的两级分 类策略进行识别。粗分类特征采用四边笔画密度特征,利用r b f ( r a d i a lb a s i sf u n c t i o n ) 神经网络进行粗分类。细识别特征采用动态粗外围方向线素特征,利用基于城区距离的 最小距离分类器进行识别。 全文的组织结构概括如下: 第l 章引言。简要介绍脱机手写汉字识别的研究背景和国内外研究现状,并对本 文的主要研究内容进行简要阐述。 第2 章脱机手写汉字识别系统。介绍脱机手写汉字识别系统的组成,分析脱机手 写汉字识别研究中的难点问题。 第3 章特征提取。本文对脱机手写汉字识别采用两级分类策略,即先粗分类再细 识别。首先简要介绍脱机手写汉字粗分类特征提取;其次,详细说明手写 汉字细识别特征的提取方法。 第4 章手写体汉字的分类识别。采用两级分类策略对手写体汉字进行识别,粗分 类采用r b f 神经网络的方法;细识别利用最小距离分类器来实现。 第5 章实验过程及结果分析。简要介绍识别系统的各个功能界面,对各种手写汉 字样张进行实验,并对实验结果进行分析。 第6 章结论与展望。对所做的研究工作进行总结,并对今后的研究工作提出建议。 河北人学l :学硕十伊沦文 第2 章脱机手写汉字识别系统概述 汉字识别可分为印刷体汉字识别和手写体汉字识别。根据输入方式的不同,手写汉 字识别可分成联机手写汉字识别和脱机手写汉字识别两类。由于缺乏实时的笔划、笔顺 信息,脱机手写汉字识别在一定意义上说要难于联机手写汉字识别,经过多年来科研人 员的努力,印刷体汉字识别以及联机手写汉字识别已有产品出现,达到了实用的水平。 而脱机手写汉字识别,目酊尚未有成熟产品出现,是一项极具潜力的研究内容。 2 1 脱机手写汉字识别系统的组成 脱机手写汉字识别系统大致可以分为图像输入、预处理、识别和后处理四个阶段, 如图2 1 所示。每一阶段都有明确的分工任务,任何一个阶段性能的优劣都会对整个识 别系统产生影响。 毕 输入装置 t 预处理 一一一一一识另u 核心- - - 一1 图2 1 识别系统流程图 第2 章脱f j 【手下了汉字识圳系统概述 图像输入是通过光电设备,比如扫描仪或数码相机,将纸质文档内的手写汉字转化 成原始的二维图像点阵。 手写体汉字图像的预处理一般包括去噪、二值化、切分、平滑及规范化等处理。手 写汉字的变形问题是影响手写汉字识别系统性能的主要原因,目前,已经有很多通过预 处理矫正手写汉字变形的方法,以减少同一文字不同样本间的差异 特征提取和分类判别是整个识别系统最重要的部分,提取稳定的、能区分各个类别 的特征和设计性能良好的分类器,直接决定系统的识别性能。其中,特征的选择是设计 识别系统的关键,手写体汉字识别系统的性能很大程度上依赖于所提取的特征。优良的 特征应该使同一汉字的不同样本差异尽可能小,而与其他样本差异尽可能大。同时应该 消除特征向量内部的相关性、去除冗余特征,从而提高识别的正确率。 分类器的设计也是研究的重点之一,分类器的好坏直接影响到系统的识别性能,各 种分类器都有自身的优缺点,需要依据处理的字符集大小和系统性能的侧重点等因素, 设计出合适的分类器。汉字数目庞大,直接进行识别时问开销过大,因此,通常采用粗 分类细识别的两级分类策略来解决多类别问题。 后处理是利用一些语言模型对识别后的汉字进行语法、语义等分析,从而纠正在识 别过程中容易产生的错误,进一步提高系统识别结果的正确率。 2 2 脱机手写汉字识别中的难点 汉字种类繁多、结构复杂,再加上手写汉字风格各异,变形严重,这些都给手写汉 字识别带来很大的困难。因此,脱机手写汉字识别的难点集中表现在以下几个方面【3 2 】: 1 汉字数量大。我国常用汉字为3 0 0 0 4 0 0 0 个,国标g b 2 3 1 2 8 0 中一级字库有3 7 5 5 个汉字,国标二级字库有6 7 6 3 个汉字。因而,汉字识别问题属于多类别模式识别问题, 而类别数越多,分类识别就越困难。 2 汉字结构复杂。汉字由笔画组成,平均每个汉字的笔画数为1 1 ,笔画最多的汉 字有3 6 画,笔画的多少反映了汉字的结构复杂程度。如图2 2 所示。汉字复杂的结构 使得书写过程中可能会出现一些连笔和笔画重叠不清等问题,给识别带来一定困难。 河,i 匕人学。| 。学硕i j 学f 沦文 藕瞳咳愚蠢 图2 - 2 复杂结构的字样 3 相似字较多。虽然有些汉字的笔画较少,结构简单,但是有时与其他汉字之间 仅仅是一笔或一点之差,字形极其相似。常见的相似汉字如图2 3 所示。 大太大披扳刀刁折獬 图2 3 相似汉字 4 。手写汉字的随意性引起汉字图像的变形是手写体汉字识别最大的困难,不同的 人有不同的书写习惯,通常这些无规律性体现在以下几个方面: 第一,基本笔画发生变化,横不平,竖不直,折笔的拐角变成弧。 第二,笔画模糊,笔画之间的连接关系发生改变,该连的没连接,不该连的却连接。 第三,笔画的倾斜度、长短、粗细,部件的位置等发生变化。 以上这些特点给手写汉字识别带来了很大的困难,是脱机手写识别中最难解决的问 题。 除了上述一些因素外,扫描仪性能的优劣、纸张质量的好坏等都对脱机手写汉字的 识别有一定的影响。 第3 章脱机手弓汉宁的特征提取 第3 章脱机手写汉字的特征提取 特征提取是手写汉字识别的一个重要阶段,特征提取的优劣直接影响系统的识别速 度及正确率,因此,特征提取是脱机手写汉字识别的核心部分。我国汉字数目庞大、类 别众多,若直接将未知汉字图像的特征向量与字典全部特征向量逐一匹配,时间丌销必 然很大。因此,本文采用粗分类一细识别的两级分类策略。粗分类特征采用四边笔画密 度特征。四边笔画密度特征提取简单,特征较稳定,并且四边笔画密度特征只有四维, 这使得粗分类字典容量小,符合粗分类的要求。其次,本文对手写汉字图像提取动态粗 外围方向线素特征及加权次外围方向线素特征作为细识别特征。动态粗外围方向线素特 征一定程度上缓解了手写变形问题,考虑了手写汉字图像的外部结构及内部特性,具有 较好的区分能力。为了保证特征提取的有效性,本文在特征提取之前对手写汉字图像进 行大小规范化和平滑处理 3 1 预处理 3 1 1 大小规范化 由于书写风格的不i 司,每个人书写的汉字大小不一,而系统中只存有一种规格的标 准字典,这就需要将不同大小的手写汉字图像变换成为相同的尺寸。所以,本文在特征 提取前对要处理的手写汉字图像进行大小规范化3 3 1 。 本文将手写汉字图像归一化为6 4 x6 4 的方阵。设( ,3 o ) 为原图像中的某个点, ( 葺,m ) 表示新图像中对应的点,则两者之间的变换如式( 3 - 1 ) 所示: 台施 p t , 展丌可得 胪x i = f x 协 x o ( 3 - 2 ) 河北人学f i 学硕i j 学f 节论文 其中六和工分别为原图像在x 轴和y 轴方向上的缩放比例,由于系统中将汉字归一化 为6 4 x 6 4 的方阵,所以缩放比例为 f j = 卅6 4 ,日w 仔3 , 其中,w 和h 分别为原汉字图像的宽度和高度。规范化前的原图像和规范化后的结果, 如图3 1 所示。 3 1 2 平滑 中碾片 ( a ) 原文字图像 中碾片 ( b ) 规范化后的图像 图3 1 规范化处理前后的图像 平滑【3 4 1 处理的目的是去除孤立噪声,平滑手写汉字图像笔画的边缘,以避免噪声和 毛刺对手写汉字特征提取的影响。 本文采用八近邻内插法对手写汉字图像进行平滑。具体方法如下: 像素点x o 的八邻域x i ,娩,x 3 ,泓,x 5 ,粕x 7 ,x 8 定义如图3 2 所示。像素x o 的取值由其 相邻的x l ,x 2 ,x 3 ,x 4 ,x 5 ,x 6 x 7 ,x 8 像素的平均值决定,即 2 8 0 当x 4 时 ? 1 ( 3 4 ) 8 、 7 1 当4 时 n = l 对于图像的边缘点,其八邻域缺少的像素假定为白像素点。利用八邻域内插法进行 第3 章脱机手乍亏汉宁的特征提取 平滑后的手写汉字样张如图3 3 所示。 3 2 粗分类特征提取 x 4x 3x 2 x 5 x ox l x 6x 7x 8 图3 - 2x o 的八邻域 中碾片 ( a ) 规范化后的图像 中碾片 ( b ) 平滑后的图像 图3 3 平滑处理示意图 3 2 1 粗分类的要求及常用特征 1 粗分类的要求 汉字数目十分庞大,若直接识别,即将输入的未知汉字特征与字典中的全部汉字特 征向量进行逐一比较,计算量很大,使识别速度严重降低。所以,识别系统一般通过多 级分类策略对大字符集进行分类。即,先粗分类再细识别,通过多级分类来提高系统的 识别效率。对汉字粗分类的要求有如下几尉3 6 】: ( 1 ) 粗分类要有较高的正确率。粗分类的正确率严重影响系统的识别率。系统通常 河北人i :学硕f j 。学f 眵论文 对未知样本先粗分类再细识别,如果粗分类结果错误,必然导致识别结果错误。应该保 证在各种干扰的情况下,有较高的正确率。 ( 2 ) 粗分类的速度要快。系统采用两级分类策略的目的是提高速度,这就要求有粗 分类后总的识别时间应比没有粗分类时的判别匹配时间短。 ( 3 ) 粗分类的分类特性要平坦。粗分类后每个大类的汉字数目大致相等,这样才可 以充分发挥分类的作用,减少识别时间。 ( 4 ) 粗分类特征提取算法应较简单。这样粗分类字典容量较小,减少了字典匹配时 给系统带来的负担。 2 常用粗分类特征 粗分类特征的选择至关重要,常用的粗分类特征主要有粗网格特征、粗外围特征、 四边码特征等 3 2 , 3 4 , 3 6 】。 ( 1 ) 粗网格特征 3 2 , 3 4 】 假赦字图龇m = 器差雾嚣三嚣, ) g 子- n x n 的文字图像分胁m 的网格,每个网格的大小为f 旦旦1 , 定o a x ( k ,) ( o 尼, 幸次z 鸡叫凸 巧侈】! 殳一乞。一召砷砍,彳、吻欠乙,一 一吃惊人 ,岛t 昧人 哟,体人 系飞幽邑,肖坤次,不嘭则z ,一哆彳吞人, 图5 - 8 不同人。1 5 写字样 同时,进一步扩大识别字符集,加强对识别特征稳定性的研究,仍是今后重点研究 的内容。 第6 章结沦j 展甲 6 1 工作总结 第6 章结论与展望 本文针对脱机手写汉字识别技术展开研究,设计并实现了一种脱机手写汉字的识别 算法。概括来说,本文所做的主要工作体现在以下几个方面: ( 1 ) 提出了一种基于动态粗外围方向线素特征的脱机手写汉字识别方法。图像的动 态划分方式一定程度上缓解了手写变形对特征提取的影响。粗外围方向线素 特征代表了手写汉字图像的外围结构特性,而加权次外围方向线素特征体现 了内部差异,提高了特征的有效性。 ( 2 ) 针对手写体汉字字符集比较大的特点,文中采用了丰h 分类细识别两级分类策 略,解决了直接匹配过程中时间开销大的问题。粗分类阶段引入r b f 神经网 络,相对于最小距离分类器提高了粗分类的正确率,增强了系统的鲁棒性。 ( 3 ) 在字典结构设计上引入了多级特征向量,使每个字都有一定的容错能力,进一 步增强了识别特征的鲁棒性,在一定程度上解决了由于汉字的书写变形而引起 的识别错误,提高了系统的识别j 下确率。 6 2 后续工作展望 由于汉字结构的复杂性和汉字字形的多样性,加上手写汉字的随意性大、变形严重, 这些因素都使得脱机手写汉字识别存在各种各样的难点,本文的研究尚有许多不足,具 体来讲分为以下几个方面: ( 1 ) 手写变形问题仍是影响识别效果的一个主要问题。手写变形问题对手写汉字图 像的特征提取有很大的干扰作用,虽然本文采用对汉字图像进行动态划分的方 式提取特征,这在一定程度上缓解了这个问题。但对于汉字图像的严重变形仅 通过动态划分无法消除,因为它没有考虑引起汉字变形的具体笔划和结构特 性,无法从根本上避免变形对识别带来的负面影响。 河,l 匕人。硕t j 。学f 矽沦艾 ( 2 ) 次外围方向线素的权值选择问题,由于本文采用静念的加权系数,再加上采集 的手写样张有限,统计的权值不能代表所有手写汉字图像相似字间的差异系 数。因此,寻找动态的并且更能区分相似字m 差异的权值是今后应该加强研究 的一项内容。 ( 3 ) 训练样本的代表性。不同人的书写习惯不尽相同,如果训练样本与测试样本的 书写风格相差很大,极容易导致识别错误,影响系统的识别率。并且识别系统 不可能把每个人的字样进行训练,因此训练样本的选取是一个值得思考的问 题。 ( 4 ) 后处理阶段是识别系统的一个重要组成部分。由于本文仅对常用的一些汉字进 行实验,并没有利用上下文信息、词组联想、语义理解进行汉字后处理。对于 计算机识别系统而言,加入适当的语言模型,也是提高系统性能的关键,是今 后研究的重点内容。 参考文献 参考文献 【l 】 蔺菲手写体汉字识别的研究合肥:合肥上业人学,2 0 0 6 【2 】 o d t r i e r , a kj a i na n dt t a x t f e a t u r ee x t r a c t i o nm e t h o d sf o rc h a r a c t e rr e c o g n i t i o n - - as u r v e y p a t t e r nr e c o g n i t i o n ,19 9 6 ,2 9 ( 4 ) :6 41 6 6 2 3 】c h l e u n ga n dl s z e f e a t u r es e l e c t i o ni nt h er e c o g n i t i o no fh a n d w r i t t e nc h i n e s ec h a r a c t e r s e n g n ga p p l i c a r t i f i n t e l l ,19 9 7 ,lo ( 5 ) :4 9 5 - 5 0 2 【4 】 n k a t oa n dm s u z u k i ah a n d w r i t t e nc h a r a c t e rr e c o g n i t i o nu s i n gd i r e c t i o n a le l e m e n tf e a t u r ea n d a s y m m e t r i cm a h a l a n o b i sd i s t a n c e i e e et m n so np a m i ,1 9 9 9 ,2 1 :2 5 8 - 2 6 2 【5 】 g lo u d o n ,c h o n g ,y m w u ,e ta 1 t h er e c o g n i t i o no fh a n d w r i t t e nc h i n e s ec h a r a c t e r sf r o m p a p e rr e c o d s i np r o c e e d i n g so f t e n c o na p o s9 6o nd i g i t a ls i g n a lp r o c e s s i n ga p p l i c a t i o n s , 19 9 6 :9 2 3 9 2 6 【6 】 y m s ua n dj ew a n g an o v e ls t r o k ee x t r a c t i o nm e t h o df o rc h i n e s ec h a r a c t e r su s i n gg a b o r f i l t e r s p a t t e r nr e c o g n i t i o n ,2 0 0 3 ,3 6 ( 3 ) :6 3 5 - 6 4 7 【7 】 q h u o ,z d f e n ga n dyg e as t u d yo nt h eu s eo fg a b o rf e a t u r e sf o rc h i n e s eo c i li n p r o c e e d i n g so f2 0 0 1i n t e r n a t i o n a ls y m p o s i u mo ni n t e l l i g e n tm u l t i m e d i a ,v i d e oa n ds p e e c h p r o c e s s i n g ,h o n gk o n g ,m a y2 - 4 ,2 0 0 1 :3 8 9 3 9 2 , 8 】 yh a m a m o t o ,s u c h i m u r a ,k m a s a m i z u ,e ta 1 r e c o g n i t i o no fh a n d p r i n t e dc h i n e s ec h a r a c t e r s u s i n gg a b o rf e a t u r e s i np r o c e e d i n g so ft h et h i r di n t e r n a t i o n a lc o n f e r e n c eo nd o c u m e n ta n a l y s i s a n dr e c o g n i t i o n ,n e w y o r k ,1 9 9 5 :8 1 9 - 8 2 1 p a t t e r nr e c o g n i t i o n ,2 0 0 1 ,3 4 :2 3 3 9 - 2 3 5 2 【9 】 c l l i u ,i j k i m ,j h k i m ,e ta 1 m o d e l - b a s e ds t r o k ee x t r a c t i o na n dm a t c h i n gf o r h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n 2 0 0 1 ,3 4 :2 3 3 9 2 3 5 2 【l o 】 高彦宇,杨扬脱机手写体汉字识别研究综述,计算机t 程,2 0 0 4 ,7 :7 4 7 7 1 1 1 何志国,曹玉东脱机手写体汉字识别综述,计算机上程,2 0 0 8 ,3 4 ( 1 5 ) :2 0 1 2 0 4 【1 2 】马少平,夏莹,朱小燕基于模糊方向线素特征的手写体汉字识别清华大学学报( 自然科学 版) ,19 9 7 ,3 7 ( 3 ) :4 2 - 4 5 1 3 】 吴天雷,- 5 少平基丁重叠动态网格和模糊隶属度的手写体汉字特征抽取电子学 3 5 河,i 【= 人。| 严顺f j 。伊沦丈 报,2 0 0 4 ,2 :18 7 19 0 【1 4 】孙立民,狄红卫,余英林基丁子块特征及相关模糊隶属度特征的手写题汉字识别方法通 信学报,1 9 9 9 ,2 0 ( 1 2 ) :8 2 8 5 【1 5 】王正群手写体汉字识别研究南京:南京理一i :人学计算机系,2 0 0 1 【1 6 】刘伟,朱j 。波,何浩智,等基- j - 弹性网格模糊特征的手写体汉字识别方法中文信息学报 2 0 0 7 ,2 1 ( 3 ) :1 1 7 1 2 1 【1 7 】 童学锋,邓刚,柴佩琪隐马尔可夫模型在脱机手写汉字识别中的应用计算机应用,2 0 0 2 , 1 8 】 彳i 繁槐,童学锋s v m 在小字符集脱机手写汉字识别中的应川研究计算机i :程,2 0 0 2 ,2 8 ( 6 ) : 1 5 4 - 1 5 5 ,1 8 9 1 9 】王学文,j 晓青,刘长松基于g a b o r 变换的高鲁棒性汉字识别新方法电子学报,2 0 0 2 , 3 0 ( 9 ) :1 3 1 7 1 3 2 2 2 0 】 李玉静,杨扬,颉斌基- 丁矩和g a b o r 变换的手写汉字识别方法信息技术,2 0 0 3 ,2 7 ( 1 2 ) : 4 4 _ 4 6 【2 l 】 吴锐,刘家锋,唐降龙,等基丁g a b o r 小波变换的汉字识别方法高技术通讯,2 0 0 5 ,1 5 ( 3 ) : 7 1 0 【2 2 】 徐赵辉,杨扬,颉斌基于弹性网格和l e g e n d r e 矩的手写汉字识别方法计算机1 j 程与应用, 2 0 0 6 ,4 2 ( 1 7 ) :1 6 3 - 1 6 4 ,2 2 4 2 3 】 居琰,汪同庆,彭建,等特征融合片j i 于手写体汉字识别研究电子科技人学学报,2 0 0 2 ,3 l ( 3 ) : 2 2 9 2 3 3 【2 4 】 金连文,徐秉铮手写体汉字识别中的一种新的特征提取方法一弹性网格方向分解特征电路 与系统学报,1 9 9 7 ,2 :7 1 2 【2 5 】 金连文,高学儿种手写体汉字网格方向特征提取法的比较研究计算机应用研究,2 0 0 4 , 2 1 ( 11 ) :3 8 - 4 0 ,9 0 2 6 1 钟国华,金连文手写体汉字扇形弹性网格特征提取的新方法计算机丁程,2 0 0 2 ,2 8 ( 1 1 ) : 6 1 6 2 【2 7 】 金连文,覃剑钊手弓汉字识别弹性网格g a b o r 特征提取方法的研究计算机应用研究,2 0 0 4 , ( 1 2 ) :1 6 3 1 6 5 3 6 参考文献 【2 8 】干建平,程羽基丁过程神经元的手写体汉字仿人识别研究计算机仿真 2 0 0 8 ,2 5 ( 7 ) :1 4 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论