(计算机应用技术专业论文)一种基于特征提取的脱机手写汉字识别技术.pdf_第1页
(计算机应用技术专业论文)一种基于特征提取的脱机手写汉字识别技术.pdf_第2页
(计算机应用技术专业论文)一种基于特征提取的脱机手写汉字识别技术.pdf_第3页
(计算机应用技术专业论文)一种基于特征提取的脱机手写汉字识别技术.pdf_第4页
(计算机应用技术专业论文)一种基于特征提取的脱机手写汉字识别技术.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

兰州大学研究生学位论文种基于特征提取的脱机手写汉字识别技术 摘要 本文的主要研究内容为:汉字识别的原理和方法,汉字识别前的预处理,脱机手写 汉字的特征提取。 汉字识别的原理和方法介绍了汉字识别领域采用的一般方法和策略一基于数学特 征的统计决策方法和基于结构特征的句法分析方法。 汉字图像的预处理包括对识别文稿进行平滑去噪、图像二值化、倾斜校正、行字切 分以及归一化。 脱机手写汉字的特征提取在前两者的基础上,针对脱机手写汉字特点,找到了能充 分反应手写汉字特点的三种特征并加以提取;同时提出了将汉字分解为部件来识别的观 点。所提取的这些特征兼顾了提取方法的方便性和特征的稳定性,能有效地识别脱机手 写汉字。 关键词:脱机手写汉字识别,统计决策方法,句法分析方法,特征提取 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 a b s t r a c t t h em a i nr e s e a r c hc o n t e n to ft h i st h e s i si n c l u d e :t h eb a s i ct h e o r ya n dm e t h o do fc h i n e s e c h a r a c t e rr e c o g n i t i o n ,t h ep r e - w o r ko fc h i n e s ec h a r a c t e rr e c o g n i t i o n ,t h ef e a t u r ee x t r a c t i o no f o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr c c o g n r i o n t h eb a s i ct h e o r ya n dm e t h o do fc h i n e s ec h a r a c t e rr e c o g n i t i o ni n t r o d u c e st w ob a s i c t h i n k i n gi nt h ef i e l do fo p t i cc h a r a c t e rr e c o g n i t i o n ,w h i c hi ss t a t i s t i c a l d e c i s i o na l g o r i t h m b a s e do nm a t hc h a r a c t e r i s t i co fc h a r a c t e ra n ds t r u c t u r e d e c o m p o s i t i o na l g o r i t h mb a s e do n p h y s i c a lc h a r a c t e r i s t i co fc h a r a c t e r t h ep r e - w o r ko fc h i n e s ec h a r a c t e rr e c o g n i t i o ni n t r o d u c e sf i v es t e p so fo p t i cc h a r a c t e r r e c o g n i t i o n , w h i c hi sg e t t i n gr i do fn o i s e i m a g eb i n a r y , i m a g ei n c l i n er e c t i f y , i m a g ei n c i s ea n d i m a g es t a n d a r d i z e t h ef e a t u r ee x t r a c t i o no fo f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nw h i c hi s b a s e do nt h ep r i o rt w o ,a c c o r d i n gt ot h ef e a t u r e so fh a n d w r i t t e nc h i n c c h a r a c t e r s ,h a sf o u n d t h r e ef e a t u r e so fh a n d w r i t t e nc h i n e s ec h a r a c t e r sa n dh a se x t r a c t e dt h e m i tp u t sf o r w a r da c o m p r e h e n s i v ev i e w p o i n ta b o u tt h ec h i n e s ec h a r a c t e r sw h i c hs h o u l db es e p a r a t e df i r s t , t h e n t h ec h a r a c t e re l e m e n t ss h o u l db er e c o g n i z e d t h ef e a t u r e st h a tw eh a v ef o u n da r ec o n v e n i e n t a n ds t a b l e ,a n dt h e yc a nr e c o g n i z et h eh a n d w r i t t e nc h i n e s ec h a r a c t e r se f f e c t i v e l y k e y w o r d s :o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n r i o n , s t a t i s t i c a l d e c i s i o na l g o r i t h m , s t r u c t u r e - d e c o m p o s i t i o na l g o r i t h m ,f e a t u r ee x t r a c t i o n 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行 研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数 据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含 任何其他个人或集体己经发表或撰写过的科研成果。对本文的研究成果做 出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:咝空 日期:d 7 d ” 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州 大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校 保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查 阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人 离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第 一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名: 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 第一章绪论 随着改革开放的逐渐深入,我国社会经济飞速向前发展,单位与单位、人与人之间 各种交往越来越频繁,在法律规范下的权利和义务关系越来越明晰,整个社会的法制观 念进一步提升,人们维权的意识普遍增强,但由此产生的各类经济案件和民事纠纷也越 来越多。实践中,这类经济案件和民事纠纷在侦查、调查和诉讼活动中的证据的认定绝 大多数与文件检验技术有关,又尤其以笔迹鉴定最为突出。近年来笔迹识别技术的研究 成为了计算机取证技术研究领域的一个热门方向,它作为司法鉴定的重要手段,得到了 广泛的研究和应用。 1 1 计算机取证技术和笔迹识别 随着信息技术的不断发展,计算机越来越多地参与到人们的生活与工作中,与计算 机相关的法庭案例( 如电子商务纠纷、计算机犯罪、笔迹鉴定等) 也不断出现。作为计 算机领域和法学领域的一门交叉学科,计算机取证正逐渐成为人们研究与关注的焦点。 那么什么是计算机取证呢? 所谓计算机取证是指将计算机调查和分析技术应用于对潜 在的、有法律效力的证据的确定与获取上。计算机取证技术主要包括:笔迹、指纹、图 象、语音识别,硬盘防删与恢复,系统日志追踪技术等。 作为计算机取证的一种重要方式,笔迹识别是通过计算机对检材、样本特征的比较 检验,根据对符合点、差异点的综合判断,最后作出认定同一或否定同一笔迹的鉴定结 论。笔迹识别在司法鉴定上得到了广泛应用。随着计算机技术和网络技术的发展和普及, 笔迹识别技术的应用领域更为宽广,突破了原有的应用范畴,比如,计算机登录、信息 网入网、信用卡签字、电子商务等等。高准确率的笔迹识别会使我们的生活质量得到提 高。从身份识别的角度,笔迹是一种稳定的行为特征,笔迹的获取具有非侵犯性( 或非 触性) ,是易为人所接受,非常有应用前景的身份识别方式。正如俗话所说的“字如其 人”,每个人写的字都有自己的特征。尽管笔迹的识别需要接触性测量,但是这种方法 在政府、法律和贸易中仍然广泛地被用来鉴定人的身份。 汉字是世界上使用人口较多的文字之一。除我国以汉字为通用文字之外,新加坡、 韩国、日本、朝鲜、越南、马来西亚等国也使用部分汉字。我国政府规定,汉字是正式 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 通用的规范文字,在十多亿人口的范围内广泛使用。因而,我国笔迹识别的对象也主要 是汉字笔迹。 1 2 脱机手写汉字识别的问题和困难 汉字识别是模式识别的一个分支,那么什么是模式识别呢? 所谓模式识别,通常是 指用计算机对一组事件或过程( 即样本) 进行鉴别和分类,所识别的事件或过程可以是文 字、声音、图象等具体对象,也可以是状态、程度等抽象对象。作为模式识别的一个重 要分支,汉字识别的作用就是用计算机来认字,目的是把汉字输入计算机,以便作进一 步处理。汉字是一种特殊的模式集合,这种集合的模式种类( 汉字字数) 很多,结构复杂, 有的模式十分相似,加上人们在书写时的随意性使字形不够规范等原因,都使正确识别 十分阻型”。和所有模式识别系统一样,汉字识别的主要性能指标是正确识别率和识别 速度,从实用角度看,还应考虑系统的复杂性、可靠性和价格等因素。 1 2 1 汉字的特点与识别难点 汉字的起源最早可追溯到五、六千年前的象形文字,早期的汉字脱胎于记事图画, 从篆书始,文字线条化,字形逐步演变为方形,故称方块汉字。汉字发展到隶书以后, 不再以线条组字,而以笔画科为构字的基本单位,写字时从起笔到收笔叫一个笔画,汉 字的基本笔画有八种即“点、横、竖、撇、撩、提、钩、折”,在不同的字里和不同的 部位上,这此基本笔画又有许多变化,细分起来,汉字的笔画有三十多种。少数汉字可 由一些笔画按一定的规则组合,称为独体字;大多数汉字则是由偏旁、部首所构成的合 体字,偏旁和部首是比笔画“高一级”的构字单位,汉字的上下结构、左右结构皆因此 而生,形成了一定的间架结构,所谓间架结构是指笔画之间、偏旁之间的搭配形式和比 例关系。汉字有几十个笔画、几百个偏旁部首形成了汉字复杂的结构特点一对称。左右 对称,上下对称,不仅单个字对称,字与字,行与行,大与小,正与斜,顾盼呼应,交 相辉映 2 1 。汉字具有如下特点: ( 1 ) 字量大 按照我国汉字基本集g b 2 3 1 2 8 0 的标准,第一级汉字为3 7 5 5 个,第二级为3 0 0 8 个, 总计为6 7 6 3 个。因此我国的汉字识别系统至少应能识别最常用的3 7 5 5 个汉字,如果考虑 系统还能识别次常用的3 0 0 8 个汉字,并能用于港奥台等地区,则识别字量应是6 7 6 3 个简 体和5 4 0 1 个繁体之和,总共约一万多个汉字。即识别系统的“字典”至少必须有一万多 2 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 个汉字以及相应的标点、符号和一定数量的英、日文字母,才能满足实际应用的需要。 但是,现代计算机的智能并不太高,人眼能够迅速识别的事物,计算机往往显得十分笨 拙,需要“反复迭代”,才能给出正确的结果。计算机识别某汉字时应把这个汉字跟字 典中每个标准汉字逐个比较,找出其中最相似的字作为识别结果,汉字字量越多,识别 的速度越慢。为了解决识别速度慢的问题,可以采用多级分类的办法:先按某种准则把 所有汉字分成若干个子类,在把待识字跟它所属子类中的每个标准汉字匹配比较,求得 最相似的标准汉字。由于各个子类中的汉字字数较少,识别速度可以提高。该方法和通 常查字典相似:先按部首分类,再找所需的单字,而不必从头到尾把字典翻一遍。但是, 上述先粗分类的方法在汉字识别中也有困难,因为如果粗分类发生错误,就一定得不到 正确的结果。识别速度和正确识别率是一对天生的矛盾,速度提高了,质量很容易受到 影响。这是汉字识别的一个突出困难。 ( 2 ) 字体多 汉字识别中遇到的另一个困难是字体多。我国印刷字体主要有宋体、仿宋体、黑体 和楷体四种,手写体则有楷书、行书和草书三大类。印刷体汉字不同字体的同一个字虽 然拓扑结构基本相同,但笔划的粗细、长短、位置及姿态,都有一定的差别,各个部件 ( 如偏旁、部首与主体) 的大小比例与位置,也都有所变异。换句话说,不同字体的同一 个字的字形点阵并不相同。对于手写汉字,这种差别就更大。现代计算机还没有“去粗 取精、去伪存真”的能力,往往把不同字体的同一个汉字看做是不同的字。在汉字识别 系统中,为了解决这个问题,可以采用如下方法:在字典中采用多模板,把不同字体的 同一个汉字用集中标准模板来代表;对某个汉字进行识别时,只要其中一种模板和待识 字最相似,就判决所需的文字,这种情况就使多体汉字识别系统所需的参考模板数成倍 增加,相当于增加了识别系统的字数,又降低了识别速度;或者努力提高计算机的“智 能”,精心选择用于识别的特征,使其适用于多字体的汉字识别。否则将难以获得足够 高的正确识别率。 ( 3 ) 结构复杂、相似字多 和欧美拼音文字相比,汉字笔划多,结构复杂。笔划最多的汉字有3 6 划,平均每个 汉字笔划为1 1 划。由于笔划多,有的汉字结构十分复杂,有的字虽然笔划较少,但往往 字形十分相似,如“人、入”、“巳、己、己”等。这些字有的只有一点之差,或者某一 笔划长短略有差别,其意义就迥然不同。识别时必须能正确判定这些微小差异,否则就 会发生错误。 3 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 汉字识别还有一些其他的问题。第一,我国的出版物虽然以汉字为主,但经常也有 西文、日文和各种数码符号。不同文字符号混排在同意页面上,必定会使识别难度大大 增加。其次,印刷质量对识别结果也有直接影响,实践证明,好纸铅印的书刊,其识别 率大都可以在9 9 9 6 以上,印刷质量差的文件识别率显著下降。这些问题,在研究汉字识 别,特别是把它付诸实用时,都是必须重视的因素。 脱机手写汉字识别的用途是把手写字符用字符阅读器自动输入计算机,然后在计算 机中做相关处理,常用于身份验证、信函分拣和银行支票识别等。脱机手写汉字识别跟 印刷汉字识别系统同属光学字符阅读器( o o t i cc h a r a c t e rr e c o g n i t i o n ) o c r 的范畴。 它们的识别对象都是二维的方块汉字,工作原理相同,系统构成也基本相似,但脱机手 写汉字识别问题更多,困难更大。 造成脱机手写汉字识别困难的根本原因是因为手写汉字的字形变化太大。现代手写 汉字的字体依规范可分为楷、行、草、宋、仿宋、隶、魏碑等体,实际上人多数人的手 写体是受楷、行、草体影响而形成的“自由体”和受宋、仿宋体影响而形成的“学生体”, 但每个人习字经历和喜好不同,在笔形和结体上都有变化,产生不同的风格特征,即使 是同一个人所写的同一个字,往往也因时、因地而有明显的变化。我们知道,脱机汉字 识别的对象是方块汉字的图形,用于识别的特征是根据汉字图形提取的,因而字形变化 对识别结果具有决定性的影响。 1 2 2 手写体汉字的特征 手写汉字相对于规范的印刷体汉字又具有以下特,征【3 1 ( 1 ) 基本笔画变化。印刷体汉字的笔画基本上是横平竖直,折笔的拐角大都是尖锐 的钝角、锐角或直角,因而折笔基本上可以看作是曲折线段所组成。而手写汉字的笔画 大都不具备上述特点:横不平、竖不直,直笔画变弯,折笔的拐角变为圆弧等等,例如, “品”的三个“口”变成个圆圈,“b ”变成“p ”,有时把较短的笔画变为“点”,有 时则在起笔或折笔的拐角处增加额外的“笔锋”。如图l - i ( a ) 的“怕、扦、史”等。 ( 2 ) 笔画该连的不连,不该连的相连,这种情况十分普遍。它不是由于干扰等客观 原因而产生,主要是由于书写者的习惯而造成的。 ( 3 ) 笔画与笔画、部件与部件间的相对位置发生变化,与此相应,笔画的长短及部 件的大小也发生变化。以图卜l ( a ) 的钢笔字帖为例,“担、打、报、择”几个字的偏旁 “于”,其竖笔长短不一,“阳、队、陈、陶”的部首“i s ”也大小不同,它们在整字中 4 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 的位置就有差异。方块汉字字形是一种艺术,书写时要求笔画及部件的形态和相互关系 尽量彼此协调,使整字字形结构匀称美观,因此上述笔画与部件的大小、位置变化,客 观上是不可避免的。此外,由于书写者文化水平、习惯等的不同他们所写的字差别就 更大。图卜l ( c ) 的样本属于比较工整的字样,但是不难看出,字形变化仍相当明显。这 说明即使是同一个人写的字也有一定的差异。笔画长短、部首大小及位置等的变化,使 我们难以仿照印刷体汉字识别的办法事先确定它们的位置,按规定区域提取笔画或部首 特征。 忆硇格墙细 人陈陶地坚,毒琅掣叶赶秆 选迎连速扭订报择天夹头夺尊适村着 参骥各吞犯狂独德乏- t 灿炭砷帜审荦 幻多幼曩摹姑娃挑尺屈尽珑和吃弓丈 她般杖叙蚁趵圮,氏圈啤闭图度矿鹿矽 ( a ) 一种钢笔字帖的字样 蛾东视绣意拟肆麓脯莲溺篝铀年赢 冉犀枉聂孽峨域镶遁罂村1 i 穸:茂宁村 脓敢农善识舅警咬哇瘩疟拇懦抽悸 蜷锚;誊啪趴艇怕琶拍掷牌错辨漉 畔判板毒麓需糟肘擒咆捌她搁j 总璃 ( b )我国i a a s 一4 m 军写标准汉字痊卑样 5 兰州大学研究生学位论文 一种摹于特征提取的脱机手写汉字识别技术 孝莆西俘番j i i 篝著吨事科嗨厂静毫认l 彦量一 十苒晕匐尊冀焉厂不仅鲁ij 售身翱蠡痧 耍慧男于对嚣绣旬弦纛选f 叠c ,盒是等锯 豫氨遣种t 千氖乞幂蜃匆圣,囊詹敷臼辜辆氢 左斌蜕罐畚尹生瘴窖缸薛,母食产生一点求氯 乞 ( c ) 一般的手写体字样 图1 1 ,l 种手写汉字的字样 ( 4 ) 书写的手稿往往有涂改、删除、添加以及更改段落等等。这给识别系统的预处 理和识别后的编辑整理也都带来不少麻烦。 上面讨论的几种手写字样大体上都是比较工整的楷书,它们字形尚有明显的差别, 更何况日常见到的各种手稿或书信中的字,其差别会更大。我国主要的手写字体有楷书、 行书和草书三种,如图1 - 2 所示。可以看出,同一个字的笔画和字形几乎迥然不同,相 差甚远。草书的字甚至文化较高的人有时也不认识。要求计算机能自动识别这样的手写 字显然是不可能的,也是不合理的。因此,对用于计算机自动识别的手写汉字应有所要 求。 具体地说,对构成汉字的笔画及其相互关系,应有必要的规定和限制,不能无约束 地随意书写。这种字叫做“限制性手写汉字。显然,这种限制不能太严,规定不能过 于复杂,否则用户难以适应,识别系统也不易推广应用。另一方面,对书写的要求也不 宜太宽,否则难以使系统具有足够高识别率。这是一个不容易解决的矛盾。通常对书写 的基本要求有如下几点【4 l : ( 1 ) 书写工整笔画横平竖直,粗细均匀: ( 2 ) 不同笔画不连笔书写。 ( 3 ) 每个字符应写在规定方格内( 通常为6 m mx6 m m 一1 2 r a mx1 2 r a m ) ,字符大小尽 量一致笔画不应超出方格。 6 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 囊 前处责蒿烈l 蓑事 容每相 奇 前i 喷篱纠f 多事 丐善搁 簟 奎冬3砖氕多磊r 和 图1 2 楷书、行书和草书字样 上述要求并不复杂,但实际上很难完全做到,即使是文化水平较高的人,除非曾经 受过书写工程字的训练,否则也不易按照上述规定自始至终地书写。这就是手写字符识 别的困难所在。 1 3 汉字识别技术研究现状 在我们的社会里,每天都有数以亿计的汉字需要识认和处理,并且随着现代信息交 流的不断强化和计算机应用的不断普及,这种需求逐年猛增。邮电通信、新闻出版、办 公事物,甚至日常工作,都需要将汉字,转变为机器内部可以保存的形式,以便能方便 的进行变换、传输和输出,加快语言信息的交流。如果这项工作单靠人工输入的方法来 完成,显然工作效率太低,远不能满足高速度、高质量自动化汉语信息处理的需要。所 以,汉字的机器识别研究,有着广泛的实用价值和应用前景。根据应用情况的不同,汉 字识别技术可以分为印刷体识别及手写体识别技术【5 】。而手写体识别又可以分为联机 ( ( o n l i n e ) 与脱机( ( o f f - l i n e ) 两种。脱机手写体识别的对象是写在纸上的字符,通过 扫描仪和摄像机转化为计算机能处理的信号;而联机手写体识别则通过专用的数字板或 数字仪实时地采集书写信号,它不仅可以采集到笔迹序列并转化成图像,而且可以记录 书写的压力、速度等信息,可为手写体识别提供更丰富的信息。由于手写体汉字变形较 大,结构上不确定性更大,故从识别技术的难度来说,手写体识别的难度高于印刷体识 别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。 从上世纪9 0 年代以来,联机手写体的识别正逐步走向实用,方兴未艾。中国大陆 及台湾地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也开 始进入这一市场。这一技术也迎合了p d a ( p e r s o n a l d i g i t a la s s i s t a n t ) 的发展潮流。 汉字识别最重要的指标是识别正确率,其最新技术包括以下几个方面【6 】: ( 1 ) 组合优化特征的综合识别方法 抽取单一种类特征进行汉字识别,误识率较难降低,且抗干扰性不易提高。因为这 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 样所利用的汉字信息量有限,不能全面反映汉字的特点,对任何一种特征来说,必然存 在其识别的“死角”,即利用该特征很难区分的汉字。从模式识别的角度来看,若将汉 字的全部矢量化特征所组成的空问称作空间q ,那么当利用整个空间q 的信息进行汉字 识别时,由于提供的汉字信息很充分,抗干扰性会大大增强。但是,在实际应用中,必 须考虑到识别正确率与识别速度及系统资源三者的折中。所以任何一个实用的o c r 系统 只利用其中部分子空间的信息。由于信息的缺陷,便不可避免的遇到识别“死角”的问 题。 组合优化特征法识别汉字的基本思想是:首先,在长期汉字识别研究的基础上,选 择结构元等多种基于汉字比划结构的统计特征,这些特征具有良好的内聚和类间发散的 分类能力:其次,有机地多种汉字特征互为补充,相得益彰,使汉字识别的“死角”大 幅减小,从而提高识别率。 ( 2 ) 系统提供用户自学习功能 不论什么生僻字,用户都可以通过键盘输入自由地扩大专业识别字符集;此外,为 了满足不同用户的需求,开发出的汉字识别系统应能适应不同的应用环境,例如:m s d o s 环境、w i n d o w s 环境和u n i x 环境下中文o c r 版本等。 1 4 汉字识别技术发展趋势 从2 0 世纪9 0 年代以来国内对印刷体汉字识别的研究还是相当深入的,也取得了很 大成绩,使系统的识别率不断上升。但是,在o c r 技术研究发展上,特别是汉字o c r 技 术的实用性和被广大用户采纳接受方面,还有不少问题需要进一步解决,主要包括三个 方面同: ( 1 ) 识别系统总体性能进一步提高。提高识别率和系统的鲁棒性:利用自然语言理 解知识进行识别后处理:降低汉字的误识率等等。 ( 2 ) i n t e r n e t i n t r a n e t 上的网络版本。充分利用网络上的资源及计算能力,提高 系统的性能,使用户能够更方便地协同工作。 ( 3 ) 扩大o c r 核心技术的应用范围,开发更多的应用系统,并将研究成果迅速转化 为产品,提高软件的商品化水平,并能使之走向世界。 最近几年,由于神经网络的影响,在手写汉字识别研究中也出现了位数不少的神经 网络匹配方法,人工神经网络具有独特的联想存储和计算能力,能够解决汉字识别等非 结构性问题,形成了汉字识别的一个新方向。 r 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 1 5 论文的主要内容和结构组织 本文在分析汉字识别原理的基础上,针对脱机手写汉字特点,找到了能充分反应手 写汉字特点的三种特征并加以提取;同时提出了将汉字分解为部件来识别的观点。所提 取的这些特征兼顾了提取方法的方便性和特征的稳定性,能有效地识别脱机手写汉字。 论文分为六部分,具体安排如下: 第一章绪论介绍了计算机取证技术和手写体汉字识别,描述了脱机手写汉字识 别的困难,以及国内有关研究现状和趋势,并对本文的内容和结构进行了概括。 第二章汉字识别的原理和方法主要介绍了汉字识别的原理,以及脱机汉字识别 的两种方法:统计决策方法和句法分析方法。 第三章汉字识别前的预处理介绍了汉字识别前的预处理过程,主要包括:平滑 去噪、二值化、倾斜校正、行字切分、归一化。 第四章脱机手写汉字的特征提取详细描述了能充分反应手写汉字特点的三种特 征并加以提取,将汉字分解为部件来识别。 第六章结论对全文进行总结,指出了本文给出的脱机手写汉字识别技术的不足 之处和进一步的工作方向,以及手写汉字识别的发展方向。 9 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 第二章汉字识别的原理和方法 文字识别技术是本世纪2 0 年代以来逐步发展起来的一门自动化技术,是图象处理 领域中的一个重要研究方向,广泛应用于排版、印刷、文件处理、表格阅读等办公自动 化领域。文字识别实际上就是解决文字的分类问题。一般通过特征判别及特征匹配的方 法来进行处理。在现有的各种方法中,不论是基于神经网络还是基于多决策树分类的识 别方法,其核心都是利用字符的特征进行识别,因此,如何选取有效的特征是字符识别 的关键所在。 特征判别是通过文字类( 例如汉字) 的共同规则进行分类判别。它不需要利用各种文 字的具体知识,根据特征抽取的程度( 知识的使用程度) 分阶段地用结构分析的办法完成 字符的识别。因此,整个文字认识的历史,就是特征抽取的发展史。 匹配的方法则是根据各个文字的知识( 称为字典) 采取按形匹配的方法进行。按实现 的技术途径不同又可分为两种【8 】:一种是直接利用输入的二维平面图像与字典中记忆的 图像进行全域匹配;另一种是只抽出部分图像与字典进行匹配。然后根据各部分形状及 其相对位置关系,与保存在字典中的知识进行对照,从而识别出每一个具体的文字。前 一种匹配方法适合于像数字、英文符号一类的小字符集;后一种匹配方法适合于像汉字 一类的大字符集。 匹配的方法一般用于规范化的印刷文字,特别是同一字体的印刷文字。结构分析方 法多用于手写文字的识别。一般说来,匹配方法的程序编制简单,字典占据空间大,识 别速度快;结构分析方法程序复杂。能够处理手写体文字的变形问题,具有区分近似文 字的优点,但将其用于初始分类则有不稳定的缺点。所以,在手写体文字的识别中,往 往将两种方法结合起来使用。 2 1 汉字识别的原理 通常手写汉字的识别系统的一般过程可以用如图2 - 1 所示的原理图来表示。主要包 括预处理、单字识别、后处理三个阶段以及各阶段所需的样本字库、识别字库和关联字 库三个数据基。视情况不同,单字识别常常又有特征提取和粗细分类二个不同的步骤区 分。考虑到识字字库的形成方式,有时相应地增设有关标准模板自学习的功能。 1 0 兰州大学研,0 生学位论文一种基于特征提取的脱机手写汉字识别技术 文本图像文本图像 字码文本 语料收集 图2 1 手写汉字识别的一般原理图 首先,对于输入的手写汉字图像文本,预处理包括所有需要将输入汉字图像转换为 对于系统特征提取部分可按受形式的步骤。其内容和要求依赖于后续处理中的识别方 法,一般有平滑去噪、图像二值化、倾斜校正、行字切分以及归一化等几个步骤,往往 采用现有的图像处理技术来完成。 经预处理后,得到的数据量是很大的,而每个像素数据所含的有用信息却很少。特 征提取就是要将图像中的有用信息集中于一些少量的、经精心选择的特征上。自然特征 选择的好坏直接影响到系统性能的好坏,所以选择稳定而有代表性的特征,就成为手写 汉字识别研究的核心问题之一。 通常我们可以将已有研究所采用的特征种类,泛泛地分为统计和结构二大类。其统 计的又可分为局部的、整体的二类。 局部特征的明显特点是指注意汉字的局部区域的统计性质而相对忽略汉字的结构 规律和整体统计性质。比较常用的局部特征包括像素本身、线元梯度、笔划域、方向段 强度、方向笔划数、方向映象、方向密度和周边形状描述。当然,也有采用多种局部特 征综合研究的。 不同于局部特征,整体特征尽管也忽略汉字的结构特性,但在计算统计特征时是把 汉字图像作为一个整体考虑。已用于手写汉字识别的整体特征,包括有一维投影特征和 二维变换特征等。总的来说,整体特征似乎比局部特征更多地忽略了汉字的内在结构信 1 】 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 息,所以往往都仅作为粗分类特征而被运用。 结构特征是那些能反映汉字内在结构性质的特征。这些特征往往就是构成汉字的基 本要素。因此,鉴于对汉字基本要求的不同看法,就形成了多种结构特征类型,主要包 括有要点( 特征点) 、笔划、笔划序列和部件这样四种。 特征选择之后就是分类处理,分类通常使用某种策略作为依据,通过将输入汉字的 特征取值,与识别字库中每个字类代表的标准取值进行比较来完成,即所谓的匹配。由 于在手写汉字识别中,字类总数很大,往往采用多集聚合的策略来进行逐级分类。也即, 首先将输入汉字匹配到某个字类范围,然后再对其进行进一步区分,最终获得匹配的单 个字类。这便是粗分类和细分类不同概念的产生原因。 当然,不管是粗分类,还是细分类,也不管区分粗细分类,还是不区分粗细分类, 要进行分类匹配,就离不开分类匹配方法的确定,在手写汉字识别研究中,比较常用的 匹配方法可以归纳为对比匹配方法、结构匹配方法和松弛匹配方法【9 1 。 对比匹配方法的主要思想是基于空间特征中某种距离测度的计算。几乎所有的局部 和特征向量都可以采用对比匹配来完成对汉字的分类。如果解决符号串之间的距离计 算,也可以将此方法用于结构特征的匹配。 结构匹配方法则主要是针对结构特征的一种匹配技术,大致可以细分为文法匹配、 关系图匹配和树搜索匹配等。由于结构匹配方法比较灵活,所以也常常结合模糊数学和 人工智能技术来完成字类匹配。 即可用于统计特性,又可用于结构特征的一类匹配方法是松弛匹配方法。严格地说, 松弛只是一种计算方法,通过使用局部相互制约关系和多次反复迭代来获得一个最优的 整体结果。使用松弛匹配的出发点就是同时考虑所有可能的匹配,并通过迭代取舍渐渐 收敛到最可能的匹配上。尽管为此付出的时间代价往往很大,但由于识别效果很好,这 种方法越来越受到广泛的运用。 在分类匹配中,是要有标准模板的。识别字库存放的便是系统识别汉字范围中全部 字类的标准特征数据,也称模板。显然,识别字库不但与特征选择方法有关,而且也与 匹配方法密不可分。所以,识别字库及其构建策略,最能反映识别系统的根本原理。笼 统地说,构建识别字库的方法分为二大类,一类是直接通过人工分析汉字书写实例形成 每个字类的模板,另一类则是经由系统的自学习,自动获取每个字类的模板。 与识别字库不同,样本字库收集的是众多不同人书写的不同汉字,要求覆盖面尽量 宽广,反映汉字书写的实际情况。当然,不同目标的识别系统对样本字库的要求也会有 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 所不同,但作为标准,应该尽量满足通用性。样本字库的功能主要有二,一是用于构建 识别字库,通过样本字库收取的具体书写汉字的归纳或训练,形成识别字库;二是用于 测试识别系统,得到识别系统的性能指标。 最后,在一些系统中,为了增加整个系统的识别正确性,在单字识别完成之后,另 再增加相对独立的后处理阶段,通过文本上下文关联,来纠正部分识别错误,因为是要 利用上下文信息,所以离不开各种关联词库的构建,包括句关联、语境关联等等。这样 的研究,推而广之,就会更多地涉及到汉语机器理解的内容。 2 2 汉字识别方法 对于脱讥手写汉字识别方法的研究,近2 0 多年来各国学者主要是我国和日本的研 究人员,进行了大量的研究工作,取得了重大成果。脱讥手写汉字识别方法基本上分为 统计决策方法和句法识别方法两大类。 2 2 i 统计决策方法 统计决策方法是以同类模式具有相同属性为基础的识别方法。用来描述事物属性的 参量叫做特征,它可以通过对模式的多个样本的测量值进行统计分析后按一定准则来提 取。例如:在汉字识别系统中,我们可以把每个汉字的图形分为若干小方块,然后统计 每个小方块中的黑像素,构成一个多维特征向量,作为该汉字的特征。必须注意的是: 在选择特征时,用于代表各类模式的特征应该把同类模式的各个样本聚集在一起,而使 不同类模式的样本尽量分开,以保证识别系统能具有足够高的识别率。 一般来说,可以从输入的文字中,测得n 个特征,这n 个持征中,每个集合可以考 虑成一个向量,称为特征向量。所谓分类问题就是将特征空间中每个可能的向量指定到 一个模式类中去【埘。 1 定点采样方法 用( i ,j ) 表示文字点阵的坐标,用f ( i ,j ) 表示该点的灰度值,如果字的笔道通过( i ,j ) 点,则f ( i ,j ) = l ;如果字的笔道不通过( i ,j ) 点,则f ( i ,j ) :o 。这样,f ( i ,j ) 的值就可 以用来区分k 、k 两个字。 2 相关法 上面所说的定点采样方法过于理想化了,只要输入文字稍有变形或移动,即使该点 附近存在正确的特征点,判断仅仅依据一点来进行,会产生误判,甚至印刷质量好的文 1 3 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 字,也会出现较多的误识。如果我们不是仅仅根据某几个采样点,而是将一个nxn 的 正规化文字点阵作为字典特征,也就是说,如果把字种k 的笔划点阵集合。( i ,j ) 作为 特征向量的一个集合,输入字的点阵为f ( i ,j ) ,计算 f ( i ,j ) x 珊。( i ,j ) 这个值越大,说明一致性越好1 1 1 1 。 将上述分类思想予以抽象,从数学上来说,分类问题可以借助于“判别函数”来进 行,设用,m :,表示需要加以识别的m 个模式类,并且令 x = ( x ,x 。,站 。 ( 2 - 1 ) 表示特征向量,其中x 。表示第i 个特征的度量,用d ,( x ) 表示与模式类。,( j = 1 ,2 ,m ) 相联系的判别函数,那么如果特征向量x 所表示的输入模式在。中,记为x b ,则 d 。( x ) 的值必须最大,即对于所有的x 。, d t ( x ) d j ( x )i = l ,2 ,mi j( 2 2 ) 与类。,相联系的区域之间的边界,称为判决边界。由下述方程表示: d t ( x ) 一d j ( x ) = 0 ( 2 3 ) d 。( x ) 可以选择满足式( ( 2 - 3 ) 的各种不同形式的判别函数,在文字识别中经常用到下面将 要讲到的几种重要的判别函数。 3 最小距离分类器 最小距离分类器是线性分类器。它以输入文字与一些参考向量或者特征空间中一些 模型点之间的距离作为分类准则。 假定给出m 个参考向量g 。g 。,g - ,关于g ,g 。,g - 的最小距离分类方案是当 x _ g 。i = m i n 时,x ( i ) 。设x 表示输入未知文字的特征向量x = ( x 。,x 2 ,x - ) ,g 表示字典 中某一标准文字的向量g = ( g 。,g 2 ,。在模式识别中经常使用下述距离【1 2 j : ( 1 ) 明考夫斯基距离 d ( x ,g ) = 【k g 朋“9 ( 2 - 4 ) 当q = l 时,为绝对值距离: d ( x ,g ) 一lz f g ii ( 2 5 ) _ 当q = 2 时,为欧氏距离: 1 4 兰州大学研究生学位论文 一种摹于特征提取的脱机手写汉字识别技术 d ( x ,g ) =露磊( 2 - 6 ) ( 2 ) 马氏距离 当x ,g 两个m 维向量呈正态分布,且具有相同的协方差矩阵时,其马氏距离为: d ( x ,g ) = 【( x g ) z d ( x g ) r 】2 ( 2 7 ) 利用最小距离准则进行文字识别时,分别计算输入文字的特征向量x 和字典文字向量g , 之间的距离,d ( x ,g ) ,d ( x ,g :) ,d ( x ,o ,求出其中最小的d ( x ,g 。) ,即可判定输入文 字属于。类。 显然,一个最小距离分类器的性能依赖于适当地选择那些参考向量。 4 最邻近分类 上述的最小距离分类准则可以这样来理解:既然两个向量x 、g 的距离最小,说明向 量x 和g 最接近。因此,我们完全可以通过度量两个向量x 、g 的接近程度,这就是最 邻近分类准则。实际上它们都是两个向量之间的相似性的一种度量。在最邻近分类中, 经常使用的是类似度r 。两个向量类似度定义为 捌: r ( x ,g ) t 品一c o s a ( 2 - 8 ) 式中,分子为向量x ,g 之间的内积,分母为ll x | l 、i | g i1 分别表示向量x 、g 的模,q 是向量x ,g 在m 维空间的夹角( 参见图2 - 3 ) 。将n l 维向量带入( 2 8 ) 式得到 啦g ) = 单 ( 2 - 9 ) r 僻,g ) = 焉2 l 了一 ( ) 【2 酗2 】u 2 显然,当x ,g 两个向量完全相同时,其夹角为0 ,r ( x ,g ) = 1 ,它们的距离d ( x ,g ) = 0 。 除了类似度判别准则外,还有由类似度直接扩展成的复合类似度及方向复合类似度 的判断法则,它们都是从类似度概念直接扩展而来的。 图2 - 3 类似度的几何意义 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术 2 2 2 句法识别方法 1 什么是句法方法 句法识别方法( 也称为结构识别方法) 是以同类模式具有相似结构为基础的识别方 法。所谓结构是指组成一个模式的基本单元( 简称基元) 之间盼关系。例如,捞音文字 的基元是字母,若干个字母按一定规律组成一个单字。在识别某一个单字时,如果能判 别组成这个字的各个字母以及它们的( 结构) 关系,就可以识别这个字。基于这种原理, 拼音文字的识别系统中的“字典”应包括字母,以及由字母组成单字的规律。在对某一 个单字进行识别时,则应先提取构成这个单字的字母并分析它的结构,然后将它跟字典 中所有已知单字的基元及其结构关系逐个加以比较,就可以确定待识单字和哪一个已知 单字属于同一类别。 以人的视觉特性来说,利用句法方法很容易地描述一个字的结构,按照句法方法, 每个字是由它的各部分( 称为子模式或模式基元) 按照一定的顺序组合起来的。利用模式 结构与语言之间的相似性,模式识别常以句法的方式进行,即由一组给定的句法规则来 剖析模式的结构。( 图2 - 4 表示出“汉”字与句子的结构的相似性) 。 :亨久一杰短毒 蒜元瑜7 圆1 t 、k 么、l y 图2 4“汉”字结构与句子结构关系的对比 句法模式识别的方框图如图2 5 所示。短划线上方为识别部分,下方为分析部分, 其中识别部分由预处理、基元( 包括基元和子模式之间关系) 提取和句法( 结构) 分析组 成。而分析部分包括基元选择及文法( 或结构) 推断两部分。 在句法方法中,一个摸式由一个句子表示。该句子属于一个文法所规定的语言,用 一组模式基元和它们的组合关系来提供模式结构描述的语言,支配基元组合成模式的规 则由所谓模式文法来确定。模式结构信息的另一种表示方法是利用关系图,在关系图中 结点表示子模式,分枝表示子模式之间的关系。 1 6 兰州大学研究生学位论文 一种基于特征提取的脱机手写汉字识别技术 文字的基元是笔划。一条直线可由它的起点、终点、线的长度和倾斜度来描述。类 似地,一条曲线也可以用它的头、尾及曲率来描述。在选择了基元后,下一步是构造一 个( 或多个) 文法,以便生成一个( 或多个) 语言来描述正在研究的模式1 1 3 1 。 图2 - 5 一个句法模式识别系统的方框图 2 误差校正句法分析 用句法方法识别文字的主要困难是笔划不易被计算机正确地提取。 如图2 - 6 所示,在用细线方法提取图2 - 6 ( a ) 的笔划及其相互关系时,理想的结果当 然是图2 - 6 ( b ) ,而实际上却常常出现图2 6 ( c ) 的情况,这样就与图2 - 6 ( d ) 的情况混淆 了。实际上,模式的变形及噪声经常存在,模式的分割误差、基元及子模式的误识别, 最终会导致句子被描述的该类文法所拒绝。因此,提出了误差校正的句法分析方法来解 决实际的变形及噪声问题。 丫 ( 8 ) 输入笔道( b ) 理想细化结果( c ) 实际细化结果( d ) 另一种笔道 图2 - 6 用细线化方法抽取笔道的例子 所谓误差校正程序就是将描述模式的文法进行扩展,使扩展后的文法不仅包含正确 的文法,而且还包含可能的变形及误差。这就是说,对于每一个文字,计算机都保存有 一个对这个字的文法描述,而输入待识文字,根据提取的笔划及其组合也有一个文法进 1 7 兰州大学研究生学位论文一种基于特征提取的脱机手写汉字识别技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论