(计算机应用技术专业论文)基于笔画的联机手写汉字识别系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于笔画的联机手写汉字识别系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于笔画的联机手写汉字识别系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于笔画的联机手写汉字识别系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于笔画的联机手写汉字识别系统的研究与实现.pdf_第5页
已阅读5页,还剩99页未读 继续免费阅读

(计算机应用技术专业论文)基于笔画的联机手写汉字识别系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

安徽,:学母! i 一学位论文 摘要 摘要 随着计算机技术特别是互联网技术日新月异的发展,人类步入了信息时代。在中 国,个人计算机己进入千家万户。在计算机上使用汉字,首先遇到的问题是如何有效 地输入汉字,汉字输入直接影响着计算机中文信息处理的应用与发展。 目前,键盘输入仍是计算机汉字输入的主要方法。汉字不能像英文那样直接键入 计算机,而需要采用特殊的输入技术。汉字键盘输入方法很多,主要可归结为两类: 拼音输入法、形码输入法。 在计算机上输入汉字,大都有这样的烦恼:使用拼音法输入,常常不是拼不出, 就是读不准;想用形码法输入却往往不会拆字。针对这种情况,“手写式”输入方法 变得越来越受大众欢迎。该方法完全符合人们的日常书写习惯,与平常书写汉字时一 样,差别仅仅是使用者需要将输入的汉字写在“书写板”上,计算机通过捕获书写笔 迹的轨迹点进行汉字识别,进而完成汉字输入。 本文重点论述了一种基于汉字笔画的联机手写汉字识别系统的研究与实现,在设 计上通过实时捕获书写笔画的轨迹,识别出汉字的笔画,再根据笔画序列查找对应的 汉字;在实现上不必需专用的“书写板”, 字输入的工具。 联机手写汉字识别方法分为2 大类: 仅用鼠标或者笔记本的触摸屏作为手写汉 基于整字识别的方法和基于笔画识别的方 法。本文采用的是后者,即先识别用户输入的笔画再根据所识别的笔画集合查找汉字 的2 级识别方法。这种基于笔画的联机识别的特点是写一笔、识别一笔。在识别过程 中笔画识别是汉字能否正确识别的前提和关键。 论文所采用的笔画识别方法是以笔画方向码的概念为基础。笔画可以细分成笔画 段,本文将这些笔画段分别用8 个笔画方向码来表示。在书写笔画的过程中,笔画轨 迹是由一系列坐标点组成。这些坐标点是离散的,并且相邻两点的连线是计算机所能 分辨的一段最小直线。本文用8 个笔画方向码标记每1 段最小直线所属的方向。每1 个笔画的书写轨迹都可以产生出1 个方向码序列即当前笔画的笔段序列。算法通过对 方向码序列滤波、归并之后得到笔画的最简方向码序列,依照笔画特征字典用动态规 划法获得所有可能的笔画集合,从而完成笔画的识别,其中也包括了部分连笔部件的 识别。 由于手写的随机性,手写的笔画因人而异、因时而异、因书写条件、设备和环境 而异。所以在识别过程中,对于相同的笔画,不同的书写者,系统获得的方向码序列 l 宜徽人学形lf 学位论文 摘螫 是不一样的。这就要求系统具有良好的自学习功能,对于新的丁f 确模式,能够进行学 习记忆。本文主要讨论了文法学习方法来增强识别系统的自学习能力。 论文设计了基于汉字笔画的联机手写汉字识别系统的工作流程,串行和并行方 式。汉字识别中主要讨论了5 个问题:( 1 ) 单一笔画的识别方法;( 2 ) 连笔笔画识别 方法:( 3 ) 分析识别字典的种类以及相关问题;( 4 ) 笔画串的匹配问题;( 5 ) 讨论省 略符在笔画输入中的作用以及相关问题。本文最后讨论一种基于笔画的手机输入法的 设计思想和测试整句输入j 下确率的方法。 论文研究的手写汉字识别系统开销小,能有效节省软硬件资源,适用于嵌入式系 统和单片机,有很大的应用前景。 关键词:联机手写汉字识别;笔画;方向码:笔段;模式识别;识别字典 窒壁叁兰竺! :兰竺堡兰 垒! 璺竺 a b s t r a c t w i t hc o m p u t e rt e c h n o l o g y , e s p e c i a l l yt h er a p i dd e v e l o p m e n to fi n t e r a c tt e c h n o l o g y , m a n k i n de n t e r e dt h ei n f o r m a t i o na g e i nc h i n a , m a n yf a m i l i e sh a v ep e r s o n a lc o m p u t e r s 1 1 1 eu s eo fc h i n e s ec h a r a c t e r si nc o m p u t e r s ,f i r s te n c o u n t e r e dt h ep r o b l e mi sh o w t o e f f e c t i v e l yi n p u tc h i n e s ec h a r a c t e r s c h i n e s ec h a r a c t e ri n p u td i r e c t l ya f f e c t i n gt h e c o m p u t e ra n di n f o r m a t i o np r o c e s s i n ga p p l i c a t i o nd e v e l o p m e n t c u r r e n t l y , c o m p u t e rk e y b o a r di n p u ti s t l l em a i nc h a r a c t e ri n p u tm e t h o d e n g l i s h c h a r a c t e ri n p u ti n t ot h ec o m p u t e rd i r e c t l y , n o tc h i n e s ew h i c hr e q u i r et h eu s eo f s p e c i a lt e c h n i c a li n p u t m a n yc h i n e s ek e y b o a r di n p u tm e t h o d s ,m a i n l yb o i ld o w nt o t w oc a t e g o r i e s :p i n y i ni n p u tm e t h o da n dc o d e si n p u tm e t h o d i nt h ec o m p u t e rt oi n p u tc h i n e s ec h a r a c t e r st h a th a v es u c hw o r r i e s l e nu s i n go f p h o n e t i ci n p u tm e t h o d n s e rp r o n u n c i a t i o ni sn o tc o r r e c t w 1 l e nu s i n go fc o d e si n p u t m e t h o d ,u s e rd on o tk n o wc h i n e s ec o u n t e r p a r t si nt h ec o d i n g i nl i g h to f t h i ss i t u a t i o n , h a n d w r i t t e ni n p u tm e t h o dh a sb e c o m ei n c r e a s i n g l yp o p u l a r w r i t t e ne n t i r e l yi n a c c o r d a n c ew i t ht h ep e o p l e sd a i l yh a b i t s w h e nw r i t i n gc h a r a c t e r s ,n s e l so n l yb e e dt o i n p u tt h ec h i n e s ec h a r a c t 豇 si n ”w h i t e b o a r d a n dc o m p u t e rt r a c k sp o i n tt oc a l :t u r e h a n d w r i t i n gr e c o g n i t i o nt o w r i t ec h i n e s ec h a r a c t e r s ,a n dt h e nc o m p l e t e di n p u t t i n g c h i n e s ec h a r a c t e r s t l l i sp a p e rf o c u s e so nac h i n e s ec h a r a c t e rs t r o k e so nt h eo n l i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o ns y s t e ma n di l sr e a l i z a t i o n n l es y s t e md e s i g n e dt oc a p t u r et h e t r a c k st o i d e n t i f y t h es t r o k e so fc h i n e s tc h a r a c t e r s ,a n dt h e ni d e n t i f y t h e c o r r e s p o n d i n gs e r i e so fs t r o k e so fc h i n e s ec h a r a c t e r s o n l yi nt h er e a l i z a t i o no ft h e n o t e b o o km o u s eo rt o u c hs c r e e ni n p u tc h i n e s ec h a r a c t e r sa sat o o l ,n o te x c l u s i v e “w h i t c b o a r d ” o n l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nc a nb ed i v i d e di n t ot w ob r o a d c a t e g o r i e s :o nt h ew h o l ew o r dr e c o g n i t i o nm e t h o da n db a s e do l ls t r o k er e c o g n i t i o n m e t h o d i nt h i sp a p e r , i ti st h el a t t e r , s t r o k ei st h ef i r s tt oi d e n t i f ya n dt h f i n do u tt h e s 订o k e so fc h i n e s ec h a r a c t e r sw h i c hi d e n t i f rt h e2l c v e lo fr e c o g n i t i o n 1 1 1 i sf e a t u r ei s b a s e do nh a n d w r i t i n gr e c o g n i t i o ni sar e a l t i m eo n l i n e i nt h ej d e n t i f i c a t i o np r o c e s s , s 仃o k er e c o g n i t i o ni sap r e r e q u i s i t ef o rr e c o g n i t i o no fc h i n e s ec h a r a c t e r sa n dk e y t l l i sp a p e ru s e st h es t r o k e si d e n t i f i c a t i o nm e t h o dw h i e hi sb a s e do nt h ec o n c e p to f s t r o k e s s a o k e sc a nb e 鼬e rs u b d i v i d e di n t os t r o k e so fp a i n t i nt h i sp a p e r , e i g h t s t r o k e sd i r e c t i o nc o d es a i d s t r o k e si nt h ew r i t i n gp r o c e s s ,as e r i e so fs t r o k e st r a j e c t o r yo ft h ec o o r d i n a t ep o i n t , w h i c hi sd i s c r e t ec o o r d i n a t e s r e nc o m p u t e rc a nd i s t i n g u i s hb e t w e e nt w oa d j a c e n t s e c t i o no ft h ec u i w ei st h es m a l l e s tl i n e a r i nt h i sp a p e r , e i g h ts t r o k e sd i r e c t i o nc o d e l a b e l i n ge a c ho n eo ft h es m a l l e s tl i n e a rr e s p e c t i v ed i r e c t i o n i nt h i sw a y , e a c ho n e s 仃o k ec a np r o d u c et r a c k sf o rw r i t i n gc o d es e q u e n c et h a ti st h ed i r e c t i o nt h ec u r r e n t o n es 订o k eo ft h ep e ns e q u e n c e b yd i r e c t i o no ft h es e q u e n c e sf i l t e r i n g ,m e r g i n ga f t e r s 打o k ec a nb et h em o s ts i m p l es e q u e n c e sd i r e c t i o n s t r o k e sf e a t t i r ed i c t i o n a r yu s i n g d y n a m i cp r o g r a m m i n g w i t ht h em a t c h i n gs e to fa l l p o s s i b l es t r o k e s ,t h e r e b y c o m p l e t i n gt h ei d e n t i f i c a t i o ns t r o k e s ,e v e ns o m eo f t h e m ,i n c l u d i n gas u mo f t h ep a r t s i 蜜徽人学硕f 埠位论文a b s t r a c i i d e n t i f i c a t i o n d u et ot h er a n d o m n e s so f h a n d w r i t i n g ,h a n d w r i t t e nc h i n e s ec h a r a c t e r so rs t r o k e sv a r y f r o mp e r s o nt op e r s o n ,a n df r o mt i m et ot i m ed i f f e r e n c e s ,w r i t i n g , e q u i p m e n ta n d e n v i r o n m e n tt oa n o t h e r s oi nt h ei d e n t i f i c a t i o np r o e e s s t h ec o d i n gs e q u e n c ei sa r a n d o md i r e e t i o n t h i sr e q u i r e st h a tt h es y s t e mi ss e l f - l e a m i n gf u n c t i o nt h a tc a r lb e u s e df o rl e a r n i n ga n dm e m o r y m a n yt y p e so fm a c h i n el e a r n i n gm e t h o d s ,t h ep a p e r d i s c u s s e dt h ei s s u eo fs t r o k er e c o g n i t i o nl e a r n i n gg r a m m a r d e s i g nb a s e do nt h ec h i n e s ec h a r a c t e rs t r o k e sp a p e r so r d i n eh a n d w r i t t e nc h i n e s e c h a r a c t e rr e c o g n i t i o ns y s t e mi nt h ep r o c e s s t w os e r i a la n dp a r a l l e lm o d e s w h o l ew o r d r e c o g n i t i o n d i s c u s s e d f i v e m a i n i s s u e s :( 1 ) i n c h i n e s ec h a r a c t e rr e c o g n i t i o n p r o c e s s f o r t h ei d e n t i f i c a t i o no fs i n g l es t r o k ea f t e rt r e a t m e n t ( 2 1c o n t i n u o u ss t r o k er e c o g n i t i o n ; ( 3 ) i d e n t i f i c a t i o no ft h et y p e so fd i c t i o n a r i e sa n dr e l a t e di s s u e s ;( 4 ) s t r i n g so f m a t c h i n g ;( 5 ) h o wt ou 辩o m i t t e ds y m b o l ei ni n p u ts t r o k e s f i n a l l y , a l s od i s c u s s e dt h e e e l lp h o n e i n p u t a n do n e w a yo f t e s t i n gs e n t e n c em e t h o d s h a n d 州t t e nc h a r a c t e rr e c o g n i t i o ns y s t e mt h e s i sr e s e a r c ho v e r h e a ds m a l ls a v i n g s h a r d w a r ea n ds o f t w a r er e s o u r c e sc a l l e f f e c t i v e l ya p p l yt oe m b e d d e ds y s t e ma n d m i c r o p r o c e s s o r ag r e a tp r o s p e c t k e y w o r d s :o n - l i n eh a n d w r i t t e nc h i n e s ec h a r m e rr e c o g n i t i o n ;s t r o k e ;d i r e c t i o nc o d e ; s t r o k ee x t r a c t i o n ;p a r e mr e c o g n i t i o n ;r e c o g n i t i o nd i c t i o n a r y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得张穴季或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 己在论文中作了明确的说明并表示谢意。 学位论文作者签名:炭久事 签字s 期:乞驴7 年产月矽日 学位论文版权使用授权书 本学位论文作者完全了解钮犬垂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阕。本人授权凄绨脖以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文枣解密后军用本授权书) 学位论文储鼢纵木导:关递闺 签字目期:王矿7 年争月琴日 签字日期:7 年年月土日 工作单位: 电话: 第一章绪论 第一章绪论 1 1 研究汉字识别的意义 随着计算机技术特别是互联网技术f 1 新月异的发展,人类步入了信息时代。 在中国,个人计算机已进入千家万户。在计算机上使用汉字,首先遇到的问题是 如何有效地输入汉字,汉字输入直接影响着计算机中文信息处理的应用与发展。 目l i i ,键盘输入仍是计算机汉字输入的主要方法。汉字不能像英文那样直接 键入计算机,而需要采用特殊的输入技术。汉字键盘输入方法很多,主要可归结 为两类:拼音输入法、形码输入法。 在计算机上输入汉字,大都有这样的烦恼:使用拼音法输入,常常不是拼不 出,就是读不准:想用形码法输入却往往不会拆字。针对这种情况,“手写式” 输入方法变得越来越受大众欢迎。这个方法完全符合人们的书写习惯,使用者只 要像平常书写汉字时,将需要输入的汉字写在“书写板”的设备上,计算机通过捕 获书写的笔迹轨迹点从而进行识别汉字,进而完成汉字输入。 汉字的计算机识别是模式识别领域的一个重要应用,其任务就是研究如何使 计算机能“识字”,它是智能计算机接口的一个重要组成部分,也是汉字信息处 理的一个重要环节1 2 3 1 。 联机手写汉字识别的输入方法具有的优点如下: ( 1 ) 手写输入完全符合人们的书写习惯,人一边写、一边修改,机器一边 识别。这种方法简单直观,方便使用。 ( 2 ) 手写汉字识别技术可作为一种高速信息自动录入手段,也可作为未来 计算机的重要智能接口,还可作为办公自动化、机器翻译、新闻出版等领域理想 的输入方式,有着广阔的应用前景【4 】。 ( 3 ) 汉字识别后将庞大的点阵图像压缩成机器内码表示,能减少存储容量 和通讯交流的信息量。 ( 4 ) 手写汉字输入方式可以代替或部分代替键盘编码的汉字输入方法,该 方法无需学习训练和记忆汉字编码规则,是种最直接和自然的输入方法。 ( 5 ) 联机手写汉字识别的应用范围很大,只要具备一定的识别率和识别速 度,它可以用在各种电子设备上以取代键盘输入。 安徽人学坝i 学位论文幂于笔哪的联机丁写汉,识别系统的研究7 j 实现 汉字识别不但在实际应用方面十分重要,而且在理论研究方面也有具有重大 意义。汉字数量庞大,即模式类别很多,是大类别( 或者称为超多类) 模式识别 问题。汉字识别还涉及到图像处理、人工智能、形式语言和自动机、自然语言理 解、模糊数学、组合数学、信息论、计算机、中文信息处理等学科,也涉及到语 言文字学、心理学、仿生学等,是- f - j 综合性技术l ”。汉字识别在理论和技术上, 都有大量问题需待研究。目前,笔迹鉴别( s c r i p ti d e n t i f i c a t i o n ) 以及利用汉字识 别技术制成的自动阅读机( 或盲文阅读机) 等,对扩大计算机在国民经济各部门 的应用有实际意义。 联机手写汉字识别的输入方法,具有不需要记忆编码方案和键盘操作的优 点,特别适合于大众,有着极大的市场潜力。但是,这种输入方法能否最终为人 们接受,主要取决于识别技术是否能够满足人们的需要。面就目前这一技术的发 展状况来看,还没有达到成熟的程度,特别是对自然书写的识别率等方面还无法 达到实用要求。 1 2 汉字识别概述 汉字识别( c c r ) 是文字识别( 如数字、汉字、英文、蒙文、藏文、韩文、 日文等) 的一个具体问题。通俗地说,就是用计算机自动识别印刷在纸上和人写 在纸( 或介质) 上的汉字。 1 2 1 汉字识别的研究范围 汉字识别研究范围可以用图l ,1 形象地表示出来,它构成了三维空问【5 】。按 识别文字类型包括联机手写体汉字识别( o n 1 i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r r e c o g n i t i o n ,简称o l c c r ) ,单体印刷体汉字识别( s i n g l e f o n t 研n t e dc h i n e s e c h a r a c t e rr e c o g n i t i o n ,简称s p c c r ) ,多体印刷体汉字识别( m u l t i f o mp r i n t e d c h i n e s ec h a r a c t e rr e c o g n i t i o n ,简称m p c c r ) ,手写印刷体汉字识别( h a n d p r i n t e d c h i n e s ec h a r a c t e rr e c o g n i t i o n ,简称h c c r ) ,手写行书汉字识别( h a n dr u nc h i n e s e c h a r a c t e rr e c o g n i t i o n ) 等:按识别文字和版面质量包括高、中、差三种:按文字 数量和版面复杂程度包括一级、二级文字、1 0 0 0 0 汉字和简单、中等、复杂三种 版面。 2 第一帚绪论 文字类型 文字版面质量 文字数量( 版面复杂程度) 幽l i 汉字识别的研究范崩 1 2 2 汉字识别系统的构成和识别方法 和其他模式识别一样,汉字识别的基本原理也是匹配判别。抽取代表未知汉 字模式本质的表达形式( 例如各种特征) 和预先存储在机器中的标准汉字模式表 达形式的集合( 常称识别字典) 逐一匹配,用一定的准则进行判别从标准汉字 模式表达形式的集合中,找到最接近输入文字的模式表达形式,该表达形式对应 的字就是识别结果。一般汉字识别系统由4 部分组成:输入,前处理,后处理, 输出。 图文扫描仪是汉字识别的输入设备,它以线型c c d 器件作横向扫描,用电 机移动扫描头或者摆镜做纵向扫描,使汉字文本上的汉字图像变换成模拟电量, 经模数转换后成为一个带灰度值的数字化的图像信号,再经过二值化处理( 即将 灰度值的图像信号变换成只有黑和白的二值化图像信号) 存入计算机。 前处理( 又称预处理) 环节的内容和要求主要取决于当前使用的识别方法,通 常包含汉字文本图像处理、分析、行切分、字切分、规范化( 文字尺寸、位置、 笔画粗细等规范) ,还有整形变换、抽取轮廓等预处理。前处理后,每一页汉字 文本图像就成为一个个单独的并且规范化的二值点阵汉字集合,其中黑色的部分 代表笔画,白色的部分是文字的空白背景。 后处理是从汉字单字辨识出代码到输出正确的文本文件之间的处理过程。主 要是利用语言知识对识别结果进行进一步加工( 如,自动纠错和侦错) 。汉字的 安徽人学硕卜学位论文 肇十笔i 面的联机于- 汉,识别系绩的研究,实现 模式表达形式和相应的字典形式有多种,每种形式可以选择不同的特征( 或基 元) ,每种特征( 或基元) 又有不同的抽取方法。这些就使得判别方法和准则以 及所用的数学工具不同,故形成了种类繁多、形式各样的汉字识别方法。具体应 用时通常还需要加入模糊数学和人工智能的方法束增强识别率。后处理中自学习 功能也是一个重要组成部分。学习是根据多个未知字样( 一个文字的不同字样) 抽取出特征,自动构造、修改或充实字典,从而可以不断提高系统识别率。 图1 2 是汉字识别系统的整体流程。它包含汉字图形输入装置、预处理器、 识别器和后处理器等几个主要坏节。 l l ti 2 汉字识别系统 识别方法是整个系统的核心。识别方法主要有统计模式识别和结构模式识别 两大类 j 6 , l s l 。 ( 1 ) 统计决策法 统计决策方法是提取待识别的输入模式( 例如一个汉字) 的一组统计特征, 形成该模式的多维特征向量,再依据一定准则确定的决策函数,和标准的识别模 式( 例如3 7 5 5 个汉字) 对应的多维特征向量进行逐一匹配判别,找出其特征最 接近输入模式的标准模式,该模式就作为未知输入的识别结果。 统计决策法发展较早,理论也较成熟。理论支柱是概率论和数理统计,要点 是提取待识模式的一组统计特征向量,然后按照一定准则所确定的决策函数进行 分类判断。在汉字识别中,国外学者大多采用这种方法,如变换系数法。这种方 法着眼于向量特征,便于特征提取和分析计算,主要优点是抗干扰力强,缺点是 抽取好的特征较为困难,并且不能反映精细的模式结构特征。它往往把汉字图形 表示成是一种随机的二维点阵,不考虑汉字结构上的特点,也不利用它所具有的 结构信息。 。 ( 2 ) 句法结构法 ,汉字是一种特殊的两维图形,结构信息丰富且有规律性。所以,在统计决策 方法中,如果仅把汉字看成一般的两维图形。而不利用其特殊的结构信息是很可 4 第一章绪论 惜的。在汉字识别中,应当充分提取汉字结构信息和组字规律。 结构方法就是把被识别的模式看成是出若干较简单的予模式按一定规律构 成的集合。这些子模式又可继续按定规律分解为更简单的子模式,直到最后分 解到基元为止。基元是组成一个模式的最简单的而且不再分割的子模式,这和一 个句子由单词、短语等按语法规则组成类似。见图1 3 。在形式语言学中,对句 子的生成作了严格的描述和规定,它用句法规则检验句子是否符合某类语言的文 法。我们可借用形式语言学的文法g ( 它包含了句法规则) 来描述和分析汉字结 构,从而来识别汉字,所以,这种方法也叫句法结构方法。但是,出于汉字字形 变形的随意性和各种干扰的存在,严格按句法结构方法识别汉字是很困难的。 冈 【一 幽1 3 字语法树和句子再部分关系的对比 句法模式识别系统如图1 4 所示,直线上方为识别部分,下方为分析部分。 其中识别部分由预处理、基元提取和句法( 结构) 分析组成;而分析部分包括基 元选择及文法( 或结构) 推断两部分。在句法结构方法中,一个模式由个句子 表示。该句子属于一个文法所规定的语言,用一组模式基元和它们的组合关系来 提供模式结构描述的语言,支配基元组合成模式的规则由所谓模式文法来确定。 首先要为待识模式选择基元,在选择了基元后,下一步是构造一个或多个文法, 以便生成一个或多个语言来描述e 在研究的模式。 圈1 4f u 法模式识别系统 安徽人掌颀:学位论文泉千笔面的联帆下写汉,识别系统的研究7 i 实现 模式识别的句法分析方法,近些年越来越受重视,它具有结构处理能力,是 模式识别中发展较为成熟的一种方法。句法结构法的优点是能够反映模式的结构 特征,用来描述汉字字形结构在理论上是比较恰当的,而且对模式结构的畸变不 敏感,因此适合于联机手写字符识别,在手写汉字识别方面也已得到初步应用。 统计法适宜识别有噪声的文字,它可以把局部噪声和微小畸变“淹没”在多维 特征值的累加和罩,但是可以用来区分结构的敏感部位的差异也随之被“淹没” 了,所以它不能很好地利用汉字结构信息;而结构法可以利用字形的结构规律来 识别,对文字变体、变形适应性好,但是,也正因为它对结构特征的敏感性,导 致了它的不稳定性和抗干扰能力低。所以,把统计法和结构法两者结合起来,存 优去劣,在统计法中,汉字特征的选择和抽取充分考虑字形结构信息,在结构法 中应用统计方法的模式分稚性质,这是当前汉字识别方法的主要发展方向。 1 3 联机手写汉字识别( o l c c r ) 联机手写汉字识别就是指用户一边写字,机器一边识别处理,是一种实时识 别方式。识别以笔面为单位,然后根据一个汉字的笔画组合、笔画之自j 的相对位 置和关系,最终识别出汉字【9 】。 1 3 1o l c c r 概述 在汉字识别系统中被识别的模式是方块汉字。如图1 1 所示,方块汉字有印 刷体和手写体之分,因此识别系统可分为印刷体汉字识别系统和手写体汉字识别 系统两种。后者按书写时间与识别时间的关系,又可分为实时识别和非实时识别, 即联机识别和脱机识别两种方式【3 , 1 0 。 联机手写汉字 : 别是一种良好的人机通信方式,具有简捷、自然的特点,一 直是智能计算机接口的研究重点,是一种人工实时把汉字输入计算机的方法。这 种方法在操作上和击键输入不同,使用者只要在专用书写板上按常规方法书写, 就可以把汉字输入计算机。书写者不必学习击键的编码方案,可减轻学习一种操 作方法的负担,书写方法和日常习惯基本相同。这对普及计算机应用,促进办公 自动化,都很有好处。 从模式识别的角度看,联机和脱机两种情况在本质上有重要区别,识别方法 也有所不同1 3 1 。 脱机手写体与印刷体汉字识别的识别对象是已经写好或印好的方块汉字,也 6 第一章绪论 就是说,待识模式是一种特殊形式的二维汉字点阵图形或图像。 联机( 也称实时或在线) 手写汉字识别系统的识别对象虽然也是方块汉字, 但是构成汉字的笔画在书写时是按照书写顺序依次送入计算机的,即人一面写, 机器一面识别。因而,事实上已经把一个二维图形分解为维的笔画序列。联机 识别利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔 尖移动轨迹,因而被处理的是一维的笔画串。这种笔画串既含有笔画数目、笔画 走向、笔顺和书写速度( 甚至还有笔尖的压力) 等信息,而且可以免去细化等预 处理环节,减少一些影响识别的因素。这是种方便的汉字输入手段,用户面向 计算机,可以利用交互方式进一步提高系统识别率。联机识别时,识别结果可以 及时反馈,显示在屏幕上,识别错了可以重写,从而对识别率的要求可以降低。 联机手写汉字识别是在各种自动识别输入的方法中,能够代替或部分代替人工编 码输入的唯一可能的方法。 1 3 2 联机手写汉字识别技术的发展与现状 汉字识别技术是在英文、数字识别的基础上,6 0 年代末首先由日本学者丌 始研究的。我国从7 0 年代末起步,研究汉字识别技术至今已有1 7 年了。大致可 以分成三个阶段1 1 , s j 。 ( 1 ) 识别方法探索阶段( 1 9 7 9 1 9 8 5 年) ( 2 ) 汉字识别系统研制阶段( 1 9 8 6 1 9 8 8 年) ( 3 ) 印刷体汉字识别和联机手写汉字识别走向实用化阶段,手写规整汉字 识别的研究进入高潮( 1 9 8 9 目前) 对于联机手写字符识别的发展历史可以追溯到上世纪五十年代,伴随着手写 板硬件的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术 的发展以及模式识别领域理论和方法研究的不断深入和完善,到八十年代后期, 联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始 研究完全无限制的整句识别技术( r t m 0 1 1c u r s i v ec h a r a c t e rr e c o g n i t i o n ) 。 联机手写体汉字识别技术不仅在理论上有重要的研究意义,而且在实际中也 有很重要的应用价值。此项研究的技术水平近几年得到了突飞猛进的发展,其研 究的焦点己集中在如何提高行书体汉字的识别率上。 安徽人学坝i 。学位论文皋于笔l 蛐的联机下q 汉识别系统的研究1 j 实现 1 4 联机手写汉字识别问题的难点 汉字识别是o c r ( o p t i e a lc h a r a c t e rr e a d e r ,光学字符读出器) 的一个重要 部分,被认为是o c r 中最困难的问题,也是o c r 研究的晟终目标,而手写汉字 识别则是难中之难。 和所有模式识别系统一样,汉字识别的主要性能指标是正确识别率和识别速 度:从实用角度看,还应考虑系统的复杂性、可靠性和价格等等。联机手写识别 问题之所以如此困难,是由其特殊性决定的,可归纳如下1 : ( 1 ) 汉字字量大 国标g b 2 3 1 2 8 0 两级汉字共6 7 6 3 个,目前我国常用汉字约3 0 0 0 4 0 0 0 个。 识别系统一般应能正确识别这些常用的字,才能满足实际应用的需要。但是,对 某一待识字进行识别时,一般必须将该字按一定准则和存储在机内的每_ 个已知 汉字逐一比较,找出其中与之最相似的字。显然,汉字集合的汉字字量越大,识 别速度越低。也就是说,汉字识别是一种超大类别模式识别问题,而类别数越大, 分类识别就越困难。为了提高识别速度,常采用树分类,即多级识别方法。采用 这种方法以后,识别速度虽然可以提高,但也可能使识别率下降。汉字集合字数 愈多,正确识别率与识别速度的矛盾愈大。这是汉字识别的主要困难之一。 ( 2 ) 字体多 汉字的手写体有楷书、行书和草书三大类,虽然不同字体的拓朴结构基本相 同,但笔画的长短、位置及姿态却有一定的差别。这给分类识别增加了难度。 ( 3 ) 结构复杂、字形相似 汉字笔画多,结构复杂。在g b 2 3 1 2 两级字库中,笔画最多的汉字有3 0 画, 平均每个汉字笔画为1 0 6 画。由于笔画多,有的汉字结构十分复杂,有的汉字 虽然笔画少,但往往字形十分相似,如“人、入”、“巳、已,己”等。这些字有 的只是一点之差,或者某笔画长短略有差别,其意义就迥然不同。这就要求分 类器能够区分非常精细的结构差别。 ( 4 ) 书写变化大 手写汉字识别的最大难点在于由书写不同引起的模式结构的变形,这种变形 因人而异,而且变形可能十分严重。抗干扰能力,也称为鲁棒性,对于联机手写 识别系统的性能是非常重要的。书写的时候,笔画的畸变、丢失,多余笔段( 如 第一章绪论 笔锋) 的插入,字的倾斜,部件问相对位置、大小的变化等,这些都是经常发生 的现象。对于结构识别来说,会造成基元提取和识别的错误。传统的结构识别方 法恰好在鲁棒性上是薄弱环节。因此,要想耿得好的性能,必须对传统识别方法 进行改进,增强其鲁棒性,从而增加实用性。 ( 5 ) 笔顺问题 由于不同人具有不同的书写习惯,笔画的书写顺序经常发生变化,因此,单 纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串 也就显得不够,必须利用一些二维方法柬描述,从而又极大地增加了匹配的难度。 研究汉字形体结构规律,提出更好的手写汉字( 包括联机手写) 识别方法。汉 字形体结构规律的研究,例如自然手写汉字的结构特点、书写的连笔规律、多人 书写风格的统计与归纳、笔画部件汉字的结构规律等是手写汉字识别的 基础研究,对孕育一个良好的手写汉字识别方法有重要作用。 在计算机技术方面,有以下几点值得重视: ( 1 ) 用非线性整形变换方法对汉字字形进行规范化处理,减少汉字变形程 度,减弱不同书写风格者书写时产生的字形差异和离散,可有效地提高手写规整 汉字的识别率。 ( 2 ) 在统计决策、结构分析、人工神经网络等方法基础上,采用模糊决策方 法和模拟人认字的知识是有益的工作。引入人辨认文字时的整体性和并行性,用 模糊知识来进行启发式评估是较好的方法。 ( 3 1 在单字识别中引入新算法。如用遗传算法对汉字特征进行筛选,找出特 征的最佳加权组合。引入自适应方法,使汉字o c r 具有自发展和自适应能力等。 1 5 论文的内容 本文主要论述了基于汉字笔画的联机手写汉字识别系统的设计与实现,给出 了笔段,笔画的识别算法和系统工作流程,共分九章。 第一章介绍论文研究的意义,论文将要讨论的联机手写汉字识别技术的相关 知识。包括汉字识别的意义、范围以及联机手写汉字识别的概念、背景、研究现 状及识别难度等。 第二章介绍汉字笔画概述及笔画分类。主要介绍了汉字特征及其表示、汉字 笔画概念及其分类,并为方便描述本文所研究的联机手写汉字识别系统,定义了 9 宣徽人学倾f 学位论义草十笔俩的联机下丐汉,识别系统的研究1 j 实现 相关术语。最后说明了研究笔画对实现联机手写汉字识别的意义。 第三章介绍汉字笔画段的识别方法。讨论了笔画段预处理的方法,给出了一 种高效笔画段识别算法。 第四章介绍了如何根据识别得到的笔画段识别出对应的笔画。讨论了单一笔 画和连笔笔画的识别,及其笔画自学习的方法。 第五章介绍如何用识别得到的笔画序列查找汉字。讨论了汉字字库的结构和 存储方法,汉字的快速查找算法,等同笔画,省略符和倒笔画的处理问题。 第六章介绍基于汉字笔画的联机手写汉字识别系统的设计与实现。讨论了系 统流程的串行设计和并行设计,并且给出了一种通用的存储结构。 第七章介绍基于汉字笔画的手机输入法的设计思想。讨论了根据s & r 中文 笔画输入法的数字小键盘输入方法的思想设计的中文笔画手机输入法。 第八章介绍了测试整句输入正确性的方法。讨论了一种简单可行的设计与实 现,并且给出了测试数据。 第九章介绍了本文结论与展望。本章对全文内容作了一个总结,介绍了我们 已经实现的问题,并对未来可行的研究方向作了探讨。 0 第一二章汉一笔l 叫概述搜笔脚分类 第二章汉字笔画概述及笔画分类 2 1 汉字的结构 从文字学的角度出发,汉字可由单字( c h a r a c t e r ) 、部件( e l e m e n t ) 、笔画 ( s t r o k e ) 三级构成。单字即一个结构完整的汉字,它是一个具有“音、形、义” 的完整的文字书写符号;部件是在汉字中反复出现的、能从字形中分隔出来的有 固定形体的笔画组合块,如“一”、“u ”、“u ”、“力”、“勺”等;笔画是指在书 写汉字时按一定走向连续写成的每一笔,如“l ”,“”等。 我们可以用形式化语言来定义汉字结构。用一个四元组( v n ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论