已阅读5页,还剩54页未读, 继续免费阅读
(检测技术与自动化装置专业论文)基于变精度粗糙集的手写体汉字识别方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于变精度粗糙集的手写体汉字识别方法的研究摘要脱机手写体汉字识别是当前模式识别领域的研究热点之一,具有广泛的应用前景。由于手写体汉字笔划种类繁多、不同人的书写差异较大等因素的存在,特征选取及分类识别仍是手写体汉字识别中的重要课题。本文研究了变精度粗糙集理论相关概念方法与手写体汉字识别之间的关系,将手写体汉字图像的特征属性作为条件属性,汉字样本的真实属性作为决策属性,构建出了脱机手写体汉字识别决策信息系统。尝试采用变精度粗糙集理论中的特征约简和模型推理方法来研究解决手写体汉字的特征选取和分类识别问题。本文的主要工作如下:1 脱机手写体汉字识别决策信息系统的构建。从粗糙集理论的广义信息系统角度出发,将多种手写体汉字特征融合成一组多维手写体汉字特征向量作为条件属性,将汉字样本真实性先验知识作为决策属性,构建出一种手写体汉字识别决策信息系统。2 手写体汉字的特征属性约简。基于变精度粗糙集模型,给出了近似依赖度和互信息增量两种手写体汉字特征属性重要度的定义,设计出了手写体汉字特征属性的近似约简算法,能有效地对手写体汉字冗余特征属性进行约简。3 手写体汉字的容错识别。针对手写体汉字识别过程中存在的不确定性,提出了一种基于加权规则置信度的规则融合识别方法,给出了三种不同情况下的手写体汉字识别策略,提高了推理决策规则的泛化能力,减少了汉字的拒识率。4 手写体汉字识别实验。选取s c u t o i r a c 手写体汉字图像数据库中2 5类共1 0 0 0 个手写体汉字图像样本,对文章研究的基于变精度粗糙集的手写体汉字识别方法进行了验证,实验结果表明,该方法是有效可行的。关键词:变精度粗糙集;手写体汉字识别;特征属性约简;规则融合r e s e a r c hr e c o g n i t i o no fh a n d w r i t t e nc h i n e s ec h a r a c t e r sb a s e do i lv a r i a b l ep r e c i s i o nr o u g hs e ta b s t r a c to f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o ni so n eo ft h em o s tp o p u l a rr e s e a r c hp o i n t si np a t t e r nr e c o g n i t i o nf i e l d ;i tw i l lb ew i d e l yu s e di nm a n yf i e l d s b e c a u s eo fs u c hf a c t o r s :t o om a n yt y p e so fh a n d w r i t t e nc h i n e s ec h a r a c t e rs t r o k e s ,l a r g ed if f e r e n c e sb e t w e e nd i f f e r e n tp e o p l e sw r i t i n g f e a t u r es e l e c t i o na n dc l a s s i f i c a t i o na r es t i l lt h ei m p o r t a n tt o p i c so fh a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n b ys t u d i e dt h er e l a t i o n s h i pb e t w e e nv a r i a b l ep r e c i s i o nr o u g hs e tt h e o r ya n dh a n d w r i t t e nc h i n e s ec h a r a c t e r sr e c o g n i t i o n ,o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nd e c i s i o ni n f o r m a t i o ns y s t e mw a sc o n s t r u c t e di n t h i sp a p e r t h ec o n d i t i o na t t r i b u t e sw e r ed e f i n e da st h ef e a t u r ea t t r i b u t e so fh a n d w r i t t e nc h i n e s ec h a r a c t e ri m a g e s ,d e c i s i o na t t r i b u t ew a sd e f i n e da st h er e a lp r o p e r t yo fc h i n e s ec h a r a c t e rs a m p l e s t r yu s i n gt h ef e a t u r er e d u c t i o na n dm o d e li n f e r e n c em e t h o d so fv a r i a b l ep r e c i s i o nr o u g hs e tt h e o r yt os t u d ya n ds o l v et h ef e a t u r es e l e c t i o na n dc l a s s i f i c a t i o np r o b l e m so fh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n t h ef o l l o w i n ga r et h em a j o rc o n t e n t si nt h et h e s i s :1 o n ek i n dh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o nd e c i s i o ni n f o r m a t i o ns y s t e mw a sc o n s t r u c t e db a s e do nt h ec o n c e p to fi n f o r m a t i o ns y s t e mi ng e n e r a l i z e dd o m a i nd e f i n e db yr o u g hs e t v a r i e t yf e a t u r e so fh a n d w r i t t e nc h i n e s ec h a r a c t e r sw e r ef u s e di n t oam u l t i d i m e n s i o n a lf e a t u r ev e c t o ro fh a n d w r i t t e nc h i n e s ec h a r a c t e r sa sc o n d i t i o na t t r i b u t e s ,t h et r u ev a l u eo fc h i n e s ec h a r a c t e rs a m p l ew a st a k e na sd e c i s i o na t t r i b u t e 72 t h ed e n n i t i o n so ft w ok i n d sh a n d w r i t t e nc h i n e s ec h a r a c t e ra t t r i b u t es i g n i f i c a n c ew e r eg i v e n h a n d w r i t t e nc h i n e s ec h a r a c t e rf e a t u r ea t t r i b u t ea p p r o x i m a t er e d u c t i o na l g o r i t h mw a sd e s i g n e db a s e do nv a r i a b l ep r e c i s i o nr o u g hs e t i tc a nr e d u c et h er e d u n d a n tf e a t u r ea t t r i b u t e so fh a n d w r i t t e nc h i n e s ec h a r a c t e re f f e c t i v e l y 3 a st h ee x i s t e n c eo fu n c e r t a i n t yi nt h ep r o c e s so fh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ,o n er u l e sf u s i o nr e c o g n i t i o nm e t h o db a s e do nw e i g h t e dc o n f i d e n c ew a sp r e s e n t e d i nt h r e ed i f f e r e n ts i t u a t i o n s ,h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o ns t r a t e g yw a sg i v e n ,t oi m p r o v i n gt h eg e n e r a l i z a t i o na b i l i t yo fd e c i s i o nr u l e s t h er e je c t i o nr e c o g n i t i o nr a t eo fc h i n e s ec h a r a c t e rw a sr e d u c e d 4 h a n d w r i t t e nc h i n e s ec h a r a c t e r si ns c u t - i r a cw e r es e l e c t e d t h er e c o g n i t i o nm e t h o d so fh a n d w r i t t e nc h i n e s ec h a r a c t e ri m a g e sb a s e do nv a r i a b l ep r e c i s i o nr o u g hs e tw e r ev a l i d a t e d t h ee x p e r i m e n tr e s u l t ss h o w nt h a tt h o s em e t h o d sa r ee f f e c t i v e k e y w o r d s :v a r i a b l ep r e c i s i o nr o u g hs e t ;h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ;a t t r i b u t er e d u c t i o n ;r u l e sf u s i o n插图清单1 1 脱机手写体汉字识别系统流程框图32 1 基于粗糙集的手写体汉字的知识表示和获取流程图1 43 1 汉字冷的灰度图及二值化图一1 63 23 3 平滑窗口1 73 3 汉字图像样本库中的汉字样本一1 83 4 经大小归一化后的汉字样本1 83 。5 手写体汉字“诗 的水平和垂直直方图一1 93 6 汉字“诗 的粗轮廓特征提取示意图2 03 7 汉字“大”和“太 的粗网格特征示意图2 13 8 一级小波分解示意图2 15 1 基于变精度粗糙集的手写体汉字识别流程图3 46 1“创 字的原始样本图像3 76 2 “创”字经预处理后的样本图像3 7图图图图图图图图图图图图图表2 i表4 1表5 i表6 1表格清单手写体汉字识别决策信息表示例1 3离散化后的手写体汉字识别决策信息表2 7简化后的手写体汉字识别决策信息表3 3脱机手写体汉字识别结果3 8独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得金壁王些盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签字:葡以缸签字日期:少卢年俨月2 罗日学位论文版权使用授权书本学位论文作者完全了解金壁王些太堂一有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或潜阅。本人授权金壁王些盔堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。r 保密的学位论文在解密后适用本授权书)学位论文者签名:强大缸签字日期:少肛年舻b 潞日学位论文作者毕业后去向:工作单位:通讯地址:导师签名:签字日期:乡彰口年牛月岛瞩电话:邮编:致谢本文的主要工作是在我的导师王建平教授的悉心指导下完成的。王建平老师以渊博的知识、严谨的治学态度、敏锐的思维和非凡的敬业精神给予了我专业的指导,为我树立了为人处事的楷模。同时,王老师还以真诚热心的关怀给予了我生活上的帮助,使我受益良多。在此向王老师表示最诚挚的谢意!衷心感谢朱程辉副教授,朱老师认真的工作态度、严谨细致的工作作风以及学习生活上热心的帮助尤为让我感动。在此向朱老师表示深深的感谢! 感谢徐晓冰、钱自拓、秦剑和赵丽欣老师,谢谢你们在学习和生活上对我的帮助。感谢电气学院的全体老师,他们的教诲为本文的研究提供了理论基础,并创造了许多必要条件和学习机会。感谢同窗好友任冉冉、王二帅、徐奇、秦朗、叶福林同学,和你们一起度过的时光将是我人生的美好回忆;在实验室期间,得到了孙伟、项思俊、陈正伟、邵威、方或、何勇、张磊、栾庆磊、金铁江和梁祥莹同学在学习和生活上的热情关心和无私帮助,在此向他们表示衷心的感谢;感谢同实验室的贺军、陈克琼、陈良锋、焦其意、徐小丽、曹慧颖等同学的关心和帮助。感谢我的父母及家人。他们用辛勤的劳动和无私的关怀给了我学习和生活的物质精神支持,感爱之心,无以言表,他们永远健康快乐是我最大的心愿!感谢所有关心和帮助过我的同学和朋友!作者:张大敏2 0 10 年4 月第一章绪论语言文字是人类思想的载体,人们将文字记录在羊皮、纸质等媒介上作为交流的工具。进入电子计算机时代后,原先记录在纸质等媒介上的图形文字有了以0 、l 数字编码为代表的电子化信息表示方式,这就出现了图形文字与计算机数字编码之间的转换问题。由计算机数字编码转换成图形文字叫做计算机输出,而由图形文字转换为计算机数字编码被称为字符识别,即光电字符识别( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,简称o c r ) 。汉字识别技术利用一些光电设备工具将记录在纸质或其它介质上的汉字转化成汉字图像,并输入到计算机中借助专用软件进行自动识别。作为一种高速自动的汉字信息录入方法,它是车牌识别、新闻出版、邮政自动分拣、办公自动化、银行金融票据处理、机器翻译等领域的理想输入方式,将成为未来计算机的重要智能接口,有着广泛的应用前署1 1 2 1 3 1 1 4 j o1 1 手写体汉字识别概述以识别对象不同进行划分,汉字识别可分为印刷体汉字识别( p r i n t e dc h i n e s ec h a r a c t e rr e c o g n i t i o n ) 和手写体汉字识别( h a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ) 。手写体汉字识别又可分为联机手写体汉字识另o ( o n l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ) 和脱机手写体汉字识别( o f f - l i n eh a n d w r i t t e nc h i n e s ec h a r a c t e rr e c o g n i t i o n ) pj 。联机手写体汉字识别是一种人工实时地将手写体汉字输入到计算机设备中的方法,它利用书写板等设备以坐标点序列的方式记录书写时笔尖移动的轨迹,将复杂的二维图像笔画信息转化为一维的电信号,并将这些一维的电信号输入到计算机中,这些电信号中除了含有汉字的笔画数目信息外、还包含书写时的笔画走向顺序和书写速度等信息,这使得联机手写体汉字识别相比脱机手写体汉字识别而言更为容易【6 】,目前对联机手写体汉字的研究已较为成熟,并在相关领域有了一定程度的应用。而脱机手写汉字识别直接处理的是二维的汉字点阵图像,因其缺乏书写笔划顺序等信息,使其成为汉字识别领域中的一个难点问题,目前脱机手写体汉字识别仍处于实验室研究阶段。1 1 1 手写体汉字识别的发展历程和研究现状手写体汉字识别一直是字符识别中的难点和热点问题之一。美国i b m 公司的c a s e y 和n a g y 7 】【8 j 【9 】于1 9 6 6 年发表了一篇关于印刷体汉字识别的文章,开启了汉字识别研究的热潮。进入7 0 年代中期,日本开始对手写体汉字的识别进行研究,我国从8 0 年代初期开始研究手写体汉字的识别。目前主要有中国、日本、中国台湾、美国和加拿大等国家和地区进行手写体汉字识别研究,其中中国具有手写体汉字识别实际应用研究的最高水平。日本是最早开始进行手写体汉字识别研究的国家,早在19 8 1 年v u j i 等人实现了一个手写体日文汉字识别实验系统,它对1 0 0 0 0 个字符的识别正确率达到8 5 ,打破了脱机手写体汉字识别很难的心理障碍。日本的东芝、富士通、n t t 等公司在该领域的研究较为成功,先后开发出了一些汉字识别实验装置。其中日本东芝公司于1 9 8 4 年推出的汉字识别实验装置o c r v 5 9 5 最具有代表性i l ,可以对2 2 0 0 个汉字及符号进行识别。n t t 公司于l9 8 6 年开发出了一种手写体汉字识别实验装置,可以对包括英文字母、数字等共计3 2 0 0 个汉字字符进行识别【1 1 1 。我国对o c r 的研究起步较晚,7 0 年代才开始对英文字符及阿拉伯数字的识别进行研究,对印刷体汉字的识别研究是到7 0 年代末才开始出现的,手写体汉字识别的研究则到8 0 年代初才开始进行i l2 1 。之后手写体汉字识别的研究有了很大的发展,相关研究文献不断发表在各类期刊上。1 9 8 9 年在我国首次鉴定了交互式手写体汉字识别系统,识别字符为3 7 5 5 个,该系统对书写工整的楷书进行识别的正确识别率为5 2 ,在3 8 6 微型计算机上进行识别的速度为1 4 秒字l l3 1 。19 9 6 年清华大学的“脱机手写体文本汉字识别系统”通过鉴定,该系统对书写工整的手写体汉字识别正确率为7 4 0 3 9 6 5 。1 9 9 7 年,清华大学研制的t h o c r 9 7 综合集成汉字识别系统通过国家有关单位鉴定,该系统可以完成多文种印刷体文本、联机手写汉字、脱机手写体汉字和手写数字的识别输入,其中非特定人脱机手写体汉字识别子系统,对书写较为工整的手写体汉字进行识别的正确率达到9 5 8 。随着研究的深入,一些脱机手写体汉字样本数据库也先后得到建立,如北京邮电大学建立的脱机手写体汉字数据库h c l 2 0 0 0 ;华南理工大学推出的s c u t - i r a c 脱机手写体汉字数据库。这些数据库的建立,为各种脱机手写体汉字识别及其算法的研究提供了统一的实验样本平台,使得各种识别算法研究有了可比性。目前印刷体汉字识别的应用已相当广泛,而脱机手写体汉字识别的应用,因其对用户手写汉字时的书写要求较为规范、不能实现手写体汉字单字切分的完全自动化、手写体汉字的识别正确率不高等原因都使得手写体汉字识别类产品的推广存在很大的困难。所以目前实际应用的手写体汉字识别系统大都应用于某一专用场合,如清华大学的“四库全书录入系统、北京邮电大学的“银行票据识别系统”、北京汉王科技公司的“邮政地址识别系统”等。目前国内脱机手写体汉字识别研究的主要特点是对手写体汉字识别方面的研究仍然集中在识别方法实验及相关软件的研究开发方面,在实用硬件产品设备开发方面的研究较少。1 1 2 手写体汉字识别的流程步骤脱机手写体汉字识别系统的一般由图像扫描转换输入装置、汉字分割等预处理系统、单字识别系统以及后处理系统共四部分组成,其流程框图如图1 1所示【14 1 。原输文本图像汉汉罕点阵单汉字后入字字装分识处置割别理图1 i 脱机手写体汉字识别系统流程框图图像扫描转换输入装置将原先记录在纸质或其它介质上的手写体汉字通过光电扫描设备转换成电信号输入到计算机中,形成二维的汉字点阵图像。汉字分割等预处理系统再对手写体汉字图像进行逐行、逐字切分,将切分出来单个汉字点阵图像进行灰度化、二值化、平滑去噪声、归一化等预处理1 1 5 1 操作,得到预处理归一化后的单个汉字点阵图像,再进行单字识别。单字识别包括特征提取和匹配识别两部分。特征提取是从经预处理规范化操作后的手写体汉字点阵图像中,按一定的特征提取方法提取出一组能够代表手写体汉字特征的多维向量。匹配识别是将待识别手写体汉字的特征向量与训练特征库中手写体汉字特征向量按某种方式进行匹配,以判定待识别手写体汉字的所属类别。单字识别结束后可以借助上下文联想构词法等语言知识对单字识别结果进行确认或纠错等后处理操作,可以进一步提高手写体汉字的正确识别率。特征提取与匹配识别是脱机手写体汉字识别系统中的核心,提取出稳定的、能够有效表征汉字特点的特征向量和设计出性能优良的分类识别器是整个手写体汉字识别系统研究的关键。1 1 3 手写体汉字的特点及其识别方法分析脱机手写体汉字识别研究难度大,识别正确率难以提高,主要是因为手写体汉字具有以下特点【1 3 10 6 1 :i 汉字整体数量较大:我国1 9 8 0 年颁布的国标g b 2 3 1 2 - 8 0 汉字库中两级字库共选入了6 7 6 3 个汉字,其中一级字库中常用汉字有3 7 5 5 个。汉字集中汉字数量越多,识别时需要划分的类别就越多,所以汉字识别属于超多类模式识别问题。2 汉字字体种类较多:印刷体汉字中常用字体有宋体、仿宋、楷体、黑体等,手写体汉字中又分楷书、草书、行书等字体。每种字体虽字型拓扑结构基本相同,但其笔画的长短、位置、粗细,各偏旁部件的大小比例等都存在一定的差异。这就要求脱机手写体汉字识别系统必须具有各种不同字体的模版特征库。3 汉字结构复杂、形近字较多:与拼音文字不同,汉字是由基本笔划字元组成,有些汉字笔划众多、结构复杂,其中笔划最多的汉字笔划数多达3 6 划;有些汉字虽然笔划较少,但其字形非常相似,如“大、太、犬 等,识别时必须注意这些细微差别。4 手写体汉字书写风格众多,且随意性较大:不同人书写的手写体汉字差异较大,主要表现在横、竖、撇、捺、折、点等基本笔划书写不够规范,存在笔划间存在该连的不连,不该连的却相连,笔划间相对位置差异较大等问题。这些都加大了脱机手写体汉字识别的难度,所以目前手写体汉字识别系统都对输入的待识别手写体汉字提出了书写规范要求。基于以上特点,长期以来的研究形成了多种形式各异的手写体汉字识别方法。按判别方法准则及使用的数学工具不同,手写体汉字识别方法通常可以分为基于结构的识别方法、基于统计的识别方法、结构与统计相结合的识别方法、人工神经网络方法等1 7 】【1 8 】【19 1 。1 基于结构的识别方法:该方法是早期汉字识别研究的主要方法,于上世纪7 0 年代初形成。它将提取的基本笔划作为基元,由基元之间的相互组合关系来精确描述每个汉字,再利用自动推理模型进行识别。该方法的优点是对汉字字体变化的适应性强,能够较好的区分形近相似字,但其受噪声等干扰的影响较大。2 基于统计的识别方法:该方法采用概率统计的方法来提取手写体汉字的特征向量,分类识别采用某种决策函数来进行。统计识别方法的抗噪声干扰的能力强,但难以区分形近字的细微差别。3 统计与结构相结合的识别方法:针对基于结构和统计模式识别方法各自的优缺点,用统计方法在特征提取过程中有意识的抽取能反映汉字结构信息的特征向量;在手写体汉字识别过程中,可以先采用统计方法进行手写体汉字的粗分类,再用结构方法对手写体汉字细部信息的进行区分。这种将两种方法相结合的模式识别方法是近年来手写体汉字识别的重要研究方向。4 神经网络方法【2 0 儿2 1 1 【2 2 1 :该方法可用在手写体汉字特征的抽取与选择、分类识别器的设计等方面,常用的神经网络模型有h o p f i e l d 神经网络、a r t 网络、过程神经元网络等。该方法具有通过调整模型参数可以使输出在特征空间中能够逼近任意目标的优点。缺点是对识别的过程尚缺乏较好的数学解释,识别结果难以理解,且实验工作量大等。1 1 4 当前的研究热点脱机手写体汉字识别目前主要的研究热点有:预处理技术、特征抽取与分类识别、识别字典生成、多方案集成、单字识别后处理等几个部分。其中特征抽取与分类识别是手写体汉字识别研究的关键,随着支持向量机( s u p p o r tv e c t o rm a c h i n e ) 、隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ) 等新的数学工具模型在手写体汉字识别领域的应用,形成了一些新的研究热点:1 基于仿生模式识别方法1 2 列该方法模仿人类看图识字的认知机理和过程,以仿生模式识别理论为基础,在特征空间中研究某类样本的分布状况并加以合理覆盖,来“认识 某类样本,这种方法更加接近人类的认识过程。它以“认识为目标,在学会认识事务的过程中,不需要其它类的参与,体现了一类事物与无限类事物的区别,从而具备认识无限类事物的能力,这种特性使其在属于超多类模式识别的脱机手写体汉字识别方面具有很强的优越性。2 基于支持向量机的方法【z 4 1支持向量机是目前机器学习界的研究热点,它本质上是一个凸二次优化问题,能够确保找到的极值是全局最优解,解决了b p 神经网络算法中无法避免局部极值的问题。该方法通过组合多个二值分类器来实现多分类器的构造,从而实现“一对多的手写体汉字分类识别功能,非常适合小规模字符集中相似字的分类识别。3 基于隐马尔可夫模型的方法1 2 5 】隐马尔可夫模型有严格的数学推导和成熟的实现算法,该模型是由两种机理构成的随机过程,一种机理是内在的有限状态马尔可夫链,描述了状态间的转移,在脱机手写体汉字识别中可以用来表示汉字间的统计相关性;另一种是一系列随机函数所组成的集合,描述了状态和观测值之间的统计对应关系,可以用来描述汉字与其特征向量之间的隐含对应关系。在手写体汉字识别过程中,隐马尔可夫模型通常采用基于句子的自动识别方法,可以很好的解决手写体汉字的笔画长短变化造成的噪声和模板变形问题。4 基于粗糙集理论的方法1 2 6 j粗糙集理论的核心思想是充分利用已知信息,在保持信息系统分类能力不变的前提下,通过知识属性约简从大量的样本数据中发现关于某个问题的基本知识。通过将脱机手写体汉字样本及其特征向量看作是一个知识表达信息系统,利用粗糙集理论成熟的特征约简算法和规则推理模型,实现手写体汉字冗余特征属性的约简和手写体汉字识别决策规则的挖掘。1 2 粗糙集理论的发展及其在图像处理领域中的应用1 9 8 2 年波兰学者p a w l a k t 引j 为开发自动规则生成系统及研究软计算问题首次提出了的粗糙集理论,它是一种处理不精确、不确定与不完全数据的新数学理论工具,直到8 0 年代末才逐渐引起各国学者重视。该理论与诸如概率分布、模糊理论中的隶属函数等其他处理不精确和不确定问题理论最显著的差别是可以直接从数据中发现相似关系,导出决策规则,本质上不需要任何先验知识和附加信息。19 9 1 年p a w l a k 在一本正式出版的专著1 2 引中给出了粗糙集理论严密的数学定义,并全面的阐述了粗糙集理论框架。当时各种针对粗糙集的理论算法和应用的研究逐渐趋热,从19 9 2 年开始,国际上成立了专门的粗糙集理论学术研究会,并定期召开以粗糙集理论与应用研究为主题的国际学术交流会议。其1 9 9 6 年召开的第五届国际粗糙集理论研讨会在日本东京举行,将粗糙集理论与应用的研究热潮带入了亚洲地区,从2 0 0 1 年开始,国内也掀起了粗糙集理论与应用的研究热潮,每年都会召开关于粗糙集理论的学术研讨会。粗糙集理论是建立在分类机制基础上的,它将分类理解为在特定空间上的等价关系,将知识理解为对数据的划分1 29 。粗糙集理论的研究对象是知识表达信息系统,其主要思想是在保存分类能力不变的前提下,通过知识约简,导出问题的分类决策规则。粗糙集理论的主要特点是可以不依赖任何先验知识,而只对数据本身进行分析,从而减少对数据本身以外知识的依赖性。它可以有效地从比较复杂数据中发现规律、提取知识,得到精简的规则模型。粗糙集理论可以用于机器学习与知识发现、数据挖掘、决策支持与分析、模式识别、专家系统等【3 0 1 3 1 1 方面的研究,目前该理论已在医疗诊断3 2 】【3 3 1 、股票数据分析1 3 4 】、地震预报3 5 1 、数据挖掘【3 6 1 、客户行为分析3 7 1 、文本分类【38 1 、入侵检测【3 9 1 等领域有着广泛的应用。粗糙集理论在图像处理和手写体汉字识别领域中也有较广泛的应用,主要表现在以下几个方面:1 图像增强方面,文献【4 0 】【4 1 】利用粗糙集理论方法,将图像样本及其特征看作为是一个知识表达信息系统,通过对决策表进行冗余特征约简和决策规则提取,得到并利用这些规则进行图像信息恢复和增强。2 数字图像数据库的检索方面,文献【4 3 将相容粗糙集理论方法应用于数字图像数据库的预检索过程中。方法是首先获取数字图像数据库中各图像的若干图像特征,然后利用这些图像特征构建出决策信息表,通过粗糙集理论方法推理出决策规则,最后依据这些决策规则进行数字图像数据库的检索,提高了图形图像的检索效率。3 图像分割方面,文献1 4 2 1 采用粗糙集理论在使用最大期望值方法处理卫星照片的多谱图像分割时进行初始化工作。4 手写体汉字图像的识别方面,文献【4 4 】在手写体数字的识别过程中,应用粗糙集理论方法约简去除冗余的手写体数字特征,选取其中有用的特征,并产生决策规则,根据这些决策规则进行手写体数字的识别。文献1 2 6 讨论了粗糙集理论中的概念和方法与字符识别之间的关系,介绍了几个常用的粗糙集在字符识别中应用的算法。以上研究实例表明,粗糙集理论方法在手写体汉字识别应用中可以完成特征的选取和决策规则的提取工作。1 3 本课题研究的意义及论文的内容安排脱机手写体汉字识别作为一个复杂的多类模式识别问题,因其广泛的应用前景,在人工智能与模式识别领域中已成为一个十分活跃的研究方向。近年来,围绕手写体汉字图像识别的研究在很多方面已取得了重要进展。但是由于手写体汉字笔划种类繁多、书写风格因人而异等因素的存在,特征提取与分类识别方法的研究仍是手写体汉字识别中的重要课题。由于脱机手写体汉字笔划种类繁多、不同人的书写差异较大等因素的存在,如何提取出一组高效稳定的手写体汉字特征至关重要。目前手写体汉字特征提取方法众多,且各有优缺点,实际汉字识别过程中经常采用多种特征提取方法组合来获取汉字特征,这些组合特征中往往存在着大量的冗余特征信息。本论文通过对粗糙集理论的深入研究,从信息系统角度出发来看待手写体汉字的识别过程,以粗糙集理论方法来约简手写体汉字特征中的冗余特征属性,力图探索一种新的特征选取和分类识别方法,以降低识别系统的复杂度,提高手写体汉字的识别速度和准确性,增加其实用性。论文共分七章:第一章:系统阐述了目前汉字识别技术的发展历程、研究现状,手写体汉字的特点及常用识别技术方法、当前手写体汉字识别领域的研究热点和粗糙集理论的发展及其在图像处理领域的应用现状,最后介绍了本文的研究意义和各章内容的安排。第二章:介绍了标准粗糙集及变精度粗糙集的相关理论基础,根据粗糙集理论对广义信息系统的定义,将手写体汉字图像的特征向量作为条件属性,训练汉字样本图像的真实属性作为决策属性,构建出了手写体汉字识别决策信息系统,为后面各章内容做了必要的理论铺垫。第三章:首先介绍了手写体汉字样本图像的几种预处理方法,接着介绍了几种不同的手写体汉字特征提取方法,将各种不同汉字特征提取方法的优缺点进行融合,得到一组新的手写体汉字特征向量,用于本文的手写体汉字特征获取。第四章:研究了基于变精度粗糙集理论的手写体汉字特征属性约简方法,分别定义出基于近似依赖度和互信息增量的手写体汉字特征属性重要度,并以此作为启发式信息设计出手写体汉字的特征约简算法。最后给出实例说明了手写体汉字识别决策信息表中特征属性的约简方法。第五章:对手写体汉字识别决策信息系统识别过程中的不确定性情况做了讨论,并针对其中待识别汉字特征属性无法与手写体汉字识别决策信息表中条件属性完全匹配的情况,提出了一种基于属性重要度的加权规则融合识别方法,减少了手写体汉字的拒识率,改善了系统的识别性能。最后给出了手写体汉字识别系统的模型结构。第六章:选取s c u t - i r a c 手写体汉字库中的部分手写体汉字图像作为实验样本,对本论文提出的手写体汉字特征提取、冗余特征属性约简、手写体汉字识别方法分别进行了验证性实验,并给出了手写体汉字的识别结果。第七章:对本文的研究工作进行总结,并指出进一步需要完成的研究工作。第二章基于变精度粗糙集理论的手写体汉字识别决策信息系统由于脱机手写体汉字字体、字型繁多,汉字数量大,所以选择高效稳定的手写体汉字特征至关重要。单一特征提取方法因为利用的汉字信息量有限,容易产生一些识别的“死角 ,所以目前汉字识别一般采用多种不相关汉字特征组合提取的方法。通常选取的多种汉字特征不一定都是对识别有用的特征,不可避免的存在着大量的冗余信息,加大了识别系统的复杂性,影响汉字的识别速度。如何去除这些冗余信息得到最佳的特征组合是一个值得研究的问题。粗糙集理论是一种处理不确定和不完全信息问题的数学工具,它是知识发现的有力工具,因其本身不需要任何先验知识,建立起来的数学模型易理解,挖掘得到的信息简洁准确,而被广泛应用于信息系统中进行知识约简。但是标准粗糙集所处理的分类必须是完全正确或肯定的,因为它是严格按照等价关系来分类的,其属性约简受数据噪声影响很大。变精度粗糙集是标准粗糙集的一个扩展,由z i a r k o e 4 5 1 于1 9 9 3 年提出,它在标准粗糙集的基础上引入了一个阈值夕( o p 0 5 ) ,即允许存在一定程度的错误分类率,具有一定的容错能力,克服了标准粗糙集因要求精确分类而对数据噪声过于敏感的缺点。本章从粗糙集理论中的基本概念出发,研究了变精度粗糙集中的相关概念和方法与手写体汉字识别之间的关系,并从广义信息系统角度出发,构建出了手写体汉字识别决策信息系统。2 1 变精度粗糙集理论概述2 1 1 标准粗糙集理论的基本概念1 不可分辨关系在不同的范畴领域内,可以将“知识”理解成多种不同的含义。在粗糙集理论中,“知识 被理解为是一种分类能力,可以用属性和相应的值来描述。例如球体集合中的元素具有“材质、“大小 、“颜色三种属性,则通过这三种属性不可能被区分出两个大小相同的白色铁球,即在现有的知识体系下我们不能对其做进一步的区分,这就是两者之间的不可分辨关系。不可分辨关系是粗糙集理论的基础,它是指在现有的知识属性范围内,不可能通过已有的信息来辨识对象【4 6 1 。如果想做进一步的区分,需要增加新的知识属性。定义2 1 :设u 是非空有限论域,r 为u 上的二元等价关系,r 称为不可分辨关系,序对s = ( u ,月) 称为近似空间。v ( x ,y ) u u ,若( 石,j ,) r ,则称z 与y 在近似空间s 中是不可分辨的。u 尺表示u 上由不可分辨关系r 生成的全体等价类,称由叫尺产生的等价类组成的集合为基本集,它构成了非空有限论域u 的一个划分,每个基本集都不同于其它所有的基本集。若将论域u 中的集合称为知识,则s = ( u ,r ) 可以称为知识库。空集及任意有限的基本集的并集都称作可定义集,否则称为不可定义集。可定义集又叫精确集,它可以在知识库中被精确地定义,以表征已知的知识信息。定义2 2 :设s = ( u ,月) 为近似空间,u 是非空有限论域,足是u 上的等价关系,如果x u ,则定义丝= u x u ,【x 】r x ) 为肖关于r 的下近似集;定义x 关于尺上近似集为r x = 缸u , x 】rnx a 。下近似型也称为x 关于r 的正区域,记为p o s ( x ) ,下近似集型表示根据现有知识判断出肯定属于x 的对象所组成的最大集合;上近似集融表示根据现有知识判断出可能属于x 的对象所组成的最小集合。2 知识表达系统与决策表粗糙集理论中的知识表示一般采用信息表的形式来描述。定义2 3 :设s = ( u ,a ,v ,厂) 是一个信息系统,其中u = x l ,x 2 ,x 。 表示对象的非空有限集合,即论域;4 表示全体属性集,v = u v o ,v a a ,v o 是属性a 的值域;f :u a v 是一个信息函数,它为每条属性赋予一个值,即v a a ,x u ,f ( x ,a ) 圪。若非空有限属性子集p a ,称二元关系i n d ( p ) = ( x ,y ) u uiv a p ,f ( x ,a ) = f ( y ,d ) 为s 上的不可分辨关系。定义2 4 :设s = ( u ,a = cud ,v ,) 是一个决策信息系统,其中cnd = 彩,c 为条件属性集,d 为决策属性集,也可以将这种具有条件属性和决策属性的信息系统称为决策表。3 知识约简通常情况下,决策表中的知识属性并不是同等重要的,其中可能存在一些冗余知识属性。知识的相对属性约简其实就是在保持决策表中条件属性部分相对于决策属性部分的分类能力不变的前提下,删除其中冗余的知识属性信息。约简及约简核【4 7 】是知识属性约简中的两个重要概念。其定义如下:定义2 。5 :设u 是非空有限论域,尸是u 上的等价关系,且,p ,如果i n d ( p 一 r ) ) = i n d ( p ) ,则称,是p 中绝对不必要的;否则,称,是p 中绝对必要的。绝对不必要的关系是冗余的,可以将它从知识库中删除,而不会改变原先的分类能力,但如果删除了绝对必要的关系,则一定会改变原先的分类能力。假如每个,- 尸都是尸中绝对必要的,则称等价关系p 是独立的;否则等价关系尸就是相互依赖的。相互依赖的关系簇是可以进行冗余关系属性约简的,而独立的关系簇不可以再进行约简,否则会改变知识库中原先的分类能力。定义2 6 :设尸,9 为非空有限论域u 上的等价关系簇,且q p ,如果i n d ( p ) = i n d ( q ) ,则称等价关系q 为p 中一个绝对约简;p 中所有绝对必要关系所组成的集合称为尸的核集,记为c o r e ( p ) 。由以上定义可见,p 中可以存在多种约简形式,而属性核其实就等于所有约简形式的交集,即c o r e ( p ) = n 朋d ( 尸) ,其中r e d ( p ) 表示等价关系p 中的所有绝对约简。定义2 7 :设尸,q 为非空有限论域u 上的等价关系簇,且,p ,如果p o s 尸( q ) = p o s 尸_ , ( q ) ,则称,为等价关系尸中相对于等价关系9 是可以省略的;否则,就称,为尸相对于q 是不可以省略的。如果等价关系p 中每一个厂都是尸中相对于9 不可省略的,则称等价关系p 相对于q 是独立的。定义2 8 :设p ,q 为非空有限论域【,上的等价关系簇,若p 相对于q 的独立子集rcp ,满足p o s r ( q ) = p o s 尸( q ) ,则称独立子集s 为等价关系尸相对于q的约简。p 中所有相对于q 不可省略的关系的集合称为p 的q 核,记为c o r e q ( p ) 。尸的q 核是尸的所有q 约简的交集,即c o r e q ( 尸) = n r e d o ( p ) ,其中r e d o ( p ) 为p 的所有q 约简。2 1 2 变精度粗糙集理论的基本概念针对标准粗糙集理论容噪能力差、规则泛化程度不高的缺陷,z i a r k ow 教授提出了变精度粗糙集理论,它通过在分类过程中允许一定程度的错误分类率鼻的存在,将传统集合论中的标准包含关系扩展为多数包含关系,这样一方面完善了近似空间的概念;另一方面也有利于从不相关的数据集中发现更多的相关数据,提高了提取规则的覆盖和泛化能力。后来a i j u n 等人将夕相关( 0 5 = o 。, ,( 2 1 )其中ixi 表示集合x 的基数,称c ( x ,功为集合x 关于集合】,的相对正确分类率。令o 5 1 一) 为x 的上近似。当= 1 时,多数包含关系就变成了标准包含关系,这时变精度粗糙集模型就变成了标准粗糙集模型了,可见标准粗糙集模型是变精度粗糙集模型的一个特例,变精度粗糙集模型是标准粗糙集模型的一般化形式。3 近似依赖度定义2 1 1 :设决策信息系统s = ( u ,cud ,v ,厂) ,( 0 5 ,l 】,属性子集pcc ,p 相对于决策属性d 的近似依赖度定义为:r ( e ,d ,) = ip o s p ( d ,) l i ui 。近似依赖度反映了在正确分类率给定的情况下,不可分别关系叫尸中信息可以划分到不可分辨关系圳d 中的对象数目,在有限论域u 中所占的比例。近似依赖度研究的是对象数目,而不是对象本身,即近似依赖度是从“量的层面来描述决策信息系统中的信息的。4 近似约简属性约简是变精度粗糙集模型中的重要概念之一,所谓一个约简就是指能够保持和决策属性的依赖性相同的最小条件属性子集,根据前面近似依赖度的定义,可以将近似约简定义如下:定义2 1 2 :设r e d ( c ,d ,) 是条件属性集c 相对于决策属性集d 的近似约简。则有r e d ( c ,d ,) 互c 且满足:( 1 ) r ( c ,d ,) = y ( r e d ( c ,d ,) ,d ,)( 2 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工方案编制选择
- 傣族饭店活动策划方案
- 户外开年活动策划方案
- 主持活动比赛策划方案
- 施工方案文档格式
- 学校参观活动策划方案
- 黑河河道施工方案
- 虹口拆除施工方案
- 防腐夜间施工方案
- 城市请客活动策划方案
- 2025交通运输部所属事业单位招聘(7人)备考考试试题及答案解析
- 四川邮政面试题库及答案
- 辅警思想政治课件模板
- 2025年电池级硫酸钴行业研究报告及未来行业发展趋势预测
- 物料标识规范管理办法
- 输电线路检修课件
- 甲状腺生化检验课件
- 2024年宠物友好型酒店市场洞察报告-澎润研究院
- DB14∕T 3187-2024 公共场所视听网络安全保护要求
- 2025医用耗材管理相关知识理论考试试题及答案
- 中华人民共和国两用物项出口管制条例考试试卷试题及参考答案
评论
0/150
提交评论