(计算机科学与技术专业论文)基于多agent的汉字签名认证研究.pdf_第1页
(计算机科学与技术专业论文)基于多agent的汉字签名认证研究.pdf_第2页
(计算机科学与技术专业论文)基于多agent的汉字签名认证研究.pdf_第3页
(计算机科学与技术专业论文)基于多agent的汉字签名认证研究.pdf_第4页
(计算机科学与技术专业论文)基于多agent的汉字签名认证研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机科学与技术专业论文)基于多agent的汉字签名认证研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术人学研宄,上院学位沦文 摘要 本课题旨在建立一种基于多a g e n t 的多方案集成的脱机汉字签名认证方法。现有的一些 脱机汉字签名认证强调一种特定匹配方法的应用,缺乏多方法系统综合运用的研究。本课 题的研究在确保一定的准确性的情况下,引入多a g e n t 系统,来构建一种多方法相互协调 认证的中文签名识别方法,力争使认证速度有明显提高,对汉字签名认证新思路进行一种 有益的、可行的尝试。 为此,我们选择些有代表性的特征,进行抽取和分析。构造一个多a g e n t 系统,每个 任务分别对应于一种特征抽取和分析。其最终有效特征值的确定依赖于整个系统的相互协 商、协调和协议来实现。一个a g e n t 任务则作为协商机,主要完成对最终的特征值的解释 和确认,给出一定的回答。为此,我们首先收集了一定量的签名,并有针对性地对签名图象 的预处理进行了讨论,并分析了汉字的几种统计特征:笔划密度特征、笔划方向特征、从 文字背景部分抽取笔划密度特征、抽取文字背景轮廓特征、周边差分特征等,这几种特征 包含了汉字的结构信息,可用作统计信息分析,并构造了一种能反映签名笔划轻重的灰度 级特征,灰度级特征和其它一些汉字签名的特征结合起来,对汉字签名认证程度有一定的 提高。 由于多a g e n t 系统技术日渐成熟,构建基于多a g e n t 的电子签名认证己成为解决电子 签名认证的一种有效手段,可以很好地解决现有的一些电子签名认证中强调一种特定匹配 方法的不足,利用多a g e n t 系统的协调性、分布处理和并发性,进行多种特征匹配以获得 更好的解决电子签名的认证问题,并且结合了遗传算法和模拟退火算法,提出在基于多 a g e n t 的汉字签名认证系统的任务分配新算法。最后我们综合以上研究成果设计并实现了 一个简单的认证实验系统,并对一些收集的签名进行了测试。 测试结果表明:就目前收集的一些签名而言,都相对比较成功,这在某种程度上表明 利用多a g e n t 系统进行汉字签名认证是可行的。但如果要推广应用,还缺乏大规模的测试。 从长远来看,要使之达到实用的程度,还必须进行大规模的测试,电还需要加入更多的汉 字特征,进一步提高认证率。 关键词:签名认证,多a g e n t 系统。电子签名,手写汉字识别,特征抽取 第i 页 里堕型兰垡查叁兰型 壅兰坚:i :竺堡兰 a b s t r a c t t h i sp a p e ra r m st og e ta no f f l i n e a u t h e n t i c a t i o nm e t h o do fc h i n e s eu n d e r w r i t et h a ti n t _ e g r a t e sm a n yp r o g r a m sb a s e dt h em u l t i a g e n ts y s t e m s o m eo ft h ee l e c t r o n i cs i g n a t u r ea u t h _ e n t i c a t i o ni nb e i n gs t r e s s e so n ef e a t u r e ,a n da b s e n c e st h es t u d yo ft h em a n i p u l a t i o nm u l t i - f e a t u r e o u rs t u d yi n d u c em u l t i a g e n ts y s t e m ,t oe s t a b l i s haf l e ww a yo fm u l t i f e a t u r ee a c h o t h e rh a r m o n i z e s ,a n ds h o o tt h eo b v i o u sa d v a n c eo ft h es p e e do ft h ea u t h e n t i c a t i o n t h i si s at e s to fw h o l e s o m et ot h ec h i n e s eu n d e r w r i t ea u t h e n t i c a t i o n s ow es e l e c t i o ns o m er e p r e s e n t a t i v ec h a r a c t e r sf e a t u r e sf o ra n a l y s e s ,t oe s t a b l i s ham u l t i a g e n ts y s t e mw i t he v e r yt a s kb e i n ga n a l y z e dc o r r e s p o n d i n gt oc e r t a i nc h a r a c t e rf e a t u r e s t h e f i n a lc o n f i r m a t i o no ft h ev a l i dc h a r a c t e rf e a t u r e sd e p e n d so nt h ec o o r d i n a t i o no ft h ew h o l e s y s t e m a n o t h e rt a s ki st oe x p l a i na n dc o n f i r mt h ef i n a lc h a r a c t e rf e a t u r e s t h e r e f o r e ,s o m es i g - n a t u r e sa r ec o l l e c t e d ,t h ep r e t r e a t m e n to ft h es i g n a t u r ei m a g ei sd i s c u s s e da n ds o m es t a t i s t i c a l f e a t u r e so ft h ec h i n e s ec h a r a c t e r sa r ea n a l y s i z e d t h ef e a t u r e si n c l u d ef e a t u r e so fs t r o k ed e n s i t y , f e a t u r e so fs t r o k ed i r e c t i o n s ,f e a t u r e so fs t r o k ed e n s i t ya g a i n s tt h eb a c k g r o u n do ft h ec h a r a c t e r s , f e a t u r e so ft h eo u t l i n eo fc h a r a c t e rb a c k g r o u n d ,f e a t u r e so ft h ea r o u n dd i f f e r e n c ea n ds oo n , t h e s e f e a t u r e sc o n t a i nt h es t r u c t u r ei n f o r m a t i o no nc h i n e s ec h a r a c t e r s ,s ot h e yc a nb eu s e df o ra n a l y s i s a ss t a t i s t i c a li n f o r m a t i o n w ea l s oc o n s t m c taf e a t u r eo fg r a yl e v e lt h a tc a nr e f l e c tt h ed e g r e eo f s t r o k e c o m b i n a t i o nt h ef e a t u r eo fg r a yl e v e la n do t h e rf e a t u r e sc a l la d v a n c et h ee f f i c i e n to fe l e c - t r o n i cs i g n a t u r ea u t h e n t i c a t i o n t h a n k st ot h em a t u r i t yo ft h em u l t i - a g e n ts y s t e mt e c h n o l o g y , t h ee l e c t r o n i cs i g n a t u r ea u t h , e n t i c a t i o ns y s t e mb a s e do nm u l t i a g e n th a sa k e a d yb e c o m ea l le f f i c i e n tm e a n st os o l v ee l e c t r o n i c s i g n a t u r ea u t h e n t i c a t i o n ,a n di tc a l ls o l v et h ep r o b l e mo ft h es h o r t a g eo fs o m e e l e c t r o n i c s i g n a t u r ea u t h e n t i c a t i o ns y s t e mw h i c he m p h a s i z e st h es p e c i f i cf e a t u r em a t c h i n g m a k i n gu s eo f t h eh a r m o n y , d i s t r i b u t i n gd i s p o s a la n ds i m u l t a n e i t yo ft h em u l t i a g e n ts y s t e m ,o u rs y s t e ma d o p t s m u l t i f e a t u r em a t c h i n gi no r d e rt os o l v et h ee l e c t r o n i cf e a t u r ea u t h e n t i cp r o b l e mm o f ee f f i c i e n t l y m e a n w h i l e ,t h ep a p e ra l s op u t sf o r w a r dan e wa l g o r i t h mf o rt a s ka s s i g n m e n to i ls i g n a t u r ea u t h e n t i c a t i o no fc h i n e s ec h a r a c t e r sb a s e do nm u l t i a g e n ti n t e g r a t i n gg e n e t i ca l g o r i t h ma n ds t i m u l a t e da n n e a l i n g f u r t h e r m o r eb ys y n t h e s i so fa l lo ft h ea b o v ea c h i e v e m e n t s ,as i m p l ee x p e d - m e n t a ls y s t e mi sd e s i g n e da n ds o m es i g n a t u r e sa r et e s t e d t oac e r t a i ne x t e n t ,o u rw o r kh a ss h o w e dt h a tt h es i g n a t u r e st h a th a v eb e e ns of a rc o l l e c t e d a r ea l ls u c c e s s f u l t h u si ti sf e a s i b l et os o l v et h ee l e c t r o n i cs i g n a t u r e sa u t h e n t i c a t i o np r o b l e mb y m a k i n gu s eo fm u l t i - a g e n t h o w e v e r , t h ep o p u l a r i z a t i o no ft h i ss y s t e mn e e d sl a r g e s c a l et e s t i n g f r o mal o n g - t e r mp o i n to fv i e w , t h i ss y s t e mn e e d sn o to n l yl a r g e s c a l et e s t i n gb u ta l s om o r e f e a t u r e so fc h i n e s ec h a r a c t e ri no r d e rt oi m p r o v et h ea u t h e n t i c a t i o ne f f i c i e n c y 第i i 页 国防科学技术大学研究生院学位沧文 k e yw o r d s :s i g n a t u r ea u t h e n t i c a t i o n ,m u l t i - a g e n ts y s t e m ,e l e c t r o n i cs i g n a t u r e ,h a n d w r i t t e n c h i n e s ec h a r a c t e rr e c o g n i t i o n ,f e a t u r ep i c k - u p 国防科学技术人学研究生院学位论文 图目录 图l _ l 汉字识别分类示意图1 图1 2 手写汉字识别的一般原理示意图3 图2 1 扫描后的汉字图象( 3 0 0 * 2 0 0 ,2 5 6 级灰度级) 1 0 图2 2由人工设定期整体阈值的二值化签名图象1 0 图2 3 经阈值技术转换后的带灰度图象1 0 图2 4 汉字灰度级直方图( 理论图) 1 图2 5 汉字灰度级直方图( 实际图) 11 图2 6 2 5 6 级灰度的文字图象,等分为3 2 份后的灰度级直方图1 2 图2 7 由灰度级直方图确定整体阈值转换后的二值化签名图象1 2 图2 8 由灰度级直方图确定整体阈值的带灰度图象1 2 图2 9 飞点示意图13 图2 1 0 倾斜的签名图象1 4 图2 1 l 位置规范化的签名图象1 4 图3 10 、1 位点图1e 图3 2 笔划密度特征抽取原理图17 图3 3 周边差分特征抽取原理图1 r 图3 4 从左往右扫描的周边差分特征抽取原理】8 图3 5 从上往下扫描的周边差分特征抽取原理】8 图3 6 从右往左扫描的周边差分特征抽取原理i 9 图3 7 从下往上扫描的周边差分特征抽取原理】9 图3 8 从文字背景抽取p 点的笔划密度原理图2 0 图3 9 文字背景轮廓特征原理图2 1 图3 1 0 灰度分布直方图,1 图4 1 a g e n t 能够协调其陛能和行为的各种方法之分类2 5 图4 2 电子签名认证多a g e n t 系统模型2 5 图4 3 实际多a g e n t 签名认证系统物理拓朴结构2 6 图4 4 a g e n t 个数与系统运行时间效率图3 0 图5 1 汉字图象样本的预处理流程图3 , 图5 2 扫描后的签名原始图象r 9 图5 3 用灰度级直方图确定整体阈值方法二值化签名图象3 3 图5 4 由灰度级直方图确定整体阈值的带灰度图象3 3 图5 5 字切分与大小规范化后的签名图象3 3 图5 6 构建签名样本库处理流程图3 4 图5 7 m 维空间类似度的物理意义3 5 图5 8 样本特征的提取流程图r r 图5 9 样本特征的提取模块的界面,7 图5 1 0 认证的流程图,r 图5 1 1 样本特征的提取模块的界面3 q 图5 1 2 系统数据流图,o 图5 1 3 待认证签名图象4 n 图5 1 4 预处理后的待认证签名图象d 1 图j 1 j 签名样本图d d 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文题目:基王垒g 垒! l 煎送室鳖垒达适噩噩 学位论文作者签名:i 牮扯 日期:加。歹年多月2 1 疆 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全都或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:垂王垒g 塑! 盟这生型篷丛亟鲤盔 日期:和,r 年;月j 日 日期:上一5 年多月f 日 幽防科学技术人学研究生院学位沦史 第一章绪论 1 1电子签名的研究现状分析及课题研究意义 签名,作为一种身份认证手段,在人类社会活动,特别在商务活动中是一种 普遍采用的形式。随着电子政务、电子商务等技术的发展,电子签名认证技术也 越来越引起人们的重视,如何快速、准确地识别是本人签名或者是模仿签名成为 电子商务技术和安全认证技术中一个重要的前沿性研究课题, 一般,电子签名认证与手写文字的机器识别技术密切相关,不同在于目标要 求上的差异。文字识别强调不同字类的辨识,而电子签名更加强调书写风格的确 认。因此在书写特征的提取方面往往有很大的区别。在我国汉字签名研究中,不 象汉字识别多强调结构特征,而是更加注重形态统计特征以及风格上细微的差异 特征。 手写汉字识别( 中文电子签名认证) 是模式识别的一个重要分支,也是文字 识别领域最为困难的问题之一,它涉及模式识别、图象处理、数字信号处理、自 然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是 一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能、电子 商务等高技术领域,都有着重要的实用价值和理论意义。 汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分 为联机手写汉字识别和脱机手写汉字识别。而脱机手写汉字识别又有菲特定人和 特定人之分。中文电子签名的认证方法研究可以归属于特定人脱机手写汉字识别 研究的范畴( 见图l - 1 ) 。 i 降e 写r 脱孵取铋别 第l 页 国防科学技术人学研究生院学位论文 手写汉字识别的困难主要有:汉字类别多:汉字字形结构复杂;汉字集合中 相似字较多:不同人书写风 备的差异造成手写汉字的变形大。其中,手写汉字字 形的变化是最为困难的问题之一。 从识别的难易程度来看,多体e p $ , j 体汉字识别难于单体印刷体汉字识别,手 写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。在脱机手写 汉字识别领域,非特定人脱机手写汉字识别又难于特定人脱机手写汉字识别。 由于手写签名涉及人体的复杂运动,有时变化会很剧烈,因此为了实现有效 而准确的认证必须做到:识别器对真实签名之间的变化不敏感,但对真、伪签 名之间的差别则应非常敏感;不同的人签名有不同的特点,认证算法应该有较 强的适应性。 1 9 6 6 年,i b m 公司的c a s e y 和n a g y 首次发表了汉字识别的文章,多年来, 各国学者主要是日本和我国的研究人员,进行了大量的研究工作,提出了许多理 论和方法。 通常,原始文稿通过光电扫描仪等输入设备转换成原始的数字图象信号,一 般是灰度图象( g r a ys c a l ei m a g e ) 。预处理过程通常二值化:包括把灰度图象 转换为二值图象( b i n a r yi m a g e ) 、行字切分:将整页版面的原始图象先按书写 行分割开,然后再从每行中切分出单个汉字图象,另外还包括大小归一化、平滑、 细化或轮廓化等处理过程。 特征抽取与分类器的设计是整个系统中最为重要的环节,稳定特征的抽取与 良好性能的分类器的设计是整个识别系统的核心,它们直接决定了识别系统的性 能。 文本识别后处理是指对单字识别的结果,利用词义、语义等上下文先验信息 进行识别结果的确认或纠错。 1 中对手写汉字识别的一般原理进行了探讨,参见图1 2 所示。主要包括 预处理、单字识别、后处理三个阶段及务阶段所需的样本字库、识别字库和关联 字库三个基本数据库。 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不 同的特征或基元,每种特征或基元又有不同的抽取方法,这就使得判别方法和准 则以及所用的数学工具不同,形成了种类繁多、形式各别的汉字识别方法。总的 来说,不同的特征抽取和分类器的设引方法决定了识别系统采用不同的处理方 法,通常可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的 识别方法以及人工神经网络方法等 2 。 1 1 1 、结构模式识别方法 结构模式识别方法是人们最初用来进行手写汉字识别研究的方法一般需要 先抽耿笔段或基本笔画作为基元,由这些基元再构成部件( 子模式) ,由部件的 第2 页 国防科学技术人学研究生院学位论文 组合来描述汉字( 模式) ,最后再利用形式语言及自动机理论进行文法推断,即 识别。早期的脱机手写汉字识别研究者将精力主要集中在如何准确地抽取基元、 轮廓、特征点等能够反映汉字结构信息的特征上。并且在假设这些特征已经比较 准确地抽取完毕的前提下,研究文法匹配、属性图匹配、松弛迭代匹配等。然而, 单纯采用结构模式识别方法的脱机手写汉字识别系统,识别率较低,这就促使人 们将目光转向了统计模式识别方法。 字码文本 语料收集 图l 2 手写汉字识别的一般原理示意图 1 1 2 、统计模式识别方法 与结构模式识别方法相比,统计模式识别方法具有良好的抗噪声、抗干扰的 性能,其鲁棒性主要体现在统计特征的抽取和模式匹配方法上。 用于脱机手写汉字识别的统计特征,根据特征抽取区域的不同可粗略地分为 全局统计特征和局部统计特征两大类。 ( 1 ) 全局统计特征:全局统计特征是将整个汉字点阵作为研究对象,从整 体上抽取特征,主要包括:全局变换特征( f o u r i e r 变换、h a d a m a r d 变换等) 、 不变矩( m o m e n t ) 特征、笔画穿透数目特征、全局笔画方向特征、背景特征等。 ( 2 ) 局部统计特征:局部统计特征是将汉字点阵图象分割成不同区域或网 第3 页 国防科学技术大学研究生院学位论文 格,在各个小区域内分别抽取统计特征,主要包括:局部笔画方向特征、细胞特 征、相补特征、方向线素特征、g a b o r 特征、四角特征等。 根据抽取特征的不同,可以选用不同的匹配方法,常用的统计匹配方法有模 板匹配、相关匹配、树分类器等。常用的距离度量有欧氏距离、城市块距离、马 氏距离等。 1 1 3 、统计与结构相结合的识别方法 综上所述,统计方法与结构方法各有其优、缺点。统计方法具有良好的鲁棒 性,较好的抗干扰抗噪声的能力,它一般按一定的距离度量匹配准则,采用多维 特征值累加的办法,把局部噪声和微小畸变淹没在最后的累加和里,但是,可以 用来区分“敏感部位”的差异也随之消失,因此区分相似字的能力较差;而结构 方法对结构特征较敏感,区分相似字的能力较强,但是结构特征难以抽取,不稳 定。因此,人们已注意到将两种方法结合起来使用,这种结合包括两个方面: ( 1 ) 特征的结合:在特征抽取过程中,注意抽取能反映手写汉字结构信息 的统计特征,如方向线素特征、四平面笔画穿透数目特征等。 ( 2 ) 识别方法的结合:可以先用统计方法进行粗分类,再用结构方法进行 细分类来区分相似字,即两种方法的串联;也可以将两种方法并联使用,然后进 行综合集成,这是近年来文字识别领域的一个重要研究方向。 1 1 4 、人工神经网络方法 基于串行符号处理的数字电子计算机在人工智能等研究领域遇到了一定的 困难,促使人们以更大的兴趣去研究以并行处理模式为特征的神经计算机 3 。 人工神经网络的主要特征是:大规模的并行处理和分布式信息存储,良好的自适 应性、自组织性,以及很强的学习功能、联想功能和容错功能。目前的研究重点 是将人工神经网络原理应用于图象处理、模式识别、语音综合及智能机器人控制 等领域。 人工神经网络方法用于文字识别的研究主要包括以下几个方面:神经网络用 于特征抽取与选择、神经网络用于学习训练及分类器的设计、神经网络用于单字 识别后处理等。 通常,用于文字识别的人工神经网络模型有:h o p f i e l d 神经网络、前向多 层神经网络( 如b p 算法、r b f 网络等) 、a r t 网络、自组织特征映射网络、认知 器模型等等。目前常用的做法是将神经网络方法和传统的识别方法结合起来使 用,互相取长补短,如先用传统的方法抽取较为稳定的特征,然后再用神经网络 进行自组织聚类学习并设计性能良好的分类器等。 第4 页 国防科学技术人学研究生院学位论文 1 1 5 、本课题研究意义 关于基于多a g e n t 的汉字签名认证的研究,国内目前有影响的工作不多。作 者在c n k i ( 中国期刊全文数据库) 中从1 9 9 4 到目前为止,在所有论文中以“签 名认证”为关键词进行检索,共命中5 2 篇,其中有关特征抽取和“签名认证” 综述文章共8 篇,在这8 篇中有2 篇为作者本人与其合作者的相关论文,另有一 篇为作者指导的学生的论文;另外有3 篇为联机签名认证,有l 篇为产品推荐, 有8 篇为“网络经济对企业财务管理的影响”之类的经济类文章,其余均为数字 签名方面的文章;在所有论文中以“汉字签名”为关键词进行检索,共命中2 篇, 分别为“汉字签名轮廓的快速预处理”和“基于小波变换的汉字签名鉴别”;在 所有论文中以“电子签名”为关键词进行检索,共命中1 7 4 篇,绝大部分为法律 类论文,其余也都为特征抽取和数字签名等文章;在所有论文中以“签名认证” 和“a g e n t ”为关键词进行检索,共命中1 篇,是作者本人与其合作者的论文, 在所有论文中以“汉字签名”和“a g e n t ”为关键词进行检索,共命中0 篇,在 所有论文中以“电子签名”和“a g e n t ”为关键词进行检索,共命中2 篇,一篇 为“电子合同订立过程中的若干问题研究”,另一篇为是作者本人与其合作者的 论文。 有文献表明 3 ,自8 0 年代初就已有了对电子签名识别进行研究。到了九十 年代,在文字识别技术的基础上,陆续开始出现了各种具体方法的签名识别成果, 如采用神经网络方法的签名认证研究 4 、强调关键点获取的分段签名研究 5 , 采用整体测度的签名认证研究 6 等,国内有柯晶等人的基于局部弹性匹配方法 的联机中文签名鉴别研究e 7 ,可能是最早见于报道的研究。本课题重点在于研 究脱机汉字签名认证,因为在实际应用中脱机汉字签名认证和联机签名认证同样 具有广泛的应用,对于以文件形式存在的签名,如需认证则都是脱机汉字签名的 认证。鉴于此,本课题的研究在确保一定的准确性的情况下,引入多a g e n t 系统 来构建一种多方法相互协调认证的中文签名识别方法,力争使认证速度有明显提 高,对汉字签名认证新思路进行一种有益的、可行的尝试。 1 2 当前的研究热点 对于汉字签名认证,当前研究的热点主要在于 1 2 1 1 :预处理技术特 征抽取与分析识别字典的生成多方案集成等等。 1 2 1 、预处理技术 所谓脱机手写汉字识别的预处理,就是探讨直接从汉字点阵图象上补偿手写 变形、减小属于同一类别的不同模式之间的差异的理论和方法。通常,直接从汉 字点阵图象上消除手写变形的方法有两种,即非线性规一化方法和变换函数法。 非线性规一化是预处理方法的主流和核心,其目的主要是将不同大小的汉字 第s 页 国防科学技术人手研究生院掌位论文 点降规一化成相同大小并直接在汉字点阵图象上矫正手写变形,常用的非线性规 一化方法有:基于点密度均衡的非线性舰一化、基于笔画穿透数目均衡的非线性 规一化、基于笔画间隔均衡的非线性规一化、基于线密度均衡的非线性规一化、 基于汉字点阵二维平面矫形的非线性规一化等,各种非线性规化方法的主要区 别在于如何刻画汉字笔画的疏密程度的不同,使得规一化后的汉字点阵中笔画分 布尽量均匀。 变换函数法是近年来图象识别及文字识别的一个研究方向,常用的变换函数 法有基于几何模型的变换函数法、余弦整形变换函数法、基于笔画假斜角度的变 换函数法等。三种方法各有优缺点,能解决的不同类型的手写变形。但是,目前 的变换函数法的自适应能力不强,如何根据不同的手写变形自适应地采用不同的 变换函数和不同的处理方法可能是变换函数法今后的研究方向。 1 2 2 、特征抽取与分析 特征抽取是模式识别的一个重要环节,抽取稳定且有效的特征是识别系统成 功的关键。一种有效的手写汉字特征应该将汉字的统计特性与结构信息结合起 来,将汉字笔画的特性与汉字背景空白处的特性结合起来,如目前在手写汉字识 别中最为有效的方向线素特征、四平面笔画穿透数目特征、细胞特征等。 如果一个汉字的特征能够使得该汉字类别与其它汉字类别区分开来,则该汉 字的特征具有足以描述该汉字的信息,然而,从上述这些特征中还不能恢复出原 始汉字点阵,这些特征还不足以描述汉字,因此,寻找与之互补的其它特征是今 后的研究课题之一。 对于中文电子签名认证丽言,应该将真实签名中变化较丰富、也较难模仿的 部分提取出来,作为区分伪签名的重要特征。 1 2 3 、识别字典的生成 在手写汉字识别中,由于不同人书写风格的差异造成的手写变形很大,使得 属于同一汉字类别的不同样本之间的差异较大,产生一个具有代表性的识别字典 是补偿手写变形、提高手写汉字识别率的有效途径,通常,识别字典可以分成单 模板字典和多模板字典两大类,前者指每个类别仅有一个参考模板( 也可称为代 表元) 存放在识别字典中,而后者指每类有一个或一个以上的参考模板。而且, 在学习训练过程中,如何选定学习样本的数量和质量也是一个值得研究的课题。 补偿手写变形的另一个有效途径是采用合适的匹配策略。在分类匹配方法 中,采用不同的距离度量会产生不同的识别结果。由于手写变形的存在,使得在 高维特征空间中各个汉字类别的各维特征的方差不尽相同,有的甚至差别很大, 因此,在进行分类匹配时,应该考虑各维特征的方差信息。 对于中文电子签名认证柬浼,每个签名只须一个模板。至于如何使该模板对 第6 页 国防科学技术大学研究生院学位论文 真实签名之间的变化不敏感,但对真、伪签名之间的差别则应非常敏感,则又是 需要研究的课题之一。 1 2 4 、多方案集成 多方案集成是近年来文字识别领域的一个主要研究方向,任何一种特征、任 何一种识别方法都有其优点和局限性,借鉴印刷体汉字识别的成功经验,走多特 征组合、多方案集成的道路,也许是脱机手写汉字识别系统和中文电子签名认证 系统走向成熟化、实用化的有效途径。常用的分类器集成方法有投票法、概率法、 d e m p s t e r s h a f e r 法、行为知识空间法、综合集成法、基于置信度的神经网络集 成法、多a g e n t 法等。 i 3 本文的工作及主要成果、创新 现有的一些电子签名认证研究,对签名的识别和认证强调一种特定匹配方法 的应用,缺乏多方法系统综合运用的研究。“6 “7 ”,这对于强调书写风格为目的的 签名认证是难以取得好的效果。鉴于此,我们构建多a g e n t 系统,进行多种特征 匹配,这样从多个角度进行认证,特别是灰度级特征更能反映出笔划的轻重,能 获得更好的认证效果。本课题的研究获得浙江省教育厅科研计划项目( 编号: 2 0 0 1 0 1 4 0 ) 资助,本人是第一完成者。 本课题完成的工作有: 1 深入地研究一些汉字签名的特征,选择一些有代表性的特征,并构造了一 种能反映签名笔划轻重的灰度级特征,把灰度级特征和其它一些汉字签名的特征 结合起来,对汉字签名认证准确度有一定的提高。 2 对多a g e n t 也进行了一定系统的研究,设计了一个基于多a g e n t 的汉字 签名认证系统,设计了多a g e n t 的汉字签名认证系统的任务分配算法。 3 在以上研究的基础上,实现了基于多a g e n t 的汉字签名认证实验系统。 在本课题的研究过程中,创新之处有: 1 、对汉字签名图像的特征进行了系统的研究,并构造了一种新的灰度级特 征以反映签名笔划的轻重; 2 、构建多a g e n t 系统以进行多特征匹配,从多个角度进行认证,并提出基 于多a g e n t 的汉字签名认证系统的任务分配策略,设计一个与之相关的任务分配 算法: 3 、研究并实现了基于a g e n t 系统的汉字签名认证,这也是国内尚未出现过的 新思路,对提高汉字签名认证的精确度和认证速度都有很大帮助。 基于上述创新已经发表5 篇论文,“多a g e n t 系统中数据并发控制研究”发 表于微电子学与计算机:“中文电子签名的认证方法研究”,发表于计算机 应用研究;“多a g e n t 系统的性能评价”,发表于微电了学与计算机:“基于 第7 页 国防科学技术人学研究生院学位论文 多a g e n t 的电子签名认证系统研究”,发表于湖州师院学报:“基于多a g e n t 的汉字签名认证系统的任务分配策略研究”,发表于计算机应用研究。另外, 近几年来发表的其它相关论文数十篇。 1 4 论文结构 本文共分六章。 第一章为绪论,介绍了研究的目的、背景、内容、思路与成果。 第二章描述汉字签名认证的预处理技术 第三章描述了我们研究并采用的若干汉字签名特征的抽取方法,并构造了一 种新的灰度级特征。 第四章给出了汉字签名认证的多a g e n t 模型,并研究分析了基于多a g e n t 的 汉字签名认证系统的任务分配策略。 第五章探讨了对汉字签名进行认证的方法,提出了基于多a g e n t 的签名认证 判别原则,并给出了实验结果。 第六章对所做的工作进行了总结并对未来的研究工作进行了展望。 第8 页 国防科学技术人学研究生院学位论文 第二章中文电子签名认证的预处理技术 一般,电子签名认证与手写文字的机器识别技术密切相关,不同是在于目标 要求上的差异。文字识别强调不同字类的辨识,而电子签名更加强调书写风格的 确认。因此在预处理方面也有很大的区别。文字识别的预处理包括二值化、行字 切分规范化和细化等,文字识别预处理的二值化是把汉字图象带灰度电平的数字 信号处理成二值( 0 、1 ) 的数字信号,但对于电子签名认证来说,不能简单地处 理成二值( o 、1 ) 的数字信号,因为笔划的轻重因人而异,这也是签名认证的重 要依据之一,而笔划的轻重就反映在汉字图形的灰度电平上,故只能采用阈值技 术,比文字识别的二值化要复杂,对于行字切分来说,在签名认证中根本不用行 切分,字切分也比文字的机器识别要简单得多,规范化包括位置规范化和大小规 范化,而细化在电子签名认证中根本不需要,也不能做,因为细化会把笔划的轻 重粗细而造成的差异抹杀掉。 2 1 二值化技术 设扫描、a d 转换后的汉字图形数字信号为e = ( g ( i ,j ) ) ,( i = 1 ,2 ,p ,j - - 1 q ) ,g ( i ,j ) 是像素( i ,j ) 的灰度值电平( 本文以2 5 6 级灰度 级为例) ,灰度越黑g ( i ,j ) 越小,g ( i ,j ) = 0 ,则完全是黑,灰度越白g ( i ,j ) 越大, g ( i ,j ) = f f h ,则完全是白。二值化技术就是找一个合适的阈值t ,当g ( i ,j ) t 时为白背景,则置为f f h ,g ( i ,j ) = t 时为文字笔划,则置为0 ,即:经阈值技 术后的汉字图形数字信号为c = ( g 、( i ,j ) ) ,当g ( i ,j ) t 时,g ( i ,j ) - f f h 。如图2 1 就是一幅扫描后的汉字图形。 阈值技术有整体阈值、局部阈值和动态阐值,局部阈值和动态闽值能处理书 写质量较差的文字,但时间开销大,且实际的局部阈值和动态阈值选择算法往往 在图形的某些部位上会产生整体阈值不会产生的失真。考虑到需签名认证的文字 一般来说文字质量不会太差所以在签名认证预处理可采用整体阈值。 2 1 1 、人工设定整体闽值 根据人的先验经验设定一个固定阍值t ,当g ( i ,j ) t 时,为白背景,g 、( i ,j ) = f f h 。这是一种最简单的速度 最快的方法,但这种方法不能根据每个文字确定最佳的阈值,确定阈值后,光源 等外界条件改变时,不能使阈值随之改变。一种改进的方法是由所有灰度值的平 均值来确定阈值,即t 2 去三g a ,) 。但经实验测试,必须再除上一个常数a , 即t = l 专争g ( i ,f ) ( p 和q 分别为签名图像的高度和宽度) 。 第9 页 国防科学技术人学研究生院学仲论文 q , 。,+ i 置:,; i ;i 式骢 1 i 一, ? 蕾 y ! 图2 。1 扫描后的汉字图象( 3 0 0 * 2 0 0 ,2 5 6 级灰度级) 如图2 2 为a = 1 1 2 5 时由人工设定期整体闺值的二值化图象。图2 3 是为经 闽值技术转换后的保留灰度电平图象。但这种方法对不同的文字图象常数a 的取 值不同,要经过多次试验才能确定,故很难统一编程。 图2 2由人工设定期整体阈值的二值化签名圈蒙 l,j 7 r | 图2 3 经阈值技术转换后的带灰度图象 第1 颐 丫i 国防科学技术人学研究生院! 孚化论文 2 1 2 、由灰度级直方图确定整体闽值 扶度级直方图给出了一幅图象灰度值的概貌描述,设灰度级为n 级,则狄度 g 的范围为o g ( i ) ,但实验的结果是找不到这样符合条件的i ,因为实 际的直方图如图2 5 所示。 图2 4 汉字灰度级直方图( 理论图) 图2 5 汉字灰度级直方图( 实际图) 据图2 5 所示,可以把n 级灰度等分为1 3 等份,计算每一等份的平均灰度频 数,即d ( j ) = 导4 芝;“n 一+ ,) ,经实验测试,一般n = 2 效果较好。如灰度 为2 5 6 级的文字图象,n 可取3 2 ,经等份后的灰度直方图如图2 6 所示。这样处 理后实际上是找一个j ,使d ( j 一1 ) d ( j ) ,且d ( j + 1 ) d ( j ) 。很明显,即图2 6 中的闽值处。但这样计算出的是一个阈值区域,即从j * n n 到( j + 1 ) * n n 一1 ) 的一 个区域,实际操作中在此区域中取在何处都关系不大,因为在此区域中的灰度频 数都是较小的,只要在整个认证系统中都保持一致即可,比如说都取在j * n n 。 如图2 7 为由灰度级直方图确定整体阈值的二值化图象。图2 8 由灰度级直方图 确定整体阈值的带灰度的图象。 第n 页 国防科学技术人学研究生院学位沦文 图2 7 由灰度级直方图确定整体阈值的二值化签名图象 图2 8 由灰度级直方图确定整体阈值的带灰度图象 2 2 、剔除飞点 经阈值技术处理后的文字图象有个别飞点“,如图2 7 的方框处,箭头所指 处有一非白像素点,把它放大,如图2 9 所示。故对于每一非自像素点g ( i ,j ) , 如在以( i ,j ) 为圆心,以r 为半经的圆内的非白像素点少于个( 1 r 、为常 数) 则为飞点,应置为白像素。 第1 项 。1 q 觋一i,r,奠。妒f 国防科学技术人学研究生院学位论文 图2 9 飞点示意图 2 3 字切分 在经闽值技术处理后再进行字切分。文字识别预处理的字切分要考虑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论