(计算机应用技术专业论文)结合先验模型、无简单伪造训练样本的签名鉴定.pdf_第1页
(计算机应用技术专业论文)结合先验模型、无简单伪造训练样本的签名鉴定.pdf_第2页
(计算机应用技术专业论文)结合先验模型、无简单伪造训练样本的签名鉴定.pdf_第3页
(计算机应用技术专业论文)结合先验模型、无简单伪造训练样本的签名鉴定.pdf_第4页
(计算机应用技术专业论文)结合先验模型、无简单伪造训练样本的签名鉴定.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)结合先验模型、无简单伪造训练样本的签名鉴定.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业大学硕士学位论文 摘要 摘要 签名作为人类的种独特行为特征,因可代表书写人的身份,直以来在金融、 安全等领域有着广泛的应用。随着计算机技术的发展,近二十年来,签名鉴定技术的 自动化处理得到较多的研究。然而,现有的签名鉴定技术需要为每个用户采集大量伪 造签名数据用于训练,这在实际中是很难做到的。本文提出并实现种结合先验知识 的、无伪造签名训练数据的系统模型。 本文首先改进并实现一套针对签名扫描图像特点的预处理方法,包括局部对比度 增强、自适应二值化、膨胀运算、连接运算等操作,提取出二值化签名掩模,进而从 原扫描图像抽取灰度签名轨迹。实验表明该方法能满足后续特征提取的要求。 本文选择全局和局部两种尺度上的四种具有互补性的特征:刻画签名形状特点的 全局特征、网格灰度特征,以及描述签名轨迹的伪动态特性的纹理特征、强力道区域 特征。实验基础上本文从全局特征集、纹理特征集中选取分类能力强的特征分量集: 并改进网格的选取方案,采用基于像素投影直方图的自适应网格划分,以处理用户签 名的多变性。实验表明改进是有效的。 本文基于b o o s t i n g 算法实现一种用户相关的组合分类器。它能有效结合多分类 器融合的并行综合以及串行综合方案的优点,融合四种特征分类器的识别结果。因 b o o s t i n g 算法理论上可提升任何一种弱学习算法,故我们采用简单的最近邻分类器为 予分类器。 1 本文从实用的角度出发,提出一种结合先验知识的、无简单伪造训练样本的系统 模型。本文假设各用户的签名特征空间具有一定相似性。在系统训练阶段,利用第一 数据集,建立起当训l 练集中包含简单伪造前后的组合分类器参数的映射关系。在系统 使用阶段,对每个用户,其训练集中包含该用户的真实签名,并抽取系统中已有用户 的真实签名作为随机伪造,训练组合分类器。进而利用系统训练阶段获取的映射关系, 推导出当训练集中包含简单伪造时的组合分类器模型,进行分类。在此意义上,本系 统在使用阶段,对每个用户的训练只需单独输入该用户的真实签名。 本文最后给出具体实验结果,表明本系统具有较好的应用价值。 关键词:签名鉴定简单伪造随机伪造b o o s t i n g 原理 分类器融合结合先验知识的系统模型 西:l :z 业丈学硕士学位论文a b s t t a c t a b s t r a c t s i g n a t u r e h a sb e e nu s e d w i d e l y j nt h ef i e l d so ff j n a n e ea n d s e c u r i t y a sav a l i d r e p r e s e n t a t i v eo f p e r s o n a li d e n t i t y , w i t h i nt h el a t e s t2 0y e a r s ,m u c hw o r k h a sb e e nd o n ei n t h ea u t o m a t i z a t i o no fs i g n a t u r ev e r i f i c a t i o n h o w e v e r , m o s to fc u r r e n ts i g n a t u r ev e r i f i c a t i o n s y s t e m sr e q u i r ea l lk i n d so ff o r g e r i e st ob ep r o v i d e di nt h et r a i n i n gp r o c e s s ,w h i c hc a u s e s m u c ht r o u b l ei np r a c t i c e w ep r o p o s ean e ws y s t e ma r c h i t e c t u r ei n c o r p o r a t i n gap r i o rm o d e l t oh a n d l et h j sp r o b l e m w e i m p l e m e n t a ne f f e c t i v ep r e p r o e e s s i n gm e t h o dt oe x t r a c t g r a ys i g n a t u r e t r a c e sb y u s i n ga t w o l e v e ls i g n a t u r em a s k , w h i c hi so b t a i n e dt h r o u g hl o c a lc o n t r a s te n h a n e e m e n t ,a d a p t i v e e n t h r e s h o l d i n g ,d i l a t i o n ,a n db r i d g eo p e r a t i o n s 。 t h et h e s i sc h o o s e sf o u rk i n d so fc o m p l e m e n t a r yf e a t u r e so nt w os c a l e s ,i n c l u d i n gg l o b a l f e a t u r e s ,g r i dg r a yf e a t u r e ,t e x t u r ef e a t u r e sa n dh i g hp r e s s u r ea r e af e a t u r e w em a k ef e a t u r e s e l e c t i o nb a s e do ne x p e r i m e n t a lr e s u l t s i n s t e a do f f i xg r i d s ,a d a p t i v eg r i d sd e r i v e df r o mt h e p i x e lp r o j e c t i o nh i s t o g r a m sa r ee m p l o y e d t h ep r o p o s e ds y s t e me n s e m b l e sm u l t i p l ec l a s s i f i e r sb a s e do nb o o s t i n ga l g o r i t h m t h i s i n t e g r a t e dc l a s s i f i e rw o r k si n as i m i l a rw a yt ot h es e r i a li n t e g r a t i o nm o d ei nt h et r a i n i n g s t a g e ,a n dt ot h ep a r a l l e li n t e g r a t i o nm o d ei nt h ec l a s s i f i c a t i o ns t a g e 。i ta c h i e v e dl o w e l t o r r a t e sb y c o m b i n i n g m e r i t so f t w om o d e s t h en e w s y s t e m a r c h i t e c t u r ei sp r o p o s e df r o mt h ep o i n to f p r a c t i c e i ti n c o r p o r a t e st h ep r i o r k n o w l e d g ea n dd o e s n tn e e ds i m p l ef o r g e r ys a m p l e si n t h et r a i n i n gp r o c e s s a s s u m et h e s i g n a t u r ef e a t u r es p a c e sh a v et h es i m i l a rd i s t r i b u t i o n sf o ra l lu s e r s i nt h et r a i n i n gs t a g e ,t w o i n t e g r a t e dc l a s s i f i e r sa r et r a i n e ds e p a r a t e l yw h e nt h et r a i n i n gs e tc o n t a i n e ds i m p l ef o r g e r y s a m p l e so rn o t a n dam a p p i n g f u n o t i o ni sb u i l tb a s e d0 np a r a m e t e r so f t w oc l a s s i f i e r s i nt h e p r a c t i c es t a g e a ni n t e g r a t e dc l a s s i f i e ri st r a i n e df o rt h ec u r r e n tu s e r , w h o s et r a i n i n gs e ti s c o m p o s e do f g e n u i n es i g n a t u r e s ,a n dr a n d o ms i g n a t u r e ss e l e c t e d f r o mg e n u i n es i g n a t u r e so f e x i s t e du s e r sr e g i s t e r e di nt h es y s t e m t h e nw eb u i l dt h ei n t e g r a t e dc l a s s i f i e ra f t e ra p p l y i n g t h em a p p i n gf u n c t i o n ,a n dm a k ec l a s s i f i c a t i o nu s i n gt h er e s u l t a n tc l a s s i f i e r i nt h ee n d ,e x p e r i m e n t a lr e s u l t sa r eg i v e n t h e ys h o wo u rp r o p o s e ds y s t e mi se f f e c t i v ei n t h i sa p p l i c a t i o ne n v i r o n m e n t k e yw o r ds i g n a t u r ev e r i f i c a t i o ns i m p l ef o r g e r y r a n d o m f o r g e r y b o o s t i n ga l g o r i t h mm u l t i p l e c l a s s i f i e rf u s i o n s y s t e m m o d e l i n c o r p o r a t i n g t h e p 彝o fk n o w l e d g e 西北工业大学硕士学位论文 1 1 应用背景 第一章概述 笔迹鉴定技术最初出现于法律领域,通常笔迹鉴定专家通过仔细比较可疑笔迹与嫌 疑人笔迹间的异同,来判定作为证据的笔迹是否出自被告人之手。当存在多个嫌疑人 时,笔迹鉴定将是一项很耗时的工作。从很早开始,人们就开始总结不同人签名的特 点,并对需要考察的特性进行分类。其中某些特征是可以定量描述的,从而能利用计 算机辅助实现该类特征的自动提取,使笔迹鉴定半自动化、自动化处理成为可能。 另一方面,安全问题随着计算机技术的发展与普及引起越来越多的关注。以往通用 的安全认证手段局限于使用钥匙、磁卡和密码等措施。但是钥匙和磁卡容易遗失,而 密码可能被遗忘,并且黑客利用计算机日益提高的运算性能很容易将固定位数的密码 攻破这对安全性能要求比较高的领域,如金融领域、安全领域和个人隐私领域等 可以说是灾难性的。生物特征识别技术正是基于用户的独特性而备受嘱目。按特征的 性质,生物特征识别技术可分为基于行为特征( b e h a v i o rc h a r a c t e r i s t i c s ) 的,如笔迹识 别、语音识别、姿态识别等,和基于生物形态特征( p h y s i o l o g i c a lc h a r a c t e r i s t i c s ) 的, 如虹膜识别、指纹识别、人脸识别等。 签名是随着时间逐步成形的每个人自身的行为。人们在长期书写过程中产生各自独 有的文字书写方式,表现为不同的书写力道、笔划书写顺序、笔划连接方式、局部装 饰笔划等。而签名作为一种特殊的书写行为继承了笔迹的独特性这使得我们可以 依据签名区分不同的用户。与传统的安全认证模式相比,采用签名鉴定有如下优点: 1 )签名作为一种用户的习惯行为,不会被遗忘。 2 )自然性。签名是用户经常进行的活动,属于一种容易接受的信息采集模式。 在笔迹鉴定过程中,用户可以和平时样,在很自然的方式下提供签名。相 比之下,虹膜识别具有很高的识别率,但是在数据采集阶段用户必须将眼睛 睁大,站在仪器的有效感受范围内,较长时间内保持特定的姿势这对用户 而言是很不舒适的。 3 ) 共享性。正因为签名是独特的,长久以来人们使用签名、并信任签名所代表 的内涵。在现代的金融领域,用户可签署函件赋予他人以代理人的权利或 以支票的形式使他人间接地使用自己的签名,从而他人可以享有用户的部分 西北工业大学硕士学位论文 权力。这是用其他的生物特征无法实现的,只要想象将一个人的指纹或者虹 膜交由其他人进行使用将是多么的困难。 鉴于签名鉴定的诸多特点,它在金融、银行、安全等领域将有很好的应用前景。例 如在金融领域中,用户无需出据繁琐的诸如单位证明的各种纸张证据只需要一个简 单的签名:在安全领域,签名识别通过辩明笔迹可以缩小嫌疑人的范围;特别在银彳亍 里,每天都面临大量的支票需要确认真伪,签名认证将简化确认过程,并提供有效的 参考数据,提高工作效率。从计算机发展趋势看,理解用户之行为( 如签名) 的能力 将赋予计算机更多人性化特征。 1 2 目前存在的问题 签名可分成真实签名、随机伪造、简单伪造( 参看图3 - 1 ) 以及精心伪造四类。其 中,随机伪造是被误作为当前用户签名的其他用户的真实签名对签名鉴定系统而言 这是必须能处理的伪造类型。简单伪造则是伪造者对当前用户签名的一种伪造:伪造 者只有对用户签名的模糊印象,按自己的记忆进行模仿。简单伪造在签名图像内容上 是相同的,但外观可能因为伪造者的记忆程度、伪造能力而与真实签名相差较大。精 心伪造则是伪造者对用户签名进行多次模仿后写出的笔迹,故在外形上精心伪造与真 实伪造相似度高。由此可见,随机伪造是最容易辨别的而精心伪造是最难辨别的。 按系统的研究对象以及训l 练样本的类别,我们发现在目前提出的鉴定系统中 1 ) 很多系统仅考察了随机伪造。 2 )有些系统在研究对象中包含了简单伪造以及精心伪造通常利用神经网络或 h m m 模型对每个用户训练各自的分类器。无一例外地,这些系统在使用过程中 都需要为用户单独采集各种伪造类型的签名作为负样本进行训练,这在实用中是 不方便也不合理的。 考虑到精心伪造对没有受过专门签名鉴定训练的人而言也是难以分辨的,一个实 用的系统应至少能处理随机伪造和简单伪造。此外,对单个用户我们很难收集到他 人提供的简单伪造因此一个实用的系统应尽可能只用真实签名( 可以是当前用户的 以及系统中已有的数据) 作为训练样本。 就签名本身而言,签名是书写人有意识的行为,受到情绪、书写环境等各种因素 的影响。因此某些人的签名数据呈现出很大的变化性,而大部分人的签名则具有很好 的一致性。另一方面,不同人的签名数据间有很大的相异性( 见图3 1 ) 。若系统中只 有一个分类器,如手写体识别系统,则用户人数增加时,需要重新训练整个系统。当 2 西北工业大学硕士学位论文 用户人数越来越多,系统的识别率将不可避免地下降,既费时也不可靠。只有对不同 的用户建立不同的分类器才可能保证对所有的用户都有比较好的识别效果。 与手写体识别类似,笔迹鉴定按笔迹的获取方式可以分成联机鉴定和脱机鉴定两 种。由于联机采集可以获取笔迹的书写速度,以及书写压力,故联机的签名鉴定系统 可以达到很高的识别率。目前已投入市场的联机签名鉴定系统有u n i p e ns y s t e m 以及 q u i n t e ti n c 公司的s i g n c r y p t 。脱机签名鉴定系统有a p pi n f o r r n a t i kd a v o s 公司的 s i g n c h e c k 。由于签名的特殊性目前缺少统一的签名数据库用以检测不同的算法,故 已有系统的识别率只能引作参考。 1 3 研究目标 本文的研究对象是脱机签名鉴定,即判定待考察的签名图像是否是当事人的笔迹。 我们希望做到用一个统一的系统解决分辨随机伪造和简单伪造的问题,并且对新用户 应尽可能只用真实签名( 可以是当前用户的以及系统中已有的数据) 作为训l 练样本。 1 4 本文的主要工作 本文对目前提出的鉴定方案进行分类总结后,采用了基于多分类器融合的签名鉴 定方案。本文的主要工作和创新点如下: 1 通过分析扫描图像的性质,实现针对签名轨迹的预处理方法。首先采用对比度 增强、局部自适应二值化、以及膨胀等预处理方法获取二值化的签名掩模图像。 进而从原图像中提取出去除了背景的灰度签名轨迹。 2 选择四种描述签名不同性质的特征,分别是全局特征、网格灰度特征、强力道 区域以及纹理特征。在实验基础上,本文分别从全局特征、纹理特征中选择出 具有代表 生的分量集。另外,固定网格难以处理用户签名的多变性我们选用 自适应网格划分图像区域,实验表明自适应网格较之固定网格更有效。 3 基于b o o s t i n g 理论,实现一个用户相关的组合分类器,融合四种特征的分类识 别结果。实验比较了组合分类器与单个分类器的识别率,证明b o o s t i n g 方法能 有效地减小两类错误率( 错误拒绝率和错误接受率) 。实验也表明组合分类器 的性能与子分类器的排列顺序无关。 4 从实用的角度出发,提出一个结合先验知识的、无简单伪造训i 练样本的系统模 型,从而在使用阶段只需为用户采集各自的真实签名即可训练各用户的分类 西北工业大学硬士学位论文 系 统 瑚 练 阶 段 器。我们的基本假设是:各用户的签名数据集( 这里签名数据集包含该用户的 真实签名,随机伪造以及简单伪造) 的分布具有相似性。图1 一l 说明系统的结 构。整个系统分成两个阶段。第一阶段为系统训练阶段,在训练集包含简单伪 造前后,分别训练各用户的组合分类器,并建立组合分类器参数问的映射关系。 第二阶段为系统使用阶段,此时训练集中只包含用户和系统已有的真实签名, 训练出用户的组合分类器。结合在系统训练阶段获得的映射关系我们可计算 出当训练集包含简单伪造时的组合分类器参数,以计算出的组合分类器作为最 终该用户的判别分类器。实验表明我们的假设是有效的,由此得到的组合分类 器可以达到较好的识别效果。 t 麟群乖日 直寰锭名 曲- t t 盗 啦l 蹲蛘乖 越宴箱铝 墒 难伪垃 萄m 曲盗 ( 1 ) 0 l 蛙m 台 持凳霹 蛆台分奏眷攀数 ( & ) ( 吼) ( 2 ) 一 蛩n 劣荔 垃盘鹾蛆持粪 i ! 攀数吨映鸯 蕞系 ,。( 如) _ 争( 嚷) 系 统 使 丌j 阶 段 洲蛾雌奉马 真宴1 8 崩 随机髓 铡絮巍黟 荫机绪1 虚 简单伪i 蠡 生厂一 纠粉嚣 赭磊 挣樊甜职r 1 捌川r 孵精氍 ( 5 ) 球得弱:种侍氍下竹鸯帚警数 ,( 屁) = ( 嗉,研) 图1 - 1 结合先验知识的系统模型 本文共分成五章,第一章是概述部分,介绍签名鉴定的应用领域、研究背景、以 及本文的主要工作和成果。第二章主要从特征提取以及模式匹配两方面总结当前签名 鉴定的研究现状。第三章论述本文的重点,即一个实用的签名鉴定系统。第四章给出 各种实验结果。第五章是总结和展望。 4 西北工业大学硕士学位论文研究现状 第二章研究现状 签名鉴定过程判断两个签名样本s ,是究竟是同一个人写的,还是两个人写的。 理论上这是二分类问题:对某个用户,假设其真实签名数据分布为c t ,其伪造签名数 据分布为c 2 ,现有输入样本s ,如果某种距离量度d ( s ,c 1 ) 0 ,记。( s 1 是覆盖集合s 的边长为占的r l 维立方 体的最小数目,如果存在参数d 满足 ,f s l 一1 s 4 ,当斗0 , 则称集合s 的盒子维是d 。文f 1 5 】进一步简化盒子维的计算方法,用两种分辨率 m ,m 下的签名轨迹边缘所占据的网格数目来计算签名图像的分形维数: 。= 】o g _ _ l ( b o u n 面d a r y 历i n j h i g 面hr e s j 1 0 1 0 0 u n a a r y l o wr e s g ( 2 ) ( 2 1 9 ) z 胛 7 ( 2 1 9 、 其中n h = 2 n 当签名轨迹是一条水平或竖直方向上光滑的直线时,其分形维数为l 。 分形维数反映出签名轨迹边缘的粗糙程度,但如果仅利用图像的分形维数,却难以 区分签名的异同。分析其原因,按简化后的公式,我们容易得到分形维数的取值范围 为 1 ,2 】,换言之,用户的签名图像集合将映射到实轴上的 1 ,2 】子区间。只有当不同 用户的分形维数子区间满足相互交叠程度低的条件,分形维数才具有可分性,能够用 来判定签名的真伪。这一条件随着用户数目的增多变得越来越难以满足。要提高该特 征的区分能力,笔者认为可以利用升维的思想,对图像的各予区域分别计算分形维数, 以高维的分形维数矢量作为一种特征。 西北工业大学硕士学位论文 研究现状 2 2 4 纹理特征 设在固定大小的纸张上书写人按从左到右、从上到下的顺序写满整页纸,我们可 咀看到每个书写人的笔迹将呈现不同的规律性。在纹理分析【”i 中常用两种方法描述 这种规律性,即多通道g a b o r 滤波和共发( c o o c c u r r e n c e ) 矩阵。 心理学研究发现人眼是通过多个并行的、相对独立的途径获取对图像数据的视觉感 知信息,而多通道g a b o r 滤波技术正是用来模拟带通机制的。简单地说,每个视觉通 道被抽象成一对具有相反对称性的g a b o r 滤波器组。记见、h o 分别为偶对称、奇对称 g a b o r 滤波器:、 f 吃( x ,y ;f ,口) = g ( x ,y ) c o s ( 2 玎( x c o s o + y s i n 臼) ) i h o ( x ,y ;f ,0 ) = g ( x ,y ) s i n ( 2 万厂( x c o s 目+ y s i n 口) ) 其中 小川= 嘉e x p l 一等1 f ,0 和盯分别是空间频率、方向角以及确定g a b o r 函数外包络的常量。通常对 n n 的图像,有用的频率分量出现在厂n 4 的范围内,故一般可选厂= 4 ,8 ,1 6 ,3 2 等,视图像大小而定。对每个空间频率,取方向角0 = 0 。,4 5 。,9 0 。,1 3 5 0 。计算每个滤 波器对原图像进行空间滤波后的结果图像,以结果图像的均值、标准差作为特征分量。 多通道g a b o r 滤波被应用到中文、英文的书写人识别( w r i t e ri d e n t i f i c a t i o n ) 中,因选 用的空间频率取值区间较大,文献 1 6 、1 7 伸采用加单字的方法将笔迹图像归一化为 5 1 2 * 5 1 2 的块状图。对签名图像而言,其尺寸较之普通的笔迹图像小,且单幅图像就 是一个待考察对象,不适合用多通道g a b o r 滤波提取空间频率信息。 设图像包含 l 灰度级,则其共发矩阵( c o o c c b r r e n c em a t r i x ) 中的每一分量代表 灰度值g ( f ,) 在相隔矢量占= ( d ,目) 的图像点对( 且,p 2 ) 上出现的概率,其中d 是点对 相隔的距离,0 为方向角。对二值图共发矩阵是2 2 的矩阵我们可以将所有的分 量组和成一个特征向量。对2 5 6 色的灰度图共发矩阵是2 5 6 x 2 5 6 的矩阵,分量数目 众多,通常以矩阵的能量、熵、相关系数等参量作为特征分量。本文用到的正是第二 种计算方法。 2 3 分类层上的研究 签名鉴定研究的目的是用一个统一的系统辨识多种类型的伪造签名。尽管人在鉴 西北工业大学硕士学位论文研究现状 别不同签名时会下意识的针对签名数据本身的特点采用不同的特征我们却很难赋予 计算机自动选择特征的能力。此外,一种既定的特征通常只能描述签名图像的一种特 点,其分类能力往往随着用户数目的不断增加,以及所需处理数据类型的增加而下降。 组合分类器被证明能够有效地结合描述签名数据不同特性的几种特征的分类能力从 而降低整体错误率( 需要指出在签名鉴定问题中通常采用第一类错误率,即将真实 签名错判成伪造签名,和第二类错误率,即将伪造签名误当成真实签名) 。在签名鉴定 研究中有三种组合分类机制:并行综合模式,串行综合模式以及重复试验,下面分 别作以简单介绍。 2 3 1 并行综合模式 这是最常用的一种组合分类器构成方式。第一层是每种特征对应的分类器,用 训l 练样本,期望类别l 集合进行训练。第二级分类器对第一级分类器的识别结果进行综台 校正,用 第一级输出,期望类别l 进行训练。第二级常用到神经网络,多数投票原则 判决等分类器。图2 4 所示为文 1 】中提出的系统。然而,无论是神经网络或是多数投 票原则,第二级的学习过程都缺少直接来自样本的知识,换言之,综合过程完全依赖 于分类器自身的学习能力以及上一级的识别结果。 图2 - 4 文【l 】中使用的组合分类器 本文采用的系统与文 1 】相似,故以图2 4 的算法作为对比实验。 西北工业大学硕士学位论文 研究现状 2 3 2 串行综合模式 现有的系统主要用全局特征检测随机伪造,用局部特征检测简单伪造。串行综合 模式将整个判决分解到各级中,每级采用不同的分类器以处理不同类型的伪造签名。 文【2 】( 见圈2 5 ) 中第一级分类器使用全局特征,以去除大多数随机伪造和部分简单 伪造,显然该级分类器会错误地接受很多精心伪造。第二级分类器基于局部特征- 对 上一级未判决为伪造签名的数据做进一步分类,这些数据中包含真实签名、以及错误 接受的伪造签名。结合拒绝原则,第三级综合阶段针对前两级无法判决的签名,以及 判断为真实的签名计算综合信任度,做出最后的分类结果。 r _ = = = 1 a p - f 罐o c ,k 卅h 曼嗽二h 遍釜卜 鹾墨到j 竺! ! ! _ j ln s 强。 c , 管罐 l,h o t 竹 、。 t c o m - 一l 胡旧i 图2 - 5 文【2 】中组合分类器模型 使用串行准则最大的问题在于无法同时降低系统的两类错误率。以不带拒绝原则 的串行组合分类器为例,假设两级分类器使用的特征相关性小,则系统错误接受率可 按下式估计 嘞三烹a c 删c e p t 呻l f o r g e 驯r y ) 吲a c c e p t l f o r g e r y ) ( 2 2 。) = e (+ e () 其中e ( a c c e p t lf o r g e r y ) ,e ( a c c e p tif o r g e r y ) 分别为第一、第二级分类器各 自的错误接受率,很明显系统错误接受率相对单个分类器的错误率将会大大下降。 系统错误拒绝率估算如下: 善潆r e j e c t 恤l g e 叫n u i n e ) + e ( a c c e p t ) 吲r e j e c t l g e n u i n e ) ( 2 2 1 )= 耳(e (+ e ( j 其中f t ( r e j e c t g e n u i n e ) ,f 2 ( r e j e c t l g e n u i n e ) 分别是两级分类器的错误拒绝率- 显然系统的整体错误拒绝率将大于第一级分类器单个错误率。 1 4 西乾羔驻大学颡士学位论文研究巍扶 2 3 3 重复试验 弗行综合模型和审行综食模型都是综台多个分类器的判决结鬃,判断输入的签名 数据楚否是真实签名。颇名思义,重复试验中用户输入的签名数据不止一个,需要将 多次蓉统判决结果综台起来判断该用户是否能撮供真实签名。 以下分析文【3 】提出的方案:采用两次重复试验,如聚测试样本通过第一次系统测 试,则接收其为真实样本:否则,将另一个测试样本送入系统检测,如果通过,则接 受雨户签名为真实样奉,否剜认为用户摊供傍遗签名。 假设两次豢名的获取是相艇独立的攀1 牛,则类似于上节对镶误率的分析,我们 可戳褥到系统的两类错误率; 象! 主怒磐粥杆) 吲+ f 1 ( r e j r e j e c t l g e n u i n e ) r e j e 叫c t l g 强e n u p i n e 黜别( 2 1 2 2 )= 曩(+ 羁() 。 其中下标代表测试次数+ 驻而易觅,与串行综合模式相同,燕复试验也无法同时 降低两类错误率。在安全要求很高的应用场合,可以要求用户签名必须两次通过羹复 试验:两在鑫融绣台,秘如焉户馕焉镄耀卡时,过多的试验会绘蠲户带来诸多不便, 这时只要用户签名通道一次重复试验即可,流稷如图2 - 6 所示。同理,串行综合模型 也可麓类 攫豹应爝。 图2 - 6 文【3 】中系统模型示意豳 出于无法准确预测囊实签襄菇及蔷辨魏造熬名类螫程瑷实生漕孛塞现豹攘辜,整 体错误率的计算并没肖太大意义,因此本文更关注采用什么措施能同时降低两类锚误 辜,嚣b o o s t i n g 理论麓好满足我翻豹簧藩。详缨内容谚参看下一喾。 西北工业大学硕士学位论文研究现状 2 4 本章小节 本章首先在理论上将签名鉴定问题描述成二分类问题,随后说明签名鉴定是可求 解的问题。本文将文献中所作的工作分成两个层次,一个是特征层面的研究,另一个 是分类层面的研究。在特征研究里,我们介绍了四类主要的特征:全局特征、网格特 征、分形特征以及纹理特征。分类机制一节中主要介绍三种模型:并行综合模型、串 行综合模型以及重复试验方式。 然而正如在本章开头提到的,实际应用中很难获得用户的伪造签名,签名鉴定问 题实质是一类已知一类未知的二分类问韪。但现有的系统在训练阶段都假设用户签名 的各种伪造类型是存在的并将其作为训练数据。本文的研究重点是提出一种系统模 型在应用阶段,每个用户分类器的训练只依赖真实签名( 包括用户的、以及系统中 已有用户的签名) ,而训练好的分类器能处理各种类型的伪造签名。 1 6 西北工业大学硕士学位论文结台先验模型、无简单伪造训练样本的签名鉴定 第三章结合先验模型、无简单伪造 训练样本的签名鉴定 模式识别问题通常涉及两个阶段,训练阶段学习样本模式在特征空间中的分布, 测试阶段判断输入样本属于哪种类别。为了能区分多种类别,训练样本集合中必须包 含该类别的样本数据,以满足数据集完备性要求。签名鉴定问题中只有两种类别真 实签名和伪造签名。但本文考察的伪造签名又可细分成随机伪造和简单伪造两种伪造 类型。如果仅用一种伪造类型数据作为负样本,样本空间将是很不完备的,可以预想 识别率将受到影响。但在实际应用中,很难为每个新用户采集到足够多的简单伪造签 名用以训练,本文提出的系统绕开直接为每个用户采集各种类型的伪造签名数据,而 是抽取系统中已有用户的真实签名作为当前用户的随机伪造只需用户提供真实签名 就可以训练分类器,进而结合先验模型,推导出包含简单伪造时分类器的参数。该方 案基于这样一个假设:对大多数用户,当样本集合包含简单伪造前后,样本特征空间 的分类模式具有相似性。 整个系统涉及数据采集数据预处理,特征提取和模式匹配四个阶段。本章首先 介绍从扫描的签名图像中提取有效的灰度签名轨迹,即预处理阶段;接着介绍使用的 四种特征;本文基于b o o s t i n g 技术对四种分类器进行融合:最后介绍结合先验模型的 系统模型。 3 1 预处理 签名过程中,用户的情绪、纸张质量、书写用笔等因素均会对签名图像产生影响 故采集数据时我们给用户提供统一的印有3 * 4 表格的空白纸张,咀及同一型号的签字 笔,用3 0 0 d p i 的分辨率扫描签名数据。图3 - 1 演示一个用户的真实签名、简单伪造以 及随机伪造签名。可阻看到,该用户的真实签名彼此之间很相像,随机伪造与真实签 名有很大的区别,而简单伪造在外形上与真实签名存在一定的相似性。 因后续提取的特征需要利用签名轨迹的灰度信息故预处理的主要任务是去掉背 景干扰,尽可能保留完整的签名轨迹。因此我们先从二值化的签名图像中提取出合适 的轨迹模板进而从原图像中抽取灰度签名轨迹。 采用固定大小的表格使表格的检测、分割变得很容易,只需由外向内先检测表格 边界,即可粗略切割出每个表格单元,确保每个单元中至多包含一个签名图像。因为 1 7 亘苎三兰竺查兰堡圭兰垡! 垫 苎垒生墅堕型:垂堕璺垡堕型簦壁查堕竺墨些室 整幅表格图像中背景区域占据相当大的比例,为简化后续操作,先对签名图像旌加反 色变换。与原始签名数据相比扫描图像的对比度有所下降,背景呈现规律的不均匀 性。观察发现- 签字笔书写出的笔划通常占据3 - 5 个像素宽度,故3 * 3 的模板对签名 图像做局部对比度增强比较台适。这里选用基于l a p l a c i a n 模板的含参模板: 其中口= 0 5 。 真实签名 m e ( 口) 令侈焱鸯 简难伪造 乃也 口一i d + 5 a 一1 够玲 i p 触 o - 墩韶 三一 图3 - 1 各种类型签名数据 按下述自适应二值化规则将对比度增强后的图像转化成二值图像。丑的排列方式 如下右图所示。 成。( “) : 1 【0 且 一、v 。3 。 三( 只) n 上( 只) ,、工( 最+ 。) ,、工( 囊。) 条件为真 其他 丘 t 墨t + 一) 。0 d 8 ,对k = o ,7 三( p ) = g ( j ,_ ,) r t :事先定义的阈值 弓最b 咒( f ,_ ,) 只 b 只只 口 一 口 一一卜 上州 0 , 牟峄彳 侈 也 了 瓜椰番 芬 、彳盯 愀彳 黜 西北工业大学硕士学位论文结台先验摸型、无简单伪造训练样本的签名鉴定 二值化操作后,像素值为0 的区域是原签名图像的背景部分,像素值为1 的区域 对应签名轨迹。从图3 - 2 可以看出如果直接以像素值为1 的区域作为签名模板,则从 原图像中抽取的灰度签名轨迹将损失许多边缘信息因此我们应适当扩大签名模板的 有效范围。 利用膨胀操作,签名模板可以在适当的范围内有效地增长。考虑到原始签名数据 在边缘处呈现微小锯齿状,这里可用十字形的结构元素。 0 s e = j1 0 乃= b i n r ) s e 这样得到的签名模板在某些笔划很细的位置依然出现断裂,我们用形态学的连接 运算( b r i d g e ) 填充签名模板。b r i d g e 运算可以将连通成分中只相距一个像素的成分连 接起来。可用3 3 的原点连接结构元素对模板图作膨胀处理,并将不在原图像中但在 两个或多个膨胀成分中的所有像素与原图像连接起来。常见结构元素形式有4 连通、8 连通、对角线连通、水平连通等等。其统一表达式如下: o ( i ,j ) = p ( i ) u ( 五u 五u 五u 五u 五u 五) 其中 x 1 = 最n 只n ( 晶u 鼻u b ) n ( b u 只u 只) n x x 2 = 昂n 只n ( 最u 最u e ) n ( 只u e u b ) n z x s = 只n 只n 只n ( b u 日u b )五= b n 只n 与n ( 昂u 只u b ) 墨2 p o n 只n b n ( 昱u b u 只) x 6 。昂n 与n 置n ( 只u 只u 尼) ,。 且 。j 1 x = 厶u 岛u 厶u 厶 厶= p ( f ,- ,) n 晶n 舅n n b n 只n e n 只n b 厶= e ( i ,_ ,) n 晶n 只n b n 与n 只n 只n 只n b 厶= p ( i ,j ) o ) 以,i ,= o ,”,。 1 1 )相对方差 f i 6 , 8 = d ( m ;) i m e a n ( m ;) + ( 1 0 9 2 以) 2 其中m ;= 鸩掀( 坞) 共发矩阵与梯度方向密度分布”相类似前者统计固定矢量( 角度、距离两分量) 上的灰度值分布,后者统计角度上梯度模值的分布。相比之下,共发矩阵对图像灰度 西北工业大学硕士学位论文结台先验模型、无简单伪造训练样本的签名鉴定 的分析更细致不仅有角度信息,也有距离信息。本文采用四个固定矢量则类似于假 定梯度方向为固定的角度。基于在训练集上的实验,我们选择鼻,e ,e ,和f 。四 种特征形成1 6 维的纹理特征。 3 3 基于b o o s t i n g 的多分类器融合 模式识别过程中,分类器学习有两种途径:有监督学习和无监督学习。本文采取 有监督学习方式,即事先标定训练样本所属的类别,训练目标为训练样本集上的分类 结果与初始标定的结果尽可能接近。目前应用于签名鉴定的分类器包括最近邻距离分 类器m e d ,k - n n 距离分类器,神经网络h m m 分类器等。本系统的训练样本集合 规模较小,这不利于神经网络进行充分的学习;相比之下,最近邻距离分类器计算容 易,并能达到可接受的识别率( 超过5 0 ) ,满足b o o s t i n g 算法的使用条件。 b o o s t i n g 过程融合多个弱判决,最终形成一个强判决,在理论上可以提升任何一 种分类器的识别效果,这也是系统中没有使用复杂分类器的原因。从分类器组成结构 上看,基于b o o s t i n g 算法的组合分类器在训练过程中遵循串行综合模式,在判决过程 中遵循并行综合模式,可避免在串行模式下只能降低一种错误率的问题。 3 3 1 特征分类器 使用最近邻距离分类器,最重要的是确定合适的判决阅值t 。记真实签名样本集 # 蔓j g s = 略,埘= 1 ,m ,七= 1 ,2 ,3 ,4 ,其中m 是训练集合中真实签名的个数,k 对应特征类型。记伪造签名样本集合为f s = 碟,竹= l , ,其中n 是训练集中伪 造签名的个数。进一步,记随机伪造签名样本集合为兄f 矿= 磙,竹= l , ,简单 伪造签名集合为目谤= 碟,n = 1 , ,则有船= r f s 。u s f s 成立。 对选定的特征空间,取定真实签名集合的均值为聚类中心,记为 叫2 玄。砖 ( 3 8 ) 计算每个真实签名的特征向量与聚类中心的欧式距离, 略:f ( 略一删:) 7 ( 砝一g 叫) ) ” ( 3 9 ) 选相对聚类中心摄远的距离作为真实签名集合的特征子空间的覆盖半径, 西北工业大学硕士学位论文 结合先验模型、无 旬单伪造训练样本的签名鉴定 。= m a x ( 壤:聊= l ,、m ) ( 3 10 ) 同理计算每个伪造签名的特征向量相对于真实样本聚类中心的欧氏距离,记为 珑。选取相对聚类中心最近的距离,作为伪造签名特征子空间的分类半径。 堍。= m i n ( 璐:n = l ,) ( 3 1 1 ) 困难以选取一种特征,使得两类子空间在欧式距离的度量下完全分离,故不同类 别的子空间之间通常存在重叠区。同时,两个签名样本在不同的特征空间中的距离可 能在不同的量级上,采用绝对阈值( 即某个确定的距离值) 将失去可比性。我们定义 相对阈值, r :堕竺堕1 2 善f 一 ( 3 1 2 ) 其中盯= 压封砝一删8 2 一 有些人签名的变化范围较大其真实签名特征子空间分散程度也相应增大,我们 用类内标准方差盯描述类内散度。这样对同一个用户在四种特征空间中计算出来的 相对阈值是可比的,这也是后续系统模型得咀实施的依据之一。 3 3 2b o o s t i n g 原理 b o o s t i n g 原理起源于v a l i a n t 在1 9 8 4 年对p a c 学习模型的研究,他们首先提出是 否能将仅比随机猜测强一点的弱学习算法提升为准确率很高的强学习算法。1 9 9 5 年 f r e u n d 和s c h a p i r e 提出a d a b o o s t 算法,这是现在很多b o o s t i n g 算法的基础,也是本文 所使用的算法。b o o s t i n g ”】的基本思想是对每个样本赋予一个权重:每次迭代后,对分 类错误的样本增大权重,对分类正确的样本减小权重,使得下一次的迭代更加关注分 类错误的样本。a d a b o o s t 在二分类问题上的成功促使人们将其推广到多分类的应用中, 有a d a b o o s t m 1 ,a d a b o o s t m 2 等一系列方法。 a d a b o n s t 算法以标定好类别的训练集合( 而,m ) ,( 矗,儿) 作为输入,其中茸属于 原始样本空间x ,标号m 属于标号集y 。在二分类问题中一般设y = - 1 ,+ 1 。 a d a b o o s t 重复调用一个弱学习算法,设迭代次数为f = l ,t 。正如上文所提到,该算 法对每个样本赋予一个权重,在初始状态样本的权值是均匀分布。记第,迭代时第f 个 样本的权值为e ( i ) ,弱学习算法在样本分布d f 下进行训练- 获得一个新的弱分类器 西北工业大学硕士学位论文 结台先验模型、无简单伪造训练样本的签名鉴定 h 。用下式衡量该分类器的错误程压 q = p 。 m ) = 口( f ) ( 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论