(电路与系统专业论文)基于hmm的在线手写签名认证算法研究.pdf_第1页
(电路与系统专业论文)基于hmm的在线手写签名认证算法研究.pdf_第2页
(电路与系统专业论文)基于hmm的在线手写签名认证算法研究.pdf_第3页
(电路与系统专业论文)基于hmm的在线手写签名认证算法研究.pdf_第4页
(电路与系统专业论文)基于hmm的在线手写签名认证算法研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(电路与系统专业论文)基于hmm的在线手写签名认证算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 m l t ltl lt lii l t l t il lu l y 1817 3 3 9 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 学位论文使用授权书 劢0 ii 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :砺翻畸 导师( 签 j 日期劢f 0 i0r 中文摘要 随着信息社会的飞速发展,人们对信息安全的要求也日益增加,各种生物 识别技术也随之产生。常采用的生物特征如d n a 、虹膜、掌纹、指纹、语音、 签名、步态等,这些特征都具有普遍性和长期不变的特点。签名认证作为生物 识别领域的主流技术,因其难遗忘、易获取、应用所需设备价格低廉及高可接 受性等优点得到了更加广泛的应用。近年来科技的进步推动了签名认证技术的 发展,而签名认证技术的发展必将对电子商务和信息安全领域产生具大的推动 作用。 本文提出一种基于隐马尔可夫模型参数优化的在线手写签名认证算法。隐 马尔可夫模型能够很好地描述时间连续的动态过程,最初应用于语音识别系统, 并取得了良好的成果。鉴于语音特征与签名特征的相似性,后被学者用于签名 认证,经过十多年的发展,也取得了一定的成绩,但普遍存在认证率不高,模 型训练时收敛时间较长等问题,限制了其发展。隐马尔可夫模型的参数众多, 如模型的状态数;状态间的转移概率,状态内的观察值数目及状态内的高斯混 合元个数等,因而设置较为复杂。本文通过实验分析发现模型的拓扑结构类型、 状态数选择及状态内混合个数的设置都对认证率有着很大影响,并通过详细的 比对分析找到此模型应用于在线手写签名认证的最佳参数设置。 本文首先介绍了签名数据采集过程及预处理方法,其中重点介绍了签名曲 线特征点的提取。特征点间的横向、纵向相对速度及角度的相对变化值将作为 隐马尔可夫模型的输入观察值用于模型的建立,因此准确提取特征点是至关重 要的。然后详细论述了隐马尔可夫模型的基本理论及算法实现,并提出了解决 计算溢出及输入观察值较少等问题的办法,即动态标定和多观察样本的参数重 估。本文最后分析了不同隐马尔可夫模型的参数设置下的实验结果,计算出每 种设置下的f a r ( 误纳率) 和f r r ( 误拒率) ,并通过合理地设置判定阈值,找到了 最优参数值。 实验结果表明,在这种优化的隐马尔可夫模型参数设置下,f a r 与f r r 都 低于5 ,达到了较高的认证率,具有非常可观的应用前景。 关键词:生物识别,签名认证,隐马尔可夫模型,签名曲线分割 z 一一 y a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fi n f o r m a t i o n s o c i e t y , t h er e q u i r e m e n to f i n f o r m a t i o n s e c u r i t yi sa l s oi n c r e a s i n gb yp e o p l e ,a n dav a r i e t yo fb i o m e t r i c i d e n t i f i c a t i o nt e c h n o l o g yh a v eg e n e r a t e d b i o l o g i c a lc h a r a c t e r i s t i c s ,w h i c ha r eu s e d g e n e r a l l y ,s u c ha sd n a ,i r i s ,p a l mp r i n t s ,f i n g e r p r i n t s ,v o i c e ,s i g n a t u r e ,g a i t ,e t c ,a r e u n i v e r s a la n d h a r d l y b e e n c h a n g e d s i g n a t u r ev e r i f i c a t i o n ,a s am a i n s t r e a m t e c h n o l o g yo fb i o m e t r i c ,h a sm a n ym e r i t si nt h i sf i e l d ,s u c ha sk e e p i n gt h e i n f o r m a t i o nw i t h o u td i s t o r t i o n ,e a s yt oa c c e s s ,i n e x p e n s i v ee q u i p m e n tf o ra p p l i c a t i o n a n dh i 曲a c c e p t a b i l i t ym a k ei tm o r ew i d e l yu s e d i nr e c e n t y e a r s ,a d v a n c e si n t e c h n o l o g yp r o m o t et h ed e v e l o p m e n to ft h es i g n a t u r ev e r i f i c a t i o nt e c h n o l o g y , a n dt h e d e v e l o p m e n to fs i g n a t u r ev e r i f i c a t i o nt e c h n o l o g yi sb o u n dt om a k ee - c o m m e r c ea n d i n f o r m a t i o ns e c u r i t y 谢t ha b i gb o o s t t h i sp a p e rp r e s e n t sa no p t i m i z a t i o na l g o r i t h mf o ro n l i n eh a n d w r i t i n gs i g n a t u r e v e r i f i c a t i o nb a s e do nh i d d e nm a r k o vm o d e l ( h m m ) t h et i m e c o n t i n u o u sa n d d y n a m i cp r o c e s sc a nb ew e l l d e s c r i b e du n d e rh m m i ti s a p p l i e di ns p e e c h r e c o g n i t i o ns y s t e mo r i g i n a l l ya n da c h i e v e dg o o dr e s u l t s i nv i e wo ft h es i m i l a r i t yo f s p e e c hf e a t u r e sa n ds i g n a t u r ef e a t u r e s ,h m ma l s ob eu s e di ns i g n a t u r ev e r i f i c a t i o nb y s o m er e s e a r c h e r s a f t e rt e ny e a r so fd e v e l o p m e n t ,t h e ya l s oh a v ea c h i e v e dc e r t a i n r e s u l t s b u tt h eu n i v e r s a ll o wv e r i f i c a t i o nr a t e s ,al o n gt i m eo ft r a i n i n ga n do t h e r d i s a d v a n t a g el i m i ti t sd e v e l o p m e n t t o om a n yp a r a m e t e r so fh m m ,s u c ha s t h e n u m b e ro fm o d e ls t a t e s ,t r a n s i t i o n p r o b a b i l i t i e sb e t w e e ns t a t e s t h en u m b e ro f o b s e r v a t i o n sw i t h i nt h es t a t ea n dt h es t a t eo ft h eg a u s s i a nm i x t u r ee l e m e n tn u m b e r , s e tt h em o d e lm o r ec o m p l e x t h ep a p e rf o u n dt h a tt h et y p eo ft h em o d e l ,t h en u m b e r o fs t a t ea n dt h en u m b e ro fs e t t i n g sw i t h i nt h em i x i n gr a t eh a sa s i g n i f i c a n ti m p a c to n t h ev e r i f i c a t i o n b ye x p e r i m e n t ,a n dt h e np r o p o s e da l lo p t i m i z a t i o no fm e t h o d p a r a m e t e r so fh i d d e nm a r k o vm o d e l t h i sp a p e ri n t r o d u c e st h em e t h o do fs i g n a t u r ed a t ac o l l e c t i o na n dp r e t r e a t m e n t p r o c e s sf i r s t l y , a n df o c u s e so i lf e a t u r ep o i n t s e x t r a c t i o no fs i g n a t u r ec u r v e h o r i z o n t a l a n dv e r t i c a lv e l o c i t y , t h ec h a n g eo fa n g l eb e t w e e nf e a t u r e sp o i n t sa r eu s e da si n p u t o b s e r v a t i o n sf o rt h em o d e l t h e r e f o r e ,a c c u r a t ee x t r a c t i o no ff e a t u r e p o i n t si s i i 一 量 e s s e n t i a l s e c o n d l y ,d i s c u s s e st h eb a s i ch i d d e nm a r k o vm o d e lt h e o r ya n da l g o r i t h m s i nd e t a i l ,a n dp r o p o s e st os o l v et h ep r o b l e m ss u c ha sc a l c u l a t i o no v e r f l o wa n ds m a l l n u m b e ro fi n p u to b s e r v a t i o n s ,n a m e l y , d y n a m i cc a l i b r a t i o na n dm u l t i - s a m p l e s p a r a m e t e r so fr e v a l u a t i o n f i n a l l y , t h i sp a p e ra n a l y s er e s u l t so fd i f f e r e n tp a r a m e t e r s e t t i n g so fh m m ,a n dt h ef a r ( f a l s ea c c e p t a n c er a t e ) a n df r r ( f a l s er e j e c t i o n r a t e ) a r ec a l c u l a t e do fe a c hs e t t i n g ,t h r o u g hs e t t i n gt h er a t i o n a ld e c i s i o nt h r e s h o l dt o f i n do p t i m a lp a r a m e t e rv a l u e s e x p e r i m e n t a lr e s u l t s s h o wt h a tt h i s o p t i m i z a t i o np a r a m e t e rs e t t i n go fh m m a c h i e v e sah i g h e rv e r i f i c a t i o nr a t e ,b o t hf a ra n df r ra r el e s st h a n5 ,a n d 也e s i g n a t u r ev e r i f i c a t i o nw i l lh a v eav e r yi m p r e s s i v ea p p l i c a t i o n k e y w o r d :b i o m e t r i c ,s i g n a t u r ev e r i f i c a t i o n ,h i d d e nm a r k o vm o d e l s ,s i g n a t u r ec u r v e s e g m e n t a t i o n i i i 归 目录 第1 章绪论1 1 1 课题研究背景1 1 2 生物识别技术简介1 1 3 在线手写签名认证概述及发展现状3 1 3 1 在线手写签名的认证原理及评价3 1 3 2 在线手写签名认证的研究现状5 1 4 论文结构安排7 1 4 1 论文的主要内容7 1 4 2 论文的组织结构7 第2 章签名预处理及观察值提取9 2 1 数据采集及预处理- 9 2 2 签名曲线特征点提取1 1 第3 章隐马尔可夫模型原理及实现1 3 3 1h m m 的定义及描述1 3 3 1 1h m m 定义及其参数1 3 3 1 2h m m 分类及其拓扑结构1 5 3 2h m m 的核心算法实现1 6 3 2 1 前向后向算法1 7 3 2 2v i t e r b i 算法2 0 3 2 3b a u m w b l c h 算法2l 3 3h m m 算法修正2 3 3 3 1 动态标定2 3 3 3 2 多观察样本的参数重估算法2 5 第4 章基于h m m 的签名认证2 7 4 1 认证体系结构2 7 4 2 观察值选择及运算2 7 4 3 模型描述与初始化3 2 i v v 武汉理工大学硕士学位论文 1 1 课题研究背景 第1 章绪论 社会的进步、网络信息化的迅速发展,使得信息交换与资源共享越来越便 捷,大量的金融贸易和信息的传递都通过计算机网络来进行,但随之来的信息 安全问题也日益严型。如何准确、有效地鉴别一个人的身份在信息安全领域显 得至关重要。 传统的身份识别方法,如电子口令、身份证等各种证件、d 卡、钥匙等, 由于易遗忘、丢失,且容易被复制,因此存在严重的安全隐患,已无法满足现 代社会对信息安全级别的要求。信息安全,大到国家政治、军事等机密信息, d , n 公司商业机密、个人身份信息等,无论是被窥视或是盗用,都会使受害群 体损失巨大。例如在2 0 0 6 年6 月至1 0 月间,黑客用计算机病毒程序,盗用北 京网通客户a d s l 账号购买联众会员资格、游戏点卡等网络产品,使网通公司 损失了4 0 余万元。2 0 0 8 年9 月,安全公司a l a d d i nk n o w l e d g es y s t e m s 的安全研 究主管伊恩阿米特( i a na m i t ) 在该公司的一位长期客户的服务器中发现了 n e o s p l o i t 黑客工具包,黑客组织利用这个工具包获得了超过2 0 万个网站的登陆 信息。 过多的案例使人们意识到,传统的身份鉴别方法已不再可靠,人们所需求 的是更安全、有效、方便的身份鉴别途径,生物识别技术便是在此背景下产生, 并得到了越来越多的重视。 利用签名来确认信息自古以来就广为人们所接受,如各类文件的签署,接 收快递的确认、银行开户和会议签到等等。现代社会,人们越来越追求签名的 个性化与美观化,使其难以模仿。另外,签名相对于其他生物识别技术而言价 格低廉,更加具有可操作性,一直在生物识别领域处于重要地位。 1 2 生物识别技术简介 生物识别技术是指通过计算机与物理学上的声学、光学及生物传感器和统 武汉理工大学硕士学位论文 计学原理等高科技相结合,利用人们的固有生理特征,来进行身份识别的技术。 所谓“固有的生理特征,包括两方面,其是指人们与生俱来,即先天性的 一些特征,如指纹、虹膜、掌纹、脸像等;其二是指人们长期的生活习惯所形 成了一些惯性姿态,如签名、步态、语音等。 一般来说,能用于认证识别的生物特征应具备以下几个特点【2 】: ( 1 ) 广泛性:即是人们所共用的特征。 ( 2 ) 易获取性:容易被采集到用于认证的后序工作。 ( 3 ) 稳定性:在短时间内不会发生变化,可为认证提供可依据性。 ( 4 ) 差异性:不同人的此类生物特征应具有差别,可区分性。 ( 5 ) 可接受性:人们愿意提供此类生物特征用于身份认证。 ( 6 ) 性能要求:基于此类生物特征的身份认证系统能够达到足够的识别率。 ( 7 ) 非侵犯性:即不易被模仿、伪造。 ( 8 ) 实用性:基于此生物特征所开发的认证系统所需设备价格适当,认证花 费时间短。 目前已投入使用的生物识别技术有很多种,常见的如基因( d n a ) 、虹膜、指 纹、掌纹、人脸识别、语音识别掣3 1 。相比之下,d n a 的识别精度最高,错误 率在百万分之一以下,但其必须采用人类的活体组织样本并需要做大量的实验, 对实验环境和条件要求也比较高,因此一般只在无法采用其他办法识别的情况 下使用,例如飞机失事时无身份人的来源确认、亲子鉴定等。虹膜认证是利用 人们眼睛里独一无二且终身不变的虹膜纹理来进行身份识别,一般出错率在 o 1 以下,但其易被眼睑或眼睫毛遮挡,完整、清晰的采集有一定的困难,另 外,对于有眼疾的人群,如盲人、患白内障的人来说,这种认证方法就会失效, 并且,虹膜认证所需要的专用摄像头的报价最低为4 0 0 0 美元,价格过于昂贵, 不利于普及,目前只用于一些商业巨头公司或政府部门,如美国德克萨斯洲联 合银行便在其营业部装备了虹膜识别系统,用户可以在既没有携带银行卡也没 回忆密码的情况下提取现金,为人们带来了极大的便利。指纹认证系统目前已 加入部分笔试本电脑中,用于用户登录时身份认证,它是目前生物识别技术中 最成熟的一种,具有识别速度快、识别率高且稳定可靠、安全性强等优点,但 指纹痕迹为复制、伪造指纹提供了可能性,利用当前的科学技术完全可以克隆 指纹【4 j 。掌纹识别在上世纪9 0 年代,由美国g a r r e t t 博士首创,经过近2 0 年来技术不断改进,目前基于掌纹的认证系统产品的稳定性与可靠性已得到了 2 武汉理工大学硕士学位论文 市场的肯定并逐步采用,但其与虹膜认证系统同样需要昂贵的设备支撑,不利 于普及,并且手掌一旦受伤,就永远无法还原【5 】。人脸识别是利用高清晰摄像机, 定位人的面部,自动检测人脸图像并跟踪,进而对图像进行一系列的技术处理, 达到身份识别的目的。目前也有产品投入市场,例如,为加强机场防务的安全 性,美国的两家机场便使用了维萨格公司的人脸识别技术,它能在拥挤的人群 中判断某个人是不是通缉犯。但是,人的面部表情、年龄的变化以及采集时的 光线、角度和距离等因素对识别率带了一定的负面影响【5 】,因而识别率相对于前 面所谈到的几种生物识别方法而言并不是很高。语音识别目前也是一个研究热 点,常见的应用就是将语音识别技术植入到手机,用户说出电话薄里的某个名 字,手机就可以自动拨号,省去了按键的麻烦,对于经常开车的人来说非常便 捷。但如何在噪声环境下有效的识别目标语音,并克服说话时人的情绪、身体 状况( 如感冒时嗓子嘶哑) 的影响,仍然是个难点。 本文所研究的在线手写签名认证,与上述几种生物识别技术相比一个显著 的优点就是可接受性非常高,古往今来,人们早就习惯以自己的签名来表达对 某事件的认可或标明自己的身份。另外,这种认证系统所需设备低廉,只需在 用户的计算机上安装一个认证软件,并配套使用一个手写板即可。因此,在线 手写签名认证必定会有非常好的应用前景。 1 3 在线手写签名认证概述及发展现状 1 3 1 在线手写签名的认证原理及评价 根据不同的应用背景,生物识别主要分为两类【6 】:身份鉴 j 1 ( i d e n t i f i c a t i o n ) 与身份认i i e ( v e r i f i c a t i o n ) 。前者是利用测试样本与数据库中大量的样本比对,寻 找测试样本的所有者,即“一对多”模式;后者是已知测试样本所对应的人, 通过各种技术及理论算法判别此样本的真伪,即“一对一 模式。 在线手写签名认证技术便是典型的“一对一生物识别模式。这种技术的 认证流程如图1 1 所示。 3 武汉理工大学硕士学位论文 样本数据 采集 测试 签名样本 建立签名卜一数据预处理 墼塑堕 一j l t 一 , l 签名分割 i 峄 数握羹譬詈及 _ - 赢 特征提取ll ! :! ! = :! 似度判断? 真实签名 伪造 签名 图1 1 签名认证流程图 第一步是样本的数据采集,将采集到的数据存入数据库中以备调用。第二 步是预处理,因为原始签名信息中存在大量的噪声,人在每次签名时的心理因 素、每次签名的大小不一及手写板光滑等都对认证产生一定的负面影响,所以 这个过程是非常重要且必须的。第三步是根据认证所采用的算法提取相应的特 征。第四步是分类器的设计,即采用何种算法或理论思想来认证,以达到足够 高的认证率。通过算法分析后的相似度判断,最终就可以识别出签名的真伪。 由于签名者的年龄变化、签名耗费时间、环境的改变、心理状态及认证系 统的硬件设施的影响,目前的认证的算法并不能保证1 0 0 的识别率。根据签名 本身的真伪性,将认证错误率分为两类【_ 7 】:误纳率( f a r , f a l s ea c c e p t a n c er a t e ) 与误拒率( f r u lf a l s er e j e c t i o nr a t e ) ,计算式如式( 1 1 ) : 笔嚣筹圳姒 、 f r r = 鼍纂筹川。 ? j 常用的认证曲线描述图有两种,如图1 2 所示。图( a ) 是同时在坐标系中表示 出f a r 和f r r 随着阈值的变化而改变的趋势。理想情况下,f a r 与f r r 能用 某种签名特征完全区分开来,但实际上由于熟练伪造签名的存在,难以寻找足 够好的特征项用于鉴别,因此f a r 与f r r 曲线总是存在交叉现象,交叉点处定 义为认证的等误率( e e r , e q u a le r r o rr a t e ) ,也是一种常用于评判认证系统好坏的 武汉理工大学硕士学位论文 一项指标。图( b ) 是r o c 曲线,将f a r 与f r r 表示为一条曲线,再引出e e r 线, 常用于比较多种算法条件下的认证率,e e r 越小的,认证率越高,如图( b ) 中采 用点虚线表示的e e r 最小,也即认证效果最好。 错 误 蛊 f a r ( ) 图1 2认证曲线示意图 1 3 2 在线手写签名认证的研究现状 在线手写签名认证算法可以追溯到上世纪6 0 年代中期,第一篇关于手写签 名认证论文的作者利用功率谱和过零点【8 j ,对签名过程的加速度进行分析认证, 最终获得3 7 的错误率。过去的四十多年里,大量学者尝试用不同的算法进行 签名认证,并取得了丰硕的成果。 在线手写签名发展至今,主要分为三类方法: ( 1 ) 基于参数的匹配法。通过采集到的原始签名信息提取出多种全局特征和 局部特征,其中,全局特征如签名总时间、笔划数目、长宽比等,局部特征如 签名的中心坐标、速度或压力的最大值或最小值等f 9 】【10 1 。将所提取到的参数用一 个多维特征向量表示,再通过比较此多维向量之间的匹配度来判定是否为真实 签名。 具有代表性的如b e a t s o n 、d e b r u y n e 等人的方法:首先设置一个参数集,再 从中挑选适合签名认证的参数用于后续实验【l l 】【1 2 】。挑选最佳参数的标准是在真 伪签名中具有较大的差异,但在熟练伪造签名中较难实现,因此这种方法只适 应区分真实签名与随机伪造签名,对于真实签名与熟练伪造的区分度较低,不 适于推广应用,目前已较少采用单独的参数匹配法用于签名认证。 武汉理工大学硕士学位论文 ( 2 ) 基于点对点的模板匹配法【l3 1 。一般情况下,从手写板可以直接得到签名 采样点的横坐标、纵坐标和压力。利用这些信息也可以通过数学计算得到签名 时的速度、加速度等特征( 由于是均匀采样,因此速度是位移的导数,而加速度 是位移的导数) 。这类匹配方法常归结为签名特征的曲线相似度比较,即将签名 采样点的特征用曲线表示,计算曲线之间距离,通过距离值来判定是否为真实 签名,常用算法有演化算法【1 4 】、离散f 距l l5 】等,也可以采用多种算法的融合算 法进行认证分析【1 6 1 。 通常点对点的匹配方法存在两个必须解决的问题,一是每次签名所获得的 采样点必然不同;二是即使同一个人书写的签名,也会存在笔画数不一致的情 况。这都导致无法将两条曲线的每一点都相互对应比较。 h e r b s t 等人最先提出此问题的解决办法。即对手写笔进行改进,使其可以获 得两个垂直方向的加速度,以每秒2 0 0 点的采样速度提取签名信息,然后利用 区域内相关算法进行认证【l 7 1 。柯晶、乔谊正继承了区域相关算法的思想,将签 名分段后,每一段对应于一个特征区域,利用动态规划方法找到待测签名同参 考签名的匹配距离,达到了9 1 的识别率i l 引。另外,动态时间规整( d y n a m i c 弛e w a r p i n g ,d t w ) t 1 9 1 、分类树匹配也常用于解决此类问题。p a r i z e a u 等人对这三 种算法进行了比较分析,认为区域相关算法最为稳定【2 。但在文章中,p a r i z e a u 却忽视了d t w 的时间调整幅度这一重要指标【2 2 1 。近年来,d t w 也有了一定的 发展,如k u l b a c k i 等人提出一种基于d t w 的改进算法:v d d t w ,并取得了很 好的结果【2 3 1 。栾方军等人将v d d t w 应用于签名认证,获得了e e r 为3 的实 验结果 2 4 1 。 ( 3 ) 基于统计模型的匹配法。通过计算待测签名相对于真实签名的模型的输 出概率进行分类来认证。隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m ) 是这类 算法的主流。鉴于其在语音识别中的成功运用,且在线手写签名特征数据有着 与语音特征数据同为时序信号等相似点,l y a n g 等人将h m m 率先用于在线手 写签名认证的研究【25 。,并取得了一定的成果。 h m m 可分为离散隐马尔可夫模型( d i s c r e t eh i d d e nm a r k o vm o d e l s ,d h m m ) 与连续隐马尔可夫模型( c o n t i n u o u sh i d d e nm a r k o vm o d e l s ,c h m m ) 两大类,主要 与输入观察值序列是否连续有关。对h m m 应用于在线手写签名的研究,部分 学者着眼于对算法的改进,如全中华在其论文中采用了自回归h m m 、含有状态 连续时间密度函数的h m m 来进行在线手写签名论证1 26 。,最终获得1 0 左右的 6 武汉理工大学硕士学位论文 错误率:部分学者着眼于样本的选择对实验结果的影响,如n w a d a 等人在论文 中详细探讨了不同时间所选取的训练样本对最终所建的h m m 的认证识别率的 影响1 2 ”;另外,由于在线手写签名的研究中,一般要将签名曲线分段处理,因 此签名分段的好坏也至关重要,也有学者对签名分段作了重点研究,应用较多 的如j b r a u l t 的拐点提取法 2 8 l ,m m s h a f i e i 也提出了一种动态的签名分割方法 【2 9 1 ,并取得了较好的效果。h m m 参数众多,在模型建立之初需对其各种参数进 行初始化设置。但却鲜有文章对不同的参数设置所带来的不同的认证结果进行 详细分析,程开东等人1 3 0 】虽对不同的状态数和不同的h m m 转移情况进行了分 析,却忽视了所应用的c h m m 的高斯混合个数也将对实现结果产生影响,仅选 用单个高斯混合进行实验。 此外,神经网络【3 l j 【3 2 1 、遗传算法等也被用于签名认证。 1 4 论文结构安排 1 4 1 论文的主要内容 本文重点研究了一种基于h m m 的相关参数优化选择算法,解决了h m m 参 数众多,设置困难等问题,并提出了一套完整的认证方案,包括数据采集、签 名曲线预处理、特征点的提取、模型观察值的计算、模型的初始化及训练,最 后选取适当的阈值对测试签名进行认证。由实验的最终结果来看,有效的提高 了认证率,证实了方案的可行。 1 4 2 论文的组织结构 整篇论文共分5 章。组织结构如下: 第一章,绪论。提出了课题的研究背景,详细介绍了几种已投入市场的生 物识别技术,指出在线手写签名认证与之相比的优点,并介绍了在线手写签名 的认证原理及评价标准、国内外研究现状和面临的问题, 第二章,签名数据采集及预处理。说明了数据采集的过程及预处理的方法。 重点介绍了签名曲线特征点的提取方法。 第三章,隐马尔可夫模型。介绍了隐马尔可夫模型的定义及参数、分类、 拓扑结构,以及隐马尔可夫模型的三个基本算法和实现问题。 武汉理工大学硕士学位论文 第四章,基于h m m 的签名认证。介绍了认证体系结构、观察值选择及计 算方法,模型描述及初始化、h m m 训练与认证过程,最后通过大量实验比对分 析出认证结果。 第五章,总结与展望。总结了本文的工作后提出了几点不足之处,并提出 了有待进一步研究的问题及实施方案。 8 武汉理工大学硕士学位论文 第2 章签名预处理及观察值提取 2 1 数据采集及预处理 本文研究所采用的数据采集都是通过w a c o m 公司生产的一款手写板,它 能以每秒2 0 0 点的速度对书写信息进行采样,并将每一个人的签名保存为一个 “h ”文件,然后将这个文件存入数据库,最终获得的数据库拥有l1 5 0 个签名 样本,其中包括4 5 5 个真实签名,3 4 5 个随机伪造签名,2 5 0 个熟练伪造签名。 另外,从这个“h 文件可得到与此文件相对应的签名的一个三维信息 ( 薯,咒,b ) ,其中薯,咒分别为签名曲线的横、纵坐标,b 为签名时的书写压力。 由这三维信息进行预处理、特征提取后就可以进行后续的签名认证工作了。 由于手写板的光滑、签名者每次签名的力度不同及每次签名在手写板的不 同地方导致采集数据差别很大等原因,影响了认证率,因此,对签名数据进行 预处理是必要的。+ 对于预处理过程,不同的学者采用了不同的方法。如y u e 等人根据弧长对 签名样本重采样,使重采样后的签名与原始样本的采样点数相同【3 3 1 ,k a s h i t 3 4 】等 人则利用傅立叶变换将具有时域特性的签名信号转到频域中再进行预处理分 析。 一般而言,适当的预处理可以有效地提高认证率。所谓“适当”,是指在保 持真伪签名之间差异的同时,缩小真实签名之间的差异。因此,预处理过程不 应过于复杂也不能省略。本文的预处理过程主要分三步进行,具体步骤如下: ( 1 ) 高斯平滑 本系统采用一维高斯滤波器对签名原始信息进行平滑处理,目的在于消除 签名信息获取时所引入的噪声,所用滤波器可表示为 一兰| l j l q = p2 f 2 e 2 矿 ( 2 一1 ) | | = 一l 其中,l = 2 0 ,仃= 1 。则经过平滑后签名信息表示为 9 武汉理工大学硕士学位论文 , t , y t , p t斗踟 弘2 , 但) 大小归一化 考虑到大多数人的签名为两到三个字,将每个人的签名都缩放到一个长为 3 0 0 ,宽为1 0 0 矩形包围框中,计算式如( 2 3 ) 所示: 五。:3 0 0 立玉 “一“曲 ( 2 3 ) 咒”:1 0 0 粤型 y 一y 豳 式( 2 3 ) 中,。、分别为平滑后签名横、纵坐标的最小值,七、蚝。分 别为平滑后签名横、纵坐标的最大值。值得注意的是,在所得到的签名数据中 葺,y t 同时为0 的采样点为无效采样点,如将无效采样点计算在内,则无法通过 签名采样信息还原签名曲线。 ( 3 ) 落笔与抬笔点处理 由于手写板的光滑,书写人在签名的时候往往在落笔处和抬笔处会出现短 小的转折笔画,为签名认证增大了误差,应予以滤除。通过对大量签名信息的 比对,可发现,这种笔勾大多只有6 、7 个采样点,并且这6 、7 个采样点所形 成的笔段与后一笔段的角度变化明显,为此本文通过设置长度阈值与角度阈值 对这些笔段予以滤除。图2 1 为某签名通过预处理前后的签名曲线对比及预处理 之后的三维信息曲线。 蜷 割 番 1 0 4 x 鼍 剡 悉 ( a ) 预处理前签名( b ) 预处理后签名 1 0 武汉理工大学硕士学位论文 魁 馨 心 逛 x 刨 罄 价 j ! 坚 ( c ) 预处理后横坐标曲线( d ) 预处理后纵坐标曲线 鲻 1 理 小 逛 ( e ) 预处理后压力曲线 图2 1 预处理前后签名及曲线图 2 2 签名曲线特征点提取 本文所指签名特征点,包含两类采样点,一类是签名每段笔划的落笔点与抬 笔点;一类是签名笔画的拐点。由于每个人都有自己的签名习惯,落笔、抬笔 及每段笔画在何处转折都有一定的惯性,因此对于不同人的签名具有很好的区 分度。本文选取这些特征点处的信息作为h m m 的输入观察值,进行签名认证。 因此,签名曲线的稳定分割不仅对预处理中的落笔与抬笔处理有影响,也将直 接影响到h m m 的最终认证效果。 本文参照程开东等人的方法【3 0 1 ,对j b r a u l t 的拐点提取方法嘲进行改进,具 体算法如下: ( 1 ) 标记每段签名笔划的落笔点与抬笔点处为特征点k 、。 武汉理工大学硕士学位论文 ( 2 ) 求取每段笔划k 与之间的采样点p 与其前三点p 一,和后三点只+ ,之 间的角度2 ,如图2 - 2 所示。即有 = c o s - i 谢搿 p 4 , 且只【o 。,1 8 0 。】。 图2 2 签名角度提取示意图 ( 3 ) 对签名角度序列进行差分,取差分值小于0 处且对应角度2 o 。,1 4 5 。】的 采样点,标记这些采样点的位置。 ( 4 ) 若所提取的拐点存在相邻点,则比对相邻点之间所对应的角度值,取角 度值小的点为此处的拐点。 对预处理后的签名曲线进行特征点提取后的图如图3 所示,其中图( a ) 为签 名曲线,圈点所标注的即为特征点,图( b ) 为此签名字型“张 所对应的角度序 列,圆点所标注的为此字型对应的特征点。 1 0 0 8 0 6 0 x 4 0 2 0 0 ? j 产嚣 乏弩? 0 1 0 0 2 0 03 0 0 x ( a ) 签名特征点示意图( b ) 字符“张 的角度曲线 图2 3 某签名特征点及角度曲线 武汉理工大学硕十学位论文 第3 章隐马尔可夫模型原理及实现 3 1h m m 的定义及描述 3 1 1h m m 定义及其参数 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是一种概率统计模型,由 1 9 0 6 - - 1 9 1 2 年间,俄罗斯数学家a n d r e ia m a r k o v 提出的马尔可夫链( m a r k o v c h a i n ) 发展而来【3 5 】。马尔可夫链是具有马尔可夫性质的离散时间随机过程。 对于随机序列矗,在任意时刻聆,可以处于状态最,0 2 ,皖,且它在m + l 时 刻所处的状态q 。“只与它在m 时刻的状态g 。有关,而与m 时刻之前的状态无关, 即具有马氏性( 或无后效性) ,其条件概率满足式( 3 1 ) : p ( x m + 女2 q m + 女i 2 ,靠一l2 q m - l x t2 q1)(3-1) = p ( + 女= q 。“l x m = ) 式( 3 - 1 ) 中 吼,9 2 ,g 。,q 朋+ t ( q ,0 2 最) 则称矗为马尔可夫链,简称马氏链。 条件概率 p , j ( m ,m + k ) = p ( + = 口,l q 。= 谚) ,1 f ,j 聆 ( 3 - 2 ) 为马尔可夫链吒的k 步转移概率。一般地,转移概率p ,j ( m ,m + k ) 不仅与状态f , 有关,而且与时刻m 有关。当只,( 小,m + 后) 不依赖于m 时,称此马尔可夫链是齐 次的,并记己( 肌,r e + k ) 为g ( k ) 。 本文所指马尔可夫链,都是指的齐次马尔可夫链。设彳表示一步转移概率a , 所组成的矩阵,即转移概率矩阵,则有 它具有以下性质: 1 o a g 1 a = ( 3 3 ) n 疗 行 吃一 武汉理工大学硕士学位论文 2 y a ,:1 j 一口 j = l 隐马尔可夫模型本质上是一个二重随机过程,即是在状态变化及观察值变 化这两个随机过程基础上建立而来。在一般的马尔可夫模型中,观察值和状态 对于观察者来说都是直接可见的。而在隐马尔可夫模型中,观察值可测,状态 并不是直接可见的,在状态变化的随机过程中无法准确的指出某个时刻到底处 于哪个状态,也就是说,状态的变化是隐含的。每个状态在可能输出的观察值 上都有一个概率分布,因此从输出的观察值序列中可以得到一些状态序列的信 息,利用这些信息可用于进一步的分析。 h m m 结构包括以下五个参数1 3 6 】: ( 1 ) :模型状态数。h m m 状态s 集合记为s = s ,逆,s ) ,而f 时刻的 状态表示为g f 。虽然h m m 状态是隐藏起来的,但在许多实际应用中,模型的状 态或状态集合常常有着某种物理意义。例如在建立一个季节变化与海藻外观变 化关系的h m m 时,可将春天、夏天、秋天和冬天这四种季节分别对应于h m m 的一个状态。当所研究对象的状态不具备明确的物理意义时,也可人为的指定 其状态数,如定为4 、6 或1 0 状态等。一般来说,状态之间都是互相联系的, 如在遍历性模型中,任何一个状态都可以由其它任一状态转移而来,在非遍历 性模型中,状态之间也可以有其它的联系方式。 ( 2 ) m :每个状态所对应的可能的观察值数目。对于离散隐马尔可夫模型 ( d h m m ) 而言,每个状态所对应的观察值数目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论